CN105679306A - 语音合成中预测基频帧的方法及系统 - Google Patents

语音合成中预测基频帧的方法及系统 Download PDF

Info

Publication number
CN105679306A
CN105679306A CN201610091573.9A CN201610091573A CN105679306A CN 105679306 A CN105679306 A CN 105679306A CN 201610091573 A CN201610091573 A CN 201610091573A CN 105679306 A CN105679306 A CN 105679306A
Authority
CN
China
Prior art keywords
fundamental frequency
phoneme
frame
phonetic feature
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610091573.9A
Other languages
English (en)
Other versions
CN105679306B (zh
Inventor
刘青松
许东星
王鸣
黄盼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yunzhixin Intelligent Technology Co Ltd
Unisound Shanghai Intelligent Technology Co Ltd
Original Assignee
SHANGHAI YUZHIYI INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI YUZHIYI INFORMATION TECHNOLOGY Co Ltd filed Critical SHANGHAI YUZHIYI INFORMATION TECHNOLOGY Co Ltd
Priority to CN201610091573.9A priority Critical patent/CN105679306B/zh
Publication of CN105679306A publication Critical patent/CN105679306A/zh
Application granted granted Critical
Publication of CN105679306B publication Critical patent/CN105679306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种语音合成中预测基频帧的方法及系统,该方法包括:输入待合成语音的文本信息;将所述文本信息转化为语音特征帧序列;预测每一语音特征帧是否为基频帧,以形成基频预测结果;将所述文本信息转化为音素信息序列;判断每一音素是否为含基频信息音素,以形成辅助信息,每一音素对应多个语音特征帧;以及将所述音素信息序列与所述语音特征帧序列相对应,并根据所述辅助信息修正所述基频预测结果以形成语音帧是否含有基频信息的结果。本发明从输入的文本信息中提取音素信息,利用音素信息是否带基频作为辅助信息,对基频预测结果进行修正,实现提高基频帧预测的准确率,进而提高合成后的语音的自然度,优化声音效果。

Description

语音合成中预测基频帧的方法及系统
技术领域
本发明涉及语音合成领域,特指一种语音合成中预测基频帧的方法及系统。
背景技术
语音合成是指将输入的文本信息转化为声音的系统,语音合成系统分为两个模块,前端处理模块和后端模块。在前端中对文本进行分析,输出带有发音以及分词、词性等和韵律停顿相关的信息。后端模块利用前端模块的输出信息和原始语音提出的特征,分别训练倒谱模型,基频模型和时长模型。
为了描述方便,含有基频信息的语音特征帧称之为基频帧,不含基频信息的语音特征帧称之为非基频帧。在合成时,合成系统的后端模块中需要对当前语音特征帧(帧长一般为5ms)是否是基频帧做出预测。基频帧其预测的数值接近于1,非基频帧其预测的数值接近于0。现有的做法是采取固定的阈值判断,典型的阈值为0.5,预测值高于阈值0.5,系统判断为基频帧,预测值低于阈值0.5,系统判断为非基频帧。
这种判断方式,在两个音素的边界点处的准确率较低,而将基频帧误判为非基频帧会导致相应的语音听起来不连续和沙哑,合成系统语音的自然度较差,效果不佳。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种语音合成中预测基频帧的方法及系统,解决现有技术中基频帧的判断准确率低,使得合成后的语音存在发音不连续、沙哑、和自然度较差的问题。
实现上述目的的技术方案是:
本发明一种语音合成中预测基频帧的方法,包括:
输入待合成语音的文本信息;
将所述文本信息转化为语音特征帧序列;
预测所述语音特征帧序列中的每一语音特征帧是否为基频帧,以形成基频预测结果;
将所述文本信息转化为音素信息序列;
判断所述音素信息序列中每一音素是否为含基频信息音素,以形成辅助信息,每一音素对应多个语音特征帧;以及
将所述音素信息序列与所述语音特征帧序列相对应,并根据所述辅助信息修正所述基频预测结果以形成语音特征帧是否含有基频信息的结果。
本发明从输入的文本信息中提取音素信息,利用音素信息是否带基频作为辅助信息,对基频预测结果进行修正,实现提高基频帧预测的准确率,进而提高合成后的语音的自然度,优化声音效果。
本发明语音合成中预测基频帧的方法的进一步改进在于,预测所述语音特征帧序列中的每一语音特征帧是否为基频帧,以形成基频预测结果,包括:
计算每一语音特征帧是否为基频帧的概率,形成对应所述语音特征帧序列的概率序列;
设定预测阈值,将所述概率序列中高于所述预测阈值的概率所对应的语音特征帧判断为基频帧,将所述概率序列中低于所述预测阈值的概率所对应的语音特征帧判断为非基频帧,从而形成了对应所述语音特征帧序列的所述基频预测结果。
本发明语音合成中预测基频帧的方法的进一步改进在于,判断所述音素信息序列中每一音素是否为含基频信息音素,以形成辅助信息,包括:
将语言中的所有音素以是否带基频进行分类,形成含基频信息音素集合和无基频信息音素集合;
将所述音素信息序列中的每一音素与所述含基频信息音素集合和无基频信息音素集合进行比对,以得出所述音素是否为含基频信息音素,进而形成对应所述音素信息序列的辅助信息。
本发明语音合成中预测基频帧的方法的进一步改进在于,根据所述辅助信息修正所述基频预测结果以形成基频识别结果,包括:
获取所述辅助信息中的所有含基频信息音素;
获取所有含基频信息音素所对应的语音特征帧,对所获取的语音特征帧中为非基频帧的语音特征帧进行修正。
本发明语音合成中预测基频帧的方法的进一步改进在于,获取所有含基频信息音素所对应的语音特征帧,对所获取的语音特征帧中为非基频帧的语音特征帧进行修正,包括:
对每一含基频信息音素对应的语音特征帧所形成的语音特征帧范围进行位置划分,划分为前部位置、中部位置、以及后部位置;
判断当前的语音特征帧在对应的语音特征帧范围内的位置,若当前的语音特征帧在所述中部位置,则对当前的语音特征帧的基频预测结果不进行修正;
若当前的语音特征帧在所述前部位置,且在音素信息序列中与当前的语音特征帧所在的音素相邻的前一音素为含基频信息音素,则将当前语音特征帧修正为基频帧;
若当前的语音特征帧在所述后部位置,且在音素信息序列中与当前的语音特征帧所在的音素相邻的后一音素为含基频信息音素,则将当前语音特征帧修正为基频帧。
本发明还提供了一种语音合成中预测基频帧的系统,包括:
文本输入模块,用于输入待合成语音的文本信息;
预测判断模块,与所述文本输入模块连接,用于将所述文本信息转化为语音特征帧序列,并预测所述语音特征帧序列中的每一语音特征帧是否为基频帧,以形成基频预测结果;
音素判断模块,与所述文本输入模块连接,用于将所述文本信息转化为音素信息序列,并判断所述音素信息序列中每一音素是否为含基频信息音素,以形成辅助信息;以及
基频修正模块,与所述预测判断模块和所述音素判断模块连接,用于将所述音素信息序列中的音素和所述语音特征帧序列中的语音特征帧相对应,并根据所述辅助信息修正所述基频预测结果以形成语音特征帧是否含有基频信息的结果,每一音素对应多个语音特征帧。
本发明语音合成中预测基频帧的系统的进一步改进在于,所述预测判断模块中包括有计算子模块、存储子模块、以及判断子模块;
所述计算子模块用于将所述文本信息转化为语音特征帧序列,并计算每一语音特征帧是否为基频帧的概率以形成概率序列;
所述存储子模块内存储有设定的预测阈值;
所述判断子模块与所述计算子模块和所述存储子模块连接,用于比较对应所述语音特征帧的所述概率与所述预测阈值的大小,当所述语音特征帧对应的所述概率大于所述预测阈值时,判断所述语音特征帧为基频帧,当所述语音特征帧对应的概率小于所述预测阈值时,判断所述语音特征帧为非基频帧,以形成所述基频预测结果。
本发明语音合成中预测基频帧的系统的进一步改进在于,所述音素判断模块中包括有含基频信息音素集合表、无基频信息音素集合表、以及音素处理子模块;
所述含基频信息音素集合表中存储有语言中所有带基频的音素;
所述无基频信息音素集合表中存储有语言中所有不带基频的音素;
所述音素处理子模块与所述含基频信息音素集合表和所述无基频信息音素集合表连接,用于将所述文本信息转化为音素信息序列,并将所述音素信息序列中的每一音素与所述含基频信息音素集合表和所述无基频信息音素集合表进行比对,若所述音素信息序列中的音素在所述含基频信息音素集合表中,则判断为含基频信息音素,若所述音素信息序列中的音素在所述无基频信息音素集合表中,则判断为无基频信息音素,进而形成了对应所述音素信息序列的所述辅助信息。
本发明语音合成中预测基频帧的系统的进一步改进在于,所述基频修正模块包括有查找子模块和与所述查找子模块连接的基频处理子模块;
所述查找子模块用于获取所述辅助信息中的所有含基频信息音素,还用于获取对应所有含基频信息音素的语音特征帧;
所述基频处理子模块用于对所述查找子模块获取的所有语音特征帧中的非基频帧依据所述辅助信息进行修正。
本发明语音合成中预测基频帧的系统的进一步改进在于,所述基频修正模块还包括动态切分子模块,所述动态切分子模块与所述查找子模块和所述基频处理子模块连接;
所述动态切分子模块用于对每一含基频信息音素对应的语音特征帧所形成的语音特征帧范围进行位置划分,划分形成前部位置、中部位置、以及后部位置;
所述基频处理子模块判断当前的语音特征帧在对应的语音特征帧范围内的位置,若当前的语音特征帧在所述中部位置,则对当前的语音特征帧的基频预测结果不进行修正;
若当前的语音特征帧在所述前部位置,且在音素信息序列中与当前的语音特征帧所在的音素相邻的前一音素为含基频信息音素,则将当前语音特征帧修正为基频帧;
若当前的语音特征帧在所述后部位置,且在音素信息序列中与当前的语音特征帧所在的音素相邻的后一音素为含基频信息音素,则将当前语音特征帧修正为基频帧。
附图说明
图1为本发明语音合成中预测基频帧的系统的系统图。
图2为本发明语音合成中预测基频帧的方法的流程图。
图3为本发明语音合成中预测基频帧的方法中修正基频预测结果的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明提供了一种语音合成中预测基频帧的系统及方法,用于解决现有的合成系统中在音素边界点处的准确率低,将带基频的基频帧误判为不带基频的非基频帧,进而导致了语音听起来不连续和沙哑现象,合成语音的自然度较差,效果不佳的问题。本发明的语音合成中预测基频帧的系统及方法的目的是提高语音合成系统中预测基频帧的准确率,进而提高合成后语音的自然度,优化声音效果。本发明通过提取文本中的音素信息序列,获得音素是否带基频,基于音素和语音特征帧的映射关系获得音素对应的语音特征帧边界点,基于边界点和音素是否带基频对语音特征帧序列的判断做出修正。下面结合附图对本发明语音合成中预测基频帧的系统及方法进行说明。
参阅图1,显示了本发明语音合成中预测基频帧的系统的系统图。下面结合图1,对本发明语音合成中预测基频帧的系统进行说明。
如图1所示,本发明语音合成中预测基频帧的系统包括文本输入模块21、预测判断模块22、音素判断模块23、以及基频修正模块24,文本输入模块21用于输入待合成语音的文本信息,预测判断模块22与文本输入模块21连接,接收到文本输入模块21输入的文本信息,该预测判断模块22用于将文本信息转化为语音特征帧序列,并预测该语音特征帧序列中每一语音特征帧是否为基频帧,以形成基频预测结果,将含有基频信息的语音特征帧称为基频帧,将不含有基频信息的语音特征帧称为非基频帧。音素判断模块23与文本输入模块21连接,接收到文本输入模块21输入的文本信息,该音素判断模块23用于将文本信息转化为音素信息序列,并判断音素信息序列中每一音素是否为含基频信息音素,以形成辅助信息。基频修正模块24与预测判断模块22和音素判断模块23连接,用于将音素信息序列中的音素和语音特征帧序列中的语音特征帧相对应,并根据辅助信息修正基频预测结果以形成语音特征帧是否含有基频信息的结果,每一音素对应多个语音特征帧。
本发明采用语音合成中预测基频帧的系统通过音素判断模块从输入的文本信息中提取音素信息,利用音素信息是否为含基频信息音素形成辅助信息,对基频预测结果进行修正,进而提高基频预测的准确率,提高合成后语音的自然度,从而优化声音效果。
预测判断模块22中包括有计算子模块、存储子模块、以及判断子模块,计算子模块用于将文本信息转化为语音特征帧序列,并计算每一语音特征帧是否为基频帧的概率以形成概率序列,在存储子模块内存在有设定的预测阈值,判断子模块与计算子模块和存储子模块连接,判断子模块用于比较对应语音特征帧的概率与预测阈值的大小,当语音特征帧对应的概率大于预测阈值时,判断语音特征帧为基频帧,当语音特征帧对应的概率小于预测阈值时,判断语音特征帧为非基频帧,以形成基频预测结果。预测判断模块22中的计算子模块将文本信息转为为以帧长为5ms为一帧的语音特征帧序列,计算每一语音特征帧是否为基频帧的概率时,含有基频信息的语音特征帧预测的概率值接近于1,不含有基频信息的语音特征帧预测的概率值接近于0,通过计算子模块得到由所有基频帧的概率值组成的概率序列,该概率序列为接近于1和接近于0的多个数值组成。在存储子模块内的预测阈值设定为0.5,判断子模块对概率序列中的每一概率值与0.5进行比较,概率值高于0.5的语音特征帧判断为基频帧,概率值低于0.5的帧判断为非基频帧,这样就形成了基频帧预测结果。
通过预测判断模块22计算的基频帧预测结果在对于两个音素的边界点处的准确率较低,在将基频帧判断为非基频帧时,就会使得合成的语音听起来有不连续和沙哑的感觉,为纠正基频帧预测结果中被误判的基频帧,本发明提出了采用音素判断模块23对文本输入模块21提取音素信息,利用音素信息对被误判的基频帧进行纠正。具体地,该音素判断模块23包括有含基频信息音素集合表、无基频信息音素集合表、以及音素处理子模块,其中含基频信息音素集合表中存储有语言中所有带基频的音素,无基频信息音素集合表中存储有语言中所有不带基频的音素,在含基频信息音素集合表中存储的音素包括:a、ai、an、ang、ao、e、ei、en、eng、er、i、ia、ian、iang、iao、ie、ii、iii、in、ing、io、iong、iou、l、m、n、o、ong、ou、r、u、ua、uai、uan、uang、uei、uen、ueng、uo、v、van、ve、vn。在无基频信息音素集合表中存储的音素包括:sil、sp、b、c、ch、d、f、g、h、j、k、p、q、s、sh、t、x、z、zh。音素处理子模块与含基频信息音素集合表和无基频信息音素集合表连接,音素处理子模块将文本信息转化为音素信息序列,并将音素信息序列中的每一音素与含基频信息音素集合表和无基频信息音素集合表进行比对,若音素信息序列中的音素在无基频信息音素集合表中,则判断该音素为无基频信息音素,若音素信息序列中的音素在含基频信息音素集合表中,则判断该音素为含基频信息音素,含基频信息音素为带有基频信息的音素,无基频信息音素为不带有基频信息的音素,这样音素处理子模块对音素信息序列中所有音素均进行比对后,就形成了对应音素信息序列的辅助信息。辅助信息中对是否带音频的判断,在音素边界点的准确率高,以辅助信息修正预测判断模块所形成的基频预测结果,可以很好的解决预测判断模块所形成的基频预测结果中存在的基频帧判断准确率低的问题。
基频修正模块24包括有查找子模块和与查找子模块连接的基频处理子模块,查找子模块接收到音频判断模块23形成的辅助信息,用于获取辅助信息中的所有含基频信息音素,该查找子模块还接收预测判断模块22形成的语音特征帧序列,用于获取该语音特征帧序列中与含基频信息音素对应的所有语音特征帧,在查找子模块中设有音素信息序列中每个音素和语音特征帧序列中每个语音特征帧的对应关系,每个音素对应的语音特征帧的起始和结束的时间点,一个音素对应着多个语音特征帧。基频处理子模块用于对查找子模块获取的所有语音特征帧中的非基频帧依据辅助信息进行修正。对于语音特征帧中的基频帧不做处理,可以有效提高系统的预测效率,另外将非基频帧误判为基频帧,在合成语音后对自然度的影响较小,不会出现沙哑和不连续的现象。
基频修正模块还包括动态切分子模块,该动态切分子模块与查找子模块和基频处理子模块连接,动态切分子模块用于对每一含基频信息音素对应的语音特征帧所形成的语音特征帧范围进行位置划分,划分形成前部位置、中部位置、以及后部位置,该动态切分子模块基于动态切分算法,对与一个含基频信息音素对应的语音特征帧所形成的语音特征帧范围进行位置区域的划分。基频处理子模块基于该动态切分子模块所划分的位置对查找子模块所获取的语音特征帧中的非基频帧进行修正处理,先判断当前语音特征帧在对应的语音特征帧范围内的位置,若当前的语音特征帧在中部位置,则对当前的语音特征帧的基频帧预测结果不进行修正,也就是该当前的语音特征帧仍为非基频帧。若当前的语音特征帧在前部位置,基频处理子模块判断在音素信息序列中与当前的语音特征帧所在的音素相邻的前一音素是否为含基频信息音素,若前一音素是含基频信息音素,则将当前语音特征帧修正为基频帧,若前一音素不是含基频信息音素,则对语音特征帧的基频帧预测结果不做修正处理。若当前的语音特征帧在后部位置,基频处理子模块判断在音素信息序列中与当前的语音特征帧所在的音素相邻的后一音素是否为含基频信息音素,若后一音素是含基频信息音素,则将当前语音特征帧修正为基频帧,若后一音素不是含基频信息音素,则对语音特征帧的基频帧预测结果不做修正处理。
下面对本发明一种语音合成中预测基频帧的方法进行说明。
如图2所示,本发明语音合成中预测基频帧的方法,包括如下步骤:
执行步骤S11,输入待合成语音的文本信息,接着执行步骤S12。
执行步骤S12,将文本信息转化为语音特征帧序列,语音特征帧的帧长一般为5ms。接着执行步骤S13。
执行步骤S13,预测每一语音特征帧是否为基频帧形成基频预测结果,通过计算每一语音特征帧是否是基频帧的概率,再根据设定阈值对语音特征帧判断为基频帧或者非基频帧。具体地包括如下步骤:计算每一语音特征帧是否为基频帧的概率,形成对应所述语音特征帧序列的概率序列;设定预测阈值,将概率序列中高于预测阈值的概率所对应的语音特征帧判断为基频帧,将所述概率序列中低于所述预测阈值的概率所对应的语音特征帧判断为非基频帧,从而形成了对应语音特征帧序列的基频预测结果。接着执行步骤S14。
执行步骤S14,将文本信息转化为音素信息序列,接着执行步骤S15。
执行步骤S15,判断每一音素是否为含基频信息音素形成辅助信息,将语言中所有音素以是否带基频进行分类,形成含基频信息音素集合和无基频信息音素集合;含基频信息音素集合中的音素包括:a、ai、an、ang、ao、e、ei、en、eng、er、i、ia、ian、iang、iao、ie、ii、iii、in、ing、io、iong、iou、l、m、n、o、ong、ou、r、u、ua、uai、uan、uang、uei、uen、ueng、uo、v、van、ve、vn。在无基频信息音素集合中的音素包括:sil、sp、b、c、ch、d、f、g、h、j、k、p、q、s、sh、t、x、z、zh。将音素信息序列中的每一音素与含基频信息音素集合和无基频信息音素集合进行比对,以得出所述音素是否为含基频信息音素,进而形成对应音素信息序列的辅助信息。接着执行步骤S16。
执行步骤S16,将音素与语音特征帧相对应,将音素信息序列中的每一音素与语音特征帧序列中的语音特征帧相对应,并根据辅助信息修正基频预测结果以形成基频识别结果。获取辅助信息中的所有含基频信息音素;获取所有含基频信息音素所对应的语音特征帧,对所获取的语音特征帧中为非基频帧的语音特征帧进行修正。包括:对每一含基频信息音素对应的语音特征帧所形成的语音特征帧范围进行位置划分,划分为前部位置、中部位置、以及后部位置,根据切分动态算法进行语音特征帧范围的切分;判断当前的语音特征帧在对应的语音特征帧范围内的位置,若当前的语音特征帧在所述中部位置,则对当前的语音特征帧的基频预测结果不进行修正;若当前的语音特征帧在所述前部位置,且在音素信息序列中与当前的语音特征帧所在的音素相邻的前一音素为含基频信息音素,则将当前语音特征帧修正为基频帧;若当前的语音特征帧在所述后部位置,且在音素信息序列中与当前的语音特征帧所在的音素相邻的后一音素为含基频信息音素,则将当前语音特征帧修正为基频帧。
在以辅助信息修正基频预测结果中,还可以通过以下方法来实现:
如图3所示,执行步骤S31,判断当前帧所在音素对应的状态位置,根据经切分的语音特征帧范围得到当前语音特征帧所在的位置,若当前语音特征帧在中部位置,则接着执行步骤S32。若当前语音特征帧在前部位置,则接着执行步骤S33。若当前语音特征帧在后部位置,则接着执行步骤S36。
执行步骤S32,对当前帧的预测结果不做处理。
执行步骤S33,判断当前帧所在音素是否带基频,即判断该音素是否为含基频信息音素,通过辅助信息可以知晓当前音素是否为含基频信息音素,若当前音素是含基频信息音素则接着执行步骤S34,若当前音素是无基频信息音素则接着执行步骤S32。
执行步骤S34,判断当前帧所在音素的前一音素是否带基频,若前一音素是含基频信息音素,则接着执行步骤S35,若前一音素是无基频信息音素,则接着执行步骤S32。
执行步骤S35,将当前帧修正为基频帧。
执行步骤S36,判断当前帧所在音素是否带基频,若当前的音素是含基频信息音素,则执行步骤S37,若当前的音素是无基频信息音素,则执行步骤S32。
执行步骤S37,判断当前帧所在音素的后一音素是否带基频,若后一音素是含基频信息音素,则接着执行步骤S38,若后一音素是无基频信息音素,则接着执行步骤S32。
执行步骤S38,将当前帧修正为基频帧。
本发明语音合成中预测基频帧的系统及方法的有益效果为:
采用提取文本信息中的音素信息序列,并获得音素信息序列中的音素是否带基频的信息,基于音素和语音特征帧的映射关系获得音素对应语音特征帧的边界点,基于音素是否带基频的信息(辅助信息)和边界点对基频预测结果做出修正,将基频预测结果中的被误判为非基频帧的基频帧修正,提高基频帧预测的准确率,进而提高合成后的语音的自然度,优化声音效果。
以上结合附图实施例对本发明进行了详细说明,本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而,实施例中的某些细节不应构成对本发明的限定,本发明将以所附权利要求书界定的范围作为本发明的保护范围。

Claims (10)

1.一种语音合成中预测基频帧的方法,其特征在于,包括:
输入待合成语音的文本信息;
将所述文本信息转化为语音特征帧序列;
预测所述语音特征帧序列中的每一语音特征帧是否为基频帧,以形成基频预测结果;
将所述文本信息转化为音素信息序列;
判断所述音素信息序列中每一音素是否为含基频信息音素,以形成辅助信息,每一音素对应多个语音特征帧;以及
将所述音素信息序列与所述语音特征帧序列相对应,并根据所述辅助信息修正所述基频预测结果以形成语音特征帧是否含有基频信息的结果。
2.如权利要求1所述的语音合成中预测基频帧的方法,其特征在于,预测所述语音特征帧序列中的每一语音特征帧是否为基频帧,以形成基频预测结果,包括:
计算每一语音特征帧是否为基频帧的概率,形成对应所述语音特征帧序列的概率序列;
设定预测阈值,将所述概率序列中高于所述预测阈值的概率所对应的语音特征帧判断为基频帧,将所述概率序列中低于所述预测阈值的概率所对应的语音特征帧判断为非基频帧,从而形成了对应所述语音特征帧序列的所述基频预测结果。
3.如权利要求1或2所述的语音合成中预测基频帧的方法,其特征在于,判断所述音素信息序列中每一音素是否为含基频信息音素,以形成辅助信息,包括:
将语言中的所有音素以是否带基频进行分类,形成含基频信息音素集合和无基频信息音素集合;
将所述音素信息序列中的每一音素与所述含基频信息音素集合和无基频信息音素集合进行比对,以得出所述音素是否为含基频信息音素,进而形成对应所述音素信息序列的辅助信息。
4.如权利要求2所述的语音合成中预测基频帧的方法,其特征在于,根据所述辅助信息修正所述基频预测结果以形成基频识别结果,包括:
获取所述辅助信息中的所有含基频信息音素;
获取所有含基频信息音素所对应的语音特征帧,对所获取的语音特征帧中为非基频帧的语音特征帧进行修正。
5.如权利要求4所述的语音合成中预测基频帧的方法,其特征在于,获取所有含基频信息音素所对应的语音特征帧,对所获取的语音特征帧中为非基频帧的语音特征帧进行修正,包括:
对每一含基频信息音素对应的语音特征帧所形成的语音特征帧范围进行位置划分,划分为前部位置、中部位置、以及后部位置;
判断当前的语音特征帧在对应的语音特征帧范围内的位置,若当前的语音特征帧在所述中部位置,则对当前的语音特征帧的基频预测结果不进行修正;
若当前的语音特征帧在所述前部位置,且在音素信息序列中与当前的语音特征帧所在的音素相邻的前一音素为含基频信息音素,则将当前语音特征帧修正为基频帧;
若当前的语音特征帧在所述后部位置,且在音素信息序列中与当前的语音特征帧所在的音素相邻的后一音素为含基频信息音素,则将当前语音特征帧修正为基频帧。
6.一种语音合成中预测基频帧的系统,其特征在于,包括:
文本输入模块,用于输入待合成语音的文本信息;
预测判断模块,与所述文本输入模块连接,用于将所述文本信息转化为语音特征帧序列,并预测所述语音特征帧序列中的每一语音特征帧是否为基频帧,以形成基频预测结果;
音素判断模块,与所述文本输入模块连接,用于将所述文本信息转化为音素信息序列,并判断所述音素信息序列中每一音素是否为含基频信息音素,以形成辅助信息;以及
基频修正模块,与所述预测判断模块和所述音素判断模块连接,用于将所述音素信息序列中的音素和所述语音特征帧序列中的语音特征帧相对应,并根据所述辅助信息修正所述基频预测结果以形成语音特征帧是否含有基频信息的结果,每一音素对应多个语音特征帧。
7.如权利要求6所述的语音合成中预测基频帧的系统,其特征在于,所述预测判断模块中包括有计算子模块、存储子模块、以及判断子模块;
所述计算子模块用于将所述文本信息转化为语音特征帧序列,并计算每一语音特征帧是否为基频帧的概率以形成概率序列;
所述存储子模块内存储有设定的预测阈值;
所述判断子模块与所述计算子模块和所述存储子模块连接,用于比较对应所述语音特征帧的所述概率与所述预测阈值的大小,当所述语音特征帧对应的所述概率大于所述预测阈值时,判断所述语音特征帧为基频帧,当所述语音特征帧对应的概率小于所述预测阈值时,判断所述语音特征帧为非基频帧,以形成所述基频预测结果。
8.如权利要求6或7所述的语音合成中预测基频帧的系统,其特征在于,所述音素判断模块中包括有含基频信息音素集合表、无基频信息音素集合表、以及音素处理子模块;
所述含基频信息音素集合表中存储有语言中所有带基频的音素;
所述无基频信息音素集合表中存储有语言中所有不带基频的音素;
所述音素处理子模块与所述含基频信息音素集合表和所述无基频信息音素集合表连接,用于将所述文本信息转化为音素信息序列,并将所述音素信息序列中的每一音素与所述含基频信息音素集合表和所述无基频信息音素集合表进行比对,若所述音素信息序列中的音素在所述含基频信息音素集合表中,则判断为含基频信息音素,若所述音素信息序列中的音素在所述无基频信息音素集合表中,则判断为无基频信息音素,进而形成了对应所述音素信息序列的所述辅助信息。
9.如权利要求7所述的语音合成中预测基频帧的系统,其特征在于,所述基频修正模块包括有查找子模块和与所述查找子模块连接的基频处理子模块;
所述查找子模块用于获取所述辅助信息中的所有含基频信息音素,还用于获取对应所有含基频信息音素的语音特征帧;
所述基频处理子模块用于对所述查找子模块获取的所有语音特征帧中的非基频帧依据所述辅助信息进行修正。
10.如权利要求9所述的语音合成中预测基频帧的系统,其特征在于,所述基频修正模块还包括动态切分子模块,所述动态切分子模块与所述查找子模块和所述基频处理子模块连接;
所述动态切分子模块用于对每一含基频信息音素对应的语音特征帧所形成的语音特征帧范围进行位置划分,划分形成前部位置、中部位置、以及后部位置;
所述基频处理子模块判断当前的语音特征帧在对应的语音特征帧范围内的位置,若当前的语音特征帧在所述中部位置,则对当前的语音特征帧的基频预测结果不进行修正;
若当前的语音特征帧在所述前部位置,且在音素信息序列中与当前的语音特征帧所在的音素相邻的前一音素为含基频信息音素,则将当前语音特征帧修正为基频帧;
若当前的语音特征帧在所述后部位置,且在音素信息序列中与当前的语音特征帧所在的音素相邻的后一音素为含基频信息音素,则将当前语音特征帧修正为基频帧。
CN201610091573.9A 2016-02-19 2016-02-19 语音合成中预测基频帧的方法及系统 Active CN105679306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610091573.9A CN105679306B (zh) 2016-02-19 2016-02-19 语音合成中预测基频帧的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610091573.9A CN105679306B (zh) 2016-02-19 2016-02-19 语音合成中预测基频帧的方法及系统

Publications (2)

Publication Number Publication Date
CN105679306A true CN105679306A (zh) 2016-06-15
CN105679306B CN105679306B (zh) 2019-07-09

Family

ID=56305633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610091573.9A Active CN105679306B (zh) 2016-02-19 2016-02-19 语音合成中预测基频帧的方法及系统

Country Status (1)

Country Link
CN (1) CN105679306B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680584A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 用于切分音频的方法和装置
CN108492818A (zh) * 2018-03-22 2018-09-04 百度在线网络技术(北京)有限公司 文本到语音的转换方法、装置和计算机设备
CN108766413A (zh) * 2018-05-25 2018-11-06 北京云知声信息技术有限公司 语音合成方法及系统
CN109599092A (zh) * 2018-12-21 2019-04-09 秒针信息技术有限公司 一种音频合成方法及装置
CN111147444A (zh) * 2019-11-20 2020-05-12 维沃移动通信有限公司 一种交互方法及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101051459A (zh) * 2006-04-06 2007-10-10 株式会社东芝 基频和停顿预测及语音合成的方法和装置
CN101178896A (zh) * 2007-12-06 2008-05-14 安徽科大讯飞信息科技股份有限公司 基于声学统计模型的单元挑选语音合成方法
CN101471071A (zh) * 2007-12-26 2009-07-01 中国科学院自动化研究所 一种基于混合隐马尔可夫模型的语音合成系统
CN103077705A (zh) * 2012-12-30 2013-05-01 安徽科大讯飞信息科技股份有限公司 一种基于分布式自然韵律优化本地合成方法
CN104517605A (zh) * 2014-12-04 2015-04-15 北京云知声信息技术有限公司 一种用于语音合成的语音片段拼接系统和方法
JP2015108667A (ja) * 2013-12-03 2015-06-11 日本電信電話株式会社 基本周波数予測装置、基本周波数予測方法、プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101051459A (zh) * 2006-04-06 2007-10-10 株式会社东芝 基频和停顿预测及语音合成的方法和装置
CN101178896A (zh) * 2007-12-06 2008-05-14 安徽科大讯飞信息科技股份有限公司 基于声学统计模型的单元挑选语音合成方法
CN101471071A (zh) * 2007-12-26 2009-07-01 中国科学院自动化研究所 一种基于混合隐马尔可夫模型的语音合成系统
CN103077705A (zh) * 2012-12-30 2013-05-01 安徽科大讯飞信息科技股份有限公司 一种基于分布式自然韵律优化本地合成方法
JP2015108667A (ja) * 2013-12-03 2015-06-11 日本電信電話株式会社 基本周波数予測装置、基本周波数予測方法、プログラム
CN104517605A (zh) * 2014-12-04 2015-04-15 北京云知声信息技术有限公司 一种用于语音合成的语音片段拼接系统和方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680584A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 用于切分音频的方法和装置
CN107680584B (zh) * 2017-09-29 2020-08-25 百度在线网络技术(北京)有限公司 用于切分音频的方法和装置
CN108492818A (zh) * 2018-03-22 2018-09-04 百度在线网络技术(北京)有限公司 文本到语音的转换方法、装置和计算机设备
CN108492818B (zh) * 2018-03-22 2020-10-30 百度在线网络技术(北京)有限公司 文本到语音的转换方法、装置和计算机设备
CN108766413A (zh) * 2018-05-25 2018-11-06 北京云知声信息技术有限公司 语音合成方法及系统
CN109599092A (zh) * 2018-12-21 2019-04-09 秒针信息技术有限公司 一种音频合成方法及装置
CN109599092B (zh) * 2018-12-21 2022-06-10 秒针信息技术有限公司 一种音频合成方法及装置
CN111147444A (zh) * 2019-11-20 2020-05-12 维沃移动通信有限公司 一种交互方法及电子设备
CN111147444B (zh) * 2019-11-20 2021-08-06 维沃移动通信有限公司 一种交互方法及电子设备

Also Published As

Publication number Publication date
CN105679306B (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
US10878803B2 (en) Speech conversion method, computer device, and storage medium
CN102385859B (zh) 参数语音合成方法和系统
CN105679306A (zh) 语音合成中预测基频帧的方法及系统
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
CN108364632B (zh) 一种具备情感的中文文本人声合成方法
US8494856B2 (en) Speech synthesizer, speech synthesizing method and program product
US11741942B2 (en) Text-to-speech synthesis system and method
CN105632484A (zh) 语音合成数据库停顿信息自动标注方法及系统
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
CN101710488A (zh) 语音合成方法及装置
CN112750445B (zh) 语音转换方法、装置和系统及存储介质
US9076436B2 (en) Apparatus and method for applying pitch features in automatic speech recognition
CN111599339B (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质
JP2002215187A (ja) 音声認識方法及びその装置
WO2009139230A1 (ja) 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体
CN113327575B (zh) 一种语音合成方法、装置、计算机设备和存储介质
US9805711B2 (en) Sound synthesis device, sound synthesis method and storage medium
US20120116765A1 (en) Speech processing device, method, and storage medium
CN102339605B (zh) 基于先验清浊知识的基频提取方法及系统
JP2004109535A (ja) 音声合成方法、音声合成装置および音声合成プログラム
CN113257221B (zh) 一种基于前端设计的语音模型训练方法及语音合成方法
WO2008056604A1 (fr) Système de collecte de son, procédé de collecte de son et programme de traitement de collecte
CN114254628A (zh) 一种语音转写中结合用户文本的快速热词提取方法、装置、电子设备及存储介质
JP6519097B2 (ja) 音声合成装置、方法、およびプログラム
US20140343934A1 (en) Method, Apparatus, and Speech Synthesis System for Classifying Unvoiced and Voiced Sound

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170929

Address after: 200233 Shanghai City, Xuhui District Guangxi 65 No. 1 Jinglu room 702 unit 03

Applicant after: Cloud known sound (Shanghai) Technology Co. Ltd.

Address before: 200031 Shanghai Xuhui District Qinzhou North Road 1198, 82 buildings, 2 stories, 01 rooms

Applicant before: SHANGHAI YUZHIYI INFORMATION TECHNOLOGY CO., LTD.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200326

Address after: 200233 Shanghai City, Xuhui District Guangxi 65 No. 1 Jinglu room 702 unit 03

Co-patentee after: Xiamen yunzhixin Intelligent Technology Co., Ltd

Patentee after: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY Co.,Ltd.

Address before: 200233 Shanghai City, Xuhui District Guangxi 65 No. 1 Jinglu room 702 unit 03

Patentee before: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY Co.,Ltd.