CN103065619A - 一种语音合成方法和语音合成系统 - Google Patents

一种语音合成方法和语音合成系统 Download PDF

Info

Publication number
CN103065619A
CN103065619A CN201210575160XA CN201210575160A CN103065619A CN 103065619 A CN103065619 A CN 103065619A CN 201210575160X A CN201210575160X A CN 201210575160XA CN 201210575160 A CN201210575160 A CN 201210575160A CN 103065619 A CN103065619 A CN 103065619A
Authority
CN
China
Prior art keywords
text
sequence
synthetic
basic
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210575160XA
Other languages
English (en)
Other versions
CN103065619B (zh
Inventor
孙见青
凌震华
何婷婷
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201210575160.XA priority Critical patent/CN103065619B/zh
Publication of CN103065619A publication Critical patent/CN103065619A/zh
Application granted granted Critical
Publication of CN103065619B publication Critical patent/CN103065619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明的实施例公开了一种语音合成方法和语音合成系统,用于提高语音的合成音质和自然度。该方法包括:将获取的合成文本划分为固定成分文本和可变成分文本;对固定成分文本进行分析,确定固定成分文本中各基本合成单元的合成时长参数,得到固定成分文本的合成时长参数序列;对可变成分文本进行分析,确定可变成分文本中各基本合成单元的合成时长参数,得到可变成分文本的合成时长参数序列;根据固定成分文本及可变成分文本的合成时长参数序列,确定合成文本的合成基频参数序列及确定合成文本的合成频谱参数序列;根据固定成分文本及可变成分文本的合成时长参数序列、合成基频参数序列和合成频谱参数序列,生成连续语音信号。

Description

一种语音合成方法和语音合成系统
技术领域
本发明涉及语音信号处理及语音合成技术领域,尤其是涉及一种语音合成方法和语音合成系统。
背景技术
目前,在文本受限领域(如银行的电话客服系统,机场航班播报等)中,合成文本往往具有相对固定模式,合成文本通常由固定不变成分(即固定成分文本)及可变参数成分(即可变成分文本)构成。对此在现有技术中,系统可以将固定成分文本通过预先录制自然语音的方式获取部分语音片断,对可变成分文本执行语音合成得到另一语音片断,并将所述两段语音片断信号拼接获取到最后的连续语音信号。这样的方法虽然实现简单且保持了自然语音部分的自然流畅性,然而在实际应用中依然存在以下问题:自然语音段和基于文本合成的语音段之间的衔接自然度难以保证;另外,由于获取方式的不同,自然语音的语音段和基于文本合成的语音段在音质上也难以保持一致。
发明内容
本发明实施例提供了一种语音合成方法和语音合成系统,用于提高语音的合成音质和自然度。
有鉴于此,本发明第一方面提供一种语音合成方法,可包括:
获取合成文本;
将所述合成文本划分为固定成分文本和可变成分文本;
对所述固定成分文本进行分析,确定所述固定成分文本中各基本合成单元的合成时长参数,得到所述固定成分文本的合成时长参数序列;以及
对所述可变成分文本进行分析,确定所述可变成分文本中各基本合成单元的合成时长参数,得到所述可变成分文本的合成时长参数序列;
根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列,确定所述合成文本的合成基频参数序列;以及
根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列,确定所述合成文本的合成频谱参数序列;
根据所述固定成分文本的合成时长参数序列、所述可变成分文本的合成时长参数序列、所述合成基频参数序列和所述合成频谱参数序列,生成连续语音信号。
在某些实施方式中,所述将所述合成文本划分为固定成分文本和可变成分文本具体包括:
采用前后向最大分词算法对所述合成文本进行字词划分并得到分词或分词组合;
将所述分词或分词组合与预置模板库中的韵律词标注信息进行比较,若所述分词或分词组合与所述韵律词标注信息一致,则确定出所述分词或分词组合为固定成分文本,若否,则确定出所述分词或分词组合为可变成分文本。
在某些实施方式中,所述对所述固定成分文本进行分析,确定所述固定成分文本中各基本合成单元的合成时长参数,得到所述固定成分文本的合成时长参数序列,包括:
从所述预置模板库中获取所述固定成分文本对应自然语音段中各基本语音单元的时长参数Ti
从所述预置模板库中获取所述固定成分文本对应自然语音段中各基本语音单元所对应的基本合成单元序列的合成时长参数模型序列
Figure BDA00002659048400021
基于公式 { d ‾ i j } = arg max log L i = Σ j = 1 N log p ( d i j ) , S.T: Σ j = 1 N d i j = T i , 生成所述固定成分文本的各基本语音单元的基本合成单元序列的合成时长参数序列;
其中,S.T:为第i个基本语音单元所对应的基本合成单元序列的时长约束条件,
Figure BDA00002659048400025
为所述基本语音单元所对应的第j个基本合成单元的时长特征变量,N为所述基本语音单元所对应的基本合成单元总数。
在某些实施方式中,所述对所述可变成分文本进行分析,确定所述可变成分文本的各基本合成单元的合成时长参数,得到所述可变成分文本的合成时长参数序列,包括:
从所述预置模板库中获取所述可变成分文本对应自然语音段中各基本语音单元所对应的基本合成单元序列的合成时长参数模型序列
Figure BDA00002659048400031
基于公式 { d ‾ i j } = arg max log L i = Σ j = 1 N log p ( d i j ) ,
生成所述可变成分文本的各基本语音单元的基本合成单元序列的合成时长参数序列;
其中,为第i个基本语音单元中第j个基本合成单元的时长特征变量,N为所述基本语音单元所对应的基本合成单元的总数。
在某些实施方式中,根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列,确定所述合成文本的合成基频参数序列,包括:
从所述预置模板库中获取所述固定成分文本及可变成分文本的基本语音单元的各基本合成单元的基频模型
Figure BDA00002659048400034
对所述各基本合成单元的基频模型
Figure BDA00002659048400035
根据其所对应合成时长参数重复相应次数,获取所述基本合成单元的基频模型序列;
根据合成文本的基本语音单元序列,拼接各基本语音单元对应的所述基本合成单元的基频模型序列,获取所述合成文本的基频模型序列;
从所述预置模板库中获取所述固定成分文本所对应的自然语音段的基频参数序列Ygf
基于公式
C - f = arg max log p ( C f | λ ) + α ( C gf - Y gf ) T ( C gf - Y gf ) u gf - 1 , 获取所述合成文本的合成基频参数序列;
其中, log p ( C f | λ ) = - 1 2 C f T W T U f - 1 W C f + C f T W T U f - 1 M f 是合成文本对应的基频模型序列的似然度总和,其中,λ是所述概率模型的模型参数,包括计算动态参数的窗函数矩阵W,基频模型序列的均值Mf和协方差矩阵Uf;Cf为待生成的语音合成基频参数矩阵,包括固定成分的合成基频参数矩阵Cgf以及可变成分的合成基频参数矩阵Cuf
α(Cgf-Ygf)T(Cgf-Ygf)ugf -1用于描述生成的合成基频参数序列和自然语音段的基频参数序列的差值,其中,Ygf为固定成分文本的自然基频参数,ugf -1为自然基频参数的全局方差,α是系统第一预设域值。
在某些实施方式中,根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列,确定所述合成文本的合成频谱参数序列,包括:
从所述预置模板库中获取所述固定成分文本及可变成分文本的基本语音单元的各基本合成单元的频谱模型
对所述各基本合成单元的频谱模型根据其所对应合成时长参数
Figure BDA00002659048400043
重复相应次数,获取所述基本合成单元的频谱模型序列;
根据合成文本的基本语音单元序列,拼接各基本语音单元对应的所述基本合成单元的频谱模型序列,获取所述合成文本的频谱模型序列;
从所述预置模板库中获取所述固定成分文本所对应的自然语音段的频谱参数序列Ygs
基于公式
C s = arg - max log p ( C s | λ ) + β ( C gs - Y gs ) T ( C gs - Y gs ) u gs - 1 , 获取所述合成文本的合成频谱参数序列;
其中, log p ( C s | λ ) = - 1 2 C s T W T U s - 1 W C s + C s T W T U s - 1 M s 是合成文本对应的频谱模型序列的似然度总和,λ是所述概率模型的模型参数,包括计算动态参数的窗函数矩阵W,频谱模型序列的均值Ms和协方差矩阵Us;Cs为待生成的语音合成频谱参数;
β(Cgs-Ygs)T(Cgs-Ygs)ugs -1用于描述生成的合成频谱参数序列和自然语音段的频谱参数序列的差值,其中,Ygs为固定成分文本的自然频谱参数,ugs -1为自然频谱参数的全局方差,β是系统第二预设域值。
本发明第二方面提供一种语音合成系统,可包括:
获取模块,用于获取合成文本;
文本划分模块,用于将所述合成文本划分为固定成分文本和可变成分文本;
时长参数获取模块,用于对所述固定成分文本进行分析,确定所述固定成分文本中各基本合成单元的合成时长参数,得到所述固定成分文本的合成时长参数序列;以及对所述可变成分文本进行分析,确定所述可变成分文本中各基本合成单元的合成时长参数,得到所述可变成分文本的合成时长参数序列;
基频参数获取模块,用于根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列,确定所述合成文本的合成基频参数序列;
频谱参数获取模块,用于根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列,确定所述合成文本的合成频谱参数序列;
语音信号生成模块,用于根据所述固定成分文本的合成时长参数序列、所述可变成分文本的合成时长参数序列、所述合成基频参数序列和所述合成频谱参数序列,生成连续语音信号。
在某些实施方式中,所述文本划分模块,具体用于采用前后向最大分词算法对所述合成文本进行字词划分并得到分词或分词组合;将所述分词或分词组合与预置模板库中的韵律词标注信息进行比较,若所述分词或分词组合与所述韵律词标注信息一致,则确定出所述分词或分词组合为固定成分文本,若否,则确定出所述分词或分词组合为可变成分文本。
在某些实施方式中,所述时长参数获取模块具体用于:
从所述预置模板库中获取所述固定成分文本对应自然语音段中各基本语音单元的时长参数Ti
从所述预置模板库中获取所述固定成分文本对应自然语音段中各基本语音单元所对应的基本合成单元序列的合成时长参数模型序列
Figure BDA00002659048400051
基于公式 { d - i j } = arg max log L i = Σ j = 1 N log p ( d i j ) , S.T: Σ j = 1 N d i j = T i , 生成所述固定成分文本的各基本语音单元的基本合成单元序列的合成时长参数序列;
其中,S.T:为第i个基本语音单元所对应的基本合成单元序列的时长约束条件,为所述基本语音单元所对应的第j个基本合成单元的时长特征变量,N为所述基本语音单元所对应的基本合成单元总数。
在某些实施方式中,所述时长参数获取模块还用于:
从所述预置模板库中获取所述可变成分文本对应自然语音段中各基本语音单元所对应的基本合成单元序列的合成时长参数模型序列
Figure BDA00002659048400062
基于公式 { d - i j } = arg max log L i = Σ j = 1 N log p ( d i j ) ,
生成所述可变成分文本的各基本语音单元的基本合成单元序列的合成时长参数序列;
其中,为第i个基本语音单元中第j个基本合成单元的时长特征变量,N为所述基本语音单元所对应的基本合成单元的总数。
在某些实施方式中,所述基频参数获取模块具体用于:
从所述预置模板库中获取所述固定成分文本及可变成分文本的基本语音单元的各基本合成单元的基频模型
Figure BDA00002659048400065
对所述各基本合成单元的基频模型
Figure BDA00002659048400066
根据其所对应合成时长参数
Figure BDA00002659048400067
重复相应次数,获取所述基本合成单元的基频模型序列;
根据合成文本的基本语音单元序列,拼接各基本语音单元对应的所述基本合成单元的基频模型序列,获取所述合成文本的基频模型序列;
从所述预置模板库中获取所述固定成分文本所对应的自然语音段的基频参数序列Ygf
基于公式
C - f = arg max log p ( C f | λ ) + α ( C gf - Y gf ) T ( C gf - Y gf ) u gf - 1 , 获取所述合成文本的合成基频参数序列;
其中, log p ( C f | λ ) = - 1 2 C f T W T U f - 1 W C f + C f T W T U f - 1 M f 是合成文本对应的基频模型序列的似然度总和,其中,λ是所述概率模型的模型参数,包括计算动态参数的窗函数矩阵W,基频模型序列的均值Mf和协方差矩阵Uf;Cf为待生成的语音合成基频参数矩阵,包括固定成分的合成基频参数矩阵Cgf以及可变成分的合成基频参数矩阵Cuf
α(Cgf-Ygf)T(Cgf-Ygf)ugf -1用于描述生成的合成基频参数序列和自然语音段的基频参数序列的差值,其中,Ygf为固定成分文本的自然基频参数,ugf -1为自然基频参数的全局方差,α是系统第一预设域值。
在某些实施方式中,所述频谱参数获取模块具体用于:
从所述预置模板库中获取所述固定成分文本及可变成分文本的基本语音单元的各基本合成单元的频谱模型
Figure BDA00002659048400071
对所述各基本合成单元的频谱模型
Figure BDA00002659048400072
根据其所对应合成时长参数
Figure BDA00002659048400073
重复相应次数,获取所述基本合成单元的频谱模型序列;
根据合成文本的基本语音单元序列,拼接各基本语音单元对应的所述基本合成单元的频谱模型序列,获取所述合成文本的频谱模型序列;
从所述预置模板库中获取所述固定成分文本所对应的自然语音段的频谱参数序列Ygs
基于公式
C s = arg - max log p ( C s | λ ) + β ( C gs - Y gs ) T ( C gs - Y gs ) u gs - 1 , 获取所述合成文本的合成频谱参数序列;
其中, log p ( C s | λ ) = - 1 2 C s T W T U s - 1 W C s + C s T W T U s - 1 M s 是合成文本对应的频谱模型序列的似然度总和,λ是所述概率模型的模型参数,包括计算动态参数的窗函数矩阵W,频谱模型序列的均值Ms和协方差矩阵Us;Cs为待生成的语音合成频谱参数;
β(Cgs-Ygs)T(Cgs-Ygs)ugs -1用于描述生成的合成频谱参数序列和自然语音段的频谱参数序列的差值,其中,Ygs为固定成分文本的自然频谱参数,ugs -1为自然频谱参数的全局方差,β是系统第二预设域值。
从以上技术方案可以看出,本发明实施例提供的一种语音合成方法和语音合成系统,先确定固定成分文本的合成时长参数和可变成分文本的合成时长参数,然后据此,再确定合成文本的合成基频参数序列和合成频谱参数序列,最后根据固定成分文本及可变成分文本的合成时长参数、合成基频参数序列和合成频谱参数序列生成连续语音信号,即固定成分文本和可变成分文本采用同样的方式生成语音信号,保持了一致性,同时也提高语音的合成音质和自然度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种语音合成方法的流程示意图;
图2为本发明实施例提供的一种语音合成系统的结构示意图。
具体实施方式
本发明实施例提供了一种语音合成方法和语音合成系统,用于提高语音的合成音质和自然度。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
以下分别进行详细说明。
请参考图1,图1为本发明实施例提供的一种语音合成方法的流程示意图;其中,所述方法包括:
步骤101、获取合成文本;
步骤102、将所述合成文本划分为固定成分文本和可变成分文本;
在某些实施方式中,语音合成系统获取用户输入的合成文本,并将其进行划分,其中,固定成分文本是指可以从系统音库中找到对应模板的文本字串,可变成分文本是指无法直接获取对应模板的文本字串。
步骤103、对所述固定成分文本进行分析,确定所述固定成分文本中各基本合成单元的合成时长参数,得到所述固定成分文本的合成时长参数序列;
步骤104、对所述可变成分文本进行分析,确定所述可变成分文本中各基本合成单元的合成时长参数,得到所述可变成分文本的合成时长参数序列;
可以理解的是,每一个基本合成单元对应一个合成时长参数,文本中各基本合成单元的合成时长参数形成该文本的合成时长参数序列;另外,由于合成文本可以认为是由固定成分文本和可变成分文本组成,因此步骤103中得到的固定成分文本的合成时长参数序列和步骤104中得到的可变成分文本的合成时长参数序列可以认为是合成文本的合成时长参数序列。
步骤105、根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列,确定所述合成文本的合成基频参数序列;
步骤106、根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列,确定所述合成文本的合成频谱参数序列;
步骤107、根据所述固定成分文本的合成时长参数序列、所述可变成分文本的合成时长参数序列、所述合成基频参数序列和所述合成频谱参数序列,生成连续语音信号。
由上述步骤101至步骤107可知,本发明实施例提供的一种语音合成方法,先确定固定成分文本的合成时长参数和可变成分文本的合成时长参数,然后据此,再确定合成文本的合成基频参数序列和合成频谱参数序列,最后根据固定成分文本及可变成分文本的合成时长参数、合成基频参数序列和合成频谱参数序列生成连续语音信号,即固定成分文本和可变成分文本采用同样的方式生成语音信号,保持了一致性,同时也提高语音的合成音质和自然度。
本发明以下实施例中,分别就如何划分合成文本(步骤102),如何得到合成文本的合成时长参数序列(步骤103和步骤104),如何确定合成文本的合成基频参数序列(步骤105)以及合成频谱参数序列(步骤106),对所述语音合成方法进行具体分析:
可以理解的是,在语音合成方法执行前,可以预先在语音合成系统中进行预置模板库的构建,具体地,语音合成系统中可以预先设置有决策树模型以及语音单元合成参数模型的模型库,以及固定成分文本模板库,包括模板标注信息及对应语音信号声学参数特征。这些合成参数模型通常可以是数学统计模型,一般由模型参数(如高斯模型的均值方差等)确定;预置模板库中决策树模型及语音单元合成参数模型可以采用传统模型训练方式获得:首先,根据当前应用环境设计常用语句语料。比如针对银行客服相关业务,系统可以根据客服数据中常见的交互信息,设计银行业务相关的语句语料;第二,由特定发音人根据所述语料录制连续语音信号;第三,根据字词间连贯性的自然发音的韵律对所述连续语音信号进行切分,并对韵律词或韵律短语单元执行相关信息标注。考虑到不同自然发音人具有不同的发音特点,为提高模型的自然度,本实施例中可以采用人工测听的方式确定各韵律词单元;第四,根据基本语音单元(如音素)对所述各韵律词单元的语音段信号进行语音切分,获取各基本语音单元的语音片断。该语音片断的切分可以采取基于声学模型对齐的自动切分方法,也可以通过人工切分方法以提高准确率;最后,步五:统计第i个基本语音单元片断对应语音片断的时长特征,并提取所述语音片断的基频特征矢量以及频谱特征矢量。
在某些实施方式中,所述步骤102可以具体为:
采用前后向最大分词算法对所述合成文本进行字词划分并得到分词或分词组合;将所述分词或分词组合与预置模板库中的韵律词标注信息进行比较,若所述分词或分词组合与所述韵律词标注信息一致,则确定出所述分词或分词组合为固定成分文本,若否,则确定出所述分词或分词组合为可变成分文本。
可以理解的是,在将所述分词或分词组合与预置模板库中的韵律词标注信息进行匹配比较的过程中,考虑到系统分词算法切分所得的分词单元往往较小,而固定成分文本的匹配需要完整匹配,对此系统还可以考虑分词及分词前后相邻单元的组合和预设韵律词标注信息的一致性。比如对“感谢/您/使用/工商/银行”的切分结果输入,系统将确认“感谢/您”的分词组合和预设的韵律词“感谢您”匹配一致。同样地,对“使用”和“银行”韵律词可以从预置模板库中匹配到,所以标注这三个韵律词为固定成分文本,而对于“工商”,则定义为可变成分文本。
在某些实施方式中,所述得到所述固定成分文本的合成时长参数序列(步骤103)可以具体为:
从所述预置模板库中获取所述固定成分文本对应自然语音段中各基本语音单元的时长参数Ti
从所述预置模板库中获取所述固定成分文本对应自然语音段中各基本语音单元所对应的基本合成单元序列的合成时长参数模型序列
Figure BDA00002659048400111
基于公式 { d - i j } = arg max log L i = Σ j = 1 N log p ( d i j ) , S.T: Σ j = 1 N d i j = T i , 生成所述固定成分文本的各基本语音单元的基本合成单元序列的合成时长参数序列;
其中,S.T:
Figure BDA00002659048400114
为第i个基本语音单元所对应的基本合成单元序列的时长约束条件,
Figure BDA00002659048400115
为所述基本语音单元所对应的第j个基本合成单元的时长特征变量,N为所述基本语音单元所对应的基本合成单元总数。
可以理解的是,本发明实施例考虑到数据量大小和模拟准确性,采用了高斯模型满足
Figure BDA00002659048400116
即该模型由参数均值
Figure BDA00002659048400117
以及方差
Figure BDA00002659048400118
确定。通过引入自然语音段的时长特征约束,使得生成的语音段的合成参数更好的体现了自然语音的效果,改善了时长的预测效果。
在某些实施方式中,所述得到所述可变成分文本的合成时长参数序列(步骤104)可以具体为:
从所述预置模板库中获取所述可变成分文本对应自然语音段中各基本语音单元所对应的基本合成单元序列的合成时长参数模型序列
基于公式 { d - i j } = arg max log L i = Σ j = 1 N log p ( d i j ) , 生成所述可变成分文本的各基本语音单元的基本合成单元序列的合成时长参数序列;
其中,为第i个基本语音单元中第j个基本合成单元的时长特征变量,N为所述基本语音单元所对应的基本合成单元的总数。
可以理解的是,本发明实施例中可变成分文本的合成时长参数序列是采用传统的方法获取,即选择模型最大化的变量作为最优时长特征,具体地,满足公式 { d - i j } = arg max log L i = Σ j = 1 N log p ( d i j ) .
另外,本发明实施例中是根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列,分别确定合成文本的合成基频参数序列和合成频谱参数序列:
所述确定合成文本的合成基频参数序列(步骤106)可以具体为:
从所述预置模板库中获取所述固定成分文本及可变成分文本的基本语音单元的各基本合成单元的基频模型
Figure BDA00002659048400121
对所述各基本合成单元的基频模型
Figure BDA00002659048400122
根据其所对应合成时长参数重复相应次数,获取所述基本合成单元的基频模型序列;
根据合成文本的基本语音单元序列,拼接各基本语音单元对应的所述基本合成单元的基频模型序列,获取所述合成文本的基频模型序列;
从所述预置模板库中获取所述固定成分文本所对应的自然语音段的基频参数序列Ygf
基于公式
C - f = arg max log p ( C f | λ ) + α ( C gf - Y gf ) T ( C gf - Y gf ) u gf - 1 , 获取所述合成文本的合成基频参数序列;
其中, log p ( C f | λ ) = - 1 2 C f T W T U f - 1 W C f + C f T W T U f - 1 M f 是合成文本对应的基频模型序列的似然度总和,其中,λ是所述概率模型的模型参数,包括计算动态参数的窗函数矩阵W,基频模型序列的均值Mf和协方差矩阵Uf;Cf为待生成的语音合成基频参数矩阵,包括固定成分的合成基频参数矩阵Cgf以及可变成分的合成基频参数矩阵Cuf
α(Cgf-Ygf)T(Cgf-Ygf)ugf -1用于描述生成的合成基频参数序列和自然语音段的基频参数序列的差值,其中,Ygf为固定成分文本的自然基频参数,ugf -1为自然基频参数的全局方差,α是系统第一预设域值。
可以理解的是,α用于调整合成基频参数序列的倾向度,α的值越大则合成基频参数序列越接近于所述固定成分文本对应的自然语音段的基频参数序列,则越符合通用模型分布特征。在具体实现中,选择权重a为[0,100]间的数值。
另外,通过加权目标函数生成的合成基频参数序列具有如下特征:对可变成分文本其基频参数满足通用基频模型分布,而对于固定成分文本其基频参数在满足基频模型分布的同时还更接近自然语音的特点,具有连贯性。通过自然语音段的基频参数序列的约束生成的合成基频参数序列将比较靠近自然语音段的基频参数序列,改变了传统基于最大似然准则生成的基频参数序列比较平滑,动态起伏感不强、声音沉闷的问题。
在某些实施方式中,所述确定合成文本的合成频谱参数序列(步骤107)可以具体为:
从所述预置模板库中获取所述固定成分文本及可变成分文本的基本语音单元的各基本合成单元的频谱模型
Figure BDA00002659048400131
对所述各基本合成单元的频谱模型
Figure BDA00002659048400132
根据其所对应合成时长参数
Figure BDA00002659048400133
重复相应次数,获取所述基本合成单元的频谱模型序列;
根据合成文本的基本语音单元序列,拼接各基本语音单元对应的所述基本合成单元的频谱模型序列,获取所述合成文本的频谱模型序列;
从所述预置模板库中获取所述固定成分文本所对应的自然语音段的频谱参数序列Ygs
基于公式
C s = arg - max log p ( C s | λ ) + β ( C gs - Y gs ) T ( C gs - Y gs ) u gs - 1 , 获取所述合成文本的合成频谱参数序列;
其中, log p ( C s | λ ) = - 1 2 C s T W T U s - 1 W C s + C s T W T U s - 1 M s 是合成文本对应的频谱模型序列的似然度总和,λ是所述概率模型的模型参数,包括计算动态参数的窗函数矩阵W,频谱模型序列的均值Ms和协方差矩阵Us;Cs为待生成的语音合成频谱参数;
β(Cgs-Ygs)T(Cgs-Ygs)ugs -1用于描述生成的合成频谱参数序列和自然语音段的频谱参数序列的差值,其中,Ygs为固定成分文本的自然频谱参数,ugs -1为自然频谱参数的全局方差,β是系统第二预设域值。
可以理解的是,β用于调整合成频谱参数序列的倾向度,β的值越大则优化的合成频谱参数序列越接近于所述固定成分文本对应的自然语音段的频谱参数序列,反之则越符合通用模型分布特征。在具体实现中,选择权重β为[0,100]间的数值。
另外,通过加权目标函数生成的合成频谱参数序列具有如下特征,对可变成分文本其频谱参数满足通用频谱模型分布,而对于固定成分文本其频谱参数在满足频谱分布的同时还更接近自然语音的特点,具有连贯性。通过自然自然语音段的频谱参数序列的约束生成的合成频谱参数序列将比较靠近自然语音段的频谱参数序列,改变了传统基于最大似然准则生成的频谱参数序列比较平滑、声音沉闷的问题。
由上述可知,本发明实施例提供的一种语音合成方法,先确定固定成分文本的合成时长参数和可变成分文本的合成时长参数,然后据此,再确定合成文本的合成基频参数序列和合成频谱参数序列,最后根据固定成分文本及可变成分文本的合成时长参数、合成基频参数序列和合成频谱参数序列生成连续语音信号,即固定成分文本和可变成分文本采用同样的方式生成语音信号,保持了一致性,同时也提高语音的合成音质和自然度。
为便于更好的实施本发明实施例的技术方案,本发明实施例还提供用于实施上述方法的相关系统。其中名词的含义与上述方法中相同,具体实现细节可以参考方法实施例中的说明。
请参考图2,图2为本发明实施例提供的一种语音合成系统的结构示意图;其中,所述系统包括:
获取模块201,用于获取合成文本;
文本划分模块202,用于将所述获取模块201获取的合成文本划分为固定成分文本和可变成分文本;
在某些实施方式中,语音合成系统中的获取模块201获取用户输入的合成文本,文本划分模块202将其进行划分为固定成分文本和可变成分文本,其中,固定成分文本是指可以从系统音库中找到对应模板的文本字串,可变成分文本是指无法直接获取对应模板的文本字串。
时长参数获取模块203,用于对所述固定成分文本进行分析,确定所述固定成分文本中各基本合成单元的合成时长参数,得到所述固定成分文本的合成时长参数序列;以及对所述可变成分文本进行分析,确定所述可变成分文本中各基本合成单元的合成时长参数,得到所述可变成分文本的合成时长参数序列;
可以理解的是,每一个基本合成单元对应一个合成时长参数,文本中各基本合成单元的合成时长参数形成该文本的合成时长参数序列;另外,由于合成文本可以认为是由固定成分文本和可变成分文本组成,因此得到的固定成分文本的合成时长参数序列和得到的可变成分文本的合成时长参数序列可以认为是合成文本的合成时长参数序列。
基频参数获取模块204,用于根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列,确定所述合成文本的合成基频参数序列;
频谱参数获取模块205,用于根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列,确定所述合成文本的合成频谱参数序列;
语音信号生成模块206,用于根据所述固定成分文本的合成时长参数序列、所述可变成分文本的合成时长参数序列、所述合成基频参数序列和所述合成频谱参数序列,生成连续语音信号。
由上述可知,本发明实施例提供的一种语音合成系统,先确定固定成分文本的合成时长参数和可变成分文本的合成时长参数,然后据此,再确定合成文本的合成基频参数序列和合成频谱参数序列,最后根据固定成分文本及可变成分文本的合成时长参数、合成基频参数序列和合成频谱参数序列生成连续语音信号,即固定成分文本和可变成分文本采用同样的方式生成语音信号,保持了一致性,同时也提高语音的合成音质和自然度。
其中,在本发明实施方式下,可以预先在语音合成系统中进行预置模板库的构建,其后根据利用预置模板库进行信息匹配和信息获取,最终得到合成文本的合成时长参数序列、合成文本的合成基频参数序列以及合成频谱参数序列,并据此生成连续语音信号。可以理解的是,所述预置模板库的构建可以参考方法实施例中的相应过程进行具体实现,此处不再具体阐述。
在某些实施方式中,所述文本划分模块202,具体用于采用前后向最大分词算法对所述合成文本进行字词划分并得到分词或分词组合;将所述分词或分词组合与预置模板库中的韵律词标注信息进行比较,若所述分词或分词组合与所述韵律词标注信息一致,则确定出所述分词或分词组合为固定成分文本,若否,则确定出所述分词或分词组合为可变成分文本。
可以理解的是,在文本划分模块202将所述分词或分词组合与预置模板库中的韵律词标注信息进行匹配比较的过程中,考虑到系统分词算法切分所得的分词单元往往较小,而固定成分文本的匹配需要完整匹配,对此系统还可以考虑分词及分词前后相邻单元的组合和预设韵律词标注信息的一致性。
在某些实施方式中,确定固定成分文本的合成时长参数序列时,时长参数获取模块203可以具体用于:
从所述预置模板库中获取所述固定成分文本对应自然语音段中各基本语音单元的时长参数Ti
从所述预置模板库中获取所述固定成分文本对应自然语音段中各基本语音单元所对应的基本合成单元序列的合成时长参数模型序列
Figure BDA00002659048400161
基于公式 { d - i j } = arg max log L i = Σ j = 1 N log p ( d i j ) , S.T: Σ j = 1 N d i j = T i , 生成所述固定成分文本的各基本语音单元的基本合成单元序列的合成时长参数序列;
其中,S.T:
Figure BDA00002659048400164
为第i个基本语音单元所对应的基本合成单元序列的时长约束条件,
Figure BDA00002659048400165
为所述基本语音单元所对应的第j个基本合成单元的时长特征变量,N为所述基本语音单元所对应的基本合成单元总数。
可以理解的是,本发明实施例考虑到数据量大小和模拟准确性,采用了高斯模型满足即该模型由参数均值
Figure BDA00002659048400167
以及方差
Figure BDA00002659048400168
确定。通过引入自然语音段的时长特征约束,使得生成的语音段的合成参数更好的体现了自然语音的效果,改善了时长的预测效果。
在某些实施方式中,确定所述可变成分文本的合成时长参数序列时,所述时长参数获取模块203还用于:
从所述预置模板库中获取所述可变成分文本对应自然语音段中各基本语音单元所对应的基本合成单元序列的合成时长参数模型序列
Figure BDA00002659048400169
基于公式 { d - i j } = arg max log L i = Σ j = 1 N log p ( d i j ) ,
生成所述可变成分文本的各基本语音单元的基本合成单元序列的合成时长参数序列;
其中,
Figure BDA00002659048400171
为第i个基本语音单元中第j个基本合成单元的时长特征变量,N为所述基本语音单元所对应的基本合成单元的总数。
可以理解的是,本发明实施例中可变成分文本的合成时长参数序列是采用传统的方法获取,即选择模型最大化的变量作为最优时长特征。
在某些实施方式中,基频参数获取模块204确定合成文本的合成基频参数序列,具体用于:
从所述预置模板库中获取所述固定成分文本及可变成分文本的基本语音单元的各基本合成单元的基频模型
Figure BDA00002659048400172
对所述各基本合成单元的基频模型
Figure BDA00002659048400173
根据其所对应合成时长参数重复相应次数,获取所述基本合成单元的基频模型序列;
根据合成文本的基本语音单元序列,拼接各基本语音单元对应的所述基本合成单元的基频模型序列,获取所述合成文本的基频模型序列;
从所述预置模板库中获取所述固定成分文本所对应的自然语音段的基频参数序列Ygf
基于公式
C - f = arg max log p ( C f | λ ) + α ( C gf - Y gf ) T ( C gf - Y gf ) u gf - 1 , 获取所述合成文本的合成基频参数序列;
其中, log p ( C f | λ ) = - 1 2 C f T W T U f - 1 W C f + C f T W T U f - 1 M f 是合成文本对应的基频模型序列的似然度总和,其中,λ是所述概率模型的模型参数,包括计算动态参数的窗函数矩阵W,基频模型序列的均值Mf和协方差矩阵Uf;Cf为待生成的语音合成基频参数矩阵,包括固定成分的合成基频参数矩阵Cgf以及可变成分的合成基频参数矩阵Cuf
α(Cgf-Ygf)T(Cgf-Ygf)ugf -1用于描述生成的合成基频参数序列和自然语音段的基频参数序列的差值,其中,Ygf为固定成分文本的自然基频参数,ugf -1为自然基频参数的全局方差,α是系统第一预设域值。
可以理解的是,α用于调整合成基频参数序列的倾向度,α的值越大则合成基频参数序列越接近于所述固定成分文本对应的自然语音段的基频参数序列,则越符合通用模型分布特征。在具体实现中,选择权重a为[0,100]间的数值。
另外,通过加权目标函数生成的合成基频参数序列具有如下特征:对可变成分文本其基频参数满足通用基频模型分布,而对于固定成分文本其基频参数在满足基频模型分布的同时还更接近自然语音的特点,具有连贯性。通过自然语音段的基频参数序列的约束生成的合成基频参数序列将比较靠近自然语音段的基频参数序列,改变了传统基于最大似然准则生成的基频参数序列比较平滑,动态起伏感不强、声音沉闷的问题。
在某些实施方式中,频谱参数获取模块205确定合成文本的合成频谱参数序列,具体用于:
从所述预置模板库中获取所述固定成分文本及可变成分文本的基本语音单元的各基本合成单元的频谱模型
Figure BDA00002659048400181
对所述各基本合成单元的频谱模型
Figure BDA00002659048400182
根据其所对应合成时长参数重复相应次数,获取所述基本合成单元的频谱模型序列;
根据合成文本的基本语音单元序列,拼接各基本语音单元对应的所述基本合成单元的频谱模型序列,获取所述合成文本的频谱模型序列;
从所述预置模板库中获取所述固定成分文本所对应的自然语音段的频谱参数序列Ygs
基于公式
C s = arg - max log p ( C s | λ ) + β ( C gs - Y gs ) T ( C gs - Y gs ) u gs - 1 , 获取所述合成文本的合成频谱参数序列;
其中, log p ( C s | λ ) = - 1 2 C s T W T U s - 1 W C s + C s T W T U s - 1 M s 是合成文本对应的频谱模型序列的似然度总和,λ是所述概率模型的模型参数,包括计算动态参数的窗函数矩阵W,频谱模型序列的均值Ms和协方差矩阵Us;Cs为待生成的语音合成频谱参数;
β(Cgs-Ygs)T(Cgs-Ygs)ugs -1用于描述生成的合成频谱参数序列和自然语音段的频谱参数序列的差值,其中,Ygs为固定成分文本的自然频谱参数,ugs -1为自然频谱参数的全局方差,β是系统第二预设域值。
可以理解的是,β用于调整合成频谱参数序列的倾向度,β的值越大则优化的合成频谱参数序列越接近于所述固定成分文本对应的自然语音段的频谱参数序列,反之则越符合通用模型分布特征。在具体实现中,选择权重β为[0,100]间的数值。
另外,通过加权目标函数生成的合成频谱参数序列具有如下特征,对可变成分文本其频谱参数满足通用频谱模型分布,而对于固定成分文本其频谱参数在满足频谱分布的同时还更接近自然语音的特点,具有连贯性。通过自然自然语音段的频谱参数序列的约束生成的合成频谱参数序列将比较靠近自然语音段的频谱参数序列,改变了传统基于最大似然准则生成的频谱参数序列比较平滑、声音沉闷的问题。
由上述可知,本发明实施例提供的一种语音合成系统,先确定固定成分文本的合成时长参数和可变成分文本的合成时长参数,然后据此,再确定合成文本的合成基频参数序列和合成频谱参数序列,最后根据固定成分文本及可变成分文本的合成时长参数、合成基频参数序列和合成频谱参数序列生成连续语音信号,即固定成分文本和可变成分文本采用同样的方式生成语音信号,保持了一致性,同时也提高语音的合成音质和自然度。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统及系统中的单元模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本发明所提供的一种语音合成方法和语音合成系统进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种语音合成方法,其特征在于,包括:
获取合成文本;
将所述合成文本划分为固定成分文本和可变成分文本;
对所述固定成分文本进行分析,确定所述固定成分文本中各基本合成单元的合成时长参数,得到所述固定成分文本的合成时长参数序列;以及
对所述可变成分文本进行分析,确定所述可变成分文本中各基本合成单元的合成时长参数,得到所述可变成分文本的合成时长参数序列;
根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列,确定所述合成文本的合成基频参数序列;以及
根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列,确定所述合成文本的合成频谱参数序列;
根据所述固定成分文本的合成时长参数序列、所述可变成分文本的合成时长参数序列、所述合成基频参数序列和所述合成频谱参数序列,生成连续语音信号。
2.根据权利要求1所述的方法,其特征在于,所述将所述合成文本划分为固定成分文本和可变成分文本具体包括:
采用前后向最大分词算法对所述合成文本进行字词划分并得到分词或分词组合;
将所述分词或分词组合与预置模板库中的韵律词标注信息进行比较,若所述分词或分词组合与所述韵律词标注信息一致,则确定出所述分词或分词组合为固定成分文本,若否,则确定出所述分词或分词组合为可变成分文本。
3.根据权利要求2所述的方法,其特征在于,所述对所述固定成分文本进行分析,确定所述固定成分文本中各基本合成单元的合成时长参数,得到所述固定成分文本的合成时长参数序列,包括:
从所述预置模板库中获取所述固定成分文本对应自然语音段中各基本语音单元的时长参数Ti
从所述预置模板库中获取所述固定成分文本对应自然语音段中各基本语音单元所对应的基本合成单元序列的合成时长参数模型序列
Figure FDA00002659048300011
基于公式 { d ‾ i j } = arg max log L i = Σ j = 1 N log p ( d i j ) , S.T: Σ j = 1 N d i j = T i , 生成所述固定成分文本的各基本语音单元的基本合成单元序列的合成时长参数序列;
其中,S.T:
Figure FDA00002659048300023
为第i个基本语音单元所对应的基本合成单元序列的时长约束条件,
Figure FDA00002659048300024
为所述基本语音单元所对应的第j个基本合成单元的时长特征变量,N为所述基本语音单元所对应的基本合成单元总数。
4.根据权利要求2或3所述的方法,其特征在于,所述对所述可变成分文本进行分析,确定所述可变成分文本的各基本合成单元的合成时长参数,得到所述可变成分文本的合成时长参数序列,包括:
从所述预置模板库中获取所述可变成分文本对应自然语音段中各基本语音单元所对应的基本合成单元序列的合成时长参数模型序列
Figure FDA00002659048300025
基于公式 { d ‾ i j } = arg max log L i = Σ j = 1 N log p ( d i j ) ,
生成所述可变成分文本的各基本语音单元的基本合成单元序列的合成时长参数序列;
其中,
Figure FDA00002659048300027
为第i个基本语音单元中第j个基本合成单元的时长特征变量,N为所述基本语音单元所对应的基本合成单元的总数。
5.根据权利要求4所述的方法,其特征在于,根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列,确定所述合成文本的合成基频参数序列,包括:
从所述预置模板库中获取所述固定成分文本及可变成分文本的基本语音单元的各基本合成单元的基频模型
Figure FDA00002659048300028
对所述各基本合成单元的基频模型
Figure FDA00002659048300029
根据其所对应合成时长参数
Figure FDA000026590483000210
重复相应次数,获取所述基本合成单元的基频模型序列;
根据合成文本的基本语音单元序列,拼接各基本语音单元对应的所述基本合成单元的基频模型序列,获取所述合成文本的基频模型序列;
从所述预置模板库中获取所述固定成分文本所对应的自然语音段的基频参数序列Ygf
基于公式
C - f = arg max log p ( C f | λ ) + α ( C gf - Y gf ) T ( C gf - Y gf ) u gf - 1 , 获取所述合成文本的合成基频参数序列;
其中, log p ( C f | λ ) = - 1 2 C f T W T U f - 1 W C f + C f T W T U f - 1 M f 是合成文本对应的基频模型序列的似然度总和,其中,λ是所述概率模型的模型参数,包括计算动态参数的窗函数矩阵W,基频模型序列的均值Mf和协方差矩阵Uf;Cf为待生成的语音合成基频参数矩阵,包括固定成分的合成基频参数矩阵Cgf以及可变成分的合成基频参数矩阵Cuf
α(Cgf-Ygf)T(Cgf-Ygf)ugf -1用于描述生成的合成基频参数序列和自然语音段的基频参数序列的差值,其中,Ygf为固定成分文本的自然基频参数,ugf -1为自然基频参数的全局方差,α是系统第一预设域值。
6.根据权利要求4所述的方法,其特征在于,根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列,确定所述合成文本的合成频谱参数序列,包括:
从所述预置模板库中获取所述固定成分文本及可变成分文本的基本语音单元的各基本合成单元的频谱模型
Figure FDA00002659048300033
对所述各基本合成单元的频谱模型
Figure FDA00002659048300034
根据其所对应合成时长参数
Figure FDA00002659048300035
重复相应次数,获取所述基本合成单元的频谱模型序列;
根据合成文本的基本语音单元序列,拼接各基本语音单元对应的所述基本合成单元的频谱模型序列,获取所述合成文本的频谱模型序列;
从所述预置模板库中获取所述固定成分文本所对应的自然语音段的频谱参数序列Ygs
基于公式
C s = arg - max log p ( C s | λ ) + β ( C gs - Y gs ) T ( C gs - Y gs ) u gs - 1 , 获取所述合成文本的合成频谱参数序列;
其中, log p ( C s | λ ) = - 1 2 C s T W T U s - 1 W C s + C s T W T U s - 1 M s 是合成文本对应的频谱模型序列的似然度总和,λ是所述概率模型的模型参数,包括计算动态参数的窗函数矩阵W,频谱模型序列的均值Ms和协方差矩阵Us;Cs为待生成的语音合成频谱参数;
β(Cgs-Ygs)T(Cgs-Ygs)ugs -1用于描述生成的合成频谱参数序列和自然语音段的频谱参数序列的差值,其中,Ygs为固定成分文本的自然频谱参数,ugs -1为自然频谱参数的全局方差,β是系统第二预设域值。
7.一种语音合成系统,其特征在于,包括:
获取模块,用于获取合成文本;
文本划分模块,用于将所述合成文本划分为固定成分文本和可变成分文本;
时长参数获取模块,用于对所述固定成分文本进行分析,确定所述固定成分文本中各基本合成单元的合成时长参数,得到所述固定成分文本的合成时长参数序列;以及对所述可变成分文本进行分析,确定所述可变成分文本中各基本合成单元的合成时长参数,得到所述可变成分文本的合成时长参数序列;
基频参数获取模块,用于根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列,确定所述合成文本的合成基频参数序列;
频谱参数获取模块,用于根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列,确定所述合成文本的合成频谱参数序列;
语音信号生成模块,用于根据所述固定成分文本的合成时长参数序列、所述可变成分文本的合成时长参数序列、所述合成基频参数序列和所述合成频谱参数序列,生成连续语音信号。
8.根据权利要求7所述的系统,其特征在于,所述文本划分模块,具体用于采用前后向最大分词算法对所述合成文本进行字词划分并得到分词或分词组合;将所述分词或分词组合与预置模板库中的韵律词标注信息进行比较,若所述分词或分词组合与所述韵律词标注信息一致,则确定出所述分词或分词组合为固定成分文本,若否,则确定出所述分词或分词组合为可变成分文本。
9.根据权利要求8所述的系统,其特征在于,所述时长参数获取模块具体用于:
从所述预置模板库中获取所述固定成分文本对应自然语音段中各基本语音单元的时长参数Ti
从所述预置模板库中获取所述固定成分文本对应自然语音段中各基本语音单元所对应的基本合成单元序列的合成时长参数模型序列
基于公式 { d - i j } = arg max log L i = Σ j = 1 N log p ( d i j ) , S.T: Σ j = 1 N d i j = T i , 生成所述固定成分文本的各基本语音单元的基本合成单元序列的合成时长参数序列;
其中,S.T:
Figure FDA00002659048300054
为第i个基本语音单元所对应的基本合成单元序列的时长约束条件,
Figure FDA00002659048300055
为所述基本语音单元所对应的第j个基本合成单元的时长特征变量,N为所述基本语音单元所对应的基本合成单元总数。
10.根据权利要求8或9所述的系统,其特征在于,所述时长参数获取模块还用于:
从所述预置模板库中获取所述可变成分文本对应自然语音段中各基本语音单元所对应的基本合成单元序列的合成时长参数模型序列
Figure FDA00002659048300056
基于公式 { d ‾ i j } = arg max log L i = Σ j = 1 N log p ( d i j ) ,
生成所述可变成分文本的各基本语音单元的基本合成单元序列的合成时长参数序列;
其中,为第i个基本语音单元中第j个基本合成单元的时长特征变量,N为所述基本语音单元所对应的基本合成单元的总数。
11.根据权利要求10所述的系统,其特征在于,所述基频参数获取模块具体用于:
从所述预置模板库中获取所述固定成分文本及可变成分文本的基本语音单元的各基本合成单元的基频模型
Figure FDA00002659048300061
对所述各基本合成单元的基频模型
Figure FDA00002659048300062
根据其所对应合成时长参数重复相应次数,获取所述基本合成单元的基频模型序列;
根据合成文本的基本语音单元序列,拼接各基本语音单元对应的所述基本合成单元的基频模型序列,获取所述合成文本的基频模型序列;
从所述预置模板库中获取所述固定成分文本所对应的自然语音段的基频参数序列Ygf
基于公式
C - f = arg max log p ( C f | λ ) + α ( C gf - Y gf ) T ( C gf - Y gf ) u gf - 1 , 获取所述合成文本的合成基频参数序列;
其中, log p ( C f | λ ) = - 1 2 C f T W T U f - 1 W C f + C f T W T U f - 1 M f 是合成文本对应的基频模型序列的似然度总和,其中,λ是所述概率模型的模型参数,包括计算动态参数的窗函数矩阵W,基频模型序列的均值Mf和协方差矩阵Uf;Cf为待生成的语音合成基频参数矩阵,包括固定成分的合成基频参数矩阵Cgf以及可变成分的合成基频参数矩阵Cuf
α(Cgf-Ygf)T(Cgf-Ygf)ugf -1用于描述生成的合成基频参数序列和自然语音段的基频参数序列的差值,其中,Ygf为固定成分文本的自然基频参数,ugf -1为自然基频参数的全局方差,α是系统第一预设域值。
12.根据权利要求10所述的系统,其特征在于,所述频谱参数获取模块具体用于:
从所述预置模板库中获取所述固定成分文本及可变成分文本的基本语音单元的各基本合成单元的频谱模型
Figure FDA00002659048300066
对所述各基本合成单元的频谱模型
Figure FDA00002659048300067
根据其所对应合成时长参数
Figure FDA00002659048300068
重复相应次数,获取所述基本合成单元的频谱模型序列;
根据合成文本的基本语音单元序列,拼接各基本语音单元对应的所述基本合成单元的频谱模型序列,获取所述合成文本的频谱模型序列;
从所述预置模板库中获取所述固定成分文本所对应的自然语音段的频谱参数序列Ygs
基于公式
C s = arg - max log p ( C s | λ ) + β ( C gs - Y gs ) T ( C gs - Y gs ) u gs - 1 , 获取所述合成文本的合成频谱参数序列;
其中, log p ( C s | λ ) = - 1 2 C s T W T U s - 1 W C s + C s T W T U s - 1 M s 是合成文本对应的频谱模型序列的似然度总和,λ是所述概率模型的模型参数,包括计算动态参数的窗函数矩阵W,频谱模型序列的均值Ms和协方差矩阵Us;Cs为待生成的语音合成频谱参数;
β(Cgs-Ygs)T(Cgs-Ygs)ugs -1用于描述生成的合成频谱参数序列和自然语音段的频谱参数序列的差值,其中,Ygs为固定成分文本的自然频谱参数,ugs -1为自然频谱参数的全局方差,β是系统第二预设域值。
CN201210575160.XA 2012-12-26 2012-12-26 一种语音合成方法和语音合成系统 Active CN103065619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210575160.XA CN103065619B (zh) 2012-12-26 2012-12-26 一种语音合成方法和语音合成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210575160.XA CN103065619B (zh) 2012-12-26 2012-12-26 一种语音合成方法和语音合成系统

Publications (2)

Publication Number Publication Date
CN103065619A true CN103065619A (zh) 2013-04-24
CN103065619B CN103065619B (zh) 2015-02-04

Family

ID=48108219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210575160.XA Active CN103065619B (zh) 2012-12-26 2012-12-26 一种语音合成方法和语音合成系统

Country Status (1)

Country Link
CN (1) CN103065619B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766602A (zh) * 2014-01-06 2015-07-08 安徽科大讯飞信息科技股份有限公司 歌唱合成系统中基频合成参数生成方法及系统
CN105206257A (zh) * 2015-10-14 2015-12-30 科大讯飞股份有限公司 一种声音转换方法及装置
CN106297765A (zh) * 2015-06-04 2017-01-04 科大讯飞股份有限公司 语音合成方法及系统
CN107644637A (zh) * 2017-03-13 2018-01-30 平安科技(深圳)有限公司 语音合成方法和装置
CN107871494A (zh) * 2016-09-23 2018-04-03 北京搜狗科技发展有限公司 一种语音合成的方法、装置及电子设备
CN105023574B (zh) * 2014-04-30 2018-06-15 科大讯飞股份有限公司 一种实现合成语音增强的方法及系统
CN108184032A (zh) * 2016-12-07 2018-06-19 中国移动通信有限公司研究院 一种客服系统的服务方法及装置
CN110808028A (zh) * 2019-11-22 2020-02-18 芋头科技(杭州)有限公司 嵌入式语音合成方法、装置以及控制器和介质
CN111108549A (zh) * 2019-12-24 2020-05-05 深圳市优必选科技股份有限公司 语音合成方法、装置、计算机设备及计算机可读存储介质
CN111508466A (zh) * 2019-09-12 2020-08-07 马上消费金融股份有限公司 一种文本处理方法、装置、设备及计算机可读存储介质
CN111899716A (zh) * 2020-08-03 2020-11-06 北京帝派智能科技有限公司 一种语音合成方法和系统
CN112786000A (zh) * 2019-11-11 2021-05-11 亿度慧达教育科技(北京)有限公司 语音合成方法、系统、设备及存储介质
CN113421548A (zh) * 2021-06-30 2021-09-21 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备和存储介质
CN113516963A (zh) * 2020-04-09 2021-10-19 菜鸟智能物流控股有限公司 音频数据的生成方法、装置、服务器和智能音箱
CN113808572A (zh) * 2021-08-18 2021-12-17 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004036541A2 (en) * 2002-10-17 2004-04-29 Koninklijke Philips Electronics N.V. Arrangement and method for reproducing audio data as well as computer program product for this
JP2004212665A (ja) * 2002-12-27 2004-07-29 Toshiba Corp 話速可変装置及び話速変換方法
CN101079301A (zh) * 2006-07-28 2007-11-28 埃里克·路易斯·汉森 文本映射到音频并动画文本的设备及方法
CN101334996A (zh) * 2007-06-28 2008-12-31 富士通株式会社 文本到语音设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004036541A2 (en) * 2002-10-17 2004-04-29 Koninklijke Philips Electronics N.V. Arrangement and method for reproducing audio data as well as computer program product for this
JP2004212665A (ja) * 2002-12-27 2004-07-29 Toshiba Corp 話速可変装置及び話速変換方法
CN101079301A (zh) * 2006-07-28 2007-11-28 埃里克·路易斯·汉森 文本映射到音频并动画文本的设备及方法
CN101334996A (zh) * 2007-06-28 2008-12-31 富士通株式会社 文本到语音设备

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766602A (zh) * 2014-01-06 2015-07-08 安徽科大讯飞信息科技股份有限公司 歌唱合成系统中基频合成参数生成方法及系统
CN104766602B (zh) * 2014-01-06 2019-01-18 科大讯飞股份有限公司 歌唱合成系统中基频合成参数生成方法及系统
CN105023574B (zh) * 2014-04-30 2018-06-15 科大讯飞股份有限公司 一种实现合成语音增强的方法及系统
CN106297765A (zh) * 2015-06-04 2017-01-04 科大讯飞股份有限公司 语音合成方法及系统
CN106297765B (zh) * 2015-06-04 2019-10-18 科大讯飞股份有限公司 语音合成方法及系统
CN105206257B (zh) * 2015-10-14 2019-01-18 科大讯飞股份有限公司 一种声音转换方法及装置
CN105206257A (zh) * 2015-10-14 2015-12-30 科大讯飞股份有限公司 一种声音转换方法及装置
CN107871494B (zh) * 2016-09-23 2020-12-11 北京搜狗科技发展有限公司 一种语音合成的方法、装置及电子设备
CN107871494A (zh) * 2016-09-23 2018-04-03 北京搜狗科技发展有限公司 一种语音合成的方法、装置及电子设备
CN108184032A (zh) * 2016-12-07 2018-06-19 中国移动通信有限公司研究院 一种客服系统的服务方法及装置
CN108184032B (zh) * 2016-12-07 2020-02-21 中国移动通信有限公司研究院 一种客服系统的服务方法及装置
CN107644637B (zh) * 2017-03-13 2018-09-25 平安科技(深圳)有限公司 语音合成方法和装置
CN107644637A (zh) * 2017-03-13 2018-01-30 平安科技(深圳)有限公司 语音合成方法和装置
CN111508466A (zh) * 2019-09-12 2020-08-07 马上消费金融股份有限公司 一种文本处理方法、装置、设备及计算机可读存储介质
CN112786000A (zh) * 2019-11-11 2021-05-11 亿度慧达教育科技(北京)有限公司 语音合成方法、系统、设备及存储介质
CN112786000B (zh) * 2019-11-11 2022-06-03 亿度慧达教育科技(北京)有限公司 语音合成方法、系统、设备及存储介质
CN110808028B (zh) * 2019-11-22 2022-05-17 芋头科技(杭州)有限公司 嵌入式语音合成方法、装置以及控制器和介质
CN110808028A (zh) * 2019-11-22 2020-02-18 芋头科技(杭州)有限公司 嵌入式语音合成方法、装置以及控制器和介质
CN111108549B (zh) * 2019-12-24 2024-02-02 深圳市优必选科技股份有限公司 语音合成方法、装置、计算机设备及计算机可读存储介质
CN111108549A (zh) * 2019-12-24 2020-05-05 深圳市优必选科技股份有限公司 语音合成方法、装置、计算机设备及计算机可读存储介质
WO2021127979A1 (zh) * 2019-12-24 2021-07-01 深圳市优必选科技股份有限公司 语音合成方法、装置、计算机设备及计算机可读存储介质
CN113516963B (zh) * 2020-04-09 2023-11-10 菜鸟智能物流控股有限公司 音频数据的生成方法、装置、服务器和智能音箱
CN113516963A (zh) * 2020-04-09 2021-10-19 菜鸟智能物流控股有限公司 音频数据的生成方法、装置、服务器和智能音箱
CN111899716B (zh) * 2020-08-03 2021-03-12 北京帝派智能科技有限公司 一种语音合成方法和系统
CN111899716A (zh) * 2020-08-03 2020-11-06 北京帝派智能科技有限公司 一种语音合成方法和系统
CN113421548A (zh) * 2021-06-30 2021-09-21 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备和存储介质
CN113421548B (zh) * 2021-06-30 2024-02-06 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备和存储介质
CN113808572A (zh) * 2021-08-18 2021-12-17 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN103065619B (zh) 2015-02-04

Similar Documents

Publication Publication Date Title
CN103065619B (zh) 一种语音合成方法和语音合成系统
CN101178896B (zh) 基于声学统计模型的单元挑选语音合成方法
EP2846327A1 (en) A speech processing system and method
CN103578462A (zh) 语音处理系统
CN105609097A (zh) 语音合成装置及其控制方法
CN104835498A (zh) 基于多类型组合特征参数的声纹识别方法
CN102270449A (zh) 参数语音合成方法和系统
CN105654940B (zh) 一种语音合成方法和装置
CN106057192A (zh) 一种实时语音转换方法和装置
CN103778912A (zh) 引导式说话人自适应语音合成的系统与方法及程序产品
US10636412B2 (en) System and method for unit selection text-to-speech using a modified Viterbi approach
CN103403797A (zh) 语音合成装置以及语音合成方法
Chen et al. The ustc system for blizzard challenge 2011
CN103021402A (zh) 合成字典制作装置及合成字典制作方法
CN1787072B (zh) 基于韵律模型和参数选音的语音合成方法
US9484045B2 (en) System and method for automatic prediction of speech suitability for statistical modeling
Yu et al. Probablistic modelling of F0 in unvoiced regions in HMM based speech synthesis
Mizutani et al. Concatenative speech synthesis based on the plural unit selection and fusion method
Vepa et al. Subjective evaluation of join cost and smoothing methods for unit selection speech synthesis
KR102351021B1 (ko) 음성 트레이닝 데이터 선별 방법 및 이를 이용하는 장치
Cooper et al. Characteristics of text-to-speech and other corpora
Savargiv et al. Study on unit-selection and statistical parametric speech synthesis techniques
Beke et al. Automatic phrase segmentation and clustering in spontaneous speech
Bellegarda A dynamic cost weighting framework for unit selection text–to–speech synthesis
CN102752239B (zh) 一种提供音库混合训练模型的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 230031 666 Wangjiang West Road, Hefei high tech Zone, Anhui

Patentee after: Iflytek Co., Ltd.

Address before: 230088 No. 616, Mount Huangshan Road, hi tech Development Zone, Anhui, Hefei

Patentee before: Anhui USTC iFLYTEK Co., Ltd.