CN102752239B - 一种提供音库混合训练模型的方法和系统 - Google Patents

一种提供音库混合训练模型的方法和系统 Download PDF

Info

Publication number
CN102752239B
CN102752239B CN201210220059.2A CN201210220059A CN102752239B CN 102752239 B CN102752239 B CN 102752239B CN 201210220059 A CN201210220059 A CN 201210220059A CN 102752239 B CN102752239 B CN 102752239B
Authority
CN
China
Prior art keywords
model
recording
parameter
training
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210220059.2A
Other languages
English (en)
Other versions
CN102752239A (zh
Inventor
李健
郑晓明
张连毅
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing InfoQuick SinoVoice Speech Technology Corp.
Original Assignee
JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd filed Critical JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Priority to CN201210220059.2A priority Critical patent/CN102752239B/zh
Publication of CN102752239A publication Critical patent/CN102752239A/zh
Application granted granted Critical
Publication of CN102752239B publication Critical patent/CN102752239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种提供音库混合训练模型的方法,包括:根据选择用作样本的录音语料,采集至少两位发音人的声音信号,得到至少两组录音数据;从所述各组录音数据中提取出声音的参数信息,包括音高、谱、时长中至少之一;对语音参数进行统计分析,得到参数模型。本发明还公开相应的提供音库混合训练模型的系统。根据本发明,在现有语音合成技术的基础上,在训练模型时,将多个音库混合训练模型,即将几个发音人的音库数据放在一起训练,最终训练出的模型趋向于一种多发音人平均或者单个发音人最优的参数,从而得到一个较稳定的模型。可降低对录音人的要求,减少录音的成本,同时,可以更加容易的完成训练模型过程,使得合成的语音更加自然。

Description

一种提供音库混合训练模型的方法和系统
技术领域
本发明涉及技术领域,具体地说,涉及一种提供音库混合训练模型的方法和系统。
背景技术
语音合成是实现自然高效的人机交互的一项重要技术。语音合成技术即TTS,简单说,就是让计算机“开口讲话”,是利用计算机将任意组合的文本文件转化为声音文件,并通过多媒体设备将声音输出,即将任意的文本自动转换成为语音信息播放给用户。现今最为常见的语音合成方法有两种,一种是基于单元挑选与波形拼接的合成方法,另外一种是基于声学统计模型的参数合成方法。
在传统的单元挑选算法中,目标代价与连接代价往往是通过计算单元间的上下文属性的差异或者备选单元声学参数与预测目标之间的距离来实现的。这样造成的结果是,代价函数的设计往往需要语种相关的语音学专家的参与,进行大量的手工调试,使得系统构建的自动化程度收到限制;并且设计的代价函数难以保证普适性,往往会产生合成效果不稳定的问题。
近十年来,一种基于统计声学模型(主要是隐马尔柯夫模型HMM,Hidden Markov Model)的参数语音合成方法,得到了迅速的发展。这种方法分为训练和合成两个阶段。在模型训练阶段,得到各音素在不同上下文环境下所对应的频谱和基频参数的声学统计模型;在合成阶段,通过基于最大似然准则的参数生成方法,来预测合成语音所需的频谱和韵律参数,最终经过参数合成器生成语音。整个系统可以实现训练的自动化和语种的无关性,并且合成语音的连续性、稳定性和韵律的自然度都相当高。但是由于参数合成器的限制,使得这种合成方法最终恢复语音的音质往往不很理想。
在传统的语音合成的模型训练中,对发音人录音的水平要求比较高,需要选择水平较高的播音员进行录音。在语音合成中,一般的做法是选择一发音人录制音库、根据音库训练模型,最终根据训练好的模型来合成声音。由于对发音人录音的水品要求比较高,因此需要水平较高的播音员,且代价成本较高。
发明内容
本发明提供一种提供音库混合训练模型的方法和系统,可提供一个较稳定的模型。同时,可以更加容易完成训练模型过程,使得合成的语音更加自然,效果更佳。
本发明提供的一种提供音库混合训练模型的方法,包括:
根据选择用作样本的录音语料,采集至少两位发音人的声音信号,得到至少两组录音数据;
从所述各组录音数据中提取出声音的参数信息,包括音高、谱、时长中至少之一;
对所提取的语音参数进行统计分析,得到参数模型。
优选地,通过混合训练,将每个发音人不同的优势特征参数进行组合,得到优选的参数模型。
本发明提供的一种提供音库混合训练模型的系统,包括:
录音模块,用于根据选择用作样本的录音语料,采集至少两位发音人的声音信号,得到至少两组录音数据;
参数提取模块,用于从所述各组录音数据中提取出声音的参数信息,包括基频(即音高)、谱、时长中至少之一;
统计训练模块,对所提取的语音参数进行统计分析,得到参数模型。
跟适宜地,该系统还包括:
录音语料设计模块,用于选择用作样本的录音语料;
所述录音语料覆盖预定的音节、调联和/或每个音节的各种发音信息。
优选地,该系统还包括:
参数调整模块,根据应用需要,在模型训练阶段对提取出的参数中至少之一进行调整;
本发明还提供一种语音合成方法,包括:
采用前述所提供的音库混合训练模型;基于所述音库混合训练模型来合成声音。
本发明在现有语音合成技术的基础上,在训练模型时,将多个音库混合训练模型,即将几个发音人的音库数据放在一起训练,将单个发音人的缺点模糊掉,最终训练出的模型趋向于一种多发音人平均或者单个发音人最优的参数,从而得到一个较稳定的模型。因此,与现有技术相比,本发明采用的音库混合训练模型的方法,降低了对录音人的要求,也减少了录音的成本,同时,可以更加容易的完成训练模型过程,使得合成的语音更加自然。
附图说明
图1为本发明提供的一种提供音库混合训练模型的方法流程图;
图2为本发明的具体实施方案中提供的得到音库混合训练模型示意图;
图3为本发明实施例中整个模型训练的流程图;
图4为本发明提供的一种提供音库混合训练模型的系统架构图。
具体实施方式
鉴于现有技术中存在的不足,本发明提出一种音库混合训练模型的方法,可以解决前述部分或全部的问题,并可以建立较为稳定的模型。本发明提供的一种混合训练模型的方法:先选择几个发音人录制音库,在训练模型时,将多个音库混合训练模型,即将几个发音人的音库数据放在一起训练。其优点在于:采用多个发音人训练,会将单个发音人的缺点模糊掉,最终训练出的模型趋向于一种多发音人平均的方向,从而得到一个较稳定的模型。其次,每个发音人都有其各自的特点,通过混合训练,可将不同的优势特征组合。第三,真实发音人在参数特征达不到最优,采用多个发音人训练可使语音合成效果得到明显优化。
按照语音理论,对所有合成单元的语音进行分析,提取有关语音参数,这些参数经统计训练后组成一个合成语音参数库;合成时,根据待合成的文本信息和参数库,规划出相应的合成参数,然后送入语音合成器合成,最终将语音波形生成出来。
参照图1,本发明提供的一种提供音库混合训练模型的方法,包括如下步骤:
S01,根据选择用作样本的录音语料,采集至少两位发音人的声音信号,得到至少两组录音数据;
基于录音语料进行录音,得到录音数据,其中包括有多位发音人录制的语音数据。
S02,从所述各组录音数据中提取出声音的参数信息,包括基频(即音高)、谱、时长中至少之一;
S03,对所提取的语音参数进行统计分析,得到参数模型。
在采集发音人的声音信号之前,需要预先选择录音语料用作样本;
该录音语料要尽可能地覆盖所有音节、调联和/或每个音节的各种发音信息。所述发音信息,如在句首、句中、句末、韵首、韵中、韵末、词首、词中、词末等等。
下面对本发明进行详细描述,如图2所示,本发明的具体实施方案中得到音库混合训练模型步骤如下:
1)录音语料设计;
选择用作样本的录音语料,录音语料要尽可能的覆盖所有音节、调联等情况,以及每个音节的各种发音情况,如在句首、句中、句末、韵首、韵中、韵末、词首、词中、词末等等情况。
2)录音;
根据所选择作为样本的录音语料,请多位发音人进行录音,得到多组录音数据。
3)参数提取;
从多组录音数据中提取出声音的参数信息,如基频(即音高)、谱、时长等参数。这些参数信息的提取通常是分帧处理,常见的是1ms或者5ms一帧。具体的,可采用本领域技术人员熟知的参数提取方法进行提取,在此不再详述。
4)模型训练
在隐马尔柯夫模型HMM训练前,首先要对一些建模参数配置,包括建模单元的尺度、模型拓扑结构、状态数目等。在配置好建模参数后,还需要进行数据准备,一般训练数据包括两部分:声学数据以及标注数据,其中声学数据包括谱和基频,这都可以从wav数据中通过STRAIGHT分析得到;标注数据主要包括音段切分和韵律标注,现在采用的都是人工标注的,。
模型训练前还需对上下文属性集和用于决策树聚类的问题集进行设计,即根据先验知识来选择一些对声学参数(谱、基频和时长)有一定影响的上下文属性并设计相应的问题集,比如前后调、前后声韵母等。
整个模型训练的流程如图3所示,下面分别对流程中的每一个步骤的功能实现作简单介绍:
l)方差下限估计:在后面的上下文相关模型训练中,由于上下文属性可能的组合数远远大于训练数据的数目,每个上下文相关模型对应的训练数据只有一到两个,使得模型方差接近于零。为了避免方差过于接近于O,需要预先设定一个方差下限。由于我们采用谱参数和基频参数以及相应的差分系数来进行MSD-HMM建模,对不同的参数需要设定不同的方差下限。对此,我们根据所有数据的统计属性来自动计算各阶参数对应的方差下限。
2)单音素模型训练:在进行方差下限估计后,首先对单音素HMM进行初始化和训练,得到的模型用于进行上下文相关模型的扩展和初始化;一般先进行Viterbi训练,然后再进行Embedded训练。
3)上下文相关模型训练:在得到训练好的单音素模型后,首先根据上下文属性集合进行模型扩展,然后对扩展后的模型进行Embdedde训练。正如上面提到的,由于我们采用的上下文属性的组合数远远大于训练数据的数目,对于每一个上下文相关模型,其对应的训练数据非常有限(一到两个)。
4)基于决策树的模型聚类:由于对于每一个上下文相关模型,其对应的训练数据可能只有一到两个,导致模型的参数在训练后基本上都“过拟和”到那一两个数据上。对此,我们采用基于决策树的聚类方法对上下文相关模型进行聚类,以提高模型的鲁棒性以及模型复杂度和训练数据量之间的均衡性。
5)聚类后模型训练:在进行模型聚类后,需要对聚类后的模型进行进一步的训练,以优化其模型参数,其训练算法与上下文相关模型训练相同;同时输出各个状态模型的状态停留时间的统计数据。
6)时长建模:首先根据各个状态模型的停留时间统计信息来对上下文相关时长模型进行初始化,然后同样采用决策树的方法对模型进行聚类。
通过上面的训练流程,最后训练得到的模型包括谱、基频和时长参数的聚类HMM以及各自的决策树。
具体实施例中,对所提取的语音参数进行统计分析,得到参数模型。假定,录音数据中有100个音节“de”,则统计出这100个“de”的谱参数的均值、方差等。例如,两个或多个人的参数进行训练,发音人A有100个“de”,发音人B有100个“de”,然后用这200个训练“de”模型。此外,在实际的模型训练中,决策树可能会根据音节位置将这100个“de”分为“句首”、“句末”两类,等等处理。
在另一具体实施例中,对于“de”,有的发音人会读的特别短而且发音不完全,若只用该发音人的音库来训练模型,则最终的合成声音中,“de”会读的不好。而多个音库混合训练时,若其他发音人的“de”读的较好,由于最终的模型是由多个发音人“平均”得到的,训练时会将一些不好的数据进行“平均”,从而会改善最终的合成效果。
第二种,在训练中可以通过一种评价(或者听音)方法,来确定特定人(比如说A)的特定音节(比如说“de”),发音好,或者发音差,基于此种判断,可以决定混合训练是使用A的数据,还是不是用A的数据。
经过上述处理,就得到了用于语音合成的参数模型,而且该参数模型是经过多个音库混合训练后统计分析得到的模型。
本发明还提供一种提供音库混合训练模型的系统100,参照图4,该系统包括:
录音模块10,用于根据选择用作样本的录音语料,采集至少两位发音人的声音信号,得到至少两组录音数据;
参数提取模块20,用于从所述各组录音数据中提取出声音的参数信息,包括基频(即音高)、谱、时长中至少之一;
参数调整模块(可选)30,根据应用需要,在模型训练阶段对提取出的参数中至少之一进行调整;
统计训练模块40,对所提取的语音参数(若采用参数调整模块,则对调整后的语音参数)进行统计分析,得到参数模型。
该系统100还包括:
录音语料设计模块00,用于选择用作样本的录音语料;
所述录音语料覆盖所有音节、调联和/或每个音节的各种发音信息。
本系统中,主要对影响语音合成效果较大的谱参数进行了调整,即将谱参数的变化调的更大一些。经过试验证明,谱增强后再进行参数的统计,得到的谱参数反而比较接近真实的声音谱参数。而现有技术统计得到的谱参数比较平均,得到的谱线与真实的声音谱线偏差较大。
例如,录音数据中有100个音节“de”,则统计出这100个“de”的谱参数的均值、方差等。此外,在实际的模型训练中,还需考虑是否根据音节位置将这100个“de”分为“句首”、“句末”两类,等等处理。经过上述处理,就得到了用于语音合成的参数模型。
本发明提供的技术方案中,同时由多位发音人录制音频数据;多个语音音库数据混合训练模型;最终训练出的模型趋向于一种多发音人平均的方向,从而得到一个较稳定的模型。最终训练出的模型,在某个具体参数特征上(比如说基频,时长,谱等)也可以是从单一最优发音人上训练而成的。
因此,选择发音人的标准降低,发音人的选择范围广和录音成本降低;多位发音人录制音频数据可以混合训练模型;训练出的模型趋向于一种多发音人平均或者单个最优发音人的方向;训练出的模型是一个较稳定的模型。同时,可以更加容易的完成训练模型过程,使得合成的语音更加自然,效果更佳。
本发明虽然以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以做出可能的变动和修改,因此本发明的保护范围应当以本发明权利要求所界定的范围为准。

Claims (7)

1.一种提供音库混合训练模型的方法,其特征在于,包括:
根据选择用作样本的录音语料,采集至少两位发音人的声音信号,得到至少两组录音数据;
从所述各组录音数据中提取出声音的参数信息,包括音高、谱、时长中至少之一;
对所提取的语音参数进行统计分析,通过混合训练,将每个发音人不同的优势特征参数进行组合,得到参数模型。
2.如权利要求1所述的方法,其特征在于,在采集发音人的声音信号之前,还包括:
预先选择文本作为录音语料;
所述录音语料覆盖预定的音节、调联和/或每个音节的各种发音信息。
3.如权利要求1所述的方法,其特征在于,所述提取出声音的参数信息采用分帧处理方式。
4.一种提供音库混合训练模型的系统,其特征在于,包括:
录音模块,用于根据选择用作样本的录音语料,采集至少两位发音人的声音信号,得到至少两组录音数据;
参数提取模块,用于从所述各组录音数据中提取出声音的参数信息,包括音高、谱、时长中至少之一;
统计训练模块,对所提取的语音参数进行统计分析,通过混合训练,将每个发音人不同的优势特征参数进行组合,得到参数模型。
5.如权利要求4所述的系统,其特征在于,还包括:
录音语料设计模块,用于选择用作样本的录音语料;
所述录音语料覆盖预定的音节、调联和/或每个音节的各种发音信息。
6.如权利要求4所述的系统,其特征在于,还包括:
参数调整模块,根据应用需要,在模型训练阶段对提取出的参数中至少之一进行调整;
7.一种语音合成方法,其特征在于,包括:
采用如权利要求1至3中任一项所提供的音库混合训练模型;
基于所述音库混合训练模型来合成声音。
CN201210220059.2A 2012-06-28 2012-06-28 一种提供音库混合训练模型的方法和系统 Active CN102752239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210220059.2A CN102752239B (zh) 2012-06-28 2012-06-28 一种提供音库混合训练模型的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210220059.2A CN102752239B (zh) 2012-06-28 2012-06-28 一种提供音库混合训练模型的方法和系统

Publications (2)

Publication Number Publication Date
CN102752239A CN102752239A (zh) 2012-10-24
CN102752239B true CN102752239B (zh) 2015-08-12

Family

ID=47032142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210220059.2A Active CN102752239B (zh) 2012-06-28 2012-06-28 一种提供音库混合训练模型的方法和系统

Country Status (1)

Country Link
CN (1) CN102752239B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918298B (zh) * 2019-02-25 2022-04-01 深圳米唐科技有限公司 智能语音前端麦克风调试方法、装置、系统及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178896A (zh) * 2007-12-06 2008-05-14 安徽科大讯飞信息科技股份有限公司 基于声学统计模型的单元挑选语音合成方法
CN101308652A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种个性化歌唱语音的合成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178896A (zh) * 2007-12-06 2008-05-14 安徽科大讯飞信息科技股份有限公司 基于声学统计模型的单元挑选语音合成方法
CN101308652A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种个性化歌唱语音的合成方法

Also Published As

Publication number Publication date
CN102752239A (zh) 2012-10-24

Similar Documents

Publication Publication Date Title
CN101178896B (zh) 基于声学统计模型的单元挑选语音合成方法
CN105845125B (zh) 语音合成方法和语音合成装置
CN103065620B (zh) 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
CN101727904B (zh) 语音翻译方法和装置
CN105654939B (zh) 一种基于音向量文本特征的语音合成方法
CN103531196B (zh) 一种波形拼接语音合成的选音方法
CN103065619B (zh) 一种语音合成方法和语音合成系统
CN1835075B (zh) 一种结合自然样本挑选与声学参数建模的语音合成方法
CN104112444B (zh) 一种基于文本信息的波形拼接语音合成方法
CN104217713A (zh) 汉藏双语语音合成方法及装置
CN106057192A (zh) 一种实时语音转换方法和装置
CN104766603A (zh) 构建个性化歌唱风格频谱合成模型的方法及装置
CN103632663B (zh) 一种基于hmm的蒙古语语音合成前端处理的方法
CN108492817A (zh) 一种基于虚拟偶像的歌曲数据处理方法及演唱交互系统
CN102568476B (zh) 基于自组织特征映射网络聚类和径向基网络的语音转换法
JP2019211747A (ja) 音声接続合成の処理方法及び装置、コンピュータ設備及び読取り可能な媒体
CN109326280B (zh) 一种歌唱合成方法及装置、电子设备
KR20170107683A (ko) 딥러닝 기반의 음성 합성 시스템을 위한 피치 동기화 음성 합성 방법
CN108877835A (zh) 评价语音信号的方法及系统
CN103632662A (zh) 韵律编辑装置、方法及程序
CN109036376A (zh) 一种闽南语语音合成方法
TWI503813B (zh) 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組
Hill et al. Low-level articulatory synthesis: A working text-to-speech solution and a linguistic tool1
Toman et al. Unsupervised and phonologically controlled interpolation of Austrian German language varieties for speech synthesis
CN110556092A (zh) 语音的合成方法及装置、存储介质、电子装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: 100193, No. two, building 10, Zhongguancun Software Park, 8 northeast Wang Xi Road, Beijing, Haidian District, 206-1

Patentee after: Beijing InfoQuick SinoVoice Speech Technology Corp.

Address before: 100193, No. two, building 10, Zhongguancun Software Park, 8 northeast Wang Xi Road, Beijing, Haidian District, 206-1

Patentee before: Jietong Huasheng Speech Technology Co., Ltd.

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: Building 2102, building 1, Haidian District, Beijing

Patentee after: BEIJING SINOVOICE TECHNOLOGY Co.,Ltd.

Address before: 100193 two, 206-1, Zhongguancun Software Park, 8 Northeast Northeast Road, Haidian District, Beijing, 206-1

Patentee before: BEIJING SINOVOICE TECHNOLOGY Co.,Ltd.