CN105304080A - 语音合成装置及方法 - Google Patents

语音合成装置及方法 Download PDF

Info

Publication number
CN105304080A
CN105304080A CN201510607820.1A CN201510607820A CN105304080A CN 105304080 A CN105304080 A CN 105304080A CN 201510607820 A CN201510607820 A CN 201510607820A CN 105304080 A CN105304080 A CN 105304080A
Authority
CN
China
Prior art keywords
style
text
speech
model
synthetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510607820.1A
Other languages
English (en)
Other versions
CN105304080B (zh
Inventor
孙见青
王影
江源
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201510607820.1A priority Critical patent/CN105304080B/zh
Publication of CN105304080A publication Critical patent/CN105304080A/zh
Application granted granted Critical
Publication of CN105304080B publication Critical patent/CN105304080B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种语音合成装置及方法,该装置包括:模型构建模块,用于预先根据收集的大量发音人语音数据构建语音合成模型;接收模块,用于接收用户的待合成文本;风格确定模块,用于确定合成语音风格;模型修正模块,用于根据合成语音风格对所述语音合成模型进行修正,以使修正后的语音合成模型适应所述合成语音风格;合成模块,用于利用所述修正后的语音合成模型对所述待合成文本进行语音合成,得到合成语音数据。利用本发明,可以使合成语音的风格更丰富自然,有效提高用户体验,增加娱乐性。

Description

语音合成装置及方法
技术领域
本发明涉及语音合成领域,具体涉及一种语音合成装置及方法。
背景技术
语音合成又称文语转换,其主要功能是将文本转换成语音,并尽可能使合成语音有较高的可懂度和自然度。随着语音合成需求的日益增加,人们对合成语音的要求越来越多样性。合成语音应该以一种能够重新产生自然重读和感情的方式传递信息,最好可以体现出较强的韵律感,合成具有独特特征风格的语音,如感情色彩较重的小说朗读风格、评书风格,及不同表现的幽默风格等非正式的合成语音风格,从而增加合成语音的多样性,满足人们的不同需求。
目前,合成不同风格的语音主要做法是基于规则的方法对合成语音进行调整,比如将合成后的语音数据的基频调整为80到150之间。这种方法不能考虑到每种风格语音的细节,从而使特定风格在合成语音上不能很好的体现,造成调整后的语音自然度较低,进而降低了用户体验。
发明内容
本发明提供一种语音合成装置及方法,以解决现有技术中基于规则的方法调整后的语音自然度较低的问题。
为此,本发明提供如下技术方案:
一种语音合成装置,包括:
模型构建模块,用于预先根据收集的大量发音人语音数据构建语音合成模型;
接收模块,用于接收用户的待合成文本;
风格确定模块,用于确定合成语音风格;
模型修正模块,用于根据合成语音风格对所述语音合成模型进行修正,以使修正后的语音合成模型适应所述合成语音风格;
合成模块,用于利用所述修正后的语音合成模型对所述待合成文本进行语音合成,得到合成语音数据。
优选地,所述风格确定模块包括以下任意一种或多种子模块:
第一确定子模块,用于向用户提供可选的合成语音风格类型或风格语音数据,根据用户的选择确定待合成文本的合成语音风格;
第二确定子模块,用于根据用户提供的风格语音数据确定待合成文本的合成语音风格,所述用户提供的风格语音数据是用户通过朗读文本并录音得到的,所述文本是推荐给用户的文本或者是用户自选的文本;
第三确定子模块,用于根据待合成文本的风格标注信息或内容确定待合成文本的合成语音风格,所述待合成文本对应一个或多个风格标注信息,不同风格标注信息对应所述待合成文本中不同的文本段;
第四确定子模块,用于根据用户的日志信息确定待合成文本的合成语音风格。
优选地,所述模型修正模块包括:
语音数据获取单元,用于获取与所述合成语音风格对应的风格语音数据;
语音识别单元,用于对所述风格语音数据进行语音识别,得到识别文本;
特征提取单元,用于分别提取所述识别文本的韵律特征及所述风格语音数据的声学特征;
修正单元,用于将所述韵律特征和声学特征作为风格特征对所述语音合成模型进行修正,得到修正后的语音合成模型。
优选地,所述语音合成模型包括:时长合成模型、基频合成模型、频谱合成模型;
所述修正单元利用最大似然线性回归MLLR算法或最大后验概率MAP算法对所述时长合成模型、基频合成模型、频谱合成模型的能量维进行修正。
优选地,所述模型修正模块还包括:
预处理单元,用于去除所述语音数据获取单元获取的风格语音数据中的噪声,并将去噪后的风格语音数据传送给所述语音识别单元。
一种语音合成方法,包括:
预先根据收集的大量发音人语音数据构建语音合成模型;
接收用户的待合成文本;
确定合成语音风格;
根据合成语音风格对所述语音合成模型进行修正,以使修正后的语音合成模型适应所述合成语音风格;
利用所述修正后的语音合成模型对所述待合成文本进行语音合成,得到合成语音数据。
优选地,所述确定合成语音风格包括以下任意一种或多种:
向用户提供可选的合成语音风格类型或风格语音数据,根据用户的选择确定待合成文本的合成语音风格;
根据用户提供的风格语音数据确定待合成文本的合成语音风格,所述用户提供的风格语音数据是用户通过朗读风格文本并录音得到的,所述风格文本是推荐给用户的文本或者是用户自选的文本;
根据待合成文本的风格标注信息或内容确定待合成文本的合成语音风格,所述待合成文本对应一个或多个风格标注信息,不同风格标注信息对应所述待合成文本中不同的文本段;
根据用户的日志信息确定待合成文本的合成语音风格。
优选地,所述根据合成语音风格对所述语音合成模型进行修正包括:
获取与所述合成语音风格对应的风格语音数据;
对所述风格语音数据进行语音识别,得到识别文本;
分别提取所述识别文本的韵律特征及所述风格语音数据的声学特征;
将所述韵律特征和声学特征作为风格特征对所述语音合成模型进行修正,得到修正后的语音合成模型。
优选地,所述语音合成模型包括:时长合成模型、基频合成模型、频谱合成模型;
所述将所述韵律特征和声学特征作为风格特征对所述语音合成模型进行修正包括:
利用最大似然线性回归MLLR算法或最大后验概率MAP算法对所述时长合成模型、基频合成模型、频谱合成模型的能量维进行修正。
优选地,所述根据合成语音风格对所述语音合成模型进行修正还包括:
去除所述语音数据获取单元获取的风格语音数据中的噪声,得到去噪后的风格语音数据;
所述对所述风格语音数据进行语音识别包括:
对所述去噪后的风格语音数据进行语音识别。
本发明实施例提供的语音合成装置及方法,在接收到用户的待合成文本后,首先确定目标语音的合成语音风格,然后根据该合成语音风格对预先根据收集的大量发音人语音数据构建的语音合成模型修正,使修正后的语音合成模型更加适合于所述合成语音风格。最后,利用修正后的语音合成模型对所述待合成文本进行语音合成,得到合成语音数据。由于是直接对语音合成模型进行与合成语音风格相适应的修正,从而可以使合成语音更加自然,大大提升用户体验。
进一步地,合成语音风格的确定可以根据应用环境及用户需求有多种不同实现方式,可以更好地满足用户需求,并增加娱乐性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例语音合成装置的结构框图;
图2是本发明实施例语音合成方法的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
如图1所示,是本发明实施例语音合成装置的结构框图,该装置包括以下各模块:
模型构建模块11,用于预先根据收集的大量发音人语音数据构建语音合成模型;
接收模块12,用于接收用户的待合成文本;
风格确定模块13,用于确定合成语音风格;
模型修正模块14,用于根据合成语音风格对所述语音合成模型进行修正,以使修正后的语音合成模型适应所述合成语音风格;
合成模块15,用于利用所述修正后的语音合成模型对所述待合成文本进行语音合成,得到合成语音数据。
具体地,首先利用韵律模型对待合成文本进行韵律分析,得到待合成文本的韵律特征;根据所述韵律特征利用修正后的基频合成模型、时长合成模型、及能量维参数修正后的频谱合成模型及待合成文本的韵律特征进行参数生成,所述参数为基频参数和频谱参数,利用所述参数进行语音合成,得到合成语音数据。
上述模型修正模块14包括:语音数据获取单元、语音识别单元、特征提取单元、修正单元。其中:
所述语音数据获取单元用于获取与所述合成语音风格对应的风格语音数据。比如,确定的合成语音风格为武侠风格,则获取武侠风格的风格语音数据。根据应用方式的不同,所述风格语音数据可以从预先建立的语音数据库中提取,也可以是用户提供的录音数据等,对此本发明实施例不做限定。
所述语音识别单元用于对所述风格语音数据进行语音识别,得到识别文本。具体地,可以采用现有技术,对风格语音数据进行特征提取、利用提取的特征及预先训练的声学模型和语言模型进行解码,根据解码结果得到所述风格语音数据对应的识别文本。
所述特征提取单元用于分别提取所述识别文本的韵律特征及所述风格语音数据的声学特征。
语音数据识别文本的风格主要表现在识别文本的韵律上,因此,可以利用预先训练好的韵律模型对识别文本进行韵律分析,得到识别文本的韵律特征,所述韵律特征主要包括识别文本对应的语法单元、韵律词、韵律短语、韵律子句、重音(即语法上需要重读的语法单元)、焦点(即用户着重说明或有意强调的语法单元)。所述韵律模型可以根据预先收集的大量文本数据构建得到,具体构建方法与现有技术相同,在此不再详述。
对于风格语音数据提取相应声学特征,由于语音数据的风格在声学上主要表现在基频、时长及语音数据的能量上,因此,在本发明实施例中,以语法单元为单位,提取所述风格语音数据的基频、时长及能量特征,作为语音数据的声学特征。所述语法单元如音素或音节;所述基频特征使用各语法单元对应语音数据赫兹数表征,所述时长特征使用各语法单元对应语音数据的时间长度表征,所述能量特征使用各语法单元对应语音数据的幅度大小表征,具体提取方法可以采用现有技术,在此不再详述。
所述修正单元用于将所述韵律特征和声学特征作为风格特征对模型构建模块预先构建的语音合成模型的能量维进行修正,得到修正后的语音合成模型。比如,可以利用MLLR(MaximumLikelihoodLinearRegression,最大似然线性回归)算法或MAP(MaximumAPosteriori,最大后验概率)算法对所述语音合成模型的能量维进行修正。
所述语音合成模型主要包括基频合成模型、频谱合成模型及时长合成模型,具体构建方法可以采用现有技术,即离线收集发音人大量语音数据分别提取语音数据的基频、频谱及时长特征,利用所述特征数据进行模型训练得到各特征相应的合成模型,如训练基于HMM(HiddenMarkovModel,隐马尔科夫模型)的基频合成模型。
由于频谱特征对合成语音风格变化影响较小,因此,在本发明实施例中,只对基频合成模型、时长合成模型及频谱合成模型的能量维进行修正。
以MLLR方法对合成模型进行修正为例,假设合成模型符合高斯分布,因此,合成模型参数为均值μ和方差Σ,具体模型参数转换方法如(1)、(2)、(3)所示:
μ ^ = φ μ + b - - - ( 1 )
Σ ^ - 1 = AH - 1 A T - - - ( 2 )
Σ-1=AAT(3)
其中,μ和Σ为修正前合成模型的均值和方差,A为方差Σ的分解矩阵,为修正后合成模型的均值和方差。
所述合成模型可以为基频合成模型、时长合成模型或频谱合成模型能量维的任意一种,[φ,b]为均值转换矩阵,H为方差转换矩阵,[φ,b]和H可以通过风格语音数据及相应风格特征利用最大似然准则进行自适应训练估计得到,所述风格特征包括风格语音数据识别文本的韵律特征及风格语音数据的声学特征。
采用上述方法依次对基频合成模型、时长合成模型及频谱合成模型的能量维进行转换,得到修正后基频合成模型、修正后时长合成模型及能量维修正后的频谱合成模型。
需要说明的是,在另一实施例中,上述模型修正模块14还可进一步包括:预处理单元,用于去除所述语音数据获取单元获取的风格语音数据中的噪声,并将去噪后的风格语音数据传送给所述语音识别单元。比如,可以通过VAD(VoiceActivityDetection,语音活动检测)的方法,检测出部分噪声语音数据,直接将待处理语音数据中的噪声语音数据去除,然后将去噪后的风格语音数据传送给语音识别单元进行语音识别。
在实际应用中,合成语音风格的确定可以根据应用环境及用户需求有多种不同实现方式,可以更好地满足用户需求,并增加娱乐性。比如:
所述风格确定模块13可以包括以下任意一种或多种子模块:
第一确定子模块,用于向用户提供可选的合成语音风格类型或风格语音数据,根据用户的选择确定待合成文本的合成语音风格。所述合成语音风格类型及风格语音数据比如可以有:男声/女声、评书/话剧/演讲/朗诵等多种形式,可以向用户提供多个选项。另外,所述装置还可以设置相应的语音数据库,向用户提供的风格语音数据可以从该语音数据库中提取。当然,所述装置还可以设置语音播放模块和显示模块。所述语音播放模块可以播放上述风格语音数据,使用户可以从听觉上更好地区分不同风格的语音效果;所述显示模块可以提供相应的界面,使用户可以根据界面的提示进行选择。需要说明的是,在实际应用中,所述装置可以通过所述显示模块向用户展现选择菜单或虚拟按键等,以指引用户的操作,也可以设置实体按键,并标识不同按键对应的语音风格类型。当然,也可以有其它的设置方式,对此本发明实施例不做限定。
第二确定子模块,用于根据用户提供的风格语音数据确定待合成文本的合成语音风格,所述用户提供的风格语音数据是用户通过朗读文本并录音得到的,具体录音时,用户可以根据待合成文本的内容,使用自己喜欢的风格进行风格语音数据的录制,如待合成文本为小说文本,用户喜欢感情色彩较重的武侠小说风格来合成待合成文本,则可以使用武侠风格进行录音。所述文本是推荐给用户的文本或者是用户自选的文本。当然,所述装置还可以设置相应的文本数据库,向用户提供的文本可以从该语音数据库中提取。需要说明的是,在这种应用情况下,上述语音数据获取单元获取的风格语音数据即为所述用户提供的风格语音数据。当然,在实际应用中,用户提供的风格语音数据也可以是从网络上或其它渠道(比如唱片等)获取的他人的一些音频数据。
第三确定子模块,用于根据待合成文本的风格标注信息或内容确定待合成文本的合成语音风格,所述待合成文本对应一个或多个风格标注信息,不同风格标注信息对应所述待合成文本中不同的文本段。具体地,用户可以将待合成文本划分为不同片段,不同片段之间可以使用相同或不同的合成语音风格,如待合成文本为小说文本,用户可以根据小说人物角色进行风格标注,不同角色间可以使用相同或不同的合成语音风格。如果待合成文本没有各种指定的人物角色,第三确定子模块也可以根据语义将待合成文本划分为不同的片段,根据每个片段的语义确定该片段的合成语音风格。
第四确定子模块,用于根据用户的日志信息确定待合成文本的合成语音风格,所述日志信息中包含用户对终端的各种操作信息。比如,可以通过分析用户的日志信息,得到用户上网的操作内容(比如浏览或下载信息等),对该内容进行语义理解,可以得到用户关注的信息;或者直接从用户上网的日志信息中,得到用户所关注的信息。如果用户经常上网浏览武侠类小说,或者用户经常下载武侠类小说,则可以确定待合成文本的合成语音风格为武侠风格。在这种应用情况下,上述语音数据获取单元可以从语音数据库中获取与该合成语音风格相对应的风格语音数据。
本发明实施例提供的语音合成装置,在接收到用户的待合成文本后,首先确定目标语音的合成语音风格,然后根据该合成语音风格对预先根据收集的大量发音人语音数据构建的语音合成模型修正,使修正后的语音合成模型更加适合于所述合成语音风格。最后,利用修正后的语音合成模型对所述待合成文本进行语音合成,得到合成语音数据。由于是直接对语音合成模型进行与合成语音风格相适应的修正,从而可以使合成语音更加自然,大大提升用户体验。
进一步地,合成语音风格的确定可以根据应用环境及用户需求有多种不同实现方式,可以更好地满足用户需求,并增加娱乐性。
本发明实施例还提供一种语音合成方法,如图2所示,是该方法的流程图,包括以下步骤:
步骤201,预先根据收集的大量发音人语音数据构建语音合成模型。
所述合成模型主要包括基频合成模型、频谱合成模型及时长合成模型,具体构建方法可以采用现有技术,即离线收集发音人大量语音数据分别提取语音数据的基频、频谱及时长特征,利用所述特征数据进行模型训练得到各特征相应的合成模型,如训练基于HMM(HiddenMarkovModel,隐马尔科夫模型)的基频合成模型。
步骤202,接收用户的待合成文本。
步骤203,确定合成语音风格。
在实际应用中,合成语音风格的确定可以根据应用环境及用户需求有多种不同实现方式,可以更好地满足用户需求,并增加娱乐性。比如:
(1)向用户提供可选的合成语音风格类型或风格语音数据,根据用户的选择确定待合成文本的合成语音风格;
(2)根据用户提供的风格语音数据确定待合成文本的合成语音风格,所述用户提供的风格语音数据是用户通过朗读风格文本并录音得到的,所述风格文本是推荐给用户的文本或者是用户自选的文本;
(3)根据待合成文本的风格标注信息或内容确定待合成文本的合成语音风格,所述待合成文本对应一个或多个风格标注信息,不同风格标注信息对应所述待合成文本中不同的文本段;
(4)根据用户的日志信息确定待合成文本的合成语音风格。
当然,还可以有其它确定方式,对此本发明实施例不做限定。而且,还可以根据应用需要,选择其中的一种或多种方式提供给用户。
步骤204,根据合成语音风格对所述语音合成模型进行修正,以使修正后的语音合成模型适应所述合成语音风格。
所述语音合成模型主要包括基频合成模型、频谱合成模型及时长合成模型,具体构建方法可以采用现有技术,即离线收集发音人大量语音数据分别提取语音数据的基频、频谱及时长特征,利用所述特征数据进行模型训练得到各特征相应的合成模型,如训练基于HMM的基频合成模型。
由于频谱特征对合成语音风格变化影响较小,因此,在本发明实施例中,可以只对基频合成模型、时长合成模型及频谱合成模型的能量维进行修正。具体可以利用MLLR算法或MAP算法对所述音合成模型的能量维进行修正。具体修正过程包括:
(1)获取与所述合成语音风格对应的风格语音数据;
(2)对所述风格语音数据进行语音识别,得到识别文本;
(3)分别提取所述识别文本的韵律特征及所述风格语音数据的声学特征;
(4)将所述韵律特征和声学特征作为风格特征对所述语音合成模型的能量维进行修正,得到修正后的语音合成模型。
需要说明的是,进一步地,为了防止噪声的影响,在对所述风格语音数据进行语音识别之前,还可以先去除所述风格语音数据中的噪声,然后再对去噪后的风格语音数据进行语音识别。
步骤205,利用所述修正后的语音合成模型对所述待合成文本进行语音合成,得到合成语音数据。
具体地,首先利用韵律模型对待合成文本进行韵律分析,得到待合成文本的韵律特征;根据所述韵律特征利用修正后的基频合成模型、时长合成模型、及能量维参数修正后的频谱合成模型及待合成文本的韵律特征进行参数生成,所述参数为基频参数和频谱参数,利用所述参数进行语音合成,得到合成语音数据。
本发明实施例提供的语音合成方法,在接收到用户的待合成文本后,首先确定目标语音的合成语音风格,然后根据该合成语音风格对预先根据收集的大量发音人语音数据构建的语音合成模型修正,使修正后的语音合成模型更加适合于所述合成语音风格。最后,利用修正后的语音合成模型对所述待合成文本进行语音合成,得到合成语音数据。由于是直接对语音合成模型进行与合成语音风格相适应的修正,从而可以使合成语音更加自然,大大提升用户体验。
进一步地,合成语音风格的确定可以根据应用环境及用户需求有多种不同实现方式,可以更好地满足用户需求,并增加娱乐性。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种语音合成装置,其特征在于,包括:
模型构建模块,用于预先根据收集的大量发音人语音数据构建语音合成模型;
接收模块,用于接收用户的待合成文本;
风格确定模块,用于确定合成语音风格;
模型修正模块,用于根据合成语音风格对所述语音合成模型进行修正,以使修正后的语音合成模型适应所述合成语音风格;
合成模块,用于利用所述修正后的语音合成模型对所述待合成文本进行语音合成,得到合成语音数据。
2.根据权利要求1所述的装置,其特征在于,所述风格确定模块包括以下任意一种或多种子模块:
第一确定子模块,用于向用户提供可选的合成语音风格类型或风格语音数据,根据用户的选择确定待合成文本的合成语音风格;
第二确定子模块,用于根据用户提供的风格语音数据确定待合成文本的合成语音风格,所述用户提供的风格语音数据是用户通过朗读文本并录音得到的,所述文本是推荐给用户的文本或者是用户自选的文本;
第三确定子模块,用于根据待合成文本的风格标注信息或内容确定待合成文本的合成语音风格,所述待合成文本对应一个或多个风格标注信息,不同风格标注信息对应所述待合成文本中不同的文本段;
第四确定子模块,用于根据用户的日志信息确定待合成文本的合成语音风格。
3.根据权利要求1或2所述的装置,其特征在于,所述模型修正模块包括:
语音数据获取单元,用于获取与所述合成语音风格对应的风格语音数据;
语音识别单元,用于对所述风格语音数据进行语音识别,得到识别文本;
特征提取单元,用于分别提取所述识别文本的韵律特征及所述风格语音数据的声学特征;
修正单元,用于将所述韵律特征和声学特征作为风格特征对所述语音合成模型进行修正,得到修正后的语音合成模型。
4.根据权利要求3所述的装置,其特征在于,所述语音合成模型包括:时长合成模型、基频合成模型、频谱合成模型;
所述修正单元利用最大似然线性回归MLLR算法或最大后验概率MAP算法对所述时长合成模型、基频合成模型、频谱合成模型的能量维进行修正。
5.根据权利要求3所述的装置,其特征在于,所述模型修正模块还包括:
预处理单元,用于去除所述语音数据获取单元获取的风格语音数据中的噪声,并将去噪后的风格语音数据传送给所述语音识别单元。
6.一种语音合成方法,其特征在于,包括:
预先根据收集的大量发音人语音数据构建语音合成模型;
接收用户的待合成文本;
确定合成语音风格;
根据合成语音风格对所述语音合成模型进行修正,以使修正后的语音合成模型适应所述合成语音风格;
利用所述修正后的语音合成模型对所述待合成文本进行语音合成,得到合成语音数据。
7.根据权利要求6所述的方法,其特征在于,所述确定合成语音风格包括以下任意一种或多种:
向用户提供可选的合成语音风格类型或风格语音数据,根据用户的选择确定待合成文本的合成语音风格;
根据用户提供的风格语音数据确定待合成文本的合成语音风格,所述用户提供的风格语音数据是用户通过朗读风格文本并录音得到的,所述风格文本是推荐给用户的文本或者是用户自选的文本;
根据待合成文本的风格标注信息或内容确定待合成文本的合成语音风格,所述待合成文本对应一个或多个风格标注信息,不同风格标注信息对应所述待合成文本中不同的文本段;
根据用户的日志信息确定待合成文本的合成语音风格。
8.根据权利要求6或7所述的方法,其特征在于,所述根据合成语音风格对所述语音合成模型进行修正包括:
获取与所述合成语音风格对应的风格语音数据;
对所述风格语音数据进行语音识别,得到识别文本;
分别提取所述识别文本的韵律特征及所述风格语音数据的声学特征;
将所述韵律特征和声学特征作为风格特征对所述语音合成模型进行修正,得到修正后的语音合成模型。
9.根据权利要求8所述的方法,其特征在于,所述语音合成模型包括:时长合成模型、基频合成模型、频谱合成模型;
所述将所述韵律特征和声学特征作为风格特征对所述语音合成模型进行修正包括:
利用最大似然线性回归MLLR算法或最大后验概率MAP算法对所述时长合成模型、基频合成模型、频谱合成模型的能量维进行修正。
10.根据权利要求8所述的方法,其特征在于,所述根据合成语音风格对所述语音合成模型进行修正还包括:
去除所述语音数据获取单元获取的风格语音数据中的噪声,得到去噪后的风格语音数据;
所述对所述风格语音数据进行语音识别包括:
对所述去噪后的风格语音数据进行语音识别。
CN201510607820.1A 2015-09-22 2015-09-22 语音合成装置及方法 Active CN105304080B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510607820.1A CN105304080B (zh) 2015-09-22 2015-09-22 语音合成装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510607820.1A CN105304080B (zh) 2015-09-22 2015-09-22 语音合成装置及方法

Publications (2)

Publication Number Publication Date
CN105304080A true CN105304080A (zh) 2016-02-03
CN105304080B CN105304080B (zh) 2019-09-03

Family

ID=55201253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510607820.1A Active CN105304080B (zh) 2015-09-22 2015-09-22 语音合成装置及方法

Country Status (1)

Country Link
CN (1) CN105304080B (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105702246A (zh) * 2016-03-17 2016-06-22 广东小天才科技有限公司 一种辅助用户进行听写的方法及装置
CN107333071A (zh) * 2017-06-30 2017-11-07 北京金山安全软件有限公司 视频处理方法、装置、电子设备及存储介质
CN107451185A (zh) * 2017-06-22 2017-12-08 重庆缘溪行文化传媒有限公司 录音方法、朗读系统、计算机可读存储介质和计算机装置
CN107705783A (zh) * 2017-11-27 2018-02-16 北京搜狗科技发展有限公司 一种语音合成方法及装置
CN108140393A (zh) * 2016-09-28 2018-06-08 华为技术有限公司 一种处理多声道音频信号的方法、装置和系统
CN108184032A (zh) * 2016-12-07 2018-06-19 中国移动通信有限公司研究院 一种客服系统的服务方法及装置
CN108364655A (zh) * 2018-01-31 2018-08-03 网易乐得科技有限公司 语音处理方法、介质、装置和计算设备
CN108735220A (zh) * 2018-04-11 2018-11-02 四川斐讯信息技术有限公司 一种语言学习用智能耳机、智能交互系统及人机交互方法
CN108877765A (zh) * 2018-05-31 2018-11-23 百度在线网络技术(北京)有限公司 语音拼接合成的处理方法及装置、计算机设备及可读介质
CN108962217A (zh) * 2018-07-28 2018-12-07 华为技术有限公司 语音合成方法及相关设备
CN109308892A (zh) * 2018-10-25 2019-02-05 百度在线网络技术(北京)有限公司 语音合成播报方法、装置、设备及计算机可读介质
CN110136687A (zh) * 2019-05-20 2019-08-16 深圳市数字星河科技有限公司 一种基于语音训练克隆口音及声韵方法
CN110148424A (zh) * 2019-05-08 2019-08-20 北京达佳互联信息技术有限公司 语音处理方法、装置、电子设备及存储介质
CN110599998A (zh) * 2018-05-25 2019-12-20 阿里巴巴集团控股有限公司 一种语音数据生成方法及装置
CN111402842A (zh) * 2020-03-20 2020-07-10 北京字节跳动网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN111402856A (zh) * 2020-03-23 2020-07-10 北京字节跳动网络技术有限公司 语音处理方法、装置、可读介质及电子设备
CN111429882A (zh) * 2019-01-09 2020-07-17 北京地平线机器人技术研发有限公司 播放语音的方法、装置及电子设备
CN111627417A (zh) * 2019-02-26 2020-09-04 北京地平线机器人技术研发有限公司 播放语音的方法、装置及电子设备
CN111768755A (zh) * 2020-06-24 2020-10-13 华人运通(上海)云计算科技有限公司 信息处理方法、装置、车辆和计算机存储介质
CN112015945A (zh) * 2020-10-19 2020-12-01 汉桑(南京)科技有限公司 一种在音箱上实时显示表情图像的方法、系统及装置
CN112151072A (zh) * 2020-08-21 2020-12-29 北京搜狗科技发展有限公司 语音处理方法、装置和介质
CN112309366A (zh) * 2020-11-03 2021-02-02 北京有竹居网络技术有限公司 语音合成方法、装置、存储介质及电子设备
CN112365877A (zh) * 2020-11-27 2021-02-12 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质
CN112365879A (zh) * 2020-11-04 2021-02-12 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质
CN112365881A (zh) * 2020-11-11 2021-02-12 北京百度网讯科技有限公司 语音合成方法及对应模型的训练方法、装置、设备与介质
CN112786026A (zh) * 2019-12-31 2021-05-11 深圳市木愚科技有限公司 基于语音迁移学习的亲子故事个性化音频生成系统及方法
CN112908292A (zh) * 2019-11-19 2021-06-04 北京字节跳动网络技术有限公司 文本的语音合成方法、装置、电子设备及存储介质
CN112951200A (zh) * 2021-01-28 2021-06-11 北京达佳互联信息技术有限公司 语音合成模型的训练方法、装置、计算机设备及存储介质
CN113268515A (zh) * 2021-05-31 2021-08-17 北京理工大学 一种足球比赛的自动解说装置及方法
WO2023071166A1 (zh) * 2021-10-25 2023-05-04 网易(杭州)网络有限公司 数据处理方法、装置、存储介质和电子装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1675681A (zh) * 2002-09-13 2005-09-28 松下电器产业株式会社 客户机-服务器语音定制
CN1835074A (zh) * 2006-04-07 2006-09-20 安徽中科大讯飞信息科技有限公司 一种结合高层描述信息和模型自适应的说话人转换方法
CN101156196A (zh) * 2005-03-28 2008-04-02 莱塞克技术公司 混合语音合成器、方法和使用
GB2443468A (en) * 2006-10-30 2008-05-07 Hu Do Ltd Message delivery service and converting text to a user chosen style of speech
CN101308652A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种个性化歌唱语音的合成方法
CN102324231A (zh) * 2011-08-29 2012-01-18 北京捷通华声语音技术有限公司 一种游戏对话声音合成方法和系统
CN104766603A (zh) * 2014-01-06 2015-07-08 安徽科大讯飞信息科技股份有限公司 构建个性化歌唱风格频谱合成模型的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1675681A (zh) * 2002-09-13 2005-09-28 松下电器产业株式会社 客户机-服务器语音定制
CN101156196A (zh) * 2005-03-28 2008-04-02 莱塞克技术公司 混合语音合成器、方法和使用
CN1835074A (zh) * 2006-04-07 2006-09-20 安徽中科大讯飞信息科技有限公司 一种结合高层描述信息和模型自适应的说话人转换方法
GB2443468A (en) * 2006-10-30 2008-05-07 Hu Do Ltd Message delivery service and converting text to a user chosen style of speech
CN101308652A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种个性化歌唱语音的合成方法
CN102324231A (zh) * 2011-08-29 2012-01-18 北京捷通华声语音技术有限公司 一种游戏对话声音合成方法和系统
CN104766603A (zh) * 2014-01-06 2015-07-08 安徽科大讯飞信息科技股份有限公司 构建个性化歌唱风格频谱合成模型的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUNICHI YAMAGISHI ET AL.: "《Acoustic Modeling of Speaking Styles and Emotional Expressions in HMM-Based Speech Synthesis》", 《IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS》 *
KEISUKE MIYANAGA ET AL.: "《A Style Control Technique for HMM-Based Speech Synthesis》", 《IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS》 *
MASANOBU ABE: "《Speaking Styles:Statistical Analusis and Synthesis by a Text-to-Speech System》", 《SPRINGER VERLAG》 *

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105702246A (zh) * 2016-03-17 2016-06-22 广东小天才科技有限公司 一种辅助用户进行听写的方法及装置
CN108140393A (zh) * 2016-09-28 2018-06-08 华为技术有限公司 一种处理多声道音频信号的方法、装置和系统
CN108184032A (zh) * 2016-12-07 2018-06-19 中国移动通信有限公司研究院 一种客服系统的服务方法及装置
CN108184032B (zh) * 2016-12-07 2020-02-21 中国移动通信有限公司研究院 一种客服系统的服务方法及装置
CN107451185A (zh) * 2017-06-22 2017-12-08 重庆缘溪行文化传媒有限公司 录音方法、朗读系统、计算机可读存储介质和计算机装置
CN107451185B (zh) * 2017-06-22 2022-03-04 重庆缘溪行文化传媒有限公司 录音方法、朗读系统、计算机可读存储介质和计算机装置
CN107333071A (zh) * 2017-06-30 2017-11-07 北京金山安全软件有限公司 视频处理方法、装置、电子设备及存储介质
CN107705783A (zh) * 2017-11-27 2018-02-16 北京搜狗科技发展有限公司 一种语音合成方法及装置
CN108364655A (zh) * 2018-01-31 2018-08-03 网易乐得科技有限公司 语音处理方法、介质、装置和计算设备
CN108735220A (zh) * 2018-04-11 2018-11-02 四川斐讯信息技术有限公司 一种语言学习用智能耳机、智能交互系统及人机交互方法
CN110599998B (zh) * 2018-05-25 2023-08-18 阿里巴巴集团控股有限公司 一种语音数据生成方法及装置
CN110599998A (zh) * 2018-05-25 2019-12-20 阿里巴巴集团控股有限公司 一种语音数据生成方法及装置
CN108877765A (zh) * 2018-05-31 2018-11-23 百度在线网络技术(北京)有限公司 语音拼接合成的处理方法及装置、计算机设备及可读介质
US10803851B2 (en) 2018-05-31 2020-10-13 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for processing speech splicing and synthesis, computer device and readable medium
CN108962217A (zh) * 2018-07-28 2018-12-07 华为技术有限公司 语音合成方法及相关设备
CN109308892A (zh) * 2018-10-25 2019-02-05 百度在线网络技术(北京)有限公司 语音合成播报方法、装置、设备及计算机可读介质
US11011175B2 (en) 2018-10-25 2021-05-18 Baidu Online Network Technology (Beijing) Co., Ltd. Speech broadcasting method, device, apparatus and computer-readable storage medium
CN111429882A (zh) * 2019-01-09 2020-07-17 北京地平线机器人技术研发有限公司 播放语音的方法、装置及电子设备
CN111429882B (zh) * 2019-01-09 2023-08-08 北京地平线机器人技术研发有限公司 播放语音的方法、装置及电子设备
CN111627417A (zh) * 2019-02-26 2020-09-04 北京地平线机器人技术研发有限公司 播放语音的方法、装置及电子设备
CN111627417B (zh) * 2019-02-26 2023-08-08 北京地平线机器人技术研发有限公司 播放语音的方法、装置及电子设备
CN110148424A (zh) * 2019-05-08 2019-08-20 北京达佳互联信息技术有限公司 语音处理方法、装置、电子设备及存储介质
CN110148424B (zh) * 2019-05-08 2021-05-25 北京达佳互联信息技术有限公司 语音处理方法、装置、电子设备及存储介质
CN110136687A (zh) * 2019-05-20 2019-08-16 深圳市数字星河科技有限公司 一种基于语音训练克隆口音及声韵方法
CN110136687B (zh) * 2019-05-20 2021-06-15 深圳市数字星河科技有限公司 一种基于语音训练克隆口音及声韵方法
CN112908292A (zh) * 2019-11-19 2021-06-04 北京字节跳动网络技术有限公司 文本的语音合成方法、装置、电子设备及存储介质
CN112786026A (zh) * 2019-12-31 2021-05-11 深圳市木愚科技有限公司 基于语音迁移学习的亲子故事个性化音频生成系统及方法
CN111402842A (zh) * 2020-03-20 2020-07-10 北京字节跳动网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN111402856B (zh) * 2020-03-23 2023-04-14 北京字节跳动网络技术有限公司 语音处理方法、装置、可读介质及电子设备
CN111402856A (zh) * 2020-03-23 2020-07-10 北京字节跳动网络技术有限公司 语音处理方法、装置、可读介质及电子设备
CN111768755A (zh) * 2020-06-24 2020-10-13 华人运通(上海)云计算科技有限公司 信息处理方法、装置、车辆和计算机存储介质
CN112151072A (zh) * 2020-08-21 2020-12-29 北京搜狗科技发展有限公司 语音处理方法、装置和介质
CN112015945A (zh) * 2020-10-19 2020-12-01 汉桑(南京)科技有限公司 一种在音箱上实时显示表情图像的方法、系统及装置
CN112309366B (zh) * 2020-11-03 2022-06-14 北京有竹居网络技术有限公司 语音合成方法、装置、存储介质及电子设备
CN112309366A (zh) * 2020-11-03 2021-02-02 北京有竹居网络技术有限公司 语音合成方法、装置、存储介质及电子设备
CN112365879A (zh) * 2020-11-04 2021-02-12 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质
CN112365881A (zh) * 2020-11-11 2021-02-12 北京百度网讯科技有限公司 语音合成方法及对应模型的训练方法、装置、设备与介质
CN112365877A (zh) * 2020-11-27 2021-02-12 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质
CN112951200A (zh) * 2021-01-28 2021-06-11 北京达佳互联信息技术有限公司 语音合成模型的训练方法、装置、计算机设备及存储介质
CN112951200B (zh) * 2021-01-28 2024-03-12 北京达佳互联信息技术有限公司 语音合成模型的训练方法、装置、计算机设备及存储介质
CN113268515A (zh) * 2021-05-31 2021-08-17 北京理工大学 一种足球比赛的自动解说装置及方法
WO2023071166A1 (zh) * 2021-10-25 2023-05-04 网易(杭州)网络有限公司 数据处理方法、装置、存储介质和电子装置

Also Published As

Publication number Publication date
CN105304080B (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
CN105304080A (zh) 语音合成装置及方法
CN102779508B (zh) 语音库生成设备及其方法、语音合成系统及其方法
KR100815115B1 (ko) 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
CN105593936B (zh) 用于文本转语音性能评价的系统和方法
CN102436807A (zh) 自动生成重读音节语音的方法和系统
Székely et al. Clustering Expressive Speech Styles in Audiobooks Using Glottal Source Parameters.
CN109949783A (zh) 歌曲合成方法及系统
CN106649644B (zh) 一种歌词文件生成方法及装置
CN104036774A (zh) 藏语方言识别方法及系统
CN106463113A (zh) 在语音辨识中预测发音
KR101131278B1 (ko) 대화 로그를 이용한 학습 기반 대화 시스템 성능 향상 방법 및 그 장치
CN106057192A (zh) 一种实时语音转换方法和装置
CN106710585B (zh) 语音交互过程中的多音字播报方法及系统
CN108831437A (zh) 一种歌声生成方法、装置、终端和存储介质
CN106803422A (zh) 一种基于长短时记忆网络的语言模型重估方法
CN102404278A (zh) 一种基于声纹识别的点歌系统及其应用方法
CN113129914A (zh) 跨语言语音转换系统和方法
CN110691258A (zh) 一种节目素材制作方法、装置及计算机存储介质、电子设备
CN105280177A (zh) 语音合成字典创建装置、语音合成器、以及语音合成字典创建方法
WO2018038235A1 (ja) 聴覚トレーニング装置、聴覚トレーニング方法、およびプログラム
CN106653002A (zh) 一种文字直播方法及平台
CN109346057A (zh) 一种智能儿童玩具的语音处理系统
US20150348535A1 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
Ling et al. Minimum Kullback–Leibler divergence parameter generation for HMM-based speech synthesis
CN111179903A (zh) 一种语音识别方法、装置、存储介质及电器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant