CN112669810A - 语音合成的效果评估方法、装置、计算机设备及存储介质 - Google Patents
语音合成的效果评估方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112669810A CN112669810A CN202011485821.0A CN202011485821A CN112669810A CN 112669810 A CN112669810 A CN 112669810A CN 202011485821 A CN202011485821 A CN 202011485821A CN 112669810 A CN112669810 A CN 112669810A
- Authority
- CN
- China
- Prior art keywords
- information
- text
- audio
- synthesis
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了语音合成的效果评估方法、装置、计算机设备及存储介质,方法包括:获取完整覆盖测试文本集的样本数据集合,获取样本数据数据集合中文本信息的文本编码序列及语音信息的音频系数信息,根据文本编码序列及音频系数信息构建音频合成模型,根据语音信息及与文本信息对应的韵律信息构建韵律预测模型,根据测试信息对基于音频合成模型及韵律预测模型合成处理的语音合成信息进行综合评估,将评估结果上传至区块链中。本发明基于语言信号处理技术,属于人工智能领域,采用音频合成模型及韵律预测模型共同合成得到语音合成信息,结合音频合成信息及韵律预测信息对语音合成的效果进行综合评估,可大幅提升对语音合成的效果进行评估的准确性。
Description
技术领域
本发明涉及人工智能技术领域,属于智慧城市中对语音合成的效果进行智能评估的应用场景,尤其涉及一种语音合成的效果评估方法、装置、计算机设备及存储介质。
背景技术
语音合成技术可按照用户输入的信息合成语音信息进行输出,现有的语言合成方法均是构建音频合成模型并基于用户输入的文本信息对应合成语音信息,构建音频合成模型后需要通过检验合成得到的语音信息的准确性以对模型的进行语音合成的效果进行评估。传统技术方法均是将由文字信息合成得到的语音信息转换为语音特征信息进行对比,然而中文文本的发音具有相应特殊性,由于多音字的存在,导致中文文本对应的发音在韵律特征及语调上的复杂程度较高,传统技术方法中基于语音特征信息进行对比难以体现语音信息在韵律、语调等特征上的区别,导致难以对语音合成的效果进行准确评估。因此,现有技术方法存在难以对语音合成的效果进行准确评估的问题。
发明内容
本发明实施例提供了一种语音合成的效果评估方法、装置、计算机设备及存储介质,旨在解决现有技术方法中所存在的难以对语音合成的效果进行准确评估的问题。
第一方面,本发明实施例提供了一种语音合成的效果评估方法,其包括:
若接收到用户所输入的测试文本集,从预存的样本数据库中获取能够完整覆盖所述测试文本集的样本数据集合,所述样本数据集合的每一样本数据均包括文本信息及与所述文本信息相匹配的语音信息;
根据预存的编码词典获取与所述样本数据集合中每一文本信息对应的文本编码序列;
根据预置的提取规则从所述样本数据集合中与每一所述文本信息相匹配的语音信息中提取得到音频系数信息;
根据预置的合成模型构建规则、所述文本编码序列及所述音频系数信息构建对应的音频合成模型;
根据预置的预测模型构建规则、所述语音信息及与所述文本信息对应的韵律信息构建韵律预测模型;
若接收到用户所输入的测试信息,根据所述音频合成模型及所述韵律预测模型对所述测试信息的文本信息进行语音合成处理得到语音合成信息;
根据所述测试信息中测试数据的目标频谱信息对所述语音合成信息的音频合成信息进行对比评估得到第一评估结果;
根据所述测试信息中测试数据的目标韵律信息对所述语音合成信息的韵律预测信息进行对比评估得到第二评估结果。
第二方面,本发明实施例提供了一种语音合成的效果评估装置,其包括:
样本数据集合获取单元,用于若接收到用户所输入的测试文本集,从预存的样本数据库中获取能够完整覆盖所述测试文本集的样本数据集合,所述样本数据集合的每一样本数据均包括文本信息及与所述文本信息相匹配的语音信息;
文本编码序列获取单元,用于根据预存的编码词典获取与所述样本数据集合中每一文本信息对应的文本编码序列;
音频系数信息获取单元,用于根据预置的提取规则从所述样本数据集合中与每一所述文本信息相匹配的语音信息中提取得到音频系数信息;
音频合成模型构建单元,用于根据预置的合成模型构建规则、所述文本编码序列及所述音频系数信息构建对应的音频合成模型;
韵律预测模型构建单元,用于根据预置的预测模型构建规则、所述语音信息及与所述文本信息对应的韵律信息构建韵律预测模型;
语音合成信息获取单元,用于若接收到用户所输入的测试信息,根据所述音频合成模型及所述韵律预测模型对所述测试信息的文本信息进行语音合成处理得到语音合成信息;
第一评估结果获取单元,用于根据所述测试信息中测试数据的目标频谱信息对所述语音合成信息的音频合成信息进行对比评估得到第一评估结果;
第二评估结果获取单元,用于根据所述测试信息中测试数据的目标韵律信息对所述语音合成信息的韵律预测信息进行对比评估得到第二评估结果。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的语音合成的效果评估方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的语音合成的效果评估方法。
本发明实施例提供了一种语音合成的效果评估方法、装置、计算机设备及存储介质。获取完整覆盖测试文本集的样本数据集合,获取样本数据数据集合中文本信息的文本编码序列及语音信息的音频系数信息,根据文本编码序列及音频系数信息构建音频合成模型,根据语音信息及与文本信息对应的韵律信息构建韵律预测模型,根据用户输入的测试信息对基于音频合成模型及韵律预测模型合成处理得到的语音合成信息进行综合评估。通过上述方法,采用音频合成模型及韵律预测模型共同合成得到语音合成信息,结合音频合成信息及韵律预测信息对语音合成的效果进行综合评估,可适用于韵律特征及语调上复杂程度较高的中文语音的合成进行评估,可大幅提升对语音合成的效果进行评估的准确性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音合成的效果评估方法的流程示意图;
图2为本发明实施例提供的语音合成的效果评估方法的子流程示意图;
图3为本发明实施例提供的语音合成的效果评估方法的另一子流程示意图;
图4为本发明实施例提供的语音合成的效果评估方法的另一子流程示意图;
图5为本发明实施例提供的语音合成的效果评估方法的另一子流程示意图;
图6为本发明实施例提供的语音合成的效果评估方法的另一子流程示意图;
图7为本发明实施例提供的语音合成的效果评估方法的另一子流程示意图;
图8为本发明实施例提供的语音合成的效果评估装置的示意性框图;
图9为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本发明实施例提供的语音合成的效果评估方法的流程示意图,该语音合成的效果评估方法应用于管理服务器中,该方法通过安装于管理服务器中的应用软件进行执行,管理服务器即是用于执行语音合成的效果评估方法以实现对语音合成的效果进行评估的服务器端,管理服务器可以是企业内部所构建的企业服务器。如图1所示,该方法包括步骤S110~S190。
S110、若接收到用户所输入的测试文本集,从预存的样本数据库中获取能够完整覆盖所述测试文本集的样本数据集合。
若接收到用户所输入的测试文本集,从预存的样本数据库中获取能够完整覆盖所述测试文本集的样本数据集合,所述样本数据集合的每一样本数据均包括文本信息及与所述文本信息相匹配的语音信息。
测试文本集即为用户所输入的包含多个测试词汇的文本集合,用户可以是企业内部的管理员,样本数据库即为管理服务器内所设置的用于存储样本数据的数据库,样本数据集合的每一条样本数据均对应包含一段文本及一条语音,也即是每一样本数据均包括文本信息及与所述文本信息相匹配的语音信息。可从样本数据库中获取能够完整覆盖测试文本集的样本数据集合,则样本数据集合中包含从样本数据库中获取的多条样本数据。
具体的,在生成样本数据库的过程中,可根据数据清洗规则对输入样本数据库的待清洗的样本数据进行清洗,以将满足数据清洗规则的样本数据存储至样本数据库中。具体的,数据清洗规则包括噪音比例阈值,语速范围。可获取输入样本数据库的每一条样本数据的语音的噪音比例及语速,由于人类说话时发出声音的频率处于一个固定频率区间,可基于这一固定频率区间获取每一段语音中的噪音及说话声(如将频率小于300Hz及大于3500Hz的声纹信号确定为噪音),并进一步获取噪音的响度,计算噪音的响度与该语音总响度的比值得到噪音比例;语速即为一段语音中单位时间内的吐词数量,例如若语速为1.2/s,则表示语速为每秒钟吐词1.2个。获取噪音比例小于噪音比例阈值且语速处于语速范围之内的数据作为满足数据清洗规则的样本数据,并继续对其他待清洗的样本数据进行清洗。
在一实施例中,如图2所示,步骤S110包括子步骤S111、S112、S113、S114、S115、S116和S117。
S111、根据预置的覆盖率从所述样本数据库中获取对所述测试文本集进行覆盖的比例大于所述覆盖率的样本数据,得到初始数据集合。
例如,若覆盖率为200%,则获取到的初始数据集合对测试文本集包含的测试词汇的覆盖比例均大于200%。
S112、获取所述样本数据库中的一条样本数据对所述初始数据集合中的样本数据进行替换得到替换后的初始数据集合;S113、判断所述替换后的初始数据集合对所述测试文本集进行覆盖的比例是否变小;S114、若所述替换后的初始数据集合对测试文本集进行覆盖的比例变小,返回执行所述获取所述样本数据库中的一条样本数据对所述初始数据集合中的样本数据进行替换得到替换后的初始数据集合的步骤。
获取样本数据库中其它的一条样本数据对初始数据集合中的样本数据进行替换并判断替换后的初始数据集合对试文本集进行覆盖的比例是否变小。若覆盖的比例变小,则不对初始数据集合中的样本数据进行替换,并返回执行步骤S112。
S115、若所述替换后的初始数据集合对所述测试文本集进行覆盖的比例未变小,判断所述替换后的初始数据集合的文本量是否减小。
若覆盖的比例未变小,则进一步判断替换后的初始数据集合的文本量是否减小,文本量即为初始数据集合中包含的所有字符的数量值。
S116、若所述替换后的初始数据集合的文本量减小,将所述替换后的初始数据集合作为所述初始数据集合,并返回执行所述获取所述样本数据库中的一条样本数据对所述初始数据集合中的样本数据进行替换得到替换后的初始数据集合的步骤。
S117、若所述替换后的初始数据集合的文本量未减小,将所述替换后的初始数据集合确定为样本数据集合。
若初始数据集合的文本量减小,则表明对初始数据集合的中样本数据进行替换达到了减小文本量的目的,将替换后的初始数据集合作为新的初始数据集合并返回执行步骤S112,若初始数据集合的文本量未减小,则表明此时初始数据集合即为文本量最小且能够完整覆盖测试文本集的样本数据集合。
S120、根据预存的编码词典获取与所述样本数据集合中每一文本信息对应的文本编码序列。所述编码词典包括文本解析词典、文本标注规则及转换词典。样本数据库的样本数据中包含文本信息及对应的语音信息,其中语音信息至少包括中文语音信息,文本信息至少包含与中文语音信息对应的中文文本信息。
在一实施例中,如图3所示,步骤S120包括子步骤S121、S122和S123。
S121、根据所述文本解析词典及所述文本标注规则获取与所述样本数据集合中每一文本信息对应对应的文本标注信息。
可根据文本解析词典及预置的文本标注规则获取与文本信息对应的文本标注信息,文本解析词典即为对文本信息进行解析的词典,文本标注规则即为对中文文本信息进行标注的具体规则。
若文本信息中仅包含中文文本信息,则获取文本标注信息的具体过程为:根据所述文本解析词典获取与所述中文文本信息相匹配的拼音编码序列;根据预置的文本标注规则获取与所述中文文本信息相匹配的中文标注信息;将所述中文标注信息添加至所述拼音编码序列得到与所述中文文本信息相匹配的中文标注序列,将得到的中文标注序列作为与文本信息对应的文本标注信息。
文本解析词典中包含中文词组与词组拼音之间的对应关系,可根据词组拼音与中文词组之间的对应关系确定中文文本信息中每一中文词组对应的词组拼音,并根据中文文本信息中单个字符的前后词组的词组关系确定与单个字符对应的字符拼音,将所得到的词组拼音与字符拼音进行组合得到拼音编码序列。
例如,某一中文文本信息为“神奇的冒险”,词组“神奇”对应的词组拼音为“shén,qí”,“冒险”对应“mào,xiǎn”,“的”为多音字,对应“dě”、“dí”和“dì”三个字符拼音,与“的”对应的词组关系中“好奇”为定语,“小猫”为中心词,与“定语+的+中心词”对应的字符拼音为“dě”,组合得到对应的拼音编码序列为“shén,qí,dě,mào,xiǎn”。
根据文本标注规则确定获取中文文本信息对应的中文标注信息,中文标注信息包括句首标记、句尾标记、词性标记等,句首标记即是用于对一句中文文本的起始位置进行标记的信息,句尾标记即是用于对一句中文文本的终止位置进行标记的信息;词性信息即是用于对词组、字符的词性进行标记的信息,可包括名词、动词、结构助词、形容词、副词等。添加中文标注信息后的中文标注序列中包含与每一字符对应的一个字符标注信息。
若样本数据中还包含英文文本信息及英文语音信息,则还需通过以下步骤对英文文本信息进行处理。
对所述英文文本信息进行分词处理得到对应的英文词组;获取所述文本解析词典中与所述英文词组相匹配的音标序列作为与所述英文文本信息相匹配的英文标注序列,将所得到的中文标注序列及英文标注序列进行组合得到与文本信息对应的文本标注信息。
首先对英文文本信息进行分词处理,得到对应的多个英文词组,文本解析词典中包含英文词组与英文音标的对应关系,可根据这一对应关系确定多个英文词组相匹配的音标序列,得到英文标注序列,若英文词组为变构词,可通过构词法对变构词进行进一步拆分得到与变构词对应的原生词,基于文本解析词典中与原生词对应的英文音标进一步获取变构词的英文音标。
例如,“stopped”为“stop”的变构词,可基于文本解析词典中与“stop”对应的英文音标,加上“ped”对应的后缀音标,组合得到与变构词“stopped”对应的英文音标。
S122、根据预置的转换词典对所述文本标注信息进行转换得到对应的文本编码信息。
每一字符均可在转换词典中匹配到对应的一个编码值,则可根据转换词典对文本标注信息中所包含的字符拼音进行转换,获取每一字符拼音对应的编码值并进行组合得到文本编码信息,所得到的文本编码信息将该文本标注信息的特征采用数值编码的方式进行表示,所得到的文本编码信息的长度可以为L,其表示文本编码信息中包含L个编码值,文本编码信息的长度L与文本标注信息中所包含的字符拼音的数量相等。同一个字符拼音,由于其包含的中文标注信息不相同,所得对应的编码值也不相同。
例如,“qí”这一字符拼音包含句首标记,词性标记为“形容词”,其在转换词典中对应的编码值为“4316”,“qí”这一字符拼音不包含句首标记,词性表为“形容词”,其对应的编码值为“4319”。
S123、将所述文本标注信息包含的字符标注信息与所述文本编码信息包含的文本编码值一一组合得到对应的多个文本编码序列。
具体的,文本标注信息中包含与每一字符对应的字符标注信息,文本编码信息中包含与每一字符标注信息对应的文本编码值,则文本标注信息中包含的字符标注信息的数量与文本编码信息中文本编码值的数量相等,则可对字符标注信息与文本编码信息进行一一对应组合,得到与字符标注信息的数量相等的多个文本编码序列。
S130、根据预置的提取规则从所述样本数据集合中与每一所述文本信息相匹配的语音信息中提取得到音频系数信息。所述提取规则包括频谱转换规则、频率转换公式及逆变换规则。具体的,音频系数信息可以是语言信息对应的梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient,MFCC),可根据音频系数提取规则从语音信息提取得到对应的音频系数信息,音频系数信息可以对语音信息的音频特征进行量化表示。
在一实施例中,如图4所示,步骤S130包括子步骤S131、S132、S133和S134。
S131、对所述语音信息进行分帧处理得到对应的多帧音频信息。
语音信息在计算机中以包含音轨的声谱图进行表示,声谱图中包含很多帧,每一帧即对应一个时间单元,则可语音信息中获取得到每一帧音频信息,每一帧音频信息即对应一个时间单元内所包含的音频信息。
S132、根据预置的单位时间及所述频谱转换规则将每一所述单位时间内包含的所述音频信息转换为对应的音频频谱。
可根据单位时间对音频信息进行分段得到多个音频信息段,每一音频信息段中均对应一个单位时间内包含的多帧音频信息,可根据频谱转换规则对得到的每一音频信息段进行快速傅里叶变换(fast Fourier transform,FFT)然后旋转90度,得到与每一音频信息段对应的音频频谱,在音频频谱中的频谱表示频率与能量的关系。
S133、根据所述频率转换公式将每一所述音频频谱转换为对应的非线性音频频谱。
根据频率转换方式将以线性方式表示的音频频谱转换为非线性音频频谱,人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的,为模拟人类听觉系统对音频信号灵敏度进行感知的特点,可通过非线性音频频谱模拟人类听觉系统对音频信号的表征,并进一步从中获取符合人类听觉系统的特征。音频频谱及非线性音频频谱均为采用频谱曲线进行表示,则频谱曲线由多个连续的频谱值所组成。
具体的,频率转换公式可采用公式(1)进行表示:
mel(f)=2959×log(1+f/700) (1);
其中mel(f)为转换后非线性音频频谱的频谱值,f为音频音频的频率值。
S134、根据所述逆变换规则对每一所述非线性音频频谱进行逆变换得到与每一所述非线性音频频谱对应的多个音频系数作为所述音频系数信息。
可根据逆变换规则对每一非线性音频频谱进行逆变换,具体的,对所得到的一个非线性音频频谱取对数后进行离散余弦变换(Discrete Cosine Transform,DCT),取进行离散余弦变换的第2个至第13个系数进行组合以得到与该非线性音频频谱对应的音频系数,获取每一非线性音频频率对应的音频系数即可得到音频系数信息。
S140、根据预置的合成模型构建规则、所述文本编码序列及所述音频系数信息构建对应的音频合成模型。合成模型构建规则即为构建音频合成模型的具体规则,合成模型构建规则中包括配置数量及梯度下降训练规则。
在一实施例中,如图5所示,步骤S140包括子步骤S141、S142、S143和S144。
S141、根据所述文本编码序列生成对应的输入节点;S142、根据所述音频系数信息生成对应的输出节点;S143、根据所述合成模型构建规则中的配置数量在所述输入节点及所述输出节点之间配置与所述配置数量相等的中间层得到初始音频合成模型。
根据文本编码序列中包含的维度数量生成对应数量的输入节点,根据音频系数信息中任一音频系数包含的维度数量对应数量的输出节点,根据配置数量在输入节点及输出节点之间配置相应中间层得到初始音频合成模型,其中初始音频合成模型包括多个输入节点、一个或多个中间层及多个输出节点,每一中间层中均包含多个特征单元,每一特征单元均通过输入公式与输入节点或其他特征单元相连接,每一特征单元还通过输出公式与输出节点相连接。其中,输入公式或输出公式可表示为:y=a×X+b;其中a及b为公式中的参数值,y为计算值,x为输入值;任意一个输出节点的输出值的计算公式可表示为:其中,aj为全连接层中最后一个中间层的第j个特征单元的加权值,hj为全连接层中最后一个中间层的第j个特征单元的计算值,N为全连接层中最后一个中间层所包含的特征单元的数量。每一输入节点均对应文本编码序列中一个维度的数值,将一个文本编码序列中包含的每一维度数值作为对应输入节点的输入值输入全连接层,通过其中的输入公式、输出公式及输出值的计算公式即可计算得到每一输出节点对应的输出值,输出值即为与文本编码序列对应的预测频谱信息,对一个语句包含的多个文本编码序列进行组合一即可得到与该语句相匹配的音频合成信息。
S144、根据所述文本编码序列、所述音频系数信息及所述合成模型构建规则中的梯度下降训练规则对所述初始音频合成模型进行训练,得到训练后的所述音频合成模型。
为使音频合成模型在进行音频合成处理过程中时具有更高的准确率,可在使用音频合成模型之前对音频合成模型进行迭代训练,也即是对音频合成模型的输入公式及输出公式中的参数值进行调整,训练后所得到的音频合成模型可以大幅提升进行音频合成处理的准确性。梯度下降训练规则即为对神经网络模型进行训练的模型,梯度下降训练规则中包括损失值计算公式及梯度计算公式,文本编码序列与音频系数一一对应;将一个文本编码序列及与该文本编码序列对应的一个音频系数输入音频合成模型得到与该文本编码序列对应的预测频谱信息,根据损失值计算公式及音频系数对预测频谱信息进行计算即可得到对应的损失值,根据损失值及梯度计算公式即可计算得到输入公式及输出公式中每一参数对应的更新值,通过更新值即可对每一参数对应的参数值进行更新,这一对参数值进行更新的过程即为对音频合成模型进行训练的具体过程。
根据所述梯度计算公式、所述损失值及所述音频合成模型的计算值计算得到所述音频合成模型中每一参数的更新值。具体的,将音频合成模型中一个参数对文本编码序列进行计算所得到的计算值输入梯度计算公式,并结合上述损失值,即可计算得到与该参数对应的更新值,这一计算过程也即为梯度下降计算。
具体的,梯度计算公式可表示为:
根据每一所述参数的更新值对所述音频合成模型中对应参数的参数值进行更新,以对所述音频合成模型进行训练。基于所计算得到更新值对音频合成模型中每一参数的参数值对应更新,即完成对音频合成模型的一次训练过程。基于一次训练后所得到的音频合成模型对另一个文本编码序列及与该文本编码序列对应的一个音频系数再次进行计算处理,并重复上述训练过程,即可实现对音频合成模型进行迭代训练;当所计算得到的损失值小于预设的损失阈值或全部文本编码序列均被用于训练后,即终止训练过程得到训练后的音频合成模型。
S150、根据预置的预测模型构建规则、所述语音信息及与所述文本信息对应的韵律信息构建韵律预测模型。预测模型构建规则即为构建韵律预测模型的具体规则,预测模型构建规则中包括音频特征提取规则、数量信息及梯度下降训练规则。
在一实施例中,如图6所示,步骤S150包括子步骤S151、S152、S153、S154、S155和S156。
S151、根据所述预测模型构建规则中的音频特征提取规则从所述语音信息中提取得到音频特征信息。
具体的,可根据音频特征提取规则从语音信息中提取得到相应的音频特征信息,其中,音频特征信息中的一个音频特征即与语音信息中每一单位时间内包含的音频信息相对应,则音频特征包含语音信息中每一单位时间内包含的音频信息的基准频率、响度、音素发音时长等,基准频率即为单位时间内包含的音频信息的基准频率信息,响度即为单位时间内包含的音频信息的响度平均值,音素发音时长即为单位时间内包含的音频信息中发音的时长信息。
S152、将所述音频特征信息包含的音频特征与所述文本编码信息包含的文本编码值一一组合得到对应的多个特征编码序列。
音频特征信息中包含的音频特征的数量与文本编码信息中文本编码值的数量相等,则可对音频特征信息与文本编码信息进行一一对应组合,得到与音频特征的数量相等的多个特征编码序列。
S153、根据所述特征编码序列生成对应的模型输入节点;S154、根据与所述文本信息对应的韵律信息生成对应的模型输出节点;S155、根据所述预测模型构建规则中的数量信息在所述模型输入节点及所述模型输出节点之间配置与所述数量信息相等的中间层得到初始韵律预测模型。
S156、根据所述特征编码序列、所述韵律信息及所述预测模型构建规则中的梯度下降训练规则对所述初始韵律预测模型进行训练,得到训练后的所述韵律预测模型。
生成初始韵律预测模型的具体步骤与生成初始音频合成模型的具体步骤相同,对初始韵律预测模型进行训练的具体步骤也与对初始音频合成模型进行训练的具体步骤相同,在此不作赘述。
S160、若接收到用户所输入的测试信息,根据所述音频合成模型及所述韵律预测模型对所述测试信息的文本信息进行语音合成处理得到语音合成信息。
若接收到用户所输入的测试信息,根据所述音频合成模型及所述韵律预测模型对所述测试信息的文本信息进行语音合成处理得到语音合成信息。其中,测试信息包含多条测试数据,每一测试数据可包含一段真实发音及对应的一段发音文本,每一测试数据均包含与真实发音对应的目标频谱信息及目标韵律信息。根据音频合成模型对测试信息的一条测试数据的真实发音及发音文本进行分析处理,得到该测试数据的音频合成信息,根据韵律预测模型对该条测试数据的真实发音及发音文本进行分析处理,得到该测试数据的韵律预测信息,将音频合成信息及韵律预测信息进行结合得到对应的合成语音,则音频合成信息及韵律预测信息即为进行语音合成处理得到的语音合成信息。可对测试信息中的每一条测试数据进行上述处理过程,得到相应的语音合成信息。
S170、根据所述测试信息中测试数据的目标频谱信息对所述语音合成信息的音频合成信息进行对比评估得到第一评估结果。
为对音频合成模型的使用效果进行评估,可基于测试数据的目标频谱信息对语音合成信息的音频合成信息进行对比评估,得到音频合成模型的第一评估结果。
在一实施例中,如图7所示,步骤S170包括子步骤S171、S172和S173。
S171、根据所述测试信息中测试数据的目标频谱信息对所述音频合成信息进行准确率统计,得到所述准确率统计结果。
根据测试数据中每一字符的目标频谱信息对音频合成信息进行准确率统计,具体的,获取目标频谱信息与音频合成信息中的预测频谱信息相同的字符的占比,统计得到字符音频准确率;获取目标频谱信息与预测频谱信息相同的测试数据的占比,统计得到语句音频准确率,将字符音频准确率及语句音频准确率作为所得到的准确率统计结果。
S172、获取所述测试数据中目标频谱信息与所述音频合成信息不一致的差异路径;S173、计算所述差异路径的编辑距离并进行统计得到所述路径距离统计结果。
具体的,获取目标频谱信息与音频合成信息中预测频谱信息不相同的字符作为对应的差异路径,根据差异路径中目标频谱信息与预测频谱信息中包含的数值进行计算即可得到相应差异路径的编辑距离;
其中,编辑距离可通过公式(2)进行表示:
其中,Ωt为第t个差异路径的编辑距离,C为目标频谱信息包含的维度数量,γk为第t个差异路径对应的目标频谱信息中第k个维度的数值,θk为第t个差异路径对应的预测频谱信息中第k个维度的数值。
获取差异路径与该差异路径相对应的一个字符中的出现概率,根据差异路径的出现概率及差异路径的路径距离对上述差异路径进行排序,将排序结果作为路径距离统计结果。
S180、根据所述测试信息中测试数据的目标韵律信息对所述语音合成信息的韵律预测信息进行对比评估得到第二评估结果。
为对韵律预测模型的使用效果进行评估,可基于测试数据的目标韵律信息对韵律预测模型的韵律预测信息进行对比评估,得到韵律预测模型的第二评估结果。第一评估结果与第二评估结果即组合成为进行语言合成的整体评估结果。
根据测试数据中每一字符的目标韵律信息对韵律预测信息进行准确率统计,具体的,获取目标韵律信息与韵律预测信息相同的字符的占比,统计得到字符韵律准确率;获取目标韵律信息与韵律预测信息相同的测试数据的占比,统计得到语句韵律准确率,将字符韵律准确率及语句韵律准确率作为所得到的第二评估结果。
此外,还可将整体评估结果上传至区块链网络中进行存储,具体的,基于整体评估结果得到对应的摘要信息,具体来说,摘要信息由整体评估结果进行散列处理得到,比如利用sha256s算法处理得到。将与整体评估结果对应的摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证整体评估结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请中的技术方法可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通等包含对语音合成的效果进行智能评估应用场景中,从而推动智慧城市的建设。
在本发明实施例所提供的语音合成的效果评估方法中,获取完整覆盖测试文本集的样本数据集合,获取样本数据数据集合中文本信息的文本编码序列及语音信息的音频系数信息,根据文本编码序列及音频系数信息构建音频合成模型,根据语音信息及与文本信息对应的韵律信息构建韵律预测模型,根据用户输入的测试信息对基于音频合成模型及韵律预测模型合成处理得到的语音合成信息进行综合评估。通过上述方法,采用音频合成模型及韵律预测模型共同合成得到语音合成信息,结合音频合成信息及韵律预测信息对语音合成的效果进行综合评估,可适用于韵律特征及语调上复杂程度较高的中文语音的合成进行评估,可大幅提升对语音合成的效果进行评估的准确性。
本发明实施例还提供一种语音合成的效果评估装置,该语音合成的效果评估装置用于执行前述语音合成的效果评估方法的任一实施例。具体地,请参阅图8,图8是本发明实施例提供的语音合成的效果评估装置的示意性框图。该语音合成的效果评估装置可配置于管理服务器中。
如图8所示,语音合成的效果评估装置100包括样本数据集合获取单元110、文本编码序列获取单元120、音频系数信息获取单元130、音频合成模型构建单元140、韵律预测模型构建单元150、语音合成信息获取单元160、第一评估结果获取单元170和第二评估结果获取单元180。
样本数据集合获取单元110,用于用于若接收到用户所输入的测试文本集,从预存的样本数据库中获取能够完整覆盖所述测试文本集的样本数据集合,所述样本数据集合的每一样本数据均包括文本信息及与所述文本信息相匹配的语音信息。
在一实施例中,所述样本数据集合获取单元110包括子单元:初始数据集合获取单元、样本数据替换单元、覆盖比例判断单元、返回执行单元、文本量判断单元、再次替换单元和样本数据集合确定单元。
初始数据集合获取单元,用于根据预置的覆盖率从所述样本数据库中获取对所述测试文本集进行覆盖的比例大于所述覆盖率的样本数据,得到初始数据集合;样本数据替换单元,用于获取所述样本数据库中的一条样本数据对所述初始数据集合中的样本数据进行替换得到替换后的初始数据集合;覆盖比例判断单元,用于判断所述替换后的初始数据集合对所述测试文本集进行覆盖的比例是否变小;返回执行单元,用于若所述替换后的初始数据集合对测试文本集进行覆盖的比例变小,返回执行所述获取所述样本数据库中的一条样本数据对所述初始数据集合中的样本数据进行替换得到替换后的初始数据集合的步骤;文本量判断单元,用于若所述替换后的初始数据集合对所述测试文本集进行覆盖的比例未变小,判断所述替换后的初始数据集合的文本量是否减小;再次替换单元,用于若所述替换后的初始数据集合的文本量减小,将所述替换后的初始数据集合作为所述初始数据集合,并返回执行所述获取所述样本数据库中的一条样本数据对所述初始数据集合中的样本数据进行替换得到替换后的初始数据集合的步骤;样本数据集合确定单元,用于若所述替换后的初始数据集合的文本量未减小,将所述替换后的初始数据集合确定为样本数据集合。
文本编码序列获取单元120,用于根据预存的编码词典获取与所述样本数据集合中每一文本信息对应的文本编码序列。
在一实施例中,所述文本编码序列获取单元120包括子单元:文本标注信息获取单元、文本编码信息获取单元和信息组合单元。
文本标注信息获取单元,用于根据所述文本解析词典及所述文本标注规则获取与所述样本数据集合中每一文本信息对应对应的文本标注信息;文本编码信息获取单元,用于根据预置的转换词典对所述文本标注信息进行转换得到对应的文本编码信息;信息组合单元,用于将所述文本标注信息包含的字符标注信息与所述文本编码信息包含的文本编码值一一组合得到对应的多个文本编码序列。
音频系数信息获取单元130,用于根据预置的提取规则从所述样本数据集合中与每一所述文本信息相匹配的语音信息中提取得到音频系数信息。
在一实施例中,所述音频系数信息获取单元130包括子单元:分帧处理单元、音频频谱获取单元、频率转换单元和逆变换处理单元。
分帧处理单元,用于对所述语音信息进行分帧处理得到对应的多帧音频信息;音频频谱获取单元,用于根据预置的单位时间及所述频谱转换规则将每一所述单位时间内包含的所述音频信息转换为对应的音频频谱;频率转换单元,用于根据所述频率转换公式将每一所述音频频谱转换为对应的非线性音频频谱;逆变换处理单元,用于根据所述逆变换规则对每一所述非线性音频频谱进行逆变换得到与每一所述非线性音频频谱对应的多个音频系数作为所述音频系数信息。
音频合成模型构建单元140,用于根据预置的合成模型构建规则、所述文本编码序列及所述音频系数信息构建对应的音频合成模型。
在一实施例中,所述音频合成模型构建单元140包括子单元:输入节点生成单元、输出节点生成、中间层配置单元和训练单元。
输入节点生成单元,用于根据所述文本编码序列生成对应的输入节点;输出节点生成单元,用于根据所述音频系数信息生成对应的输出节点;中间层配置单元,用于根据所述合成模型构建规则中的配置数量在所述输入节点及所述输出节点之间配置与所述配置数量相等的中间层得到初始音频合成模型;训练单元,用于根据所述文本编码序列、所述音频系数信息及所述合成模型构建规则中的梯度下降训练规则对所述初始音频合成模型进行训练,得到训练后的所述音频合成模型。
韵律预测模型构建单元150,用于根据预置的预测模型构建规则、所述语音信息及与所述文本信息对应的韵律信息构建韵律预测模型。
在一实施例中,所述韵律预测模型构建单元150包括子单元:音频特征获取单元、特征编码序列获取单元、模型输入节点生成单元、模型输出节点生成、模型中间层配置单元和模型训练单元。
音频特征获取单元,用于根据所述预测模型构建规则中的音频特征提取规则从所述语音信息中提取得到音频特征信息;特征编码序列获取单元,用于将所述音频特征信息包含的音频特征与所述文本编码信息包含的文本编码值一一组合得到对应的多个特征编码序列;模型输入节点生成单元,用于根据所述特征编码序列生成对应的模型输入节点;模型输出节点生成,用于根据与所述文本信息对应的韵律信息生成对应的模型输出节点;模型中间层配置单元,用于根据所述预测模型构建规则中的数量信息在所述模型输入节点及所述模型输出节点之间配置与所述数量信息相等的中间层得到初始韵律预测模型;模型训练单元,用于根据所述特征编码序列、所述韵律信息及所述预测模型构建规则中的梯度下降训练规则对所述初始韵律预测模型进行训练,得到训练后的所述韵律预测模型。
语音合成信息获取单元160,用于若接收到用户所输入的测试信息,根据所述音频合成模型及所述韵律预测模型对所述测试信息的文本信息进行语音合成处理得到语音合成信息。
第一评估结果获取单元170,用于据所述测试信息中测试数据的目标频谱信息对所述语音合成信息的音频合成信息进行对比评估得到第一评估结果。
在一实施例中,所述第一评估结果获取单元170包括子单元:准确率统计单元、差异路径获取单元和路径距离统计结果获取单元。
准确率统计单元,用于根据所述测试信息中测试数据的目标频谱信息对所述音频合成信息进行准确率统计,得到所述准确率统计结果;差异路径获取单元,用于获取所述测试数据中目标频谱信息与所述音频合成信息不一致的差异路径;路径距离统计结果获取单元,用于计算所述差异路径的编辑距离并进行统计得到所述路径距离统计结果。
第二评估结果获取单元180,用于根据所述测试信息中测试数据的目标韵律信息对所述语音合成信息的韵律预测信息进行对比评估得到第二评估结果。
在本发明实施例所提供的语音合成的效果评估装置应用上述语音合成的效果评估方法,获取完整覆盖测试文本集的样本数据集合,获取样本数据数据集合中文本信息的文本编码序列及语音信息的音频系数信息,根据文本编码序列及音频系数信息构建音频合成模型,根据语音信息及与文本信息对应的韵律信息构建韵律预测模型,根据用户输入的测试信息对基于音频合成模型及韵律预测模型合成处理得到的语音合成信息进行综合评估。通过上述方法,采用音频合成模型及韵律预测模型共同合成得到语音合成信息,结合音频合成信息及韵律预测信息对语音合成的效果进行综合评估,可适用于韵律特征及语调上复杂程度较高的中文语音的合成进行评估,可大幅提升对语音合成的效果进行评估的准确性。
上述语音合成的效果评估装置可以实现为计算机程序的形式,该计算机程序可以在如图9所示的计算机设备上运行。
请参阅图9,图9是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行语音合成的效果评估方法以对语音合成的效果进行智能评估的管理服务器。
参阅图9,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行语音合成的效果评估方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行语音合成的效果评估方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图9中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现上述的语音合成的效果评估方法中对应的功能。
本领域技术人员可以理解,图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图9所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现上述的语音合成的效果评估方法中所包含的步骤。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种语音合成的效果评估方法,其特征在于,所述方法包括:
若接收到用户所输入的测试文本集,从预存的样本数据库中获取能够完整覆盖所述测试文本集的样本数据集合,所述样本数据集合的每一样本数据均包括文本信息及与所述文本信息相匹配的语音信息;
根据预存的编码词典获取与所述样本数据集合中每一文本信息对应的文本编码序列;
根据预置的提取规则从所述样本数据集合中与每一所述文本信息相匹配的语音信息中提取得到音频系数信息;
根据预置的合成模型构建规则、所述文本编码序列及所述音频系数信息构建对应的音频合成模型;
根据预置的预测模型构建规则、所述语音信息及与所述文本信息对应的韵律信息构建韵律预测模型;
若接收到用户所输入的测试信息,根据所述音频合成模型及所述韵律预测模型对所述测试信息的文本信息进行语音合成处理得到语音合成信息;
根据所述测试信息中测试数据的目标频谱信息对所述语音合成信息的音频合成信息进行对比评估得到第一评估结果;
根据所述测试信息中测试数据的目标韵律信息对所述语音合成信息的韵律预测信息进行对比评估得到第二评估结果。
2.根据权利要求1所述的语音合成的效果评估方法,其特征在于,所述从预存的样本数据库中获取能够完整覆盖所述测试文本集的样本数据集合,包括:
根据预置的覆盖率从所述样本数据库中获取对所述测试文本集进行覆盖的比例大于所述覆盖率的样本数据,得到初始数据集合;
获取所述样本数据库中的一条样本数据对所述初始数据集合中的样本数据进行替换得到替换后的初始数据集合;
判断所述替换后的初始数据集合对所述测试文本集进行覆盖的比例是否变小;
若所述替换后的初始数据集合对测试文本集进行覆盖的比例变小,返回执行所述获取所述样本数据库中的一条样本数据对所述初始数据集合中的样本数据进行替换得到替换后的初始数据集合的步骤;
若所述替换后的初始数据集合对所述测试文本集进行覆盖的比例未变小,判断所述替换后的初始数据集合的文本量是否减小;
若所述替换后的初始数据集合的文本量减小,将所述替换后的初始数据集合作为所述初始数据集合,并返回执行所述获取所述样本数据库中的一条样本数据对所述初始数据集合中的样本数据进行替换得到替换后的初始数据集合的步骤;
若所述替换后的初始数据集合的文本量未减小,将所述替换后的初始数据集合确定为样本数据集合。
3.根据权利要求1所述的语音合成的效果评估方法,其特征在于,所述编码词典包括文本解析词典、文本标注规则及转换词典,所述根据预存的编码词典获取与所述样本数据集合中每一文本信息对应的文本编码序列,包括:
根据所述文本解析词典及所述文本标注规则获取与所述样本数据集合中每一文本信息对应对应的文本标注信息;
根据预置的转换词典对所述文本标注信息进行转换得到对应的文本编码信息;
将所述文本标注信息包含的字符标注信息与所述文本编码信息包含的文本编码值一一组合得到对应的多个文本编码序列。
4.根据权利要求1所述的语音合成的效果评估方法,其特征在于,所述提取规则包括频谱转换规则、频率转换公式及逆变换规则,所述根据预置的提取规则从所述样本数据集合中与每一所述文本信息相匹配的语音信息中提取得到音频系数信息,包括:
对所述语音信息进行分帧处理得到对应的多帧音频信息;
根据预置的单位时间及所述频谱转换规则将每一所述单位时间内包含的所述音频信息转换为对应的音频频谱;
根据所述频率转换公式将每一所述音频频谱转换为对应的非线性音频频谱;
根据所述逆变换规则对每一所述非线性音频频谱进行逆变换得到与每一所述非线性音频频谱对应的多个音频系数作为所述音频系数信息。
5.根据权利要求1所述的语音合成的效果评估方法,其特征在于,根据预置的合成模型构建规则、所述文本编码序列及所述音频系数信息构建对应的音频合成模型,包括:
根据所述文本编码序列生成对应的输入节点;
根据所述音频系数信息生成对应的输出节点;
根据所述合成模型构建规则中的配置数量在所述输入节点及所述输出节点之间配置与所述配置数量相等的中间层得到初始音频合成模型;
根据所述文本编码序列、所述音频系数信息及所述合成模型构建规则中的梯度下降训练规则对所述初始音频合成模型进行训练,得到训练后的所述音频合成模型。
6.根据权利要求3所述的语音合成的效果评估方法,其特征在于,所述根据预置的预测模型构建规则、所述语音信息及与所述文本信息对应的韵律信息构建韵律预测模型,包括:
根据所述预测模型构建规则中的音频特征提取规则从所述语音信息中提取得到音频特征信息;
将所述音频特征信息包含的音频特征与所述文本编码信息包含的文本编码值一一组合得到对应的多个特征编码序列;
根据所述特征编码序列生成对应的模型输入节点;
根据与所述文本信息对应的韵律信息生成对应的模型输出节点;
根据所述预测模型构建规则中的数量信息在所述模型输入节点及所述模型输出节点之间配置与所述数量信息相等的中间层得到初始韵律预测模型;
根据所述特征编码序列、所述韵律信息及所述预测模型构建规则中的梯度下降训练规则对所述初始韵律预测模型进行训练,得到训练后的所述韵律预测模型。
7.根据权利要求1所述的语音合成的效果评估方法,其特征在于,所述第一评估结果包括准确率统计结果及路径距离统计结果,所述根据所述测试信息中测试数据的目标频谱信息对所述语音合成信息的音频合成信息进行对比评估得到第一评估结果,包括:
根据所述测试信息中测试数据的目标频谱信息对所述音频合成信息进行准确率统计,得到所述准确率统计结果;
获取所述测试数据中目标频谱信息与所述音频合成信息不一致的差异路径;
计算所述差异路径的编辑距离并进行统计得到所述路径距离统计结果。
8.一种语音合成的效果评估装置,其特征在于,包括:
样本数据集合获取单元,用于若接收到用户所输入的测试文本集,从预存的样本数据库中获取能够完整覆盖所述测试文本集的样本数据集合,所述样本数据集合的每一样本数据均包括文本信息及与所述文本信息相匹配的语音信息;
文本编码序列获取单元,用于根据预存的编码词典获取与所述样本数据集合中每一文本信息对应的文本编码序列;
音频系数信息获取单元,用于根据预置的提取规则从所述样本数据集合中与每一所述文本信息相匹配的语音信息中提取得到音频系数信息;
音频合成模型构建单元,用于根据预置的合成模型构建规则、所述文本编码序列及所述音频系数信息构建对应的音频合成模型;
韵律预测模型构建单元,用于根据预置的预测模型构建规则、所述语音信息及与所述文本信息对应的韵律信息构建韵律预测模型;
语音合成信息获取单元,用于若接收到用户所输入的测试信息,根据所述音频合成模型及所述韵律预测模型对所述测试信息的文本信息进行语音合成处理得到语音合成信息;
第一评估结果获取单元,用于根据所述测试信息中测试数据的目标频谱信息对所述语音合成信息的音频合成信息进行对比评估得到第一评估结果;
第二评估结果获取单元,用于根据所述测试信息中测试数据的目标韵律信息对所述语音合成信息的韵律预测信息进行对比评估得到第二评估结果。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的语音合成的效果评估方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7中任一项所述的语音合成的效果评估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011485821.0A CN112669810B (zh) | 2020-12-16 | 2020-12-16 | 语音合成的效果评估方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011485821.0A CN112669810B (zh) | 2020-12-16 | 2020-12-16 | 语音合成的效果评估方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112669810A true CN112669810A (zh) | 2021-04-16 |
CN112669810B CN112669810B (zh) | 2023-08-01 |
Family
ID=75405543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011485821.0A Active CN112669810B (zh) | 2020-12-16 | 2020-12-16 | 语音合成的效果评估方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112669810B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129862A (zh) * | 2021-04-22 | 2021-07-16 | 合肥工业大学 | 一种基于world-tacotron的语音合成方法、系统及服务器 |
CN113345413A (zh) * | 2021-06-01 | 2021-09-03 | 平安科技(深圳)有限公司 | 基于音频特征提取的语音合成方法、装置、设备及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1816846A (zh) * | 2003-06-04 | 2006-08-09 | 株式会社建伍 | 用于选择话音数据的设备、方法和程序 |
JP2008139631A (ja) * | 2006-12-04 | 2008-06-19 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法、装置、プログラム |
US20120191457A1 (en) * | 2011-01-24 | 2012-07-26 | Nuance Communications, Inc. | Methods and apparatus for predicting prosody in speech synthesis |
CN103778912A (zh) * | 2012-10-19 | 2014-05-07 | 财团法人工业技术研究院 | 引导式说话人自适应语音合成的系统与方法及程序产品 |
CN109256152A (zh) * | 2018-11-08 | 2019-01-22 | 上海起作业信息科技有限公司 | 语音评分方法及装置、电子设备、存储介质 |
CN110767213A (zh) * | 2019-11-08 | 2020-02-07 | 四川长虹电器股份有限公司 | 一种韵律预测方法及装置 |
CN110782870A (zh) * | 2019-09-06 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN111292720A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
-
2020
- 2020-12-16 CN CN202011485821.0A patent/CN112669810B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1816846A (zh) * | 2003-06-04 | 2006-08-09 | 株式会社建伍 | 用于选择话音数据的设备、方法和程序 |
JP2008139631A (ja) * | 2006-12-04 | 2008-06-19 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法、装置、プログラム |
US20120191457A1 (en) * | 2011-01-24 | 2012-07-26 | Nuance Communications, Inc. | Methods and apparatus for predicting prosody in speech synthesis |
CN103778912A (zh) * | 2012-10-19 | 2014-05-07 | 财团法人工业技术研究院 | 引导式说话人自适应语音合成的系统与方法及程序产品 |
CN109256152A (zh) * | 2018-11-08 | 2019-01-22 | 上海起作业信息科技有限公司 | 语音评分方法及装置、电子设备、存储介质 |
CN110782870A (zh) * | 2019-09-06 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN110767213A (zh) * | 2019-11-08 | 2020-02-07 | 四川长虹电器股份有限公司 | 一种韵律预测方法及装置 |
CN111292720A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129862A (zh) * | 2021-04-22 | 2021-07-16 | 合肥工业大学 | 一种基于world-tacotron的语音合成方法、系统及服务器 |
CN113129862B (zh) * | 2021-04-22 | 2024-03-12 | 合肥工业大学 | 一种基于world-tacotron的语音合成方法、系统及服务器 |
CN113345413A (zh) * | 2021-06-01 | 2021-09-03 | 平安科技(深圳)有限公司 | 基于音频特征提取的语音合成方法、装置、设备及介质 |
CN113345413B (zh) * | 2021-06-01 | 2023-12-29 | 平安科技(深圳)有限公司 | 基于音频特征提取的语音合成方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112669810B (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109599093B (zh) | 智能质检的关键词检测方法、装置、设备及可读存储介质 | |
JP6777768B2 (ja) | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム | |
Jemine | Real-time voice cloning | |
CN108766415B (zh) | 一种语音测评方法 | |
CN111930914B (zh) | 问题生成方法和装置、电子设备以及计算机可读存储介质 | |
US20230036020A1 (en) | Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score | |
CN112634858B (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
CN112669820B (zh) | 基于语音识别的考试作弊识别方法、装置及计算机设备 | |
CN114023300A (zh) | 一种基于扩散概率模型的中文语音合成方法 | |
Karpov | Real-time speaker identification | |
CN112669810A (zh) | 语音合成的效果评估方法、装置、计算机设备及存储介质 | |
Dossou et al. | OkwuGb\'e: End-to-End Speech Recognition for Fon and Igbo | |
CN115132174A (zh) | 一种语音数据处理方法、装置、计算机设备及存储介质 | |
Gabdrakhmanov et al. | Ruslan: Russian spoken language corpus for speech synthesis | |
US20080120108A1 (en) | Multi-space distribution for pattern recognition based on mixed continuous and discrete observations | |
WO2022126969A1 (zh) | 业务语音的质检方法、装置、设备及存储介质 | |
Wisesty et al. | A classification of marked hijaiyah letters’ pronunciation using hidden Markov model | |
Bakhturina et al. | A toolbox for construction and analysis of speech datasets | |
CN112071304B (zh) | 一种语意分析方法及装置 | |
Kurian et al. | Connected digit speech recognition system for Malayalam language | |
JP3950957B2 (ja) | 言語処理装置および方法 | |
JP7107377B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
Cao et al. | An English pronunciation error detection system based on improved random forest | |
CN112908359A (zh) | 语音测评方法、装置、电子设备及计算机可读介质 | |
Manikandan et al. | Speaker identification using a novel prosody with fuzzy based hierarchical decision tree approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |