CN113345417B - 语音合成方法、装置、设备以及存储介质 - Google Patents
语音合成方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN113345417B CN113345417B CN202110602847.7A CN202110602847A CN113345417B CN 113345417 B CN113345417 B CN 113345417B CN 202110602847 A CN202110602847 A CN 202110602847A CN 113345417 B CN113345417 B CN 113345417B
- Authority
- CN
- China
- Prior art keywords
- prosody
- voice
- text
- target
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims abstract description 62
- 230000033764 rhythmic process Effects 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 34
- 238000003786 synthesis reaction Methods 0.000 claims description 34
- 238000000034 method Methods 0.000 claims description 19
- 238000000513 principal component analysis Methods 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims 2
- 241000282414 Homo sapiens Species 0.000 abstract description 22
- 230000000694 effects Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000004575 stone Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Navigation (AREA)
Abstract
本发明公开了一种语音合成方法,包括:将参考语音序列输入至预设的语音韵律分析模型进行分析,得到语音韵律特征信息;将目标文本序列输入至预设的文本韵律分析模型进行分析,得到文本韵律特征信息;对所述语音韵律特征信息和所述文本韵律特征信息进行预设的合并处理,得到用于记录将要合成的目标语音的韵律的韵律信息;基于所述目标文本序列和所述韵律信息合成所述目标语音。可见,本发明能够在合成语音时将参考语音的语音韵律和目标文本的文本韵律结合以进行语音的合成,使得合成的语音更加逼近人类真实的声音,提高用户体验。本发明还涉及区块链技术领域。
Description
技术领域
本发明涉及语音合成技术领域,尤其涉及一种语音合成方法、装置、计算机设备以及存储介质。
背景技术
随着计算机技术的发展,语音合成技术已经发展成为一项成熟的技术,其被广泛地应用于实际的生活中,如,智能客服、手机语音助手、地图导航等。但是,随之而来的是用户对语音合成技术的期待也越来越高。目前,用户主要关注合成的语音是否足够贴合人类真实的声音,听起来是否足够自然逼真。传统的语音合成技术主要关注的方向是如何将文本序列转换成语音序列,较少的关注转换后的语音序列的韵律是否合适。由于缺少了对合成语音的韵律的把控,所以传统的语音合成技术合成的语音往往不能很好地贴合人类真实的声音,真实的听感较差。
近年,为了提高工业产品的用户体验,业界和学术界对合成语音的韵律问题的关注度也越来越高。对于合成语音的韵律问题,目前较为普遍的解决方法是通过人工神经网络模型来提取将要合成的语音中的韵律信息,然后基于韵律信息合成语音,从而使得合成的语音具有一定的韵律,能够一定程度上贴合人类真实的声音。然而,通过人工神经网络模型来提取将要合成的语音中的韵律信息是一项复杂的任务,将人工神经网络技术应用在语音的韵律信息的提取中仍有许多改进和优化的空间。可见,目前的语音合成技术合成的语音与人类真实声音的拟合程度较低,用户体验较差。
发明内容
本发明所要解决的技术问题在于,目前的语音合成技术合成的语音与人类真实声音的拟合程度较低,用户体验较差。
为了解决上述技术问题,本发明第一方面公开了一种语音合成方法,所述方法包括:
将参考语音序列输入至预设的语音韵律分析模型进行分析,得到语音韵律特征信息;
将目标文本序列输入至预设的文本韵律分析模型进行分析,得到文本韵律特征信息;
对所述语音韵律特征信息和所述文本韵律特征信息进行预设的合并处理,得到用于记录将要合成的目标语音的韵律的韵律信息;
基于所述目标文本序列和所述韵律信息合成所述目标语音。
本发明第二方面公开了一种语音合成装置,所述装置包括:
语音韵律分析模块,用于将参考语音序列输入至预设的语音韵律分析模型进行分析,得到语音韵律特征信息;
文本韵律分析模块,用于将目标文本序列输入至预设的文本韵律分析模型进行分析,得到文本韵律特征信息;
合并处理模块,用于对所述语音韵律特征信息和所述文本韵律特征信息进行预设的合并处理,得到用于记录将要合成的目标语音的韵律的韵律信息;
语音合成模块,用于基于所述目标文本序列和所述韵律信息合成所述目标语音。
本发明第三方面公开了一种计算机设备,所述计算机设备包括:
存储有可执行程序代码的存储器;
与所述存储器连接的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的语音合成方法中的部分或全部步骤。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的语音合成方法中的部分或全部步骤。
本发明实施例中,首先将参考语音序列和目标文本序列分别输入至语音韵律分析模型和文本韵律分析模型进行分析,得到语音韵律特征信息和文本韵律特征信息,然后对语音韵律特征信息和文本韵律特征信息进行合并处理,得到用于记录将要合成的目标语音的韵律的韵律信息,最后基于目标文本序列和韵律信息合成目标语音,从而能够在合成语音时将参考语音的语音韵律和目标文本的文本韵律结合以进行语音的合成,使得合成的语音更加逼近人类真实的声音,提高用户体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种语音合成方法的流程示意图;
图2是本发明实施例公开的一种语音合成装置的结构示意图;
图3是本发明实施例公开的一种计算机设备的结构示意图;
图4是本发明实施例公开的一种计算机存储介质的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种语音合成方法、装置、计算机设备以及存储介质,首先将参考语音序列和目标文本序列分别输入至语音韵律分析模型和文本韵律分析模型进行分析,得到语音韵律特征信息和文本韵律特征信息,然后对语音韵律特征信息和文本韵律特征信息进行合并处理,得到用于记录将要合成的目标语音的韵律的韵律信息,最后基于目标文本序列和韵律信息合成目标语音,从而能够在合成语音时将参考语音的语音韵律和目标文本的文本韵律结合以进行语音的合成,使得合成的语音更加逼近人类真实的声音,提高用户体验。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种语音合成方法的流程示意图。如图1所示,该语音合成方法可以包括以下操作:
101、将参考语音序列输入至预设的语音韵律分析模型进行分析,得到语音韵律特征信息。
在上述步骤101中,参考语音序列可以是用户想要合成的语音所参照的语音。例如,用户想要使合成的语音比较贴合人类A的声音,则可以将一段人类A说话的真实声音转换为参考语音序列。语音的韵律包括语音的音强、音高、音长、音调等,不同说话人的语音的韵律通常会有一定的差异。语音韵律分析模型对参考语音序列进行分析后得到的语音韵律特征信息则记录有参考语音序列的韵律。如,参考语音序列是由人类A的真实声音转换得到的,则对参考语音序列分析后得到的语音韵律特征信息将记录有人类A的语音的韵律(音强、音高、音长、音调等)。其中,语音韵律分析模型可以是包含两层BiLSTM单元的深度学习网络,通过训练该深度学习网络,能够使该深度学习网络具有从参考语音序列中提取语音韵律特征信息的能力。
102、将目标文本序列输入至预设的文本韵律分析模型进行分析,得到文本韵律特征信息。
在上述步骤102中,目标文本序列可以是由用户想要合成的语音所包含的内容对应的文本转化而来。例如,用户想要合成的语音所包含的内容对应的文本为“中国平安”,则目标文本序列为[中国平安]。其中,文本韵律分析模型可以是一个BERT模型。BERT模型是一个预训练的模型,是一个已经利用大数据集完成训练的模型,能够适用于较多的数据集,在此基础之上,使用自身的数据集对BERT模型进行进一步的训练以实现对BERT模型的参数微调,从而能够使BERT模型具有从目标文本序列中提取出文本韵律特征信息的能力。
103、对所述语音韵律特征信息和所述文本韵律特征信息进行预设的合并处理,得到用于记录将要合成的目标语音的韵律的韵律信息。
在上述步骤103中,对语音韵律特征信息和文本韵律特征信息进行合并处理后,即可以得到用于记录将要合成的目标语音的韵律的韵律信息,具体的合并过程稍后进行描述。真实的人类语音的韵律受语音内容的影响,也受说话人的习惯的影响。例如,语音内容为“我起来了”和语音内容为“我想到了”各自对应的语音的韵律必不相同。并且,不同的说话人的说话习惯必不相同,导致即使是同一语音内容,由不同的说话人说出后其韵律也不尽相同。如,同样为“我起来了”的语音内容,人类A和人类B说出的语音的韵律通常会有差异,人类A的声音可能声调相对低沉,音强也相对较高。对语音韵律特征信息和文本韵律特征信息进行合并处理后得到的韵律信息,将能够从两个维度记录将要合成的目标语音的韵律,从而使得最终合成的目标语音更加逼近人类真实的声音。
104、基于所述目标文本序列和所述韵律信息合成所述目标语音。
在上述步骤104中,将目标文本序列转化为对应的语音,然后加上韵律信息中所记录的韵律,即能够得到逼近人类真实声音的目标语音,具体的合成过程,稍后进行具体描述。
可见,实施图1所描述的语音合成方法,首先将参考语音序列和目标文本序列分别输入至语音韵律分析模型和文本韵律分析模型进行分析,得到语音韵律特征信息和文本韵律特征信息,然后对语音韵律特征信息和文本韵律特征信息进行合并处理,得到用于记录将要合成的目标语音的韵律的韵律信息,最后基于目标文本序列和韵律信息合成目标语音,从而能够在合成语音时将参考语音的语音韵律和目标文本的文本韵律结合以进行语音的合成,使得合成的语音更加逼近人类真实的声音,提高用户体验。
在一个可选的实施例中,所述对所述语音韵律特征信息和所述文本韵律特征信息进行预设的合并处理,得到用于记录将要合成的目标语音的韵律的韵律信息,包括:
对所述语音韵律特征信息和所述文本韵律特征信息进行主成分分析得到至少一个主成分以及每个主成分对应的特征值和方差贡献率;
基于每个主成分对应的特征值和方差贡献率从所有的主成分中筛选出目标主成分,以作为用于记录将要合成的目标语音的韵律的韵律信息。
在该可选的实施例中,主成分分析方法是一种统计方法,其通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分,主成分分析的主要作用在于将高维度的数据转化为低维度的数据,更便于处理和统计。主成分分析法的主要步骤为:(1)对原始数据进行标准化处理,(2)计算标准化处理后的原始数据的相关系数矩阵,(3)计算相关系数矩阵的特征值和特征向量,(4)选择合适个数的主成分(即相关系数矩阵的特征值),并计算每个主成分的综合评价值(如,方差贡献率、信息贡献率、累积贡献率等)。具体地,通过使用现有的主成分分析软件(如,spss)即能够实现对语音韵律特征信息和文本韵律特征信息的主成分分析。在进行主成分分析之后,即可以得到相应的碎石图,碎石图中可以记录有至少一个主成分以及每个主成分对应的特征值和方差贡献率。最后,基于每个主成分对应的特征值和方差贡献率从所有的主成分中筛选出目标主成分,以作为用于记录将要合成的目标语音的韵律的韵律信息,其中,具体的筛选过程,稍后进行描述。这样,即能够实现将语音韵律特征信息和文本韵律特征信息合并成用于记录将要合成的目标语音的韵律的韵律信息。
可见,实施该可选的实施例,首先对语音韵律特征信息和文本韵律特征信息进行主成分分析得到至少一个主成分以及每个主成分对应的特征值和方差贡献率,然后基于每个主成分对应的特征值和方差贡献率从所有的主成分中筛选出目标主成分作为韵律信息,从而能够实现将语音韵律特征信息和文本韵律特征信息合并为韵律信息。
在一个可选的实施例中,所述对所述语音韵律特征信息和所述文本韵律特征信息进行主成分分析得到至少一个主成分以及每个主成分对应的特征值和方差贡献率之前,所述方法还包括:
对所述语音韵律特征信息和所述文本韵律特征信息进行相关系数校验;
若通过相关系数校验,则触发执行所述对所述语音韵律特征信息和所述文本韵律特征信息进行主成分分析得到至少一个主成分以及每个主成分对应的特征值和方差贡献率的步骤;
若未通过相关系数校验,则向用户发出警告提示。
在该可选的实施例中,在对语音韵律特征信息和文本韵律特征信息进行主成分分析之前,还可以对语音韵律特征信息和文本韵律特征信息进行相关系数校验。相关系数校验主要用于检测语音韵律特征信息和文本韵律特征信息的相关度是否足够。若未能通过相关系数校验,则表明语音韵律特征信息和文本韵律特征信息的相关度不够,则有可能是参考语音序列和目标文本序列未对应导致的(如,参考语音序列的内容是“我想起来了”,目标文本序列的内容是“我想到了”,此时,参考语音序列和目标文本序列未对应上,所以导致未能通过相关系数校验),此时,若依然要进行对语音韵律特征信息和文本韵律特征信息的主成分分析,会使得最终合成的目标语音的实际效果不好,所以可以向用户发出警告提示以提示用户存在异常,待用户排查异常之后,再进行语音的合成,更有利于保证最终合成的目标语音的实际效果。若能通过相关系数校验,则可以继续进行语音的合成。
可见,实施该可选的实施例,在对语音韵律特征信息和文本韵律特征信息进行主成分分析之前,对语音韵律特征信息和文本韵律特征信息进行相关系数校验,有利于保证最终合成的目标语音的实际效果。
在一个可选的实施例中,所述基于每个主成分对应的特征值和方差贡献率从所有的主成分中筛选出目标主成分,包括:
从所有的主成分中筛选出所对应的特征值大于预设的特征值阈值且所对应的方差贡献率大于预设的方差贡献率阈值的主成分,以作为目标主成分。
在该可选的实施例中,筛选主成分时,可以根据主成分的特征值和方差贡献率进行筛选。在主成分分析中,主成分的特征值和方差贡献率均具有表示该主成分的解释力度的功能,若一个主成分的特征值和方差贡献率较低,则表示该主成分的解释力度不够,则无需将该主成分作为韵律信息。在实践中发现,特征值大于1且方差贡献率大于0.85的主成分具有较强的解释力度,所以预设的特征值阈值可以设置为1,方差贡献率可以设置为0.85。
可见,实施该可选的实施例,通过从所有的主成分中筛选出所对应的特征值大于特征值阈值且所对应的方差贡献率大于方差贡献率阈值的主成分作为目标主成分,能够使合成的韵律信息更加准确,有利于保证最终合成的目标语音的实际效果。
在一个可选的实施例中,所述基于所述目标文本序列和所述韵律信息合成所述目标语音,包括:
将所述目标文本序列转换为音节序列;
将所述音节序列和所述韵律信息输入至预设的语音特征预测模型进行分析,得到语音特征预测值;
将所述语音特征预测值输入至预设的声码器进行语音合成,得到所述目标语音。
在该可选的实施例中,可以目标文本序列转换为对应的汉字拼音的音节序列,例如,目标文本序列为[中国平安],则转换得到的音节序列为[zh ong g uo p ing an]。具体地,可以预先设置一个汉字和音节的映射表,然后通过查表的形式将目标文本序列转换为音节序列。在完成音节序列的转换之后,即可以将音节序列和韵律信息输入至经典的Tractron2模型(即语音特征预测模型)进行分析,得到语音特征预测值。然后,将语音特征预测值输入至WaveGlow声码器,WaveGlow声码器即能够根据语音特征预测值进行目标语音的合成。
可见,实施该可选的实施例,首先将目标文本序列转换为音节序列,然后将音节序列和韵律信息输入至语音特征预测模型进行分析,得到语音特征预测值,最后将语音特征预测值输入至声码器进行语音合成,得到目标语音,从而能够在将音节序列转换为目标语音时引入韵律因素的影响,使得合成的目标语音更加逼近人类真实的声音,提高用户体验。
可选地,还可以:将所述语音合成方法的语音合成信息上传至区块链中。
具体来说,语音合成信息是通过运行所述语音合成方法后得到的,用于记录语音合成情况,例如,参考语音序列、目标文本序列、韵律信息、目标语音等等。将语音合成信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得到该语音合成信息,以便查证所述语音合成方法的语音合成信息是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
可见,实施本发明实施例,首先将参考语音序列和目标文本序列分别输入至语音韵律分析模型和文本韵律分析模型进行分析,得到语音韵律特征信息和文本韵律特征信息,然后对语音韵律特征信息和文本韵律特征信息进行合并处理,得到用于记录将要合成的目标语音的韵律的韵律信息,最后基于目标文本序列和韵律信息合成目标语音,从而能够在合成语音时将参考语音的语音韵律和目标文本的文本韵律结合以进行语音的合成,使得合成的语音更加逼近人类真实的声音,提高用户体验。还对语音韵律特征信息和文本韵律特征信息进行主成分分析得到至少一个主成分以及每个主成分对应的特征值和方差贡献率,然后基于每个主成分对应的特征值和方差贡献率从所有的主成分中筛选出目标主成分作为韵律信息,从而能够实现将语音韵律特征信息和文本韵律特征信息合并为韵律信息。还在对语音韵律特征信息和文本韵律特征信息进行主成分分析之前,对语音韵律特征信息和文本韵律特征信息进行相关系数校验,有利于保证最终合成的目标语音的实际效果。还通过从所有的主成分中筛选出所对应的特征值大于特征值阈值且所对应的方差贡献率大于方差贡献率阈值的主成分作为目标主成分,能够使合成的韵律信息更加准确,有利于保证最终合成的目标语音的实际效果。还将目标文本序列转换为音节序列,然后将音节序列和韵律信息输入至语音特征预测模型进行分析,得到语音特征预测值,最后将语音特征预测值输入至声码器进行语音合成,得到目标语音,从而能够在将音节序列转换为目标语音时引入韵律因素的影响,使得合成的目标语音更加逼近人类真实的声音,提高用户体验。
实施例二
请参阅图2,图2是本发明实施例公开的一种语音合成装置的结构示意图。如图2所示,该语音合成装置可以包括:
语音韵律分析模块201,用于将参考语音序列输入至预设的语音韵律分析模型进行分析,得到语音韵律特征信息;
文本韵律分析模块202,用于将目标文本序列输入至预设的文本韵律分析模型进行分析,得到文本韵律特征信息;
合并处理模块203,用于对所述语音韵律特征信息和所述文本韵律特征信息进行预设的合并处理,得到用于记录将要合成的目标语音的韵律的韵律信息;
语音合成模块204,用于基于所述目标文本序列和所述韵律信息合成所述目标语音。
在一个可选的实施例中,所述合并处理模块203对所述语音韵律特征信息和所述文本韵律特征信息进行预设的合并处理,得到用于记录将要合成的目标语音的韵律的韵律信息的具体方式为:
对所述语音韵律特征信息和所述文本韵律特征信息进行主成分分析得到至少一个主成分以及每个主成分对应的特征值和方差贡献率;
基于每个主成分对应的特征值和方差贡献率从所有的主成分中筛选出目标主成分,以作为用于记录将要合成的目标语音的韵律的韵律信息。
在一个可选的实施例中,所述装置还包括:
校验模块,用于在所述合并处理模块203对所述语音韵律特征信息和所述文本韵律特征信息进行主成分分析得到至少一个主成分以及每个主成分对应的特征值和方差贡献率之前,对所述语音韵律特征信息和所述文本韵律特征信息进行相关系数校验;若通过相关系数校验,则触发所述合并处理模块203执行所述对所述语音韵律特征信息和所述文本韵律特征信息进行主成分分析得到至少一个主成分以及每个主成分对应的特征值和方差贡献率的步骤;若未通过相关系数校验,则向用户发出警告提示。
在一个可选的实施例中,所述合并处理模块203基于每个主成分对应的特征值和方差贡献率从所有的主成分中筛选出目标主成分的具体方式为:
从所有的主成分中筛选出所对应的特征值大于预设的特征值阈值且所对应的方差贡献率大于预设的方差贡献率阈值的主成分,以作为目标主成分。
在一个可选的实施例中,所述语音合成模块204基于所述目标文本序列和所述韵律信息合成所述目标语音的具体方式为:
将所述目标文本序列转换为音节序列;
将所述音节序列和所述韵律信息输入至预设的语音特征预测模型进行分析,得到语音特征预测值;
将所述语音特征预测值输入至预设的声码器进行语音合成,得到所述目标语音。
在一个可选的实施例中,所述语音特征预测模型为Tractron2模型,所述声码器为WaveGlow声码器。
在一个可选的实施例中,所述语音韵律分析模型为包含两层BiLSTM单元的深度学习网络,所述文本韵律分析模型为BERT模型。
对于上述语音合成装置的具体描述可以参照上述语音合成方法的具体描述,为避免重复,在此不再一一赘述。
实施例三
请参阅图3,图3是本发明实施例公开的一种计算机设备的结构示意图。如图3所示,该计算机设备可以包括:
存储有可执行程序代码的存储器301;
与存储器301连接的处理器302;
处理器302调用存储器301中存储的可执行程序代码,执行本发明实施例一公开的语音合成方法中的步骤。
实施例四
请参阅图4,本发明实施例公开了一种计算机存储介质401,计算机存储介质401存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一公开的语音合成方法中的步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种语音合成方法、装置、计算机设备以及存储介质所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
Claims (7)
1.一种语音合成方法,其特征在于,所述方法包括:
将参考语音序列输入至预设的语音韵律分析模型进行分析,得到语音韵律特征信息;
将目标文本序列输入至预设的文本韵律分析模型进行分析,得到文本韵律特征信息;
对所述语音韵律特征信息和所述文本韵律特征信息进行预设的合并处理,得到用于记录将要合成的目标语音的韵律的韵律信息,包括:
对所述语音韵律特征信息和所述文本韵律特征信息进行主成分分析得到至少一个主成分以及每个主成分对应的特征值和方差贡献率;
基于每个主成分对应的特征值和方差贡献率从所有的主成分中筛选出目标主成分,以作为用于记录将要合成的目标语音的韵律的韵律信息;
所述基于每个主成分对应的特征值和方差贡献率从所有的主成分中筛选出目标主成分,包括:
从所有的主成分中筛选出所对应的特征值大于预设的特征值阈值且所对应的方差贡献率大于预设的方差贡献率阈值的主成分,以作为目标主成分;
基于所述目标文本序列和所述韵律信息合成所述目标语音包括:
将所述目标文本序列转换为音节序列;
将所述音节序列和所述韵律信息输入至预设的语音特征预测模型进行分析,得到语音特征预测值;
将所述语音特征预测值输入至预设的声码器进行语音合成,得到所述目标语音。
2.根据权利要求1所述的语音合成方法,其特征在于,所述对所述语音韵律特征信息和所述文本韵律特征信息进行主成分分析得到至少一个主成分以及每个主成分对应的特征值和方差贡献率之前,所述方法还包括:
对所述语音韵律特征信息和所述文本韵律特征信息进行相关系数校验;
若通过相关系数校验,则触发执行所述对所述语音韵律特征信息和所述文本韵律特征信息进行主成分分析得到至少一个主成分以及每个主成分对应的特征值和方差贡献率的步骤;
若未通过相关系数校验,则向用户发出警告提示。
3.根据权利要求1所述的语音合成方法,其特征在于,所述语音特征预测模型为Tractron2模型,所述声码器为WaveGlow声码器。
4.根据权利要求1所述的语音合成方法,其特征在于,所述语音韵律分析模型为包含两层BiLSTM单元的深度学习网络,所述文本韵律分析模型为BERT模型。
5.一种语音合成装置,实现如权利要求1-4任一项所述的语音合成方法,其特征在于,所述装置包括:
语音韵律分析模块,用于将参考语音序列输入至预设的语音韵律分析模型进行分析,得到语音韵律特征信息;
文本韵律分析模块,用于将目标文本序列输入至预设的文本韵律分析模型进行分析,得到文本韵律特征信息;
合并处理模块,用于对所述语音韵律特征信息和所述文本韵律特征信息进行预设的合并处理,得到用于记录将要合成的目标语音的韵律的韵律信息;
语音合成模块,用于基于所述目标文本序列和所述韵律信息合成所述目标语音。
6.一种计算机设备,其特征在于,所述计算机设备包括:
存储有可执行程序代码的存储器;
与所述存储器连接的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-4任一项所述的语音合成方法。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的语音合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110602847.7A CN113345417B (zh) | 2021-05-31 | 2021-05-31 | 语音合成方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110602847.7A CN113345417B (zh) | 2021-05-31 | 2021-05-31 | 语音合成方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113345417A CN113345417A (zh) | 2021-09-03 |
CN113345417B true CN113345417B (zh) | 2024-03-01 |
Family
ID=77473283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110602847.7A Active CN113345417B (zh) | 2021-05-31 | 2021-05-31 | 语音合成方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113345417B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1731509A (zh) * | 2005-09-02 | 2006-02-08 | 清华大学 | 移动语音合成方法 |
CN101064103A (zh) * | 2006-04-24 | 2007-10-31 | 中国科学院自动化研究所 | 基于音节韵律约束关系的汉语语音合成方法及系统 |
JP2016065900A (ja) * | 2014-09-22 | 2016-04-28 | カシオ計算機株式会社 | 音声合成装置、方法、およびプログラム |
CN110782870A (zh) * | 2019-09-06 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN111724765A (zh) * | 2020-06-30 | 2020-09-29 | 上海优扬新媒信息技术有限公司 | 一种文本转语音的方法、装置及计算机设备 |
CN112086086A (zh) * | 2020-10-22 | 2020-12-15 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及计算机可读存储介质 |
CN112151009A (zh) * | 2020-09-27 | 2020-12-29 | 平安科技(深圳)有限公司 | 一种基于韵律边界的语音合成方法及装置、介质、设备 |
CN112331177A (zh) * | 2020-11-05 | 2021-02-05 | 携程计算机技术(上海)有限公司 | 基于韵律的语音合成方法、模型训练方法及相关设备 |
CN112786008A (zh) * | 2021-01-20 | 2021-05-11 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
-
2021
- 2021-05-31 CN CN202110602847.7A patent/CN113345417B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1731509A (zh) * | 2005-09-02 | 2006-02-08 | 清华大学 | 移动语音合成方法 |
CN101064103A (zh) * | 2006-04-24 | 2007-10-31 | 中国科学院自动化研究所 | 基于音节韵律约束关系的汉语语音合成方法及系统 |
JP2016065900A (ja) * | 2014-09-22 | 2016-04-28 | カシオ計算機株式会社 | 音声合成装置、方法、およびプログラム |
CN110782870A (zh) * | 2019-09-06 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN111724765A (zh) * | 2020-06-30 | 2020-09-29 | 上海优扬新媒信息技术有限公司 | 一种文本转语音的方法、装置及计算机设备 |
CN112151009A (zh) * | 2020-09-27 | 2020-12-29 | 平安科技(深圳)有限公司 | 一种基于韵律边界的语音合成方法及装置、介质、设备 |
CN112086086A (zh) * | 2020-10-22 | 2020-12-15 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及计算机可读存储介质 |
CN112331177A (zh) * | 2020-11-05 | 2021-02-05 | 携程计算机技术(上海)有限公司 | 基于韵律的语音合成方法、模型训练方法及相关设备 |
CN112786008A (zh) * | 2021-01-20 | 2021-05-11 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
Non-Patent Citations (1)
Title |
---|
基于预训练语言表示模型的汉语韵律结构预测;张鹏远;卢春晖;王睿敏;;天津大学学报(自然科学与工程技术版);20200122(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113345417A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111754976B (zh) | 一种韵律控制语音合成方法、系统及电子装置 | |
CN112071325A (zh) | 一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法 | |
CN115485766A (zh) | 使用bert模型的语音合成韵律 | |
CN116364055B (zh) | 基于预训练语言模型的语音生成方法、装置、设备及介质 | |
CN103778912A (zh) | 引导式说话人自适应语音合成的系统与方法及程序产品 | |
CN112951203B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
KR102272554B1 (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
KR102137523B1 (ko) | 텍스트-음성 변환 방법 및 시스템 | |
CN112908293B (zh) | 一种基于语义注意力机制的多音字发音纠错方法及装置 | |
JPWO2012014301A1 (ja) | 飲酒状態判定装置及び飲酒状態判定方法 | |
CN114627856A (zh) | 语音识别方法、装置、存储介质及电子设备 | |
CN116994553A (zh) | 语音合成模型的训练方法、语音合成方法、装置及设备 | |
CN117373431A (zh) | 音频合成方法、训练方法、装置、设备及存储介质 | |
KR20190135853A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
CN113838169B (zh) | 一种基于文本驱动的虚拟人微表情表达方法 | |
CN113870838A (zh) | 一种语音合成方法、装置、设备及介质 | |
CN113948062A (zh) | 数据转换方法及计算机存储介质 | |
CN112951215A (zh) | 语音的智能客服回答方法、装置以及计算机设备 | |
CN113345417B (zh) | 语音合成方法、装置、设备以及存储介质 | |
CN112185340A (zh) | 语音合成方法、语音合成装置、存储介质与电子设备 | |
CN113421576B (zh) | 语音转换方法、装置、设备以及存储介质 | |
CN110298150A (zh) | 一种基于语音识别的身份验证方法及系统 | |
CN115966197A (zh) | 语音合成方法、装置、电子设备和存储介质 | |
CN112634861B (zh) | 数据处理方法、装置、电子设备和可读存储介质 | |
CN113053409B (zh) | 音频测评方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |