CN111108549A - 语音合成方法、装置、计算机设备及计算机可读存储介质 - Google Patents

语音合成方法、装置、计算机设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111108549A
CN111108549A CN201980003185.2A CN201980003185A CN111108549A CN 111108549 A CN111108549 A CN 111108549A CN 201980003185 A CN201980003185 A CN 201980003185A CN 111108549 A CN111108549 A CN 111108549A
Authority
CN
China
Prior art keywords
frequency spectrum
spectrum
emotion
synthesized
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980003185.2A
Other languages
English (en)
Other versions
CN111108549B (zh
Inventor
黄东延
盛乐园
熊友军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubtech Robotics Corp
Original Assignee
Ubtech Robotics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubtech Robotics Corp filed Critical Ubtech Robotics Corp
Publication of CN111108549A publication Critical patent/CN111108549A/zh
Application granted granted Critical
Publication of CN111108549B publication Critical patent/CN111108549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Abstract

本发明实施例公开了一种语音合成方法、装置、计算机设备及计算机可读存储介质。本发明中语音合成方法,包括:根据获取待合成频谱和预置频谱得到叠加频谱;对叠加频谱进行情感语义特征提取;对预置频谱进行基频提取,得到预置频谱对应的基频特征;根据叠加频谱对应的情感语义特征和预置频谱对应的基频特征得到待合成频谱对应的情感韵律频谱。根据情感韵律频谱生成的语音,与待合成频谱具有相同的语义,并且与预置频谱的情感特征和韵律特征一致。上述语音合成方法,首先提取到了情感语义特征,赋予了语音情感,然后提取到了预置频谱的基频,而基频能够体现韵律,由此实现了对语音的重音等韵律进行控制,最终使得合成的语音更加真实。

Description

语音合成方法、装置、计算机设备及计算机可读存储介质
技术领域
本发明涉及语言合成技术领域,尤其涉及一种语音合成方法、装置、计算机设备及计算机可读存储介质。
背景技术
语音合成是通过机械的、电子的方法产生人造语音的技术,具体是指将计算机自己产生的、或外部输入计算机的文字信息转变为可以听得懂的、流利的语音输出的技术。
现有技术中,从参考的语音中提取情感特征,然后通过无监督的方式利用提取的情感特征来控制语音的风格,但是,语音中不止情感,还包括有重音等,需要对重音等韵律因素进行精细控制,从而使得合成的语音更加真实。
发明内容
基于此,有必要针对上述问题,提出了一种能够同时对情感和韵律进行控制的语音合成、装置、计算机设备及存储介质。
本发明实施例提供了一种语音合成方法,所述方法包括:
获取待合成频谱和预置频谱;
根据所述待合成频谱和所述预置频谱得到叠加频谱;
对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征;
对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征;
根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。
一种语音合成装置,所述装置包括:
频谱获取模块,用于获取待合成频谱和预置频谱;
叠加频谱模块,用于根据所述待合成频谱和所述预置频谱得到叠加频谱;
情感语义模块,用于对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征;
基频提取模块,用于对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征;
情感韵律模块,用于根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取待合成频谱和预置频谱;
根据所述待合成频谱和所述预置频谱得到叠加频谱;
对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征;
对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征;
根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取待合成频谱和预置频谱;
根据所述待合成频谱和所述预置频谱得到叠加频谱;
对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征;
对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征;
根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。
采用本发明实施例,具有如下有益效果:
上述语音合成方法、装置、计算机设备及计算机可读存储介质,首先获取待合成频谱和预置频谱;然后根据所述待合成频谱和所述预置频谱得到叠加频谱;同时对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征;并且对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征;最后根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。上述语音合成方法,首先提取到了情感语义特征,赋予了语音情感,然后提取到了预置频谱的基频,而基频能够体现韵律,由此实现了对语音的重音等韵律进行控制,最终使得合成的语音更加真实。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中语音合成方法的应用环境图;
图2为一个实施例中语音合成方法的流程图;
图3为一个实施例中根据所述待合成频谱和所述预置频谱得到叠加频谱的流程图;
图4为一个实施例中根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱的流程图;
图5为一个实施例中语音合成装置的结构框图;
图6为一个实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为一个实施例中语音合成方法的应用环境图。参照图1,该语音合成方法应用于语音合成系统,该语音合成系统可设置于终端中,也可以设置于服务器中,其中,终端具体可以是台式终端或移动终端,移动终端具体可以是手机、机器人、平板电脑、笔记本电脑等中的至少一种,台式终端可以是台式电脑、车载电脑;服务器包括高性能计算机和高性能计算机集群。该语音合成系统包括用于获取待合成频谱和预置频谱的频谱获取模块;用于根据所述待合成频谱和所述预置频谱得到叠加频谱的叠加频谱模块;用于对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征的情感语义模块;用于对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征的基频提取模块;用于根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音的情感韵律模块。
如图2所示,在一个实施例中,提供了一种语音合成方法。该方法既可以应用于终端,也可以应用于服务器,还可以应用于其他语音合成装置中。该语音合成方法具体包括如下步骤:
步骤202:获取待合成频谱和预置频谱。
其中,待合成频谱是指不具有情感、韵律的待合成文本对应的频谱。示例性的,待合成频谱可以是待合成文本对应的梅尔频谱,还可以是待合成文本对应的梅尔倒谱。
其中,预置频谱,是指预先设置的具有一定的情感和韵律的目标语音对应的频谱,将预置频谱中的情感和韵律提取出来,并叠加到不具有情感、韵律的待合成频谱上,得到具有该一定的情感和韵律的情感韵律频谱,从而根据该情感韵律频谱生成具有该一定的情感和韵律的语音。示例性的,获取具有一定的情感和韵律的目标语音;根据所述目标语音得到所述目标语音对应的预置频谱。预置频谱可以预先设置于执行本发明实施例所述的语音合成方法的设备中,也可以在有语音合成需求的时候,从其他设备中获取到该预置频谱。
步骤204:根据所述待合成频谱和所述预置频谱得到叠加频谱。
其中,叠加频谱,同时包含有待合成频谱的特征和预置频谱的特征,具体的,叠加频谱可以同时包括所述待合成频谱和所述预置频谱的全部特征,也可以同时包括待合成频谱和所述预置频谱的部分特征,但需要说明的是,叠加频谱必须包括所述待合成频谱中的语义特征和预置频谱中的情感特征。
步骤206:对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征。
其中,情感语义特征包括情感特征和语义特征。情感特征反映语音或者文本所要表达的情感;语义特征反映语音或者文本的语义(例如,文本“今天几号?”,表达的语义就是想询问今天的日期)。
对所述叠加频谱进行情感语义特征提取,得到的情感语义特征中的情感特征与预置频谱所要表达的情感一致,语义特征与待合成频谱所要表达的语义一致。通过对叠加频谱进行情感语义特征提取,使得最终生成的语音包含有情感,接近人真实的语音。
其中,情感,为整个语音或者文本的情感属性,例如,整个语音或者文本所要表达的情感为“高兴”、“伤心”或者为“生气”;韵律,反映整个语音或者文本中的部分汉字的情感属性,例如,部分汉字具有重音,“小明在商场”,重音可能在小明,也可能在商场,通过韵律对整个语音或者文本中的部分汉字的情感进行表达,使得合成的语音更加的抑扬顿挫,具备一定的语调、重音和节奏。
步骤208:对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征。
其中,基频,为预置频谱中的一组频率最低的正弦波。在声音中,基频是指一个复音中基音的频率。在构成一个复音的若干个音中,基音的频率最低,强度最大。音调是对基频的听觉心理感知量。声调高低变化取决于音调的高低变化,因此,声调的高低变化取决于基频的大小变化。声调的高低变化表现为目标语音的抑扬顿挫,因此目标语音对应的预置频谱的基频特征可以反映该目标语音的韵律。
通过对所述预置频谱进行基频提取,可以得到预置频谱中的基频特征,而基频特征能够表达韵律,使得最终得到的情感韵律频谱同时具备情感特征和韵律特征,从而使得最终合成的语音具备情感和韵律。
步骤210:根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。
其中,情感韵律频谱是指同时包含待合成频谱的语义特征、预置频谱的情感特征和基频特征的频谱,根据所述情感韵律频谱生成的语音所要的语义与所述待合成频谱所要表达的语义相同,根据所述情感韵律频谱生成的语音所要表达的情感、韵律和所述预置频谱所要表达的情感、韵律相同。
上述语音合成方法,首先获取待合成频谱和预置频谱;然后根据所述待合成频谱和所述预置频谱得到叠加频谱;同时对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征;并且对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征;最后根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。上述语音合成方法,首先提取到了情感语义特征,赋予了语音情感,然后提取到了预置频谱的基频,而基频能够体现韵律,由此实现了对语音的重音等韵律进行控制,最终使得合成的语音更加真实。
在一个实施例中,如图3所示,步骤204所述根据所述待合成频谱和所述预置频谱得到叠加频谱,包括:
步骤204A,将所述预置频谱作为情感编码器的输入,得到所述预置频谱对应的情感特征。
其中,情感编码器,用于提取所述预置频谱的情感特征。情感编码器包括情感提取部,情感选取部和情感压缩部。其中,情感提取部用于提取所述预置频谱中关于情感的特征,情感选取部对所述情感提取部提取得到的特征进行过滤和选取,情感压缩部将所述情感选取部选取过滤的特征进行压缩以获取所述预置频谱对应的情感特征。示例性的,情感编码器的情感提取部由六个块(Block)模块构成,每个Block模块均由三部分组成:一个二维卷积层,一个二维批标准化层和一个修正线性单元。情感提取部通过升维提取高频或者说是高维的特征。情感选取部由门控循环单元构成,用于将所述情感提取部提取的特征进行过滤和选取,如过滤掉提取高维的特征中的噪音特征,以保障情感选取部输出特征均为关于情感的特征。情感压缩部将所述情感选取部过滤和选取的特征经过线性仿射变换映射压缩得到一个一维(或者二维、三维,在此不做具体的限定)的潜在向量,即为所述预置频谱对应的情感特征。
步骤204B,根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱。
根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱,具体是将所述预置频谱对应的情感特征和所述待合成频谱直接叠加得到所述叠加频谱,还可以是提取所述待合成频谱对应的语义特征,将所述预置频谱对应的情感特征和所述待合成频谱对应的语义特征叠加得到所述叠加频谱。
如图4所示,在一个实施例中,步骤204B所述根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱,包括:
步骤204B1:获取所述待合成频谱对应的待合成维度。
其中,待合成维度是指待合成频谱对应的维度大小。
步骤204B2:将所述预置频谱对应的情感特征转换成维度和所述待合成维度一致的情感转换特征。
对情感特征进行维度转换得到情感转换特征,其中,情感转换特征的维度为待合成维度。
步骤204B3:根据所述待合成频谱和所述情感转换特征得到所述叠加频谱。
示例性的,待合成频谱为(A,B,C,D),情感转换特征为(a,b,c,d),将待合成频谱和情感转换特征相加,得到叠加频谱为(A+a,B+b,C+c,D+d)。
在一个实施例中,步骤206对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征,包括:
将所述叠加频谱作为情感语义编码器的输入,得到所述情感语义编码器输出的所述叠加频谱对应的情感语义特征。
其中,情感语义编码器用于提取所述叠加频谱的情感语义特征。情感语义编码器包括情感语义提取部,情感语义选取部和情感语义压缩部。其中,情感语义提取部用于提取所述叠加频谱中关于情感语义的特征,情感语义选取部用于对所述情感语义提取部提取得到的特征进行过滤和选取,情感语义压缩部将所述情感语义选取部选取过滤的特征进行压缩以获取所述叠加频谱对应的情感语义特征。示例性的,情感语义编码器的情感语义提取部由六个Block模块构成,每个Block模块均由三部分组成:一个二维卷积层,一个二维批标准化层和一个修正线性单元。情感语义提取部通过升维提取高频或者说是高维的特征。情感语义选取部由门控循环单元构成,用于将所述情感语义提取部提取的特征进行过滤和选取,如过滤掉提取高维的特征中的噪音特征,以保障情感语义选取部输出特征均为关于情感语义的特征。情感语义压缩部由线性仿射变换映射单元构成,将所述情感语义选取部过滤和选取的情感语义特征经过线性仿射变换映射压缩得到一个一维(或者二维、三维,在此不做具体的限定)的潜在向量,即为所述叠加频谱对应的情感语义特征。
在一个实施例中,步骤210根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,包括:
将所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征进行组合,得到组合特征;将所述组合特征输入情感韵律解码器,得到所述情感韵律解码器输出的所述待合成频谱对应的情感韵律频谱。
其中,组合特征包括所述待合成频谱的语义特征、所述预置频谱的情感特征和基频特征。示例性的,所述叠加频谱对应的情感语义特征为一维向量A,所述预置频谱对应的基频特征为一维向量B,则所述组合特征为二维向量(A,B)。
其中,情感韵律解码器用于获取待合成频谱对应的情感韵律频谱。情感韵律解码器包括第一维度转换部、特征提取部、第二维度转换部和压缩部。第一维度转换部将所述组合特征的维度扩展后,特征提取部对维度扩展后的组合特征进行特征的再次提取,第二维度转换部对再次提取的特征进行扩展,扩展后经压缩部压缩,使其维度与组合特征的维度一样,即可获取所述待合成频谱对应的情感韵律频谱。示例性的,情感解码器的第一维度转换部由一个长短时记忆循环神经网络(Long Short-Term Memory,LSTM)构成,特征提取部由三个Block模块构成,每个Block模块均由一维卷积层、一维批标准化层和修正线性单元构成,第二维度转换部由一个LSTM构成,压缩部由线性仿射变换映射单元构成。组合特征的维度为80维,将组合特征输入情感解码器中,第一维度转换部将组合特征的维度升为256维,特征提取部将256维的组合特征进行特征的再次提取和转换,转换后的组合特征仍为256维,为保障有足够多的特征,第二维度转换部对转换后的组合特征进行升维,将其维度升为1024维。压缩部将1024维的特征进行线性仿射变换映射,压缩得到一个80维的数据,即为待合成频谱对应的情感韵律频谱。
在一个实施例中,所述情感编码器、所述情感语义编码器和所述情感韵律解码器集成在同一个语音合成神经网络中,根据训练语音的频谱训练得到。将训练语音的频谱输入到语音合成神经网络中,情感编码器提取训练语音的频谱对应的训练情感特征,训练情感特征和训练语音的频谱叠加得到训练叠加频谱,将训练叠加频谱输入到情感语义编码器中,情感语义编码器输出训练叠加频谱对应的训练情感语义特征,将训练语音的频谱对应的训练基频特征和训练叠加频谱对应的训练情感语义特征合并得到的训练组合特征,训练组合特征输入情感韵律解码器中输出训练情感韵律频谱,计算训练语音的频谱和训练情感韵律频谱之间的误差值,直至误差值小于预设误差值,该语音合成神经网络训练完成。
相应的,将待合成频谱和预置频谱输入训练完成的语音合成神经网络中,语音合成神经网络直接输出所述待合成频谱对应的情感韵律频谱。
在一个实施例中,步骤202获取待合成频谱,包括:
获取待合成文本;根据所述待合成文本得到所述待合成文本的待合成频谱。
其中,待合成文本是指待合成频谱对应的文本内容。
对待合成文本进行识别,得到多个文字内容,生成与所述多个文字内容对应的待合成语音,根据待合成语音可以确定所述待合成文本的待合成频谱(例如,使用傅里叶变换对待合成语音进行处理得到待合成频谱)。
如图5所示,在一个实施例中,提供了一种语音合成装置,该装置包括:
频谱获取模块502,用于获取待合成频谱和预置频谱;
叠加频谱模块504,用于根据所述待合成频谱和所述预置频谱得到叠加频谱;
情感语义模块506,用于对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征;
基频提取模块508,用于对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征;
情感韵律模块510,用于根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。
上述语音合成装置,首先获取待合成频谱和预置频谱;然后根据所述待合成频谱和所述预置频谱得到叠加频谱;同时对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征;并且对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征;最后根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。上述语音合成方法,首先提取到了情感语义特征,赋予了语音情感,然后提取到了预置频谱的基频,而基频能够体现韵律,由此实现了对语音的重音等韵律进行控制,最终使得合成的语音更加真实。
在一个实施例中,所述叠加频谱模块504,包括:提取情感特征模块,用于将所述预置频谱作为情感编码器的输入,得到所述预置频谱对应的情感特征;叠加模块,用于根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱。
在一个实施例中,所述叠加模块具体用于:获取所述待合成频谱对应的待合成维度;将所述预置频谱对应的情感特征转换成维度和所述待合成维度一致的情感转换特征;根据所述待合成频谱和所述情感转换特征得到所述叠加频谱。
在一个实施例中,所述情感语义模块506具体用于:将所述叠加频谱作为情感语义编码器的输入,得到所述情感语义编码器输出的所述叠加频谱对应的情感语义特征。
在一个实施例中,所述情感韵律模块510具体用于:将所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征进行组合,得到组合特征;将所述组合特征输入情感韵律解码器,得到所述情感韵律解码器输出的所述待合成频谱对应的情感韵律频谱。
在一个实施例中,所述频谱获取模块502用于:获取待合成文本;根据所述待合成文本得到所述待合成文本的待合成频谱。
图6示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端,也可以是服务器,还可以是语音合成装置。如图6所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现语音合成方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行语音合成方法。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取待合成频谱和预置频谱;
根据所述待合成频谱和所述预置频谱得到叠加频谱;
对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征;
对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征;
根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。
上述计算机设备,首先获取待合成频谱和预置频谱;然后根据所述待合成频谱和所述预置频谱得到叠加频谱;同时对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征;并且对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征;最后根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。上述语音合成方法,首先提取到了情感语义特征,赋予了语音情感,然后提取到了预置频谱的基频,而基频能够体现韵律,由此实现了对语音的重音等韵律进行控制,最终使得合成的语音更加真实。
在一个实施例中,所述根据所述待合成频谱和所述预置频谱得到叠加频谱,包括:将所述预置频谱作为情感编码器的输入,得到所述预置频谱对应的情感特征;根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱。
在一个实施例中,所述根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱,包括:获取所述待合成频谱对应的待合成维度;将所述预置频谱对应的情感特征转换成维度和所述待合成维度一致的情感转换特征;根据所述待合成频谱和所述情感转换特征得到所述叠加频谱。
在一个实施例中,所述对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征,包括:将所述叠加频谱作为情感语义编码器的输入,得到所述情感语义编码器输出的所述叠加频谱对应的情感语义特征。
在一个实施例中,所述根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,包括:将所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征进行组合,得到组合特征;将所述组合特征输入情感韵律解码器,得到所述情感韵律解码器输出的所述待合成频谱对应的情感韵律频谱。
在一个实施例中,所述获取待合成频谱,包括:获取待合成文本;根据所述待合成文本得到所述待合成文本的待合成频谱。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取待合成频谱和预置频谱;
根据所述待合成频谱和所述预置频谱得到叠加频谱;
对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征;
对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征;
根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。
上述计算机可读存储介质,首先获取待合成频谱和预置频谱;然后根据所述待合成频谱和所述预置频谱得到叠加频谱;同时对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征;并且对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征;最后根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。上述语音合成方法,首先提取到了情感语义特征,赋予了语音情感,然后提取到了预置频谱的基频,而基频能够体现韵律,由此实现了对语音的重音等韵律进行控制,最终使得合成的语音更加真实。
在一个实施例中,所述根据所述待合成频谱和所述预置频谱得到叠加频谱,包括:将所述预置频谱作为情感编码器的输入,得到所述预置频谱对应的情感特征;根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱。
在一个实施例中,所述根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱,包括:获取所述待合成频谱对应的待合成维度;将所述预置频谱对应的情感特征转换成维度和所述待合成维度一致的情感转换特征;根据所述待合成频谱和所述情感转换特征得到所述叠加频谱。
在一个实施例中,所述对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征,包括:将所述叠加频谱作为情感语义编码器的输入,得到所述情感语义编码器输出的所述叠加频谱对应的情感语义特征。
在一个实施例中,所述根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,包括:将所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征进行组合,得到组合特征;将所述组合特征输入情感韵律解码器,得到所述情感韵律解码器输出的所述待合成频谱对应的情感韵律频谱。
在一个实施例中,所述获取待合成频谱,包括:获取待合成文本;根据所述待合成文本得到所述待合成文本的待合成频谱。
需要说明的是,上述语音合成方法、语音合成装置、计算机设备及计算机可读存储介质属于一个总的发明构思,语音合成方法、语音合成装置、计算机设备及计算机可读存储介质实施例中的内容可相互适用。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种语音合成方法,其特征在于,所述方法包括:
获取待合成频谱和预置频谱;
根据所述待合成频谱和所述预置频谱得到叠加频谱;
对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征;
对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征;
根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待合成频谱和所述预置频谱得到叠加频谱,包括:
将所述预置频谱作为情感编码器的输入,得到所述预置频谱对应的情感特征;
根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱。
3.根据权利要求2所述的方法,其特征在于,所述根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱,包括:
获取所述待合成频谱对应的待合成维度;
将所述预置频谱对应的情感特征转换成维度和所述待合成维度一致的情感转换特征;
根据所述待合成频谱和所述情感转换特征得到所述叠加频谱。
4.根据权利要求1所述的方法,其特征在于,所述对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征,包括:
将所述叠加频谱作为情感语义编码器的输入,得到所述情感语义编码器输出的所述叠加频谱对应的情感语义特征。
5.根据权利要求4所述的方法,其特征在于,所述根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,包括:
将所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征进行组合,得到组合特征;
将所述组合特征输入情感韵律解码器,得到所述情感韵律解码器输出的所述待合成频谱对应的情感韵律频谱。
6.根据权利要求1所述的方法,其特征在于,所述获取待合成频谱,包括:
获取待合成文本;
根据所述待合成文本得到所述待合成文本的待合成频谱。
7.一种语音合成装置,其特征在于,所述装置包括:
频谱获取模块,用于获取待合成频谱和预置频谱;
叠加频谱模块,用于根据所述待合成频谱和所述预置频谱得到叠加频谱;
情感语义模块,用于对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征;
基频提取模块,用于对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征;
情感韵律模块,用于根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。
8.根据权利要求7所述的装置,其特征在于,所述叠加频谱模块,包括:
提取情感特征模块,用于将所述预置频谱作为情感编码器的输入,得到所述预置频谱对应的情感特征;
叠加模块,用于根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述语音合成方法的步骤。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述语音合成方法的步骤。
CN201980003185.2A 2019-12-24 2019-12-24 语音合成方法、装置、计算机设备及计算机可读存储介质 Active CN111108549B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/127914 WO2021127979A1 (zh) 2019-12-24 2019-12-24 语音合成方法、装置、计算机设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111108549A true CN111108549A (zh) 2020-05-05
CN111108549B CN111108549B (zh) 2024-02-02

Family

ID=70427475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980003185.2A Active CN111108549B (zh) 2019-12-24 2019-12-24 语音合成方法、装置、计算机设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN111108549B (zh)
WO (1) WO2021127979A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885367A (zh) * 2021-01-19 2021-06-01 珠海市杰理科技股份有限公司 基频获取方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101064104A (zh) * 2006-04-24 2007-10-31 中国科学院自动化研究所 基于语音转换的情感语音生成方法
CN103065619A (zh) * 2012-12-26 2013-04-24 安徽科大讯飞信息科技股份有限公司 一种语音合成方法和语音合成系统
CN105529023A (zh) * 2016-01-25 2016-04-27 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN108615524A (zh) * 2018-05-14 2018-10-02 平安科技(深圳)有限公司 一种语音合成方法、系统及终端设备
CN110223705A (zh) * 2019-06-12 2019-09-10 腾讯科技(深圳)有限公司 语音转换方法、装置、设备及可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184731A (zh) * 2011-05-12 2011-09-14 北京航空航天大学 一种韵律类和音质类参数相结合的情感语音转换方法
JP6433063B2 (ja) * 2014-11-27 2018-12-05 日本放送協会 音声加工装置、及びプログラム
JP6681264B2 (ja) * 2016-05-13 2020-04-15 日本放送協会 音声加工装置、及びプログラム
CN110556092A (zh) * 2018-05-15 2019-12-10 中兴通讯股份有限公司 语音的合成方法及装置、存储介质、电子装置
CN109599128B (zh) * 2018-12-24 2022-03-01 北京达佳互联信息技术有限公司 语音情感识别方法、装置、电子设备和可读介质
CN110277086B (zh) * 2019-06-25 2021-11-19 中国科学院自动化研究所 基于电网调度知识图谱的语音合成方法、系统及电子设备
CN110299131B (zh) * 2019-08-01 2021-12-10 苏州奇梦者网络科技有限公司 一种可控制韵律情感的语音合成方法、装置、存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101064104A (zh) * 2006-04-24 2007-10-31 中国科学院自动化研究所 基于语音转换的情感语音生成方法
CN103065619A (zh) * 2012-12-26 2013-04-24 安徽科大讯飞信息科技股份有限公司 一种语音合成方法和语音合成系统
CN105529023A (zh) * 2016-01-25 2016-04-27 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN108615524A (zh) * 2018-05-14 2018-10-02 平安科技(深圳)有限公司 一种语音合成方法、系统及终端设备
CN110223705A (zh) * 2019-06-12 2019-09-10 腾讯科技(深圳)有限公司 语音转换方法、装置、设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885367A (zh) * 2021-01-19 2021-06-01 珠海市杰理科技股份有限公司 基频获取方法、装置、计算机设备和存储介质
CN112885367B (zh) * 2021-01-19 2022-04-08 珠海市杰理科技股份有限公司 基频获取方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
WO2021127979A1 (zh) 2021-07-01
CN111108549B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN111316352B (zh) 语音合成方法、装置、计算机设备和存储介质
CN111133507B (zh) 一种语音合成方法、装置、智能终端及可读介质
CN108231062B (zh) 一种语音翻译方法及装置
Thakur et al. Speech recognition using euclidean distance
CN110570876B (zh) 歌声合成方法、装置、计算机设备和存储介质
CN112786007A (zh) 语音合成方法、装置、可读介质及电子设备
WO2006106182A1 (en) Improving memory usage in text-to-speech system
CN110264993B (zh) 语音合成方法、装置、设备及计算机可读存储介质
CN112562634A (zh) 多风格音频合成方法、装置、设备及存储介质
CN112735454A (zh) 音频处理方法、装置、电子设备和可读存储介质
CN112786008A (zh) 语音合成方法、装置、可读介质及电子设备
CN111223476A (zh) 语音特征向量的提取方法、装置、计算机设备和存储介质
CN112820268A (zh) 个性化语音转换训练方法、装置、计算机设备及存储介质
CN111108549B (zh) 语音合成方法、装置、计算机设备及计算机可读存储介质
CN113506586A (zh) 用户情绪识别的方法和系统
KR20190088126A (ko) 인공 지능 기반 외국어 음성 합성 방법 및 장치
JP6864322B2 (ja) 音声処理装置、音声処理プログラムおよび音声処理方法
CN114783407B (zh) 语音合成模型训练方法、装置、计算机设备及存储介质
CN110931002A (zh) 人机交互方法、装置、计算机设备和存储介质
CN115497451A (zh) 语音处理方法、装置、电子设备和存储介质
CN115544227A (zh) 多模态数据的情感分析方法、装置、设备及存储介质
CN111739547B (zh) 语音匹配方法、装置、计算机设备和存储介质
CN116825081B (zh) 基于小样本学习的语音合成方法、装置及存储介质
US20230326465A1 (en) Voice processing device, voice processing method, recording medium, and voice authentication system
CN113851108A (zh) 文本转语音方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant