CN113409762B - 情感语音合成方法、装置、设备及存储介质 - Google Patents
情感语音合成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113409762B CN113409762B CN202110737184.XA CN202110737184A CN113409762B CN 113409762 B CN113409762 B CN 113409762B CN 202110737184 A CN202110737184 A CN 202110737184A CN 113409762 B CN113409762 B CN 113409762B
- Authority
- CN
- China
- Prior art keywords
- emotion
- voice synthesis
- synchronous
- mark
- emotion voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 276
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 221
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 221
- 238000001308 synthesis method Methods 0.000 title claims abstract description 21
- 230000001360 synchronised effect Effects 0.000 claims abstract description 149
- 239000012634 fragment Substances 0.000 claims abstract description 73
- 230000008859 change Effects 0.000 claims description 34
- 238000000034 method Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 11
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 5
- 238000012986 modification Methods 0.000 abstract 1
- 230000004048 modification Effects 0.000 abstract 1
- 210000001260 vocal cord Anatomy 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013211 curve analysis Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本申请为语音合成技术领域,本申请提供了一种情感语音合成方法、装置、设备及存储介质,其中,所述方法包括:获取情感语音合成片段,对情感语音合成片段设置同步标记;以情感语音合成片段的同步标记为中心,选择预设时长的时间窗对情感语音合成片段进行加窗处理,得到多段语音信号;依据预设的情感语音合成规则调整同步标记,得到目标同步标记;根据目标同步标记将多段语音信号进行拼接,得到合成语音。本申请利用情感语音合成片段,通过基音同步分析、基音同步修改、基音同步合成等方式合成语音,提高合成效果;同时无需获取文本情感分类标签,降低了合成成本。
Description
技术领域
本申请涉及语音合成技术领域,具体而言,本申请涉及一种情感语音合成方法、装置、设备及存储介质。
背景技术
语音是人类交际的最重要的工具之一,语音信号处理作为一个重要的研究领域至今已有几十年历史。人类的说话中不仅包含了文字符号信息,而且还包含了人们的感情和情绪的变化。在现代语音信号处理中,分析和处理语音信号中的情感特征,判断和模拟说话人的喜怒哀乐等是一项意义重大的研究课题。
在现有技术中,一般通过分析不同文本类型的感情色彩来合成对应情绪的语音,这种合成方式需要采用文本情感分类标签,并依赖于文本情感分类模型,而文本情感分类标签的获取成本较高。
发明内容
本申请的主要目的为提供一种情感语音合成方法、装置、设备及存储介质,以解决当前语音合成方式需要获取文本情感分类标签,文本情感分类标签的获取成本较高的问题。
为了实现上述发明目的,本申请提供一种情感语音合成方法,其包括以下步骤:
获取情感语音合成片段,对所述情感语音合成片段设置同步标记;其中,所述同步标记为与所述情感语音合成片段中浊音段的基音保持同步的位置点,用于反映各浊音段的基音周期的起始位置;
以所述情感语音合成片段的同步标记为中心,选择预设时长的时间窗对所述情感语音合成片段进行加窗处理,得到多段语音信号;
依据预设的情感语音合成规则调整所述同步标记,得到目标同步标记;
根据所述目标同步标记将所述多段语音信号进行拼接,得到合成语音。
优选地,所述依据预设的情感语音合成规则调整所述同步标记的步骤,包括:
获取所述情感语音合成片段的基音频率变化规律、能量变化规律、元音的变异规律和静音时延比例中的至少一项;
根据所述情感语音合成片段的基音频率变化规律、能量变化规律、元音的变异规律和静音时延比例中的至少一项对所述同步标记进行调整。
优选地,所述依据预设的情感语音合成规则调整所述同步标记的步骤,包括:
确定所述情感语音合成片段的声调波形;
确定所述声调波形的同步标记;其中,所述同步标记包括所述情感语音合成片段的每个所述基音周期的起始位置和终止位置;
根据基准声调曲线从所述声调波形中确定目标位置;其中,所述基准声调曲线是通过人类语音的韵律特征确定的所述情感语音合成片段的声调波形;
将所述同步标记调整至所述目标位置。
优选地,所述依据预设的情感语音合成规则调整所述同步标记,得到目标同步标记的步骤,包括:
根据预设的同步标记间隔,在所述情感语音合成片段中增加或减少同步标记;
将增加或减少后的同步标记作为所述目标同步标记。
进一步地,所述以所述情感语音合成片段的同步标记为中心的步骤之前,还包括:
获取所述情感语音合成片段中清音段的基音周期;
将所述清音段的基音周期设置为常数。
优选地,所述根据所述目标同步标记将所述多段语音信号进行拼接,得到合成语音的步骤,包括:
获取所述目标同步标记对应的情感控制参数;其中,所述情感控制参数用于控制所述语音信号在所述目标同步标记处的声调;
将所述情感控制参数添加至所述目标同步标记;
根据添加所述情感控制参数的目标同步标记,将所述多段语音信号进行拼接,得到合成语音。
优选地,所述选择预设时长的时间窗对所述情感语音合成片段进行加窗处理的步骤,包括:
获取所述情感语音合成片段中预设帧的开始位置和结束位置;
在所述预设帧的开始位置和结束位置之间随机插入时间窗;
将所述情感语音合成片段中插入时间窗的区域的信号幅值压缩至最小。
本申请还提供一种情感语音合成装置,其包括:
获取模块,用于获取情感语音合成片段,对所述情感语音合成片段设置同步标记;其中,所述同步标记为与所述情感语音合成片段中浊音段的基音保持同步的位置点,用于反映各浊音段的基音周期的起始位置;
选择模块,用于以所述情感语音合成片段的同步标记为中心,选择预设时长的时间窗对所述情感语音合成片段进行加窗处理,得到多段语音信号;
调整模块,用于依据预设的情感语音合成规则调整所述同步标记,得到目标同步标记;
拼接模块,用于根据所述目标同步标记将所述多段语音信号进行拼接,得到合成语音。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
本申请所提供的一种情感语音合成方法、装置、设备及存储介质,首先获取情感语音合成片段,对情感语音合成片段设置同步标记;以情感语音合成片段的同步标记为中心,选择预设时长的时间窗对情感语音合成片段进行加窗处理,得到多段语音信号;依据预设的情感语音合成规则调整同步标记,得到目标同步标记;根据目标同步标记将多段语音信号进行拼接,得到合成语音,从而利用情感语音合成片段,通过基音同步标记分析、基音同步标记调整、基音同步合成等方式合成语音,提高合成效果;同时无需获取文本情感分类标签,降低了合成成本。
附图说明
图1为本申请一实施例的情感语音合成方法的流程示意图;
图2为本申请一实施例的情感语音合成方法的仿真图;
图3为本申请一实施例的情感语音合成装置的结构示意框图;
图4为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请提出一种情感语音合成方法,其中一个实施例中,该情感语音合成方法包括如下步骤:
S11、获取情感语音合成片段,对所述情感语音合成片段设置同步标记;其中,所述同步标记为与所述情感语音合成片段中浊音段的基音保持同步的位置点,用于反映各浊音段的基音周期的起始位置;
S12、以所述情感语音合成片段的同步标记为中心,选择预设时长的时间窗对所述情感语音合成片段进行加窗处理,得到多段语音信号;
S13、依据预设的情感语音合成规则调整所述同步标记,得到目标同步标记;
S14、根据所述目标同步标记将所述多段语音信号进行拼接,得到合成语音。
如上述步骤S11所述,情感语音合成片段可以是根据语音合成库中的预定波形对初始语音进行合成后的初始合成语音,如将文本文字转换为初始语音后,需要获取语音合成库中对应于该初始语音的预设波形,然后将初始语音与确定出的预设波形进行合成,进而获得初始合成语音,即初始合成语音是通过传统的语音合成方法得到的合成语音。在将初始语音与确定出的预设波形进行合成时,可能会存在韵律特征信息丢失的情况,所以,该情感语音合成片段是没有进行韵律优化的合成语音,自然程度和清晰程度上可能与自然语音存在一定的差异。此外,情感语音合成片段也可以是从智能设备例如是手机、电脑、平板等终端设备获取的人工语音,在此不做具体限定。
其中,一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动,由它发出的音就是基音,其余为泛音。
基音周期为一种用于记录基音的时间长度的检测方法,是声带每开启和闭合一次的时间。
浊音为发音时声带振动的音,清音为声带不振动的音。
本步骤可对情感语音合成片段设置基音同步标记mi,同步标记是与合成片段浊音段的基音保持同步的一系列位置点,它们必须能准确反映各基音周期的起始位置。
如上述步骤S12所述,本步骤以情感语音合成片段的同步标记作为中心,选择适当长度(一般选取两倍的基音周期2T)的时间窗(如汉宁窗)对合成片段做加窗处理,情感语音合成片段被分为多段语音信号,并获取分段后的一组语音信号。当所述同步标记在情感语音合成片段的起始位置时,则对位于同步标记之前的部分进行空白处理或添加默认片段;当所述同步标记在情感语音合成片段的结束位置时,则对位于同步标记之后的部分进行空白处理或添加默认片段。
具体的,语音信号s[n]做加窗处理,被分解成若干个语音信号中,包括如下公式:
si[n]=h[n-mi]s[n];
其中,h[n]为Hanning窗,mi为同步标记。
在本实施例中,由于情感语音合成片段是一个时变信号,为了能通过传统的方法对情感语音合成片段进行分析,可以假设情感语音合成片段在非常短的时间内是短时平稳的,所以需要先对情感语音合成片段进行加窗处理,确保调整待合成的语音信号是准确有效的。
如上述步骤S13所述,在情感语音合成规则的指导下,调整获得的同步标记,产生新的基音同步标记,将新的基音同步标记作为目标同步标记。其中,情感语音合成规则可以是通过对情感语音合成片段的同步标记间隔的增加、减小来改变情感合成语音的基频、通过情感语音合成片段幅度的变化来改变合成语音的能量、通过对情感语音合成片段的同步标记的插入、删除来改变合成语音的时长和通过插入无声段来改变无声比等手段。
如上述步骤S14所述,将所述多段语音信号进行拼接的实现一般有3种方式:时域基音同步叠加(TD-PSOLA)、线性预测基音同步叠加(LPC-PSOLA)和频域基音同步叠加(FD-PSOLA)。本申请可采用时域基音同步叠加对所述多段语音信号进行情感语音合成,从而获得包含指定情感的合成语音。具体可采用如下公式来重新合成信号:
其中,为目标同步标记,mi为同步标记。
具体的,如图2所示,本申请以“下雨了”的情感语音合成片段为例,对情感语句(喜怒惊悲)各200条中的变调规律进行了研究,4种情感的变调情况如图2所示,可以发现这4种情感分别具有如下的变调规律:
喜:含喜的话术时长和平叙句相当,但这主要是由句子的尾部带来的影响,句子的前部和中部都比相应内容的平叙句语速要快一些。句子的振幅强度也集中在句子末尾一两个字,整个句子的声调的调域要比平叙句高。由于句子的前中部分语速加快,受到生理原因和语法的制约,句子中非关键性字和词的调形拱度就变得平坦一些,甚至失去本调,而成为前后相邻两调的中间过渡。句尾的感叹词在平叙句中读轻声,在这里语气有很强的加重,并且调形变为先升后降的山包形。
怒:含怒的语句的时长约为平叙句的一半左右,其振幅强度也很高,是加速句和加强句的结合。句中的动词和修饰动词的副词其振幅强度比平均值要高一些。句子的调域抬高,但调形不一定变平,有时它们的拱度甚至更加扩展了。句尾的感叹词也不同于轻声,而变成类似于上声的声调。
惊:含惊的语句情况和含喜的语句相似,不同之处在于句尾的调形有上翘的趋势。整个句子的平均振幅强度比平叙句略高,原因在于句尾的振幅强度增高了。
悲:含悲的语句时长约为平叙句的一倍左右,其振幅强度也低了许多。由于每个字的读音彼此都拉得很开,所以字调的调形保留了其单字的调形,多字调的效果弱化了。但由于悲的语句中几乎每个字都夹杂了一定程度的鼻音,所以要进行鼻化的处理。含悲的语句调域降低,整个句子趋于平坦化。
根据对情感语句特征参数的考察以及听音者的主观感受,通过改变某一语句的局部调形(拱度),或使其整句的调域有所改变,使其能够反映相应的情感语意。在反映不同情感的语句中,各基本单元的调形基本上稳定,但它会产生一些调位变体。
本申请通过对“喜怒惊悲”四种情绪的分析,可以得出情感在语音中主要变现为几个方面:基音频率的变化,这主要体现为不同情感下基频的偏移;能量的变化,主要体现为高激活情感状态下能量的拼接,某些特定情感对应的特定情绪词的重复读等现象;元音的变异,主要体现元音的延时和模糊化;静音帧的插入,主要体现通过静音帧来控制话说语句的停顿,实现对语句情感的强调,突出等。
本申请所提供的一种情感语音合成方法,首先获取情感语音合成片段,对情感语音合成片段设置同步标记;以情感语音合成片段的同步标记为中心,选择预设时长的时间窗对情感语音合成片段进行加窗处理,得到多段语音信号;依据预设的情感语音合成规则调整同步标记,得到目标同步标记;根据目标同步标记将多段语音信号进行拼接,得到合成语音,从而利用情感语音合成片段,通过基音同步标记分析、基音同步标记调整、基音同步合成等方式合成语音,提高合成效果;同时无需获取文本情感分类标签,降低了合成成本。
在一实施例中,在步骤S12中,所述以所述情感语音合成片段的同步标记为中心的步骤之前,还可包括:
获取所述情感语音合成片段中清音段的基音周期;
将所述清音段的基音周期设置为常数。
TD-PSOLA技术中,短时语音信号的截取和拼接,时间长度的选择均是依据同步标记进行的,浊音有基音周期T,而清音的波形接近于白噪声,所以在对浊音信号进行基音标注的同时,为保证算法的一致性,可令清音的基音周期为一常数c,以保证合成语音的准确无误。
在一实施例中,在步骤S12中,所述选择预设时长的时间窗对所述情感语音合成片段进行加窗处理的步骤,可具体包括:
S121、获取所述情感语音合成片段中预设帧的开始位置和结束位置;
S122、在所述预设帧的开始位置和结束位置之间随机插入时间窗;
S123、将所述情感语音合成片段中插入时间窗的区域的信号幅值压缩至最小。
在本实施例中,可选取情感语音合成片段中的至少一帧作为预设帧,并确定预设帧的开始位置和结束位置,在预设帧的开始位置和结束位置之间随机插入预设时长的时间窗,并直接将插入时间窗的区域的振幅值调整为接近零的振幅值,即将插入时间窗的区域的信号幅值压缩至最小,从而可以使得情感语音合成片段中插入时间窗的区域的声调波形与基准声调波形更加相似,使合成的合成语音的韵律也更加贴近自然语音的韵律特征,在自然程度和清晰程度上与自然语音更接近。
在一实施例中,在步骤S13中,所述依据预设的情感语音合成规则调整所述同步标记的步骤,可具体包括:
S131、获取所述情感语音合成片段的基音频率变化规律、能量变化规律、元音的变异规律和静音时延比例中的至少一项;
S132、根据所述情感语音合成片段的基音频率变化规律、能量变化规律、元音的变异规律和静音时延比例中的至少一项对所述同步标记进行调整。
在本实施例中,情感语音合成规则可包括基音频率变化规律、能量变化规律、元音的变异规律和静音时延比例中的至少一项,根据情感语音合成片段的基音频率变化规律、能量变化规律、元音的变异规律和静音时延比例中的一项或多项对所述同步标记进行调整。调整之后,还可获取同类情感,分析总结不同情感下所对应的基音频率变化规律、能量变化规律、元音的变异规律和静音时延比例,总结规律,将总结的规律作为进一步进行语音合成的规则使用。其中,静音时延可通过检测情感语音合成片段中语音为静音时的语音片段,并计算语音片段的静音时间长得到。
具体的,当情感语音合成规则为基音频率变化规律时,可以通过在情感语音合成片段中增大或减小同步标记的间隔来调整情感语音合成片段的同步标记,进而改变合成语音的基音频率。其中,基音频率简称基频,当发声体由于振动而发出声音时,声音一般可以分解为许多单纯的正弦波,所有的自然声音基本都是有许多频率不同的正弦波组成的,其中频率最低的正弦波即为基音,而其他的频率较高的正弦波则为谐波。比如基音频率是可以反映人声音高的基本特征,一般判断一个人唱歌音准是否正确,需要提取人声的基音频率得到音高来进行判断。本申请可以利用时域自相关法、频域倒谱计算法、频域离散小波变换法等检测情感语音合成片段的基音频率,并对检测到的基音频率进行分析,以确定基音频率的变化规律,得到情感语音合成片段的基音频率变化规律。
当情感语音合成规则为能量变化规律时,通过情感语音合成片段幅度的变化来改变每个同步标记的时间窗,进而改变合成语音的能量。其中,在获取情感语音合成片段的能量变化规律时,可将情感语音合成片段等间隔分成若干个音频帧,计算每个音频帧的短时能量,根据每个音频帧的短时能量生成能量曲线,并基于能量曲线分析确定情感语音合成片段的能量变化规律。
当情感语音合成规则为元音的变异规律时,元音的变异,主要体现元音的延时和模糊化,此时可通过对情感语音合成片段新增或删除同步标记来调整情感语音合成片段的同步标记,进而改变合成语音的元音的时长。
当情感语音合成规则为静音时延比例时,通过在情感语音合成片段的同步标记中插入无声段来调整情感语音合成片段的同步标记,进而改变合成语音的无声比,实现对语句情感的强调,突出等。其中,在获取情感语音合成片段的元音的变异规律时,可通过收集各类拼音文字类的资料以及通过访谈等形式,可以获取具有标准音的词汇和同一语种下与该具有标准音的词汇对应的具有变异音的词汇,其中标准音是官方语言所具有的发音,变异音是在同一语种下与标准音对应的存在发音变异的发音,对于拼音文字,具有标准音的词汇的发音和拼写方式与对应的具有变异音的词汇的发音和拼写方式均不同。因此可先获取情感语音合成片段的具有变异音的词汇,并在语言专家的帮助下根据具有标准音的词汇和具有变异音的词汇确定标准音和变异音之间的发音变异规律,进而形成元音的变异规律。
在一实施例中,在步骤S13中,所述依据预设的情感语音合成规则调整所述同步标记的步骤,可具体包括:
A131、确定所述情感语音合成片段的声调波形;
A132、确定所述声调波形的同步标记;其中,所述同步标记包括所述情感语音合成片段的每个所述基音周期的起始位置和终止位置;
A133、根据基准声调曲线从所述声调波形中确定目标位置;其中,所述基准声调曲线是通过人类语音的韵律特征确定的所述情感语音合成片段的声调波形;
A134、将所述同步标记调整至所述目标位置。
在本实施例中,可从基准语音中提取基准声调曲线,基准语音可以是由专业的发音人员录制的比较标准的纯净语音,如播音员,基准语音的韵律特征,可以理解为是由专业技术人员提取到的基准语音对应的韵律特征。韵律特征可以包括声调、语调、重音、音色等语音信息,也可以是其它一些用于描述语音的特征信息,对于韵律特征信息的类型与数量。
在调整同步标记时,需要先获取情感语音合成片段的声调波形,例如可以将该声调波形称为是待调整声调波形,然后对待调整声调波形标记原始标记点,确定所述声调波形的同步标记,在标记原始标记点的时候,一般需要包括初情感语音合成片段中每个基音周期的起始位置和终止位置,然后根据基准声调曲线从声调波形中确定目标位置,该目标位置是通过基准语音的韵律特征确定的位置,然后将所述同步标记调整至所述目标位置,即在目标位置插入同步标记,进而调整情感语音合成片段的的基音周期,使合成语音更接近人类语音。
在一实施例中,在步骤S13中,所述依据预设的情感语音合成规则调整所述同步标记,得到目标同步标记的步骤,可具体包括:
B131、根据预设的同步标记间隔,在所述情感语音合成片段中增加或减少同步标记;
B132、将增加或减少后的同步标记作为所述目标同步标记。
在本实施例中,可以通过不同的方法确定出插入同步标记的位置,然后插入调整同步标记,例如,在情感语音合成片段中增加或减少同步标记,以将待调整声调波形的基音周期调整为与基准声调波形相近或者相同的基音周期,以保证合成语音的声调波形与基准声调波形基本上一致,从而在自然程度和清晰程度上与自然语音更贴近。
在一实施例中,在步骤S14中,所述根据所述目标同步标记将所述多段语音信号进行拼接,得到合成语音的步骤,可具体包括:
S141、获取所述目标同步标记对应的情感控制参数;其中,所述情感控制参数用于控制所述语音信号在所述目标同步标记处的声调;
S142、将所述情感控制参数添加至所述目标同步标记;
S143、根据添加所述情感控制参数的目标同步标记,将所述多段语音信号进行拼接,得到合成语音。
情感发音的实现,需要通过语音的声学参数体现人的情感特性,在语调方法的基础上加入情感控制参数,增加语音合成的表现力。具体的,本申请获取每个目标同步标记对应的情感控制参数,将情感控制参数添加至目标同步标记,然后根据添加情感控制参数的目标同步标记,将多段语音信号进行拼接,得到合成语音,以在添加有情感控制参数的合成语音中体现人类的声调,使合成语音与自然语音更加贴近。
参照图3,本申请实施例中还提供一种情感语音合成装置,包括:
获取模块11,用于获取情感语音合成片段,对所述情感语音合成片段设置同步标记;其中,所述同步标记为与所述情感语音合成片段中浊音段的基音保持同步的位置点,用于反映各浊音段的基音周期的起始位置;
选择模块12,用于以所述情感语音合成片段的同步标记为中心,选择预设时长的时间窗对所述情感语音合成片段进行加窗处理,得到多段语音信号;
调整模块13,用于依据预设的情感语音合成规则调整所述同步标记,得到目标同步标记;
拼接模块14,用于根据所述目标同步标记将所述多段语音信号进行拼接,得到合成语音。
情感语音合成片段可以是根据语音合成库中的预定波形对初始语音进行合成后的初始合成语音,如将文本文字转换为初始语音后,需要获取语音合成库中对应于该初始语音的预设波形,然后将初始语音与确定出的预设波形进行合成,进而获得初始合成语音,即初始合成语音是通过传统的语音合成方法得到的合成语音。在将初始语音与确定出的预设波形进行合成时,可能会存在韵律特征信息丢失的情况,所以,该情感语音合成片段是没有进行韵律优化的合成语音,自然程度和清晰程度上可能与自然语音存在一定的差异。此外,情感语音合成片段也可以是从智能设备例如是手机、电脑、平板等终端设备获取的人工语音,在此不做具体限定。
其中,一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动,由它发出的音就是基音,其余为泛音。
基音周期为一种用于记录基音的时间长度的检测方法,是声带每开启和闭合一次的时间。
浊音为发音时声带振动的音,清音为声带不振动的音。
此外,还可对情感语音合成片段设置基音同步标记mi,同步标记是与合成片段浊音段的基音保持同步的一系列位置点,它们必须能准确反映各基音周期的起始位置。
本申请以情感语音合成片段的同步标记作为中心,选择适当长度(一般选取两倍的基音周期2T)的时间窗(如汉宁窗)对合成片段做加窗处理,情感语音合成片段被分为多段语音信号,并获取分段后的一组语音信号。当所述同步标记在情感语音合成片段的起始位置时,则对位于同步标记之前的部分进行空白处理或添加默认片段;当所述同步标记在情感语音合成片段的结束位置时,则对位于同步标记之后的部分进行空白处理或添加默认片段。
具体的,语音信号s[n]做加窗处理,被分解成若干个语音信号中,包括如下公式:
si[n]=h[n-mi]s[n];
其中,h[n]为Hanning窗,mi为同步标记。
在本实施例中,由于情感语音合成片段是一个时变信号,为了能通过传统的方法对情感语音合成片段进行分析,可以假设情感语音合成片段在非常短的时间内是短时平稳的,所以需要先对情感语音合成片段进行加窗处理,确保调整待合成的语音信号是准确有效的。
在情感语音合成规则的指导下,调整获得的同步标记,产生新的基音同步标记,将新的基音同步标记作为目标同步标记。其中,情感语音合成规则可以是通过对情感语音合成片段的同步标记间隔的增加、减小来改变情感合成语音的基频、通过情感语音合成片段幅度的变化来改变合成语音的能量、通过对情感语音合成片段的同步标记的插入、删除来改变合成语音的时长和通过插入无声段来改变无声比等手段。
将所述多段语音信号进行拼接的实现一般有3种方式:时域基音同步叠加(TD-PSOLA)、线性预测基音同步叠加(LPC-PSOLA)和频域基音同步叠加(FD-PSOLA)。本申请可采用时域基音同步叠加对所述多段语音信号进行情感语音合成,从而获得包含指定情感的合成语音。具体可采用如下公式来重新合成信号:
其中,为目标同步标记,mi为同步标记。
如上所述,可以理解地,本申请中提出的所述情感语音合成装置的各组成部分可以实现如上所述情感语音合成方法任一项的功能,具体结构不再赘述。
参照图4,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储情感语音合成片段、合成语音等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种情感语音合成方法。
上述处理器执行上述的情感语音合成方法,包括:
获取情感语音合成片段,对所述情感语音合成片段设置同步标记;其中,所述同步标记为与所述情感语音合成片段中浊音段的基音保持同步的位置点,用于反映各浊音段的基音周期的起始位置;
以所述情感语音合成片段的同步标记为中心,选择预设时长的时间窗对所述情感语音合成片段进行加窗处理,得到多段语音信号;
依据预设的情感语音合成规则调整所述同步标记,得到目标同步标记;
根据所述目标同步标记将所述多段语音信号进行拼接,得到合成语音。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种情感语音合成方法,包括步骤:
获取情感语音合成片段,对所述情感语音合成片段设置同步标记;其中,所述同步标记为与所述情感语音合成片段中浊音段的基音保持同步的位置点,用于反映各浊音段的基音周期的起始位置;
以所述情感语音合成片段的同步标记为中心,选择预设时长的时间窗对所述情感语音合成片段进行加窗处理,得到多段语音信号;
依据预设的情感语音合成规则调整所述同步标记,得到目标同步标记;
根据所述目标同步标记将所述多段语音信号进行拼接,得到合成语音。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上所述,本申请的最大有益效果在于:
本申请所提供的一种情感语音合成方法、装置、设备及存储介质,首先获取情感语音合成片段,对情感语音合成片段设置同步标记;以情感语音合成片段的同步标记为中心,选择预设时长的时间窗对情感语音合成片段进行加窗处理,得到多段语音信号;依据预设的情感语音合成规则调整同步标记,得到目标同步标记;根据目标同步标记将多段语音信号进行拼接,得到合成语音,从而利用情感语音合成片段,通过基音同步标记分析、基音同步标记调整、基音同步合成等方式合成语音,提高合成效果;同时无需获取文本情感分类标签,降低了合成成本。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种情感语音合成方法,其特征在于,包括以下步骤:
获取情感语音合成片段,对所述情感语音合成片段设置同步标记;其中,所述同步标记为与所述情感语音合成片段中浊音段的基音保持同步的位置点,用于反映各浊音段的基音周期的起始位置;
以所述情感语音合成片段的同步标记为中心,选择预设时长的时间窗对所述情感语音合成片段进行加窗处理,得到多段语音信号;
依据预设的情感语音合成规则调整所述同步标记,得到目标同步标记;
根据所述目标同步标记将所述多段语音信号进行拼接,得到合成语音;
所述选择预设时长的时间窗对所述情感语音合成片段进行加窗处理,得到多段语音信号的步骤包括:
当所述同步标记在情感语音合成片段的起始位置时,则对位于同步标记之前的部分进行空白处理或添加默认片段;当所述同步标记在情感语音合成片段的结束位置时,则对位于同步标记之后的部分进行空白处理或添加默认片段。
2.根据权利要求1所述的方法,其特征在于,所述依据预设的情感语音合成规则调整所述同步标记的步骤,包括:
获取所述情感语音合成片段的基音频率变化规律、能量变化规律、元音的变异规律和静音时延比例中的至少一项;
根据所述情感语音合成片段的基音频率变化规律、能量变化规律、元音的变异规律和静音时延比例中的至少一项对所述同步标记进行调整。
3.根据权利要求1所述的方法,其特征在于,所述依据预设的情感语音合成规则调整所述同步标记的步骤,包括:
确定所述情感语音合成片段的声调波形;
确定所述声调波形的同步标记;其中,所述同步标记包括所述情感语音合成片段的每个所述基音周期的起始位置和终止位置;
根据基准声调曲线从所述声调波形中确定目标位置;其中,所述基准声调曲线是通过人类语音的韵律特征确定的所述情感语音合成片段的声调波形;
将所述同步标记调整至所述目标位置。
4.根据权利要求1所述的方法,其特征在于,所述依据预设的情感语音合成规则调整所述同步标记,得到目标同步标记的步骤,包括:
根据预设的同步标记间隔,在所述情感语音合成片段中增加或减少同步标记;
将增加或减少后的同步标记作为所述目标同步标记。
5.根据权利要求1所述的方法,其特征在于,所述以所述情感语音合成片段的同步标记为中心的步骤之前,还包括:
获取所述情感语音合成片段中清音段的基音周期;
将所述清音段的基音周期设置为常数。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标同步标记将所述多段语音信号进行拼接,得到合成语音的步骤,包括:
获取所述目标同步标记对应的情感控制参数;其中,所述情感控制参数用于控制所述语音信号在所述目标同步标记处的声调;
将所述情感控制参数添加至所述目标同步标记;
根据添加所述情感控制参数的目标同步标记,将所述多段语音信号进行拼接,得到合成语音。
7.根据权利要求1所述的方法,其特征在于,所述选择预设时长的时间窗对所述情感语音合成片段进行加窗处理的步骤,包括:
获取所述情感语音合成片段中预设帧的开始位置和结束位置;
在所述预设帧的开始位置和结束位置之间随机插入时间窗;
将所述情感语音合成片段中插入时间窗的区域的信号幅值压缩至最小。
8.一种情感语音合成装置,其特征在于,包括:
获取模块,用于获取情感语音合成片段,对所述情感语音合成片段设置同步标记;其中,所述同步标记为与所述情感语音合成片段中浊音段的基音保持同步的位置点,用于反映各浊音段的基音周期的起始位置;
选择模块,用于以所述情感语音合成片段的同步标记为中心,选择预设时长的时间窗对所述情感语音合成片段进行加窗处理,得到多段语音信号;
调整模块,用于依据预设的情感语音合成规则调整所述同步标记,得到目标同步标记;
拼接模块,用于根据所述目标同步标记将所述多段语音信号进行拼接,得到合成语音;
所述选择预设时长的时间窗对所述情感语音合成片段进行加窗处理,得到多段语音信号包括:
当所述同步标记在情感语音合成片段的起始位置时,则对位于同步标记之前的部分进行空白处理或添加默认片段;当所述同步标记在情感语音合成片段的结束位置时,则对位于同步标记之后的部分进行空白处理或添加默认片段。
9.一种计算机设备,其特征在于,包括:
处理器;
存储器;
计算机程序,其中所述计算机程序被存储在所述存储器中并被配置为由所述处理器执行,所述计算机程序配置用于执行根据权利要求1至7任一项所述的情感语音合成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1-7任一项所述的情感语音合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110737184.XA CN113409762B (zh) | 2021-06-30 | 2021-06-30 | 情感语音合成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110737184.XA CN113409762B (zh) | 2021-06-30 | 2021-06-30 | 情感语音合成方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113409762A CN113409762A (zh) | 2021-09-17 |
CN113409762B true CN113409762B (zh) | 2024-05-07 |
Family
ID=77680550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110737184.XA Active CN113409762B (zh) | 2021-06-30 | 2021-06-30 | 情感语音合成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113409762B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1758332A (zh) * | 2005-10-31 | 2006-04-12 | 浙江大学 | 基于倒谱特征线性情感补偿的说话人识别方法 |
CN101369423A (zh) * | 2007-08-17 | 2009-02-18 | 株式会社东芝 | 语音合成方法和装置 |
JP2010224053A (ja) * | 2009-03-19 | 2010-10-07 | Nec Corp | 音声合成装置、音声合成方法、プログラム及び記録媒体 |
CN102184731A (zh) * | 2011-05-12 | 2011-09-14 | 北京航空航天大学 | 一种韵律类和音质类参数相结合的情感语音转换方法 |
CN104934029A (zh) * | 2014-03-17 | 2015-09-23 | 陈成钧 | 基于基音同步频谱参数的语音识别系统和方法 |
CN111128116A (zh) * | 2019-12-20 | 2020-05-08 | 珠海格力电器股份有限公司 | 一种语音处理方法、装置、计算设备及存储介质 |
-
2021
- 2021-06-30 CN CN202110737184.XA patent/CN113409762B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1758332A (zh) * | 2005-10-31 | 2006-04-12 | 浙江大学 | 基于倒谱特征线性情感补偿的说话人识别方法 |
CN101369423A (zh) * | 2007-08-17 | 2009-02-18 | 株式会社东芝 | 语音合成方法和装置 |
JP2010224053A (ja) * | 2009-03-19 | 2010-10-07 | Nec Corp | 音声合成装置、音声合成方法、プログラム及び記録媒体 |
CN102184731A (zh) * | 2011-05-12 | 2011-09-14 | 北京航空航天大学 | 一种韵律类和音质类参数相结合的情感语音转换方法 |
CN104934029A (zh) * | 2014-03-17 | 2015-09-23 | 陈成钧 | 基于基音同步频谱参数的语音识别系统和方法 |
CN111128116A (zh) * | 2019-12-20 | 2020-05-08 | 珠海格力电器股份有限公司 | 一种语音处理方法、装置、计算设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113409762A (zh) | 2021-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7016841B2 (en) | Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method | |
US9685152B2 (en) | Technology for responding to remarks using speech synthesis | |
US20190130894A1 (en) | Text-based insertion and replacement in audio narration | |
JP5961950B2 (ja) | 音声処理装置 | |
Drioli et al. | Emotions and voice quality: experiments with sinusoidal modeling | |
US10176797B2 (en) | Voice synthesis method, voice synthesis device, medium for storing voice synthesis program | |
US20100217584A1 (en) | Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program | |
JP2015068897A (ja) | 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム | |
KR19980702608A (ko) | 음성 합성기 | |
CN107610691B (zh) | 英语元音发声纠错方法及装置 | |
US10643600B1 (en) | Modifying syllable durations for personalizing Chinese Mandarin TTS using small corpus | |
CN113409762B (zh) | 情感语音合成方法、装置、设备及存储介质 | |
JP2904279B2 (ja) | 音声合成方法および装置 | |
Mengko et al. | Indonesian Text-To-Speech system using syllable concatenation: Speech optimization | |
JP2010060846A (ja) | 合成音声評価システム及び合成音声評価方法 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP6578544B1 (ja) | 音声処理装置、および音声処理方法 | |
JP5573529B2 (ja) | 音声処理装置およびプログラム | |
JPH0580791A (ja) | 音声規則合成装置および方法 | |
JP2001034284A (ja) | 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体 | |
JP3883318B2 (ja) | 音声素片作成方法及び装置 | |
JP6191094B2 (ja) | 音声素片切出装置 | |
JP2005265955A (ja) | 中国語の声調分類装置及び中国語のf0生成装置 | |
Chabchoub et al. | High quality Arabic concatenative speech synthesis | |
Bonada et al. | Improvements to a sample-concatenation based singing voice synthesizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |