CN114420086B - 语音合成方法和装置 - Google Patents
语音合成方法和装置 Download PDFInfo
- Publication number
- CN114420086B CN114420086B CN202210321405.XA CN202210321405A CN114420086B CN 114420086 B CN114420086 B CN 114420086B CN 202210321405 A CN202210321405 A CN 202210321405A CN 114420086 B CN114420086 B CN 114420086B
- Authority
- CN
- China
- Prior art keywords
- sample
- target
- sequence
- phoneme
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 28
- 230000008451 emotion Effects 0.000 claims abstract description 151
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 37
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 27
- 230000000630 rising effect Effects 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims description 57
- 238000012545 processing Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 abstract description 15
- 230000008569 process Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000002996 emotional effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101100506221 Nitrosomonas europaea (strain ATCC 19718 / CIP 103999 / KCTC 2705 / NBRC 14298) hao3 gene Proteins 0.000 description 1
- 230000001944 accentuation Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000003828 downregulation Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000003827 upregulation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种语音合成方法和装置,所述方法包括:获取目标文本对应的目标情感标识,所述目标情感标识包括重音强度标识和升降调强度标识中的至少一项,所述目标情感标识用于表征所述目标文本的情感程度;基于所述目标情感标识对所述目标文本进行标记,生成第一文本;对所述第一文本进行语音合成,生成目标语音。本发明的语音合成方法,通过获取目标文本对应的目标情感标识,能够自动实现重音以及升降调的分级并能够自动对目标文本的情感进行标注,从而使得能够根据不同的程度的情感表达合成目标文本,以增加目标语音的合成情感。
Description
技术领域
本发明涉及语音合成技术领域,尤其涉及一种语音合成方法和装置。
背景技术
随着人工智能产品在生活中的渗透率越来越高,语音合成作为人机自然交互的基本途径,在智能家居、智能汽车、智能客服等场景下有着广阔的应用。但目前语音合成技术多是无感情的表达,情感表达效果较差。
发明内容
本发明提供一种语音合成方法和装置,用以解决现有技术中语音合成的情感表达效果较差的缺陷,实现高效的情感表达。
本发明提供一种语音合成方法,包括:
获取目标文本对应的目标情感标识,所述目标情感标识包括重音强度标识和升降调强度标识中的至少一项,所述目标情感标识用于表征所述目标文本的情感程度;
基于所述目标情感标识对所述目标文本进行标记,生成第一文本;
对所述第一文本进行语音合成,生成目标语音。
根据本发明提供的一种语音合成方法,所述获取目标文本对应的目标情感标识,包括:
将所述目标文本转化为目标音素序列;
基于所述目标音素序列,生成所述目标音素序列对应的目标情感标识。
根据本发明提供的一种语音合成方法,所述基于所述目标音素序列,生成所述目标音素序列对应的目标情感标识,包括:
将所述目标音素序列输入至目标神经网络,获取所述目标神经网络输出的所述目标情感标识;
其中,所述目标神经网络为,以样本音素序列为样本,以与所述样本音素序列对应的样本情感标识为样本标签,训练得到。
根据本发明提供的一种语音合成方法,所述目标神经网络通过如下步骤构建:
获取样本文本和所述样本文本对应的样本音频;
基于所述样本文本和所述样本音频,生成所述样本音素序列;
获取所述样本音素序列对应的样本基频序列、样本能量序列、样本时长序列和样本后验概率序列中的至少二项;
基于所述样本基频序列、所述样本能量序列、所述样本时长序列和所述样本后验概率序列中的至少二项,构建所述目标神经网络。
根据本发明提供的一种语音合成方法,所述获取所述样本音素序列对应的样本基频序列、样本能量序列、样本时长序列和样本后验概率序列中的至少二项,包括:
切分所述样本音素序列,生成多个音素;
提取所述多个音素中的目标音素对应的基频信息和能量信息;
基于所述目标音素对应的基频信息生成所述样本基频序列,基于所述目标音素对应的能量信息生成所述样本能量序列。
根据本发明提供的一种语音合成方法,所述获取所述样本音素序列对应的样本基频序列、样本能量序列、样本时长序列和样本后验概率序列中的至少二项,包括:
将所述样本音素序列和所述样本音频进行对齐;
基于所述样本音素序列和所述样本音频,生成所述样本音素序列中的目标音素对应的后验概率和所述目标音素在所述样本音频中的音素时长;
基于所述目标音素对应的后验概率生成所述样本后验概率序列,基于所述目标音素在所述样本音频中的音素时长生成所述样本时长序列。
本发明还提供一种语音合成装置,包括:
第一处理模块,用于获取目标文本对应的目标情感标识,所述目标情感标识包括重音强度标识和升降调强度标识中的至少一项,所述目标情感标识用于表征所述目标文本的情感程度;
第二处理模块,用于基于所述目标情感标识对所述目标文本进行标记,生成第一文本;
第三处理模块,用于对所述第一文本进行语音合成,生成目标语音。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音合成方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音合成方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音合成方法。
本发明提供的语音合成方法和装置,通过获取目标文本对应的目标情感标识,能够自动实现重音以及升降调的分级并能够自动对目标文本的情感进行标注,从而使得能够根据不同的程度的情感表达合成目标文本,以增加目标语音的合成情感。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的语音合成方法的流程示意图;
图2是本发明提供的语音合成装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明的语音合成方法。
该语音合成方法的执行主体可以为语音合成装置,或者为服务器,或者还可以为用户的终端,包括移动终端和非移动终端,其中,非移动终端包括但不限于:用户的手机、平板电脑、车载终端、手表以及其他智能终端等。
如图1所示,该语音合成方法包括:步骤110、步骤120和步骤130。
步骤110、获取目标文本对应的目标情感标识;
在该实施例中,目标文本为需要进行语音合成的文本。
目标文本可以为整个待合成文本中的任意一句话或一段内容。
目标情感标识为用于表征目标文本的情感程度的标识,其中,情感程度可以包括多个等级,每一个等级可以用不同的数字或字母表示。
目标情感标识用于表征基于目标文本所合成的目标语音所具备的情感程度,用于强调某些词或者对表达特定语气的重音或者升降调等程度进行区分。
目标情感标识可以表现为0-1之间的任意数值,用于对情感程度进行不同的等级区分。
目标情感标识包括:重音程度标识和升降调程度标识中的至少一种。
其中,重音程度标识可以包括:无重音S0、轻重音S1、次重音S2和重音S3等。
在实际执行过程中,还可以将S0-S3的数值归一化至0-1之间,例如,0表示无重音,1表示重音,轻重音在0-0.5之间,次重音在0.5-1之间,且数值越大,重音的程度越高。
升降调程度标识可以包括:低音、降调、无升降调、升调以及高音等。
升降调程度标识的表现方式可以与重音的表现方式相同,在此不作赘述。
发明人在研发过程中发现,相关技术中存在对重音的有无进行标记的技术,但该技术无法表征重音的程度,对于交互过程为强调某些词或者表达特定语气的重音、升降调等合成效果区分性不高,因此使得合成语音的情感表现力依旧较差。
而在本申请中,通过采用目标情感标识来表征目标文本的情感程度,如表征重音程度或升降调程度等,可以实现对目标文本的重音以及升降调的自动分级,从而提高后续语音合成的表现力。
在一些实施例中,步骤110可以包括:
将目标文本转化为目标音素序列;
基于目标音素序列,生成目标音素序列对应的目标情感标识。
在该实施例中,音素是根据语音的自然属性划分出来的最小语音单位,从声学性质来看,音素是从音质角度划分出来的最小语音单位;从生理性质来看,一个发音动作形成一个音素。
音素包括汉语音素和英语音素。
目标音素序列为目标文本中全部字符对应的音素顺次连接而成的序列。
例如,对于目标文本t,可以将其转化为目标音素序列:q1q2q3…qn,其中,qn为目标文本t中第n个音素,n为目标文本t中全部音素的数量。
在获取目标音素序列后,基于目标音素序列获取目标音素序列对应的目标情感标识,并将目标情感标识标记于目标音素序列的相应位置,以实现对目标文本的情感程度的标记。
其中,一个目标音素序列可以对应有一个或多个目标情感标识。
例如,可以基于目标音素序列中各音素在整个目标文本中的情感程度,从多个音素中确定一个或多个需要进行特别情感区分的音素作为目标音素,并将该目标音素对应的情感程度确定为目标情感标识,将该目标情感标识标记于该目标音素的相应位置。
在实际执行过程中,可以通过目标神经网络获取目标情感标识。
下面通过具体实施例,对该步骤进行具体说明。
在一些实施例中,基于目标音素序列,生成目标音素序列对应的目标情感标识,包括:
将目标音素序列输入至目标神经网络,获取目标神经网络输出的目标情感标识。
在该实施例中,目标神经网络可以为卷积神经网络、残差神经网络或其他任意类型的神经网络。
目标神经网络用于对目标音素序列进行预测,生成目标音素序列对应的目标情感标识。
其中,目标神经网络包括用于预测重音程度的神经网络和用于预测升降调程度的神经网络。
例如,在目标神经网络为用于预测重音程度的神经网络的情况下,目标神经网络可以对输入的目标音素序列进行重音程度预测,并对预测的重音进行分类,如将其分为无重音S0、轻重音S1、次重音S2和重音S3等。
需要说明的是,在实际应用过程中,需提前对目标神经网络进行训练。
其中,目标神经网络为,以样本音素序列为样本,以与样本音素序列对应的样本情感标识为样本标签,训练得到。
在该实施例中,样本音素序列为样本文本对应的音素序列。
样本情感标识为用于表征样本文本对应的语音的情感程度的标识。
样本情感标识可以基于用户自定义。
可以理解的是,不同的样本文本其对应的样本情感标识可能不同。
在实际训练过程中,可以采用样本情感标识标记样本音素序列,并将标记后的样本音素序列输入至目标神经网络进行训练。
例如,样本文本“今天天气真好”中的“好”的重音程度为S3,则在训练过程中,输入目标神经网络的输入值可以为:jin1tian1tian1qi4zhen1hao3(S3)。
在一些实施例中,还可以对目标神经网络进行测试,例如,可以根据强调内容,对训练样本进行不同程度的重音或升降调的标记,如将“今天天气真好”标记为jin1tian1tian1qi4zhen1hao3(S2),以对目标神经网络进行测试,直至目标神经网络的输出值的准确度满足要求。
在该实施例中,通过目标神经网络对目标文本对应的情感程度进行分级,实现可控输入的目标神经网络的训练与测试,智能程度较高,能够显著提升语音交互的效果。
需要说明的是,在通过目标神经网络生成目标情感标识的情况下,用户通过调整目标神经网络中的参数,可以对目标神经网络所输出的结果进行调整,也即通过调整目标神经网络中的参数,可以基于同一目标音素序列生成不同的目标情感标识。
目标神经网络的构建过程将在后续实施例中进行说明,在此暂不作赘述。
步骤120、基于目标情感标识对目标文本进行标记,生成第一文本;
在该步骤中,基于目标情感标识对目标文本进行标记,可以表现为在目标文本的相应位置处插入目标情感标识。
需要说明的是,对于一段目标文本,可以对应有一个或多个目标情感标识,在一段目标文本对应有多个目标情感标识的情况下,可以在目标文本的不同位置插入不同的目标情感标识。
第一文本即为对目标文本插入目标情感标识后的所生成的新的文本。
第一文本可以表现为文本或音素序列。
在实际执行过程中,还可以将目标文本转化为目标音素序列,并在目标音素序列的相应位置处插入目标情感标识。
在将目标文本转化为目标音素序列的情况下,第一文本则可以表现为第一音素序列。
下面以一段目标文本对应有一个情感标识为例,对该步骤进行说明。
例如,对于目标文本“今天天气真好”,可以将其转化为目标音素序列:jin1tian1tian1qi4zhen1hao3,该目标音素序列包括目标文本中每一个汉字对应的拼音以及每一个汉字对应的音调。例如“jin1”为“今”对应的音素,且“1”表征“今”的读音为第一声。
通过步骤110可以生成该目标音素序列对应的目标情感标识,如生成的目标情感标识为音素“zhen”对应的重音S3标识,其中S3=0.9。
则在目标音素序列jin1tian1tian1qi4zhen1hao3中的音素“zhen1”之后标记该目标情感标识,得到音素序列:jin1tian1tian1qi4zhen1(0.9)hao3。
通过类似的方式,还可以生成目标情感标识为音素“zhen”对应的升降调标识0.8。
则在目标音素序列jin1tian1tian1qi4zhen1hao3中的音素“zhen1”之后标记该目标情感标识,得到音素序列:jin1tian1tian1qi4zhen1(0.8)hao3。
然后对以上两个新的音素序列进行融合,即可生成最终的第一文本:jin1tian1tian1qi4zhen1(0.9)(0.8)hao3,其中,数字“0.9”表征该目标文本中“真”的重音程度,数字0.8”表征该目标文本中“真”的升降调程度。
步骤130、对第一文本进行语音合成,生成目标语音。
在该步骤中,在生成第一文本后,基于第一文本中的目标情感标识对第一文本进行语音合成,即可生成目标语音。
所生成的目标语音在目标情感标识对应的字符处,具有与目标情感标识对应的情感程度,如基于以上方法合成的目标文本“今天天气真好”对应的目标语音,其在“真”这个字对应的音频上具有重音以及升调特征,符合用户日常说话的情感表达特征。
发明人在研发过程中发现,相关技术中的语音合成技术,大多仅在自然度和可懂度等方面进行了优化,但在语音合成效果的表现力上,尤其在语气和情感方面,存在情感缺失、表现力差以及用户交互意图低等问题。
为解决以上问题,通用的方法为采集高表现力的音频来提取情感特征,但该方法受发音人本身情绪变化的影响,使得语音表现力具有不稳定性,且合成结果人为干预难度较大。
而在本申请中,采用获取的目标情感标识对目标文本进行标记生成第一文本,然后对第一文本进行语音合成生成目标语音,使得合成的目标语音符合用户实际说话过程中的语气和情感特征,具有较高的表现力,有助于提高用户交互意图。
除此之外,在获取目标情感标识的过程中,可以基于实际需求调整目标神经网络的参数以对其输出的目标情感标识进行调整,具有较高的灵活性。
根据本发明实施例提供的语音合成方法,通过获取目标文本对应的目标情感标识,能够自动实现重音以及升降调的分级并能够自动对目标文本的情感进行标注,从而使得能够根据不同的程度的情感表达对目标文本进行语音合成,以增加目标语音的合成情感,提高用户交互意图。
在一些实施例中,目标神经网络通过如下步骤构建:
获取样本文本和与样本文本对应的样本音频;
基于样本文本和样本音频,生成样本音素序列;
获取样本音素序列对应的样本基频序列、样本能量序列、样本时长序列和样本后验概率序列中的至少二项;
基于样本基频序列、样本能量序列、样本时长序列和样本后验概率序列中的至少二项,构建目标神经网络。
在该实施例中,样本文本为用于训练目标神经网络的文本。
样本文本可以为一句话或一段文本,本发明不作限定。
在实际训练过程中,可以首先对样本文本设计重音以及升降调的位置,并使发音人基于设计的位置进行发音,生成与样本文本对应的样本音频。
样本基频序列为用于表征样本文本对应的样本音频的频率的序列,例如,对于样本音素序列q1q2q3…qn,其对应的样本基频序列可以用P1P2P3…Pn表示,其中,Pn为样本文本t中第n个音素对应的基频,n为样本文本t中全部音素的数量。
样本能量序列为用于表征样本文本对应的样本音频的声能的序列,声能是以波的形式存在的一种能量,例如,对于样本音素序列q1q2q3…qn,其对应的样本能量序列可以用En1En2En3…Enn表示,其中,En1为样本文本t中第n个音素对应的能量,n为样本文本t中全部音素的数量。
样本时长序列用于表征样本文本对应的样本音频的时长,例如,对于样本音素序列q1q2q3…qn,其对应的样本时长序列可以用T1T2T3…Tn表示,其中,Tn为样本文本t中第n个音素对应的时长,n为样本文本t中全部音素的数量。
样本后验概率序列用于表征样本文本对应的样本音频的情感程度的相关程度,样本后验概率序列包括样本文本中的每个音素对应的声音的情感程度的相关程度。
其中,后验概率为在一个通信系统中,在收到某个消息之后,接收端所了解到的该消息发送的概率。在实际执行过程中,后验概率可以通过贝叶斯公式,基于先验概率和似然函数确定,在本发明中,后验概率可以通过任意常规手段确定,本发明不作赘述。
例如,对于样本音素序列q1q2q3…qn,其对应的样本后验概率序列可以用Pgwpp1Pgwpp2Pgwpp3…Pgwppn表示,其中,Pgwppn为样本文本t中第n个音素对应的后验概率,n为样本文本t中全部音素的数量。
可以理解的是,样本基频序列、样本能量序列、样本时长序列和样本后验概率序列均为样本文本对应的实际数据。
在获取样本音素序列对应的样本基频序列、样本能量序列、样本时长序列和样本后验概率序列后,基于样本基频序列、样本能量序列、样本时长序列和样本后验概率序列中的至少二项,来设计目标神经网络。
例如,基于样本基频序列、样本能量序列、样本时长序列和样本后验概率序列中的至少二项,预测样本文本对应的情感程度,输出用于表征样本文本的情感程度的情感标识,以使目标神经网络能够对样本文本进行特征提取,并基于样本基频序列、样本能量序列、样本时长序列和样本后验概率序列中的至少二项,对样本文本的情感程度进行预测。
在实际执行过程中,可以将采集的多个样本音频输入至目标神经网络,以供目标神经网络进行判别输出,输出值为:R1R2R3…Rm,其中,Rm是第m句对应的目标神经网络的输出,表征第m句对应的发音人重音的重度程度(或升降调程度),其中,m为样本音频的总数量,从而实现目标神经网络的对情感表达的预测及判别。
然后将R1R2R3…Rm根据数值大小分别分为多类,如分为无重音S0、轻重音S1、次重音S2和重音S3等类别,并规整至0-1之间,不同类别之间通过线性插值获取,从而实现目标神经网络的对情感表达的分级输出。
下面对样本基频序列、样本能量序列、样本时长序列和样本后验概率序列的具体生成方式进行说明。
在一些实施例中,获取样本音素序列对应的样本基频序列、样本能量序列、样本时长序列和样本后验概率序列中的至少二项,包括:
切分样本音素序列,生成多个音素;
提取多个音素中的目标音素对应的基频信息和能量信息;
基于目标音素对应的基频信息生成样本基频序列,基于目标音素对应的能量信息生成样本能量序列。
在该实施例中,对样本音素序列进行切分,可以生成该样本音素序列中的每一个音素。
其中,每一个音素中均对应有基频信息和能量信息。
目标音素可以为多个音素中的任意一个音素。
获取多个音素中每一个音素对应的基频信息,基于音素在样本音素序列中的排列顺序将每一个音素对应的基频信息顺次连接,即可生成样本基频序列。
获取多个音素中每一个音素对应的能量信息,基于音素在样本音素序列中的排列顺序将每一个音素对应的能量信息顺次连接,即可生成样本能量序列。
在一些实施例中,获取样本音素序列对应的样本基频序列、样本能量序列、样本时长序列和样本后验概率序列中的至少二项,包括:
将样本音素序列和样本音频进行对齐;
基于样本音素序列和样本音频,生成样本音素序列中的目标音素对应的后验概率和目标音素在样本音频中的音素时长;
基于目标音素对应的后验概率生成样本后验概率序列,基于目标音素在样本音频中的音素时长生成样本时长序列。
在该实施例中,样本音频为样本音素序列对应的真实的音频数据。
将样本音素序列和样本音频进行时间对齐,也即将样本音素序列中的每一个音素与样本音频中与该音素对应的音频对齐。
目标音素可以为多个音素中的任意一个音素。
在对齐后,即可获取样本音素序列中每一个音素在样本音频中的时长,并将该时长确定为该音素对应的音素时长。
获取多个音素中每一个音素对应的音素时长,基于音素在样本音素序列中的排列顺序将每一个音素对应的音素时长顺次连接,即可生成样本时长序列。
基于先验概率生成多个音素中每一个音素对应的后验概率,并基于音素在样本音素序列中的排列顺序将每一个音素对应的后验概率顺次连接,即可生成样本后验概率序列。
根据本发明实施例提供的语音合成方法,通过获取目标文本对应的目标情感标识,能够自动实现对目标文本中的重音以及升降调的分级,并根据不同的程度的情感表达对目标文本进行语音合成,增加目标语音的合成情感,以提高用户的交互意图。
下面对本发明提供的语音合成装置进行描述,下文描述的语音合成装置与上文描述的语音合成方法可相互对应参照。
如图2所示,该语音合成装置包括:第一处理模块210、第二处理模块220和第三处理模块230。
第一处理模块210,用于获取目标文本对应的目标情感标识,目标情感标识包括重音强度标识和升降调强度标识中的至少一项,目标情感标识用于表征目标文本的情感程度;
第二处理模块220,用于基于目标情感标识对目标文本进行标记,生成第一文本;
第三处理模块230,用于对第一文本进行语音合成,生成目标语音。
根据本发明实施例提供的语音合成装置,通过获取目标文本对应的目标情感标识,能够自动实现重音以及升降调的分级并能够自动对目标文本的情感进行标注,从而使得能够根据不同的程度的情感表达合成目标文本,以增加目标语音的合成情感。
在一些实施例中,第一处理模块210,还可以用于:
将目标文本转化为目标音素序列;
基于目标音素序列,生成目标音素序列对应的目标情感标识。
在一些实施例中,第一处理模块210,还可以用于:
将目标音素序列输入至目标神经网络,获取目标神经网络输出的目标情感标识;
其中,目标神经网络为,以样本音素序列为样本,以与样本音素序列对应的样本情感标识为样本标签,训练得到。
在一些实施例中,该装置还可以包括:
第四处理模块,用于获取样本文本;
第五处理模块,用于将样本文本转化为样本音素序列;
第六处理模块,用于获取样本音素序列对应的样本基频序列、样本能量序列、样本时长序列和样本后验概率序列中的至少二项;
第七处理模块,用于基于样本基频序列、样本能量序列、样本时长序列和样本后验概率序列中的至少二项,构建目标神经网络。
在一些实施例中,第六处理模块,还可以用于:
切分样本音素序列,生成多个音素;
提取多个音素中的目标音素对应的基频信息和能量信息;
基于目标音素对应的基频信息生成样本基频序列,基于目标音素对应的能量信息生成样本能量序列。
在一些实施例中,第六处理模块,还可以用于:
将样本音素序列和样本音频进行对齐;
基于样本音素序列和样本音频,生成样本音素序列中的目标音素对应的后验概率和目标音素在样本音频中的音素时长;
基于目标音素对应的后验概率生成样本后验概率序列,基于目标音素在样本音频中的音素时长生成样本时长序列。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行语音合成方法,该方法包括:获取目标文本对应的目标情感标识,目标情感标识包括重音强度标识和升降调强度标识中的至少一项,目标情感标识用于表征目标文本的情感程度;基于目标情感标识对目标文本进行标记,生成第一文本;对第一文本进行语音合成,生成目标语音。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的语音合成方法,该方法包括:获取目标文本对应的目标情感标识,目标情感标识包括重音强度标识和升降调强度标识中的至少一项,目标情感标识用于表征目标文本的情感程度;基于目标情感标识对目标文本进行标记,生成第一文本;对第一文本进行语音合成,生成目标语音。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的语音合成方法,该方法包括:获取目标文本对应的目标情感标识,目标情感标识包括重音强度标识和升降调强度标识中的至少一项,目标情感标识用于表征目标文本的情感程度;基于目标情感标识对目标文本进行标记,生成第一文本;对第一文本进行语音合成,生成目标语音。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种语音合成方法,其特征在于,包括:
获取目标文本对应的目标情感标识,所述目标情感标识包括重音强度标识和升降调强度标识中的至少一项,所述目标情感标识用于表征所述目标文本的情感程度;
基于所述目标情感标识对所述目标文本进行标记,生成第一文本;
对所述第一文本进行语音合成,生成目标语音;
所述获取目标文本对应的目标情感标识,包括:
将所述目标文本转化为目标音素序列;
基于所述目标音素序列,生成所述目标音素序列对应的目标情感标识;
所述基于所述目标音素序列,生成所述目标音素序列对应的目标情感标识,包括:
将所述目标音素序列输入至目标神经网络,获取所述目标神经网络输出的所述目标情感标识;
其中,所述目标神经网络为,以样本音素序列为样本,以与所述样本音素序列对应的样本情感标识为样本标签,训练得到;
所述目标神经网络通过如下步骤构建:
获取样本文本和所述样本文本对应的样本音频;
基于所述样本文本和所述样本音频,生成所述样本音素序列;
获取所述样本音素序列对应的样本基频序列、样本能量序列、样本时长序列和样本后验概率序列中的至少二项;
基于所述样本基频序列、所述样本能量序列、所述样本时长序列和所述样本后验概率序列中的至少二项,构建所述目标神经网络。
2.根据权利要求1所述的语音合成方法,其特征在于,所述获取所述样本音素序列对应的样本基频序列、样本能量序列、样本时长序列和样本后验概率序列中的至少二项,包括:
切分所述样本音素序列,生成多个音素;
提取所述多个音素中的目标音素对应的基频信息和能量信息;
基于所述目标音素对应的基频信息生成所述样本基频序列,基于所述目标音素对应的能量信息生成所述样本能量序列。
3.根据权利要求1所述的语音合成方法,其特征在于,所述获取所述样本音素序列对应的样本基频序列、样本能量序列、样本时长序列和样本后验概率序列中的至少二项,包括:
将所述样本音素序列和所述样本音频进行对齐;
基于所述样本音素序列和所述样本音频,生成所述样本音素序列中的目标音素对应的后验概率和所述目标音素在所述样本音频中的音素时长;
基于所述目标音素对应的后验概率生成所述样本后验概率序列,基于所述目标音素在所述样本音频中的音素时长生成所述样本时长序列。
4.一种语音合成装置,其特征在于,包括:
第一处理模块,用于获取目标文本对应的目标情感标识,所述目标情感标识包括重音强度标识和升降调强度标识中的至少一项,所述目标情感标识用于表征所述目标文本的情感程度;
第二处理模块,用于基于所述目标情感标识对所述目标文本进行标记,生成第一文本;
第三处理模块,用于对所述第一文本进行语音合成,生成目标语音;
所述第一处理模块,还用于:
将所述目标文本转化为目标音素序列;
基于所述目标音素序列,生成所述目标音素序列对应的目标情感标识;
所述第一处理模块,还用于:
将所述目标音素序列输入至目标神经网络,获取所述目标神经网络输出的所述目标情感标识;
其中,所述目标神经网络为,以样本音素序列为样本,以与所述样本音素序列对应的样本情感标识为样本标签,训练得到;
所述目标神经网络通过如下步骤构建:
获取样本文本和所述样本文本对应的样本音频;
基于所述样本文本和所述样本音频,生成所述样本音素序列;
获取所述样本音素序列对应的样本基频序列、样本能量序列、样本时长序列和样本后验概率序列中的至少二项;
基于所述样本基频序列、所述样本能量序列、所述样本时长序列和所述样本后验概率序列中的至少二项,构建所述目标神经网络。
5.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3任一项所述语音合成方法。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述语音合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210321405.XA CN114420086B (zh) | 2022-03-30 | 2022-03-30 | 语音合成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210321405.XA CN114420086B (zh) | 2022-03-30 | 2022-03-30 | 语音合成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114420086A CN114420086A (zh) | 2022-04-29 |
CN114420086B true CN114420086B (zh) | 2022-06-17 |
Family
ID=81263923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210321405.XA Active CN114420086B (zh) | 2022-03-30 | 2022-03-30 | 语音合成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114420086B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006123539A1 (ja) * | 2005-05-18 | 2006-11-23 | Matsushita Electric Industrial Co., Ltd. | 音声合成装置 |
CN101064104A (zh) * | 2006-04-24 | 2007-10-31 | 中国科学院自动化研究所 | 基于语音转换的情感语音生成方法 |
CN101694772A (zh) * | 2009-10-21 | 2010-04-14 | 北京中星微电子有限公司 | 将文本文字转换成说唱音乐的方法及装置 |
CN103366731A (zh) * | 2012-03-31 | 2013-10-23 | 盛乐信息技术(上海)有限公司 | 语音合成方法及系统 |
CN105280179A (zh) * | 2015-11-02 | 2016-01-27 | 小天才科技有限公司 | 一种文字转语音的处理方法及系统 |
CN110299131A (zh) * | 2019-08-01 | 2019-10-01 | 苏州奇梦者网络科技有限公司 | 一种可控制韵律情感的语音合成方法、装置、存储介质 |
CN114242033A (zh) * | 2021-12-24 | 2022-03-25 | 广州酷狗计算机科技有限公司 | 语音合成方法、装置、设备、存储介质及程序产品 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452699A (zh) * | 2007-12-04 | 2009-06-10 | 株式会社东芝 | 韵律自适应及语音合成的方法和装置 |
US11062692B2 (en) * | 2019-09-23 | 2021-07-13 | Disney Enterprises, Inc. | Generation of audio including emotionally expressive synthesized content |
-
2022
- 2022-03-30 CN CN202210321405.XA patent/CN114420086B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006123539A1 (ja) * | 2005-05-18 | 2006-11-23 | Matsushita Electric Industrial Co., Ltd. | 音声合成装置 |
CN101064104A (zh) * | 2006-04-24 | 2007-10-31 | 中国科学院自动化研究所 | 基于语音转换的情感语音生成方法 |
CN101694772A (zh) * | 2009-10-21 | 2010-04-14 | 北京中星微电子有限公司 | 将文本文字转换成说唱音乐的方法及装置 |
CN103366731A (zh) * | 2012-03-31 | 2013-10-23 | 盛乐信息技术(上海)有限公司 | 语音合成方法及系统 |
CN105280179A (zh) * | 2015-11-02 | 2016-01-27 | 小天才科技有限公司 | 一种文字转语音的处理方法及系统 |
CN110299131A (zh) * | 2019-08-01 | 2019-10-01 | 苏州奇梦者网络科技有限公司 | 一种可控制韵律情感的语音合成方法、装置、存储介质 |
CN114242033A (zh) * | 2021-12-24 | 2022-03-25 | 广州酷狗计算机科技有限公司 | 语音合成方法、装置、设备、存储介质及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN114420086A (zh) | 2022-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109817213B (zh) | 用于自适应语种进行语音识别的方法、装置及设备 | |
CN113439301B (zh) | 用于机器学习的方法和系统 | |
KR100815115B1 (ko) | 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치 | |
CN111402862B (zh) | 语音识别方法、装置、存储介质及设备 | |
CN101777347B (zh) | 一种模型互补的汉语重音识别方法及系统 | |
KR102321789B1 (ko) | 감정 정보 기반의 음성 합성 방법 및 장치 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
CN110797032B (zh) | 一种声纹数据库建立方法及声纹识别方法 | |
CN101312038B (zh) | 用于合成语音的方法 | |
CN106157974A (zh) | 文本背诵质量评估装置和方法 | |
CN112786018A (zh) | 语音转换及相关模型的训练方法、电子设备和存储装置 | |
CN113450757A (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
CN112309367A (zh) | 语音合成方法、装置、存储介质及电子设备 | |
Panda et al. | A waveform concatenation technique for text-to-speech synthesis | |
CN115132174A (zh) | 一种语音数据处理方法、装置、计算机设备及存储介质 | |
CN112466287B (zh) | 一种语音分割方法、装置以及计算机可读存储介质 | |
CN110930975A (zh) | 用于输出信息的方法和装置 | |
CN115762471A (zh) | 一种语音合成方法、装置、设备及存储介质 | |
CN114420086B (zh) | 语音合成方法和装置 | |
CN116189657A (zh) | 一种多模态语音识别纠错方法和系统 | |
CN114708848A (zh) | 音视频文件大小的获取方法和装置 | |
CN112733546A (zh) | 表情符号生成方法、装置、电子设备及存储介质 | |
Kafle et al. | Modeling Acoustic-Prosodic Cues for Word Importance Prediction in Spoken Dialogues | |
CN113192483B (zh) | 一种文本转换为语音的方法、装置、存储介质和设备 | |
CN112270917B (zh) | 一种语音合成方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |