CN116072152A - 语音合成方法、装置及电子设备 - Google Patents
语音合成方法、装置及电子设备 Download PDFInfo
- Publication number
- CN116072152A CN116072152A CN202211494638.6A CN202211494638A CN116072152A CN 116072152 A CN116072152 A CN 116072152A CN 202211494638 A CN202211494638 A CN 202211494638A CN 116072152 A CN116072152 A CN 116072152A
- Authority
- CN
- China
- Prior art keywords
- emotion
- phoneme
- target
- information
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title abstract description 34
- 230000008451 emotion Effects 0.000 claims abstract description 551
- 239000013598 vector Substances 0.000 claims abstract description 214
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 47
- 230000007704 transition Effects 0.000 claims description 57
- 230000002996 emotional effect Effects 0.000 claims description 36
- 230000015572 biosynthetic process Effects 0.000 claims description 24
- 238000003786 synthesis reaction Methods 0.000 claims description 24
- 238000001228 spectrum Methods 0.000 claims description 16
- 230000003993 interaction Effects 0.000 abstract description 15
- 238000005516 engineering process Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000005070 sampling Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000037433 frameshift Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000033764 rhythmic process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 206010028813 Nausea Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008693 nausea Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语音合成方法、装置、电子设备及计算机可读存储介质,该方法包括:获取待转换为语音的目标文本,目标情绪类别和目标情绪强度;从针对目标情绪类别预设的多个情绪强度中,确定目标情绪强度所属的情绪强度区间的始端信息和末端信息;根据始端信息和末端信息,生成目标文本对应的情绪特征数据;根据情绪特征数据,将目标文本处理为具有情绪特征的音素级别的各个音素向量;对各个音素向量分别进行韵律预测和所占语音帧数的预测,得到帧级别的第一韵律信息和语音内容向量;根据第一韵律信息,将语音内容向量处理为时域的语音信号。本申请提供的方案使得合成的语音能够正确反映情绪类型和情绪强弱,从而提高用户的人机交互体验。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种语音合成方法、装置、电子设备及计算机可读存储介质。
背景技术
随着人工智能技术的不断发展,语音合成技术得到了广泛应用。语音合成是通过机械的、电子的方法产生人造语音的技术,能将任意文字信息实时转化为标准流畅的语音朗读出来。在人机交互场景中,语音合成技术能够使得机器“开口说话”,与用户进行互动,用户往往希望机器合成的语音更加真实,以此提高用户的人机交互体验。
相关技术中,为使合成语音具有一定的真实感,通常是将文本输入已经训练好的声学模型来生成某种情绪的语音数据。其中,情绪类别包括生气、快乐、悲伤等多种类别,通过输入一定量的每种情绪类别的语音数据样本对声学模型进行训练,使得训练好的声学模型能够生成多种不同情绪的语音数据。
然而,对于真人语音,不仅有不同情绪,还会有情绪的强弱区分,而上述语音合成方案合成的语音数据无法体现情绪的强弱,从而导致用户的人机交互体验较差。
发明内容
本申请提供了一种语音合成方法、装置、电子设备及计算机可读存储介质,使得合成的语音不仅能够正确反映情绪类型,还能够正确反映情绪强弱,从而提高用户的人机交互体验。具体方案如下。
第一方面,本申请实施例提供了一种语音合成方法,所述方法包括:
获取待转换为语音的目标文本,目标情绪类别和目标情绪强度;
从针对所述目标情绪类别预设的多个情绪强度中,确定所述目标情绪强度所属的情绪强度区间的始端信息和末端信息;
根据所述始端信息和所述末端信息,生成所述目标文本对应的情绪特征数据;
根据所述情绪特征数据,将所述目标文本处理为具有情绪特征的音素级别的各个音素向量;
对各个所述音素向量分别进行韵律预测和所占语音帧数的预测,得到帧级别的第一韵律信息和语音内容向量;
根据所述第一韵律信息,将所述语音内容向量处理为时域的语音信号。
第二方面,本申请实施例提供了一种语音合成装置,所述装置包括:
获取单元,用于获取待转换为语音的目标文本,目标情绪类别和目标情绪强度;
确定单元,用于从针对所述目标情绪类别预设的多个情绪强度中,确定所述目标情绪强度所属的情绪强度区间的始端信息和末端信息;
生成单元,用于根据所述始端信息和所述末端信息,生成所述目标文本对应的情绪特征数据;
第一处理单元,用于根据所述情绪特征数据,将所述目标文本处理为具有情绪特征的音素级别的各个音素向量;
预测单元,用于对各个所述音素向量分别进行韵律预测和所占语音帧数的预测,得到帧级别的第一韵律信息和语音内容向量;
第二处理单元,用于根据所述韵律信息,将所述语音内容向量处理为时域的语音信号。
第三方面,本申请还提供了一种电子设备,包括:
处理器;以及
存储器,用于存储数据处理程序,该电子设备通电并通过所述处理器运行该程序后,执行如第一方面任一项所述的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,存储有数据处理程序,该程序被处理器运行,执行如第一方面任一项所述的方法。
与现有技术相比,本申请具有以下优点:
本申请提供的语音合成方法,各情绪类别预设有多个情绪强度,根据情绪强度划分为情绪强度区间,进而根据目标文本的目标情绪类别和目标情绪强度确定所属的情绪强度区间,根据目标情绪强度区间的始端信息和末端信息生成目标文本对应的情绪特征数据,由于情绪强度区间为将情绪类别进行更细致的划分后所得到的情绪强度区间,因此,所生成的目标文本对应的情绪特征数据不仅正确反映了情感类别,还能够正确反映情感强度,之后根据情绪特征数据,将目标文本处理为具有情绪特征的音素级别的各个音素向量,这里将目标文本拆分为各个音素,根据目标文本信息的情绪特征数据处理得到各个音素的各个音素向量,可知,各个音素向量为整合了音素、情感类别和情感强度的音素级别的向量。之后对各个音素向量分别进行韵律预测和所占语音帧数的预测,得到各个音素的韵律和所占的帧数,进而得到包含每一帧韵律特征的第一韵律信息,根据各个音素所占的帧数,将音素级别的各个音素向量处理为帧级别的语音内容向量。由于各个音素向量整合了音素、情感类别和情感强度,因此语音内容向量为整合了各个音素以及每一帧的情感类别和情感强度的得到帧级别的向量。之后,根据具有每一帧的韵律特征的第一韵律信息和具有每一帧的情绪特征(情绪类别和情绪强度)的基于目标文本内容的语音内容向量,生成目标文本对应的语音信号。
可见,本申请提供的语音合成方法将一个情绪类别按照多个情绪强度更加细致的划分为情绪强度区间,将目标情绪强度按照所属的情绪强度区间生成更为准确的情绪特征数据,使得所合成的语音不仅能够准确反映文本所需要的情绪类型,还能够准确反映文本所需要的情绪强度。另外,本申请提供的语音合成方法还考虑了目标文本的韵律特征,使得合成的语音逼真自然,更贴近真人语音,提高了用户的人机交互体验。
附图说明
图1是本申请实施例提供的语音合成方法的流程图;
图2是本申请实施例提供的语音合成方法的细节图;
图3是本申请实施例提供的语音合成装置的一例的结构框图;
图4是本申请实施例提供的语音合成系统的架构图;
图5是本申请实施例提供的电子设备的一例的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
需要说明的是,本申请的权利要求书、说明书及附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象,并不用于描述特定的顺序或先后次序。这样使用的数据在适当情况下是可以互换的,以便于本文所描述的本申请的实施例,能够以除了在本文图示或描述的内容以外的顺序实施。此外,术语“包括”、“具有”以及他们的变形形式,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
语音合成是通过机械的、电子的方法产生人造语音的技术,能将任意文字信息实时转化为标准流畅的语音朗读出来。在人机交互场景中,语音合成技术能够使得机器“开口说话”,与用户进行互动,用户往往希望机器合成的语音更加真实,以此提高用户的人机交互体验。
相关技术中,为使合成语音具有一定的真实感,通常是将文本输入已经训练好的声学模型来生成某种情绪的语音数据。其中,情绪类别包括生气、快乐、悲伤等多种类别,通过输入一定量的每种情绪类别的语音数据样本对声学模型进行训练,使得训练好的声学模型能够生成多种不同情绪的语音数据。
然而,对于真人语音,不仅有不同情绪,还会有情绪的强弱区分,而上述语音合成方案合成的语音数据无法体现情绪的强弱,从而导致用户的人机交互体验较差。
基于上述原因,为了使得合成的语音不仅能够正确反映情绪类型,还能够正确反映情绪强弱,从而提高用户的人机交互体验,本申请第一实施例提供了一种语音合成方法,该方法应用于电子设备,该电子设备可以是台式电脑、笔记本电脑、手机、平板电脑、服务器、终端设备等,也可以是其他能够进行数据统计的电子设备,本申请实施例不具体限定。
以下介绍本申请提供的语音合成方法的应用场景。本申请提供的语音合成方法可以应用于游戏场景中的人机交互,在游戏中存在非玩家角色(Non-player Character,NPC),能够引领玩家进行游戏、与玩家控制的虚拟角色进行互动等,随着游戏中游戏场景的不同或者游戏节奏的变化,NPC往往会发出不同的语音,本申请提供的语音合成方法可以为NPC合成符合各种游戏场景的语音,在玩家与NPC交互的过程中,当NPC的语音功能被触发时,NPC即可根据当前游戏场景“开口说话”;本申请提供的语音合成方法还可以应用于机器人语音中,当用户与机器人进行“交流”时,机器人发出符合当前情境的语音,本申请对此不具体限定。
以下结合图1对本申请第一实施例提供的语音合成方法进行详细说明。
如图1所示,是本申请实施例提供的语音合成方法的流程图,该方法包括以下步骤S101~步骤S106。
步骤S101:获取待转换为语音的目标文本,目标情绪类别和目标情绪强度。
在本步骤中,目标文本可以是一句话,也可以是一段话,目标文本的内容可以是中文、英文或任何其它文字。目标情绪类别为目标文本想要生成的语音所对应的情绪类别,情绪类别可以根据保罗·艾克曼(Paul Ekman)的基本情绪理论分为七大类别,分别是:生气、惊讶、恶心、快乐、恐惧、悲伤、中性,中性表示没有任何情绪,情绪类别也可以为喜、怒、哀、乐四大类别。目标情绪强度为目标文本想要生成的语音所对应的情绪强度,情绪强度为每一个情绪类别所对应的强弱,不同的情绪强度反映了对应情绪类别的不同程度,例如生气这一情绪类别可以对应有非常生气,稍微生气等情绪强度。针对情绪类别以及情绪强度,在具体应用时根据实际情况进行具体划分,对此,本申请实施例不具体限定。
通常,一段文本中的每个字(或者说音素)所对应的情绪类型和情绪强度应是基本一致的,即本步骤中,对于一个目标文本,给定一种情绪类别和一个情绪强度,即可得到目标文本中每个字(或者说音素)所对应的情绪类型和情绪强度。
步骤S102:从针对所述目标情绪类别预设的多个情绪强度中,确定所述目标情绪强度所属的情绪强度区间的始端信息和末端信息。
在本步骤中,一个情绪类别可以预设有多个情绪强度,将一个情绪类别对应所预设的多个情绪强度按照从弱到强或者从强到弱的顺序进行排序,这样就得到了至少一个情绪强度区间,也即将一个情绪类别可以划分为至少一个情绪强度区间。在本申请实施例中,可以设定每个情绪类别的情绪强度的最小值为0,最大值为1,因此,可以将每个情绪类别划分为一个情绪强度区间[0,1],也可以将每个情绪类别划分为三个情绪强度区间[0,0.33]、(0.33,0.67]、(0.67,1],其中,情绪强度为0时,代表了没有该种情绪,即各个情绪类别下情绪强度为0时所对应的情绪类别均为中性。每个情绪强度区间的两个端点即为始端信息和末端信息,始端信息包括始端情绪类别和始端情绪强度,末端信息包括末端情绪类别和末端情绪强度。如生气的这一情绪强度区间[0,0.33]所对应的始端信息为:情绪类别-中性、情绪强度-0,所对应的末端信息为:情绪类别-生气、情绪强度-0.33;生气的另一情绪强度区间(0.33,0.67]所对应的始端信息为:情绪类别-生气、情绪强度-0.33,所对应的末端信息为:情绪类别-生气、情绪强度-0.67。
以下提供情绪类别按照情绪强度划分为不同情绪强度区间的两个示例。
示例一,可以将每种情绪类别划分为5个情绪强度区间,如表1所示,是本申请实施例提供的各情绪类别所划分的情绪强度区间的一例示例表。
表1.各情绪类别所划分的情绪强度区间的一例示例
示例二,可以将每种情绪类别划分为3个情绪强度区间,如表2所示,是本申请实施例提供的各情绪类别所划分的情绪强度区间的另一例示例表。
表2.各情绪类别所划分的情绪强度区间的另一例示例
需要说明的是,在本申请实施例后续步骤中,是以表2所示例的情绪强度区间的划分进行示例,并非用于限定本申请。
这样,在获取了目标文本的目标情绪类别和目标情绪强度后,可以确定目标文本所属的情绪强度区间,进而确定了所属情绪强度区间的始端信息和末端信息。
步骤S103:根据所述始端信息和所述末端信息,生成所述目标文本对应的情绪特征数据。
在本步骤中,情绪强度区间的始端信息和末端信息反映了该情绪强度区间的最小情绪强度和最大情绪强度,根据始端信息和末端信息得到目标文本的情绪特征数据可以反映目标文本的情绪强度在所属情绪强度区间中所占的比重,即情绪特征数据反映了目标文本在一种情绪类别下所划分的情绪区间中的情绪强弱程度。情绪特征数据为整合了情绪类别和情绪强度的数据,在具体应用中,情绪特征数据可以用向量来表示。
可以理解的,情绪类别所预设的情绪强度越多,对应的情绪区间也越多,相应的,目标文本所生成的情绪特征数据所反映的情绪强弱程度越准确,更贴近想要生成的目标情绪强度所代表的情绪强弱。
步骤S104:根据所述情绪特征数据,将所述目标文本处理为具有情绪特征的音素级别的各个音素向量。
在本步骤中,音素级别针对的是目标文本中的各个音素,即针对目标文本中的各个音素生成各个音素向量。具体应用中,目标文本可以拆分为音素序列,音素(phone)是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来划分,一个发音动作构成一个音素。如汉语音节“啊(a1)”只有一个音素,“代(dai)”有两个音素d和ai4等,“a1”代表“a”的声调为1声,“ai4”代表“ai”的声调为4声因此,每一个文本都可以拆分为对应的音素序列。例如,在一个可能实现的场景中,目标文本为“欢迎来到这里”,则对应的音素为:h、uan1、y、ing2、l、ai2、d、ao4、zh、e4、l、i3,根据各音素的序号将音素转换为对应的音素序列。
由于一个目标文本对应一个情绪类别和一个情绪强度,则音素序列中的各个音素对应同一个情绪类别和同一个情绪强度,这样根据目标文本的情绪特征数据得到的各个音素所对应的各个音素向量为情绪类别和情绪强度相同,音素内容不同的向量。由于情绪特征数据反映了目标文本在一种情绪类别下所划分的情绪区间中的情绪强弱程度,因此各个音素所对应的各个音素向量反映了各个音素在一种情绪类别下所划分的情绪区间中的情绪强弱程度,各个音素向量为整合了对应的音素、音素对应的情绪类别以及情绪强度的向量。
这样,得到了将目标文本依据发音动作划分的各个音素的包含情绪特征的各个音素向量。
步骤S105:对各个所述音素向量分别进行韵律预测和所占语音帧数的预测,得到帧级别的第一韵律信息和语音内容向量。
在实际应用中,真人语音除了具有情绪特征外,还具有韵律特征,情绪特征代表了语音整体中的情绪类别和情绪强度,韵律特征代表了语音细节中的抑扬顿挫。若在进行语音合成时没有考虑韵律特征,则所生成的语音为不真实不自然的语音,使得用户的人机交互体验较差。
为了使所合成的语音更加贴近真人语音,在本步骤中,对各个音素所对应的音素向量进行韵律预测,由于音素向量中整合了音素、音素对应的情绪类别以及情绪强度,因此根据音素向量可以为各个音素生成各个音素对应的韵律信息。
此外,由于语音属于准稳态信号,即短时平稳,这个短时长一般为10-30ms,因此在进行语音信号处理时,为减少语音信号整体的非稳态、时变的影响,从而对信号进行分帧处理。相应的,为了生成逼真的短时平稳的语音信号,可以逐帧得到每一帧的特征,之后根据每一帧的特征生成对应的语音。
以下介绍音频帧的相关概念。采样率(Sample Rate)是指每秒从连续信号中提取并组成离散信号的采样个数,单位为赫兹(Hz);为了使帧与帧之间平滑过渡,保持其连续性,对音频分帧一般采用交叠分段的方法,保证相邻两帧相互重叠一部分,则相邻两帧的起始位置之间所采集的采样点数量称为帧移;每秒的帧数为采样率/帧移。在本申请实施例中,可以设定帧移和采样率(如可以设定采样率为22050Hz,帧移为256个采样点),根据所设定的帧移和采样率得到每一帧的特征,进而生成语音信号。
在本步骤中,对每个音素进行所占语音帧数的预测,根据所预测的语音帧数得到帧级别的第一韵律信息和语音内容向量。其中,第一韵律信息反映了所生成的语音中每一帧的韵律信息,语音内容向量为反映了所生成的语音中文本内容以及每一帧的情绪类别和情绪强度的向量。
步骤S106:根据所述第一韵律信息,将所述语音内容向量处理为时域的语音信号。
在本步骤中,根据反映了所要生成的语音中每一帧的韵律特征的第一韵律向量,以及反映了每一帧的情绪类别和情绪强度的基于目标文本的语音内容向量,可以生成具有每一帧的韵律特征的第一韵律信息和具有每一帧的情绪特征(情绪类别和情绪强度)的基于目标文本内容的语音内容向量,进而经过后续的解码以及转换处理,得到目标文本对应的语音信号。
本申请提供的语音合成方法,各情绪类别预设有多个情绪强度,根据情绪强度划分为情绪强度区间,进而根据目标文本的目标情绪类别和目标情绪强度确定所属的情绪强度区间,根据目标情绪强度区间的始端信息和末端信息生成目标文本对应的情绪特征数据,由于情绪强度区间为将情绪类别进行更细致的划分后所得到的情绪强度区间,因此,所生成的目标文本对应的情绪特征数据不仅正确反映了情感类别,还能够正确反映情感强度,之后根据情绪特征数据,将目标文本处理为具有情绪特征的音素级别的各个音素向量,这里将目标文本拆分为各个音素,根据目标文本信息的情绪特征数据处理得到各个音素的各个音素向量,可知,各个音素向量为整合了音素、情感类别和情感强度的音素级别的向量。之后对各个音素向量分别进行韵律预测和所占语音帧数的预测,得到各个音素的韵律和所占的帧数,进而得到包含每一帧韵律特征的第一韵律信息,根据各个音素所占的帧数,将音素级别的各个音素向量处理为帧级别的语音内容向量。由于各个音素向量整合了音素、情感类别和情感强度,因此语音内容向量为整合了各个音素以及每一帧的情感类别和情感强度的得到帧级别的向量。之后,根据具有每一帧的韵律特征的第一韵律信息和具有每一帧的情绪特征(情绪类别和情绪强度)的基于目标文本内容的语音内容向量,生成目标文本对应的语音信号。
可见,本申请提供的语音合成方法将一个情绪类别按照多个情绪强度更加细致的划分为情绪强度区间,将目标情绪强度按照所属的情绪强度区间生成更为准确的情绪特征数据,使得所合成的语音不仅能够准确反映文本所需要的情绪类型,还能够准确反映文本所需要的情绪强度。另外,本申请提供的语音合成方法还考虑了目标文本的韵律特征,使得合成的语音逼真自然,更贴近真人语音,提高了用户的人机交互体验。
基于上述实施方式,为了使得生成的目标文本对应的情绪特征数据更为准确,本申请提供的语音合成方法可以根据始端信息的情绪特征数据和末端信息的情绪特征数据来计算目标文本的情绪特征数据。
其中,始端信息的情绪特征数据和末端信息的情绪强度数据可以是预设好的数据,根据目标情绪强度确定好情绪强度区间后,可以从预设好的数据中选择相应的始端信息的情绪特征数据和末端信息的情绪强度数据;始端信息的情绪特征数据和末端信息的情绪强度数据也可以是实时嵌入得到的,本申请对此并不具体限定。
步骤S103具体可以通过以下步骤S201~步骤S204实现。
步骤S201:将所述目标情绪强度按照所述情绪强度区间进行归一化,得到归一化后的目标情绪强度。
归一化是一种无量纲处理手段,使物理系统数值的绝对值变成某种相对值关系。本申请中,将目标情绪强度按照情绪强度区间进行归一化是指,计算目标情绪强度在对应的情绪强度区间所占的百分比,得到归一化的目标情绪强度。这样,在对一种情绪类别所细致划分的情绪强度区间中,得到了目标情绪强度在所属情绪强度区间的占比。
若步骤S104中所示例的目标文本“欢迎来到这里”所对应的目标情绪类别为快乐,目标情绪强度为w,情绪强度区间划分为表2中的情绪强度区间,根据w的值确定情绪强度区间,归一化后的目标情绪强度w′。
如表3所示,是本申请实施例提供的将表2中的各情绪强度区间中的情绪强度进行归一化后的情绪强度示例表。
表3.各情绪强度区间中的情绪强度进行归一化后的情绪强度示例
步骤S202:将所述归一化后的目标情绪强度确定为第一权重,数值1与所述第一权重的差值确定为第二权重。
步骤S203:将所述始端信息进行嵌入得到所述始端信息对应的情绪特征数据,将所述末端信息进行嵌入得到所述末端信息对应的情绪特征数据。
步骤S204:将所述始端信息对应的情绪特征数据和所述末端信息对应的情绪特征数据分别按照所述第二权重和所述第一权重进行加权求和,得到所述目标文本对应的情绪特征数据。
在步骤S202中,根据归一化后的目标情绪强度确定出第一权重和第二权重,如表4所示,是本申请实施例提供的根据表3中归一化后的情绪强度所得到的第一权重和第二权重示例表。
表4.根据归一化后的情绪强度所得到的第一权重和第二权重示例
在步骤S203中,将根据目标情绪强度和目标情绪类别所确定的情绪强度区间的始端信息进行嵌入得到始端信息对应的情绪特征数据,并将末端信息进行嵌入得到末端信息对应的情绪特征数据,情绪特征数据为将数值进行嵌入后所得到的嵌入向量。具体为:将始端信息中的始端情绪类别进行嵌入得到始端情绪类别嵌入向量,将始端信息中的始端情绪强度进行嵌入得到始端情绪强度嵌入向量,将始端情绪类别嵌入向量和始端情绪强度嵌入向量整合得到始端信息对应的情绪特征数据;相应的,将末端信息中的末端情绪类别进行嵌入得到末端情绪类别嵌入向量,将末端信息中的末端情绪强度进行嵌入得到末端情绪强度嵌入向量,将末端情绪类别嵌入向量和末端情绪强度嵌入向量整合得到始端信息对应的情绪特征数据。
在步骤S204中,将第一权重作为情绪强度区间中的末端信息的情绪特征数据的权重,将第二权重作为情绪强度区间中始端信息的情绪特征数据的权重,将末端信息的情绪特征数据和始端信息的情绪特征数据进行加权求和,得到目标文本的情绪特征数据。
如表5所示,是本申请实施例提供的根据表4中所得到的第一权重和第二权重对末端信息的情感特征数据和始端信息的情感特征数据进行加权求和后得到的目标文本的情感特征数据示例表,其中a1为情绪强度为0时的情绪强度数据,a2为情绪强度为0.33时的情绪强度数据,a3为情绪强度为0.67时的情绪强度数据,a4为情绪强度为1时的情绪强度数据。
表5.目标文本的情感特征数据示例
这样,根据情绪强度区间将情绪强度进行归一化,得到更细致的情绪强度区间中的归一化后的情绪强度,之后将情绪强度区间所对应的始端信息的情绪特征数据和末端信息所对应的情绪特征数据加权求和,得到目标文本的情绪特征数据。始端信息和末端信息的情绪特征数据准确的体现了情绪强度区间两端的情绪特征,因此,通过对有限数量的情绪强度的情绪特征数据进行加权求和,可以混合得到更多更精准的情绪强度的情绪特征数据,从而无需对情绪类别进行过于细致地划分,即可得到准确反映文本情绪强度的情绪特征数据。通过对每个情绪类别预设多个情绪强度,可使文本所转语音的情绪强度的控制粒度更细致,其中,对每个情绪类别预设的情绪强度越多,最终语音情感的控制效果越好、控制粒度更细致。
可选的,步骤S105可以按照以下步骤S205~步骤S208实现。
步骤S205:对各个所述音素向量分别进行韵律预测,得到每个所述音素的第二韵律信息。
步骤S206:对各个所述音素向量分别进行所占语音帧数的预测,得到每个所述音素所占的语音帧数。
步骤S207:将每个所述音素的所述第二韵律信息按照对应预测的所述语音帧数进行复制,得到帧级别的第一韵律信息。
步骤S208:将每个所述音素向量按照对应预测的所述语音帧数进行复制,得到帧级别的语音内容向量。
可以理解的,各个音素向量为整合了音素、情绪类别、情绪强度的向量,根据音素、情绪类别和情绪强度可以预测每个音素所对应的第二韵律信息,即根据各个音素向量所预测出来的韵律信息为音素级别的韵律信息。
根据各个音素向量中所整合的音素、情绪类别和情绪强度可以预测每个音素所占用的语音帧数。根据每个音素所占用的语音帧数,将音素级别的第一韵律信息和音素级别的音素向量按照对应的所预测的语音帧数进行复制,得到帧级别的第二韵律信息和帧级别的语音内容向量。
需要说明的是,步骤S205对各个音素所进行的韵律预测和步骤S206对各个音素所占用的语音帧数的预测并不存在先后顺序,在实际应用中,两者可以同时进行预测,也可以一个先进行预测,一个后进行预测。相应的,步骤S207和步骤S208也不存在先后顺序,此处不予赘述。
示例性的,目标文本“好啊”对应的音素为:h、ao2、a1,音素级别的各个音素向量为(c1,c2,c3),所预测出来的各个音素的第二韵律信息为(d,e,f),所预测出来的各个音素所占的语音帧数分别为2帧,3帧,2帧,可以根据各个音素所占的语音帧数得到帧级别的第一韵律信息和语音内容向量。如表6所示,是本申请实施例提供的根据音素级别的第二韵律信息和音素向量得到帧级别的第一韵律信息和语音内容向量示例表。
表6.帧级别的第一韵律信息和语音内容向量示例
在实际应用中,韵律信息通常包括基频和能量,基频代表声音的高低,能量代表声音的强弱。在一句语音中,语音的声调变化是由基频决定的,基频是基音振动的频率,基音是由于声带周期性振动产生的。通常,情感类别为快乐时,语音信号中具有较大的振幅,所对应的基频值较大;情感类别为悲伤时,语音信号中具有较小的振幅,所对应的基频值较小。
在韵律信息包括基频和能量的情况下,步骤S205可以通过以下步骤S209~S211实现。
S209:对每个所述音素向量分别进行基频预测和能量预测,得到每个所述音素对应的基频值和能量值。
S210:将所述基频值和所述能量值分别转换为基频嵌入向量和能量嵌入向量。
S211:将属于同一个所述音素的所述基频嵌入向量和所述能量嵌入向量进行整合,得到每个所述音素的第二韵律信息。
在具体实施方式中,根据各个音素向量对目标文本中的每个音素分别进行基频和能量的预测,得到每个音素的基频值和能量值,将基频值和能量值分别进行嵌入,映射为基频嵌入向量和能量嵌入向量。可知基频嵌入向量和能量嵌入向量均为音素级别的向量,且基频嵌入向量和能量嵌入向量的维度相同。之后将基频嵌入向量和能量嵌入向量整合为第二韵律信息。
通过这一技术手段,通过预测各个音素的基频和能量来得到各个音素的韵律信息,使得韵律信息的预测更加高效精准,得到的第二韵律信息精准的反映了各个音素的音高和音强。
本申请提供的语音合成方法在进行数据处理时,输入的为目标文本的文本形式的数据,文本形式的数据可以转换为文本嵌入向量进行后续的数据处理,本申请中具体是根据音素序列生成文本嵌入向量,因此,步骤S104可以按照以下步骤S212~步骤S214实现。
步骤S212:将所述目标文本转换为各个音素对应的文本嵌入向量;
步骤S213:将所述情绪特征数据按照所述目标文本中的音素数量进行复制,得到各个所述音素对应的情绪特征数据;
步骤S214:对于任一所述音素,根据所述音素对应的所述情绪特征数据,对所述音素对应的所述文本嵌入向量进行编码,得到所述音素对应的具有情绪特征的音素向量。
可以理解的,在一个目标文本对应一个情绪类别和一个情绪强度的情况下,目标文本的情绪特征数据为各个音素的情绪特征数据,即在步骤S213中,各个音素的情绪特征数据均为相同的,将情绪特征数据按照目标文本的音素数量进行复制,旨在获得与音素长度相同的情绪特征数据。由于文本嵌入向量为目标文本的音素序列所映射的向量,因此,文本嵌入向量的长度也与音素长度相同。这样,可以对文本嵌入向量和情绪特征数据进行编码,得到与音素长度相同的代表了情绪特征的音素向量。
在一个可选的实施方式中,在进行语音合成时,用户往往希望可以根据需要生成各种不同音色的语音,因此,本申请提供的语音合成方法可以预设有多个说话人类别。在说话人类别有多个的情况下,在步骤S102之前,本申请提供语音合成方法还包括以下步骤:
获取目标说话人类别;
将所述目标说话人类别转换为音素级别的说话人嵌入向量。
相应地,步骤S104可以通过以下方式实现:
根据所述情绪特征数据和所述说话人嵌入向量,将所述目标文本处理为具有情绪特征和说话人音色的音素级别的各个音素向量。
本申请预设有多个说话人类别,在用户输入目标文本、目标情绪类别和目标情绪强度时,可以输入想要生成的语音的音色对应的目标说话人类别,在具体实施方式中,不同的说话人类别即对应了不同的音色,之后与将目标文本转换为文本嵌入向量类似,将目标说话人类别映射为说话人嵌入向量。其中,说话人嵌入向量可以是预设好的,根据所输入的说话人类别进行选择,也可以是将说话人类别实时嵌入得到的嵌入向量,本申请并不具体限定。
在所输入的数据包括说话人类别的情况下,各个音素的各个音素向量可以根据情绪特征数据和说话人嵌入向量生成,这样,得到的各个音素的各个音素向量不仅具有情绪特征(情绪类别和情绪强度),还具有说话人音色特征。这样,最后生成的语音所对应的音色为目标说话人类别对应的音色。
通过这一技术手段,可以针对不同的说话人类别,生成不同音色的语音信号,使得本申请提供的语音合成方法更为灵活,进一步提高了用户的人机交互体验。
可选的,步骤S106可以按照以下步骤实现:
将所述第一韵律信息和所述语音内容向量进行解码,得到所述目标文本对应的声学频谱;将所述声学频谱转换为时域的语音信号。
在本步骤中,声学频谱为梅尔频谱,梅尔频谱可以体现所要生成的语音信号的声学特征,也就是说将第一韵律信息和语音内容向量进行解码实质上为根据帧级别的第一韵律信息和语音内容向量预测每一帧的声学特征。
可以理解的,梅尔频谱(Mel频谱图)表示了语音信号在不同频率上的分布情况,梅尔刻度是基于彼此等距的听众对音高(pitch)的感性判断的刻度,由于人耳对低频信号的区别更加敏感,而对高频信号的区别则不那么敏感,因此对于正常频度上相等距离低频段上的频度和高频段上的频度,人耳会更容易识别低频段上的频度。因此提出了梅尔刻度,使得新的刻度上相等距离的低频段上的频度和高频段上的频度,对于人耳来说是相同的。因此,梅尔频谱图是一种基于人耳听觉特性的频谱图像。
在韵律信息包括基频和能量的情况下,根据第一韵律信息和语音内容向量预测声学特征可以认为是根据基频嵌入向量和能量嵌入向量预测声学特征,得到频域上的梅尔频谱,将梅尔频谱转换为时域上的语音信号。
在具体实施方式中,可以通过HIFI-GAN模型(用于高效和高保真语音合成的生成对抗网络模型),将梅尔频谱转换为时域上的语音信号。HIFI-GAN的输入是梅尔频谱,通过多个卷积层进行上采样,直到输出帧数与所预测的语音总帧数相同的时域波形图。
在具体应用中,针对目标文本所生成的语音信号,可能在某些字上面需要调整情绪强度和/或帧数和/或韵律。因此,用户可以试听所合成的语音信号,对需要调整情绪强度的字、需要调整时长(帧数)的字、需要调整韵律的字输入相应的调整信息。
因此,为了使目标文本生成的语音更为真实自然,本申请提供的语音合成方法还可以包括以下调整方案:
针对帧数的调整:获取针对所述目标文本的目标音素输入的调整后帧数;基于所述调整后帧数,返回步骤S207,直至获得调整后的语音信号。
针对韵律的调整:获取针对所述目标文本的目标音素输入的调整后基频值和能量值;基于所述调整后基频值和能量值,返回步骤S210,直至获得调整后的语音信号。
针对情感强度的调整:获取针对所述目标文本的目标字输入的调整后情绪强度;所述目标字包括至少一个目标音素;根据所述调整后情绪强度,确定所述目标字中每个所述目标音素对应的调整后情绪特征数据;基于每个所述目标音素对应的调整后情绪特征数据,返回步骤S214,直至获得调整后的语音信号。
具体的,针对帧数的调整,目标文本中需要调整帧数的字至少为一个,用户可以针对该字输入调整后的帧数,调整后的帧数可以是用户在进行试听之后,觉得时长预测模块预测出的该字对应的帧数较多或者较少,基于此输入调整后的帧数。之后返回步骤S210,将需要调整帧数的音素按照调整后帧数分别复制对应的音素向量和第二韵律信息,并将复制后所得到的该音素的帧级别的第一韵律信息和语音内容向量,分别替换到目标文本的第一韵律信息和语音内容向量中该音素所处的位置,得到调整后的目标文本的第一韵律信息和语音内容向量,基于此得到调整帧数后的语音信号。
具体的,针对韵律的调整,目标文本中需要调整韵律的字至少为一个,用户可以针对该字输入调整后的韵律信息,韵律信息具体可以为基频值和能量值。之后返回步骤S210,得到调整后第二韵律信息,将需要调整韵律的音素按照预测的语音帧数复制调整后第二韵律信息,得到该音素的帧级别的调整后第一韵律信息,替换到目标文本的第一韵律信息中该音素所处的位置,得到调整后的目标文本的第一韵律信息,基于调整后的目标文本的第一韵律信息和目标文本的语音内容向量得到调整韵律后的语音信号。
具体的,针对情绪强度的调整,目标文本中需要调整情绪强度的字至少为一个,用户可以针对该字输入调整后情绪强度,之后返回步骤S214,得到调整后情绪区间,进而计算该字对应的音素调整后的音素向量,将该音素调整后的音素向量替换到目标文本的各个音素向量中该音素所处的位置,得到调整后的目标文本的各个音素向量,将调整后的目标文本的各个音素向量按照所预测的各个音素的时长进行复制,得到帧级别的调整后的语音内容向量,基于目标文本的第一韵律信息和调整后的语音内容向量得到调整情绪强度后的语音信号。
需要说明的是,针对上述字级别的帧数、韵律以及情绪强度的调整,本申请中将字对应的音素按照调整后的信息得到对应的音素级别的调整后音素向量以及调整后第二韵律信息,再将调整后音素向量以及调整后第二韵律信息替换到对应的位置,其他音素对应的音素向量和第二韵律信息保持不变。
例如,步骤S104中所示例的目标文本“欢迎来到这里”的情绪类别为快乐,初始情绪强度为0.3,用户通过试听所合成的语音后将“迎”的情绪强度调整为0.5。如表7所示,是本申请实施例提供的目标文本调整目标字的情绪强度后的调整后音素向量的示例表,其中,m1为快乐强度为0时的情绪特征数据,m2为快乐强度为0.33时的情绪特征数据,m2为快乐强度为0.67时的情绪特征数据。
表7.目标文本调整目标字的情绪强度后的调整后音素向量示例
以上具体实施方式,实现了一个目标文本信息的句内情绪控制和韵律控制,使得句内的情绪以及句内的抑扬顿挫更加真实自然,贴近真人语音。
然而,在实际应用中,当真人在讲述一段话时,往往前一句和后一句的情绪类别、情绪强度并不相同,当前后两句之间存在情绪突变时,例如前一句为快乐,后一句为生气,通过上述语音合成方法所合成的两句语音之间会发生情绪突变,情绪转换较为生硬,这样生成的语音前后两句情绪比较割裂,不够贴近真人语音。因此,为了使得句间的情绪过渡更加平滑自然,在目标文本存在前一句文本的情况下,在步骤S104之前,本申请实施例提供的语音合成方法还可以包括以下步骤:
步骤S215:根据所述前一句文本的至少部分情绪特征数据,调整所述目标文本中过渡区间的情绪特征数据,得到所述目标文本对应的调整后的情绪特征数据;所述过渡区间包括所述目标文本中包括预设数量音素的文本起始部分。
步骤S104可以按照以下步骤实现:
根据所述调整后的情绪特征数据,将所述目标文本处理为具有情绪特征的音素级别的各个音素向量。
具体的,步骤S215可以按照以下步骤S216实现。
步骤S216:将所述前一句文本的至少部分情绪特征数据与所述目标文本中位于过渡区间内的每个音素的情绪特征数据进行加权求和,得到所述过渡区间内的每个音素对应的调整后的情绪特征数据;其中,所述前一句文本的至少部分情绪特征数据进行加权求和所需的第三权重按照所述过渡区间内的音素顺序逐渐减小,所述目标文本中位于过渡区间内的每个音素的情绪特征数据进行加权求和所需的第四权重按照所述过渡区间内的音素顺序逐渐增大。
可以理解的,为了使得句间情绪过渡更加自然,后一句往往要考虑前一句的情绪类型以及情绪强度,根据前一句的情绪类别以及情绪强度调整后一句的情绪类别以及情绪强度。在本申请实施方式中,在为目标文本生成语音时,可以在目标文本中选取过渡区间,过渡区间包括目标文本中包括预设音素数量的文本起始部分,将过渡区间对应的情绪特证数据按照前一句文本的情绪特征数据进行调整。
在实际应中,前一句文本所对应的情绪特征数据可能为多个时,例如前一句文本中某些字的情绪强度经过调整使得前一句文本中各个字对应的情绪特征数据并不完全相同。此时,可以选取前一句文本的后半句中的音素所对应的情绪特征数据,具体也可以是选取前一句文本中最后一个音素所对应的情绪特征数据来调整目标文本过渡区间中的情绪特征数据。
具体的,在过渡区间中,可以将前一句文本中后半部分的音素的情绪特征数据与过渡区间内的每个音素的情绪特征数据进行加权求和,在过渡区间中,按照音素顺序,将前一句文本中后半部分的情绪特征数据的权重从1~0逐渐降低,过渡区间内的每个音素的情绪特征数据的权重从0~1逐渐升高。若前一句中后半部分的音素对应有多个情绪特征数据,则可以选取前一句文本中最后一个音素的情绪特征数据和目标文本过渡区间中的每个音素的情绪特征数据按照对应的权重进行加权混合,得到过渡区间中每个音素的情绪特征数据。
在具体实施中,过渡区间的选择可以根据目标文本的不同以及情绪变化程度进行选取,过渡区间中音素数量会影响前一句文本至少部分音素的情绪特征数据和目标文本过渡区间中每个音素的情绪特征数据所对应的权重变化趋势。若过渡区间中音素数量较少,则权重的变化趋势比较陡峭,情绪过渡的比较激烈;若过渡区间中音素数量较多,则权重的变化趋势比较平缓,情绪过渡的也比较平缓。
例如:目标文本“欢迎来到这里”的前一句文本为“好久不见”,且前一句文本“好久不见”的情绪类型为悲伤,情绪强度为0.46,目标文本“欢迎来到这里”的情绪类型为快乐,情绪强度为0.3。可以选取目标文本所对应的音素“h、uan1、y、ing2、l、ai2、d、ao4、zh、e4、l、i3”中的前6个音素“h、uan1、y、ing2、l、ai2”作为过渡区间。前一句文本中最后一个音素的情绪特征数据为A,后一句文本过渡区间中各个音素的情绪特征数据为B。如表8所示,是本申请实施例提供的过渡区间中各个音素的情绪特征数据示例表。
表8过渡区间中各个音素的情绪特征数据示例
通过这一技术手段,可以使得前后两句文本的情绪特征数据变化较为平滑,进而使得根据前后两句文本所生成的前后两句语音句间的情绪过渡更加平滑自然。
此外,为了使得句间的韵律过渡更加自然,在步骤S205之后,本申请实施例提供的语音合成方法还可以包括以下步骤:
步骤S217:根据所述前一句文本的第二韵律信息,调整所述目标文本中每个所述音素的所述第二韵律信息,得到所述目标文本中每个所述音素的调整后的第二韵律信息。
步骤S207可以按照以下步骤实现:
将所述目标文本中每个所述音素的所述调整后的第二韵律信息按照对应预测的所述语音帧数进行复制,得到帧级别的第一韵律信息。
具体的,步骤S217可以按照以下步骤S218~步骤S219实现。
步骤S218:根据所述前一句文本的基频平均值,调整所述目标文本中至少部分文本的基频值,以使所述前一句的基频平均值与所述目标文本的基频平均值之间的差值在预设范围内。
步骤S219:根据所述前一句文本的能量平均值,调整所述目标文本中至少部分文本的能量值,以使所述前一句的能量平均值与所述目标文本的能量平均值之间的差值在预设范围内。
可以理解的,为了使得句间韵律过渡更加自然,后一句往往要考虑前一句的韵律特征。根据前一句的韵律特征调整后一句的韵律特征。在本申请实施方式中,在为目标文本生成语音时,可以将目标文本中每个音素的韵律特征按照前一句文本的韵律特征进行调整;也可以在目标文本中选取韵律过渡区间,韵律过渡区间包括目标文本中包括预设音素数量的文本起始部分,韵律过渡区间可以与之前进行情绪过渡时所选取的过渡区间相同,也可以与之不同,将韵律过渡区间对应的情绪特征数据按照前一句文本的情绪特征数据进行调整。
具体的,韵律特征包括基频和能量,因此可以计算前一句文本中各音素基频的平均值,根据前一句文本中各音素基频的平均值调整后一句文本中的各个音素或后一句文本的韵律过渡区间中各个音素的基频值,使得前一句文本的基频平均值和后一句文本的基频平均值之间的差值在预设范围内,保证前一句文本的基频平均值和后一句文本的基频平均值基本持平。
相应的,后一句文本中的各个音素或后一句文本的韵律过渡区间中各个音素的能量值的调整与基频值的调整类似,以使得前后两句的能量平均值基本持平,此处不予赘述。
通过这一技术手段,使得前后两句的基频平均值和能量平均值基本持平,即前后两句的韵律特征基本持平,基频代表了声音的高低,能量代表了声音的强弱,这样,使得根据前后两句文本所生成的前后两句语音句间韵律(声音的高低强弱)过度更加自然。
与本申请第一实施例提供的语音合成方法相对应的,本申请第二实施例还提供了语音合成装置,如图3所示,所述装置包括:
获取单元301,用于获取待转换为语音的目标文本,目标情绪类别和目标情绪强度;
确定单元302,用于从针对所述目标情绪类别预设的多个情绪强度中,确定所述目标情绪强度所属的情绪强度区间的始端信息和末端信息;
生成单元303,用于根据所述始端信息和所述末端信息,生成所述目标文本对应的情绪特征数据;
第一处理单元304,用于根据所述情绪特征数据,将所述目标文本处理为具有情绪特征的音素级别的各个音素向量;
预测单元305,用于对各个所述音素向量分别进行韵律预测和所占语音帧数的预测,得到帧级别的第一韵律信息和语音内容向量;
第二处理单元306,用于根据所述韵律信息,将所述语音内容向量处理为时域的语音信号。
可选的,所述生成单元303具体用于:将所述目标情绪强度按照所述情绪强度区间进行归一化,得到归一化后的目标情绪强度;将所述归一化后的目标情绪强度确定为第一权重,数值1与所述第一权重的差值确定为第二权重;将所述始端信息对应的情绪特征数据和所述末端信息对应的情绪特征数据分别按照所述第二权重和所述第一权重进行加权求和,得到所述目标文本对应的情绪特征数据。
可选的,所述预测单元305具体用于:对各个所述音素向量分别进行韵律预测,得到每个所述音素的第二韵律信息;对各个所述音素向量分别进行所占语音帧数的预测,得到每个所述音素所占的语音帧数;将每个所述音素的所述第二韵律信息按照对应预测的所述语音帧数进行复制,得到帧级别的第一韵律信息;将每个所述音素向量按照对应预测的所述语音帧数进行复制,得到帧级别的语音内容向量。
可选的,所述预测单元305还具体用于:对每个所述音素向量分别进行基频预测和能量预测,得到每个所述音素对应的基频值和能量值;将所述基频值和所述能量值分别转换为基频嵌入向量和能量嵌入向量;将属于同一个所述音素的所述基频嵌入向量和所述能量嵌入向量进行整合,得到每个所述音素的第二韵律信息。
可选的,所述第一处理单元304具体用于:将所述目标文本转换为各个音素对应的文本嵌入向量;将所述情绪特征数据按照所述目标文本中的音素数量进行复制,得到各个所述音素对应的情绪特征数据;对于任一所述音素,根据所述音素对应的所述情绪特征数据,对所述音素对应的所述文本嵌入向量进行编码,得到所述音素对应的具有情绪特征的音素向量。
可选的,所述第二处理单元306具体用于:将所述第一韵律信息和所述语音内容向量进行解码,得到所述目标文本对应的声学频谱;将所述声学频谱转换为时域的语音信号。
可选的,本申请第二实施例提供的语音合成装置还包括:
第一调整单元,用于根据所述前一句文本的至少部分情绪特征数据,调整所述目标文本中过渡区间的情绪特征数据,得到所述目标文本对应的调整后的情绪特征数据;所述过渡区间包括所述目标文本中包括预设数量音素的文本起始部分。
所述第一处理单元304具体用于:根据所述调整后的情绪特征数据,将所述目标文本处理为具有情绪特征的音素级别的各个音素向量。
可选的,所述第一调整单元具体用于:将所述前一句文本的至少部分音素的情绪特征数据与所述目标文本中位于过渡区间内的每个音素的情绪特征数据进行加权求和,得到所述过渡区间内的每个音素对应的调整后的情绪特征数据;其中,所述前一句文本的至少部分音素的情绪特征数据进行加权求和所需的第三权重按照所述过渡区间内的音素顺序逐渐减小,所述目标文本中位于过渡区间内的每个音素的情绪特征数据进行加权求和所需的第四权重按照所述过渡区间内的音素顺序逐渐增大。
可选的,本申请第二实施例提供的语音合成装置还包括:
第一调整单元,用于根据所述前一句文本的第二韵律信息,调整所述目标文本中每个所述音素的所述第二韵律信息,得到所述目标文本中每个所述音素的调整后的第二韵律信息。
所述预测单元305具体用于:将所述目标文本中每个所述音素的所述调整后的第二韵律信息按照对应预测的所述语音帧数进行复制,得到帧级别的第一韵律信息。
可选的,所述第二调整单元具体用于:根据所述前一句文本的基频平均值,调整所述目标文本中至少部分文本的基频值,以使所述前一句的基频平均值与所述目标文本的基频平均值之间的差值在预设范围内;根据所述前一句文本的能量平均值,调整所述目标文本中至少部分文本的能量值,以使所述前一句的能量平均值与所述目标文本的能量平均值之间的差值在预设范围内。
可选的,所述获取单元301还用于获取目标说话人类别。
所述第一处理单元304还用于:将所述目标说话人类别转换为音素级别的说话人嵌入向量;根据所述情绪特征数据和所述说话人嵌入向量,将所述目标文本处理为具有情绪特征和说话人音色的音素级别的各个音素向量。
可选的,本申请第二实施例提供的语音合成装置还包括:
第三调整单元,用于获取针对所述目标文本的目标音素输入的调整后帧数;基于所述调整后帧数,返回将所述将每个所述音素的所述第二韵律信息按照对应预测的所述语音帧数进行复制,得到帧级别的第一韵律信息的步骤,直至获得调整后的语音信号。
可选的,本申请第二实施例提供的语音合成装置还包括:
第四调整单元,用于获取针对所述目标文本的目标音素输入调整后基频值和能量值;基于所述调整后基频值和能量值,返回将所述基频值和所述能量值分别转换为基频嵌入向量和能量嵌入向量的步骤,直至获得调整后的语音信号。
可选的,本申请第二实施例提供的语音合成装置还包括:
第五调整单元,用于获取针对所述目标文本的目标字输入的调整后情绪强度;所述目标字包括至少一个目标音素;根据所述调整后情绪强度,确定所述目标字中每个所述目标音素对应的调整后情绪特征数据;基于每个所述目标音素对应的调整后情绪特征数据,返回所述对于任一所述音素,根据所述音素对应的所述情绪特征数据,对所述音素对应的所述文本嵌入向量进行编码,得到所述音素对应的具有情绪特征的音素向量的步骤,直至获得调整后的语音信号。
如图4所示,是本申请实施例提供的语音合成系统的架构图。首先,根据目标情绪类别和目标情绪强度确定所属的情绪强度区间的始端信息和末端信息,嵌入层用于将目标文本进行嵌入得到文本嵌入向量,将说话人类别进行嵌入得到说话人嵌入向量,将始端信息嵌入得到始端信息对应的情绪特征数据(即始端信息的嵌入向量),将末端信息嵌入得到末端信息对应的情绪特征数据(即末端信息的嵌入向量),之后将始端信息的情绪特征数据和末端信息的情绪特征数据进行加权混合得到目标情绪强度的情绪特征数据;编码器用于将情绪特征数据、说话人嵌入向量以及文本嵌入向量进行编码,得到音素级别的各个音素向量;韵律预测模块用于根据音素向量预测各个音素的韵律;时长预测模块用于根据音素向量预测各个音素所占的语音帧数,进而将音素级别的第二韵律信息复制为帧级别的第一韵律信息,并将音素级别的各个音素向量复制为帧级别的语音内容向量;韵律调节模块用于进行韵律调整,时长调节模块用于进行帧数调整;解码器用于将第一韵律信息和语音内容向量解码,得到声学频谱;声码器用于将声学频谱转换为时域上的语音信号。
与本申请第一实施例提供的语音合成方法相对应的,本申请第三实施例还提供了一种用于语音合成的电子设备。如图5所示,所述电子设备包括:处理器501;以及存储器502,用于存储语音合成方法的程序,该设备通电并通过所述处理器运行语音合成方法的程序后,执行如下步骤:
获取待转换为语音的目标文本,目标情绪类别和目标情绪强度;
从针对所述目标情绪类别预设的多个情绪强度中,确定所述目标情绪强度所属的情绪强度区间的始端信息和末端信息;
根据所述始端信息和所述末端信息,生成所述目标文本对应的情绪特征数据;
根据所述情绪特征数据,将所述目标文本处理为具有情绪特征的音素级别的各个音素向量;
对各个所述音素向量分别进行韵律预测和所占语音帧数的预测,得到帧级别的第一韵律信息和语音内容向量;
根据所述第一韵律信息,将所述语音内容向量处理为时域的语音信号。
与本申请第一实施例提供的语音合成方法相对应的,本申请第四实施例提供了一种计算机可读存储介质,存储有语音合成方法的程序,该程序被处理器运行,执行下述步骤:
获取待转换为语音的目标文本,目标情绪类别和目标情绪强度;
从针对所述目标情绪类别预设的多个情绪强度中,确定所述目标情绪强度所属的情绪强度区间的始端信息和末端信息;
根据所述始端信息和所述末端信息,生成所述目标文本对应的情绪特征数据;
根据所述情绪特征数据,将所述目标文本处理为具有情绪特征的音素级别的各个音素向量;
对各个所述音素向量分别进行韵律预测和所占语音帧数的预测,得到帧级别的第一韵律信息和语音内容向量;
根据所述第一韵律信息,将所述语音内容向量处理为时域的语音信号。
需要说明的是,对于本申请第二实施例、第三实施例和第四实施例提供的装置、电子设备及计算机可读存储介质的详细描述可以参考对本申请第一实施例的相关描述,这里不再赘述。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,区块链中的节点设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他属性的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储介质或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
Claims (17)
1.一种语音合成方法,其特征在于,所述方法包括:
获取待转换为语音的目标文本,目标情绪类别和目标情绪强度;
从针对所述目标情绪类别预设的多个情绪强度中,确定所述目标情绪强度所属的情绪强度区间的始端信息和末端信息;
根据所述始端信息和所述末端信息,生成所述目标文本对应的情绪特征数据;
根据所述情绪特征数据,将所述目标文本处理为具有情绪特征的音素级别的各个音素向量;
对各个所述音素向量分别进行韵律预测和所占语音帧数的预测,得到帧级别的第一韵律信息和语音内容向量;
根据所述第一韵律信息,将所述语音内容向量处理为时域的语音信号。
2.根据权利要求1所述的方法,其特征在于,所述根据所述始端信息和所述末端信息,生成所述目标文本对应的情绪特征数据,包括:
将所述目标情绪强度按照所述情绪强度区间进行归一化,得到归一化后的目标情绪强度;
将所述归一化后的目标情绪强度确定为第一权重,数值1与所述第一权重的差值确定为第二权重;
将所述始端信息进行嵌入得到所述始端信息对应的情绪特征数据,将所述末端信息进行嵌入得到所述末端信息对应的情绪特征数据;
将所述始端信息对应的情绪特征数据和所述末端信息对应的情绪特征数据分别按照所述第二权重和所述第一权重进行加权求和,得到所述目标文本对应的情绪特征数据。
3.根据权利要求1所述的方法,其特征在于,所述对各个所述音素向量分别进行韵律预测和所占语音帧数的预测,得到帧级别的第一韵律信息和语音内容向量,包括:
对各个所述音素向量分别进行韵律预测,得到每个所述音素的第二韵律信息;
对各个所述音素向量分别进行所占语音帧数的预测,得到每个所述音素所占的语音帧数;
将每个所述音素的所述第二韵律信息按照对应预测的所述语音帧数进行复制,得到帧级别的第一韵律信息;
将每个所述音素向量按照对应预测的所述语音帧数进行复制,得到帧级别的语音内容向量。
4.根据权利要求3所述的方法,其特征在于,所述对各个所述音素向量分别进行韵律预测,得到每个所述音素的第二韵律信息,包括:
对每个所述音素向量分别进行基频预测和能量预测,得到每个所述音素对应的基频值和能量值;
将所述基频值和所述能量值分别转换为基频嵌入向量和能量嵌入向量;
将属于同一个所述音素的所述基频嵌入向量和所述能量嵌入向量进行整合,得到每个所述音素的第二韵律信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所述情绪特征数据,将所述目标文本处理为具有情绪特征的音素级别的各个音素向量,包括:
将所述目标文本转换为各个音素对应的文本嵌入向量;
将所述情绪特征数据按照所述目标文本中的音素数量进行复制,得到各个所述音素对应的情绪特征数据;
对于任一所述音素,根据所述音素对应的所述情绪特征数据,对所述音素对应的所述文本嵌入向量进行编码,得到所述音素对应的具有情绪特征的音素向量。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一韵律信息,将所述语音内容向量处理为时域的语音信号,包括:
将所述第一韵律信息和所述语音内容向量进行解码,得到所述目标文本对应的声学频谱;
将所述声学频谱转换为时域的语音信号。
7.根据权利要求1所述的方法,其特征在于,当所述目标文本存在前一句文本时,在所述根据所述情绪特征数据,将所述目标文本处理为具有情绪特征的音素级别的各个音素向量之前,所述方法还包括:
根据所述前一句文本的至少部分情绪特征数据,调整所述目标文本中过渡区间的情绪特征数据,得到所述目标文本对应的调整后的情绪特征数据;所述过渡区间包括所述目标文本中包括预设数量音素的文本起始部分;
所述根据所述情绪特征数据,将所述目标文本处理为具有情绪特征的音素级别的各个音素向量,包括:
根据所述调整后的情绪特征数据,将所述目标文本处理为具有情绪特征的音素级别的各个音素向量。
8.根据权利要求7所述的方法,其特征在于,所述根据所述前一句文本的至少部分情绪特征数据,调整所述目标文本中过渡区间的情绪特征数据,得到所述目标文本对应的调整后的情绪特征数据,包括:
将所述前一句文本的至少部分音素的情绪特征数据与所述目标文本中位于过渡区间内的每个音素的情绪特征数据进行加权求和,得到所述过渡区间内的每个音素对应的调整后的情绪特征数据;
其中,所述前一句文本的至少部分音素的情绪特征数据进行加权求和所需的第三权重按照所述过渡区间内的音素顺序逐渐减小,所述目标文本中位于过渡区间内的每个音素的情绪特征数据进行加权求和所需的第四权重按照所述过渡区间内的音素顺序逐渐增大。
9.根据权利要求3所述的方法,其特征在于,当所述目标文本存在前一句文本时,在所述对各个所述音素向量分别进行韵律预测,得到每个所述音素的第二韵律信息之后,所述方法还包括:
根据所述前一句文本的第二韵律信息,调整所述目标文本中每个所述音素的所述第二韵律信息,得到所述目标文本中每个所述音素的调整后的第二韵律信息;
所述将每个所述音素的所述第二韵律信息按照对应预测的所述语音帧数进行复制,得到帧级别的第一韵律信息,包括:
将所述目标文本中每个所述音素的所述调整后的第二韵律信息按照对应预测的所述语音帧数进行复制,得到帧级别的第一韵律信息。
10.根据权利要求9所述的方法,其特征在于,在所述目标文本的第二韵律信息基于所述目标文本中的每个音素对应的基频值和能量值而得到的情况下,所述根据所述前一句文本的第二韵律信息,调整所述目标文本中每个所述音素的所述第二韵律信息,得到所述目标文本中每个所述音素的调整后的第二韵律信息,包括:
根据所述前一句文本的基频平均值,调整所述目标文本中至少部分文本的基频值,以使所述前一句的基频平均值与所述目标文本的基频平均值之间的差值在预设范围内;
根据所述前一句文本的能量平均值,调整所述目标文本中至少部分文本的能量值,以使所述前一句的能量平均值与所述目标文本的能量平均值之间的差值在预设范围内。
11.根据权利要求1所述的方法,其特征在于,在所述从针对所述目标情绪类别预设的多个情绪强度中,确定所述目标情绪强度所属的情绪强度区间的始端信息和末端信息之前,所述方法还包括:
获取目标说话人类别;
将所述目标说话人类别转换为音素级别的说话人嵌入向量;
所述根据所述情绪特征数据,将所述目标文本处理为具有情绪特征的音素级别的各个音素向量,包括:
根据所述情绪特征数据和所述说话人嵌入向量,将所述目标文本处理为具有情绪特征和说话人音色的音素级别的各个音素向量。
12.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取针对所述目标文本的目标音素输入的调整后帧数;
基于所述调整后帧数,返回将所述将每个所述音素的所述第二韵律信息按照对应预测的所述语音帧数进行复制,得到帧级别的第一韵律信息的步骤,直至获得调整后的语音信号。
13.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取针对所述目标文本的目标音素输入调整后基频值和能量值;
基于所述调整后基频值和能量值,返回将所述基频值和所述能量值分别转换为基频嵌入向量和能量嵌入向量的步骤,直至获得调整后的语音信号。
14.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取针对所述目标文本的目标字输入的调整后情绪强度;所述目标字包括至少一个目标音素;
根据所述调整后情绪强度,确定所述目标字中每个所述目标音素对应的调整后情绪特征数据;
基于每个所述目标音素对应的调整后情绪特征数据,返回所述对于任一所述音素,根据所述音素对应的所述情绪特征数据,对所述音素对应的所述文本嵌入向量进行编码,得到所述音素对应的具有情绪特征的音素向量的步骤,直至获得调整后的语音信号。
15.一种语音合成装置,其特征在于,所述装置包括:
获取单元,用于获取待转换为语音的目标文本,目标情绪类别和目标情绪强度;
确定单元,用于从针对所述目标情绪类别预设的多个情绪强度中,确定所述目标情绪强度所属的情绪强度区间的始端信息和末端信息;
生成单元,用于根据所述始端信息和所述末端信息,生成所述目标文本对应的情绪特征数据;
第一处理单元,用于根据所述情绪特征数据,将所述目标文本处理为具有情绪特征的音素级别的各个音素向量;
预测单元,用于对各个所述音素向量分别进行韵律预测和所占语音帧数的预测,得到帧级别的第一韵律信息和语音内容向量;
第二处理单元,用于根据所述韵律信息,将所述语音内容向量处理为时域的语音信号。
16.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储数据处理程序,该电子设备通电并通过所述处理器运行该程序后,执行如权利要求1-14中任一项所述的方法。
17.一种计算机可读存储介质,其特征在于,存储有数据处理程序,该程序被处理器运行,执行如权利要求1-14中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211494638.6A CN116072152A (zh) | 2022-11-25 | 2022-11-25 | 语音合成方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211494638.6A CN116072152A (zh) | 2022-11-25 | 2022-11-25 | 语音合成方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116072152A true CN116072152A (zh) | 2023-05-05 |
Family
ID=86177724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211494638.6A Pending CN116072152A (zh) | 2022-11-25 | 2022-11-25 | 语音合成方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116072152A (zh) |
-
2022
- 2022-11-25 CN CN202211494638.6A patent/CN116072152A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11295721B2 (en) | Generating expressive speech audio from text data | |
CN111048062B (zh) | 语音合成方法及设备 | |
CN111276120B (zh) | 语音合成方法、装置和计算机可读存储介质 | |
Syrdal et al. | Applied speech technology | |
EP3824461B1 (en) | Method and system for creating object-based audio content | |
CN110599998B (zh) | 一种语音数据生成方法及装置 | |
US20210335364A1 (en) | Computer program, server, terminal, and speech signal processing method | |
JP2002530703A (ja) | 音声波形の連結を用いる音声合成 | |
CN112102811B (zh) | 一种合成语音的优化方法、装置及电子设备 | |
CN110663080A (zh) | 通过频谱包络共振峰的频移动态修改语音音色的方法和装置 | |
JP2016161919A (ja) | 音声合成装置 | |
CN113327580A (zh) | 语音合成方法、装置、可读介质及电子设备 | |
GB2603776A (en) | Methods and systems for modifying speech generated by a text-to-speech synthesiser | |
EP4266306A1 (en) | A speech processing system and a method of processing a speech signal | |
Panda et al. | An efficient model for text-to-speech synthesis in Indian languages | |
Yadav et al. | Prosodic mapping using neural networks for emotion conversion in Hindi language | |
CN114582317A (zh) | 语音合成方法、声学模型的训练方法及装置 | |
Chen et al. | Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features | |
CN113436600A (zh) | 一种语音合成方法及装置 | |
O'Shaughnessy | Modern methods of speech synthesis | |
Stan et al. | Generating the Voice of the Interactive Virtual Assistant | |
CN113314097B (zh) | 语音合成方法、语音合成模型处理方法、装置和电子设备 | |
KR20230075340A (ko) | 실시간 음색 및 운율 스타일 복제 가능한 음성합성 시스템 및 방법 | |
CN116072152A (zh) | 语音合成方法、装置及电子设备 | |
CN114944146A (zh) | 一种语音合成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |