CN102385858B

CN102385858B - 情感语音合成方法和系统

Info

Publication number: CN102385858B
Application number: CN2010102711353A
Authority: CN
Inventors: 双志伟; 包胜华; 陈健; 刘�文; 张世磊; 苏中; 施勤; 秦勇
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2010-08-31
Filing date: 2010-08-31
Publication date: 2013-06-05
Anticipated expiration: 2030-08-31
Also published as: CN102385858A; US9117446B2; US20130054244A1; US9570063B2; US20170092260A1; US10002605B2; US20150325233A1

Abstract

通过本发明可以使语音合成的效果更加自然，更贴近真实的阅读声音。本发明提供一种情感语音合成方法，包括：接收文本数据；对所述文本数据按韵律单元生成情感标记，其中所述情感标记被表示为一组情感矢量，所述情感矢量包括依据多个情感类型所给出的多个情感分数；以及按照所述情感标记对所述文本数据进行语音合成。其中本发明是基于韵律单元生成情感标记，而不是基于整个句子生成情感标记。并且本发明中的情感标记被表示为一组情感矢量，这使得本发明中的韵律单元有更丰富更真实的情感表达，而不是局限于一种情感类型。此外本发明无需人工干预，也就是说无需人工对每句话指定固定的情感标记。

Description

情感语音合成方法和系统

技术领域

本发明总体上涉及语音合成的方法和系统，特别的本发明涉及情感语音合成方法和系统。

背景技术

语音合成TTS是指根据韵律建模的结果，从原始语音库中取出相应的语音基元，利用特定的语音合成技术对语音基元进行韵律特性的调整和修改，最终合成出符合要求的语音。目前几种主要语音合成工具的合成水平均已到实用阶段。

众所周知，人在阅读过程中所表达的情感可能是多种多样的，比如“Mr.Ding suffers severe paralysis since he is young，but he learns through self-study and finally wins the heartof Ms.Zhao with the help of network”这句话在阅读中可能前半句话用比较悲伤的情绪阅读，而后半句话用比较高兴的情绪阅读。然而，传统的语音合成技术并不考虑文本内容中所附加的情感信息，也就是说传统的语音合成技术对在进行语音合成时并不考虑待处理的文本所表达的情感是高兴、悲伤还是愤怒等。

情感语音合成是近几年语音合成的研究热点，在情感语音合成的研究中所必须解决的问题是确定情感状态和建立情感状态与语音的声学特征的关联关系。现有的情感语音合成技术允许操作者通过人工的方式指定某个句子的情感类别，比如人工的指定“Mr.Ding suffers severe paralysis since he is young”这句话的情感类型为悲伤，“but he learns through self-study andfinally wins the heart of Ms.Zhao with the help of network”这句话的情感类型为高兴，并且在语音合成过程中以指定的情感类型对该句子进行处理。

发明内容

本发明的发明人经研究发现，当前的情感语音合成技术中存在很多没有解决的问题，其一、由于每个句子被赋予了统一的情感类型，因此整个句子都用统一的情感来阅读因此实际效果不够自然、平滑；其二、不同句子被赋予不同的情感类型，因此在句子与句子之间出现比较突兀的情感变化；其三、人工确定句子情感的方式成本较高，不使用于语音合成的批量处理。

本发明提供一种情感语音合成技术方案，该方案用于解决上述列举的现有技术中存在的至少一个问题。具体而言，本发明一种情感语音合成方法，包括：接收文本数据；对所述文本数据按韵律单元生成情感标记，其中所述情感标记被表示为一组情感矢量，所述情感矢量包括依据多个情感类型所给出的多个情感分数；以及按照所述情感标记对所述文本数据进行语音合成。

本发明还提供一种情感语音合成系统，包括：文本数据接收模块，用于接收文本数据；情感标记生成模块，用于对所述文本数据按韵律单元生成情感标记，其中所述情感标记被表示为一组情感矢量，所述情感矢量包括依据多个情感类型所给出的多个情感分数；以及语音合成模块，用于按照所述情感标记对所述文本数据进行语音合成。

通过本发明可以使语音合成的效果更加自然，更贴近真实的阅读声音。具体而言，本发明是基于韵律单元生成情感标记，而不是基于整个句子生成情感标记。并且本发明中的情感标记被表示为一组情感矢量，所述情感矢量包括依据多个情感类型所给出的多个情感分数，这使得本发明中的韵律单元有更丰富更真实的情感表达，而不是局限于一种情感类型。此外本发明无需人工干预，也就是说无需人工对每句话指定固定的情感标记。

附图说明

本说明中所参考的附图只用于示例本发明的典型实施例，不应该认为是对本发明范围的限制。

图1示出了按照本发明的一个实施例的情感语音合成方法流程。

图2A示出了按照本发明的一个实施例对图1中的文本数据按照韵律单元生成情感标记的方法流程。

图2B示出了按照本发明的另一个实施例对图1中的文本数据按照韵律单元生成情感标记的方法流程。

图2C示出了情感矢量调整决策树的片断示意图。

图3示出了按照本发明的另一个实施例的情感语音合成方法流程。

图4A示出了按照本发明的一个实施例对图3中的文本数据按照韵律单元生成情感标记的方法流程。

图4B示出了按照本发明的另一个实施例对图3中的文本数据按照韵律单元生成情感标记的方法流程。

图5示出了按照本发明的一个实施例对图3中的文本数据进行情感平滑处理的方法流程。

图6A示出了按照本发明的一个实施例进行语音合成的方法流程。

图6B示出了按照本发明的另一个实施例进行语音合成的方法流程。

图6C示出了对基频特征而言在某一情感类型下的语音合成决策树片断示意图。

图7示出了按照本发明的一个实施例的情感语音合成系统框图。

图8A示出了按照本发明的一个实施例的情感标记生成模块的框图。

图8B示出了按照本发明的另一个实施例的情感标记生成模块的框图。

图9示出了按照本发明的另一个实施例的情感语音合成系统框图。

图10示出了按照本发明的一个实施例的图9中的情感平滑处理模块框图。

具体实施方式

下列讨论中，提供大量具体的细节以帮助彻底了解本发明。然而，很显然对于本领域技术人员来说，即使没有这些具体细节，并不影响对本发明的理解。并且应该认识到，使用如下的任何具体术语仅仅是为了方便描述，因此，本发明不应当局限于只用在这样的术语所表示和/或暗示的任何特定应用中。

本发明提供一种情感语音合成方法和系统。通过本发明可以使语音合成的效果更加自然，更贴近真实的阅读声音。具体而言，本发明是基于韵律单元生成情感标记，而不是基于整个句子生成情感标记。并且本发明中的情感标记被表示为一组情感矢量，所述情感矢量包括依据多个情感类型所给出的多个情感分数，这使得本发明中的韵律单元有更丰富更真实的情感表达，而不是局限于一种情感类型。此外本发明无需人工干预，也就是说无需人工对每句话指定固定的情感标记。本发明可以应用于各种需要实现情感语音合成的产品，包括能够进行自动朗读的电子书，能够进行户动交流的机器人以及各种可以对文字内容进行赋有情感的阅读的语音合成软件等。

图1示出了按照本发明的一个实施例的情感语音合成方法流程。在步骤101接收文本数据。所述文本数据可以是一句话、一段话或一篇文章。所述文本数据可以是基于用户的指定(比如用户选中的一段话)、也可以是由系统设定的(比如智能机器人对用户询问的回答)。并且所述文本数据可以是中文、英文或任何其它文字。

在步骤103对所述文本数据案韵律单元生成情感标记，其中所述情感标记被表示为一组情感矢量，所述情感矢量包括依据多个情感类型所给出的多个情感分数；并且其中所述韵律单元可以是字(word)、词(vocabular)、短语(phrase)。如果所述文本数据是中文，按照本发明的一种实施例，可以将所述文本数据分成若干词，每个词作为一个韵律单元，并对每个词生成情感标记。如果所述文本数据是英文，按照本发明的一种实施例，可以将所述文本数据分成若干字，每个字作为一个韵律单元，并对每个字生成情感标记。当然，总体而言，本发明对韵律单元的单位没有特别的限定，其可以是比较粗粒度的短语、也可以是比较细粒度的字。粒度越细，情感标记可能越细腻，最终的合成效果可能更接近真实发音，但计算量也会随之增加；粒度越粗，情感标记可能越粗糙，最终的合成效果可能与真实发音有一些差距，但在语音合成中的计算量会相对较低。

在步骤105按照所述情感标记对所述文本数据进行语音合成。也就是说本发明并非向现有技术那样对于一个句子使用统一的情感类型进行合成，而是对于每个韵律单元适用一种情感类型。同时，本发明在进行语音合成时还考虑每个韵律单元在每种情感类型上的程度，也就是说本发明考虑到了每种情感类型下的情感分数，从而进行更贴近真实语音效果的语音合成，具体内容将在下文进行更为详细的介绍。

图2A示出了按照本发明的一个实施例对图1中的文本数据按照韵律单元生成情感标记的方法流程。在步骤201获取所述韵律单元的初始情感分数。比如，可以定义6种情感类型，分别是：中性(neutral)、高兴(happy)、难过(sad)、感动(moved)、愤怒(angry)和不安(uneasiness)。当然本发明并只不限于上述情感类型的定义方式。如果所接收的文本数据为“Don′t feel embarrassed about cryingas it helps you release these sad emotions and become happy”，并且将该句子分成16个字(word)，每个字作为一个韵律单元。在步骤201中需要获得每个字的初始情感分数，如下表1所示。为了节省空间，表1中省略了中间6个字的情感分数。

表1

如表1所示，情感矢量可以被表示为一组带有情感分数的数组。按照本发明的一种实施例，为了计算方便，对每个韵律单元而言，可以对该数组中的每个情感分数进行归一化处理，使得对于每个字而言，6个情感分数之和为1。

表1中的初始情感分数可以由多种渠道获得。按照本发明的一种实施例，所述初始情感分数可以是手工给定的数值，即手工对每个字的每个情感类型给定一个分数。对于没有给定初始情感分数的字，可以设置其缺省的初始情感分数如下表2所示。

	Friday
		中性	1.00
高兴	0.00
		难过	0.00
感动	0.00
		愤怒	0.00
不安	0.00

表2

按照本发明的另一种实施例，可以手工对大量句子进行情感类型的标注，比如将句子“I feel so frustrated about his behavior atFriday”的情感类型标注为“愤怒”，将“I always go to see movieat Friday night”的情感类型标注为“高兴”。然后对大量句子中的每个字所出现的情感类型进行统计，比如“Friday”曾经有10次被标记为“愤怒”，而有90次被标记为“高兴”，则“Friday”这个词的情感分数的分布可以如下表3所示。

	Friday
		中性	0.00
高兴	0.90

难过	0.00
		感动	0.00
愤怒	0.10
		不安	0.00

表3

按照本发明的又一种实施例，可以利用在本发明后续步骤中获得的最终情感分数对所述韵律单元的初始情感分数进行更新，从而将更新后的情感分数作为初始情感分数进行存储，比如“Friday”本身可能是个中性词，但是经过后续的步骤发现，很多句子在谈到“Friday”的时候都体现出高兴的情感色彩，因此可以通过反馈后续步骤中确定的最终情感分数对Friday这个词的初始情感分数进行更新。

当然本发明并不仅限于通过上述三种方式获得初始情感分数。

接下来，在步骤203确定所述韵律单元的最终情感分数和最终情感类型。按照本发明的一种比较简单的实施例，可以确定所述多个初始情感分数中的最大值作为最终情感分数，并且将所述最终情感分数所代表的情感类型作为最终情感类型。比如对表1中的各个字确定其最终情感分数与最终情感类型如下表4所示。

愤怒	0.30				0.35
												不安			0.80

表4

如表4所示，“Don′t”的最终情感分数为0.30，其最终情感类型为“愤怒”。

图2B示出了按照本发明的另一个实施例对图1中的文本数据按照韵律单元生成情感标记的方法流程。图2B中的实施例进一步根据句子的上下文语义对每个字生成情感标记，所以该实施例中的情感标记可能更加符合真实语义。首先、在步骤211中获取所述韵律单元的初始情感分数，该过程与图2A中所示的过程类似，在此不再详述。其次、在步骤213中按照所述韵律单元的上下文语义对所述初始情感分数进行调整。按照本发明的一种实施例，可以根据情感矢量调整决策树(decision tree)对所述原始情感分数进行调整，其中所述情感矢量调整决策树是基于情感矢量调整训练数据建立起来的。

其中所述情感矢量调整训练数据可以是大量经手工调整了情感分数的文本数据。比如对于“Don’t be shy”这句话，按照初始情感分数所建立的情感标记如下表5所示：

	Don′t	be	shy
				中性	0.20	1.00	0.00
高兴	0.00	0.00	0.00
				难过	0.10	0.00	0.00
感动	0.00	0.00	0.00

愤怒	0.50	0.00	0.00
				不安	0.20	0.00	1.00

表5

根据该句子的意思，手工对该句子的初始情感分数进行调整，调整后的情感矢量如下表6所示：

	Don′t	be	shy
				中性	0.40	0.40	0.40
高兴	0.00	0.10	0.00
				难过	0.20	0.20	0.00
感动	0.00	0.20	0.20
				愤怒	0.20	0.00	0.00
不安	0.20	0.10	0.40

表6

可以看到表6中，“Don’t”这个字的“中性”的情感分数提高了，而“愤怒”的情感分数降低了。表6中所示的数据就是情感矢量调整训练数据。可以基于情感矢量调整训练数据建立情感矢量调整决策树，从而总结出手工进行调整的一些规则并加以记录。决策树是按照一定规则对训练数据中的语义进行分析所得到的树状结构。决策树通常可以表现为二叉树，二叉树上的非叶子节点既可以为一系列有关语义的问题(这些问题就是情感矢量调整的条件)、也可以为“是”或“否”的答案。二叉树上的叶子节点可以是对韵律单元的情感分数进行调整的实施方案(这些实施方案就是情感矢量调整的结果)。

图2C示出了情感矢量调整决策树的片断示意图。首先判断待调整的词(比如“Don’t”)是否是动词？如果是，则进一步判断其是否是否定动词？如果否，则进行其它判断。如果其是否定动词，则进一步判断其后面三个词之内是否有形容词(比如“Don’t”就是一个否定动词)？如果其不是否定动词，则进行其它判断。如果其后面三个词之内有形容词(比如“Don’t”后面第2个词是形容词“shy”)，则进一步判断该形容词的情感类型是否是“不安”、“愤怒”或“难过”之一？如果其后面三个词之内没有形容词，则进行其它判断。如果该形容词的情感类型是“不安”、“愤怒”或“难过”之一，则进一步按照手工对情感分数的调整结果对各个情感类型中的情感分数进行调整，比如在上述例子中，将情感类型为“中性”的情感分数增加20％(如将情感矢量调整训练数据中的“Don’t”的情感分数从0.20提高到0.40)，并对其它情感类型的情感分数进行相应调整。基于大量情感矢量调整训练数据所建立的情感矢量调整决策树，可以自动总结出在特定条件下所应当执行的调整结果。图2C仅仅示出了情感矢量调整决策树的片段示意图。在决策树中还可以判断更多的问题作为情感调整条件。这些问题还可以是与词性相关的，比如是否为名词，是否为助词等；也可以是与实体相关的，比如是否为人名、组织名、地址名等；还可以是与位置相关的，比如是否在句首、句尾等；还可以是与句式相关的，比如是否为转折语句、并列语句等；还可以是与距离相关的，比如是否在几个词以内出现其它词性的词等。总之，通过对一系列有关语义的问题的判断可以总结并记录对韵律单元的情感分数进行调整的实施方案。在这些实施方案被记录后，当新的文本数据“Don′tfeel embarrassed…”被输入情感矢量调整决策树后，可以按照相似的过程进行遍历，并且将叶子节点中记录的对情感分数进行调整的实施方案适用到新的文本数据中，比如对“Don′t feel embarrassed…”中“Don’t”一词进行遍历后，也进入图2C中的叶子节点，并确定对“Don’t”一词的情感类型为“中性”的情感分数增加20％。通过上述调整可以使得调整后的情感分数更加符合上下文的语义。

除了情感矢量调整决策树以外，还可以根据分类器基于情感矢量调整训练数据对所述原始情感分数进行调整。所述分类器的工作原理与情感矢量调整决策树类似，只是数据结构有所差别，根据对一系列问题的判断，分类器可以统计出某一种情感类型下的情感分数的增加或者减少，并将统计结果适用于新输入的文本数据从而对其原始情感分数进行调整，使之更加符合上下文的语义。已知的一些分类器比如支持向量机分类技术(Support vector machines，SVM)、贝叶斯分类器(如Naive Bayes，NB)等。

最后、回到图2B在步骤215根据调整后的各个情感分数确定所述韵律单元的最终情感分数和最终情感类型。

图3示出了按照本发明的另一个实施例的情感语音合成方法流程。在步骤301接收文本数据。在步骤303对所述文本数据按韵律单元生成情感标记。进行情感平滑处理可以防止在一个句子中由于不同韵律单元的最终情感分数的差异而导致的情感类型的跳跃，使得一个句子的情感过度更加平滑自然，语音合成的效果比较接近真实的阅读效果。下文以对一个句子进行情感平滑处理为例进行说明，然而本发明并不仅限于只能对一个完整的句子进行情感平滑处理，本发明也可以对一个句子的一部分，或者一段话进行情感平滑处理。在步骤305基于所述韵律单元的情感标记对所述文本数据进行情感平滑处理。在步骤307按照所述情感标记对所述文本数据进行语音合成。

图4A示出了按照本发明的一个实施例对图3中的文本数据按照韵律单元生成情感标记的方法流程。图4A中的方法流程与图2A中的方法流程对应，在步骤401中获取所述韵律单元的初始情感分数，在步骤403返回所述初始情感分数。步骤401的具体内容与201的具体内容一致。由于图3所示的实施例中，增加了基于所述韵律单元的情感标记对所述文本数据进行情感平滑处理的步骤，因此确定韵律单元的最终情感分数和最终情感类型的任务将在情感平滑处理步骤中完成。在步骤403中仅仅是返回所述韵律单元的情感矢量中的初始情感分数(如表1所示)，而不是确定用于语音合成的某一个最终情感分数和最终情感类型。

图4B示出了按照本发明的另一个实施例对图3中的文本数据按照韵律单元生成情感标记的方法流程。图4B中的方法流程与图2B中的方法流程对应，在步骤411中获取所述韵律单元的初始情感分数，在步骤413中按照所述韵律单元的上下文语义对所述初始情感分数进行调整，在步骤415返回所述调整后的初始情感分数。步骤411、413的具体内容分别与211、213的具体内容一致。同样，由于图3所示的实施例中，增加了基于所述韵律单元的情感标记对所述文本数据进行情感平滑处理的步骤，因此确定韵律单元的最终情感分数和最终情感类型的任务将在情感平滑处理步骤中完成。在步骤415中仅仅是返回所述韵律单元的经调整的情感矢量中的初始情感分数(即一组情感分数)，而不是确定用于语音合成的某一个最终情感分数和最终情感类型。

图5示出了按照本发明的一个实施例对图3中的文本数据进行情感平滑处理的方法流程。在该流程中需要利用情感相邻训练数据，所述情感相邻训练数据中包含大量被进行情感类型标注的句子，如下表7所示：

Mr.

Ding

suffers

severe

paralysis

since

he

中性

难过

中性

is

young

，

but

he

learns

through

中性

高兴

中性

self-study

and

finally

wins

the

heart

of

高兴

中性

高兴

中性

感动

中性

Ms.

Zhao

with

the

help

of

network

中性

高兴

中性

表7

表7中情感类型的标注可以是手工标注的也可以是基于手工标注进行自动扩展的。对于对情感相邻训练数据的扩展将在下文中进行更详细的描述。所述标注的形式可以是多种多样的，以如表7所示的列表方式进行标注只是其中一种方式。在其它实施例中，还可以设置一些颜色块分别表示不同的情感类型，标注者使用不同颜色的笔对情感相邻训练数据中的字进行标注。并且可以为未标准的字设置一些缺省值，比如“中性”，使得未被标注的字的情感类型都被设置为“中性”。

对大量情感相邻训练数据中的字的情感类型相邻状况进行统计可以得到如下表8所示的信息：

	中性	高兴	难过	感动	愤怒	不安
							中性	1000	600	700	600	500	300
高兴	600	800	100	700	100	300
							难过	700	100	700	500	500	200
感动	600	700	500	600	100	200
							愤怒	500	100	500	100	500	300
不安	300	300	200	200	300	400

表8

表8表示在情感相邻训练数据中情感类型被标记为“中性”的字与情感类型被标记为“中性”的字的相邻次数为1000次，同理情感类型被标记为“高兴”的字与情感类型被标记为“中性”的字的相邻的次数为600次，依此类推。因此表8实际上可以是一个大小为7×7的表格，标记着两种情感类型的字的相邻次数。按照本发明的一个实施例，所述相邻可以是不考虑情感相邻训练数据中两种情感类型的字出现的先后次序，这样“高兴”列和“中性”行相交处记录的相邻次数与“高兴”行和“中性”列相交处记录的相邻次数完全相等。按照本发明的另一种实施例，在相邻次数的统计时考虑了两种情感类型的字出现的先后次序，这样“高兴”列和“中性”行相交处记录的相邻次数与“高兴”行和“中性”列相交处记录的相邻次数就可能不相等。

接下来可以利用下面的公式1对两种情感类型的相邻概率进行计算：

p (E_{1}, E_{2}) = \frac{num (E_{1}, E_{2})}{\underset{i}{Σ} \underset{j}{Σ} num (E_{i}, E_{j})}

公式1

其中E₁表示一种情感类型，E₂表示另一种情感类型，num(E₁，E₂)表示E₁与E₂的相邻次数，

表示任意两种情感类型的相邻次数之和，P(E₁，E₂)表示这两种情感类型的字的相邻概率。也就是说，相邻概率是根据对情感相邻训练数据进行统计而得到的，所述统计包括：记录所述情感相邻训练数据中至少两种情感类型相邻的次数。

进一步，本发明可以对P(E₁，E₂)进行归一化处理，使得P(E_i，E_j)中的最大值为1，而其它P(E_i，E_j)为比1小的一个相对数。从而计算两种情感类型的字的归一后的相邻概率如下表9所示：

	中性	高兴	难过	感动	愤怒	不安
							中性	1.0	0.6	0.7	0.6	0.5	0.3
高兴	0.6	0.8	0.1	0.7	0.1	0.3
							难过	0.7	0.1	0.7	0.5	0.5	0.2
感动	0.6	0.7	0.5	0.6	0.1	0.2
							愤怒	0.5	0.1	0.5	0.1	0.5	0.3
不安	0.3	0.3	0.2	0.2	0.3	0.4

表9

根据表9可以在步骤501中对至少一个韵律单元的一种情感类型获得其与另一个韵律单元的一种情感类型的情感连接的相邻概率。比如表1中“Don’t”的“中性”情感类型与“feel”的“中性”情感类型的相邻概率为1.0，“Don’t”的“中性”情感类型与“feel”的“高兴”情感类型的相邻概率为0.6，依此类推可以获得每个字中的每种情感类型与其它字的每一情感类型之间的相邻概率。

在步骤503中基于所述相邻概率以及各个情感类型的情感分数确定所述文本数据的最终情感路径。对于句子“Don′t feelembarrassed about crying as it helps you release these sademotions and become happy”而言，假设表1中列举了该句子在步骤303中进行的情感标记，那么可以根据步骤501中获得的所有相邻概率描述出总共6¹⁶种情感路径。在步骤503中可以选择这些情感路径中相邻概率之和和情感分数之和最大的路径作为最终情感路径如下表10所示：

表10

表10中由箭头示出的最终情感路径相比与其它情感路径而言，其相邻概率之和(1.0+0.3+0.3+0.7+……)和情感分数之和(0.2+0.4+0.8+1+0.3+……)最大。最终情感路径的确定是要综合考虑每个字在某一情感类型上的情感分数，以及两种情感类型的相邻概率，从而得出可能性最大的那条路径。最终情感路径的确定可以由多种动态规划算法实现，比如还可以对上述相邻概率之和以及情感分数之和进行加权，从而找出加权求和后概率最大的情感路径，作为最终情感路径。

在步骤505根据所述最终情感路径确定韵律单元的最终情感类型，并获取所述最终情感类型的情感分数作为最终情感分数。比如确定“Don’t”的最终情感类型为“中性”，最终情感分数为0.2。

确定最终情感路径可以使文本数据的表达更加平滑，更加贴近真实阅读中所表现出的情感状态。比如，如果不进行情感平滑处理，“Don’t”最终情感类型可能被确定为“愤怒”而不是“中性”。情感平滑处理与图2B中介绍的情感矢量调整总体而言都是为了使文本数据中的每个韵律单元的最终情感分数和最终情感类型更加贴近真实阅读状态。不过二者侧重有所不同，情感矢量调整更侧重于使得情感分数更加符合真实的语义内容，而情感平滑处理更侧重于使得情感类型的选择更加平滑、避免突兀。

如上文所述，本发明还可以进一步实现对所述情感相邻训练数据进行扩展。按照本发明的一个实施例，基于所形成的最终情感路径自动对所述情感相邻训练数据进行扩展。比如从表10中的最终情感路径可以进一步得出新的情感相邻训练数据如下表11所示，从而实现对情感相邻训练数据的扩展：

Don′t

feel

embarrassed

about

crying

…

sad

emotions

and

become

happy

中性

不安

中性

难过

中性

高兴

表11

按照本发明的另一个实施例，通过连接所述韵律单元的情感分数最大的情感类型从而自动对所述情感相邻训练数据进行扩展。在该实施例中并未基于最终情感路径确定每个韵律单元的最终情感类型，而是对步骤303中的所标记的情感矢量进行分析，选出情感矢量中情感分数最大的值所代表的情感类型从而自动的对所述情感相邻训练数据进行扩展。举例而言，如果表1中所示是步骤303中所标记出的情感矢量，那么根据这些情感矢量得出的新的情感相邻训练数据为下表12所示：

表12

表12所获得情感相邻训练数据由于没有经过平滑处理，因此其所确定的某些情感类型(比如“Don’t”)可能不太符合真实的情感状态。但是表12中的扩展方式与表11中的扩展方式相比，计算量较小。

当然本发明并不排除使用更多的扩展方式对情感相邻训练数据进行扩展。

接下来对如何进行语音合成进行详细说明。值得注意的是下文中进行语音合成的实施例既适用于图3所示的实施例中的步骤307，同时也可以适用于图1所示的实施例中的步骤105。进一步所述按照所述情感标记对所述文本数据进行语音合成的步骤还包括：按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成。本发明在语音合成时不仅要考虑到某一韵律单元被选定的最终情感类型，并且还要考虑到某一韵律单元的最终情感类型的最终情感分数，这样才能在语音合成中充分体现每个韵律单元的情感特征。

图6A示出了按照本发明的一个实施例进行语音合成的方法流程。在步骤601，将所述韵律单元分解为音素(phone)。比如对于“Embarrassed”这个词，其按照通用的语言结构可以被分解为8个音素如下表13所示：

EH

M

B

AE

R

IH

S

T

表13

在步骤603，对于所述音素中的每个音素根据下述公式2确定其语音特征：

F_i＝(1-P_emotion)*F_i-neutral+P_emotion*F_i-emotion 公式2

其中F_i表示所述音素的第i项语音特征取值，P_emotion表示所述音素所在韵律单元的最终情感分数，F_i-neutral表示第i项语音特征在中性情感类型中的语音特征取值，F_i-emotion表示第i项语音特征在所述最终情感类型中的语音特征取值。

如对于表10中的“embarrassed”一词而言，其语音特征为：

F_i＝(1-0.8)*F_i-中性+0.8*F_i-不安

其中所述语音特征是下列各项中的一项或多项：基频特征、频谱特征、时长特征。所述基频特征可以体现为基频的均值或基频的方差中的一种或两种。所述频谱特征可以体现为24维线谱频率(LSF)，也就是频谱中比较有代表性的一些频率。24维线谱频率(LSF)是一组24维的矢量。所述时长特征就是该音素所持续的时间长短。

对于每一种语音特征下的每一种情感类型，都存在预先录制的语料库，比如播音员分别以愤怒、悲伤、高兴等情感阅读大量文本数据并存储到相应的预料库中。对于每一种语音特征下的每一种情感类型的预料库，建立一棵语音合成决策树，所述语音合成决策树典型的可以是二叉树。所述语音合成决策树的叶子节点记录每个音素所应当有的语音特征(包括基频特征、时长特征或频谱特征)。语音合成决策树中的非叶子节点既可以是一系列有关语音特征的问题，也可以是“是”或“否”的答案。

图6C示出了对基频特征而言在某一情感类型下的语音合成决策树片断示意图。图6C中的决策树是通过遍历某一情感类型下的语料库而得出的，通过对一系列问题进行判断，从而可以记录在语料库中的某个音素的基频特征。比如，对于一个音素而言，首先判断其是否是位于一个字的字头？如果是，则进一步判断其该音素是否是元音？如果否，则执行其它操作。如果该音素是元音，则进一步判断其后面是否接一个辅音？如果该音素不是元音，则继续执行其它操作。如果该音素后面是接一个辅音，则记录语料库中该音素的基频特征，包括基频均值为280HZ，基频方差为10HZ。通过自动学习语料库中的所有语句可以构建出一个庞大的语音合成决策树。图6C仅仅示意性的描述的其中的一个片断。除此以外，语音合成决策树中还可以就下面这些内容提出问题并进行判断：一个音素在音节/词/韵律短语/句子中的位置，当前音节/词/韵律短语中音素的个数，当前/前一个/后一个音素为元音还是辅音，当前/前一个/后一个元音音素的发音位置：前元音、后元音和中元音，以及当前/前一个/后一个元音音素的口形张开的程度：窄元音和宽元音等。建立某一情感类型下的语音合成决策树后，就可以输入文本数据中的某一韵律单元的某一音素，并通过对一系列问题的判断，从而确定该音素的在该情感类型下的基频特征(比如F_i-不安)。同理，也可以构建各个情感类型下的有关频谱特征的语音合成决策树和有关时长特征的语音合成决策树，从而确定该音素在特定情感类型下的频谱特征和时长特征。

进一步，本发明还可以将一个音素划分为若干状态(state)，比如将一个音素划分为5个状态，并且就针对状态建立在每种情感类型下的有关每种语音特征的决策树，并通过决策树查询文本数据中的某一韵律单元的某一音素的某一状态的语音特征。

然而本发明并不限于简单的利用上述方法获得某一情感类型下的音素的语音特征从而进行语音合成。也就是说按照本发明的一个实施例，不仅在语音合成过程中考虑了音素所在的韵律单元的最终情感类型，并且还考虑了其最终情感分数(如公式2中的P_emotion)。从公式2可以看出，最终情感分数越大，所述音素的第i项语音特征取值就越靠近某一最终情感类型下的语音特征取值；相反，最终情感分数越小，所述音素的第i项语音特征取值就越靠近“中性”情感类型下的语音特征取值。公式2进一步使得语音合成的过程更加平滑，避免由于情感类型跳跃所导致的突兀的不自然的语音合成效果。

当然公式2所示出的语音合成方法还可以进行各种变型。比如，图6B示出了按照本发明的另一个实施例进行语音合成的方法流程。在步骤611中，将所述韵律单元分解为音素。如果所述音素所在韵律单元的所述最终情感分数大于一定阈值，则按照下述公示确定所述音素的语音特征(步骤613)：

F_i＝F_i-emotion

如果所述音素所在韵律单元的所述最终情感分数小于一定阈值，则按照下述公示确定所述音素的语音特征(步骤615)：

F_i＝F_i-neutral，

其中F_i表示所述音素的第i项语音特征取值，F_i-neutral表示第i项语音特征在“中性”情感类型中的语音特征取值，F_i-emotion表示第i项语音特征在所述最终情感类型中的语音特征取值。

实际上本发明并不仅限于图6A和图6B所示的实施方式，还包括其它的语音合成方式。

图7示出了按照本发明的一个实施例的情感语音合成系统框图。图7中的情感语音合成系统701进一步包括文本数据接收模块703，用于接收文本数据；情感标记生成模块705，用于对所述文本数据按韵律单元生成情感标记，其中所述情感标记被表示为一组情感矢量，所述情感矢量包括依据多个情感类型所给出的多个情感分数；以及语音合成模块707，用于按照所述情感标记对所述文本数据进行语音合成。

图8A示出了按照本发明的一个实施例的情感标记生成模块705的框图。所述情感标记生成模块705进一步包括：初始情感分数获取模块803，用于获取韵律单元的对应于每种情感类型的初始情感分数；以及最终情感确定模块805，用于确定所述多个情感分数中的最大值作为最终情感分数，并且将所述最终情感分数所代表的情感类型作为最终情感类型。

图8B示出了按照本发明的另一个实施例的情感标记生成模块705的框图。所述情感标记生成模块705进一步包括：初始情感分数获取模块813，用于获取韵律单元的对应于每种情感类型的初始情感分数；情感矢量调整模块815，用于按照所述韵律单元的上下文对所述情感矢量进行调整；以及最终情感确定模块817，用于确定所述经调整后的多个情感分数中的最大值作为最终情感分数，并且将所述最终情感分数所代表的情感类型作为最终情感类型。

图9示出了按照本发明的另一个实施例的情感语音合成系统框图。所述情感语音合成系统901包括：文本数据接收模块903，用于接收文本数据；情感标记生成模块905，用于对所述文本数据按韵律单元生成情感标记，其中所述情感标记被表示为一组情感矢量，所述情感矢量包括依据多个情感类型所给出的多个情感分数；情感平滑处理模块907，用于基于所述韵律单元的情感标记对所述文本数据进行情感平滑处理；以及语音合成模块909，用于按照所述情感标记对所述文本数据进行语音合成。

进一步，语音合成模块909还用于按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成。

图10示出了按照本发明的一个实施例的图9中的情感平滑处理模块907框图。所述情感平滑处理模块907包括：相邻概率获得模块1003，用于对至少一个韵律单元的一种情感类型获得其与另一个相邻韵律单元的一种情感类型的情感连接的相邻概率；最终情感路径确定模块1005，用于基于所述相邻概率以及各个情感类型的情感分数确定所述文本数据的最终情感路径；以及最终情感确定模块1007，用于根据所述最终情感路径确定韵律单元的最终情感类型，并且获取所述最终情感类型的情感分数作为最终情感分数。

图7-图10中各个模块的所执行和完成的功能流程已经在前文中进行了详细的介绍，参见对图1-6C的描述，在此不再赘述。

所属技术领域的技术人员知道，本发明可以体现为系统、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即，可以是完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、或者本文一般称为“电路”、“模块”或“系统”的软件部分与硬件部分的组合。此外，本发明还可以采取体现在任何有形的表达介质(medium of expression)中的计算机程序产品的形式，该介质中包含计算机可用的程序码。

可以使用一个或多个计算机可用的或计算机可读的介质的任何组合。计算机可用的或计算机可读的介质例如可以是——但不限于——电的、磁的、光的、电磁的、红外线的、或半导体的系统、装置、器件或传播介质。计算机可读介质的更具体的例子(非穷举的列表)包括以下：有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、诸如支持因特网或内部网的传输介质、或者磁存储器件。注意计算机可用的或计算机可读的介质甚至可以是上面印有程序的纸张或者其它合适的介质，这是因为，例如可以通过电扫描这种纸张或其它介质，以电子方式获得程序，然后以适当的方式加以编译、解释或处理，并且必要的话在计算机存储器中存储。在本文件的语境中，计算机可用的或计算机可读的介质可以是任何含有、存储、传达、传播、或传输供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的介质。计算机可用的介质可包括在基带中或者作为载波一部分传播的、由其体现计算机可用的程序码的数据信号。计算机可用的程序码可以用任何适当的介质传输，包括—但不限于—无线、电线、光缆、RF等等。

用于执行本发明的操作的计算机程序码，可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++之类，还包括常规的过程式程序设计语言—诸如”C”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户的计算机，或者，可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。

以下参照按照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。要明白的是，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得通过计算机或其它可编程数据处理装置执行的这些指令，产生实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品。

也可以把计算机程序指令加载到计算机或其它可编程数据处理装置上，使得在计算机或其它可编程数据处理装置上执行一系列操作步骤，以产生计算机实现的过程，从而在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本文中所用的术语，仅仅是为了描述特定的实施例，而不意图限定本发明。本文中所用的单数形式的“一”和“该”，旨在也包括复数形式，除非上下文中明确地另外指出。还要知道，“包含”一词在本说明书中使用时，说明存在所指出的特征、整体、步骤、操作、单元和/或组件，但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件，以及/或者它们的组合。

权利要求中的对应结构、材料、操作以及所有功能性限定的装置(means)或步骤的等同替换，旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。所给出的对本发明的描述其目的在于示意和描述，并非是穷尽性的，也并非是要把本发明限定到所表述的形式。对于所属技术领域的普通技术人员来说，在不偏离本发明范围和精神的情况下，显然可以作出许多修改和变型。对实施例的选择和说明，是为了最好地解释本发明的原理和实际应用，使所属技术领域的普通技术人员能够明了，本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。

Claims

1.一种情感语音合成方法，包括：

接收文本数据；

对所述文本数据按韵律单元生成情感标记，其中所述情感标记被表示为一组情感矢量，所述情感矢量包括依据多个情感类型所给出的多个情感分数；以及

按照所述情感标记对所述文本数据进行语音合成，

所述方法还包括：

基于所述韵律单元的情感标记对所述文本数据进行情感平滑处理。

2.如权利要求1所述的方法，其中对所述文本数据按韵律单元生成情感标记进一步包括：

确定所述多个情感分数中的最大值作为最终情感分数，并且将所述最终情感分数所代表的情感类型作为最终情感类型，以及

其中按照所述情感标记对所述文本数据进行语音合成进一步包括：

按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成。

3.如权利要求1所述的方法，其中对所述文本数据按韵律单元生成情感标记进一步包括：

按照所述韵律单元的上下文对所述情感矢量进行调整，

根据调整后的各个情感分数确定所述韵律单元的最终情感分数和最终情感类型，并且

4.如权利要求3所述的方法，其中对所述情感矢量进行调整进一步包括：

根据情感矢量调整决策树对所述韵律单元的情感分数进行调整，其中所述情感矢量调整决策树是基于情感矢量调整训练数据建立起来的。

5.如权利要求1所述的方法，其中对所述文本数据进行情感平滑处理进一步包括：

对至少一个韵律单元的一种情感类型获得其与另一个相邻韵律单元的一种情感类型的情感连接的相邻概率；

基于所述相邻概率以及各个情感类型的情感分数确定所述文本数据的最终情感路径；以及

根据所述最终情感路径确定韵律单元的最终情感类型。

6.如权利要求5所述的方法，其中确定韵律单元的最终情感类型进一步包括：

获取所述最终情感类型的情感分数作为最终情感分数，并且其中按照所述情感标记对所述文本数据进行语音合成进一步包括：

7.如权利要求5所述的方法，其中所述相邻概率是根据对情感相邻训练数据进行统计而得到的，并且所述统计进一步包括：

记录所述情感相邻训练数据中至少两种情感类型相邻的次数。

8.如权利要求7所述的方法，进一步包括：

基于所形成的最终情感路径自动对所述情感相邻训练数据进行扩展。

9.如权利要求7所述的方法，进一步包括：

通过连接所述韵律单元的情感分数最大的情感类型从而自动对所述情感相邻训练数据进行扩展。

10.如权利要求2、3或6之一所述的方法，所述按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成进一步包括：

将所述韵律单元分解为音素；以及

对于所述音素根据下述公式确定其语音特征：

F_i＝(1-P_emotion)*F_i-neutral+P_emotion*F_i-emotion

其中F_i表示所述音素的第i项语音特征取值，P_emotion表示所述音素所在韵律单元的最终情感分数，F_i-eutral表示第i项语音特征在中性情感类型中的语音特征取值，F_i-emotion表示第i项语音特征在所述最终情感类型中的语音特征取值。

11.如权利要求2、3或6之一所述的方法，其中所述按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成进一步包括：

将所述韵律单元分解为音素；以及

如果所述音素所在韵律单元的所述最终情感分数大于一定阈值，则按照下述公示确定所述音素的语音特征：

F_i＝F_i-emotion

如果所述音素所在韵律单元的所述最终情感分数小于一定阈值，则按照下述公示确定所述音素的语音特征：

F_i＝F_i-neutral，

其中F_i表示所述音素的第i项语音特征取值，F_i-neutral表示第i项语音特征在中性情感类型中的语音特征取值，F_i-emotion表示第i项语音特征在所述最终情感类型中的语音特征取值。

12.如权利要求10或11所述的方法，其中所述语音特征是下列各项中的一项或多项：

基频特征、频谱特征、时长特征。

13.如前述任意一个权利要求所述的方法，其中所述韵律单元是下列各项中的一项：

字、词、短语。

14.一种情感语音合成系统，包括：

文本数据接收模块，用于接收文本数据；

情感标记生成模块，用于对所述文本数据按韵律单元生成情感标记，其中所述情感标记被表示为一组情感矢量，所述情感矢量包括依据多个情感类型所给出的多个情感分数；以及

语音合成模块，用于按照所述情感标记对所述文本数据进行语音合成，

所述系统进一步包括：

情感平滑处理模块，用于基于所述韵律单元的情感标记对所述文本数据进行情感平滑处理。

15.如权利要求14所述的系统，其中所述情感标记生成模块进一步包括：

最终情感确定模块，用于确定所述多个情感分数中的最大值作为最终情感分数，并且将所述最终情感分数所代表的情感类型作为最终情感类型，并且

其中所述语音合成模块进一步用于按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成。

16.如权利要求14所述的系统，其中所述情感标记生成模块进一步包括：

情感矢量调整模块，用于按照所述韵律单元的上下文对所述情感矢量进行调整；以及

最终情感确定模块，用于根据调整后的各个情感分数确定所述韵律单元的最终情感分数和最终情感类型，并且

所述语音合成模块进一步按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成。

17.如权利要求14所述的系统，其中所述情感平滑处理模块进一步包括：

相邻概率获得模块，用于对至少一个韵律单元的一种情感类型获得其与另一个相邻韵律单元的一种情感类型的情感连接的相邻概率；

最终情感路径确定模块，用于基于所述相邻概率以及各个情感类型的情感分数确定所述文本数据的最终情感路径；以及

最终情感确定模块，用于根据所述最终情感路径确定韵律单元的最终情感类型，并且获取所述最终情感类型的情感分数作为最终情感分数，并且

所述语音合成模块进一步用于按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成。