CN102385858B - 情感语音合成方法和系统 - Google Patents
情感语音合成方法和系统 Download PDFInfo
- Publication number
- CN102385858B CN102385858B CN2010102711353A CN201010271135A CN102385858B CN 102385858 B CN102385858 B CN 102385858B CN 2010102711353 A CN2010102711353 A CN 2010102711353A CN 201010271135 A CN201010271135 A CN 201010271135A CN 102385858 B CN102385858 B CN 102385858B
- Authority
- CN
- China
- Prior art keywords
- emotion
- final
- mark
- affective style
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002996 emotional effect Effects 0.000 title claims abstract description 41
- 238000001308 synthesis method Methods 0.000 title abstract 4
- 230000033764 rhythmic process Effects 0.000 claims abstract description 108
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 75
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 74
- 239000013598 vector Substances 0.000 claims abstract description 59
- 230000008451 emotion Effects 0.000 claims description 361
- 238000000034 method Methods 0.000 claims description 77
- 230000007935 neutral effect Effects 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 31
- 238000003066 decision tree Methods 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 26
- 238000009499 grossing Methods 0.000 claims description 25
- 230000002194 synthesizing effect Effects 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 10
- 230000014509 gene expression Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 31
- 230000008569 process Effects 0.000 description 23
- 230000006870 function Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 206010011469 Crying Diseases 0.000 description 3
- 206010033799 Paralysis Diseases 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
通过本发明可以使语音合成的效果更加自然,更贴近真实的阅读声音。本发明提供一种情感语音合成方法,包括:接收文本数据;对所述文本数据按韵律单元生成情感标记,其中所述情感标记被表示为一组情感矢量,所述情感矢量包括依据多个情感类型所给出的多个情感分数;以及按照所述情感标记对所述文本数据进行语音合成。其中本发明是基于韵律单元生成情感标记,而不是基于整个句子生成情感标记。并且本发明中的情感标记被表示为一组情感矢量,这使得本发明中的韵律单元有更丰富更真实的情感表达,而不是局限于一种情感类型。此外本发明无需人工干预,也就是说无需人工对每句话指定固定的情感标记。
Description
技术领域
本发明总体上涉及语音合成的方法和系统,特别的本发明涉及情感语音合成方法和系统。
背景技术
语音合成TTS是指根据韵律建模的结果,从原始语音库中取出相应的语音基元,利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成出符合要求的语音。目前几种主要语音合成工具的合成水平均已到实用阶段。
众所周知,人在阅读过程中所表达的情感可能是多种多样的,比如“Mr.Ding suffers severe paralysis since he is young,but he learns through self-study and finally wins the heartof Ms.Zhao with the help of network”这句话在阅读中可能前半句话用比较悲伤的情绪阅读,而后半句话用比较高兴的情绪阅读。然而,传统的语音合成技术并不考虑文本内容中所附加的情感信息,也就是说传统的语音合成技术对在进行语音合成时并不考虑待处理的文本所表达的情感是高兴、悲伤还是愤怒等。
情感语音合成是近几年语音合成的研究热点,在情感语音合成的研究中所必须解决的问题是确定情感状态和建立情感状态与语音的声学特征的关联关系。现有的情感语音合成技术允许操作者通过人工的方式指定某个句子的情感类别,比如人工的指定“Mr.Ding suffers severe paralysis since he is young”这句话的情感类型为悲伤,“but he learns through self-study andfinally wins the heart of Ms.Zhao with the help of network”这句话的情感类型为高兴,并且在语音合成过程中以指定的情感类型对该句子进行处理。
发明内容
本发明的发明人经研究发现,当前的情感语音合成技术中存在很多没有解决的问题,其一、由于每个句子被赋予了统一的情感类型,因此整个句子都用统一的情感来阅读因此实际效果不够自然、平滑;其二、不同句子被赋予不同的情感类型,因此在句子与句子之间出现比较突兀的情感变化;其三、人工确定句子情感的方式成本较高,不使用于语音合成的批量处理。
本发明提供一种情感语音合成技术方案,该方案用于解决上述列举的现有技术中存在的至少一个问题。具体而言,本发明一种情感语音合成方法,包括:接收文本数据;对所述文本数据按韵律单元生成情感标记,其中所述情感标记被表示为一组情感矢量,所述情感矢量包括依据多个情感类型所给出的多个情感分数;以及按照所述情感标记对所述文本数据进行语音合成。
本发明还提供一种情感语音合成系统,包括:文本数据接收模块,用于接收文本数据;情感标记生成模块,用于对所述文本数据按韵律单元生成情感标记,其中所述情感标记被表示为一组情感矢量,所述情感矢量包括依据多个情感类型所给出的多个情感分数;以及语音合成模块,用于按照所述情感标记对所述文本数据进行语音合成。
通过本发明可以使语音合成的效果更加自然,更贴近真实的阅读声音。具体而言,本发明是基于韵律单元生成情感标记,而不是基于整个句子生成情感标记。并且本发明中的情感标记被表示为一组情感矢量,所述情感矢量包括依据多个情感类型所给出的多个情感分数,这使得本发明中的韵律单元有更丰富更真实的情感表达,而不是局限于一种情感类型。此外本发明无需人工干预,也就是说无需人工对每句话指定固定的情感标记。
附图说明
本说明中所参考的附图只用于示例本发明的典型实施例,不应该认为是对本发明范围的限制。
图1示出了按照本发明的一个实施例的情感语音合成方法流程。
图2A示出了按照本发明的一个实施例对图1中的文本数据按照韵律单元生成情感标记的方法流程。
图2B示出了按照本发明的另一个实施例对图1中的文本数据按照韵律单元生成情感标记的方法流程。
图2C示出了情感矢量调整决策树的片断示意图。
图3示出了按照本发明的另一个实施例的情感语音合成方法流程。
图4A示出了按照本发明的一个实施例对图3中的文本数据按照韵律单元生成情感标记的方法流程。
图4B示出了按照本发明的另一个实施例对图3中的文本数据按照韵律单元生成情感标记的方法流程。
图5示出了按照本发明的一个实施例对图3中的文本数据进行情感平滑处理的方法流程。
图6A示出了按照本发明的一个实施例进行语音合成的方法流程。
图6B示出了按照本发明的另一个实施例进行语音合成的方法流程。
图6C示出了对基频特征而言在某一情感类型下的语音合成决策树片断示意图。
图7示出了按照本发明的一个实施例的情感语音合成系统框图。
图8A示出了按照本发明的一个实施例的情感标记生成模块的框图。
图8B示出了按照本发明的另一个实施例的情感标记生成模块的框图。
图9示出了按照本发明的另一个实施例的情感语音合成系统框图。
图10示出了按照本发明的一个实施例的图9中的情感平滑处理模块框图。
具体实施方式
下列讨论中,提供大量具体的细节以帮助彻底了解本发明。然而,很显然对于本领域技术人员来说,即使没有这些具体细节,并不影响对本发明的理解。并且应该认识到,使用如下的任何具体术语仅仅是为了方便描述,因此,本发明不应当局限于只用在这样的术语所表示和/或暗示的任何特定应用中。
本发明提供一种情感语音合成方法和系统。通过本发明可以使语音合成的效果更加自然,更贴近真实的阅读声音。具体而言,本发明是基于韵律单元生成情感标记,而不是基于整个句子生成情感标记。并且本发明中的情感标记被表示为一组情感矢量,所述情感矢量包括依据多个情感类型所给出的多个情感分数,这使得本发明中的韵律单元有更丰富更真实的情感表达,而不是局限于一种情感类型。此外本发明无需人工干预,也就是说无需人工对每句话指定固定的情感标记。本发明可以应用于各种需要实现情感语音合成的产品,包括能够进行自动朗读的电子书,能够进行户动交流的机器人以及各种可以对文字内容进行赋有情感的阅读的语音合成软件等。
图1示出了按照本发明的一个实施例的情感语音合成方法流程。在步骤101接收文本数据。所述文本数据可以是一句话、一段话或一篇文章。所述文本数据可以是基于用户的指定(比如用户选中的一段话)、也可以是由系统设定的(比如智能机器人对用户询问的回答)。并且所述文本数据可以是中文、英文或任何其它文字。
在步骤103对所述文本数据案韵律单元生成情感标记,其中所述情感标记被表示为一组情感矢量,所述情感矢量包括依据多个情感类型所给出的多个情感分数;并且其中所述韵律单元可以是字(word)、词(vocabular)、短语(phrase)。如果所述文本数据是中文,按照本发明的一种实施例,可以将所述文本数据分成若干词,每个词作为一个韵律单元,并对每个词生成情感标记。如果所述文本数据是英文,按照本发明的一种实施例,可以将所述文本数据分成若干字,每个字作为一个韵律单元,并对每个字生成情感标记。当然,总体而言,本发明对韵律单元的单位没有特别的限定,其可以是比较粗粒度的短语、也可以是比较细粒度的字。粒度越细,情感标记可能越细腻,最终的合成效果可能更接近真实发音,但计算量也会随之增加;粒度越粗,情感标记可能越粗糙,最终的合成效果可能与真实发音有一些差距,但在语音合成中的计算量会相对较低。
在步骤105按照所述情感标记对所述文本数据进行语音合成。也就是说本发明并非向现有技术那样对于一个句子使用统一的情感类型进行合成,而是对于每个韵律单元适用一种情感类型。同时,本发明在进行语音合成时还考虑每个韵律单元在每种情感类型上的程度,也就是说本发明考虑到了每种情感类型下的情感分数,从而进行更贴近真实语音效果的语音合成,具体内容将在下文进行更为详细的介绍。
图2A示出了按照本发明的一个实施例对图1中的文本数据按照韵律单元生成情感标记的方法流程。在步骤201获取所述韵律单元的初始情感分数。比如,可以定义6种情感类型,分别是:中性(neutral)、高兴(happy)、难过(sad)、感动(moved)、愤怒(angry)和不安(uneasiness)。当然本发明并只不限于上述情感类型的定义方式。如果所接收的文本数据为“Don′t feel embarrassed about cryingas it helps you release these sad emotions and become happy”,并且将该句子分成16个字(word),每个字作为一个韵律单元。在步骤201中需要获得每个字的初始情感分数,如下表1所示。为了节省空间,表1中省略了中间6个字的情感分数。
表1
如表1所示,情感矢量可以被表示为一组带有情感分数的数组。按照本发明的一种实施例,为了计算方便,对每个韵律单元而言,可以对该数组中的每个情感分数进行归一化处理,使得对于每个字而言,6个情感分数之和为1。
表1中的初始情感分数可以由多种渠道获得。按照本发明的一种实施例,所述初始情感分数可以是手工给定的数值,即手工对每个字的每个情感类型给定一个分数。对于没有给定初始情感分数的字,可以设置其缺省的初始情感分数如下表2所示。
Friday | |
中性 | 1.00 |
高兴 | 0.00 |
难过 | 0.00 |
感动 | 0.00 |
愤怒 | 0.00 |
不安 | 0.00 |
表2
按照本发明的另一种实施例,可以手工对大量句子进行情感类型的标注,比如将句子“I feel so frustrated about his behavior atFriday”的情感类型标注为“愤怒”,将“I always go to see movieat Friday night”的情感类型标注为“高兴”。然后对大量句子中的每个字所出现的情感类型进行统计,比如“Friday”曾经有10次被标记为“愤怒”,而有90次被标记为“高兴”,则“Friday”这个词的情感分数的分布可以如下表3所示。
Friday | |
中性 | 0.00 |
高兴 | 0.90 |
难过 | 0.00 |
感动 | 0.00 |
愤怒 | 0.10 |
不安 | 0.00 |
表3
按照本发明的又一种实施例,可以利用在本发明后续步骤中获得的最终情感分数对所述韵律单元的初始情感分数进行更新,从而将更新后的情感分数作为初始情感分数进行存储,比如“Friday”本身可能是个中性词,但是经过后续的步骤发现,很多句子在谈到“Friday”的时候都体现出高兴的情感色彩,因此可以通过反馈后续步骤中确定的最终情感分数对Friday这个词的初始情感分数进行更新。
当然本发明并不仅限于通过上述三种方式获得初始情感分数。
接下来,在步骤203确定所述韵律单元的最终情感分数和最终情感类型。按照本发明的一种比较简单的实施例,可以确定所述多个初始情感分数中的最大值作为最终情感分数,并且将所述最终情感分数所代表的情感类型作为最终情感类型。比如对表1中的各个字确定其最终情感分数与最终情感类型如下表4所示。
愤怒 | 0.30 | 0.35 | |||||||||
不安 | 0.80 |
表4
如表4所示,“Don′t”的最终情感分数为0.30,其最终情感类型为“愤怒”。
图2B示出了按照本发明的另一个实施例对图1中的文本数据按照韵律单元生成情感标记的方法流程。图2B中的实施例进一步根据句子的上下文语义对每个字生成情感标记,所以该实施例中的情感标记可能更加符合真实语义。首先、在步骤211中获取所述韵律单元的初始情感分数,该过程与图2A中所示的过程类似,在此不再详述。其次、在步骤213中按照所述韵律单元的上下文语义对所述初始情感分数进行调整。按照本发明的一种实施例,可以根据情感矢量调整决策树(decision tree)对所述原始情感分数进行调整,其中所述情感矢量调整决策树是基于情感矢量调整训练数据建立起来的。
其中所述情感矢量调整训练数据可以是大量经手工调整了情感分数的文本数据。比如对于“Don’t be shy”这句话,按照初始情感分数所建立的情感标记如下表5所示:
Don′t | be | shy | |
中性 | 0.20 | 1.00 | 0.00 |
高兴 | 0.00 | 0.00 | 0.00 |
难过 | 0.10 | 0.00 | 0.00 |
感动 | 0.00 | 0.00 | 0.00 |
愤怒 | 0.50 | 0.00 | 0.00 |
不安 | 0.20 | 0.00 | 1.00 |
表5
根据该句子的意思,手工对该句子的初始情感分数进行调整,调整后的情感矢量如下表6所示:
Don′t | be | shy | |
中性 | 0.40 | 0.40 | 0.40 |
高兴 | 0.00 | 0.10 | 0.00 |
难过 | 0.20 | 0.20 | 0.00 |
感动 | 0.00 | 0.20 | 0.20 |
愤怒 | 0.20 | 0.00 | 0.00 |
不安 | 0.20 | 0.10 | 0.40 |
表6
可以看到表6中,“Don’t”这个字的“中性”的情感分数提高了,而“愤怒”的情感分数降低了。表6中所示的数据就是情感矢量调整训练数据。可以基于情感矢量调整训练数据建立情感矢量调整决策树,从而总结出手工进行调整的一些规则并加以记录。决策树是按照一定规则对训练数据中的语义进行分析所得到的树状结构。决策树通常可以表现为二叉树,二叉树上的非叶子节点既可以为一系列有关语义的问题(这些问题就是情感矢量调整的条件)、也可以为“是”或“否”的答案。二叉树上的叶子节点可以是对韵律单元的情感分数进行调整的实施方案(这些实施方案就是情感矢量调整的结果)。
图2C示出了情感矢量调整决策树的片断示意图。首先判断待调整的词(比如“Don’t”)是否是动词?如果是,则进一步判断其是否是否定动词?如果否,则进行其它判断。如果其是否定动词,则进一步判断其后面三个词之内是否有形容词(比如“Don’t”就是一个否定动词)?如果其不是否定动词,则进行其它判断。如果其后面三个词之内有形容词(比如“Don’t”后面第2个词是形容词“shy”),则进一步判断该形容词的情感类型是否是“不安”、“愤怒”或“难过”之一?如果其后面三个词之内没有形容词,则进行其它判断。如果该形容词的情感类型是“不安”、“愤怒”或“难过”之一,则进一步按照手工对情感分数的调整结果对各个情感类型中的情感分数进行调整,比如在上述例子中,将情感类型为“中性”的情感分数增加20%(如将情感矢量调整训练数据中的“Don’t”的情感分数从0.20提高到0.40),并对其它情感类型的情感分数进行相应调整。基于大量情感矢量调整训练数据所建立的情感矢量调整决策树,可以自动总结出在特定条件下所应当执行的调整结果。图2C仅仅示出了情感矢量调整决策树的片段示意图。在决策树中还可以判断更多的问题作为情感调整条件。这些问题还可以是与词性相关的,比如是否为名词,是否为助词等;也可以是与实体相关的,比如是否为人名、组织名、地址名等;还可以是与位置相关的,比如是否在句首、句尾等;还可以是与句式相关的,比如是否为转折语句、并列语句等;还可以是与距离相关的,比如是否在几个词以内出现其它词性的词等。总之,通过对一系列有关语义的问题的判断可以总结并记录对韵律单元的情感分数进行调整的实施方案。在这些实施方案被记录后,当新的文本数据“Don′tfeel embarrassed…”被输入情感矢量调整决策树后,可以按照相似的过程进行遍历,并且将叶子节点中记录的对情感分数进行调整的实施方案适用到新的文本数据中,比如对“Don′t feel embarrassed…”中“Don’t”一词进行遍历后,也进入图2C中的叶子节点,并确定对“Don’t”一词的情感类型为“中性”的情感分数增加20%。通过上述调整可以使得调整后的情感分数更加符合上下文的语义。
除了情感矢量调整决策树以外,还可以根据分类器基于情感矢量调整训练数据对所述原始情感分数进行调整。所述分类器的工作原理与情感矢量调整决策树类似,只是数据结构有所差别,根据对一系列问题的判断,分类器可以统计出某一种情感类型下的情感分数的增加或者减少,并将统计结果适用于新输入的文本数据从而对其原始情感分数进行调整,使之更加符合上下文的语义。已知的一些分类器比如支持向量机分类技术(Support vector machines,SVM)、贝叶斯分类器(如Naive Bayes,NB)等。
最后、回到图2B在步骤215根据调整后的各个情感分数确定所述韵律单元的最终情感分数和最终情感类型。
图3示出了按照本发明的另一个实施例的情感语音合成方法流程。在步骤301接收文本数据。在步骤303对所述文本数据按韵律单元生成情感标记。进行情感平滑处理可以防止在一个句子中由于不同韵律单元的最终情感分数的差异而导致的情感类型的跳跃,使得一个句子的情感过度更加平滑自然,语音合成的效果比较接近真实的阅读效果。下文以对一个句子进行情感平滑处理为例进行说明,然而本发明并不仅限于只能对一个完整的句子进行情感平滑处理,本发明也可以对一个句子的一部分,或者一段话进行情感平滑处理。在步骤305基于所述韵律单元的情感标记对所述文本数据进行情感平滑处理。在步骤307按照所述情感标记对所述文本数据进行语音合成。
图4A示出了按照本发明的一个实施例对图3中的文本数据按照韵律单元生成情感标记的方法流程。图4A中的方法流程与图2A中的方法流程对应,在步骤401中获取所述韵律单元的初始情感分数,在步骤403返回所述初始情感分数。步骤401的具体内容与201的具体内容一致。由于图3所示的实施例中,增加了基于所述韵律单元的情感标记对所述文本数据进行情感平滑处理的步骤,因此确定韵律单元的最终情感分数和最终情感类型的任务将在情感平滑处理步骤中完成。在步骤403中仅仅是返回所述韵律单元的情感矢量中的初始情感分数(如表1所示),而不是确定用于语音合成的某一个最终情感分数和最终情感类型。
图4B示出了按照本发明的另一个实施例对图3中的文本数据按照韵律单元生成情感标记的方法流程。图4B中的方法流程与图2B中的方法流程对应,在步骤411中获取所述韵律单元的初始情感分数,在步骤413中按照所述韵律单元的上下文语义对所述初始情感分数进行调整,在步骤415返回所述调整后的初始情感分数。步骤411、413的具体内容分别与211、213的具体内容一致。同样,由于图3所示的实施例中,增加了基于所述韵律单元的情感标记对所述文本数据进行情感平滑处理的步骤,因此确定韵律单元的最终情感分数和最终情感类型的任务将在情感平滑处理步骤中完成。在步骤415中仅仅是返回所述韵律单元的经调整的情感矢量中的初始情感分数(即一组情感分数),而不是确定用于语音合成的某一个最终情感分数和最终情感类型。
图5示出了按照本发明的一个实施例对图3中的文本数据进行情感平滑处理的方法流程。在该流程中需要利用情感相邻训练数据,所述情感相邻训练数据中包含大量被进行情感类型标注的句子,如下表7所示:
Mr. | Ding | suffers | severe | paralysis | since | he |
中性 | 中性 | 难过 | 难过 | 难过 | 中性 | 中性 |
is | young | , | but | he | learns | through |
中性 | 中性 | 中性 | 中性 | 高兴 | 中性 | |
self-study | and | finally | wins | the | heart | of |
高兴 | 中性 | 中性 | 高兴 | 中性 | 感动 | 中性 |
Ms. | Zhao | with | the | help | of | network |
中性 | 中性 | 中性 | 中性 | 高兴 | 中性 | 中性 |
表7
表7中情感类型的标注可以是手工标注的也可以是基于手工标注进行自动扩展的。对于对情感相邻训练数据的扩展将在下文中进行更详细的描述。所述标注的形式可以是多种多样的,以如表7所示的列表方式进行标注只是其中一种方式。在其它实施例中,还可以设置一些颜色块分别表示不同的情感类型,标注者使用不同颜色的笔对情感相邻训练数据中的字进行标注。并且可以为未标准的字设置一些缺省值,比如“中性”,使得未被标注的字的情感类型都被设置为“中性”。
对大量情感相邻训练数据中的字的情感类型相邻状况进行统计可以得到如下表8所示的信息:
中性 | 高兴 | 难过 | 感动 | 愤怒 | 不安 | |
中性 | 1000 | 600 | 700 | 600 | 500 | 300 |
高兴 | 600 | 800 | 100 | 700 | 100 | 300 |
难过 | 700 | 100 | 700 | 500 | 500 | 200 |
感动 | 600 | 700 | 500 | 600 | 100 | 200 |
愤怒 | 500 | 100 | 500 | 100 | 500 | 300 |
不安 | 300 | 300 | 200 | 200 | 300 | 400 |
表8
表8表示在情感相邻训练数据中情感类型被标记为“中性”的字与情感类型被标记为“中性”的字的相邻次数为1000次,同理情感类型被标记为“高兴”的字与情感类型被标记为“中性”的字的相邻的次数为600次,依此类推。因此表8实际上可以是一个大小为7×7的表格,标记着两种情感类型的字的相邻次数。按照本发明的一个实施例,所述相邻可以是不考虑情感相邻训练数据中两种情感类型的字出现的先后次序,这样“高兴”列和“中性”行相交处记录的相邻次数与“高兴”行和“中性”列相交处记录的相邻次数完全相等。按照本发明的另一种实施例,在相邻次数的统计时考虑了两种情感类型的字出现的先后次序,这样“高兴”列和“中性”行相交处记录的相邻次数与“高兴”行和“中性”列相交处记录的相邻次数就可能不相等。
接下来可以利用下面的公式1对两种情感类型的相邻概率进行计算:
其中E1表示一种情感类型,E2表示另一种情感类型,num(E1,E2)表示E1与E2的相邻次数,表示任意两种情感类型的相邻次数之和,P(E1,E2)表示这两种情感类型的字的相邻概率。也就是说,相邻概率是根据对情感相邻训练数据进行统计而得到的,所述统计包括:记录所述情感相邻训练数据中至少两种情感类型相邻的次数。
进一步,本发明可以对P(E1,E2)进行归一化处理,使得P(Ei,Ej)中的最大值为1,而其它P(Ei,Ej)为比1小的一个相对数。从而计算两种情感类型的字的归一后的相邻概率如下表9所示:
中性 | 高兴 | 难过 | 感动 | 愤怒 | 不安 | |
中性 | 1.0 | 0.6 | 0.7 | 0.6 | 0.5 | 0.3 |
高兴 | 0.6 | 0.8 | 0.1 | 0.7 | 0.1 | 0.3 |
难过 | 0.7 | 0.1 | 0.7 | 0.5 | 0.5 | 0.2 |
感动 | 0.6 | 0.7 | 0.5 | 0.6 | 0.1 | 0.2 |
愤怒 | 0.5 | 0.1 | 0.5 | 0.1 | 0.5 | 0.3 |
不安 | 0.3 | 0.3 | 0.2 | 0.2 | 0.3 | 0.4 |
表9
根据表9可以在步骤501中对至少一个韵律单元的一种情感类型获得其与另一个韵律单元的一种情感类型的情感连接的相邻概率。比如表1中“Don’t”的“中性”情感类型与“feel”的“中性”情感类型的相邻概率为1.0,“Don’t”的“中性”情感类型与“feel”的“高兴”情感类型的相邻概率为0.6,依此类推可以获得每个字中的每种情感类型与其它字的每一情感类型之间的相邻概率。
在步骤503中基于所述相邻概率以及各个情感类型的情感分数确定所述文本数据的最终情感路径。对于句子“Don′t feelembarrassed about crying as it helps you release these sademotions and become happy”而言,假设表1中列举了该句子在步骤303中进行的情感标记,那么可以根据步骤501中获得的所有相邻概率描述出总共616种情感路径。在步骤503中可以选择这些情感路径中相邻概率之和和情感分数之和最大的路径作为最终情感路径如下表10所示:
表10
表10中由箭头示出的最终情感路径相比与其它情感路径而言,其相邻概率之和(1.0+0.3+0.3+0.7+……)和情感分数之和(0.2+0.4+0.8+1+0.3+……)最大。最终情感路径的确定是要综合考虑每个字在某一情感类型上的情感分数,以及两种情感类型的相邻概率,从而得出可能性最大的那条路径。最终情感路径的确定可以由多种动态规划算法实现,比如还可以对上述相邻概率之和以及情感分数之和进行加权,从而找出加权求和后概率最大的情感路径,作为最终情感路径。
在步骤505根据所述最终情感路径确定韵律单元的最终情感类型,并获取所述最终情感类型的情感分数作为最终情感分数。比如确定“Don’t”的最终情感类型为“中性”,最终情感分数为0.2。
确定最终情感路径可以使文本数据的表达更加平滑,更加贴近真实阅读中所表现出的情感状态。比如,如果不进行情感平滑处理,“Don’t”最终情感类型可能被确定为“愤怒”而不是“中性”。情感平滑处理与图2B中介绍的情感矢量调整总体而言都是为了使文本数据中的每个韵律单元的最终情感分数和最终情感类型更加贴近真实阅读状态。不过二者侧重有所不同,情感矢量调整更侧重于使得情感分数更加符合真实的语义内容,而情感平滑处理更侧重于使得情感类型的选择更加平滑、避免突兀。
如上文所述,本发明还可以进一步实现对所述情感相邻训练数据进行扩展。按照本发明的一个实施例,基于所形成的最终情感路径自动对所述情感相邻训练数据进行扩展。比如从表10中的最终情感路径可以进一步得出新的情感相邻训练数据如下表11所示,从而实现对情感相邻训练数据的扩展:
Don′t | feel | embarrassed | about | crying | … | sad | emotions | and | become | happy |
中性 | 中性 | 不安 | 中性 | 难过 | 难过 | 中性 | 中性 | 中性 | 高兴 |
表11
按照本发明的另一个实施例,通过连接所述韵律单元的情感分数最大的情感类型从而自动对所述情感相邻训练数据进行扩展。在该实施例中并未基于最终情感路径确定每个韵律单元的最终情感类型,而是对步骤303中的所标记的情感矢量进行分析,选出情感矢量中情感分数最大的值所代表的情感类型从而自动的对所述情感相邻训练数据进行扩展。举例而言,如果表1中所示是步骤303中所标记出的情感矢量,那么根据这些情感矢量得出的新的情感相邻训练数据为下表12所示:
表12
表12所获得情感相邻训练数据由于没有经过平滑处理,因此其所确定的某些情感类型(比如“Don’t”)可能不太符合真实的情感状态。但是表12中的扩展方式与表11中的扩展方式相比,计算量较小。
当然本发明并不排除使用更多的扩展方式对情感相邻训练数据进行扩展。
接下来对如何进行语音合成进行详细说明。值得注意的是下文中进行语音合成的实施例既适用于图3所示的实施例中的步骤307,同时也可以适用于图1所示的实施例中的步骤105。进一步所述按照所述情感标记对所述文本数据进行语音合成的步骤还包括:按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成。本发明在语音合成时不仅要考虑到某一韵律单元被选定的最终情感类型,并且还要考虑到某一韵律单元的最终情感类型的最终情感分数,这样才能在语音合成中充分体现每个韵律单元的情感特征。
图6A示出了按照本发明的一个实施例进行语音合成的方法流程。在步骤601,将所述韵律单元分解为音素(phone)。比如对于“Embarrassed”这个词,其按照通用的语言结构可以被分解为8个音素如下表13所示:
EH | M | B | AE | R | IH | S | T |
表13
在步骤603,对于所述音素中的每个音素根据下述公式2确定其语音特征:
Fi=(1-Pemotion)*Fi-neutral+Pemotion*Fi-emotion 公式2
其中Fi表示所述音素的第i项语音特征取值,Pemotion表示所述音素所在韵律单元的最终情感分数,Fi-neutral表示第i项语音特征在中性情感类型中的语音特征取值,Fi-emotion表示第i项语音特征在所述最终情感类型中的语音特征取值。
如对于表10中的“embarrassed”一词而言,其语音特征为:
Fi=(1-0.8)*Fi-中性+0.8*Fi-不安
其中所述语音特征是下列各项中的一项或多项:基频特征、频谱特征、时长特征。所述基频特征可以体现为基频的均值或基频的方差中的一种或两种。所述频谱特征可以体现为24维线谱频率(LSF),也就是频谱中比较有代表性的一些频率。24维线谱频率(LSF)是一组24维的矢量。所述时长特征就是该音素所持续的时间长短。
对于每一种语音特征下的每一种情感类型,都存在预先录制的语料库,比如播音员分别以愤怒、悲伤、高兴等情感阅读大量文本数据并存储到相应的预料库中。对于每一种语音特征下的每一种情感类型的预料库,建立一棵语音合成决策树,所述语音合成决策树典型的可以是二叉树。所述语音合成决策树的叶子节点记录每个音素所应当有的语音特征(包括基频特征、时长特征或频谱特征)。语音合成决策树中的非叶子节点既可以是一系列有关语音特征的问题,也可以是“是”或“否”的答案。
图6C示出了对基频特征而言在某一情感类型下的语音合成决策树片断示意图。图6C中的决策树是通过遍历某一情感类型下的语料库而得出的,通过对一系列问题进行判断,从而可以记录在语料库中的某个音素的基频特征。比如,对于一个音素而言,首先判断其是否是位于一个字的字头?如果是,则进一步判断其该音素是否是元音?如果否,则执行其它操作。如果该音素是元音,则进一步判断其后面是否接一个辅音?如果该音素不是元音,则继续执行其它操作。如果该音素后面是接一个辅音,则记录语料库中该音素的基频特征,包括基频均值为280HZ,基频方差为10HZ。通过自动学习语料库中的所有语句可以构建出一个庞大的语音合成决策树。图6C仅仅示意性的描述的其中的一个片断。除此以外,语音合成决策树中还可以就下面这些内容提出问题并进行判断:一个音素在音节/词/韵律短语/句子中的位置,当前音节/词/韵律短语中音素的个数,当前/前一个/后一个音素为元音还是辅音,当前/前一个/后一个元音音素的发音位置:前元音、后元音和中元音,以及当前/前一个/后一个元音音素的口形张开的程度:窄元音和宽元音等。建立某一情感类型下的语音合成决策树后,就可以输入文本数据中的某一韵律单元的某一音素,并通过对一系列问题的判断,从而确定该音素的在该情感类型下的基频特征(比如Fi-不安)。同理,也可以构建各个情感类型下的有关频谱特征的语音合成决策树和有关时长特征的语音合成决策树,从而确定该音素在特定情感类型下的频谱特征和时长特征。
进一步,本发明还可以将一个音素划分为若干状态(state),比如将一个音素划分为5个状态,并且就针对状态建立在每种情感类型下的有关每种语音特征的决策树,并通过决策树查询文本数据中的某一韵律单元的某一音素的某一状态的语音特征。
然而本发明并不限于简单的利用上述方法获得某一情感类型下的音素的语音特征从而进行语音合成。也就是说按照本发明的一个实施例,不仅在语音合成过程中考虑了音素所在的韵律单元的最终情感类型,并且还考虑了其最终情感分数(如公式2中的Pemotion)。从公式2可以看出,最终情感分数越大,所述音素的第i项语音特征取值就越靠近某一最终情感类型下的语音特征取值;相反,最终情感分数越小,所述音素的第i项语音特征取值就越靠近“中性”情感类型下的语音特征取值。公式2进一步使得语音合成的过程更加平滑,避免由于情感类型跳跃所导致的突兀的不自然的语音合成效果。
当然公式2所示出的语音合成方法还可以进行各种变型。比如,图6B示出了按照本发明的另一个实施例进行语音合成的方法流程。在步骤611中,将所述韵律单元分解为音素。如果所述音素所在韵律单元的所述最终情感分数大于一定阈值,则按照下述公示确定所述音素的语音特征(步骤613):
Fi=Fi-emotion
如果所述音素所在韵律单元的所述最终情感分数小于一定阈值,则按照下述公示确定所述音素的语音特征(步骤615):
Fi=Fi-neutral,
其中Fi表示所述音素的第i项语音特征取值,Fi-neutral表示第i项语音特征在“中性”情感类型中的语音特征取值,Fi-emotion表示第i项语音特征在所述最终情感类型中的语音特征取值。
实际上本发明并不仅限于图6A和图6B所示的实施方式,还包括其它的语音合成方式。
图7示出了按照本发明的一个实施例的情感语音合成系统框图。图7中的情感语音合成系统701进一步包括文本数据接收模块703,用于接收文本数据;情感标记生成模块705,用于对所述文本数据按韵律单元生成情感标记,其中所述情感标记被表示为一组情感矢量,所述情感矢量包括依据多个情感类型所给出的多个情感分数;以及语音合成模块707,用于按照所述情感标记对所述文本数据进行语音合成。
图8A示出了按照本发明的一个实施例的情感标记生成模块705的框图。所述情感标记生成模块705进一步包括:初始情感分数获取模块803,用于获取韵律单元的对应于每种情感类型的初始情感分数;以及最终情感确定模块805,用于确定所述多个情感分数中的最大值作为最终情感分数,并且将所述最终情感分数所代表的情感类型作为最终情感类型。
图8B示出了按照本发明的另一个实施例的情感标记生成模块705的框图。所述情感标记生成模块705进一步包括:初始情感分数获取模块813,用于获取韵律单元的对应于每种情感类型的初始情感分数;情感矢量调整模块815,用于按照所述韵律单元的上下文对所述情感矢量进行调整;以及最终情感确定模块817,用于确定所述经调整后的多个情感分数中的最大值作为最终情感分数,并且将所述最终情感分数所代表的情感类型作为最终情感类型。
图9示出了按照本发明的另一个实施例的情感语音合成系统框图。所述情感语音合成系统901包括:文本数据接收模块903,用于接收文本数据;情感标记生成模块905,用于对所述文本数据按韵律单元生成情感标记,其中所述情感标记被表示为一组情感矢量,所述情感矢量包括依据多个情感类型所给出的多个情感分数;情感平滑处理模块907,用于基于所述韵律单元的情感标记对所述文本数据进行情感平滑处理;以及语音合成模块909,用于按照所述情感标记对所述文本数据进行语音合成。
进一步,语音合成模块909还用于按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成。
图10示出了按照本发明的一个实施例的图9中的情感平滑处理模块907框图。所述情感平滑处理模块907包括:相邻概率获得模块1003,用于对至少一个韵律单元的一种情感类型获得其与另一个相邻韵律单元的一种情感类型的情感连接的相邻概率;最终情感路径确定模块1005,用于基于所述相邻概率以及各个情感类型的情感分数确定所述文本数据的最终情感路径;以及最终情感确定模块1007,用于根据所述最终情感路径确定韵律单元的最终情感类型,并且获取所述最终情感类型的情感分数作为最终情感分数。
图7-图10中各个模块的所执行和完成的功能流程已经在前文中进行了详细的介绍,参见对图1-6C的描述,在此不再赘述。
所属技术领域的技术人员知道,本发明可以体现为系统、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即,可以是完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、或者本文一般称为“电路”、“模块”或“系统”的软件部分与硬件部分的组合。此外,本发明还可以采取体现在任何有形的表达介质(medium of expression)中的计算机程序产品的形式,该介质中包含计算机可用的程序码。
可以使用一个或多个计算机可用的或计算机可读的介质的任何组合。计算机可用的或计算机可读的介质例如可以是——但不限于——电的、磁的、光的、电磁的、红外线的、或半导体的系统、装置、器件或传播介质。计算机可读介质的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、诸如支持因特网或内部网的传输介质、或者磁存储器件。注意计算机可用的或计算机可读的介质甚至可以是上面印有程序的纸张或者其它合适的介质,这是因为,例如可以通过电扫描这种纸张或其它介质,以电子方式获得程序,然后以适当的方式加以编译、解释或处理,并且必要的话在计算机存储器中存储。在本文件的语境中,计算机可用的或计算机可读的介质可以是任何含有、存储、传达、传播、或传输供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的介质。计算机可用的介质可包括在基带中或者作为载波一部分传播的、由其体现计算机可用的程序码的数据信号。计算机可用的程序码可以用任何适当的介质传输,包括—但不限于—无线、电线、光缆、RF等等。
用于执行本发明的操作的计算机程序码,可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言—诸如”C”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。
以下参照按照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。要明白的是,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令,产生实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品。
也可以把计算机程序指令加载到计算机或其它可编程数据处理装置上,使得在计算机或其它可编程数据处理装置上执行一系列操作步骤,以产生计算机实现的过程,从而在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本文中所用的术语,仅仅是为了描述特定的实施例,而不意图限定本发明。本文中所用的单数形式的“一”和“该”,旨在也包括复数形式,除非上下文中明确地另外指出。还要知道,“包含”一词在本说明书中使用时,说明存在所指出的特征、整体、步骤、操作、单元和/或组件,但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件,以及/或者它们的组合。
权利要求中的对应结构、材料、操作以及所有功能性限定的装置(means)或步骤的等同替换,旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。所给出的对本发明的描述其目的在于示意和描述,并非是穷尽性的,也并非是要把本发明限定到所表述的形式。对于所属技术领域的普通技术人员来说,在不偏离本发明范围和精神的情况下,显然可以作出许多修改和变型。对实施例的选择和说明,是为了最好地解释本发明的原理和实际应用,使所属技术领域的普通技术人员能够明了,本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。
Claims (17)
1.一种情感语音合成方法,包括:
接收文本数据;
对所述文本数据按韵律单元生成情感标记,其中所述情感标记被表示为一组情感矢量,所述情感矢量包括依据多个情感类型所给出的多个情感分数;以及
按照所述情感标记对所述文本数据进行语音合成,
所述方法还包括:
基于所述韵律单元的情感标记对所述文本数据进行情感平滑处理。
2.如权利要求1所述的方法,其中对所述文本数据按韵律单元生成情感标记进一步包括:
确定所述多个情感分数中的最大值作为最终情感分数,并且将所述最终情感分数所代表的情感类型作为最终情感类型,以及
其中按照所述情感标记对所述文本数据进行语音合成进一步包括:
按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成。
3.如权利要求1所述的方法,其中对所述文本数据按韵律单元生成情感标记进一步包括:
按照所述韵律单元的上下文对所述情感矢量进行调整,
根据调整后的各个情感分数确定所述韵律单元的最终情感分数和最终情感类型,并且
其中按照所述情感标记对所述文本数据进行语音合成进一步包括:
按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成。
4.如权利要求3所述的方法,其中对所述情感矢量进行调整进一步包括:
根据情感矢量调整决策树对所述韵律单元的情感分数进行调整,其中所述情感矢量调整决策树是基于情感矢量调整训练数据建立起来的。
5.如权利要求1所述的方法,其中对所述文本数据进行情感平滑处理进一步包括:
对至少一个韵律单元的一种情感类型获得其与另一个相邻韵律单元的一种情感类型的情感连接的相邻概率;
基于所述相邻概率以及各个情感类型的情感分数确定所述文本数据的最终情感路径;以及
根据所述最终情感路径确定韵律单元的最终情感类型。
6.如权利要求5所述的方法,其中确定韵律单元的最终情感类型进一步包括:
获取所述最终情感类型的情感分数作为最终情感分数,并且其中按照所述情感标记对所述文本数据进行语音合成进一步包括:
按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成。
7.如权利要求5所述的方法,其中所述相邻概率是根据对情感相邻训练数据进行统计而得到的,并且所述统计进一步包括:
记录所述情感相邻训练数据中至少两种情感类型相邻的次数。
8.如权利要求7所述的方法,进一步包括:
基于所形成的最终情感路径自动对所述情感相邻训练数据进行扩展。
9.如权利要求7所述的方法,进一步包括:
通过连接所述韵律单元的情感分数最大的情感类型从而自动对所述情感相邻训练数据进行扩展。
10.如权利要求2、3或6之一所述的方法,所述按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成进一步包括:
将所述韵律单元分解为音素;以及
对于所述音素根据下述公式确定其语音特征:
Fi=(1-Pemotion)*Fi-neutral+Pemotion*Fi-emotion
其中Fi表示所述音素的第i项语音特征取值,Pemotion表示所述音素所在韵律单元的最终情感分数,Fi-eutral表示第i项语音特征在中性情感类型中的语音特征取值,Fi-emotion表示第i项语音特征在所述最终情感类型中的语音特征取值。
11.如权利要求2、3或6之一所述的方法,其中所述按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成进一步包括:
将所述韵律单元分解为音素;以及
如果所述音素所在韵律单元的所述最终情感分数大于一定阈值,则按照下述公示确定所述音素的语音特征:
Fi=Fi-emotion
如果所述音素所在韵律单元的所述最终情感分数小于一定阈值,则按照下述公示确定所述音素的语音特征:
Fi=Fi-neutral,
其中Fi表示所述音素的第i项语音特征取值,Fi-neutral表示第i项语音特征在中性情感类型中的语音特征取值,Fi-emotion表示第i项语音特征在所述最终情感类型中的语音特征取值。
12.如权利要求10或11所述的方法,其中所述语音特征是下列各项中的一项或多项:
基频特征、频谱特征、时长特征。
13.如前述任意一个权利要求所述的方法,其中所述韵律单元是下列各项中的一项:
字、词、短语。
14.一种情感语音合成系统,包括:
文本数据接收模块,用于接收文本数据;
情感标记生成模块,用于对所述文本数据按韵律单元生成情感标记,其中所述情感标记被表示为一组情感矢量,所述情感矢量包括依据多个情感类型所给出的多个情感分数;以及
语音合成模块,用于按照所述情感标记对所述文本数据进行语音合成,
所述系统进一步包括:
情感平滑处理模块,用于基于所述韵律单元的情感标记对所述文本数据进行情感平滑处理。
15.如权利要求14所述的系统,其中所述情感标记生成模块进一步包括:
最终情感确定模块,用于确定所述多个情感分数中的最大值作为最终情感分数,并且将所述最终情感分数所代表的情感类型作为最终情感类型,并且
其中所述语音合成模块进一步用于按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成。
16.如权利要求14所述的系统,其中所述情感标记生成模块进一步包括:
情感矢量调整模块,用于按照所述韵律单元的上下文对所述情感矢量进行调整;以及
最终情感确定模块,用于根据调整后的各个情感分数确定所述韵律单元的最终情感分数和最终情感类型,并且
所述语音合成模块进一步按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成。
17.如权利要求14所述的系统,其中所述情感平滑处理模块进一步包括:
相邻概率获得模块,用于对至少一个韵律单元的一种情感类型获得其与另一个相邻韵律单元的一种情感类型的情感连接的相邻概率;
最终情感路径确定模块,用于基于所述相邻概率以及各个情感类型的情感分数确定所述文本数据的最终情感路径;以及
最终情感确定模块,用于根据所述最终情感路径确定韵律单元的最终情感类型,并且获取所述最终情感类型的情感分数作为最终情感分数,并且
所述语音合成模块进一步用于按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102711353A CN102385858B (zh) | 2010-08-31 | 2010-08-31 | 情感语音合成方法和系统 |
US13/221,953 US9117446B2 (en) | 2010-08-31 | 2011-08-31 | Method and system for achieving emotional text to speech utilizing emotion tags assigned to text data |
US14/807,052 US9570063B2 (en) | 2010-08-31 | 2015-07-23 | Method and system for achieving emotional text to speech utilizing emotion tags expressed as a set of emotion vectors |
US15/375,634 US10002605B2 (en) | 2010-08-31 | 2016-12-12 | Method and system for achieving emotional text to speech utilizing emotion tags expressed as a set of emotion vectors |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102711353A CN102385858B (zh) | 2010-08-31 | 2010-08-31 | 情感语音合成方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102385858A CN102385858A (zh) | 2012-03-21 |
CN102385858B true CN102385858B (zh) | 2013-06-05 |
Family
ID=45825227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010102711353A Active CN102385858B (zh) | 2010-08-31 | 2010-08-31 | 情感语音合成方法和系统 |
Country Status (2)
Country | Link |
---|---|
US (3) | US9117446B2 (zh) |
CN (1) | CN102385858B (zh) |
Families Citing this family (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9678948B2 (en) * | 2012-06-26 | 2017-06-13 | International Business Machines Corporation | Real-time message sentiment awareness |
GB2505400B (en) * | 2012-07-18 | 2015-01-07 | Toshiba Res Europ Ltd | A speech processing system |
US9460083B2 (en) | 2012-12-27 | 2016-10-04 | International Business Machines Corporation | Interactive dashboard based on real-time sentiment analysis for synchronous communication |
US9690775B2 (en) | 2012-12-27 | 2017-06-27 | International Business Machines Corporation | Real-time sentiment analysis for synchronous communication |
US10073830B2 (en) * | 2014-01-10 | 2018-09-11 | Cluep Inc. | Systems, devices, and methods for automatic detection of feelings in text |
KR102222122B1 (ko) * | 2014-01-21 | 2021-03-03 | 엘지전자 주식회사 | 감성음성 합성장치, 감성음성 합성장치의 동작방법, 및 이를 포함하는 이동 단말기 |
US20150324348A1 (en) * | 2014-05-09 | 2015-11-12 | Lenovo (Singapore) Pte, Ltd. | Associating an image that corresponds to a mood |
US10192541B2 (en) * | 2014-06-05 | 2019-01-29 | Nuance Communications, Inc. | Systems and methods for generating speech of multiple styles from text |
EP3191934A4 (en) * | 2014-09-09 | 2018-05-23 | Botanic Technologies, Inc. | Systems and methods for cinematic direction and dynamic character control via natural language output |
US9824681B2 (en) | 2014-09-11 | 2017-11-21 | Microsoft Technology Licensing, Llc | Text-to-speech with emotional content |
JP6415929B2 (ja) * | 2014-10-30 | 2018-10-31 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
US9582496B2 (en) * | 2014-11-03 | 2017-02-28 | International Business Machines Corporation | Facilitating a meeting using graphical text analysis |
US20160300023A1 (en) * | 2015-04-10 | 2016-10-13 | Aetna Inc. | Provider rating system |
CN105139848B (zh) * | 2015-07-23 | 2019-01-04 | 小米科技有限责任公司 | 数据转换方法和装置 |
JP6483578B2 (ja) * | 2015-09-14 | 2019-03-13 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
RU2632424C2 (ru) | 2015-09-29 | 2017-10-04 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер для синтеза речи по тексту |
US10262555B2 (en) | 2015-10-09 | 2019-04-16 | Microsoft Technology Licensing, Llc | Facilitating awareness and conversation throughput in an augmentative and alternative communication system |
US9679497B2 (en) | 2015-10-09 | 2017-06-13 | Microsoft Technology Licensing, Llc | Proxies for speech generating devices |
US10148808B2 (en) | 2015-10-09 | 2018-12-04 | Microsoft Technology Licensing, Llc | Directed personal communication for speech generating devices |
CN105355193B (zh) * | 2015-10-30 | 2020-09-25 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN105280179A (zh) * | 2015-11-02 | 2016-01-27 | 小天才科技有限公司 | 一种文字转语音的处理方法及系统 |
CN106708789B (zh) * | 2015-11-16 | 2020-07-14 | 重庆邮电大学 | 一种文本处理方法及装置 |
CN106910497B (zh) * | 2015-12-22 | 2021-04-16 | 阿里巴巴集团控股有限公司 | 一种中文词语发音预测方法及装置 |
US20180082679A1 (en) | 2016-09-18 | 2018-03-22 | Newvoicemedia, Ltd. | Optimal human-machine conversations using emotion-enhanced natural speech using hierarchical neural networks and reinforcement learning |
JP7100422B2 (ja) | 2016-10-21 | 2022-07-13 | 富士通株式会社 | データプロパティ認識のための装置、プログラム、及び方法 |
ES2765415T3 (es) | 2016-10-21 | 2020-06-09 | Fujitsu Ltd | Aparato, método y programa de procesamiento de datos basado en microservicios |
JP6805765B2 (ja) | 2016-10-21 | 2020-12-23 | 富士通株式会社 | ソフトウェアサービスの実行のためのシステム、方法、及びプログラム |
EP3312722A1 (en) | 2016-10-21 | 2018-04-25 | Fujitsu Limited | Data processing apparatus, method, and program |
US10776170B2 (en) | 2016-10-21 | 2020-09-15 | Fujitsu Limited | Software service execution apparatus, system, and method |
US10074359B2 (en) | 2016-11-01 | 2018-09-11 | Google Llc | Dynamic text-to-speech provisioning |
CN106910514A (zh) * | 2017-04-30 | 2017-06-30 | 上海爱优威软件开发有限公司 | 语音处理方法及系统 |
CN107103900B (zh) * | 2017-06-06 | 2020-03-31 | 西北师范大学 | 一种跨语言情感语音合成方法及系统 |
US10565994B2 (en) | 2017-11-30 | 2020-02-18 | General Electric Company | Intelligent human-machine conversation framework with speech-to-text and text-to-speech |
US10783329B2 (en) * | 2017-12-07 | 2020-09-22 | Shanghai Xiaoi Robot Technology Co., Ltd. | Method, device and computer readable storage medium for presenting emotion |
CN108053696A (zh) * | 2018-01-04 | 2018-05-18 | 广州阿里巴巴文学信息技术有限公司 | 一种根据阅读内容进行声音播放的方法、装置和终端设备 |
CN110556092A (zh) * | 2018-05-15 | 2019-12-10 | 中兴通讯股份有限公司 | 语音的合成方法及装置、存储介质、电子装置 |
US11031003B2 (en) | 2018-05-25 | 2021-06-08 | Microsoft Technology Licensing, Llc | Dynamic extraction of contextually-coherent text blocks |
CN108550363B (zh) * | 2018-06-04 | 2019-08-27 | 百度在线网络技术(北京)有限公司 | 语音合成方法及装置、计算机设备及可读介质 |
CN109102796A (zh) * | 2018-08-31 | 2018-12-28 | 北京未来媒体科技股份有限公司 | 一种语音合成方法及装置 |
CN111048062B (zh) * | 2018-10-10 | 2022-10-04 | 华为技术有限公司 | 语音合成方法及设备 |
CN111192568B (zh) * | 2018-11-15 | 2022-12-13 | 华为技术有限公司 | 一种语音合成方法及语音合成装置 |
CN109712604A (zh) * | 2018-12-26 | 2019-05-03 | 广州灵聚信息科技有限公司 | 一种情感语音合成控制方法和装置 |
US10909328B2 (en) * | 2019-01-04 | 2021-02-02 | International Business Machines Corporation | Sentiment adapted communication |
KR102582291B1 (ko) * | 2019-01-11 | 2023-09-25 | 엘지전자 주식회사 | 감정 정보 기반의 음성 합성 방법 및 장치 |
CN110427454B (zh) * | 2019-06-21 | 2024-03-15 | 平安科技(深圳)有限公司 | 文本情绪分析方法及装置、电子设备和非暂态存储介质 |
KR102630490B1 (ko) * | 2019-09-06 | 2024-01-31 | 엘지전자 주식회사 | 감정 정보 보정을 이용한 합성 음성 생성 방법 및 이를 위한 장치 |
CN110600002B (zh) * | 2019-09-18 | 2022-04-22 | 北京声智科技有限公司 | 语音合成方法、装置及电子设备 |
CN112765971B (zh) * | 2019-11-05 | 2023-11-17 | 北京火山引擎科技有限公司 | 文本语音的转换方法、装置、电子设备及存储介质 |
CN111178068B (zh) * | 2019-12-25 | 2023-05-23 | 华中科技大学鄂州工业技术研究院 | 一种基于对话情绪检测的催收暴力倾向评价方法和装置 |
CN111128118B (zh) * | 2019-12-30 | 2024-02-13 | 科大讯飞股份有限公司 | 语音合成方法、相关设备及可读存储介质 |
CN111145719B (zh) * | 2019-12-31 | 2022-04-05 | 北京太极华保科技股份有限公司 | 将中英混合及语气标签化的数据标注方法及装置 |
CN111627420B (zh) * | 2020-04-21 | 2023-12-08 | 升智信息科技(南京)有限公司 | 极低资源下的特定发音人情感语音合成方法及装置 |
CN112002329B (zh) * | 2020-09-03 | 2024-04-02 | 深圳Tcl新技术有限公司 | 身心健康监测方法、设备及计算机可读存储介质 |
CN112185389B (zh) * | 2020-09-22 | 2024-06-18 | 北京小米松果电子有限公司 | 语音生成方法、装置、存储介质和电子设备 |
US11080484B1 (en) * | 2020-10-08 | 2021-08-03 | Omniscient Neurotechnology Pty Limited | Natural language processing of electronic records |
CN112349272A (zh) * | 2020-10-15 | 2021-02-09 | 北京捷通华声科技股份有限公司 | 语音合成方法、装置、存储介质及电子装置 |
JP7413237B2 (ja) | 2020-11-16 | 2024-01-15 | 株式会社東芝 | サスペンションアッセンブリおよびディスク装置 |
CN112489621B (zh) * | 2020-11-20 | 2022-07-12 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
CN112446217B (zh) * | 2020-11-27 | 2024-05-28 | 广州三七互娱科技有限公司 | 情感分析方法、装置及电子设备 |
CN112786007B (zh) * | 2021-01-20 | 2024-01-26 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
CN112786008B (zh) * | 2021-01-20 | 2024-04-12 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
CN113409765B (zh) * | 2021-06-11 | 2024-04-26 | 北京搜狗科技发展有限公司 | 一种语音合成方法、装置和用于语音合成的装置 |
CN114065742B (zh) * | 2021-11-19 | 2023-08-25 | 马上消费金融股份有限公司 | 一种文本检测方法和装置 |
WO2023102929A1 (zh) * | 2021-12-10 | 2023-06-15 | 清华大学深圳国际研究生院 | 音频合成方法、电子设备、程序产品及存储介质 |
US20230252972A1 (en) * | 2022-02-08 | 2023-08-10 | Snap Inc. | Emotion-based text to speech |
US11557318B1 (en) | 2022-03-29 | 2023-01-17 | Sae Magnetics (H.K.) Ltd. | Head gimbal assembly, manufacturing method thereof, and disk drive unit |
CN114678006B (zh) * | 2022-05-30 | 2022-08-23 | 广东电网有限责任公司佛山供电局 | 一种基于节奏的语音合成方法及系统 |
CN115082602B (zh) * | 2022-06-15 | 2023-06-09 | 北京百度网讯科技有限公司 | 生成数字人的方法、模型的训练方法、装置、设备和介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1345207A1 (en) * | 2002-03-15 | 2003-09-17 | Sony Corporation | Method and apparatus for speech synthesis program, recording medium, method and apparatus for generating constraint information and robot apparatus |
CN100539728C (zh) * | 2005-05-30 | 2009-09-09 | 京瓷株式会社 | 音频输出装置、文档阅读方法和移动终端 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5860064A (en) | 1993-05-13 | 1999-01-12 | Apple Computer, Inc. | Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6847931B2 (en) | 2002-01-29 | 2005-01-25 | Lessac Technology, Inc. | Expressive parsing in computerized conversion of text to speech |
US20060069567A1 (en) | 2001-12-10 | 2006-03-30 | Tischer Steven N | Methods, systems, and products for translating text to speech |
US7401020B2 (en) | 2002-11-29 | 2008-07-15 | International Business Machines Corporation | Application of emotion-based intonation and prosody to speech in text-to-speech systems |
US7054807B2 (en) * | 2002-11-08 | 2006-05-30 | Motorola, Inc. | Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters |
US7983910B2 (en) * | 2006-03-03 | 2011-07-19 | International Business Machines Corporation | Communicating across voice and text channels with emotion preservation |
US20080059190A1 (en) | 2006-08-22 | 2008-03-06 | Microsoft Corporation | Speech unit selection using HMM acoustic models |
CN101506874B (zh) * | 2006-09-13 | 2011-12-07 | 日本电信电话株式会社 | 情感检测方法、情感检测装置 |
US8886537B2 (en) * | 2007-03-20 | 2014-11-11 | Nuance Communications, Inc. | Method and system for text-to-speech synthesis with personalized voice |
BRPI0809759A2 (pt) * | 2007-04-26 | 2014-10-07 | Ford Global Tech Llc | "sistema informativo emotivo, sistemas de informações emotivas, métodos de condução emotiva de informações, sistemas informativos emotivos para um veículo de passageiro e método implementado por computador" |
CN101452699A (zh) * | 2007-12-04 | 2009-06-10 | 株式会社东芝 | 韵律自适应及语音合成的方法和装置 |
US8463594B2 (en) * | 2008-03-21 | 2013-06-11 | Sauriel Llc | System and method for analyzing text using emotional intelligence factors |
US8166032B2 (en) * | 2009-04-09 | 2012-04-24 | MarketChorus, Inc. | System and method for sentiment-based text classification and relevancy ranking |
TWI430189B (zh) * | 2009-11-10 | 2014-03-11 | Inst Information Industry | 訊息擬真處理系統、裝置及方法 |
US8682649B2 (en) * | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
GB2478314B (en) * | 2010-03-02 | 2012-09-12 | Toshiba Res Europ Ltd | A speech processor, a speech processing method and a method of training a speech processor |
US8725494B2 (en) * | 2010-03-31 | 2014-05-13 | Attivio, Inc. | Signal processing approach to sentiment analysis for entities in documents |
-
2010
- 2010-08-31 CN CN2010102711353A patent/CN102385858B/zh active Active
-
2011
- 2011-08-31 US US13/221,953 patent/US9117446B2/en not_active Expired - Fee Related
-
2015
- 2015-07-23 US US14/807,052 patent/US9570063B2/en not_active Expired - Fee Related
-
2016
- 2016-12-12 US US15/375,634 patent/US10002605B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1345207A1 (en) * | 2002-03-15 | 2003-09-17 | Sony Corporation | Method and apparatus for speech synthesis program, recording medium, method and apparatus for generating constraint information and robot apparatus |
CN100539728C (zh) * | 2005-05-30 | 2009-09-09 | 京瓷株式会社 | 音频输出装置、文档阅读方法和移动终端 |
Also Published As
Publication number | Publication date |
---|---|
CN102385858A (zh) | 2012-03-21 |
US9117446B2 (en) | 2015-08-25 |
US20130054244A1 (en) | 2013-02-28 |
US9570063B2 (en) | 2017-02-14 |
US20170092260A1 (en) | 2017-03-30 |
US10002605B2 (en) | 2018-06-19 |
US20150325233A1 (en) | 2015-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102385858B (zh) | 情感语音合成方法和系统 | |
Watts et al. | Sentence-level control vectors for deep neural network speech synthesis | |
Dutoit | An introduction to text-to-speech synthesis | |
US9978360B2 (en) | System and method for automatic detection of abnormal stress patterns in unit selection synthesis | |
US8359200B2 (en) | Generating profiles of words | |
Hamza et al. | The IBM expressive speech synthesis system. | |
CN110364140A (zh) | 歌声合成模型的训练方法、装置、计算机设备以及存储介质 | |
Inoue et al. | Model architectures to extrapolate emotional expressions in DNN-based text-to-speech | |
Zhu et al. | Building a controllable expressive speech synthesis system with multiple emotion strengths | |
Ludusan et al. | Does infant‐directed speech help phonetic learning? A machine learning investigation | |
Nakata et al. | Audiobook speech synthesis conditioned by cross-sentence context-aware word embeddings | |
CN116303966A (zh) | 基于提示学习的对话行为识别系统 | |
Unander-Scharin | Extending opera-artist-led explorations in operatic practice through interactivity and electronics | |
Chomphan et al. | Tone correctness improvement in speaker dependent HMM-based Thai speech synthesis | |
KR102072162B1 (ko) | 인공 지능 기반 외국어 음성 합성 방법 및 장치 | |
Sheikhan | Generation of suprasegmental information for speech using a recurrent neural network and binary gravitational search algorithm for feature selection | |
Hitczenko et al. | When context is and isn’t helpful: A corpus study of naturalistic speech | |
Chen et al. | Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features | |
China Bhanja et al. | Modelling multi-level prosody and spectral features using deep neural network for an automatic tonal and non-tonal pre-classification-based Indian language identification system | |
Savargiv et al. | Study on unit-selection and statistical parametric speech synthesis techniques | |
Jaiswal et al. | A generative adversarial network based ensemble technique for automatic evaluation of machine synthesized speech | |
Leung et al. | Application of a modified neural fuzzy network and an improved genetic algorithm to speech recognition | |
Matoušek et al. | VITS: quality vs. speed analysis | |
CN113160792A (zh) | 一种多语种的语音合成方法、装置和系统 | |
KR102301042B1 (ko) | 형태소 기반 로봇 제스처 생성 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |