CN105096932A

CN105096932A - 有声读物的语音合成方法和装置

Info

Publication number: CN105096932A
Application number: CN201510412370.0A
Authority: CN
Inventors: 刘孟; 王道龙; 李军; 刘晓伟; 李华明; 袁艺; 张钰; 燕宇飞; 易敏文; 吕文玉; 袁正沧; 方驰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-07-14
Filing date: 2015-07-14
Publication date: 2015-11-25

Abstract

本发明实施例公开了一种有声读物的语音合成方法和装置。所述方法包括：提取所述有声读物中文本片段的属性标签；根据所述属性标签，从所述语音库中调取与属性对应的声音，形成所述有声读物的语音。本发明实施例提供的有声读物的语音合成方法和装置提高了自动制作的有声读物的逼真度。

Description

有声读物的语音合成方法和装置

技术领域

本发明实施例涉及语音合成技术领域，尤其涉及一种有声读物的语音合成方法和装置。

背景技术

近年来，听书成为一种时尚潮流，越来越多的人开始接触有声读物，听书成为在公交车上打发时间，在睡觉前放松心情，在做家务时添加情趣的全新娱乐方式。有调查显示，在2008年的暑假中，排在大中学生的假期娱乐活动的前三甲是：看奥运、听书、玩网游。听书在我国作为一种新的娱乐方式，已经开始崭露头角。

在听书平台上，有声读物是这些平台上最为重要的数据资源。有声读物的制作方式可以分为人工方式和自动方式。人工的有声读物制作方式为不同的小说著作，单独的录制有声读物。显然，这种制作方式的重复工作量较大。而现有的采用文本解析和语音合成的自动有声读物制作方式并不针对不同的人物，或者不同的场景输出不同类型的语音，造成制作的有声读物的逼真度不高，难以受到听众的欢迎。

发明内容

针对上述技术问题，本发明实施例提供了一种有声读物的语音合成方法和装置，以提高自动合成的有声读物的逼真度。

第一方面，本发明实施例提供了一种有声读物的语音合成方法，所述方法包括：

提取所述有声读物中文本片段的属性标签；

根据所述属性标签，从语音库中调取与所述属性标签对应的声音，形成所述有声读物的语音。

第二方面，本发明实施例还提供了一种有声读物的语音合成装置，所述装置包括：

标签提取模块，用于提取所述有声读物中文本片段的属性标签；

语音输出模块，用于根据所述属性标签，从语音库中调取与所述属性标签对应的声音，形成所述有声读物的语音。

本发明实施例提供的有声读物的语音合成方法和装置通过提取所述有声读物中文本片段的属性标签，根据所述属性标签，从所述语音库中调取与属性对应的声音，形成所述有声读物的语音，从而使得制作的有声读物针对不同的人物输出不同类型的语音，提高了自动制作的有声读物的逼真度。

附图说明

图1是本发明实施例一提供的有声读物的语音合成方法的流程图；

图2是本发明实施例三提供的有声读物的语音合成方法中语音输出的流程图；

图3是本发明实施例四提供的有声读物的语音合成方法的流程图；

图4是本发明实施例五提供的有声读物的语音合成方法的流程图；

图5是本发明实施例六提供的有声读物的语音合成方法的流程图；

图6是本发明实施例七提供的有声读物的语音合成装置的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

本实施例提供了有声读物的语音合成方法的一种技术方案。在该技术方案中，所述有声读物的语音合成方法包括：提取所述有声读物中文本片段的属性标签；根据所述属性标签，从语音库中调取与所述属性标签对应的声音，形成所述有声读物的语音。

参见图1，所述有声读物的语音合成方法包括：

S11，提取所述有声读物中文本片段的属性标签。

所述文本片段是通过对需要制作有声读物的文本进行分析而得到的文本的片段。所述文本片段是通过上述分析而划分得到的。优选的，所述分析是对原始文本的分段操作。进一步优选的，所述分析是依据原始文本中的标点符号以及敏感词语而执行的分段操作。具体的，所述分析可以是依据原始文本中的双引号而执行的分段操作。并且，所述文本片段可以是语句或者语段。

通过对所述文本的语义分析，可以得到所述文本片段的不同的属性标签。所述属性标签可以是说话人的基本属性标签、场景属性标签或者场景图像属性标签。

所述说话人的基本属性标签中记录了所述文本片段对应的说话人的基本属性。比如，所述说话人的基本属性标签可以是说话人的性别标签、说话人的年龄段标签和/或说话人的口音标签。而不同类型的说话人的基本属性标签的取值，可以通过对原始文本的语义分析而获得。比如，原始文本中出现：“小美这个小妮子很聪明”，则可以确定说话人“小美”的性别标签的取值是女性，并且她的年龄段标签的取值是15岁到25岁之间。

所述场景属性标签用来表示所述文本片段所属的场景。具体的，所述场景可以是所述文本片段描述的故事情节所处的季节、当时的天气和/或周围的环境。所述场景属性标签可以通过对所述文本片段的上下文的语义分析而获得。例如，如果所述文本片段的上下文中出现了这样的文字：“天空中飘着鹅毛大雪”，则说明所述场景属性标签的取值应该是冬季。再比如，如果所述文本片段的上下文中出现了如下文字：“前面冲锋的战友一个接一个的倒下了”，则说明所述场景属性标签的取值是战场。

可以理解的是，为了提高有声读物的逼真程度，可以根据所述文本片段的场景属性标签的取值，为合成的语音添加不同的背景音。比如，对于场景属性标签的取值是战场的文本片段，可以为对应的语音添加枪炮声的背景音。

所述场景图像属性标签用于表示当需要为生成的语音配合显示图像时，应该显示怎样的图像的属性标签。所述场景图像属性标签的取值可以根据所述文本片段的场景属性标签的取值来确定。例如，可以确定所述文本片段对应的场景属性标签的取值是冬天时，应该向用户显示的一幅或者多幅图像。

S12，根据所述属性标签，从语音库中调取与所述属性标签对应的声音，形成所述有声读物的语音。

获取到所述文本片段对应的说话人的基本属性标签、场景属性标签和/或场景图像属性标签之后，根据上述获取到的各种属性标签，从语音库中调取与所述属性标签对应的声音。

所述语音库包括人物语音库以及场景语音库。所述人物语音库中存储着具有不同的基本属性标签的说话人的语音片段。所述场景语音库中存储着不同场景对应的背景音。

优选的，可以从所述人物语音库中获取到不同的文本片段对应的语音片段，再利用这些语音片段形成最终的声音。进一步的，如果能够从所述文本片段中提取到场景属性标签，还需要为所述声音添加所述场景属性标签对应的背景音。更进一步的，如果能够从所述文本片段中提取到场景图像属性标签，则需要进一步的获取到声音对应的图像，并进一步的将所述图像与所述声音同步的播放。

本实施例通过提取所述有声读物中文本片段的属性标签，以及根据所述属性标签，从所述语音库中调取与属性对应的声音，以形成所述有声读物的语音，从而使得制作的有声读物针对不同的人物输出不同类型的语音，提高了自动制作的有声读物的逼真度。

实施例二

本实施例以本发明上述实施例为基础，进一步的提供了有声读物的语音合成方法中语音输出的一种技术方案。在该技术方案中，根据所述属性标签，从语音库中调取与所述属性标签对应的声音，形成所述有声读物的语音包括：如果所述属性标签为说话人的基本属性标签，则根据所述说话人的基本属性标签，从人物语音库中调取对应的声音朗读所述文本字段中的文字，形成所述有声读物的人物语音。

具体的，根据所述属性标签，从语音库中调取与所述属性标签对应的声音，形成所述有声读物的语音包括：

S20，如果所述属性标签为说话人的基本属性标签，则根据所述说话人的基本属性标签，从人物语音库中调取对应的声音朗读所述文本字段中的文字，形成所述有声读物的人物语音。

如果提取到的属性标签是说话人的基本属性标签，则可以根据所述说话人的基本属性标签到所述人物语音库中调取对应的声音。例如，所述说话人的基本属性标签是“中年”、“男性”，则可以在所述人物语音库中调取说话人的基本属性标签的取值是“中年”及“男性”的声音，从而形成所述有声读物的人物语音。

可以理解的是，需要进行语音合成的语段常常会有较大的长度，而人物语音库中通常不会存储所述语段的完整语音。所以，优选的，可以对所述语段进行进一步的划分，对一个语段中不同的文本片段分别调取对应的语音片段，再将调取到的语音片段依照先后顺序进行拼接而形成最终的人物语音。进一步优选的，可以根据基音同步叠加(Pitch-synchronousoverlapandadd，PSOLA)算法对调取到的语音片段进行拼接。

需要说明的是，针对同一个需要制作有声读物的语篇，不会出现两个人物使用同一个说话人的人物语音。如果在同一个语篇中出现了这样的两个或者两个以上的人物，他们的基本属性的取值都完全一致，则可以让这些人物分别选用相同的基本属性取值对应的不同的语音样本。这样，能够保证听众收听到的语音中不同的人物的音质、音色有所区别，也就是说听众能够通过收听到的语音分别不同人物的声音。

本实施例在所述属性标签为说话人的基本属性标签时，根据所述说话人的基本属性标签，从人物语音库中调取对应的声音朗读所述文本字段中的文字，形成所述有声读物的人物语音，从而完成了根据说话人的基本属性标签的语音合成，提高了自动制作的有声读物的逼真度。

实施例三

本实施例以本发明上述实施例为基础，进一步的提供了有声读物的语音合成方法中语音输出的一种技术方案。在该技术方案中，根据所述属性标签，从语音库中调取与所述属性标签对应的声音，形成所述有声读物的语音包括：如果所述属性标签为说话人的基本属性标签，则根据所述说话人的基本属性标签，从人物语音库中调取对应的声音朗读所述文本字段中的文字，形成所述有声读物的人物语音；如果所述属性标签为场景属性标签，则从场景语音库中调取场景背景音，将所述场景背景音叠加至所述人物语音；如果所述属性标签为场景图像属性标签，则根据场景信息获取图像，并设置所述图像的播放时间与所述人物语音的播放时间匹配。

参见图2，根据所述属性标签，从语音库中调取与所述属性标签对应的声音，形成所述有声读物的语音包括：

S21，如果所述属性标签为说话人的基本属性标签，则根据所述说话人的基本属性标签，从人物语音库中调取对应的声音朗读所述文本字段中的文字，形成所述有声读物的人物语音。

S22，如果所述属性标签为场景属性标签，则从场景语音库中调取场景背景音，将所述场景背景音叠加至所述人物语音。

若获取到的属性标签是场景属性标签，说明所述文本片段有其对应的场景属性标签与之关联。此时，可以从预置的场景语音库中调取到所述场景属性标签对应的场景背景音，并将调取到的场景背景音与所述人物语音进行叠加。

例如，提取到所述文本片段对应的场景属性标签的取值是冬季，则可以将狂风的场景背景音叠加至所述人物语音。

并不是所有的文本片段都对应有场景属性标签，需要视所述文本片段的上下文的具体内容来确定。因此，并不是所有人物语音都需要在其上叠加场景背景音。

S23，如果所述属性标签为场景图像属性标签，则根据场景信息获取图像，并设置所述图像的播放时间与所述人物语音的播放时间匹配。

所述场景图像属性标签的取值可以依照相同的文本片段的场景属性标签来确定。例如，所述文本片段的场景属性标签的取值是“冬季”时，所述文本片段的场景图像属性标签的取值可以是若干幅内容为雪景的图像。

根据所述场景图像属性标签获取到需要播放的图像以后，根据该场景的起止时间设置所述图像的播放时间，并根据所述播放时间将所述图像与所述语音进行同步的播放。

本实施例通过在获取人物语音之后，当所述属性标签为场景属性标签之时，从场景语音库中调取场景背景音，将所述场景背景音叠加至所述人物语音，而当所述属性标签为场景图像属性标签之时，根据场景信息获取图像，并设置所述图像的播放时间与所述人物语音的播放时间匹配，从而实现了场景背景音的叠加，以及场景图像的同步播放，进一步提升了有声读物的播放效果。

实施例四

本实施例以本发明的上述实施例为基础，进一步的提供了有声读物的语音合成方法的一种技术方案。在该技术方案中，所述有声读物的语音合成方法还包括：对有声读物中文本进行语义分析，获取需要输出有声读物的文本片段；识别所述文本片段的说话人的属性，为所述文本片段设置说话人的基本属性标签。

参见图3，所述有声读物的语音合成方法包括：

S31，对有声读物中文本进行语义分析，获取需要输出有声读物的文本片段。

可以理解的是，原始文本中并不是所有的部分都需要被制作成有声读物中的语音。比如，一些对故事背景进行叙述的部分可能在最终制作的有声读物中并不需要有任何体现。因此，在真正制作有声读物时，首先需要通过对原始文本的语义分析，获取需要输出有声读物的文本片段。

S32，识别所述文本片段的说话人的属性，为所述文本片段设置说话人的基本属性标签。

所述说话人的属性可以说话人的性别、年龄段或者口音。因此，为说话人设置的基本属性标签包括：说话人的性别标签、年龄段标签和/或口音标签。这些基本属性标签在后续的语音合成阶段可能被语音合成程序所提取。

S33，提取所述有声读物中文本片段的属性标签。

S34，根据所述属性标签，从语音库中调取与所述属性标签对应的声音，形成所述有声读物的语音。

本实施例通过在提取所述有声读物的文本片段的属性标签之前，对有声读物中文本进行语义分析，获取需要输出有声读物的文本片段，识别所述文本片段的说话人的属性，为所述文本片段设置说话人的属性标签，从而在原始文本的文本分析阶段完成了对说话人的基本属性标签设置。

实施例五

本实施例以本发明的上述实施例为基础，进一步的提供了有声读物的语音合成方法的一种技术方案。在该技术方案中，所述有声读物的语音合成方法还包括：识别所述文本片段的场景信息，为所述文本片段设置场景属性标签和/或场景图像属性标签。

参见图4，所述有声读物的语音合成方法包括：

S41，对有声读物中文本进行语义分析，获取需要输出有声读物的文本片段。

S42，识别所述文本片段的说话人的属性，为所述文本片段设置说话人的基本属性标签。

S43，识别所述文本片段的场景信息，为所述文本片段设置场景属性标签和/或场景图像属性标签。

优选的，通过对原始文本中文本片段的上下文的语义分析识别所述文本片段的场景信息，并根据所述场景信息的识别结果，对所述文本片段设置场景属性标签和/或场景图像属性标签。

S44，提取所述有声读物中文本片段的属性标签。

S45，根据所述属性标签，从语音库中调取与所述属性标签对应的声音，形成所述有声读物的语音。

本实施例通过在为文本片段设置说话人的基本属性标签之后，识别所述文本片段的场景信息，并为所述文本片段设置场景属性标签和/或场景图像属性标签，，从而在原始文本的文本分析阶段完成了对场景属性标签和/或场景图像属性标签的设置。

实施例六

本实施例提供了有声读物的语音合成方法的一种技术方案。参见图5，所述有声读物的语音合成方法包括：

S51，对待转换小说标记小说人物属性。

在本实施例中，待转换的原始文本是小说。首先，从所述待转换小说中识别需要生成有声读物中的语音的语段，并依据不同语段的说话人对不同的语段标记小说人物属性。

所述小说人物属性可以是小说中人物的性别、年龄段和/或口音特征。

S52，对待转换小说标记小说场景属性。

不同的语段可能对应于不同的场景信息，在对不同的语段标记小说人物属性之后，再对不同的语段标记小说场景属性。例如，所述小说场景属性可以是“战场”，或者“音乐厅”。

S53，获取标注了属性信息的待转换小说。

S54，从人物语音库中调取待转换小说对应的人物语音。

因为待转换小说中的待转化语段已经标注了相应的小说人物属性，可以根据标注的小说人物属性从人物语音库中调取对应的人物语音。比如，小说中出现的人物是25岁到35岁之间，带有东北口音的男性，则应该从所述人物语音库中调取具有相同特征的人物的人物语音。

S55，根据所述人物语音生成有声读物的初步语音。

具体的，生成所述初步语音的过程可以是对相同人物的不同语音片段的拼接。

S56，从场景语音库中调取待转换小说对应的场景音。

所述待转换小说中待转换的语段被标注了小说场景属性。不同的小说场景属性对应着不同的场景音。通常情况下，所述场景音是需要被叠加至最终输出的语音中的背景音。比如，当小说场景属性是“足球场”时，所述场景音可能会使观众的欢呼声。

S57，将所述初步语音与所述场景音叠加，生成所述有声读物的语音。

因为所述场景音一般是背景音，所以优选的可以对所述场景音进行一定的弱化处理，再与所述初步语音进行叠加，以生成所述有声读物的语音。

本实施例通过对待转换小说添加小说人物属性及小说场景属性，并根据添加的小说人物属性及小说场景属性生成有声读物的语音，使得听众通过生成的有声读物的语音能够识别到不同的人物及不同的场景，增强了有声读物的趣味性，使得输出的语音更为逼真。

实施例七

本实施例提供了有声读物的语音合成装置的一种技术方案。在该技术方案中，所述有声读物的语音合成装置包括：标签提取模块64以及语音输出模块65。

所述标签提取模块64用于提取所述有声读物中文本片段的属性标签。

所述语音输出模块65用于根据所述属性标签，从所述语音库中调取与属性对应的声音，形成所述有声读物的语音。

进一步的，所述语音输出模块65具体用于：如果所述属性标签为说话人的基本属性标签，则根据所述说话人的基本属性，从所述人物语音库中调取对应的声音朗读所述文本字段中的文字，形成所述有声读物的人物语音。

进一步的，形成所述有声读物的人物语音之后，所述语音输出模块65还用于：如果所述属性标签为场景属性标签，则从场景语音库中调取场景背景音，将所述场景背景音叠加至所述人物语音；如果所述属性标签为场景图像属性标签，则根据场景信息获取图像，并设置所述图像的播放时间与所述人物语音的播放时间匹配。

进一步的，所述有声读物的语音合成装置还包括：文本获取模块61以及说话人标签设置模块62。

所述文本获取模块61用于对有声读物中文本进行语义分析，获取需要输出有声读物的文本片段。

所述说话人标签设置模块62用于识别所述文本片段的说话人的属性，为所述文本片段设置说话人的属性标签。

进一步的，所述有声读物的语音合成装置还包括：场景相关标签设置模块63。

所述场景相关标签设置模块63用于识别所述文本片段的场景信息，为所述文本片段设置场景属性标签和/或场景图像属性标签。

进一步的，所述说话人的属性标签包括：说话人的性别标签、年龄段标签、和/或口音标签。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间的相同或相似的部分互相参见即可。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种有声读物的语音合成方法，其特征在于，包括：

提取所述有声读物中文本片段的属性标签；

2.根据权利要求1所述的方法，其特征在于，根据所述属性标签，从语音库中调取与所述属性标签对应的声音，形成所述有声读物的语音包括：

如果所述属性标签为说话人的基本属性标签，则根据所述说话人的基本属性标签，从人物语音库中调取对应的声音朗读所述文本字段中的文字，形成所述有声读物的人物语音。

3.根据权利要求2所述的方法，其特征在于，形成所述有声读物的人物语音之后，还包括：

如果所述属性标签为场景属性标签，则从场景语音库中调取场景背景音，将所述场景背景音叠加至所述人物语音；

如果所述属性标签为场景图像属性标签，则根据场景信息获取图像，并设置所述图像的播放时间与所述人物语音的播放时间匹配。

4.根据权利要求2所述的方法，其特征在于，还包括：

对有声读物中文本进行语义分析，获取需要输出有声读物的文本片段；

识别所述文本片段的说话人的属性，为所述文本片段设置说话人的基本属性标签。

5.根据权利要求4所述的方法，其特征在于，还包括：

识别所述文本片段的场景信息，为所述文本片段设置场景属性标签和/或场景图像属性标签。

6.根据权利要求4所述的方法，其特征在于，所述说话人的基本属性标签包括：说话人的性别标签、年龄段标签、和/或口音标签。

7.一种有声读物的语音合成装置，其特征在于，包括：

8.根据权利要求8所述的装置，其特征在于，所述语音输出模块具体用于：

9.根据权利要求8所述的装置，其特征在于，形成所述有声读物的人物语音之后，所述语音输出模块还用于：

10.根据权利要求8所述的装置，其特征在于，还包括：

文本获取模块，用于对有声读物中文本进行语义分析，获取需要输出有声读物的文本片段；

说话人标签设置模块，用于识别所述文本片段的说话人的属性，为所述文本片段设置说话人的基本属性标签。

11.根据权利要求10所述的装置，其特征在于，还包括：

场景相关标签设置模块，用于识别所述文本片段的场景信息，为所述文本片段设置场景属性标签和/或场景图像属性标签。

12.根据权利要求10所述的装置，其特征在于，所述说话人的基本属性标签包括：说话人的性别标签、年龄段标签、和/或口音标签。