CN105096934B

CN105096934B - 构建语音特征库的方法、语音合成方法、装置及设备

Info

Publication number: CN105096934B
Application number: CN201510375429.3A
Authority: CN
Inventors: 吕文玉; 王道龙; 刘孟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-06-30
Filing date: 2015-06-30
Publication date: 2019-02-12
Anticipated expiration: 2035-06-30
Also published as: EP3113174A1; US9697819B2; CN105096934A; US20170004820A1

Abstract

本发明提供了一种构建语音特征库的方法、语音合成方法、装置及设备。该语音合成方法所使用的语音特征库中保存有每条个性化的文本信息对应的至少一个语境和与该条个性化的文本信息相同语义的至少一条文本信息。在进行语音合成时，即使提供的文本信息并非所需的个性化语音对应的个性化文本信息，也可以在语音特征库中首先查找到与需要进行语音合成的文本信息语义相同的个性化的文本信息，进而实现个性化的语音合成，从而使得个性化语音的使用不依赖于人的生老病死。

Description

构建语音特征库的方法、语音合成方法、装置及设备

技术领域

本发明涉及计算机领域，尤其涉及一种构建语音特征库的方法、语音合成方法、装置及设备。

背景技术

个性化的语音会给受众留下深刻的印象。例如，配音员为影视剧中的角色配音，通过配音员个性化的语音征服观众。但目前，无论是影视剧配音、演唱等等都需要人亲自完成。由于人的生老病死，会导致个性化语音消失。

如何实现个性化语音的使用不受限于人的生老病死，是目前需要解决的问题。

发明内容

本发明解决的技术问题之一是创建个性化的语音特征库，以便能够据此实现个性化的语音合成，使得个性化语音的使用不受限于人的生老病死。

根据本发明第一方面的一个实施例，提供了一种构建语音特征库的方法，包括：

将对象的录音转换为个性化的文本信息；

分析得到每条个性化的文本信息对应的至少一个语境和相同语义的至少一条文本信息；

在所述对象的语音特征库中关联保存每条个性化的文本信息及对应的文语特征，每条文语特征指示对应的一个语境和一条文本信息；

对所述录音进行音频采样，得到音频采样值；

在所述对象的语音特征库中保存音频特征，音频特征指示了音频采样值。

根据本发明另一方面第二方面的一个实施例，提供了一种构建语音特征库的装置，包括：

将对象的录音转换为个性化的文本信息的装置；

分析得到每条个性化的文本信息对应的至少一个语境和相同语义的至少一条文本信息的装置；

在所述对象的语音特征库中关联保存每条个性化的文本信息及对应的文语特征的装置，每条文语特征指示对应的一个语境和一条文本信息；

对所述录音进行音频采样，得到音频采样值的装置；

在所述对象的语音特征库中保存音频特征的装置，音频特征指示了音频采样值。

根据本发明的第三方面的一个实施例，还提供了一种计算机设备，包括前述构建语音特征库的装置。

由于本发明推荐候选推荐项目时要考虑用户的场景信息和用户信息构建语音特征库时，针对每条个性化的文本信息，确定至少一个语境和与该条个性化的文本信息相同语义的至少一条文本信息。在后续进行语音合成时，即使提供的文本信息并非所需的个性化语音对应的个性化文本信息，也可以在语音特征库中首先查找到与需要进行语音合成的文本信息语义相同的个性化的文本信息，进而实现个性化的语音合成，从而使得个性化语音的使用不依赖于人的生老病死。

本发明解决的技术问题之二是进行个性化的语音合成，使得个性化语音的使用不受限于人的生老病死。

根据本发明第四方面的一个实施例，提供了一种语音合成方法，包括：

分析得到待进行语音合成的文本信息的语境；

生成所述待进行语音合成的文本信息对应的文语特征，指示所述待进行语音合成的文本信息及其语境；

在语音特征库中查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征，所述语音特征库中的每条个性化的文本信息对应的每条文语特征指示对应的一个语境和一个相同语义的文本信息；

根据查找到的文语特征指示的语境，所述文语特征对应的个性化的文本信息，和所述语音特征库中保存的音频特征，进行语音合成，所述音频特征指示音频采样值。

根据本发明第五方面的一个实施例，提供了一种语音合成装置，包括：

语境分析装置，被配置为分析得到待进行语音合成的文本信息的语境；

文语特征生成装置，被配置为生成所述待进行语音合成的文本信息对应的文语特征，指示所述待进行语音合成的文本信息及其语境；

文语特征匹配装置，用于在语音特征库中查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征，所述语音特征库中的每条个性化的文本信息对应的每条文语特征指示对应的一个语境和一个相同语义的文本信息；

语音合成装置，被配置为根据查找到的文语特征指示的语境，所述文语特征对应的个性化的文本信息，和所述语音特征库中保存的音频特征，进行语音合成，所述音频特征指示音频采样值。

根据本发明的第六方面的一个实施例，还提供了一种计算机设备，包括前述语音合成装置。

由于本发明所使用的语音特征库中保存有每条个性化的文本信息对应的至少一个语境和与该条个性化的文本信息相同语义的至少一条文本信息。在进行语音合成时，即使提供的文本信息并非所需的个性化语音对应的个性化文本信息，也可以在语音特征库中首先查找到与需要进行语音合成的文本信息语义相同的个性化的文本信息，进而实现个性化的语音合成，从而使得个性化语音的使用不依赖于人的生老病死。

本领域普通技术人员将了解，虽然下面的详细说明将参考图示实施例、附图进行，但本发明并不仅限于这些实施例。而是，本发明的范围是广泛的，且意在仅通过后附的权利要求限定本发明的范围。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是根据本发明一个实施例的构建语音特征库的方法的流程图。

图2是根据本发明另一个实施例的构建语音特征库的装置的框图。

图3是根据本发明一个实施例的语音合成方法的流程图。

图4是根据本发明另一个实施例的语音合成装置的框图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1是根据本发明一个实施例的构建语音特征库的方法的流程图。本发明中的方法主要通过计算机设备中的操作系统或处理控制器来完成。将操作系统或处理控制器称为构建语音特征库的装置。该计算机设备包括但不限于以下中的至少一个：用户设备、网络设备。用户设备包括但不限于计算机、智能手机、PDA等。网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

如图1所示，本发明一个实施例提供的构建语音特征库的方法具体包括如下操作：

步骤100、将对象的录音转换为个性化的文本信息。

其中，通过语音识别技术，将对象的一段录音识别为对应的文本信息，本发明中称为个性化的文本信息。

其中，一段录音识别为对应的文本信息后，可以按照预定规则截取成多条文本信息。

例如，一段录音识别得到的文本信息为“曾经有一份真挚的爱情放在我面前我没有珍惜等我失去的时候才追悔莫及人世间最痛苦的事莫过于此”。从这段文本信息中，可以截取出“曾经有一份真挚的爱情放在我面前”，“曾经有一份真挚的爱情”，“放在我面前”，“我没有珍惜”，“等我失去的时候才追悔莫及”，“追悔莫及”，“人世间最痛苦的事莫过于此”，“人世间最痛苦的事”，“莫过于此”等等。

步骤110、分析得到每条个性化的文本信息对应的至少一个语境和相同语义的至少一条文本信息。

其中，分析的具体方式有多种，例如可以通过大数据技术分析语境和语义。

其中，一条个性化的文本信息可能对应一个语境，也可能对应多个语境。

其中，一条个性化的文本信息对应一个语义，但该语义有多种表达方式，也就对应多个文本信息。例如，个性化的文本信息是“我没有珍惜”，与其相同语义的其他文本信息可以是“我不珍惜”，“我没能珍惜”，“偶没有珍惜”等等。

步骤120、在上述对象的语音特征库中关联保存每条个性化的文本信息及对应的文语特征，每条文语特征指示对应的一个语境和一条文本信息。

例如，对“我没有珍惜”这条个性化的文本信息分析得到有两个语境：陈述，后悔。“我没有珍惜”这条个性化的文本信息分析得到有相同语义的三条文本信息：“我不珍惜”，“我没能珍惜”，“偶没有珍惜”。那么，“我没有珍惜”这条个性化的文本信息对应有8条文语特征，其中包括指示“我没有珍惜”这一个性化的文本信息的文语特征。

本发明中，文语特征的内容可以是其指示的语境和文本信息，也可以是其指示的语境和文本信息的标识信息，还可以是其指示的语境和文本信息存储位置的指针，等等。

步骤130、对上述录音进行音频采样，得到音频采样值。

其中，具体是对上述录音进行元音、辅音、音调等反映语音习惯特点的音频信息进行采样。

其中，可以针对上述录音的每条个性化的文本信息，分别得到一组对应的音频采样值。

步骤140、在上述对象的语音特征库中保存音频特征，音频特征指示了音频采样值。

本发明中，音频特征的内容可以是其指示的音频采样值，也可以是其指示的音频采样值的标识信息，还可以是其指示的音频采样值存储位置的指针，等等。

上述本发明实施例中，为了便于语音特征库的管理与查找，还可以保存有语音特征，每条个性化的文本信息对应的语音特征指示一条文语特征和一条音频特征。相应的，还在上述语音特征库中保存每条个性化的文本信息对应的语音特征，每条语音特征指示一条文语特征和一条音频特征。

例如，“我没有珍惜”这条个性化的文本信息对应有如上所述的8条文语特征，并且对应有一个音频特征，那么，在对象的语音特征库中保存有这条个性化的文本信息对应的8条语音特征，每个语音特征指示这条个性化的文本信息对应的一条文语特征及其对应的音频特征。

基于上述任意方法实施例，其中每条文语特征还指示对应的语境和文本信息在本条文语特征中的权重。

例如，“我没有珍惜”这条个性化的文本信息对应的一条文语特征指示的语境是“陈述”，指示的文本信息是“我没有珍惜”，这条文本特征还指示了“陈述”这一语境和“我没有珍惜”这一文本信息分别在这条文语特征中的权重。

本发明中，初始权重的取值可以是预设的，例如，在生成一条文语特征时，为其指示的语境和文本特征设置权重分别为0.5。

在此基础上，上述步骤120的具体实现方式可以是：

生成每条个性化的文本信息对应的文语特征，并确定每条文语特征指示的语境和文本信息在本条文语特征中的权重；

如果在上述对象的语音特征库中已经保存的文语特征指示的语境和文本信息与分析得到的语境和文本信息相同，但在文语特征中的权重不同，将权重按照预定规则合并。

例如，生成的一条文语特征指示的语境是“陈述”，其权重是0.5，文本信息是“我没有珍惜”，其权重是0.5。上述对象的语音特征库中保存有一条文语特征指示的语境是“陈述”，其权重是0.4，文本信息是“我没有珍惜”，其权重是0.6，那么，按照预定规则(例如求平均值)合并权重后保存，即将保存的该条文语特征指示的语境的权重修改为0.45，文本信息的权重修改为0.55。

如果语音特征库中保存的文语特征中没有与生成的文语特征指示的语境和文本信息均相同的，则将生成的文语特征直接保存到语音特征库中。

基于上述任意方法实施例，其中，上述步骤140的具体实现方式可以是：如果在上述对象的语音特征库中已经保存的音频特征指示的音频采样值与音频采样得到的音频采样值的差值在预定范围内，将音频采样值合并。

例如，“我没有珍惜”这一个性化的文本信息对应的音频采样值与语音特征库中保存的一组音频特征值的差值在预定范围内，则将这两组音频特征值按照预定规则合并(例如取均值)后替换掉原来保存的这组音频特征值。

如果在上述对象的语音特征库中没有保存的音频特征指示的音频采样值与音频采样得到的音频采样值的差值在预定范围内，直接将采样得到的音频采样值保存的语音特征库中。

基于与上述方法相同的发明构思，本发明的实施例还提供一种构建语音特征库的装置。

图2是根据本发明的另一个实施例的构建语音特征库的装置的示意图，下简称构建装置。

如图2所示，构建装置包括：用于将对象的录音转换为个性化的文本信息的装置(下文简称为“文本信息转换装置”)201；用于分析得到每条个性化的文本信息对应的至少一个语境和相同语义的至少一条文本信息的装置(下文简称为“文本信息分析装置”)202；用于在所述对象的语音特征库中关联保存每条个性化的文本信息及对应的文语特征的装置(下文简称为“文语特征保存装置”)203；用于对所述录音进行音频采样，得到音频采样值的装置(下文简称“音频采样装置”)204；被配置为在所述对象的语音特征库中保存音频特征的装置(下文简称“音频特征保存装置”)205，音频特征指示了音频采样值。

可选地，还包括在所述语音特征库中保存每条个性化的文本信息对应的语音特征的装置(下文简称为“语音特征保存装置”)，每条语音特征指示一条文语特征和一条音频特征。

可选地，其中每条文语特征还指示对应的语境和文本信息在本条文语特征中的权重。

可选地，所述文语特征保存装置具体被配置为：

如果在所述对象的语音特征库中已经保存的文语特征指示的语境和文本信息与分析得到的语境和文本信息相同，但在文语特征中的权重不同，将权重按照预定规则合并。

可选地，所述音频特征保存装置具体被配置为：如果在所述对象的语音特征库中已经保存的音频特征指示的音频采样值与音频采样得到的音频采样值的差值在预定范围内，将音频采样值合并。

根据本发明又一个实施例的计算机设备，包括上述任一个实施例的构建语音特征库的装置。

按照上述方法创建的对象的语音特征库，至少包括：

个性化的文本信息，与其关联的文语特征，和音频特征。

其中，文语特征指示了其对应的个性化的文本信息的一个语境和一个相同语义的文本信息。可选的，还只是语境和文本信息的权重。

其中，音频特征指示了音频采样值。

可选的，还包括文语特征。

基于上述语音特征库，图3为本发明另一个实施例提供的语音合成方法的流程图。本发明中的方法主要通过计算机设备中的操作系统或处理控制器来完成。将操作系统或处理控制器称为语音合成装置。该计算机设备包括但不限于以下中的至少一个：用户设备、网络设备。用户设备包括但不限于计算机、智能手机、PDA等。网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

如图3所示，本发明实施例提供的一种语音合成方法具体包括如下操作：

步骤300、分析得到待进行语音合成的文本信息的语境。

其中，分析的具体方式有多种，例如可以通过大数据技术分析语境。

步骤310、生成该待进行语音合成的文本信息对应的文语特征，指示该待进行语音合成的文本信息及其语境。

其具体实现方式可以参照上述方法实施例的描述，重复之处不再赘述。

其中，每条文语特征还可以指示对应的语境和文本信息在本条文语特征中的权重。其具体实现方式可以参照上述方法实施例的描述此处不再赘述。

如果文语特征还指示对应的语境和文本信息在本条文语特征中的权重，步骤310中，可以通过配置不同的权重，为待进行语音合成的文本信息生成一组对应的文语特征，这组文语特征指示相同的语境和文本信息，区别在于语境和文本信息的权重不同。

步骤320、在语音特征库中查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征，该语音特征库中的每条个性化的文本信息对应的每条文语特征指示对应的一个语境和一个相同语义的文本信息。

其中，如果语音特征库中保存有语音特征，则根据语音特征库中保存的语音特征，查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征。具体的，查找每条语音特征，根据语音特征的指示查找到对应的文语特征，再将查找到的文语特征与待进行语音合成的文本信息对应的文语特征进行比较，从而判断是否匹配。

其中，如果文语特征不指示权重，则文语特征匹配是指语境和文本信息均相同。如果文语特征指示了权重，则文语特征匹配是指语境和文本信息均相同，且在文本特征中的权重最接近。

步骤330、根据查找到的文语特征指示的语境，该文语特征对应的个性化的文本信息，和该语音特征库中保存的音频特征，进行语音合成，所述音频特征指示音频采样值。

基于与上述方法相同的发明构思，本发明的实施例还提供一种语音合成装置。

图4是根据本发明的另一个实施例的语音合成装置的示意图，包括：分析得到待进行语音合成的文本信息的语境的装置(下文简称“语境分析装置”)401；

生成所述待进行语音合成的文本信息对应的文语特征的装置(下文简称“文语特征生成装置”)402，指示所述待进行语音合成的文本信息及其语境；

用于在语音特征库中查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征的装置(下文简称“文语特征匹配装置”)403，，所述语音特征库中的每条个性化的文本信息对应的每条文语特征指示对应的一个语境和一个相同语义的文本信息；

根据查找到的文语特征指示的语境，所述文语特征对应的个性化的文本信息，和所述语音特征库中保存的音频特征，进行语音合成的装置(下文简称“语音合成装置”)404，所述音频特征指示音频采样值。

可选地，所述文语特征匹配装置具体被配置为：

根据语音特征库中保存的语音特征，查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征，每条语音特征指示一条文语特征和一条音频特征。

可选地，其中每条文语特征还指示对应的语境和文本信息在本条文语特征中的权重；

与待进行语音合成的文本信息对应的文语特征匹配的文语特征是指语境和文本信息相同，且在文本特征中的权重最接近。

根据本发明又一个实施例的计算机设备，包括上述任一个实施例的语音合成装置。

所属技术领域的技术人员知道，本发明可以实现为设备、装置、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：可以是完全的硬件，也可以是完全的软件，还可以是硬件和软件结合的形式。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种构建语音特征库的方法，包括：

将对象的录音转换为个性化的文本信息；

对所述录音进行音频采样，得到音频采样值；

在所述对象的语音特征库中保存音频特征，音频特征指示了音频采样值；其中，如果在所述对象的语音特征库中已经保存的音频特征指示的音频采样值与音频采样得到的音频采样值的差值在预定范围内，将音频采样值合并。

2.根据权利要求1所述的方法，该方法还包括：

在所述语音特征库中保存每条个性化的文本信息对应的语音特征，每条语音特征指示一条文语特征和一条音频特征。

3.根据权利要求1或2所述的方法，其中每条文语特征还指示对应的语境和文本信息在本条文语特征中的权重。

4.根据权利要求3所述的方法，其中，所述在所述对象的语音特征库中关联保存每条个性化的文本信息及对应的文语特征的步骤包括：

5.一种语音合成方法，包括：

分析得到待进行语音合成的文本信息的语境；

根据查找到的文语特征指示的语境，所述文语特征对应的个性化的文本信息，和所述语音特征库中保存的音频特征，进行语音合成，所述音频特征指示音频采样值；其中，所述音频特征的获取方式包括：如果在所述语音特征库中已经保存的音频特征指示的音频采样值与音频采样得到的音频采样值的差值在预定范围内，将音频采样值合并。

6.根据权利要求5所述的语音合成方法，在语音特征库中查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征，包括：

7.根据权利要求5或6所述的语音合成方法，其中每条文语特征还指示对应的语境和文本信息在本条文语特征中的权重；

8.一种构建语音特征库的装置，包括：

用于将对象的录音转换为个性化的文本信息的装置；

用于分析得到每条个性化的文本信息对应的至少一个语境和相同语义的至少一条文本信息的装置；

用于在所述对象的语音特征库中关联保存每条个性化的文本信息及对应的文语特征的装置，每条文语特征指示对应的一个语境和一条文本信息；

用于对所述录音进行音频采样，得到音频采样值的装置；

用于在所述对象的语音特征库中保存音频特征的装置，音频特征指示了音频采样值；其中，如果在所述对象的语音特征库中已经保存的音频特征指示的音频采样值与音频采样得到的音频采样值的差值在预定范围内，将音频采样值合并。

9.根据权利要求8所述的装置，还包括用于在所述语音特征库中保存每条个性化的文本信息对应的语音特征的装置，每条语音特征指示一条文语特征和一条音频特征。

10.根据权利要求8或9所述的装置，其中每条文语特征还指示对应的语境和文本信息在本条文语特征中的权重。

11.根据权利要求10所述的装置，所述用于在所述对象的语音特征库中关联保存每条个性化的文本信息及对应的文语特征的装置具体被配置为：

12.一种计算机设备，包括权利要求8-11中任一个的构建语音特征库的装置。

13.一种语音合成装置，包括：

用于分析得到待进行语音合成的文本信息的语境的装置；

用于生成所述待进行语音合成的文本信息对应的文语特征以指示所述待进行语音合成的文本信息及其语境的装置；

用于在语音特征库中查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征的装置，所述语音特征库中的每条个性化的文本信息对应的每条文语特征指示对应的一个语境和一个相同语义的文本信息；

用于根据查找到的文语特征指示的语境，所述文语特征对应的个性化的文本信息，和所述语音特征库中保存的音频特征，进行语音合成的装置，所述音频特征指示音频采样值；其中，所述音频特征的获取方式包括：如果在所述语音特征库中已经保存的音频特征指示的音频采样值与音频采样得到的音频采样值的差值在预定范围内，将音频采样值合并。

14.根据权利要求13所述的语音合成装置，所述用于在语音特征库中查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征的装置具体被配置为：

15.根据权利要求13或14所述的语音合成装置，其中每条文语特征还指示对应的语境和文本信息在本条文语特征中的权重；

16.一种计算机设备，包括根据权利要求13-15中任一个的语音合成装置。