CN111883100A

CN111883100A - 语音转换方法、装置及服务器

Info

Publication number: CN111883100A
Application number: CN202010709138.4A
Authority: CN
Inventors: 黄磊; 杨春勇; 靳丁南; 权圣
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd; Mashang Consumer Finance Co Ltd
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2020-11-03
Anticipated expiration: 2040-07-22
Also published as: CN111883100B

Abstract

本发明提供一种语音转换方法、装置及服务器，该方法包括：按照预设规则将目标文本划分为L个目标字符串，L个目标字符串包括N个第一字符串；对N个第一字符串进行语音转换，获得N个第一语音片段；基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整，第一基频为相邻两个第一字符串中顺序在先的第一字符串的最后一个字符对应的基频，第二基频为相邻两个第一字符串中顺序在后的第一字符串的第一个字符对应的基频；将目标语音片段进行拼接得到目标文本的语音，目标语音片段包括N个第一语音片段进行音频调整后的语音片段。本发明解决了语音拼接过程中产生上下文韵律衔接不一致，从而导致合成的语音的声音效果较差的问题。

Description

语音转换方法、装置及服务器

技术领域

本发明涉及语音转换技术领域，尤其涉及一种语音转换方法、装置及服务器。

背景技术

目前在端到端的语音合成技术框架中，主要采用深度学习神经网络加注意力机制作为前端网络结构，用来生成语音的线性频谱或者梅尔频谱，然后在通过声码器用来转换成为语音，此时就是一个可以从文本转换成语音的端到端系统，目前端到端系统主要有以下问题就是当文本过长，会导致端到端合成错误，同时合成时间较慢，这主要是由于其内部网络结构造成的。为此，现有技术中通常对连续较长的文本进行切分，切成端到端合成的最优文本长度分别生成语音，然后再对生成的语音进行拼接。由于在语音拼接的过程中容易产生上下文韵律衔接不一致，从而导致合成的语音的声音效果较差。

发明内容

本发明实施例提供一种语音转换方法、装置及服务器，以解决语音拼接的过程中容易产生上下文韵律衔接不一致，从而导致合成的语音的声音效果较差的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种语音转换方法，包括：

按照预设规则将目标文本划分为L个目标字符串，所述L个目标字符串包括N个第一字符串，所述第一字符串不包括标点符号，L和均N为大于1的整数；

对所述N个第一字符串进行语音转换，获得N个第一语音片段；

基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整，所述第一基频为所述相邻两个第一字符串中顺序在先的第一字符串的最后一个字符对应的基频，所述第二基频为所述相邻两个第一字符串中顺序在后的第一字符串的第一个字符对应的基频；

将目标语音片段进行拼接得到所述目标文本的语音，所述目标语音片段包括所述N个第一语音片段进行音频调整后的语音片段。

第二方面，本发明实施例提供了一种语音转换方法，包括：

接收电子设备发送的语音转换请求，所述语音转换请求中携带有目标文本信息；

将所述目标文本信息对应的目标文本根据第一方便提供的语音转换方法进行语音转换，得到所述目标文本的语音；

将所述目标文本的语音发送至所述电子设备。

第三方面，本发明实施例提供了一种语音转换装置，包括：

文本划分模块，用于按照预设规则将目标文本划分为L个目标字符串，所述L个目标字符串包括N个第一字符串，所述第一字符串不包括标点符号，L和均N为大于1的整数；

语音转换模块，对所述N个第一字符串进行语音转换，获得N个第一语音片段；

语音调整模块，用于基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整，所述第一基频为所述相邻两个第一字符串中在先一个第一字符串的最后一个字符对应的基频，所述第二基频为所述相邻两个第一字符串中在后的第一字符串的第一个字符对应的基频；

语音合成模块，用于将目标语音片段进行拼接得到所述目标文本的语音，所述目标语音片段包括所述N个第一语音片段进行音频调整后的语音片段。

第四方面，本发明实施例提供了一种语音转换装置，包括：

接收模块，用于接收电子设备发送的语音转换请求，所述语音转换请求中携带有目标文本；

语音转换模块，用于对所述N个第一字符串进行语音转换，获得N个第一语音片段；

语音调整模块，用于针对所述第一字符串对应的第一语音片段，基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整，所述第一基频为所述相邻两个第一字符串中在先一个第一字符串的最后一个字符对应的基频，所述第二基频为所述相邻两个第一字符串中在后的第一字符串的第一个字符对应的基频；

语音合成模块，用于将目标语音片段进行拼接得到所述目标文本的语音，所述目标语音片段包括所述N个第一语音片段进行音频调整后的语音片段；

发送模块，用于将所述目标文本的语音发送至所述电子设备。

第五方面，本发明实施例提供了一种服务器，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述语音转换方法的步骤。

第六方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述语音转换方法的步骤。

本发明实施例中，通过基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整，将目标语音片段进行拼接得到所述目标文本的语音，所述目标语音片段包括所述N个第一语音片段进行音频调整后的语音片段。这样可以提高相邻的两个第一字符串对应的两个语音片段之间的协调性，避免语音拼接的过程中容易产生上下文韵律衔接不一致，因此，本申请实施例提高了合成的语音的声音效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的语音转换方法的流程图；

图2是本发明另一实施例提供的语音转换方法的流程图；

图3是本发明一实施例提供的语音转换装置的结构图；

图4是本发明另一实施例提供的语音转换装置的结构图；

图5是本发明一实施例提供的服务器的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的一种语音转换方法的流程图，如图1所示，包括以下步骤：

步骤101，按照预设规则将目标文本划分为L个目标字符串，所述L个目标字符串包括N个第一字符串，所述第一字符串不包括标点符号，L和均N为大于1的整数；

本申请实施例提供的语音转换方法可以应用于服务器，也可以应用于电子设备，用于对文字转换为语音的过程进行处理。其中，上述目标文本为用户通过键盘控件输入的文本信息，或者，用户在浏览网页或其他APP的界面选择的文本信息，还可以为接收到其他电子设备发送的文本信息等。一实施例中，在用户输入或选择文本信息后，将该文本信息确定为进行语音转换的目标文本，也可以在用户输入或选择文本信息后，针对相应的文本信息输入相应的语音转换指令，从而将该文本信息确定为进行语音转换的目标文本。具体的，该目标文本中可以包括多个字符，例如可以包括由数字、字母和文字等至少一项组成的文本。进一步的，上述目标文本还可以包括标点符号。

本实施例中，上述预设规则包括：基于标点符号对目标文本进行拆分；对拆分后的文本按照端到端语音合成模型的最大合成长度再次进行文本拆分，获得N个第一字符串，在本实施例中，端到端语音合成模型是现有技术中常规的语音合成模型，最大合成长度是利用该端到端合成模型合成的最优文本长度。其中，基于标点符号对目标文本进行拆分；获得标点符号以及不含标点符号的至少一文本组，该文本组也可以称之为文本段，该文本段可以理解为一句话。当目标文本不包含标点符号时，整个目标文本可以理解为一个文本段，即一句话。当目标文本包括至少一个标点符号时，可以将目标文本拆分为至少两个文本段，该文本段的数量大小等于标点符号的数量加1。例如，当目标文本包括一个标点符号时，获得的文本段为两个，即两句话。

在获得文本段后，可以基于端到端语音合成模型的最大合成长度再次进行文本拆分，从而可以基于每一文本段进行拆分获得第一字符串。

以下以“我们一起去北京，吃正宗老北京涮羊肉”为例进行说明。此时，首先按照标点符号进行切分，将目标文本拆分为两句话(即两个文本组)“我们一起去北京”和“吃正宗老北京涮羊肉”以及第二字符串“，”。当端到端最大合成长度为4是，由于每一句话的字符串长度大于4，因此需要进行分词拆分，第一句话分词拆分后的结果为：“我们”、“一起”、“去”和“北京”；第二句话分词拆分后的结果为：“吃”、“正宗”、“老”、“北京”和“涮羊肉”。根据最大组合原则，得知第一句话拆分为2个第一字符串最为合适，即“我们一起”和“去北京”；第二句话拆分为3个第一字符串最为合适，即“吃正宗”、“老北京”和“涮羊肉”。

最终通过上述预设规则对目标文本：“我们一起去北京，吃正宗老北京涮羊肉”划分为L个目标字符串具体可以包括“我们一起”、“去北京”、“，”、“吃正宗”、“老北京”和“涮羊肉”，其中，“我们一起”、“去北京”、“吃正宗”、“老北京”和“涮羊肉”为第一字符串，标点符号“，”可以理解为第二字符串。

当然在其他实施例中，还可以采用其他的规则对目标文本进行划分，在此不作进一步的限定。

步骤102，对所述N个第一字符串进行语音转换，获得N个第一语音片段；

本实施例中，可以基于N个第一字符串进行语音转换，与N个第一字符串一一对应的N个第一语音片段。录入可以采用端到端网络模型生成语音，即可以将上述N个第一字符串输入到端到端网络模型中进行语音转换，得到N个第一语音片段。

应理解，当第二字符串的数量大于1时，第二字符串也可以生成相应的语音片段，也可以不生成语音片段。

步骤103，基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整，所述第一基频为所述相邻两个第一字符串中顺序在先的第一字符串的最后一个字符对应的基频，所述第二基频为所述相邻两个第一字符串中顺序在后的第一字符串的第一个字符对应的基频；

本申请实施例中，基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整，可以是对相邻的两个第一字符串对应的两个第一语音片段同时进行调整，也可以是对相邻的两个第一字符串对应的两个第一语音片段中的某一个第一语音片段进行音频调整，这样可以提高相邻的两个第一字符串对应的两个语音片段之间的协调性。

其中，基频可以理解为基音的频率。可选地，在第一字符串中，每一个字符对应的音频具有多帧音频，每一帧音频的声音频率可以理解为该帧音频的基频，上述第一基频和第二基频可以理解为多帧音频中特定的基频。如平均基频、最大的基频或最小的基频。

步骤104，将目标语音片段进行拼接得到所述目标文本的语音，所述目标语音片段包括所述N个第一语音片段进行音频调整后的语音片段。

本实施例中，可以直接将N个第一语音片段进行合成处理，得到目标文本的语音。针对上述第二字符串，可以加入空白语音片段或者加入白噪声进行停顿处理。在获得目标文本的语音后，可以将该语音发送给电子设备。

需要说明的是，对相邻两个第一字符串对应的语音片段进行音频调整，可以考虑文本段之间的音频调整，由于每一文本段对应为一句话，为了简化调整的复杂度，本实施例中，可以不考虑文本段之间的音频调整。换句话说，本实施例中，所述N个第一字符串归属基于所述标点符号划分的M+1个文本组，至少一个文本组内包括至少两个第一字符串，所述相邻两个第一字符串归属于同一文本组内。

本实施例中，上述步骤103可以理解为：针对同一文本组内的所述第一字符串对应的第一语音片段，基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整。

需要说明的是，当上述目标文本包括标点符号时，上述L个目标字符串还可以包括由标点符号构成的第二字符串。例如，在一实施例中，所述L个目标字符串还包括M个第二字符串，所述第二字符串为标点符号，M为正整数，且M与N的和值等于L，所述方法还包括：

根据所述M个第二字符串，生成M个第二语音片段；

其中，所述第二语音片段为白噪声，所述白噪声的白噪声系数根据所述第一语音片段确定，所述目标语音片段还包括所述第二语音片段。

本申请实施例中，上述白噪声的白噪声系数可以与生成的第一语音片段的白噪声系数相同，这样，可以保证拼接录音的前后两个语音片段的背景音一致，同时保证标点处有停顿感，因此提高了合成的语音的自然度，从而进一步提高了声音合成的效果。

需要说明的是，在本申请实施例中，针对不同的标点符号，对应的第二语音片段的时间长度不同，例如“句号”和“分号”对应的第二语音片段的时间长度为1秒，“逗号”对应的第二语音片段的时间长度为0.5秒，“顿号”对应的第二语音片段的时间长度为0.2秒。当然在其他实施例中还可以设置其他的标点符号，以上对各标点符号对应的第二语音片段的时间长度仅用于举例说明，在此不作进一步的限定。

需要说明的是，针对各第一字符串对应的第一语音片段可以进行统一调整，也可以按照字符串的位置依次进行处理。例如在一实施例中，所述基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整包括：

按照字符串的位置顺序或位置逆序依次对任意相邻的两个第一字符串中，在后的第一字符串的音频进行调整。

例如，一个文本段包括依次排列的字符串A、字符串B和字符串C；上述位置顺序可以理解为字符串A、字符串B和字符串C，或者上述位置逆序可以理解为字符串C、字符串B和字符串A。以下各实施例中，以预设顺序为正向排列顺序为例进行说明。此时，首先基于字符串A对应的第一语音片段对字符串B对应的第一语音片段进行调整，然后基于调整后的字符串B对应的第一语音片段对字符串C对应的第一语音片段进行调整。

本实施例中，以在先一个第一字符串对应的第一语音片段为基准，对在后一个第一字符串对应的第一语音片段进行调整。例如，针对“我们一起”和“去北京”，为两个相邻的第一字符串，以“我们一起”对应的第一语音片段为基准对“去北京”对应的第一语音片段进行调整。针对“吃正宗”、“老北京”和“涮羊肉”。可以首先以第一个第一字符串“吃正宗”对应的第一语音片段为基准，对第二个字符串“老北京”对应的第一语音片段进行调整，然后再以调整后的第二个第一字符串对应的第一语音片段，对第三个第一字符串“涮羊肉”对应的第一语音片段进行调整。

在其他实施例中，可以基于各相邻的第一字符串中第一基频和第二基频大小以及参考第一字符串对应的第一语音片段，分别计算文本组内的除参考第一字符串之外的其他第一字符串对应的第一语音片段相对于参考第一字符串对应的第一语音片段的调整系数，基于该调整系数对文本组内的除参考第一字符串之外的其他第一字符串对应的第一语音片段进行统一调整。

可选地，对在后的第一字符串的音频进行调整，包括：

确定所述第一基频与第二基频的差值；

基于所述差值对所述在后的第一字符串对应的第一语音片段的音频进行调整。

本申请实施例中，基于该差值，对在后的第一字符串对应的第一语音片段进行调整，且调整后，第一基频与第二基频相同。例如，可以将在后的第一字符串的对应第一语音片段的音频降低或者增加该差值，从而保证第一基频与第二基频相同。这样，可以保证相邻的两个第一字符串之间的韵律衔接一致，提高音频拼接的协调性。由于仅对在后的第一字符串进行调整，从而可以降低调整的难度。

可选地，可以将上述差值作为所述在后的第一字符串对应的第一语音片段的调整系数，通过psola算法将所述在后的第一字符串对应的第一语音片段的音频的基音调整。

可选地，在一实施例中，基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整之前，所述方法还包括：

根据第一音调和第二音调，确定所述第一基频和第二基频；

其中，所述第一音调为所述相邻两个第一字符串中在先一个第一字符串的最后一个字符的音调，所述第二音调为所述相邻两个第一字符串中在后一个第一字符串中第一个字符的音调。

本申请实施例中，可以根据第一音调和第二音调之间的关系，采用不同的基频进行音频调整。可选地，可以首先采集每个录音人员的录音，基于录音进行语调规则总结，从而确定每一个录音人员的语调规则，基于该语调规则可以确定所述第一基频和第二基频。其中，不同的录音人员，对应的语调规则可以相同或者不同。以下对语调规则进行详细说明。例如，在一实施例中，所述第一基频和第二基频满足以下至少一项：

在所述第一音调为四声，且第二音调为一声的情况下，所述第一基频为所述最后一个字符的基频均值，所述第二基频为所述第一个字符的基频均值；

在所述第一音调和第二音调满足第一预设条件的情况下，所述第一基频为所述最后一个字符的最大基频，所述第二基频为所述第一个字符的最大基频；

在所述第一音调和第二音调满足第二预设条件的情况下，所述第一基频为所述最后一个字符的最小基频，所述第二基频为所述第一个字符的最小基频。

可选地，所述第一预设条件包括以下任一项：

所述第一音调为一声，第二音调为一声、二声、三声或四声；

所述第一音调为二声，第二音调为一声、二声、三声或四声；

所述第一音调为三声，所述第二音调为一声；

所述第一音调为三声，所述第二音调为三声；

所述第一音调为三声，所述第二音调为四声。

可选地，所述第二预设条件包括以下任一项：

所述第一音调为三声，所述第二音调为二声；

所述第一音调为四声，所述第二音调为二声；

所述第一音调为四声，所述第二音调为三声；

所述第一音调为四声，所述第二音调为四声。

第一预设条件包括所述第一音调为一声，可以理解为，第一音调为第一声，第二音调无论为第一声、第二声、第三声或者第四声，都认为满足第一预设条件。第一预设条件包括所述第一音调为二声，可以理解为，第一音调为第二声，第二音调无论为第一声、第二声、第三声或者第四声，都认为满足第一预设条件。

本申请实施例中，以上述目标文本为“我们一起去北京，吃正宗老北京涮羊肉”为例进行说明。针对“我们一起”和“去北京”，“起”为第三声，“去”为第四声，此时，满足第一预设条件，所述第一基频为“起”的最大基频，所述第二基频为“去”的最大基频。针对“吃正宗”和“老北京”，“宗”为第一声，“老”为第三声，此时满足第二预设条件，此时所述第一基频为“宗”的最小基频，所述第二基频为“老”的最小基频。针对“吃正宗”和“涮羊肉”，“宗”为第一声，“涮”为第四声，此时，满足第一预设条件，所述第一基频为“宗”的最大基频，所述第二基频为“涮”的最大基频。

需要说明的是，本发明实施例中介绍的多种可选的实施方式，彼此可以相互结合实现，也可以单独实现，对此本发明实施例不作限定。

参照图2，本发明实施例还提供了一种语音转换方法，如图2所示，包括以下步骤：

步骤201，接收语音转换请求，所述语音转换请求中携带有目标文本信息；

本实施例中，用户可以通过电子设备向服务器发送语音转换请求，也可以直接在使用电子设备时，在客户端发送语音转换请求；例如，在浏览文字，或者在聊天交互界面中将输入的文字转换为语音时，可以通过特定的操作生成语音转换请求，并将转换请求发送至服务器。例如在聊天界面中输入相应的文本，通过当选择语音转换控件发送文本内容时，可以基于发送的文本生成语音转换请求；所述目标文本信息可以包括目标文本，也可以为目标文本的识别信息，根据该识别信息可以识别到对应的目标文本等。

步骤202，按照预设规则将目标文本信息对应的目标文本划分为L个目标字符串，所述L个目标字符串包括N个第一字符串，所述第一字符串不包括标点符号，L和均N为大于1的整数；

步骤203，对所述N个第一字符串进行语音转换，获得N个第一语音片段；

步骤204，针对所述第一字符串对应的第一语音片段，基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整，所述第一基频为所述相邻两个第一字符串中在先一个第一字符串的最后一个字符对应的基频，所述第二基频为所述相邻两个第一字符串中在后的第一字符串的第一个字符对应的基频；

步骤205，将目标语音片段进行拼接得到所述目标文本的语音，所述目标语音片段包括所述N个第一语音片段进行音频调整后的语音片段；

上述步骤202至步骤205同上述步骤101至步骤104，具体可以参照上述实施例的描述，在此不再赘述。

将所述目标文本的语音发送至所述电子设备本实施例中，电子设备在接收到该目标文本对应的语音后，可以执行相应的操作，例如，可以包括播放语音，或者发送语音等；

或者将所述目标文本的语音直接进行播放。

可选地，所述L个目标字符串还包括M个第二字符串，所述第二字符串为标点符号，M为正整数，且M与N的和值等于L，所述方法还包括：

根据所述M个第二字符串，生成M个第二语音片段；

可选地，基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整包括：

按照字符串的位置对任意相邻的两个第一字符串中，顺序在后的第一字符串的音频进行调整。

可选地，对顺序在后的第一字符串的音频进行调整，包括：

确定所述第一基频与第二基频的差值；

基于所述差值对所述在后的第一字符串的音频进行调整。

可选地，基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整之前，所述方法还包括：

根据第一音调和第二音调，确定所述第一基频和第二基频；

其中，所述第一音调为所述相邻两个第一字符串中在先一个第一字符串的最后一个字符的音调，所述第二音调为所述相邻两个第一字符串中在后的第一字符串中第一个字符的音调。

可选地，所述第一基频和第二基频满足以下至少一项：

可选地，所述第一预设条件包括以下任一项：

所述第一音调为三声，所述第二音调为一声；

所述第一音调为三声，所述第二音调为三声；

所述第一音调为三声，所述第二音调为四声。

可选地，所述第二预设条件包括以下任一项：

所述第一音调为三声，所述第二音调为二声；

所述第一音调为四声，所述第二音调为二声；

所述第一音调为四声，所述第二音调为三声；

所述第一音调为四声，所述第二音调为四声。

可选地，所述N个第一字符串归属基于所述标点符号划分的M+1个文本组，至少一个文本组内包括至少两个第一字符串，所述相邻两个第一字符串归属于同一文本组内。

参见图3，图3是本发明实施例提供的语音转换装置的结构图，如图3所示，语音转换装置300包括：

文本划分模块301，用于按照预设规则将目标文本划分为L个目标字符串，所述L个目标字符串包括N个第一字符串，所述第一字符串不包括标点符号，L和均N为大于1的整数；

语音转换模块302，对所述N个第一字符串进行语音转换，获得N个第一语音片段；

语音调整模块303，用于基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整，所述第一基频为所述相邻两个第一字符串中顺序在先的第一字符串的最后一个字符对应的基频，所述第二基频为所述相邻两个第一字符串中顺序在后的第一字符串的第一个字符对应的基频；

语音合成模块304，用于将目标语音片段进行拼接得到所述目标文本的语音，所述目标语音片段包括所述N个第一语音片段进行音频调整后的语音片段。

可选地，所述L个目标字符串还包括M个第二字符串，所述第二字符串为标点符号，M为正整数，且M与N的和值等于L，语音转换模块302还用于，根据所述M个第二字符串，生成M个第二语音片段；

可选地，所述语音调整模块303，具体用于：按照字符串的位置顺序或位置逆序依次对任意相邻的两个第一字符串中，顺序在后的第一字符串的音频进行调整。

可选地，所述语音调整模块303包括：

确定单元，用于确定所述第一基频与第二基频的差值；

调整单元，用于基于所述差值对所述在后的第一字符串的音频进行调整。

可选地，所述语音转换装置300，还包括：

确定模块，用于根据第一音调和第二音调，确定所述第一基频和第二基频；

可选地，所述第一基频和第二基频满足以下至少一项：

可选地，所述第一预设条件包括以下任一项：

所述第一音调为三声，所述第二音调为一声；

所述第一音调为三声，所述第二音调为三声；

所述第一音调为三声，所述第二音调为四声。

可选地，所述第二预设条件包括以下任一项：

所述第一音调为三声，所述第二音调为二声；

所述第一音调为四声，所述第二音调为二声；

所述第一音调为四声，所述第二音调为三声；

所述第一音调为四声，所述第二音调为四声。

本发明实施例提供的语音转换装置能够实现图1的方法实施例中各个过程，为避免重复，这里不再赘述。

参见图4，图4是本发明实施例提供的语音转换装置的结构图，如图4所示，语音转换装置300包括：

接收模块305，用于接收语音转换请求，所述语音转换请求中携带有目标文本信息；

文本划分模块301，用于按照预设规则将所述目标文本信息对应的目标文本划分为L个目标字符串，所述L个目标字符串包括N个第一字符串，所述第一字符串不包括标点符号，L和均N为大于1的整数；

语音转换模块302，用于对所述N个第一字符串进行语音转换，获得N个第一语音片段；

语音调整模块303，用于针对所述第一字符串对应的第一语音片段，基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整，所述第一基频为所述相邻两个第一字符串中在先一个第一字符串的最后一个字符对应的基频，所述第二基频为所述相邻两个第一字符串中在后一个第一字符串的第一个字符对应的基频；

进一步地，所述语音转换装置300还包括发送模块，用于将所述目标文本的语音发送至电子设备。所述电子设备为发送语音转换请求的设备，或者，所述语音转换装置300还包括播放模块，所述播放模块用于将所述目标文本的语音直接播放。

可选地，所述语音调整模块303包括：

确定单元，用于确定所述第一基频与第二基频的差值；

调整单元，用于基于所述差值对所述顺序在后的第一字符串的音频进行调整。

可选地，所述语音转换装置300，还包括：

其中，所述第一音调为所述相邻两个第一字符串中顺序在先的第一字符串的最后一个字符的音调，所述第二音调为所述相邻两个第一字符串中顺序在后的第一字符串中第一个字符的音调。

可选地，所述第一基频和第二基频满足以下至少一项：

可选地，所述第一预设条件包括以下任一项：

所述第一音调为三声，所述第二音调为一声；

所述第一音调为三声，所述第二音调为三声；

所述第一音调为三声，所述第二音调为四声。

可选地，所述第二预设条件包括以下任一项：

所述第一音调为三声，所述第二音调为二声；

所述第一音调为四声，所述第二音调为二声；

所述第一音调为四声，所述第二音调为三声；

所述第一音调为四声，所述第二音调为四声。

本发明实施例提供的语音转换装置能够实现图2的方法实施例中各个过程，为避免重复，这里不再赘述。

参见图5，图5是本发明实施例提供的另一种服务器的结构图，如图5所示，该服务器500包括：处理器501、收发机502、存储器503和总线接口，其中：

处理器501，用于执行以下操作：

或者，

收发机502，用于接收语音转换请求，所述语音转换请求中携带有目标文本信息；

处理器501，用于执行以下操作：

按照预设规则将所述目标文本信息对应的目标文本划分为L个目标字符串，所述L个目标字符串包括N个第一字符串，所述第一字符串不包括标点符号，L和均N为大于1的整数；

收发机502，还用于将所述目标文本的语音发送至电子设备，所述电子设备为发送所述语音转换请求的电子设备。

应理解，本实施例中，上述处理器501和收发机502能够实现图1和图2的方法实施例中服务器实现的各个过程，为避免重复，这里不再赘述。

在图5中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器501代表的一个或多个处理器和存储器503代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机502可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元。针对不同的用户设备，用户接口504还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器501负责管理总线架构和通常的处理，存储器503可以存储处理器501在执行操作时所使用的数据。

优选的，本发明实施例还提供一种服务器，包括处理器501，存储器503，存储在存储器503上并可在所述处理器501上运行的计算机程序，该计算机程序被处理器501执行时实现上述语音转换方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音转换方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语音转换方法，其特征在于，包括：

按照预设规则将目标文本划分为L个目标字符串，所述L个目标字符串包括N个第一字符串，所述L和所述N均为大于1的整数；

2.根据权利要求1所述的方法，其特征在于，所述第一字符串不包括标点符号，所述L个目标字符串还包括M个第二字符串，所述第二字符串为标点符号，M为正整数，且M与N的和为L，所述方法还包括：

根据所述M个第二字符串，生成M个第二语音片段；

3.根据权利要求1所述的方法，其特征在于，基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整包括：

4.根据权利要求3所述的方法，其特征在于，对顺序在后的第一字符串的音频进行调整，包括：

确定所述第一基频与第二基频的差值；

基于所述差值对所述在后的第一字符串的音频进行调整。

5.根据权利要求1至4中任一项所述的方法，其特征在于，基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整之前，所述方法还包括：

根据第一音调和第二音调，确定所述第一基频和第二基频；

6.根据权利要求5所述的方法，其特征在于，所述第一基频和第二基频满足以下至少一项：

7.根据权利要求6所述的方法，其特征在于，

所述第一预设条件包括以下任一项：

所述第一音调为三声，所述第二音调为一声；

所述第一音调为三声，所述第二音调为三声；

所述第一音调为三声，所述第二音调为四声；

所述第二预设条件包括以下任一项：

所述第一音调为三声，所述第二音调为二声；

所述第一音调为四声，所述第二音调为二声；

所述第一音调为四声，所述第二音调为三声；

所述第一音调为四声，所述第二音调为四声。

8.一种语音转换方法，其特征在于，包括：

接收语音转换请求，所述语音转换请求中携带有目标文本信息；

将所述目标文本信息对应的目标文本根据如权利要求1至7任一项所述的语音转换方法进行语音转换，得到所述目标文本的语音。

9.一种语音转换装置，其特征在于，包括：

10.一种服务器，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的语音转换方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的语音转换方法的步骤。