CN109559733B

CN109559733B - 语音节奏处理方法和装置

Info

Publication number: CN109559733B
Application number: CN201811445711.4A
Authority: CN
Inventors: 官砚楚; 陈力; 杨磊
Original assignee: Advanced New Technologies Co Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2023-06-27
Anticipated expiration: 2038-11-29
Also published as: CN109559733A

Abstract

本说明书实施例公开了一种语音节奏处理方法和装置，上述方法包括：对原始语音数据进行语音端点检测，得到多个语音片段和至少一个静音片段；基于预设标准化处理规则对所述至少一个静音片段进行标准化处理；基于标准化处理后的静音片段，对所述多个语音片段进行语音重组以得到处理后语音数据。

Description

语音节奏处理方法和装置

技术领域

本说明书实施例涉及语音处理技术领域，尤其涉及一种语音节奏处理方法和装置。

背景技术

随着科技的发展，智能设备的应用也越来越广泛，智能设备的一项重要功能是语音合成和语音输出，例如，对于商家使用的语音播报盒，当商家账户收款时，语音播报盒即可发出“收款**元”等类似语音。

为了实现语音合成和语音输出，智能设备一般会用到语音合成模型，语音合成模型通常需要语音数据等作为训练数据。相关技术中，语音数据的质量，尤其是语音节奏，对于语音合成模型最终的语音合成效果有很大的影响。

目前的语音数据通常是人工朗读的语音。针对同一个文本，由同一个专业语音师在不同的时间段朗读，或者是由不同的专业语音师朗读，其语音节奏均可能存在差异，上述节奏差异对于普通用户而言可能很难察觉，但是却能够在很大程度上影响到语音合成模型的语音合成效果。

发明内容

本说明书实施例提供一种语音节奏处理方法和装置，用于对原始语音数据的节奏进行标准化处理，以提高语音合成模型的语音合成效果。

本说明书实施例采用下述技术方案：

第一方面，提供了一种语音节奏处理方法，包括：

对原始语音数据进行语音端点检测，得到多个语音片段和至少一个静音片段；

基于预设标准化处理规则对所述至少一个静音片段进行标准化处理；

基于标准化处理后的静音片段，对所述多个语音片段进行语音重组以得到处理后语音数据。

第二方面，提供了一种语音节奏处理装置，包括：

语音端点检测模块，对原始语音数据进行语音端点检测，得到多个语音片段和至少一个静音片段；

标准化处理模块，基于预设标准化处理规则对所述至少一个静音片段进行标准化处理；

语音重组模块，基于标准化处理后的静音片段，对所述多个语音片段进行语音重组以得到处理后语音数据。

第三方面，提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如下操作：

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如下操作：

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：通过对原始语音数据进行语音端点检测得到语音片段和静音片段，并基于预设标准化处理规则对静音片段进行标准化处理，实现了节奏统一，最后基于标准化处理后的静音片段对多个语音片段进行语音重组以得到处理后语音数据，得到的处理后语音数据的节奏能够保持统一，如果处理后语音数据用于语音合成模型的训练训练，可以提高语音合成模型的语音合成效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本说明书的一个实施例提供的语音节奏处理方法流程示意图；

图2为本说明书的另一个实施例提供的语音节奏处理方法流程示意图；

图3为本说明书的一个实施例提供的语音节奏处理装置结构示意图；

图4为实现本说明书各个实施例的电子设备硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，本说明书的一个实施例提供一种语音节奏处理方法100，包括如下步骤：

S102：对原始语音数据进行语音端点检测，得到多个语音片段和至少一个静音片段。

本说明书实施例中提到的原始语音数据，可以是在录音棚中专业语音师朗读的语音数据，采用该方法录制得到原始语音数据中的噪音较小，便于提高语音端点检测的检测效率；同时，通过专业语音师的朗读，能够尽可能地保持语音的节奏的一致性，便于提高语音合成模型的语音合成效果。

可选地，在其它实施例中，原始语音数据还可以是通过其他途径获取的到，例如，获取电视台的新闻播报语音等，这样也能够尽可能地保持语音的节奏的一致性。

上述静音片段，具体可以是句子内的标点符号(如逗号、顿号)处的停顿、主语和谓语之间的停顿、动词和它带的宾语之间的停顿、句子中转折连词前的停顿或者是前置状语和主语之前的停顿等等。

语音端点检测(Voice Activity Detection，VAD，又称语音活动检测，语音边界检测)，能够从原始语音数据里识别出语音片段和静音片段。该步骤对原始语音数据进行语音端点检测，得到多个语音片段和至少一个静音片段，其中，一般每两个语音片段之间存在一个静音片段。

例如，原始语音数据对应的文本数据(也即原始语音数据的参考文本)是“收款10元”，对原始语音数据进行语音端点检测，即可得到“收款”、“10”和“元”这三者分别对应的语音片段v1、v2和v3；同时得到v1和v2之间静音片段t1，v2和v3之间的静音片段t2。因“收”和“款”之间的静音片段的时长通常较短，在识别过程中可能低于预设静音片段时长的最低阈值，因此通常可以忽略。

S104：基于预设标准化处理规则对所述至少一个静音片段进行标准化处理。

由于原始语音数据通常是用户发出语音，用户每天的录音的节奏状态会有细微的差别，不同的用户对同一参考文本进行朗读得到的原始语音数据的节奏也会有细微的差别。上述细微的节奏差别对于普通用户而言可能很难察觉，但是实验证明，能够在很大程度上影响到模型的语音合成效果，因此，该步骤可以对上述得到的至少一个静音片段进行标准化处理。

可选地，该实施例执行之前预先存储有针对不同时长的静音片段的预设标准化处理规则，该步骤针对得到的一个静音片段的具体执行过程可以如下：

如果目标静音片段的时长t小于t₁，则维持所述目标静音片段不变，t₁表示预设时长。

如果目标静音片段的时长t大于或等于nt₁但小于(n+1)t₁，则将所述目标静音片段分割得到第一目标静音片段和第二目标静音片段，其中，所述第一目标静音片段为所述目标静音片段的0时刻到nt₁/2时刻的部分，所述第二目标静音片段为所述目标静音片段的t-nt₁/2时刻到t时刻的部分，nt₁/2时刻到t-nt₁/2时刻的部分去除。t₁表示预设时长，n为正整数，可选地，该实施例中，t₁可以为100ms，相应地，n可以取1、2和3。

如果目标静音片段的时长t大于或等于nt₁，则将所述目标静音片段分割得到第一目标静音片段和第二目标静音片段，其中，所述第一目标静音片段为所述目标静音片段的0时刻到nt₁/2-t₂时刻的部分，所述第二目标静音片段为所述目标静音片段的t-nt₁/2+t₂时刻到t时刻的部分，nt₁/2-t₂时刻到t-nt₁/2+t₂时刻的部分去除。t₁表示第一预设时长，t₂表示第二预设时长，n为正整数。可选地，该实施例中，t₁可以为100ms，相应地，n可以取4，t₂可以是20ms。

上述所列举的多个例子之间并无干扰，在实际应用过程中可以同时执行。

可选地，在一个具体的例子中，该实施例执行之前预先存储有针对不同时长的静音片段的预设标准化处理规则，该步骤针对得到的一个静音片段的具体执行过程可以如下：

如果静音片段t大于或等于t₁＝400ms(该处提到的t₁和前文中t₁代表的意义发生变化，该处的t₁是一个具体的数值)，则针对该静音片段，去除中部的t-(t₁-40)ms，也即去除该静音片段的中部的(t-360)ms，保留前t₁/2-20ms和后t₁/2-20ms，相当于对静音片段进行一分为二，去掉了中部的(t-360)ms静音。

如果静音片段t大于或等于t₂＝300ms，但小于400ms，则该静音片段保留前t₂/2ms和后t₂/2ms，去除中部的(t-t₂)ms。

如果静音片段t大于或等于t₃＝200ms，但小于300ms，则该静音片段保留前t₃/2ms和后t₃/2ms，去除中部的(t-t₃)ms；或者

如果静音片段t大于或等于t₄＝100ms，但小于200ms，则该静音片段保留前t₄/2ms和后t₄/2ms，去除中部的(t-t₄)ms；或者

如果静音片段t大于或等于t₅＝50ms，但小于100ms，则将该静音片段从中间切开，不进行去除。对于小于t₅的静音片段，在步骤S202的语音端点检测过程中通常可以忽略。

通过实验证明，上述标准化处理的方法，在不破坏原始语音数据有效音部分的情况下能够取得很好的模型语音合成效果。

对于上述提到的去除静音片段中部的时长为**(**通指上述时长)的静音片段，例如，静音片段的时长是350ms，其开始时刻ts，结束时刻是(ts+300)，去除静音片段中部时长为50ms的静音片段时，具体是去除(ts+125)到(ts+175)之间的部分。

需要说明的是，针对上述提到的去除静音片段中部的时长为**的静音片段，由于本说明书实施例在得到多个语音片段和上述至少一个静音片段采用的是VAD，通常语音片段和静音片段之间的界限不是特别明显，例如，语音片段对应的是短时能量较高的部分，而静音片段的开始和结束部分也可能存在较低的短时能量，但是在进行VAD操作时忽略掉这些较低的短时能量。

本说明书实施例通过去除静音片段中部时长为**的静音片段，而不是针对静音片段进行任意时间段的去除，能够对原始语音数据进行节奏标准化的同时，最大程度地保持原始语音数据的有效音部分，便于提高后续过程模型的语音合成效果。

本说明书实施例在此示出了前述步骤S104的一种具体实现方式。当然，应理解，步骤S104也可以采用其它的方式实现，本说明书实施例对此不作限制。

S106：基于标准化处理后的静音片段，对所述多个语音片段进行语音重组以得到处理后语音数据。

通过S104对静音片段进行标准化处理，该步骤即可基于标准化处理后静音片段，对上述多个语音片段进行语音重组，得到处理后语音数据。

可选地，在步骤S102对原始语音数据进行语音端点检测时，还可以得到各片段(包括语音片段和静音片段)对应的语序，这样，该步骤即可基于标准化处理后的静音片段以及各片段对应的语序，对所述多个语音片段进行语音重组以得到处理后语音数据。

当然，在其它的实施例中，还可以用其他位置标识来标识得到的多个语音片段和至少一个静音片段的前后位置顺序，例如，步骤S102对原始语音数据进行语音端点检测，得到语音片段1、静音时长2、语音片段3、静音时长4、语音片段5，上述数字序号即可标识得到的3个语音片段和2个静音片段的前后位置顺序。

本说明书实施例提供的语音节奏处理方法，通过对原始语音数据进行语音端点检测得到语音片段和静音片段，并基于预设标准化处理规则对静音片段进行标准化处理，实现了节奏统一，最后基于标准化处理后的静音片段对多个语音片段进行语音重组以得到处理后语音数据，得到的处理后语音数据的节奏能够保持统一，如果处理后语音数据用于语音合成模型的训练训练，可以提高语音合成模型的语音合成效果。

对于上述提到的语音合成模型的语音合成效果，即语音播放流畅、语音节奏比较好即认为语音合成效果较好。

另外，现有技术中通过人工聆听，对于节奏不好的原始语音数据直接丢弃。本说明书实施例提供的语音节奏处理方法，能够充分利用节奏不太好的原始语音数据，不仅节约人工成本，最大化地利用宝贵的原始语音数据。

通常而言，语音合成模型在模型训练时，除了上述处理处理后语音数据之外，还需要对应的带有间隔标识信息的文本数据，现有技术中，通常是人工在原始语音数据的参考文本中添加间隔标识信息，为了提高处理效率，可选地，作为一个实施例，在上述实施例100的步骤S106得到处理后语音数据之后，还可以包括如下步骤：

S108：对处理后语音数据进行语音端点检测，得到处理后语音数据的多个语音片段和处理后语音数据的至少一个静音片段。

该步骤的执行过程可以参见步骤S102，其中，步骤S102是对原始语音数据进行语音端点检测，该步骤是对重组得到的处理后语音数据进行语音端点检测。

例如，处理后语音数据对应的文本数据是“有红包了”，对处理后语音数据进行语音端点检测，即可得到“有”、“红包”和“了”这三者分别对应的语音片段v1、v2和v3；同时得到v1和v2之间的静音片段t1，v2和v3之间的静音片段t2。因“红”和“包”之间的静音片段较短，在识别过程中可能低于预设静音片段的最低阈值，因此通常可以忽略。

S110：对处理后语音数据的多个语音片段进行语音识别，得到多个文本片段。

例如，该步骤可以对语音片段v1、v2和v3分别进行语音识别，得到v1、v2和v3分别对应的文本片段wb1、wb2和wb3，如果语音识别的结果完全准确，则上述wb1的内容是“有”，wb2的内容是“红包”，wb3的内容是“了”。

S112：在语音识别后得到的多个文本片段之间添加与处理后语音数据的至少一个静音片段相匹配的间隔标识信息。

如前所述，通过S108即可得到v1和v2之间的静音片段t1，v2和v3之间的静音片段t2。

通过步骤S110得到v1、v2和v3分别对应的文本片段wb1、wb2和wb3，该步骤则可以在wb1和wb2之间添加与静音片段t1相匹配的间隔标识信息，并在wb2和wb3之间添加与静音片段t2相匹配的间隔标识信息。

可选地，本说明书的一个实施例可以采用四种标识符号“*”，“^”，“$”以及“@”作为间隔标识信息。其中，“*”标识的时长为300ms及其以上的静音片段，也即时长为300ms及其以上的静音片段与间隔标识信息“*”相匹配；

“^”标识的是时长为[200，300)ms的静音片段；

“$”标识的是时长为[100，200)ms的静音片段；

“@”标识的是语音头和语音尾，也即在文本片段wb1之前可以添加间隔标识信息“@”，在文本片段wb3之后可以添加间隔标识信息“@”。

通过上述步骤即可得到的带有间隔标识信息的文本数据，得到的文本数据能够使处理后语音数据对齐，进一步有利于提高语音合成模型的语音合成效果。

在实际应用过程中，上述实施例的S110对处理后语音数据进行语音识别时，一些文本片段可能没有识别得到，例如，对语音片段v1、v2和v3分别进行语音识别，仅仅得到v1和v2分别对应的文本片段wb1和wb2，对语音片段v3没有识别得到文本，也即语音识别后得到的多个文本片段的数量小于处理后语音数据的多个语音片段的数量。又例如，对语音片段v2进行语音识别得到的文本片段wb2的内容是“红”，而实际的文本片段应该是“红包”。

因此，为了提高得到的文本片段的准确性，在上述实施例的S112之前还可以包括如下步骤：

S1101：基于所述原始语音数据的参考文本，对语音识别后得到的文本片段进行补全处理。

通过上述操作，如果识别得到的文本片段不全，则可以对其补充完整，提高得到的文本的准确性。

可选地，作为一个实施例，上述S1101基于所述原始语音数据的参考文本，对语音识别后得到的文本片段进行补全处理具体可以包括：

如果所述语音识别后得到的多个文本片段的数量小于所述处理后语音数据的多个语音片段的数量，且所述语音识别后得到的多个文本片段与所述原始语音数据的参考文本中对应位置的文本片段相匹配，则基于所述原始语音数据的参考文本，对语音识别后得到的文本片段进行补全处理。

还以之前例子为例进行说明，处理后语音数据对应的文本数据是“有红包了”，也即原始语音数据的参考文本是“有红包了”，原始语音数据的参考文本“有红包了”之间并没有间隔标识信息。

对处理后语音数据进行语音端点检测，即可得到“有”、“红包”和“了”这三者分别对应的语音片段v1、v2和v3；对语音片段v1、v2和v3分别进行语音识别，仅仅得到v1和v2分别对应的文本片段wb1和wb2，对语音片段v3没有识别得到文本片段，也即语音识别后得到的多个文本片段的数量小于处理后语音数据的多个语音片段的数量。

由于文本片段wb1能够和“有”匹配成功，文本片段wb2能够和“红包”匹配成功，则不完整的部分文本片段wb3则可以直接用“有红包了”中的“了”进行补齐。

对于如何确定得到的文本片段是否完整，如果得到的多个文本片段的数量小于所述处理后语音数据的多个语音片段的数量，则确定得到的文本片段不完整，或者是，得到的文本片段的集合不能够和原始语音数据的参考文本完全匹配成功，则认为是得到的文本片段不完整。

对于上述提到的得到的多个文本片段能够和所述原始语音数据的参考文本匹配成功，其中，具体可以计算多个文本片段和原始语音数据的参考文本之间的相似度，计算相似度时可以优先使用中文汉字，如果中文汉字的相似度太低时，则使用汉语拼音进行相似度比较。

通过上述方式得到的带有间隔标识信息的文本数据，能够使处理后语音数据和文本数据对齐，提高模型的语音合成效果。

可选地，作为一个实施例，在上述实施例的S112之前还可以包括如下步骤：

如果所述语音识别后得到的多个文本片段的数量小于所述处理后语音数据的多个语音片段的数量，则基于预先训练的Word2Vec模型，对所述语音识别后得到的多个文本片段进行补全处理。该实施例适用于原始语音数据没有参考文本的场景中。在一个具体的实施例中，Word2Vec模型包括Skip-Gram模型，Skip-Gram能够实现对语音识别后得到的多个文本片段进行补全处理。

上述多个实施例提供了得到带有间隔标识信息的文本数据的若干种实施方式，可选地，作为一个实施例，还可以在上述实施例100得到处理后语音数据之后，采用如下方法得到带有间隔标识信息的文本数据：

获取原始语音数据的参考文本；

基于标准化处理后的静音片段，在所述原始语音数据的参考文本的对应位置添加与标准化处理后的静音片段相匹配的间隔标识信息。

该实施例直接在原始语音数据的参考文本中添加间隔标识信息，同样能够得到带有间隔标识信息的文本数据。

在上述多个实施例的步骤S102对原始语音数据进行语音端点检测，得到多个语音片段之后，还可以包括下述至少之一：

在第一个语音片段之前添加第一预设时长的静音片段，所述第一预设时长的静音片段用于标识所述处理后语音数据的开始位置；以及

在最后一个语音片段之后添加第二预设时长的静音片段，所述第二预设时长的静音片段用于标识所述处理后语音数据的结束位置。

可选地，上述第一预设时长和第二预设时长相等。

通过上述操作，能够标识句子的开始和/或结束，能够使语音合成模型能够更好学习句子的开始和句子的结尾，进一步提高语音合成模型的语音合成效果。

在上述多个实施例的步骤S106得到处理后语音数据之后，还可以还包括如下步骤：

确定所述处理后语音数据的音量平均值；

基于所述音量平均值调整所述处理后语音数据的音量，具体地，可以将处理后语音数据的音量调整为统一的音量平均值。

通过上述操作，能够实现处理后语音数据的音量统一，避免因音量不统一而影响到模型的语音合成效果。

如图2所示，本说明书的一个具体实施例提供一种语音节奏处理方法200，包括如下步骤：

S202：对原始语音数据进行语音端点检测，得到语音片段和静音片段。

该步骤可以参见实施例100的步骤S102。

S204：在第一个语音片段之前和最后一个语音片段之后添加等时长的静音片段。

通过上述操作，能够标识句子的开始和结束，能够使语音合成模型能够更好学习句子的开始和句子的结尾，进一步提高语音合成模型的语音合成效果。

S206：对静音片段进行标准化处理。

可选地，该实施例执行之前预先存储有针对不同时长静音片段的预设标准化处理规则，该步骤针对得到的一个静音片段的具体执行过程可以如下：

如果静音片段t大于或等于t₁＝400ms，则针对该静音片段，去除中部的t-(t₁-40)ms，也即去除该静音片段的中部的(t-360)ms，保留前t₁/2-20ms和后t₁/2-20ms，相当于对静音片段进行一分为二，去掉了中部的(t-360)ms静音。

S208：基于标准化处理后的静音片段，对语音片段进行语音重组以得到处理后语音数据。

可选地，在步骤S202对原始语音数据进行语音端点检测时，还可以得到各片段(包括语音片段和静音片段)对应的语序，这样，该步骤即可基于标准化处理后的静音片段以及各片段对应的语序，对所述多个语音片段进行语音重组以得到处理后语音数据。

S210：对处理后语音数据进行语音端点检测，得到处理后语音数据的语音片段和静音片段。

该步骤的执行过程可以参见步骤S202，其中，步骤S202是对原始语音数据进行语音端点检测，该步骤是对重组得到的处理后语音数据进行语音端点检测。

S212：对静音片段的时长进行标记。

“^”标识的是时长为[200，300)ms的静音片段；

“$”标识的是时长为[100，200)ms的静音片段；

“@”标识的是语音头和语音尾，也即在第一个语音片段之前可以添加间隔标识信息“@”，在最后一个语音片段之后可以添加间隔标识信息“@”。

本说明书实施例提出了语音间隔标识方法，能够有效标识句子开始，句子中的长停顿，句子中的中停顿，句子中的短停顿和句子末尾，这种计量方法能够让语音合成模型能够更容易理解语音的节奏，便于进一步提高模型的语音合成效果。

S214：对处理后语音数据的音量进行归一化处理。

该步骤具体可以确定所述处理后语音数据的音量平均值；

S216：文本数据间隔标记。

该步骤可以首先对处理后语音数据的多个语音片段进行语音识别，得到多个文本片段；

在得到的多个文本片段之间添加与处理后语音数据的至少一个静音片段相匹配的间隔标识信息。

可选地，假设S210得到n个语音片段，该步骤进行语音识别仅仅得到n-1个文本片段，则可以按照n-1个文本片段的先后顺序，依次和与原始语音数据的参考文本计算相似度，当n-1个文本片段能和参考文本匹配成功，则丢失的一个文本片段，直接用参考文本中的部分补齐。

以上说明书部分详细介绍了语音节奏处理方法实施例，如图3所示，本说明书还提供了一种语音节奏处理装置300，如图3所示，该装置300包括：

语音端点检测模块302，可以用于对原始语音数据进行语音端点检测，得到多个语音片段和至少一个静音片段；

标准化处理模块304，可以用于基于预设标准化处理规则对所述至少一个静音片段进行标准化处理；

语音重组模块306，可以用于基于标准化处理后的静音片段，对所述多个语音片段进行语音重组以得到处理后语音数据。

本说明书实施例提供的语音节奏处理装置，通过对原始语音数据进行语音端点检测得到语音片段和静音片段，并基于预设标准化处理规则对静音片段进行标准化处理，实现了节奏统一，最后基于标准化处理后的静音片段对多个语音片段进行语音重组以得到处理后语音数据，得到的处理后语音数据的节奏能够保持统一，如果处理后语音数据用于语音合成模型的训练训练，可以提高语音合成模型的语音合成效果。

可选地，作为一个实施例，所述装置300还包括文本获取模块，可以用于：

对处理后语音数据进行语音端点检测，得到处理后语音数据的多个语音片段和处理后语音数据的至少一个静音片段；

对处理后语音数据的多个语音片段进行语音识别，得到多个文本片段；

在语音识别后得到的多个文本片段之间添加与处理后语音数据的至少一个静音片段相匹配的间隔标识信息。

可选地，作为一个实施例，所述装置300还包括文本补全处理模块，可以用于：

基于所述原始语音数据的参考文本，对语音识别后得到的文本片段进行补全处理。

可选地，作为一个实施例，基于所述原始语音数据的参考文本，对语音识别后得到的文本片段进行补全处理包括：

如果所述语音识别后得到的多个文本片段的数量小于所述处理后语音数据的多个语音片段的数量，且所述语音识别后得到的多个文本片段与所述原始语音数据的参考文本相匹配，则基于所述原始语音数据的参考文本，对所述语音识别后得到的文本片段进行补全处理。

如果所述语音识别后得到的多个文本片段的数量小于所述处理后语音数据的多个语音片段的数量，则基于预先训练的Word2Vec模型，对所述语音识别后得到的多个文本片段进行补全处理。可选地，作为一个实施例，所述装置300还包括文本获取模块，可以用于：

获取所述原始语音数据的参考文本；

可选地，作为一个实施例，标准化处理模块304，还可以用于：

可选地，作为一个实施例，所述装置300还包括音量调整模块，可以用于：

确定所述处理后语音数据的音量平均值；

基于所述音量平均值调整所述处理后语音数据的音量。

可选地，作为一个实施例，标准化处理模块304，可以用于：

如果目标静音片段的时长t大于或等于nt₁但小于(n+1)t₁，则将所述目标静音片段分割得到第一目标静音片段和第二目标静音片段，其中，所述第一目标静音片段为所述目标静音片段的0时刻到nt₁/2时刻的部分，所述第二目标静音片段为所述目标静音片段的t-nt₁/2时刻到t时刻的部分，t₁表示预设时长，n为正整数。

可选地，作为一个实施例，标准化处理模块304，可以用于：

如果目标静音片段的时长t大于或等于nt₁，则将所述目标静音片段分割得到第一目标静音片段和第二目标静音片段，其中，所述第一目标静音片段为所述目标静音片段的0时刻到nt₁/2-t₂时刻的部分，所述第二目标静音片段为所述目标静音片段的t-nt₁/2+t₂时刻到t时刻的部分，t₁表示第一预设时长，t₂表示第二预设时长，n为正整数。

可选地，作为一个实施例，语音端点检测模块302还可以用于：对原始语音数据进行语音端点检测，得到各片段对应的语序；

语音重组模块306，还可以用于：基于标准化处理后的静音片段以及各片段对应的语序，对所述多个语音片段进行语音重组以得到处理后语音数据。

根据本说明书实施例的上述语音节奏处理装置300可以参照对应前文本说明书实施例的语音节奏处理方法100和200的流程，并且，该语音节奏处理装置300中的各个单元/模块和上述其他操作和/或功能分别为了实现语音节奏处理方法100和200中的相应流程，为了简洁，在此不再赘述。

下面将结合图4详细描述根据本说明书实施例的电子设备。参考图4，在硬件层面，电子设备包括处理器，可选地，包括内部总线、网络接口、存储器。其中，如图4所示，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括实现其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture，EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成转发聊天信息的装置。处理器，执行存储器所存放的程序，并具体用于执行本说明书前文所述的方法实施例100和200的操作。

上述图1至图2所示实施例揭示的方法、装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例100和200中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例100和200的步骤。

图4所示的电子设备还可执行图1至图2的方法，并实现语音节奏处理方法在图1至图2所示实施例的功能，本说明书实施例在此不再赘述。

当然，除了软件实现方式之外，本申请的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本说明书实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述各个方法实施例100和200的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种语音节奏处理方法，包括：

基于标准化处理后的静音片段，对所述多个语音片段进行语音重组以得到处理后语音数据；

如果所述语音识别后得到的多个文本片段的数量小于所述处理后语音数据的多个语音片段的数量，且所述语音识别后得到的多个文本片段与所述原始语音数据的参考文本中对应位置的文本片段相匹配，则基于所述原始语音数据的参考文本，对语音识别后得到的文本片段进行补全处理；

2.根据权利要求1所述的方法，在语音识别后得到的多个文本片段之间添加与处理后语音数据的至少一个静音片段相匹配的间隔标识信息之前，所述方法还包括：

如果所述语音识别后得到的多个文本片段的数量小于所述处理后语音数据的多个语音片段的数量，则基于预先训练的Word2Vec模型，对所述语音识别后得到的多个文本片段进行补全处理。

3.根据权利要求1所述的方法，得到处理后语音数据之后，所述方法还包括：

获取所述原始语音数据的参考文本；

基于标准化处理后的静音片段，在所述参考文本的对应位置添加与标准化处理后的静音片段相匹配的间隔标识信息。

4.根据权利要求1至3任一项所述的方法，对原始语音数据进行语音端点检测，得到多个语音片段之后，所述方法还包括下述至少之一：

5.根据权利要求1至3任一项所述的方法，得到处理后语音数据之后，所述方法还包括：

确定所述处理后语音数据的音量平均值；

基于所述音量平均值调整所述处理后语音数据的音量。

6.根据权利要求1所述的方法，基于预设标准化处理规则对所述至少一个静音片段进行标准化处理包括：

7.根据权利要求1所述的方法，基于预设标准化处理规则对所述至少一个静音片段进行标准化处理包括：

8.根据权利要求1所述的方法，基于预设标准化处理规则对所述至少一个静音片段进行标准化处理包括：

9.根据权利要求1所述的方法，所述方法还包括：对原始语音数据进行语音端点检测，得到各片段对应的语序；

基于标准化处理后的静音片段，对所述多个语音片段进行语音重组以得到处理后语音数据包括：基于标准化处理后的静音片段以及各片段对应的语序，对所述多个语音片段进行语音重组以得到处理后语音数据。

10.一种语音节奏处理装置，包括：

语音重组模块，基于标准化处理后的静音片段，对所述多个语音片段进行语音重组以得到处理后语音数据；对处理后语音数据进行语音端点检测，得到处理后语音数据的多个语音片段和处理后语音数据的至少一个静音片段；对处理后语音数据的多个语音片段进行语音识别，得到多个文本片段；如果所述语音识别后得到的多个文本片段的数量小于所述处理后语音数据的多个语音片段的数量，且所述语音识别后得到的多个文本片段与所述原始语音数据的参考文本中对应位置的文本片段相匹配，则基于所述原始语音数据的参考文本，对语音识别后得到的文本片段进行补全处理；在语音识别后得到的多个文本片段之间添加与处理后语音数据的至少一个静音片段相匹配的间隔标识信息。

11.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如下操作：

12.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如下操作：