CN111508466A

CN111508466A - 一种文本处理方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111508466A
Application number: CN201910868220.9A
Authority: CN
Inventors: 刘鹏飞; 赵立军
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2020-08-07

Abstract

本发明公开了一种文本处理方法、装置、设备及计算机可读存储介质，涉及通信技术领域，以解决在将文本转化为语音的过程中，语音合成速度慢且复杂的问题。该方法包括：获取待处理文本；将所述待处理文本分割成变量文本和固定话术文本；获取所述固定话术文本对应的固定话术语音，以及利用神经网络语音合成模型获取所述变量文本对应的变量语音；将所述变量语音和所述固定话术语音进行拼接合成，得到所述待处理文本对应的语音数据。本发明实施例可提高语音合成速度并降低语音合成的复杂度。

Description

一种文本处理方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种文本处理方法、装置、设备及计算机可读存储介质。

背景技术

在互联网金融领域，尤其是消费金融方面，客服每天处理的咨询、回访等业务成千上万单。如何智能化的处理这些业务，是需要解决的问题。

语音合成技术，一般有两种:

第一种方法是传统的处理方法，分为两种：一种是根据波形拼接的，一种是根据参数合成的。根据波形拼接的方法中，需准备大量的不同情感、不同语境的语音数据，在拼接的时候选取最合适的单元。根据参数的语音合成方法，需构造上下文文本特征作为输入，再通过特征抽取获得语音数据的声学特征作为输出。传统的处理方法需要本领域专家和前期大量的投入，对于业务的快速开发上线是不可取的。

第二种方法是神经网络语音合成。但是，这种方法依赖于准确的标注，且合成速度很慢。

发明内容

本发明实施例提供一种文本处理方法、装置、设备及计算机可读存储介质，以解决在将文本转化为语音的过程中，语音合成速度慢且复杂的问题。

第一方面，本发明实施例提供了一种文本处理方法，包括：

获取待处理文本；

将所述待处理文本分割成变量文本和固定话术文本；

获取所述固定话术文本对应的固定话术语音，以及利用神经网络语音合成模型获取所述变量文本对应的变量语音；

将所述变量语音和所述固定话术语音进行拼接合成，得到所述待处理文本对应的语音数据。

第二方面，本发明实施例还提供一种文本处理装置，包括：

第一获取模块，用于获取待处理文本；

分割模块，用于将所述待处理文本分割成变量文本和固定话术文本；

第二获取模块，用于获取所述固定话术文本对应的固定话术语音，以及利用神经网络语音合成模型获取所述变量文本对应的变量语音；

语音合成模块，用于将所述变量语音和所述固定话术语音进行拼接合成，得到所述待处理文本对应的语音数据。

第三方面，本发明实施例还提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的文本处理方法中的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的文本处理方法中的步骤。

在本发明实施例中，在将待处理文本转换为语音数据的过程中，将所述待处理文本分割成变量文本和固定话术文本，并利用神经网络语音合成模型获取所述变量文本对应的变量语音，以及获取所述固定话术文本对应的固定话术语音。然后，再将所述变量语音和所述固定话术语音进行拼接合成，得到所述待处理文本对应的语音数据。由于利用了神经网络语音合成模型，因此，在语音合成的过程中不需要大量的语音数据，处理简单；同时，又由于对变量语音和固定话术语音进行拼接合成，因此，合成速度快。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的文本处理方法的流程图；

图2是本发明实施例提供的训练神经网络语音合成模型的过程示意图；

图3是本发明实施例提供的神经网络语音合成模型的结构图；

图4是本发明实施例提供的文本处理装置的结构图；

图5是本发明实施例提供的电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。根据本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的文本处理方法的流程图，如图1所示，包括以下步骤：

步骤101、获取待处理文本。

其中，所述待处理文本例如可以是用户输入的文本等。

步骤102、将所述待处理文本分割成变量文本和固定话术文本。

对于所述待处理文本，通过对其进行分析，将根据所述分析结果和预设的固定话术库，将其分割为变量文本和固定话术文本。其中，在进行分析时，可考虑待处理文本的句式，语义、语法结构等进行分析。通过这种方式，可提高对待处理文本进行分割的效率。

其中，所述变量文本指的是在具有同一属性的文本中，可根据具体的语境、用户等进行变化的文本；而固定话术文本，则指的是在该具有同一属性的文本中，不随具体的语境、用户等进行变化的文本。其中，该属性例如可以是句式，表达的含义等等。

例如，对于“您好，请问您是X先生吗？”，在这里面，“您好，请问您是先生吗？”属于固定话术文本，而X则属于变量文本。

步骤103、获取所述固定话术文本对应的固定话术语音，以及利用神经网络语音合成模型获取所述变量文本对应的变量语音。

在具体应用中，可将所述变量文本输入到所述神经网络语音合成模型中，将所述神经网络语音合成模型的输出作为所述变量文本对应的变量语音。其中，所述神经网络语音合成模型可以是预先训练好的模型，例如，dc_tts神经网络语音合成模型等。

在获得固定话术语音的过程中，可在预设的固定话术库中，查找目标固定话术文本，其中，所述目标固定话术文本和所述固定话术文本之间的编辑距离最小。然后，将所述目标固定话术文本对应的语音，作为所述固定话术文本对应的固定话术语音。在预设的固定话术库中，可预先存储有多个固定话术。那么，在实际应用中，可在该固定话术库中查找和固定话术文本之间的编辑距离最小的固定话术文本。

编辑距离，又称Levenshtein距离(莱文斯坦距离)，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数，如果它们的距离越大，说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。

例如，待处理文本中的固定话术文本是“您好，请问您是吗？”。在固定话术库中，查找到两个固定话术文本，分别是：“您好，打扰了，请问您是吗？”和“您好，不好意思，请问您是吗？”。由于“您好，打扰了，请问您是吗？”到“您好，请问您是吗？”只需要删除三个字，而“您好，不好意思，请问您是吗？”到“您好，请问您是吗？”需要删除四个字，那么，在此，可将“您好，打扰了，请问您是吗？”作为目标固定话术文本。

步骤104、将所述变量语音和所述固定话术语音进行拼接合成，得到所述待处理文本对应的语音数据。

在本发明实施例中，将所述变量语音和所述固定话术语音经过平滑算法拼接，输出最终语音。而两段语音拼接时，由于数据的不连续，在拼接边界处往往产生一些噪声，因此，两段语音如何在拼接时进行平滑，以有效地消除边界处的不连续，这对于改善合成语音的自然度有着很重要的作用。

具体的，在本发明实施例中，根据所述变量语音和所述固定话术语音，获取第一样本点和第二样本点。之后，根据所述第一样本点和所述第二样本点，获取目标样本点。最后，利用所述目标样本点，形成所述语音数据。

其中，所述第一样本和所述第二样本点分别为所述固定话术语音的样本点和所述变量语音的样本点。例如，所述第一样本点为所述变量语音的样本点，所述第二样本点为所述固定话术语音的样本点；或者，所述第一样本点为所述固定话术语音的样本点，所述第二样本点为所述变量语音的样本点。

其中，在本发明实施例中，可通过Scipy(Scipy是一个用于数学、科学、工程领域的常用软件包)读取所述变量语音或所述固定话术语音，得到相应的数组，该数组中的元素即可认为是样本点。

具体的，按照以下公式获取所述目标样本点：

S(n)＝αS₁(n)+(1-α)S₂(n)

其中，S(n)表示所述目标样本点；S₁(n)表示第一样本点，S₂(n)表示第二样本点；α表示因子，

R表示平滑长度，为整数；n＝0,1,……..R-1。

在实际应用中，平滑长度一般取值为512。在使用语音拼接前，一般要将语音转换为采样率16000或者8000，通道为1的语音。

在本发明实施例中，由于利用了神经网络语音合成模型，因此，在语音合成的过程中不需要大量的语音数据，处理简单；同时，又由于对变量语音和固定话术语音进行拼接合成，因此，合成速度快。

在具体应用中，在上述实施例的基础上，还可预先训练所述神经网络语音合成模型，以进一步提高语音合成的效率。具体的，可获取待处理的语料数据，并将所述语料数据分离成语音数据和文本数据。然后，提取所述语音数据的音频特征，以及将所述文本数据转换为音节数据，再利用所述音频特征和所述音节数据，训练所述神经网络语音合成模型。

如图2所示，是本发明实施例中训练神经网络语音合成模型的过程示意图。在图2中，将输入语料数据进行语音和文本的分离，并提取其中的音频特征以及将文本转化为音节。然后，输入到待训练的语音合成模型中。通过这种方式，可得到输出的语音合成模型。

如图3所示，为本发明实施例中所使用的神经网络语音合成模型的结构图。在此模型中，网络结构基于卷积网络和注意力机制。

在图3中，TextEnc模块，用于对输入文本进行编码处理；AudioEnc模块，用于对语音的梅尔频谱进行编码处理；AudioDec模块，用于生成梅尔频谱。dc_tts学习每个音节所对应的梅尔频谱，并通过声码器生成语音。其中，常用的声码器如world、Straight等。extEnc是对输入文本进行编码处理；AudioEnc对语音的梅尔频谱进行编码处理；在模型训练阶段，两者处理后的特征表示都是一一对应，学习两者之间的对应关系，而AudioDec针对输入的文本生成梅尔频谱，其与原始语音的梅尔频谱相比(可能是平方差或者差的绝对值的方式)并反馈给模型，继续训练，以至于两者的差别很小。

在训练阶段，输入一串音节，如“dào，xiàn，zài，biàn，chéng，liào，nà，hǎn，dì，lái，yóu”等，然后输出对应的语音。

在应用中，可输入一串有变量的文本，如“您好，请问是${name}吗”,其中“${name}”是变量文本，可能为李先生、刘先生、朱女士等；“您好，请问是吗？”是固定话术文本。在录制该话术时，'您好，请问是？'和'吗'之间留有短暂的停顿时间，前后的音调相同。其中，变量文本通过已训练好的模型得出变量语音，固定话术文本可在数据库中寻找编辑距离最小的句子，然后将该句子对应的语音作为固定话术文本的语音。最后，将变量语音和固定话术语音经过平滑算法拼接，输出最终语音。

在发明实施例中，神经网络语音合成方式在合成字数较少的句子时响应速度快，从而避免了使用拼接法所造成的语调不统一的问题。同时，可录制固定话术并存于数据库中，在语音合成时，寻找编辑距离最小的句子所对应的语音。因此，利用本发明实施例，将拼接法和神经网络语音合成相结合，解决了句子过长、语音合成响应速度过慢、成本高的问题，人机交互体验好，同时，还可有利于项目的快速上线和神经网络语音合成的落地。

本发明实施例还提供了一种文本处理装置。参见图4，图4是本发明实施例提供的文本处理装置的结构图。由于文本处理装置解决问题的原理与本发明实施例中文本处理方法相似，因此该文本处理装置的实施可以参见方法的实施，重复之处不再赘述。如图4所示，所述文本处理装置包括：

第一获取模块401，用于获取待处理文本；分割模块402，用于将所述待处理文本分割成变量文本和固定话术文本；第二获取模块403，用于获取所述固定话术文本对应的固定话术语音，以及利用神经网络语音合成模型获取所述变量文本对应的变量语音；语音合成模块404，用于将所述变量语音和所述固定话术语音进行拼接合成，得到所述待处理文本对应的语音数据。

可选的，所述分割模块402可包括：分析子模块，用于对所述待处理文本进行分析，得到分析结果；分割子模块，用于根据所述分析结果和预设的固定话术库，将所述待处理文本分割为变量文本和固定话术文本。

可选的，所述第二获取模块403可包括：第一获取子模块，用于将所述变量文本输入到所述神经网络语音合成模型中，将所述神经网络语音合成模型的输出作为所述变量文本对应的变量语音；第二获取子模块，用于在预设的固定话术库中，查找目标固定话术文本，其中，所述目标固定话术文本和所述固定话术文本之间的编辑距离最小；将所述目标固定话术文本对应的语音，作为所述固定话术文本对应的固定话术语音。

可选的，所述语音合成模块404可包括：第一获取子模块，用于根据所述变量语音和所述固定话术语音，获取第一样本点和第二样本点，所述第一样本和所述第二样本点分别为所述固定话术语音的样本点和所述变量语音的样本点；第二获取子模块，用于根据所述第一样本点和所述第二样本点，获取目标样本点；合成子模块，用于利用所述目标样本点，形成所述语音数据。

例如，所述第一样本点为所述变量语音的样本点，所述第二样本点为所述固定话术语音的样本点；或者，所述第一样本点为所述固定话术语音的样本点，所述第二样本点为所述变量语音的样本点。

可选的，所述第二获取子模块，具体用于：按照以下公式获取所述目标样本点：

S(n)＝αS₁(n)+(1-α)S₂(n)

R表示平滑长度，为整数；n＝0,1,……..R-1。

可选的，所述装置还可包括：训练模块，用于训练所述神经网络语音合成模型。

可选的，所述训练模块包括：获取子模块，用于获取待处理的语料数据；分离子模块，用于将所述语料数据分离成语音数据和文本数据；提取子模块，用于提取所述语音数据的音频特征，以及将所述文本数据转换为音节数据；训练子模块，用于利用所述音频特征和所述音节数据，训练所述神经网络语音合成模型。

本发明实施例提供的装置，可以执行上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

如图5所示，本发明实施例的电子设备，包括：处理器500，用于读取存储器520中的程序，执行下列过程：

获取待处理文本；

将所述待处理文本分割成变量文本和固定话术文本；

收发机510，用于在处理器500的控制下接收和发送数据。

其中，在图5中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器500代表的一个或多个处理器和存储器520代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机510可以是多个元件，即包括发送机和收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器500负责管理总线架构和通常的处理，存储器520可以存储处理器500在执行操作时所使用的数据。

处理器500负责管理总线架构和通常的处理，存储器520可以存储处理器500在执行操作时所使用的数据。

处理器500还用于读取所述计算机程序，执行如下步骤:

对所述待处理文本进行分析，得到分析结果；

根据所述分析结果和预设的固定话术库，将所述待处理文本分割为变量文本和固定话术文本。

处理器500还用于读取所述计算机程序，执行如下步骤:

将所述变量文本输入到所述神经网络语音合成模型中，将所述神经网络语音合成模型的输出作为所述变量文本对应的变量语音。

处理器500还用于读取所述计算机程序，执行如下步骤:

在预设的固定话术库中，查找目标固定话术文本，其中，所述目标固定话术文本和所述固定话术文本之间的编辑距离最小；

将所述目标固定话术文本对应的语音，作为所述固定话术文本对应的固定话术语音。

处理器500还用于读取所述计算机程序，执行如下步骤:

根据所述变量语音和所述固定话术语音，获取第一样本点和第二样本点；所述第一样本和所述第二样本点分别为所述固定话术语音的样本点和所述变量语音的样本点；

根据所述第一样本点和所述第二样本点，获取目标样本点；

利用所述目标样本点，形成所述语音数据。

处理器500还用于读取所述计算机程序，执行如下步骤:

按照以下公式获取所述目标样本点：

S(n)＝αS₁(n)+(1-α)S₂(n)

R表示平滑长度，为整数；n＝0,1,……..R-1。

处理器500还用于读取所述计算机程序，执行如下步骤:

训练所述神经网络语音合成模型。

处理器500还用于读取所述计算机程序，执行如下步骤:

获取待处理的语料数据；

将所述语料数据分离成语音数据和文本数据；

提取所述语音数据的音频特征，以及将所述文本数据转换为音节数据；

利用所述音频特征和所述音节数据，训练所述神经网络语音合成模型。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述文本处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。根据这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种文本处理方法，其特征在于，包括：

获取待处理文本；

将所述待处理文本分割成变量文本和固定话术文本；

2.根据权利要求1所述的方法，其特征在于，所述将所述待处理文本分割成变量文本和固定话术文本，包括：

对所述待处理文本进行分析，得到分析结果；

3.根据权利要求1所述的方法，其特征在于，所述利用神经网络语音合成模型获取所述变量文本对应的变量语音，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取所述固定话术文本对应的固定话术语音，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述变量语音和所述固定话术语音进行拼接合成，得到所述待处理文本对应的语音数据，包括：

根据所述变量语音和所述固定话术语音，获取第一样本点和第二样本点，所述第一样本和所述第二样本点分别为所述固定话术语音的样本点和所述变量语音的样本点；

根据所述第一样本点和所述第二样本点，获取目标样本点；

利用所述目标样本点，形成所述语音数据。

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一样本点和所述第二样本点，获取目标样本点，包括：

按照以下公式获取所述目标样本点：

S(n)＝αS₁(n)+(1-α)S₂(n)

其中，S(n)表示所述目标样本点；S₁(n)表示第一样本点，S₂(n)表示第二样本点；

α表示因子，

R表示平滑长度，为整数；n＝0,1,……..R-1。

7.根据权利要求3所述的方法，其特征在于，所述方法还包括：训练所述神经网络语音合成模型；所述训练所述神经网络语音合成模型，包括：

获取待处理的语料数据；

将所述语料数据分离成语音数据和文本数据；

8.一种神经网络语音合成模型的训练方法，其特征在于，包括：

获取如权利要求1—7任一项所述的变量文本；

将所述变量文本分离成语音数据和文本数据；

9.一种文本处理装置，其特征在于，包括：

第一获取模块，用于获取待处理文本；

10.一种电子设备，包括：收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，所述处理器，用于读取存储器中的程序实现如权利要求1至8中任一项所述的方法中的步骤。

11.一种计算机可读存储介质，用于存储计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的方法中的步骤。