CN111785248B

CN111785248B - 文本信息处理方法及装置

Info

Publication number: CN111785248B
Application number: CN202010172575.7A
Authority: CN
Inventors: 薛浏蒙; 宋伟; 武执政
Original assignee: Beijing Huijun Technology Co ltd
Current assignee: Beijing Huijun Technology Co ltd
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2023-06-23
Anticipated expiration: 2040-03-12
Also published as: WO2021179791A1; JP7383140B2; EP4044174A4; EP4044174A1; JP2022554149A; CN111785248A; US20220406290A1

Abstract

本发明实施例提供一种文本信息处理方法及装置，该方法包括：获取文本信息中每个音素对应的音素向量和每个音素对应的语义向量；获取在上一时刻输出的第一语义信息，第一语义信息为文本信息中的部分文本信息对应的语义信息，部分文本信息为已经转换为语音信息的文本信息；根据第一语义信息、每个音素对应的音素向量和每个音素对应的语义向量，确定当前时刻对应的上下文向量；根据上下文向量和第一语义信息，确定当前时刻的语音信息。用于使得根据语音信息合成的语音音频具有更好的韵律、更稳定的音质。

Description

文本信息处理方法及装置

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种文本信息处理方法及装置。

背景技术

目前，对文本信息进行机器学习，可以得到该文本信息对应的语音。

在相关技术中，对文本信息进行机器学习得到音频信息的过程包括：获取文本信息对应的音素信息，对音素信息进行编码处理得到语义信息，对语义信息进行学习得到上下文向量，进而根据上下文向量合成语音。

在上述过程中，对语义信息进行学习得到上下文向量的过程中，得到的上下文向量不准确，导致合成的语音的音质较差。

发明内容

本发明实施例提供一种文本信息处理方法及装置，用于使得根据语音信息合成的语音音频具有更好的韵律、更稳定的音质。

第一方面，本发明实施例提供一种文本信息处理方法，包括：

获取文本信息中每个音素对应的音素向量和每个音素对应的语义向量；

获取在上一时刻输出的第一语义信息，第一语义信息为文本信息中的部分文本信息对应的语义信息，部分文本信息为已经转换为语音信息的文本信息；

根据第一语义信息、每个音素对应的音素向量和每个音素对应的语义向量，确定当前时刻对应的上下文向量；

根据上下文向量和第一语义信息，确定当前时刻的语音信息。

在一种可能的实施方式中，根据第一语义信息、每个音素对应的音素向量、每个音素对应的语义向量，确定当前时刻对应的上下文向量，包括：

根据第一语义信息和每个音素对应的语义向量，确定语义匹配度；

根据语义匹配度、每个音素对应的音素向量和每个音素对应的语义向量，确定当前时刻对应的上下文向量。

在另一种可能的实施方式中，根据第一语义信息和每个音素对应的语义向量，确定语义匹配度，包括：

通过第一预设模型对第一语义信息和每个音素对应的语义向量进行处理，得到语义匹配度，第一预设模型为对多组第一样本进行学习得到的，每组第一样本包括语义信息和语义向量。

在另一种可能的实施方式中，根据语义匹配度、每个音素对应的音素向量和每个音素对应的语义向量，确定当前时刻对应的上下文向量，包括：

根据语义匹配度和每个音素对应的语义向量，确定语义上下文向量；

根据语义匹配度和每个音素对应的音素向量，确定音素上下文向量；

对语义上下文向量和音素上下文向量进行组合处理，确定当前时刻对应的上下文向量。

在另一种可能的实施方式中，根据第一语义信息、每个音素对应的音素向量和每个音素对应的语义向量，确定当前时刻对应的上下文向量，包括：

根据每个音素对应的音素向量和每个音素对应的语义向量，确定每个音素对应的合向量；

根据第一语义信息和每个音素对应的合向量，确定语义匹配度；

根据语义匹配度和每个音素对应的合向量，确定当前时刻对应的上下文向量。

在另一种可能的实施方式中，根据第一语义信息和每个音素对应合向量，确定语义匹配度，包括：

通过第二预设模型对第一语义信息和每个音素对应的合向量进行处理，得到语义匹配度，第二预设模型为对多组第二样本进行学习得到的，每组第二样本包括语义信息和合向量。

在另一种可能的实施方式中，根据上下文向量和第一语义信息，确定当前时刻的语音信息，包括：

根据上下文向量和第一语义信息，确定当前时刻对应的第二语义信息；

对第二语义信息进行梅尔谱网络映射处理，得到当前时刻的语音信息。

在另一种可能的实施方式中，获取文本信息中每个音素对应的音素向量，包括：

获取文本信息的音素序列，音素序列包括至少一个音素；

根据至少一个音素，确定每个音素对应的音素向量。

在另一种可能的实施方式中，根据至少一个音素，确定每个音素对应的音素向量，包括：

在预设音素列表中查找每个音素对应的标识；

根据每个音素对应的标识，在预设音素查找表中查找每个音素对应的音素向量。

在另一种可能的实施方式中，获取每个音素对应的语义向量，包括：

对每个音素对应的音素向量进行编码处理，得到每个音素对应的语义向量。

第二方面，本发明实施例提供一种文本信息处理装置，包括：第一获取模块、第二获取模块、第一确定模块和第二确定模块，其中，

第一获取模块用于，获取文本信息中每个音素对应的音素向量和每个音素对应的语义向量；

第二获取模块用于，获取在上一时刻输出的第一语义信息，第一语义信息为文本信息中的部分文本信息对应的语义信息，部分文本信息为已经转换为语音信息的文本信息；

第一确定模块用于，根据第一语义信息、每个音素对应的音素向量和每个音素对应的语义向量，确定当前时刻对应的上下文向量；

第二确定模块用于，根据上下文向量和第一语义信息，确定当前时刻的语音信息。

在一种可能的实施方式中，第一确定模块具体用于：

根据语义匹配度、每个音素对应的音素向量和和每个音素对应的语义向量，确定当前时刻对应的上下文向量。

在另一种可能的实施方式中，第一确定模块具体用于：

在另一种可能的实施方式中，第二确定模块具体用于：

在另一种可能的实施方式中，第一获取模块具体用于：

获取文本信息的音素序列，音素序列包括至少一个音素；

根据至少一个音素，确定每个音素对应的音素向量。

在另一种可能的实施方式中，第一获取模块具体用于：

在预设音素列表中查找每个音素对应的标识；

在另一种可能的实施方式中，第一获取模块具体用于：

第三方面，本发明实施例提供一种文本信息处理装置，包括：至少一个处理器和存储器；

存储器存储计算机执行指令；

至少一个处理器执行存储器存储的计算机执行指令，使得至少一个处理器执行如上第一方面中任一项所示的文本信息处理装置。

第四方面，本发明实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现如上第一方面中任一项中的文本信息处理装置。

本发明实施例提供一种文本信息处理方法及装置，该文本信息处理方法包括：获取文本信息中每个音素对应的音素向量和每个音素对应的语义向量；获取在上一时刻输出的第一语义信息，第一语义信息为文本信息中的部分文本信息对应的语义信息，部分文本信息为已经转换为语音信息的文本信息；根据第一语义信息、每个音素对应的音素向量和每个音素对应的语义向量，确定当前时刻对应的上下文向量；根据上下文向量和第一语义信息，确定当前时刻的语音信息。在上述方法中，根据第一语义信息、每个音素对应的音素向量和每个音素对应的语义向量，确定当前时刻对应的上下文向量，使得确定出的上下文向量更准确，提高了确定出的语音信息的准确性，进而使得根据语音信息合成的语音音频具有更好的韵律、更稳定的音质。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为申请提供的文本信息处理方法的应用场景示意图；

图2为本申请提供的文本信息处理方法的流程示意图一；

图3为本申请提供的一种文本信息处理方法的流程示意图；

图4为本申请提供的一种文本信息处理方法的处理结构示意图；

图5为本申请提供的另一种文本信息处理方法的流程示意图；

图6为本申请提供的另一种文本信息处理方法的处理结构示意图；

图7为本申请提供的文本信息处理装置的结构示意图；

图8为本申请提供的文本信息处理装置的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和/或权利要求书及上述附图中的术语“第一”、“第二”、“第三”和“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1为申请提供的文本信息处理方法的应用场景示意图。请参见图1，包括：智能设备101，智能设备101可以接收文本信息，对将文本信息合成语音音频。例如，智能设备101可以为智能手机、智能机器人、智能阅读度器等能够根据文本信息合成语音音频的设备。

在本申请中，根据文本信息合成语音音频的过程包括：根据文本信息中每个音素对应的音素向量和语义向量确定当前时刻对应的上下文向量，进而根据当前时刻对应的上下文向量，确定当前时刻的语音信息。在上述过程中，根据每个音素对应的音素向量和语义向量确定当前时刻对应的上下文向量，可以得到准确的上下文向量，提高确定出的语音信息的准确性，进而使得根据语音信息合成的语音音频具有更好的韵律、更稳定的音质。

下面，通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是，下面几个具体实施例可以相互结合，对于相同或相似的内容，在不同的实施例中不再进行重复说明。

图2为本申请提供的文本信息处理方法的流程示意图一。如图2所示，文本信息处理方法包括：

S201：获取文本信息中每个音素对应的音素向量和每个音素对应的语义向量。

可选地，本申请所示的文本信息处理方法的执行主体为智能设备，也可以为设置在智能设备中的文本信息处理装置，该文本处理装置可以通过软件和/或硬件的结合来实现。

在一种可能的实施方式中，可以获取文本信息的音素序列，音素序列包括至少一个音素；根据至少一个音素，确定每个音素对应的音素向量。例如，文本信息为我在陕西，音素序列为w、o3、z、ai2、sh、an3、x、i1。

进一步地，可以从预设数据表中获取每个音素对应的音素向量，其中，预设数据表中包括至少一个音素和每个音素对应的音素向量。

在本申请中，通过预设编码器对对每个音素对应的音素向量进行编码处理，得到每个音素对应的语义向量。可选地，预设编码器与编码器(Encoder)-解码器(Decoder)模型中的编码器(Encoder)模型相同。

S202：获取在上一时刻输出的第一语义信息，第一语义信息为文本信息中的部分文本信息对应的语义信息，部分文本信息为已经转换为语音信息的文本信息。

具体的，上一时刻输出的第一语义信息为预设解码器在上一时刻的输出信息(即隐层状态向量)。可选地，预设解码器与编码器(Encoder)-解码器(Decoder)模型中的解码器(Decoder)模型相同。

S203：根据第一语义信息、每个音素对应的音素向量和每个音素对应的语义向量，确定当前时刻对应的上下文向量。

具体的，可以通过第一预设模型对第一语义信息和每个音素对应的语义向量进行处理，得到语义匹配度，进而根据语义匹配度、每个音素对应的音素向量和每个音素对应的语义向量，确定当前时刻对应的上下文向量；或者，

可以通过第二预设模型对第一语义信息和每个音素对应的语义向量与音素向量之间的合向量进行处理，得到语义匹配度，进而根据语义匹配度和每个音素对应的语义向量，确定当前时刻对应的上下文向量。

需要说明的是，对第一预设模型的详细说明请参见图3实施例，对第二模型的详细说明请参见图5实施例。

S204：根据上下文向量和第一语义信息，确定当前时刻的语音信息。

具体的，可以通过预设解码器对上下文向量和第一语义信息进行处理，得到当前时刻的第二语义信息，进而根据第二语义信息确定当前时刻的语音信息，其中，当前时刻的语音信息为当前时刻对应的梅尔频谱。

本发明实施例提供的文本信息处理方法包括：获取文本信息中每个音素对应的音素向量和每个音素对应的语义向量；获取在上一时刻输出的第一语义信息，第一语义信息为文本信息中的部分文本信息对应的语义信息，部分文本信息为已经转换为语音信息的文本信息；根据第一语义信息、每个音素对应的音素向量和每个音素对应的语义向量，确定当前时刻对应的上下文向量；根据上下文向量和第一语义信息，确定当前时刻的语音信息。在上述方法中，根据第一语义信息、每个音素对应的音素向量和每个音素对应的语义向量，确定当前时刻对应的上下文向量，使得确定出的上下文向量更准确，提高了确定出的语音信息的准确性，进而使得根据语音信息合成的语音音频具有更好的韵律、更稳定的音质。

在上述实施例的基础上，下面结合图3实施例对本申请提供的文本信息处理方法作进一步的说明，具体的，请参见图3。

图3为本申请提供的一种文本信息处理方法的流程示意图。如图3所示，文本信息处理方法包括：

S301：获取文本信息的音素序列，音素序列包括至少一个音素。

具体的，对文本信息进行音素转换处理，可以得到文本信息的音素序列。

例如，文本信息为我爱中国，则对我爱中国进行音素转换处理之后，得到的音素序列为w、o3、ai2、zh、ong1、g、uo2。其中，w、o3、ai2、zh、ong1、g、uo2均为音素。

S302：在预设音素列表中查找每个音素对应的标识。

具体的，预设音素列表中包括至少一个音素和每个音素对应的标识，其中，每个音素对应的标识可以为预设编号或者索引号。

例如，每个音素对应的标识为预设编号时，若音素序列为w、o3、ai2、zh、ong1、g、uo2，则在预设音素列表中查找到上述音素序列中音素对应的标识分别为：53、22、11、66、39、28、42。

S303：根据每个音素对应的标识，在预设音素查找表中查找每个音素对应的音素向量。

具体的，预设音素查找表是通过神经网络联合训练得到的二维查找表，该二维查找表的维度是T_p×D_P，T_p表示预设音素查找表中包括的音素总个数，D_P表示预设音素查找表中音素向量的深度。

进一步地，根据每个音素对应的标识，在预设音素查找表中查找每个音素对应的音素向量，其中，查找到的所有音素对应的音素向量可以组成一个二维表，该二维表的维度为T_j×D_P，其中，T_j为音素序列中包括的音素的个数。

S304：对每个音素对应的音素向量进行编码处理，得到每个音素对应的语义向量。

具体的，通过预设编码器对每个音素对应的音素向量进行编码处理，以得到每个音素对应的语义向量，其中，对预设编码器的详细说明，请参见图4实施例。

S305：获取在上一时刻输出的第一语义信息，第一语义信息为文本信息中的部分文本信息对应的语义信息，部分文本信息为已经转换为语音信息的文本信息。

具体的，S305的执行方法与S202的执行方法相同，此处不再赘述S305的执行过程。

S306：通过第一预设模型对第一语义信息和每个音素对应的语义向量进行处理，得到语义匹配度，第一预设模型为对多组第一样本进行学习得到的，每组第一样本包括语义信息和语义向量。

其中，第一预设模型具有如下公式1的表示形式。具体的，可以通过公式1对第一语义信息和每个音素对应的语义向量进行处理，得到当前时刻t对应的语义匹配度：

e_tj＝attention(s_t-1,h_j) 公式1；

式中，e_tj为t时刻对应的语义匹配度，该语义匹配度用于衡量t时刻的语音信息与第j个音素之间的匹配程度，s_t-1为预设解码器的在t-1时刻的隐层状态(即第一语义信息)，h_j为第j个音素对应的语义向量。

S307：根据语义匹配度和每个音素对应的语义向量，确定语义上下文向量。

可选地，可以通过如下公式2对语义匹配度进行处理，得到语义对齐度，进而通过如下公式3对语义对齐度和每个音素对应的语义向量进行处理，得到语义上下文向量。

可选地，公式2具有如下形式：

式中，a_tj表示语义对齐度，该语义对齐度用于衡量t时刻对应的音素与语音音频之间的对齐程度。

需要说明的是，上述语义对齐度a_tj需要满足如下条件：

可选地，公式3具有如下形式：

式中，c_t为t时刻对应的语义上下文向量。

S308：根据语义匹配度和每个音素对应的音素向量，确定音素上下文向量。

可选地，可以通过如上公式2对语义匹配度进行处理，得到语义对齐度，进而通过如下公式4对语义对齐度和每个音素对应的音素向量进行处理，得到音素上下文向量。

可选地，公式4具有如下形式：

式中，c′_t为t时刻对应的音素上下文向量，p_j为第j个音素对应的音素向量。

S309：对语义上下文向量和音素上下文向量进行组合处理，确定当前时刻对应的上下文向量。

可选地，可以通过如下公式5对语义上下文向量和音素上下文向量进行组合处理，确定当前时刻对应的上下文向量。

可选地，公式5具有如下形式：

C_t＝[c_t；c'_t] 公式5；

其中，C_t为t时刻对应的上下文向量。

需要说明的是，语义上下文向量c_t和音素上下文向量c′_t具有相同的深度，上下文向量C_t的深度为语义上下文向量c_t(或音素上下文向量c′_t)深度的两倍。

S310：根据上下文向量和第一语义信息，确定当前时刻对应的第二语义信息。

具体的，通过预设解码器，对上下文向量和第一语义信息进行解码处理，得到当前时刻对应的第二语义信息。其中，第二语义信息为预设解码器在当前时刻的隐层状态向量s_t。

S311：对第二语义信息进行梅尔谱网络映射处理，得到当前时刻的语音信息。

进一步地，循环执行上述S305至S311得到全部时刻的语音信息，进而根据通过预设语音合成器对全部时刻的语音信息进行语音合成处理，得到文本信息对应的语音音频，其中，全部时刻为预设解码器在自学习过程中确定的。其中，预设语音合成器可以为WaveNet语音合成器，还可以为其他语音合成器。

与现有技术不同，在现有技术中，通过梯度反向回传方法根据每个音素的语义向量学习上下文向量的过程中，会引入计算误差，造成得到的上下文向量不准确，从而影响语音音频的质量。

而本申请所示的文本信息处理方法包括：根据语义匹配度和每个音素对应的语义向量，得到关于语义上下文向量；根据语义匹配度和每个音素对应的音素向量，得到关于音素的音素上下文向量；对语义上下文向量和音素上下文向量进行组合处理，得到当前时刻对应的上下文向量。本申请确定当前时刻对应的上下文向量的过程中，参考了每个音素对应的音素向量和语音向量，提高了确定出的当前时刻对应的上下文向量的准确性。

图4为本申请提供的一种文本信息处理方法的处理结构示意图。如图4所示，该处理结构包括：预设编码器101、注意学习器102和预设解码器103。其中，注意学习器102包括第一预设模型，该注意学习器102分别与预设编码器101和预设解码器103连接。

在实际应用中，预设编码器101执行图3实施例的S304中所示的方法，以得到每个音素对应的语义向量，并将每个音素对应的语义向量提供给注意学习器102。注意学习器102执行图3实施例中S305所示的方法，以得到预设解码器103在上一时刻输出的第一语义信息，并根据第一语义信息、每个音素对应的音素向量和语义向量，依次执行S306至S309所示的方法，得到当前时刻对应的上下文向量，并向解码器预设103提供当前时刻对应的上下文向量。预设解码器103可以执行S310所示的方法，以得到当前时刻对应的第二语义信息。

在现有技术中，编码器对每个音素对应的音素向量进行编码处理之后得到的每个音素对应的语义向量存在信息损失，因此，仅根据每个音素对应的语义向量确定当前时刻的上下文向量，无法准确地确定出当前时刻的上下文向量，从而导致确定出的语音信息的不准确，进而使得根据语音信息合成的语音音频的韵律差、音质的稳定性差。

而在本申请中，在图4所示的处理结构中，注意学习器102可以对文本信息中每个音素对应的音素向量和预设编码器101输出的每个音素对应的语义向量进行学习得到，依次得到语义匹配度、语义对齐度和当前时刻的上下文向量，使得确定出的上下文向量更准确，提高了确定出的语音信息的准确性，进而使得根据语音信息合成的语音音频具有更好的韵律、更稳定的音质。

在上述实施例的基础上，下面结合图5实施例对本申请提供的文本信息处理方法作进一步的说明，具体的，请参见图5。

图5为本申请提供的另一种文本信息处理方法的流程示意图。如图5所示，文本信息处理方法包括：

S501：获取文本信息的音素序列，音素序列包括至少一个音素。

S502：在预设音素列表中查找每个音素对应的标识。

S503：根据每个音素对应的标识，在预设音素查找表中查找每个音素对应的音素向量。

S504：对每个音素对应的音素向量进行编码处理，得到每个音素对应的语义向量。

S505：获取在上一时刻输出的第一语义信息，第一语义信息为文本信息中的部分文本信息对应的语义信息，部分文本信息为已经转换为语音信息的文本信息。

具体的，S501至S505的执行方法与S401至S405的执行方法相同，此处不再赘述S501至S505的执行过程。

S506：根据每个音素对应的音素向量和每个音素对应的语义向量，确定每个音素对应的合向量。

可选地，可以通过如下公式6对每个音素对应的音素向量和每个音素对应的语义向量进行处理，得到每个音素对应的合向量：

m_j＝h_j+p_j 公式6；

式中，m_j为第j个音素对应的合向量。

S507：通过第二预设模型对第一语义信息和每个音素对应的合向量进行处理，得到语义匹配度，第二预设模型为对多组第二样本学习得到的，每组第二样本包括语义信息和合向量。

需要说明的是，第二预设模型可以与第一预设模型相同、也可以不相同。

例如，第二预设模型与第一预设模型相同时，可以将公式1中第j个音素对应的语义向量h_j替换为第j个音素对应的合向量m_j，进而根据公式1确定语义匹配度。

S508：根据语义匹配度和每个音素对应的合向量，确定当前时刻对应的上下文向量。

具体的，可以通过上述公式2对语义匹配度进行处理，得到语义对齐度a_tj，通过如下公式7对语义匹配度和每个音素对应的合向量进行处理，得到当前时刻对应的上下文向量C_t：

S509：根据上下文向量和第一语义信息，确定当前时刻对应的第二语义信息。

S510：对第二语义信息进行梅尔谱网络映射处理，得到当前时刻的语音信息。

具体的，S509和S510的执行方法与S310和S311的执行方法相同，此处不再赘述S509和S510的执行过程。

需要说明的是，重复执行S505至S510得到全部时刻的语音信息，进而根据通过预设语音合成器对全部时刻的语音信息进行语音合成处理，得到文本信息对应的语音音频，其中，全部时刻为预设解码器在自学习过程中确定的。其中，预设语音合成器可以为WaveNet语音合成器，还可以为其他语音合成器。

与现有技术不同，在现有技术中，通常仅根据语义向量h_j确定语义匹配度e_tj，进而根据语义匹配度e_tj确定语义对齐度a_tj，导致语义对齐度a_tj不准确。而在本申请中，根据语义向量h_j和音素向量p_j的合向量确定语义匹配度e_tj，进而根据语义匹配度e_tj确定语义对齐度a_tj，可以提高语义对齐度a_tj不准确，提高确定出的上下文向量C_t的准确性。

图6为本申请提供的另一种文本信息处理方法的处理结构示意图。如图6所示，该处理结构包括：预设编码器201、注意学习器202、预设解码器203和加法器204。注意学习器202包括第二预设模型，该注意学习器202分别与加法器204和预设解码器203连接，预设编码器201与加法器204连接。

需要说明的是，文本信息对应的音素矩阵为文本信息中每个音素对应的音素向量组合矩阵。

在实际应用中，预设编码器201执行图5实施例中S504中所示的方法，以得到每个音素对应的语义向量，并将每个音素对应的语义向量提供给注意学习器202。注意学习器202执行图5实施例中S505所示的方法，得到预设解码器203在上一时刻的第一语义信息，根据第一语义信息、每个音素对应的音素向量和语义向量依次执行S506至S508所示的方法，得到当前时刻对应的上下文向量，并向预设解码器203提供当前时刻对应的上下文向量。预设解码器203执行S509所示的方法，得到当前时刻对应的第二语义信息。

在图6所示的处理结构中，加法器204对每个音素对应的语义向量和音素向量进行叠加处理得到每个音素对应的合向量，可以弥补现有技术中编码器对每个音素对应的音素向量进行编码处理之后得到的每个音素对应的语义向量中存在的信息损失，提高确定出的语义匹配度、语义对齐度和当前时刻的上下文向量的准确性，进而提高确定出的语音信息的准确性，使得根据语音信息合成的语音音频具有更好的韵律、更稳定的音质。

图7为本申请提供的文本信息处理装置的结构示意图。该文本信息处理装置10可以设置在智能设备中，如图7所示，文本信息处理装置10包括：第一获取模块11、第二获取模块12、第一确定模块13和第二确定模块14，其中，

第一获取模块11用于，获取文本信息中每个音素对应的音素向量和每个音素对应的语义向量；

第二获取模块12用于，获取在上一时刻输出的第一语义信息，第一语义信息为文本信息中的部分文本信息对应的语义信息，部分文本信息为已经转换为语音信息的文本信息；

第一确定模块13用于，根据第一语义信息、每个音素对应的音素向量和每个音素对应的语义向量，确定当前时刻对应的上下文向量；

第二确定模块14用于，根据上下文向量和第一语义信息，确定当前时刻的语音信息。

本发明实施例提供的文本信息处理装置10可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

在一种可能的实施方式中，第一确定模块13具体用于：

在另一种可能的实施方式中，第一确定模块13具体用于：

在另一种可能的实施方式中，第二确定模块14具体用于：

在另一种可能的实施方式中，第一获取模块11具体用于：

获取文本信息的音素序列，音素序列包括至少一个音素；

根据至少一个音素，确定每个音素对应的音素向量。

在另一种可能的实施方式中，第一获取模块11具体用于：

在预设音素列表中查找每个音素对应的标识；

在另一种可能的实施方式中，第一获取模块11具体用于：

图8为本申请提供的文本信息处理装置的硬件结构示意图。该文本信息处理装置20可以设置在智能设备中。如图8所示，该数据处理装置20包括：至少一个处理器21、存储器22。其中，处理器21和存储器22通过总线23连接。

在具体实现过程中，至少一个处理器21执行存储器22存储的计算机执行指令，使得至少一个处理器21执行如上的文本信息处理方法。

处理器21的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述图8所示的实施例中，应理解，处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现如上的文本信息处理方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种文本信息处理方法，其特征在于，包括：

获取在上一时刻输出的第一语义信息，所述第一语义信息为所述文本信息中的部分文本信息对应的语义信息，所述部分文本信息为已经转换为语音信息的文本信息；

根据所述第一语义信息、每个音素对应的音素向量和每个音素对应的语义向量，确定当前时刻对应的上下文向量；

根据所述上下文向量和所述第一语义信息，确定当前时刻的语音信息。

2.根据权利要求1所述的方法，其特征在于，根据所述第一语义信息、每个音素对应的音素向量、每个音素对应的语义向量，确定当前时刻对应的上下文向量，包括：

根据所述第一语义信息和每个音素对应的语义向量，确定语义匹配度；

根据所述语义匹配度、每个音素对应的音素向量和每个音素对应的语义向量，确定所述当前时刻对应的上下文向量。

3.根据权利要求2所述的方法，其特征在于，根据所述第一语义信息和每个音素对应的语义向量，确定语义匹配度，包括：

通过第一预设模型对所述第一语义信息和每个音素对应的语义向量进行处理，得到所述语义匹配度，所述第一预设模型为对多组第一样本进行学习得到的，每组第一样本包括语义信息和语义向量。

4.根据权利要求3所述的方法，其特征在于，根据所述语义匹配度、每个音素对应的音素向量和每个音素对应的语义向量，确定所述当前时刻对应的上下文向量，包括：

根据所述语义匹配度和每个音素对应的语义向量，确定语义上下文向量；

根据所述语义匹配度和每个音素对应的音素向量，确定音素上下文向量；

对所述语义上下文向量和所述音素上下文向量进行组合处理，确定所述当前时刻对应的上下文向量。

5.根据权利要求1所述的方法，其特征在于，根据所述第一语义信息、每个音素对应的音素向量和每个音素对应的语义向量，确定当前时刻对应的上下文向量，包括：

根据所述第一语义信息和每个音素对应的合向量，确定所述语义匹配度；

根据所述语义匹配度和每个音素对应的合向量，确定所述当前时刻对应的上下文向量。

6.根据权利要求5所述的方法，其特征在于，根据所述第一语义信息和每个音素对应合向量，确定所述语义匹配度，包括：

通过第二预设模型对所述第一语义信息和每个音素对应的合向量进行处理，得到所述语义匹配度，所述第二预设模型为对多组第二样本进行学习得到的，每组第二样本包括语义信息和合向量。

7.根据权利要求4或6所述的方法，其特征在于，根据所述上下文向量和所述第一语义信息，确定当前时刻的语音信息，包括：

根据所述上下文向量和所述第一语义信息，确定所述当前时刻对应的第二语义信息；

对所述第二语义信息进行梅尔谱网络映射处理，得到所述当前时刻的语音信息。

8.一种文本信息处理装置，其特征在于，包括：第一获取模块、第二获取模块、第一确定模块和第二确定模块，其中，

所述第一获取模块用于，获取文本信息中每个音素对应的音素向量和每个音素对应的语义向量；

所述第二获取模块用于，获取在上一时刻输出的第一语义信息，所述第一语义信息为所述文本信息中的部分文本信息对应的语义信息，所述部分文本信息为已经转换为语音信息的文本信息；

所述第一确定模块用于，根据所述第一语义信息、每个音素对应的音素向量和每个音素对应的语义向量，确定当前时刻对应的上下文向量；

所述第二确定模块用于，根据所述上下文向量和所述第一语义信息，确定当前时刻的语音信息。

9.一种文本信息处理装置，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至7任一项所述的文本信息处理装置。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至7任一项所述的文本信息处理装置。