CN113642302B

CN113642302B - 文本填充模型的训练方法及装置、文本处理方法及装置

Info

Publication number: CN113642302B
Application number: CN202010343230.3A
Authority: CN
Inventors: 耿瑞莹; 孙健; 黎槟华; 李永彬
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2024-04-02
Anticipated expiration: 2040-04-27
Also published as: CN113642302A

Abstract

本发明公开一种文本填充模型的训练方法及装置、文本处理方法及装置，涉及人工智能技术领域，能够解决填充文本时受填充长度限制以及无法实现文本填充多样性的问题。包括：获取待补全的句子模板和句子模板对应的完整句子；使用空位标记对句子模板和/或完整句子进行处理，使得两者长度相同；在孪生神经网络架构下，分别对句子模板和完整句子进行编码得到第一句子向量和第二句子向量；利用多层感知器分别对第一句子向量和第二句子向量进行处理得到第一隐变量和第二隐变量；基于第一隐变量和第一句子向量计算所述句子模板空位上生成单词的概率；基于对第一隐变量和第二隐变量之间相对熵的约束以及概率，训练得到用于将句子模板补全的文本填充模型。

Description

文本填充模型的训练方法及装置、文本处理方法及装置

技术领域

本发明涉及人工智能技术领域，特别是涉及一种文本填充模型的训练方法及装置、文本处理方法及装置。

背景技术

文本填充处理属于自然语言处理中的文本生成方向，而文本生成是自然语言处理中一个重要的研究领域，具有广阔的应用前景。例如，在智能客服、聊天机器人等领域都会涉及对用户输入的文本进行填充的问题。

目前实现文本填充的方法主要有两种：(1)基于双向变换器的句子表示语言模型，在训练语言模型的阶段随机遮蔽句子中的一些单词，通过预测这些单词来实现文本填充的功能；(2)通过使用基于循环神经网络的序列生成结构，在解码阶段加入约束必须包含模板中的词的方式，实现文本填充的功能。然而，这两种文本填充模型进行文本填充的方法均必须给定好需要填充的长度(即必须指出需要填充多少个单词)，而且无法实现文本填充的多样性。

发明内容

有鉴于此，本发明提供的文本填充模型的训练方法及装置、文本处理方法及装置，能够解决现有的文本填充模型填充文本时受填充长度限制以及无法实现文本填充多样性的问题。

第一方面，本发明提供了一种文本填充模型的训练方法，所述方法包括：

获取待补全的句子模板和所述句子模板对应的完整句子；

使用预设长度的空位标记对所述句子模板和/或所述完整句子进行补全处理，使得所述句子模板与所述完整句子的长度相同；

在孪生神经网络架构下，利用先验网络对补全处理后的句子模板进行编码得到第一句子向量，利用后验网络对补全处理后的完整句子进行编码得到第二句子向量；所述先验网络和所述后验网络所使用的神经网络模型相同；

在所述先验网络中利用多层感知器对所述第一句子向量进行处理得到第一隐变量，在所述后验网络中利用多层感知器对所述第二句子向量进行处理得到第二隐变量；

基于所述第一隐变量和所述第一句子向量计算所述句子模板空位上生成单词的概率；

基于对所述第一隐变量和所述第二隐变量之间相对熵的约束以及所述概率，训练得到用于将句子模板补全的文本填充模型。

可选的，使用预设长度的空位标记对所述句子模板和/或所述完整句子进行补全处理，使得所述句子模板与所述完整句子的长度相同包括：

使用预设长度的空位标记对所述句子模板进行补全处理，所述预设长度是通过对句子模板和完整句子进行对比统计出的空位的最大长度；

若所述完整句子中与所述句子模板空位对应的词语的长度小于所述预设长度，则在与所述句子模板空位对应的词语处添加空位标记，使得所述句子模板与所述完整句子的长度相同。

可选的，在孪生神经网络架构下，利用先验网络对补全处理后的句子模板进行编码得到第一句子向量，利用后验网络对补全处理后的完整句子进行编码得到第二句子向量包括：

在孪生神经网络架构下，利用先验网络中的变换器计算补全处理后的句子模板中每个单词的第一词向量、基于每个单词所在位置构成的第一位置向量以及第一分割向量；所述第一分割向量用于区分所述句子模板中不同部分与所述空位的相对关系；将所述第一词向量、所述第一位置向量和所述第一分割向量进行拼接，并基于拼接后的向量计算得到所述第一句子向量；

在孪生神经网络架构下，利用后验网络中的变换器计算补全处理后的完整句子中每个单词的第二词向量、基于每个单词所在位置构成的第二位置向量以及第二分割向量；所述第二分割向量用于区分所述完整句子中不同部分与所述空位的相对关系；将所述第二词向量、所述第二位置向量和所述第二分割向量进行拼接，并基于拼接后的向量计算得到所述第二句子向量。

可选的，所述基于所述第一隐变量和所述第一句子向量计算所述句子模板空位上生成单词的概率包括：

将所述第一隐变量和所述第一句子向量进行拼接，并通过全连接和线性变换得到所述句子模板空位上生成单词的概率。

可选的，所述隐变量符合高斯分布，且所述高斯分布的均值μ和方差σ²满足如下条件：

其中，W为全连接层中的权重，b为全链接层中的偏置，h为对补全处理后的句子模板进行编码得到的句子向量。

可选的，通过全连接和线性变换得到所述句子模板空位上生成单词的概率包括：

根据如下公式计算在空位i上生成单词的概率P_i：

P_i＝softmax(O_iW_p+b_p)

其中，

W_p、b_p、W_o、b_o为训练参数，为所述先验网络中第一句子向量的第i列，z^prior为第一隐变量。

可选的，基于对所述第一隐变量和所述第二隐变量之间相对熵的约束以及所述概率，训练得到用于将句子模板补全的文本填充模型包括：

基于对所述第一隐变量和所述第二隐变量之间相对熵的约束，调整所述概率中的训练参数；

以所述句子模板生成所述完整句子的最大似然概率与所述相对熵之差达到目标值时，生成所述文本填充模型。

第二方面，本发明提供了一种文本处理方法，所述方法包括：

获取待补全的句子模板；

通过将所述句子模板输入到文本填充模型中对所述句子模板进行补全，得到所述句子模板对应的完整句子，所述文本填充模型采用第一方面所述的方法训练得到的。

可选，通过将所述句子模板输入到文本填充模型中对所述句子模板进行补全，得到所述句子模板对应的完整句子包括：

使用预设长度的空位标记对所述句子模板进行补全处理；

利用所述文本填充模型中的先验网络对补全处理后的句子模板进行编码得到第一句子向量；

在所述先验网络中利用多层感知器对所述第一句子向量进行处理得到第一隐变量；

将所述第一隐变量和所述第一句子向量进行拼接，并通过全连接和线性变换得到所述句子模板空位上生成单词的概率；

通过所述概率对所述句子模板进行填充，得到所述句子模板对应的完整句子。

第三方面，本发明提供了一种文本处理方法，所述方法包括：

获取待识别意图的正则表达式；

通过将所述正则表达式输入到文本填充模型中对所述正则表达式进行填充，得到所述正则表达式对应的完整句子，所述文本填充模型采用第一方面所述的方法训练得到的；

对添加意图标签的完整句子进行模型训练得到意图识别模型。

第四方面，本发明提供了一种文本处理方法，所述方法包括：

获取待识别意图的正则表达式；

利用意图识别模型对所述完整句子进行意图识别，所述意图识别模型是利用基于文本填充模型填充后的正则表达式进行模型训练得到的模型。

第五方面，本发明提供了一种文本填充模型的训练装置，所述装置包括：

获取单元，用于获取待补全的句子模板和所述句子模板对应的完整句子；

第一处理单元，用于使用预设长度的空位标记对所述句子模板和/或所述完整句子进行补全处理，使得所述句子模板与所述完整句子的长度相同；

编码单元，用于在孪生神经网络架构下，利用先验网络对补全处理后的句子模板进行编码得到第一句子向量，利用后验网络对补全处理后的完整句子进行编码得到第二句子向量；所述先验网络和所述后验网络所使用的神经网络模型相同；

第二处理单元，用于在所述先验网络中利用多层感知器对所述第一句子向量进行处理得到第一隐变量，在所述后验网络中利用多层感知器对所述第二句子向量进行处理得到第二隐变量；

计算单元，用于基于所述第一隐变量和所述第一句子向量计算所述句子模板空位上生成单词的概率；

训练单元，用于基于对所述第一隐变量和所述第二隐变量之间相对熵的约束以及所述概率，训练得到用于将句子模板补全的文本填充模型。

可选的，所述第一处理单元，用于使用预设长度的空位标记对所述句子模板进行补全处理，所述预设长度是通过对句子模板和完整句子进行对比统计出的空位的最大长度；若所述完整句子中与所述句子模板空位对应的词语的长度小于所述预设长度，则在与所述句子模板空位对应的词语处添加空位标记，使得所述句子模板与所述完整句子的长度相同。

可选的，所述编码单元包括：

计算模块，用于在孪生神经网络架构下，利用先验网络中的变换器计算补全处理后的句子模板中每个单词的第一词向量、基于每个单词所在位置构成的第一位置向量以及第一分割向量；所述第一分割向量用于区分所述句子模板中不同部分与所述空位的相对关系；

拼接模块，用于将所述第一词向量、所述第一位置向量和所述第一分割向量进行拼接；

所述计算模块，用于基于拼接后的向量计算得到所述第一句子向量；

所述计算模块，用于在孪生神经网络架构下，利用后验网络中的变换器计算补全处理后的完整句子中每个单词的第二词向量、基于每个单词所在位置构成的第二位置向量以及第二分割向量；所述第二分割向量用于区分所述完整句子中不同部分与所述空位的相对关系；

所述拼接模块，用于将所述第二词向量、所述第二位置向量和所述第二分割向量进行拼接；

所述计算模块，用于基于拼接后的向量计算得到所述第二句子向量。

可选的，所述计算单元，用于将所述第一隐变量和所述第一句子向量进行拼接，并通过全连接和线性变换得到所述句子模板空位上生成单词的概率。

可选的，所述计算单元，用于根据如下公式计算在空位i上生成单词的概率P_i：

P_i＝softmax(O_iW_p+b_p)

其中，

可选的，所述训练单元包括：

调整模块，用于基于对所述第一隐变量和所述第二隐变量之间相对熵的约束，调整所述概率中的训练参数；

生成模块，用于以所述句子模板生成所述完整句子的最大似然概率与所述相对熵之差达到目标值时，生成所述文本填充模型。

第六方面，本发明提供了一种文本处理装置，所述装置包括：

获取单元，用于获取待补全的句子模板；

补全单元，用于通过将所述句子模板输入到文本填充模型中对所述句子模板进行补全，得到所述句子模板对应的完整句子，所述文本填充模型采用第一方面所述的方法训练得到的。

可选的，所述补全单元包括：

补全模块，用于使用预设长度的空位标记对所述句子模板进行补全处理；

编码模块，用于利用所述文本填充模型中的先验网络对补全处理后的句子模板进行编码得到第一句子向量；

处理模块，用于在所述先验网络中利用多层感知器对所述第一句子向量进行处理得到第一隐变量；

拼接模块，用于将所述第一隐变量和所述第一句子向量进行拼接；

计算模块，用于通过全连接和线性变换得到所述句子模板空位上生成单词的概率；

填充模块，用于通过所述概率对所述句子模板进行填充，得到所述句子模板对应的完整句子。

第七方面，本发明提供了一种文本处理装置，所述装置包括：

获取单元，用于获取待识别意图的正则表达式；

填充单元，用于通过将所述正则表达式输入到文本填充模型中对所述正则表达式进行填充，得到所述正则表达式对应的完整句子，所述文本填充模型采用第一方面所述的方法训练得到的；

训练单元，用于对添加意图标签的完整句子进行模型训练得到意图识别模型。

第八方面，本发明提供了一种文本处理装置，所述装置包括：

获取单元，用于获取待识别意图的正则表达式；

识别单元，用于利用意图识别模型对所述完整句子进行意图识别，所述意图识别模型是利用基于文本填充模型填充后的正则表达式进行模型训练得到的模型。

第九方面，本发明提供了一种存储介质，所述存储介质存储有多条指令，所述指令适用于由处理器加载并执行如第一至四中任一方面所述的方法。

第十方面，本发明提供了一种电子设备，所述电子设备包括存储介质和处理器；

所述处理器，适于实现各指令；

所述存储介质，适于存储多条指令；

所述指令适于由所述处理器加载并执行如第一至四中任一方面所述的方法。

借由上述技术方案，本发明提供的文本填充模型的训练方法及装置、文本处理方法及装置，能够在孪生神经网络架构下，对待补全的句子模板与句子模板对应的至少一个完整句子进行模型训练，得到句子模板对应的第一句子向量和第一隐变量，每个完整句子分别对应的第二句子向量和第二隐变量，并通过第一隐变量和第一句子向量计算得到句子模板空位上生成单词的概率，最后通过对这两个隐变量之间的相对熵进行约束和该概率，训练得到用于将句子模板补全成至少一种完整句子的文本填充模型。由此可知，本发明既不会受填充长度的限制，也能够实现文本填充的多样性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种文本填充模型的训练方法的流程图；

图2示出了本发明实施例提供的一种文本处理方法的流程图；

图3示出了本发明实施例提供的另一种文本处理方法的流程图；

图4示出了本发明实施例提供的又一种文本处理方法的流程图；

图5示出了本发明实施例提供的一种文本填充模型的训练装置的组成框图；

图6示出了本发明实施例提供的另一种文本填充模型的训练装置的组成框图；

图7示出了本发明实施例提供的一种文本处理装置的组成框图；

图8示出了本发明实施例提供的另一种文本处理装置的组成框图；

图9示出了本发明实施例提供的又一种文本处理装置的组成框图；

图10示出了本发明实施例提供的再一种文本处理装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种文本填充模型的训练方法，如图1所示，所述方法包括：

101、获取待补全的句子模板和所述句子模板对应的完整句子。

为了实现文本填充模型的训练，可以先从历史数据中获取一定数量的待补全的句子模板以及这些句子模板对应的完整句子，然后对这些句子进行预处理，待满足训练要求后再进行模型训练。其中，一个句子模板可以对应至少一个完整句子。例如，某个句子模板为“今天预约会议”，那么该句子模板对应的完整句子可能为“今天上午10点预约会议”，也可能为“今天预约10人以内的会议”。

102、使用预设长度的空位标记对所述句子模板和/或所述完整句子进行补全处理，使得所述句子模板与所述完整句子的长度相同。

为了便于训练，可以先将获取到的句子模板和/或完整句子进行预处理，使得两者的长度相同，再进行模型训练。具体的，可以先使用预设长度的空位标记对所述句子模板进行补全处理；若所述完整句子中与所述句子模板空位对应的词语的长度小于所述预设长度，则在与所述句子模板空位对应的词语处添加空位标记，使得所述句子模板与所述完整句子的长度相同。

其中，所述预设长度是通过对句子模板和完整句子进行对比统计出的空位的最大长度，因此，完整句子中与所述句子模板空位对应的词语的长度小于等于所述预设长度，而不会大于所述预设长度。

另外，使用预设长度的空位标记对所述句子模板进行补全处理时，需要先将句子模板和句子模板对应的完整句子进行对比，确定句子模板中的空位置，然后在空位置处添加空位标记。

示例性的，若句子模板为“the food the environment is good.”，完整句子为“the food is fresh and the environment is good.”，通过对比可知，“food”与第二个“the”之间存在空位置，则可以在这两个词之间增加预设长度的空位标记，例如增加5个“”标记，变为“the foodthe environment is good.”而完整句子在该位置处的长度小于预设长度，所以完整句子也需要增加空位标记，变为“the food is freshandthe environment is good.”

103、在孪生神经网络架构下，利用先验网络对补全处理后的句子模板进行编码得到第一句子向量，利用后验网络对补全处理后的完整句子进行编码得到第二句子向量。

其中，所述先验网络和所述后验网络所使用的神经网络模型相同。计算第一句子向量和第二句子向量的具体实现方式可以为：

在孪生神经网络架构下，利用先验网络中的变换器计算补全处理后的句子模板中每个单词的第一词向量、基于每个单词所在位置构成的第一位置向量以及第一分割向量；所述第一分割向量用于区分所述句子模板中不同部分与所述空位的相对关系；将所述第一词向量、所述第一位置向量和所述第一分割向量进行拼接，并基于拼接后的向量计算得到所述第一句子向量。其中，基于拼接后的向量计算得到的第一句子向量可以是与拼接后的向量维度相同且用于唯一标识句子模板的向量。

在孪生神经网络架构下，利用后验网络中的变换器计算补全处理后的完整句子中每个单词的第二词向量、基于每个单词所在位置构成的第二位置向量以及第二分割向量；所述第二分割向量用于区分所述完整句子中不同部分与所述空位的相对关系；将所述第二词向量、所述第二位置向量和所述第二分割向量进行拼接，并基于拼接后的向量计算得到所述第二句子向量。其中，基于拼接后的向量计算得到的第二句子向量可以是与拼接后的向量维度相同且用于唯一标识完整句子的向量。

示例性的，若补全处理后的句子模板为“the foodtheenvironment is good.”，补全处理后的完整句子为“the food is fresh andtheenvironment is good.”，则第一位置向量和第二位置向量均可以用(1,2,3,4,5,6,7,8,9,10,11,12)表示，第一分割向量和第二分割向量均可以用(0,0,1,1,1,1,1,2,2,2,2,2)表示。

104、在所述先验网络中利用多层感知器对所述第一句子向量进行处理得到第一隐变量，在所述后验网络中利用多层感知器对所述第二句子向量进行处理得到第二隐变量。

其中，所述隐变量符合高斯分布，即z～N(u,σ²I)，I为单位矩阵，所述高斯分布的均值μ和方差σ²满足如下条件：

105、基于所述第一隐变量和所述第一句子向量计算所述句子模板空位上生成单词的概率。

具体的，将所述第一隐变量和所述第一句子向量进行拼接，并通过全连接和线性变换得到所述句子模板空位上生成单词的概率。

根据如下公式计算在空位i上生成单词的概率P_i：

P_i＝softmax(O_iW_p+b_p)

其中，

W_p、b_p、W_o、b_o为训练参数，为所述先验网络中第一句子向量的第i列，z^prior为第一隐变量，/>表示将第一句子向量第i列与第一隐变量进行拼接。

具体计算在空位i上生成单词的概率时，是分别计算空位i生成预设词库中每个词的概率。

106、基于对所述第一隐变量和所述第二隐变量之间相对熵的约束以及所述概率，训练得到用于将句子模板补全的文本填充模型。

在获得第一隐变量和第二隐变量后，可以通过对两者的相对熵进行约束，使得两者的差异相对较小，进而使得对句子模板补全后的句子更接近预先输入的完整句子。具体的，可以基于对所述第一隐变量和所述第二隐变量之间相对熵的约束，调整所述概率中的训练参数；以所述句子模板生成所述完整句子的最大似然概率与所述相对熵之差达到目标值时，生成所述文本填充模型。

具体计算公式可以为：

OBJ＝E[log(p(x|z^prior,t))]-D_KL[q(z^prior|x,t)||p(z^posterior|x,t)]

其中，z^prior为第一隐变量，z^posterior为第二隐变量，q(z^prior|x,t)和p(z^posterior|x,t)分别表示第一隐变量和第二隐变量产生的概率分布，E[log(p(x|z^prior,t))]表示最大似然概率，D_KL[q(z^prior|x,t)||p(z^posterior|x,t)]表示相对熵。

并且根据公式可知，相对熵越小，最大似然概率越大，OBJ就越接近目标值。

本发明实施例提供的文本填充模型的训练方法，能够在孪生神经网络架构下，对待补全的句子模板与句子模板对应的至少一个完整句子进行模型训练，得到句子模板对应的第一句子向量和第一隐变量，每个完整句子分别对应的第二句子向量和第二隐变量，并通过第一隐变量和第一句子向量计算得到句子模板空位上生成单词的概率，最后通过对这两个隐变量之间的相对熵进行约束和该概率，训练得到用于将句子模板补全成至少一种完整句子的文本填充模型。由此可知，本发明既不会受填充长度的限制，也能够实现文本填充的多样性。

进一步的，依据上述方法实施例，本发明的另一个实施例还提供了一种文本处理方法，如图2所示，所述方法包括：

201、获取待补全的句子模板。

在接收用户输入的句子之后，无论该句子是否是完整的句子，均可以作为待补全的句子模板输入到文本填充模型中，通过文本填充模型自动将该句子模板补充完整，以便对补充完整的句子进行后续处理。

在接收用户输入的句子之后，也可以根据预设规则先判断该句子是否是完整的句子；若是，则直接进行后续处理；若不是，则将该句子作为带补全的句子模板输入到文本填充模型中，通过文本填充模型自动将该句子模板补充完整，以便对补充完整的句子进行后续处理。

其中，预设规则可以是根据大量完整句子的组成结构设置的，例如一个完整的句子由主谓宾定状补这样的结构组成，则若用户输入的句子中缺少某个成分，可以确定该句子是不完整的。

202、通过将所述句子模板输入到文本填充模型中对所述句子模板进行补全，得到所述句子模板对应的完整句子。

所述文本填充模型采用上述文本填充模型的训练方法进行训练得到的。在将待补全的句子模板输入到文本填充模型后，可以使用预设长度的空位标记对所述句子模板进行补全处理；利用所述文本填充模型中的先验网络对补全处理后的句子模板进行编码得到第一句子向量；在所述先验网络中利用多层感知器对所述第一句子向量进行处理得到第一隐变量；将所述第一隐变量和所述第一句子向量进行拼接，并通过全连接和线性变换得到所述句子模板空位上生成单词的概率；通过所述概率对所述句子模板进行填充，得到所述句子模板对应的完整句子。

由于在文本填充模型训练时，一个句子模板可以对应多个完整句子，所以训练出的文本填充模型在使用时，可以基于训练出的参数计算出多个不同的第一隐变量，从而可以基于多个第一隐变量得到对同一个句子模板进行填充，得到该句子模板对应的多个完整句子，以便针对这些用户想表达的完整句子进行后续分析处理，例如意图识别等。

本发明实施例提供的文本处理方法，在获取待补全的句子模板后，可以利用图1所示的训练方法得到的文本填充模型自动对该句子模板进行补充，得到该句子模板对应的至少一个完整句子，从而可以通过至少一个完整句子对该句子模板进行全面分析，提高了分析该句子模板的准确率。

进一步的，在实际应用中，很多场景中都会用到正则表达式，例如在智能客服(即人机对话)场景中，用户可能只会写一些不完整的句子(可称为正则表达式)让智能机器人去分析其意图。例如，“预约会议”这个正则表达式，可以根据预设匹配规则，将数据库中所有包含预约会议的句子都筛选出来，并通过对筛选出来的完整语句进行分析，确定用户的意图。然而，数据库越大，利用规则匹配的方式确定正则表达式对应的完整语句的效率就会越低，从而根据完整语句确定用户意图的效率也会越低。为了提高用户意图识别的效率，本发明的另一个实施例还提供了一种文本处理方法，如图3所示，所述方法包括：

301、获取待识别意图的正则表达式。

正则表达式是对字符串操作的一种逻辑公式，是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个"规则字符串"，这个"规则字符串"用来表达对字符串的一种过滤逻辑。

302、通过将所述正则表达式输入到文本填充模型中对所述正则表达式进行填充，得到所述正则表达式对应的完整句子。

所述文本填充模型采用上述文本填充模型的训练方法进行训练得到的。通过文本填充模型对正则表达式进行填充的具体实现方式可以参见上述步骤202的详解，在此不再赘述。

303、对添加意图标签的完整句子进行模型训练得到意图识别模型。

在获取的大量的正则表达式，并对这些正则表达式进行填充获得完整句子后，可以分别给这些完整句子添加意图标签，并将添加意图标签后的完整句子作为训练样本进行模型训练，获得一个用于识别句子意图的意图识别模型。其中，意图识别模型可以是CNN(Convolutional Neural Networks，卷积神经网络)、RNN(Recurrent Neural Networks，循环神经网络)等神经网络模型。

本发明实施例提供的文本处理方法，在获取到用户输入的待识别意图的正则表达式后，可以利用基于图1所示的文本填充模型的训练方法进行训练得到的文本填充模型，自动对该正则表达式进行补全处理，获得正则表达式对应的完整句子，然后对这些完整句子添加意图标签，最后利用添加意图标签的完整句子进行模型训练得到意图识别模型，从而在后续对正则表达式进行意图识别时，就可以先利用文本填充模型自动对正则表达式进行补全处理，然后再利用意图识别模型对完整句子进行意图识别，而无需再从数据量较大的数据库中进行正则表达式匹配，进而提高了意图识别的效率。

进一步的，依据上述方法实施例，本发明的另一个实施例还提供了一种文本处理方法，如图4所示，所述方法包括：

401、获取待识别意图的正则表达式。

402、通过将所述正则表达式输入到文本填充模型中对所述正则表达式进行填充，得到所述正则表达式对应的完整句子。

403、利用意图识别模型对所述完整句子进行意图识别。

所述意图识别模型是利用基于文本填充模型填充后的正则表达式进行模型训练得到的模型，其具体训练过程详见图3所示的方法，在此不再赘述。

本发明实施例提供的文本处理方法，在获取到用户输入的待识别意图的正则表达式后，可以利用基于图1所示的文本填充模型的训练方法进行训练得到的文本填充模型，自动对该正则表达式进行补全处理，获得正则表达式对应的完整句子，然后利用基于文本填充模型填充后的正则表达式进行模型训练得到的意图识别模型对该完整句子进行意图识别，确定用户意图，而无需再从数据量较大的数据库中进行正则表达式匹配，进而提高了意图识别的效率。

随着互联网的发展，上述方法提及的人机对话服务在电商、电信、政务、金融、教育、文娱、健康、旅游等很多行业都得到应用。例如，在电商行业，用户可以通过与智能客服对话，实现开发票、催发货、查物流、改地址、收快递等功能；又如，在电信行业或者整个运营商的行业里面，用户可以通过与智能客服对话，实现查话费、查流量、买套餐、报故障、修改密码等功能。为了保证服务质量，需要准确地识别用户意图，然后根据用户意图给予正确的反馈。为了实现该目标，人机完成一次对话的过程可以采用如下方法实现：

S1、接收用户输入的句子。

S2、根据完整句子库，判断接收的句子是否为完整句子。

其中，完整句子库中预先存储多种历史的完整句子。可以将接收到的句子与完整句子库中的完整句子进行匹配，若存在接收到的句子与某个完整句子相同，则确定接收到的句子为完整句子，若接收到的句子与完整句子库中的所有完整句子均不相同，则确定接收到的句子不是完整句子。

S3、若是完整句子，则利用意图识别模型对所述接收的句子进行意图识别，并基于意图识别结果，生成并输出回复语句。

所述意图识别模型是利用基于文本填充模型填充后的待补全句子进行模型训练得到的模型。

S4、若不是完整句子，则将所述接收的句子确定为待补全的句子模板。

S5、通过将所述句子模板输入到文本填充模型中对所述句子模板进行补全，得到所述句子模板对应的完整句子。

所述文本填充模型是采用上述文本填充模型的训练方法进行训练得到的。

S6、利用意图识别模型对所述句子模板对应的完整句子进行意图识别，并基于意图识别结果，生成并输出回复语句。

进一步的，依据上述方法实施例，本发明的另一个实施例还提供了本发明提供了一种文本填充模型的训练装置，如图5所示，所述装置包括：

获取单元51，用于获取待补全的句子模板和所述句子模板对应的完整句子；

第一处理单元52，用于使用预设长度的空位标记对所述句子模板和/或所述完整句子进行补全处理，使得所述句子模板与所述完整句子的长度相同；

编码单元53，用于在孪生神经网络架构下，利用先验网络对补全处理后的句子模板进行编码得到第一句子向量，利用后验网络对补全处理后的完整句子进行编码得到第二句子向量；所述先验网络和所述后验网络所使用的神经网络模型相同；

第二处理单元54，用于在所述先验网络中利用多层感知器对所述第一句子向量进行处理得到第一隐变量，在所述后验网络中利用多层感知器对所述第二句子向量进行处理得到第二隐变量；

计算单元55，用于基于所述第一隐变量和所述第一句子向量计算所述句子模板空位上生成单词的概率；

训练单元56，用于基于对所述第一隐变量和所述第二隐变量之间相对熵的约束以及所述概率，训练得到用于将句子模板补全的文本填充模型。

可选的，所述第一处理单元52，用于使用预设长度的空位标记对所述句子模板进行补全处理，所述预设长度是通过对句子模板和完整句子进行对比统计出的空位的最大长度；若所述完整句子中与所述句子模板空位对应的词语的长度小于所述预设长度，则在与所述句子模板空位对应的词语处添加空位标记，使得所述句子模板与所述完整句子的长度相同。

可选的，如图6所示，所述编码单元53包括：

计算模块531，用于在孪生神经网络架构下，利用先验网络中的变换器计算补全处理后的句子模板中每个单词的第一词向量、基于每个单词所在位置构成的第一位置向量以及第一分割向量；所述第一分割向量用于区分所述句子模板中不同部分与所述空位的相对关系；

拼接模块532，用于将所述第一词向量、所述第一位置向量和所述第一分割向量进行拼接；

所述计算模块531，用于基于拼接后的向量计算得到所述第一句子向量；

所述计算模块531，用于在孪生神经网络架构下，利用后验网络中的变换器计算补全处理后的完整句子中每个单词的第二词向量、基于每个单词所在位置构成的第二位置向量以及第二分割向量；所述第二分割向量用于区分所述完整句子中不同部分与所述空位的相对关系；

所述拼接模块532，用于将所述第二词向量、所述第二位置向量和所述第二分割向量进行拼接；

所述计算模块531，用于基于拼接后的向量计算得到所述第二句子向量。

可选的，所述计算单元55用于将所述第一隐变量和所述第一句子向量进行拼接，并通过全连接和线性变换得到所述句子模板空位上生成单词的概率。

P_i＝softmax(O_iW_p+b_p)

其中，

可选的，如图6所示，所述训练单元56包括：

调整模块561，用于基于对所述第一隐变量和所述第二隐变量之间相对熵的约束，调整所述概率中的训练参数；

生成模块562，用于以所述句子模板生成所述完整句子的最大似然概率与所述相对熵之差达到目标值时，生成所述文本填充模型。

本发明实施例提供的文本填充模型的训练装置，能够在孪生神经网络架构下，对待补全的句子模板与句子模板对应的至少一个完整句子进行模型训练，得到句子模板对应的第一句子向量和第一隐变量，每个完整句子分别对应的第二句子向量和第二隐变量，并通过第一隐变量和第一句子向量计算得到句子模板空位上生成单词的概率，最后通过对这两个隐变量之间的相对熵进行约束和该概率，训练得到用于将句子模板补全成至少一种完整句子的文本填充模型。由此可知，本发明既不会受填充长度的限制，也能够实现文本填充的多样性。

进一步的，依据上述方法实施例，本发明的另一个实施例还提供了一种文本处理装置，如图7所示，所述装置包括：

获取单元61，用于获取待补全的句子模板；

补全单元62，用于通过将所述句子模板输入到文本填充模型中对所述句子模板进行补全，得到所述句子模板对应的完整句子，所述文本填充模型采用第一方面所述的方法训练得到的。

可选的，如图8所示，所述补全单元62包括：

补全模块621，用于使用预设长度的空位标记对所述句子模板进行补全处理；

编码模块622，用于利用所述文本填充模型中的先验网络对补全处理后的句子模板进行编码得到第一句子向量；

处理模块623，用于在所述先验网络中利用多层感知器对所述第一句子向量进行处理得到第一隐变量；

拼接模块624，用于将所述第一隐变量和所述第一句子向量进行拼接；

计算模块625，用于通过全连接和线性变换得到所述句子模板空位上生成单词的概率；

填充模块626，用于通过所述概率对所述句子模板进行填充，得到所述句子模板对应的完整句子。

本发明实施例提供的文本处理装置，在获取待补全的句子模板后，可以利用图1的训练方法得到的文本填充模型自动对该句子模板进行补充，得到该句子模板对应的至少一个完整句子，从而可以通过至少一个完整句子对该句子模板进行全面分析，提高了分析该句子模板的准确率。

进一步的，依据上述方法实施例，本发明的另一个实施例还提供了一种文本处理装置，如图9所示，所述装置包括：

获取单元71，用于获取待识别意图的正则表达式；

填充单元72，用于通过将所述正则表达式输入到文本填充模型中对所述正则表达式进行填充，得到所述正则表达式对应的完整句子，所述文本填充模型采用第一方面所述的方法训练得到的；

训练单元73，用于对添加意图标签的完整句子进行模型训练得到意图识别模型。

本发明实施例提供的文本处理装置，在获取到用户输入的待识别意图的正则表达式后，可以利用基于图1所示的文本填充模型的训练方法进行训练得到的文本填充模型，自动对该正则表达式进行补全处理，获得正则表达式对应的完整句子，然后对这些完整句子添加意图标签，最后利用添加意图标签的完整句子进行模型训练得到意图识别模型，从而在后续对正则表达式进行意图识别时，就可以先利用文本填充模型自动对正则表达式进行补全处理，然后再利用意图识别模型对完整句子进行意图识别，而无需再从数据量较大的数据库中进行正则表达式匹配，进而提高了意图识别的效率。

进一步的，依据上述方法实施例，本发明的另一个实施例还提供了一种文本处理装置，如图10所示，所述装置包括：

获取单元81，用于获取待识别意图的正则表达式；

填充单元82，用于通过将所述正则表达式输入到文本填充模型中对所述正则表达式进行填充，得到所述正则表达式对应的完整句子，所述文本填充模型采用第一方面所述的方法训练得到的；

识别单元83，用于利用意图识别模型对所述完整句子进行意图识别，所述意图识别模型是利用基于文本填充模型填充后的正则表达式进行模型训练得到的模型。

本发明实施例提供的本发明实施例提供的文本处理装置，在获取到用户输入的待识别意图的正则表达式后，可以利用基于图1所示的文本填充模型的训练方法进行训练得到的文本填充模型，自动对该正则表达式进行补全处理，获得正则表达式对应的完整句子，然后利用基于文本填充模型填充后的正则表达式进行模型训练得到的意图识别模型对该完整句子进行意图识别，确定用户意图，而无需再从数据量较大的数据库中进行正则表达式匹配，进而提高了意图识别的效率。

进一步的，本发明的另一个实施例还提供了一种存储介质，所述存储介质存储有多条指令，所述指令适用于由处理器加载并执行如上所述的方法。

进一步的，本发明的另一个实施例还提供了一种电子设备，所述电子设备包括存储介质和处理器；

所述处理器，适于实现各指令；

所述存储介质，适于存储多条指令；

所述指令适于由所述处理器加载并执行如上所述的方法。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的一种实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的文本填充模型的训练方法及装置、文本处理方法及装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种文本填充模型的训练方法，其特征在于，所述方法包括：

获取待补全的句子模板和所述句子模板对应的完整句子；

2.根据权利要求1所述的方法，其特征在于，使用预设长度的空位标记对所述句子模板和/或所述完整句子进行补全处理，使得所述句子模板与所述完整句子的长度相同包括：

3.根据权利要求1所述的方法，其特征在于，在孪生神经网络架构下，利用先验网络对补全处理后的句子模板进行编码得到第一句子向量，利用后验网络对补全处理后的完整句子进行编码得到第二句子向量包括：

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述基于所述第一隐变量和所述第一句子向量计算所述句子模板空位上生成单词的概率包括：

5.根据权利要求4所述的方法，其特征在于，所述隐变量符合高斯分布，且所述高斯分布的均值μ和方差σ²满足如下条件：

6.根据权利要求5所述的方法，其特征在于，通过全连接和线性变换得到所述句子模板空位上生成单词的概率包括：

根据如下公式计算在空位i上生成单词的概率P_i：

P_i＝softmax(O_iW_p+b_p)

其中，

7.根据权利要求6所述的方法，其特征在于，基于对所述第一隐变量和所述第二隐变量之间相对熵的约束以及所述概率，训练得到用于将句子模板补全的文本填充模型包括：

8.一种文本处理方法，其特征在于，所述方法包括：

获取待补全的句子模板；

通过将所述句子模板输入到文本填充模型中对所述句子模板进行补全，得到所述句子模板对应的完整句子，所述文本填充模型采用权利要求1-7中任一项所述的方法训练得到的。

9.根据权利要求8所述的方法，其特征在于，通过将所述句子模板输入到文本填充模型中对所述句子模板进行补全，得到所述句子模板对应的完整句子包括：

使用预设长度的空位标记对所述句子模板进行补全处理；

10.一种文本处理方法，其特征在于，所述方法包括：

获取待识别意图的正则表达式；

通过将所述正则表达式输入到文本填充模型中对所述正则表达式进行填充，得到所述正则表达式对应的完整句子，所述文本填充模型采用权利要求1-7中任一项所述的方法训练得到的；

11.一种文本处理方法，其特征在于，所述方法包括：

获取待识别意图的正则表达式；

12.一种文本填充模型的训练装置，其特征在于，所述装置包括：

13.一种文本处理装置，其特征在于，所述装置包括：

获取单元，用于获取待补全的句子模板；

补全单元，用于通过将所述句子模板输入到文本填充模型中对所述句子模板进行补全，得到所述句子模板对应的完整句子，所述文本填充模型采用权利要求1-7中任一项所述的方法训练得到的。

14.一种文本处理装置，其特征在于，所述装置包括：

获取单元，用于获取待识别意图的正则表达式；

填充单元，用于通过将所述正则表达式输入到文本填充模型中对所述正则表达式进行填充，得到所述正则表达式对应的完整句子，所述文本填充模型采用权利要求1-7中任一项所述的方法训练得到的；

15.一种文本处理装置，其特征在于，所述装置包括：

获取单元，用于获取待识别意图的正则表达式；

16.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适用于由处理器加载并执行如权利要求1至11中任一项所述的方法。

17.一种电子设备，其特征在于，所述电子设备包括存储介质和处理器；

所述处理器，适于实现各指令；

所述存储介质，适于存储多条指令；

所述指令适于由所述处理器加载并执行如权利要求1至11中任意一项所述的方法。