CN112966520A

CN112966520A - 自然语言生成方法及装置

Info

Publication number: CN112966520A
Application number: CN202110150679.2A
Authority: CN
Inventors: 李扬名; 姚开盛
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-06-15
Anticipated expiration: 2041-02-03
Also published as: CN112966520B

Abstract

本说明书实施例提供一种自然语言生成方法。该方法包括：首先，获取第一对话动作，其n个组成元素中包括动作类型，以及n‑1个词槽‑槽值对，并对该第一对话动作进行编码，得到对应n个组成元素的n个编码向量；然后，基于该n个编码向量进行解码，依次确定待输出的自然语言文本的各个位置的语义项，其中确定任意当前位置的语义项包括：先利用表达器集合中的各个表达器，各自对前一位置输出信息进行处理，得到对应输出，再利用模式切换器对各个表达器的输出进行加权融合，得到当前位置对应的当前状态向量和当前融合概率分布，进而根据该当前融合概率分布，确定当前语义项，其中当前状态向量和当前语义项作为当前位置输出信息。

Description

自然语言生成方法及装置

技术领域

本说明书一个或多个实施例涉及机器学习领域，尤其涉及自然语言生成的方法及装置。

背景技术

随着人工智能和机器学习的快速发展，各种自然语言处理任务已广泛应用于多种业务实施场景。在例如智能客服，自动播报等多种业务场景中，会使用自动对话系统，生成自然语言的对话语句。

自动对话系统中的核心部件为自然语言生成NLG(Natural LanguageGeneration)系统，用于将一种意思表征，也就是对话动作DA(Dialogue Act)转换为自然语言的句子。一般地，对话动作DA中包含动作类型(act type)和一些词槽-槽值对，其中词槽(slot)表示信息类型，槽值表示对应类型的信息内容，而动作类型控制输出句子的句子风格。例如，一个对话动作DA可以是：

Inform(name＝ZZ hotel,phone＝6788888)

在以上DA中，inform为动作类型，name为一个词槽，槽值为ZZhotel；phone为另一个词槽，槽值为6788888。

而NLG系统则用于根据输入的对话动作DA，输出自然语言句子，表达输入DA中的核心意思。

已经通过多种方式构建了一些NLG系统。然而，现有的NLG系统通常相当于一个黑盒，可解释性较差。因此，希望能有改进的方案，可以提高NLG系统的可解释性。

发明内容

本说明书一个或多个实施例描述了一种自然语言生成方法及装置，通过设计异质的语言表达器集合，以及用于切换表达器模式的切换变量，构建新的具有高可解释性的自然语言生成系统。

根据第一方面，提供了一种自然语言生成方法，包括：获取第一对话动作，其n个组成元素中包括动作类型，以及n-1个词槽-槽值对；对所述第一对话动作进行编码，得到对应n个组成元素的n个编码向量。基于所述n个编码向量，依次确定待输出的自然语言文本的各个位置的语义项，其中，确定任意当前位置的语义项包括：利用指针网络，对前一位置输出信息以及所述n个编码向量进行第一处理，得到第一输出，其中包括第一状态向量，以及将n-1个槽值中的各个槽值复制到当前位置的第一概率分布；利用序列生成器，对所述前一位置输出信息和n个编码向量进行第二处理，得到第二输出，其中包括第二状态向量，以及从预定字符集中选取各个字符的第二概率分布；利用语言模型，对所述前一位置输出信息进行第三处理，得到第三输出，其中包括第三状态向量，以及从预定字符集中选取各个字符的第三概率分布；对所述第一输出，第二输出和第三输出进行加权融合，得到当前位置对应的当前状态向量和当前融合概率分布；根据该当前融合概率分布，确定在当前位置输出的当前语义项，所述当前状态向量和所述当前语义项作为当前位置输出信息。

在一个实施例中，对所述第一对话动作进行编码，得到对应n个组成元素的n个编码向量，包括：对所述动作类型和n-1个词槽进行嵌入处理，得到n个嵌入向量；利用时序递归网络，对所述动作类型对应的预设字符进行处理，并对所述各个槽值所包含的若干字符进行处理，得到n个时序表征向量；将对应同一组成元素的嵌入向量和时序表征向量进行融合，得到n个融合向量；针对任一组成元素，确定该组成元素对应的融合向量对所述n个融合向量分配的注意力权重；利用该注意力权重对所述n个融合向量进行加权组合，得到该组成元素对应的编码向量。

在一个实施例中，所述前一位置输出信息包括，前一位置输出的前一语义项，该前一位置对应的前一状态向量；所述第一处理包括：利用第一时序递归网络，根据所述前一状态向量和基于所述前一语义项确定的当前输入向量，确定所述第一状态向量；确定所述第一状态向量相对于所述n个编码向量的注意力权重的权重分布，作为所述第一概率分布。

在一个实施例中，所述前一位置输出信息包括，前一位置输出的前一语义项，该前一位置对应的前一状态向量，所述第二处理包括：确定所述前一状态向量相对于所述n个编码向量的注意力权重，并利用所述注意力权重对所述n个编码向量进行加权组合，得到加权向量；利用第二时序递归网络，根据所述前一状态向量，以及基于所述前一语义项和所述加权向量确定的当前输入向量，确定所述第二状态向量；基于所述第二状态向量进行线性变换处理，得到所述第二概率分布。

在一个具体的实施例中，基于所述第二状态向量进行线性变换处理，得到所述第二概率分布，包括：对所述第二状态向量和加权向量的拼接向量进行线性变换处理，得到所述第二概率分布。

在一个实施例中，所述前一位置输出信息包括，前一位置输出的前一语义项，该前一位置对应的前一状态向量，所述第三处理包括：利用第三时序递归网络，根据所述前一状态向量和基于所述前一语义项确定的当前输入向量，确定所述第三状态向量；对所述第三状态向量进行线性变换处理，得到所述第三概率分布。

在一个实施例中，所述前一位置输出信息包括该前一位置对应的前一状态向量；在对所述第一输出，第二输出和第三输出进行加权融合之前，所述方法还包括：基于所述前一状态向量，确定权重向量；对所述第一输出，第二输出和第三输出进行加权融合，具体包括：根据所述权重向量，对所述第一输出，第二输出和第三输出进行加权融合。

在一个具体的实施例中，基于所述前一状态向量，确定权重向量，包括：将所述前一状态向量输入全连接网络，输出第一分数向量；基于对所述第一分数向量进行归一化处理的结果，确定所述权重向量。

在一个更具体的实施例中，基于对所述第一分数向量进行归一化处理的结果，确定所述权重向量，包括：对所述第一分数向量进行归一化处理，得到所述第二分数向量；针对所述第二分数向量中任一的向量元素，对其进行取对数运算，对该取对数运算的运算值进行耿贝尔噪声添加，得到加噪元素，以构建加噪向量；基于所述加噪向量进行归一化处理，得到所述权重向量。

在另一个具体的实施例中，基于所述前一状态向量，确定权重向量，包括：对所述前一状态向量进行参数重构处理，得到重构向量；分别计算所述第一状态向量、第二状态向量和第三状态向量，与所述重构向量之间的相似度；基于所述相似度，确定所述权重向量。

在一个更具体的实施例中，对所述前一状态向量进行参数重构处理，得到重构向量，包括：将所述前一状态向量分别输入第一全连接网络和第二全连接网络，得到第一变换向量和第二变换向量；对所述第二变换向量与随机采样的高斯向量进行对位相乘处理，得到对位相乘向量；将所述第一变换向量与对位相乘向量的和向量，确定为所述重构向量。

在另一个更具体的实施例中，基于所述相似度，确定所述权重向量，包括：基于所述相似度中最大值，进行独热编码，并将得到的独热编码向量作为所述权重向量。

根据第二方面，提供了一种自然语言生成装置，包括：获取单元，配置为获取第一对话动作，其n个组成元素中包括动作类型，以及n-1个词槽-槽值对；编码单元，配置为对所述第一对话动作进行编码，得到对应n个组成元素的n个编码向量；解码单元，配置为基于所述n个编码向量，依次确定待输出的自然语言文本的各个位置的语义项，其中，解码单元利用以下模块确定任意当前位置的语义项：第一处理模块，配置为利用指针网络，对前一位置输出信息以及所述n个编码向量进行第一处理，得到第一输出，其中包括第一状态向量，以及将n-1个槽值中的各个槽值复制到当前位置的第一概率分布；第二处理模块，配置为利用序列生成器，对所述前一位置输出信息和n个编码向量进行第二处理，得到第二输出，其中包括第二状态向量，以及从预定字符集中选取各个字符的第二概率分布；第三处理模块，配置为利用语言模型，对所述前一位置输出信息进行第三处理，得到第三输出，其中包括第三状态向量，以及从预定字符集中选取各个字符的第三概率分布；输出融合模块，配置为对所述第一输出，第二输出和第三输出进行加权融合，得到当前位置对应的当前状态向量和当前融合概率分布；信息确定模块，配置为根据该当前融合概率分布，确定在当前位置输出的当前语义项，所述当前状态向量和所述当前语义项作为当前位置输出信息。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

根据本说明书实施例提供的自然语言生成方法和装置，在将对话动作准确地转换为自然语言文本的同时，使得转换过程具有极高的可解释性。进一步，对于任一位置的输出语义项y_j，模式切换器对应输出的权重向量o_j可以指示其来表达器集中的哪个表达器，若指示来自指针网络，则指针网络产出的第一概率分布

可以进一步指示语义项y_j从哪个槽值复制得到，若指示来自序列生成器，则第二概率分布

可以进一步指示语义项y_j是基于哪些槽值进行改写而得到，若指示来自语言模型，则表明语义项y_j是生成的文本无关(context-agnostic)词汇。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出根据一个实施例的NLG系统的使用架构示意图；

图2示出根据一个实施例的自然语言生成的方法流程示意图；

图3示出根据一个实施例的自然语言生成的装置结构示意图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

如前所述，NLG系统用于将输入的对话动作DA转换为自然语言句子。对此转换过程，发明人经研究发现，可以将DA中涉及的词槽统一划分为以下三类：复写类词槽，其槽值总是被原封不动、一字不差地搬到自然语言句子中，例如，词槽“name”，其对应槽值“BlueSpice”；指示类词槽，其槽值包括“是”、“否”等，此类词槽及其对应的槽值，在转换过程中可能会涉及到虚词、助词的生成，例如，词槽“familyFriendly”，假定其对应槽值为“yes”，其在自然语言句子中可能会被转换为“is familyFriendly”；改写类词槽，其槽值大概率会在自然语言句子中被转述为其他表达方式，例如，词槽“priceRange”，假定其对应槽值为“less than 5dollars”，则其在自然语言句子中可能会被改写为“low cost”。

基于此，发明人提出一种新的NLG系统，其中包括编码组件和解码组件，解码组件中又包括异质的表达器集合(renderer set)和表达模式切换器(mode switcher)，表达器集合中的不同表达器具有不同的结构和功能，可以用于处理上述不同类型的词槽，表达模式切换器可用于对不同表达器的输出进行选取或聚合，从而得到最终的自然语言输出结果，并且，通过此种方式，可以明确获知该自然语言输出结果中各个字符的生成方式和来源，使得NLG系统的解释性得到极大的增强。

图1示出根据一个实施例的NLG系统的使用架构示意图。如图1所示，对话动作DA可表示为包含n个元素的集合，即x＝{(s₁,v₁),(s₂,v₂),…,(s_n,v_n)}，其中s₁表示动作类型，v₁表示预定字符“TYPE”，剩余元素表示词槽-槽值对；先利用编码组件对DA进行编码，得到(s_i,v_i)对应的编码向量

i的取值区间为[0,1]；再利用表达器集合对编码向量

进行解码，具体，在生成当前位置的输出信息时，指针网络(pointer network)利用前一位置的输出信息(包括状态向量

和语义项y_j-1，其中语义项可以是单词或词组等)以及编码向量

确定第一输出，包括状态向量

和针对语义项的第一概率分布

序列生成器(Sequence Generator)利用前一位置的输出信息和编码向量

确定第二输出，包括状态向量

和第二概率分布

语言模型利用前一位置的输出信息，确定第三输出，包括状态向量

和第二概率分布

然后，利用模式切换器对第一输出、第二输出和第三输出进行融合，得到当前位置的输出信息，包括状态向量

和语义项Q_j。如此，可实现自然语言文本的生成。

下面结合具体的实施例，对上述发明构思进行介绍。图2示出根据一个实施例的自然语言生成的方法流程示意图，所述方法的执行主体可以是任何具有计算、处理能力的服务器、装置或设备集群等。如图2所示，所述方法包括以下步骤：

步骤S210，获取第一对话动作，其n个组成元素中包括动作类型，以及n-1个词槽-槽值对；步骤S220，对所述第一对话动作进行编码，得到对应n个组成元素的n个编码向量；步骤S230，基于所述n个编码向量，依次确定待输出的自然语言文本的各个位置的语义项，其中，确定任意当前位置的语义项包括：步骤S231，利用指针网络，对前一位置输出信息以及所述n个编码向量进行第一处理，得到第一输出，其中包括第一状态向量，以及将n-1个槽值中的各个槽值复制到当前位置的第一概率分布；步骤S232，利用序列生成器，对所述前一位置输出信息和n个编码向量进行第二处理，得到第二输出，其中包括第二状态向量，以及从预定字符集中选取各个字符的第二概率分布；步骤S233，利用语言模型，对所述前一位置输出信息进行第三处理，得到第三输出，其中包括第三状态向量，以及从预定字符集中选取各个字符的第三概率分布；步骤S234，对所述第一输出，第二输出和第三输出进行加权融合，得到当前位置对应的当前状态向量和当前融合概率分布；步骤S235，根据该当前融合概率分布，确定在当前位置输出的当前语义项，所述当前状态向量和所述当前语义项作为当前位置输出信息。

针对以上步骤，首先需要说明的是，上述“第一对话动作”、“第一处理”、“第一输出”等中的“第一”，“第二处理”、“第二输出”等中的“第二”，以及文中他处的类似用语，均是为了区分同类事物，不具有其他限定作用。

对以上步骤的展开介绍如下：

首先，步骤S210，获取第一对话动作，其n个组成元素中包括动作类型，以及n-1个词槽-槽值对。需说明，文中将获取到的任意一个对话动作DA，称为第一对话动作。在一个实施例中，可以将对话动作表示为包含n(n为大于1的正整数)个元素的集合，如，x＝{(s₁,v₁),(s₂,v₂),…,(s_n,v_n)}，其中s₁可以指代动作类型，如“inform”或“request”，v₁可以指代预定字符，如“TYPE”或“ACT”，集合中的其他元素(s_i,v_i)，i∈(1,n]，指代词槽-槽值对。在另一个实施例中，其中s_n指代动作类型，v_n指代预定字符，集合中的其他元素(s_i,v_i)，i∈[1,n)，指代词槽-槽值对。在一个例子中，某一DA可以被表示为：x＝{(inform,[TYPE]),(name,[Bue,Spice]),(familyFriendly,[yes]),(priceRange,[less,than,20])}。

以上，对获取的第一对话动作进行介绍。接着，在步骤S220，对该第一对话动作进行编码，得到对应n个组成元素的n个编码向量。在一个实施例中，可以直接利用LSTM(LongShort-Term Memory，长短期记忆)网络，对第一对话动作进行编码，但是，这种方式按序读取集合x中的元素，具有较强的顺序敏感性(order-sensitive)，容易忽视DA的逻辑结构。在另一个实施例中，可以采取One-hot encoding(独热编码)的方式，对第一对话动作进行编码，但是，One-hot编码无法处理改写类词槽。

基于此，发明人提出一种分级编码的方式，可以规避上述单用LSTM网络或One-hot编码进行编码带来的问题。在此分级编码的方式中，先针对集合x中任一元素(s_i,v_i)，i∈[1,n]，确定s_i对应的嵌入向量以及v_i的表征向量，从而得到针对(s_i,v_i)的融合向量，进而引入自注意力机制对n个组成元素对应的n个融合向量进行处理，得到n个组成元素对应的n个编码向量。

进一步，关于v_i的表征，在一个实施例中，利用时序递归网络，对上述动作类型对应的预设字符进行处理，并对n-1个槽值中各个槽值包含的若干字符进行处理，得到n个时序表征向量。在一个具体的实施例中，上述时序递归网络可以实现为RNN(RecurrentNeural Network，循环神经网络)、LSTM网络或GRU(Gate Recurrent Unit，门限循环单元)。在一个具体的实施例中，不同动作类型所对应的预设字符可以相同，例如，均为“Type”。需说明，对于上述各个槽值中包含的字符，其具体含义与语言种类相关，比如，在英文中，一个字符可以是一个单词(word)、一个标点符号或一个数字等。又比如，在中文中，一个字符可以是一个字、一个标点符号或一个数字等。在一个例子中，槽值“less than 20”中包括三个字符，依次为less，than和20。

在一个更具体的实施例中，可以利用词槽级(slot-level)的LSTM网络(表示为f^s)，对每个元素(s_i,v_i)包含的值v_i进行表征,具体可以表示为

其中v_i，k表示值v_i中的第k个字符，l_i表示值v_i中包含的字符总数。在一个示例中，f^s可以是双向LSTM网络，其包括正向网络

和反向网络

通过采用下式(1)进行迭代运算，可以得到v_i，k对应的隐层状态向量

并将第l_i个字符对应的隐层状态向量

确定为v_i的表征向量。

式(1)中，

表示向量拼接，如列向量的列向拼接，或行向量的行向拼接，拼接的结果仍为向量。

如此，可以得到v_i的表征向量

关于s_i的嵌入表达，在一个实施例中，可以采用下式(2)实现：

式(2)中，

表示对s_i进行嵌入处理得到的嵌入向量；E表示词嵌入算法，可以通过已有的方式实现。

如此，可以得到s_i的嵌入向量

进而与v_i的表征向量

进行融合处理，得到组成元素(s_i,v_i)对应的融合向量

在一个实施例中，其中融合处理可以包括加和处理、拼接处理和对位相乘处理等。在一个示例中，可以对

和

进行顺序拼接，得到

在得到n个组成元素对应的n个融合向量之后，针对任一组成元素，确定该组成元素对应的融合向量对上述n个融合向量分配的注意力权重，并利用该注意力权重对该n个融合向量进行加权组合，得到该组成元素对应的编码向量。在一个实施例中，针对组成元素(s_i,v_i)，可以将其对应的融合向量

分别与n个融合向量进行拼接，再将得到的n个拼接向量分别输入第一注意力打分网络中，得到n个注意力分数，并对该n个注意力分数进行归一化处理，得到n个注意力权重，进而利用此n个注意力权重对n个融合向量进行加权组合，得到编码向量

在一个具体的实施例中，归一化处理可以利用softmax函数实现。在另一个具体的实施例中，归一化处理可以利用计算占比的方式实现，具体，计算任一注意力分数与n个注意力分数的和值之间的比值，作为注意力权重。

在另一个实施例中，可以通过以下公式(3)，计算得到n个组成元素对应的n个编码向量。

在公式(3)中，[；]表示向量堆叠，H^d表示n个融合向量堆叠而成的矩阵，W_q、W_k和W_v均为模型学习参数，d表示融合向量的维数，H^e表示n个编码向量堆叠而成的矩阵。

以上，采用发明人提出的分级编码的方式，可以得到第一对话动作中n个组成元素对应的n个编码向量，并且，分级编码考虑到了对话动作中槽值的字符序列性，以及对话动作的逻辑结构，由此可以有效提高编码的信息丰富性、准确度和可用性。

由上可以实现对第一对话动作的编码，得到其中n个组成元素相对应的n个编码向量。然后，在步骤S230，基于该n个编码向量，依次确定待输出的自然语言文本的各个位置的语义项。需说明，语义项或称语义单元，一般具有相对完整、不可再分的语义，通常可根据人类的语言习惯进行划分。语义项可以包括字符或字符组合，例如，在中文中，语义项可以包括字(如，人)、词(如，北京)、数字和标点符号等，在英文中，语义项可以包括单词、词组、数字和标点符号等。

在步骤S230中，确定任意当前位置的语义项可以通过以下步骤S231至步骤S235实现，在步骤S231至步骤S233中，确定对应当前位置对应的三个输出，在步骤S234，对此三个输出进行融合，在步骤S235，根据融合结果，确定当前位置的最终输出信息。

具体，在步骤S231，利用指针网络，对前一位置输出信息以及所述n个编码向量进行第一处理，得到第一输出，其中包括第一状态向量，以及将n-1个槽值中的各个槽值复制到当前位置的第一概率分布。其中前一位置输出信息包括前一位置输出的前一语义项，该前一位置对应的前一状态向量，相应地，在一个实施例中，本步骤可以实施为：利用第一时序递归网络，根据该前一状态向量和基于该前一语义项确定的当前输入向量，确定第一状态向量；并且，确定第一状态向量相对于n个编码向量的注意力权重的权重分布，作为第一概率分布。

在一个具体的实施例中，第一时序递归网络可以实现为RNN网络、LSTM网络和GRU网络。在一个具体的实施例中，上述当前输入向量的确定可以包括：将前一语义项的嵌入向量确定为当前输入向量，在另一个具体的实施例中，上述当前输入向量的确定可以包括：将前一语义项的嵌入向量与上述n个编码向量的平均向量的拼接向量，确定为当前输入向量。

在一个示例中，第一时序递归网络实现为LSTM网络，将其表示为g^p，可以利用下式(4)确定第一状态向量。

在式(4)中，

表示第一状态向量，

表示前一位置(第j-1个位置)的状态向量，y_j-1表示前一位置的语义项，E(y_j-1)表示当前输入向量，E表示词嵌入算法。

如此，可以得到第一状态向量。进一步，确定该第一状态向量相对于n个编码向量的注意力权重。在一个具体的实施例中，可以先计算第一状态向量与各个编码向量之间的点积，作为注意力分数，再对得到的n个注意分数进行归一化处理，得到n个注意力权重。在另一个具体的实施例中，可以将第一状态向量分别与各个编码向量进行拼接，得到n个拼接向量，再将此n个拼接向量分别输入第二注意力打分网络中，得到n个注意力分数，并对此n个注意力分数进行归一化处理，得到n个注意力权重。如此，n个注意力权重对应n个编码向量，n个编码向量对应上述n个组成元素，相应地，可以将n个注意力权重作为n个概率，指示将组成元素(s_i,v_i)中的v_i复制到当前位置，作为当前位置语义项的概率，由此，可以将n个注意力权重的权重分布作为上述第一概率分布。

在一个示例中，可以通过下式(5)确定第一概率分布

在公式(5)中，

表示第一状态向量，

表示第i个组成元素对应的编码向量，β_j,i表示

相较于

的注意力分数，v_β属于参数向量，W_β和U_β属于参数矩阵，tanh是一种激活函数。

由上，利用指针网络可以得到第一输出，包括第一状态向量

以及将n-1个槽值中的各个槽值复制到当前位置的第一概率分布

在步骤S232，利用序列生成器，对上述前一位置输出信息和n个编码向量进行第二处理，得到第二输出，其中包括第二状态向量，以及从预定字符集中选取各个字符的第二概率分布。需说明，因确定第二输出的过程中用到n个编码向量，所以此序列生成器还可以称为条件序列生成器(Conditional Sequence Generator)。其中预定字符集是预先设定的字符集，其中一般会涵盖常用字符，具体可以根据实际应用场景而设定。

上述前一位置输出信息包括前一位置输出的前一语义项，该前一位置对应的前一状态向量，相应地，在一个实施例中，本步骤可以实施为：先确定上述前一状态向量相对于n个编码向量的注意力权重，并利用此注意力权重对该n个编码向量进行加权组合，得到加权向量；接着，利用第二时序递归网络，根据上述前一状态向量，以及基于所述前一语义项和所述加权向量确定的当前输入向量，确定所述第二状态向量；再基于该第二状态向量进行线性变换处理，得到第二概率分布。

关于上述确定前一状态向量相对于n个编码向量的注意力权重，在一个具体的实施例中，可以先计算前一状态向量与各个编码向量之间的点积，作为注意力分数，再对得到的n个注意分数进行归一化处理，得到n个注意力权重。在另一个具体的实施例中，可以将前一状态向量分别与各个编码向量进行拼接，得到n个拼接向量，再将此n个拼接向量分别输入第三注意力打分网络中，得到n个注意力分数，并对此n个注意力分数进行归一化处理，得到n个注意力权重。

在得到注意力权重后，对上述n个编码向量进行加权组合，得到加权向量。在一个示例中，可以利用以下公式(6)，实现对注意力分数、注意力权重和加权向量的计算。

在公式(6)中，v_α属于参数向量，W_α和U_α属于参数矩阵，

表示前一状态向量，

表示第i个组成元素对应的编码向量，α_j,i表示

相对于

的注意力分数，α′_j,i表示

相对于

的注意力权重，

表示上述加权向量。

如此，可以得到加权向量，进而可以利用第二时序递归网络，根据基于此加权向量和上述前一语义项确定的当前输入向量，以及上述前一状态向量，确定第二状态向量。在一个具体的实施例中，其中第二时序递归网络基于LSTM网络、RNN网络或GRU网络实现。在一个具体的实施例中，其中当前输入向量的确定可以包括：确定前一语义项的嵌入向量，并将此嵌入向量和上述加权向量的融合向量，如通过拼接处理、相加处理或对位相乘处理而得到的向量，作为当前输入向量。

在一个示例中，上述第二时序递归网络可以实现为LSTM网络，并表示为g^c，通过下式(7)可以得到第二状态向量

在式(7)中，

表示前一状态向量，

表示当前输入向量，E(y_j-1)表示前一位置语义项的嵌入向量，

表示上述加权向量，

表示向量拼接运算。

如此，可以得到第二状态向量

然后，基于此第二状态向量进行线性变换处理，得到第二概率分布。在一个具体的实施例中，可以利用模型参数直接对第二状态向量进行线性变换，得到上述第二概率分布。在另一个具体的实施例中，可以对上述第二状态向量和加权向量的拼接向量进行线性变换处理，得到第二概率分布。在一个示例中，可以采用下式(8)，计算得到第二概率分布。

在式(8)中，

表示第二概率分布，W_c属于参数矩阵，

表示第二状态向量，

表示上述加权向量，

表示向量拼接运算。

如此，可以得到第二概率分布

由上，利用序列生成器可以得到第二输出，第二输出中包括第二状态向量

以及从预定字符集中选取各个字符的第二概率分布

在步骤S233，利用语言模型，对所述前一位置输出信息进行第三处理，得到第三输出，其中包括第三状态向量，以及从预定字符集中选取各个字符的第三概率分布。需说明，因确定第三输出的过程中未用到上述n个编码向量，而是仅用到前一位置输出信息，所以此语言模型还可以称为非条件语言模型(Unconditional Language Modeling)。

前一位置输出信息包括，前一位置输出的前一语义项，该前一位置对应的前一状态向量，相应地，在一个实施例中，上述第三处理可以包括：先利用第三时序递归网络，根据上述前一状态向量和基于上述前一语义项确定的当前输入向量，确定第三状态向量；再对此第三状态向量进行线性变换处理，得到第三概率分布。

在一个实施例中，第三时序递归网络可以实现为LSTM网络、RNN网络或GRU网络。在一个示例中，第三时序递归网络可表示g^l，通过下式(9)可以得到第三状态向量

在式(9)中，

表示前一状态向量，E(y_j-1)表示前一位置语义项的嵌入向量。

在一个示例中，可以采用下式(10)，计算得到第三概率分布。

在式(10)中，

表示第三概率分布，W_l属于参数矩阵，

表示第三状态向量。

如此，可以得到第三概率分布

由上，利用语言模型可以得到第三输出，第三输出中包括第三状态向量

以及从预定字符集中选取各个字符的第三概率分布

以上通过执行步骤S231至步骤S233，可以得到第一输出、第二输出和第三输出，进而在步骤S234，对该第一输出，第二输出和第三输出进行加权融合，得到当前位置对应的当前状态向量和当前融合概率分布。在一个示例中，加权融合可以表示为以下公式(11)。

在公式(11)中，

和

表示用于加权融合的权重；

和

分别表示第一输出、第二输出和第三输出中的第一状态向量、第二状态向量和第三状态向量；

表示当前状态向量；

和

分别表示第一输出、第二输出和第三输出中的第一概率分布、第二概率分布和第三概率分布。

对于加权融合用到的三个权重，在一种实施方式中，可以是人工预先设定的，例如，分别设定为0.2，0.5和0.3。在另一种实施方式种，为了提高加权融合的融合结果的准确性，可以根据上述前一位置对应的前一状态向量，确定三个权重组成的权重向量。

在一个实施例中，权重向量的确定可以包括：将上述前一状态向量输入全连接网络，输出第一分数向量；基于对此第一分数向量进行归一化处理的结果，确定权重向量。在一个具体的实施例中，其中归一化处理可以采用Softmax函数或计算占比的方式实现。

在一个示例中，确定第一分数向量，以及得到此第一分数向量的归一化结果，可以采用下式(12)实现：

其中，

表示第一分数向量，W_θ和U_θ表示全连接网络中的参数矩阵，tanh是一种激活函数，

表示前一状态向量，

表示利用Softmax函数对

进行归一化的结果。

在得到第一分数向量的归一化结果后，在一个具体的实施例中，可以直接将该归一化结果确定为权重向量。

在另一个具体的实施例中，还可以引入Gumbel-softmax Trick，解决在训练过程中可能存在的梯度的计算和传播问题。需理解，模型的使用过程与训练过程类似，区别主要在于使用过程中，模型的学习参数是经过训练后确定下来的，在使用过程中不会发生变化，而训练过程主要是采用标注数据不断调整模型的学习参数，从而得到最终供使用的模型参数。因此，若训练阶段引入Gumbel-softmax Trick以解决梯度的计算和传播问题，则在使用阶段同样会用到Gumbel-softmax Trick。在一个更具体的实施例中，将第一分数向量的归一化结果称为第二分数向量，基于此第二分数向量，进一步确定权重向量可以包括：针对第二分数向量中任一的向量元素，对其进行取对数运算，对该取对数运算的运算值进行耿贝尔噪声添加，得到加噪元素，以构建加噪向量；再基于此加噪向量进行归一化处理，得到权重向量。在一个例子中，取对数运算的底数可以预先设定，如设定为2或10。在一个例子中，可以直接对加噪向量进行归一化处理，得到上述权重向量。在另一个例子中，可以对加噪向量除以超参后得到的向量进行归一化，得到上述权重向量，其中超参可以称为温度参数(Temperature parameter)或退火参数(annealing parameter)。在还一个例子中，可以基于对加噪向量进行归一化的结果，将此结果中的最大值重置为1，将其余值重置为0，构成权重向量。

在一个示例中，可以采用以下公式(13)，计算得到权重向量。

在公式(13)中，r∈{p,c,l}，而p、c、l在本文中分别指示指针网络、序列生成器和语言模型；

表示上述第一分数向量中的元素，例如，可以通过上述公式(12)计算得到；γ^p、γ^c和γ^l是从符合Gumbel分布的噪声空间进行采样得到的i.i.d(非独立同分布)样本，例如，具体可以服从Gumbel(0,1)分布；τ表示退火参数，例如，可以被设定为2或2.5等。

如此，可以利用全连接网络，进一步结合Gumbel-softmax Trick，得到权重向量

在另一个实施例中，可以基于上述前一状态向量，以及上述第一输出、第二输出和第三输出中的第一状态向量、第二状态向量和第三状态向量，确定权重向量，具体可以包括：先对上述前一状态向量进行参数重构处理(reparameterization trick)，得到重构向量；再分别计算上述第一状态向量、第二状态向量和第三状态向量，与此重构向量之间的相似度；进而基于此相似度，确定上述权重向量。

在一个具体的实施例中，上述重构处理可以包括：将上述前一状态向量与随机采样得到的高斯噪声向量的和向量，确定为上述重构向量。在另一个具体的实施例中，上述重构处理可以包括：将上述前一状态向量分别输入第一全连接网络和第二全连接网络，得到第一变换向量和第二变换向量；对其中的第二变换向量与随机采样的高斯向量进行对位相乘处理，得到对位相乘向量；再将第一变换向量与对位相乘向量的和向量，确定为上述重构向量。如此，重构处理后得到的重构向量中引入了随机性。在一个示例中，可以采用公式(14)进行计算，实现对前一状态向量的向量重构。

在公式(14)中，

表示前一状态向量；W_μ和U_μ表示上述第一全连接网络中的参数矩阵；tanh是一种激活函数；μ_j表示上述第一变换向量，或称均值向量；W_σ和U_σ表示上述第二全连接网络中的参数矩阵；σ_j表示上述第二变换向量，或称标准差向量；∈表示从符合标准高斯分布的空间采集的高斯向量；⊙表示对位相乘运算；

表示重构向量。

在一个具体的实施例中，上述相似度的计算可以采用计算欧式距离、曼哈顿距离、切比雪夫距离等方式实现。需理解，通常计算出的距离越远，相似度越低。进一步，对于基于相似度确定上述权重向量，在一个具体的实施例中，可以对计算出的三个相似度进行归一化处理，得到上述权重向量。在另一个具体的实施例中，可以基于计算出的三个相似度中的最大值，进行One-hot编码，并将得到的独热编码向量作为上述权重向量。在一个示例中，可以采用公式(15)，计算得到权重向量。

在上式(15)中，

表示重构向量；||||₂表示欧式距离；

表示权重向量，例如，假定

是

和

中的最小值，那么得到的权重向量为[0,1,0]。

如此，可以在确定出的权重向量中引入一定的随机性，实现贪心与探索策略的结合和平衡。

基于确定出的权重向量，对上述第一输出，第二输出和第三输出进行加权融合，可以得到当前位置对应的当前状态向量和当前融合概率分布。

以上，可以确定出当前状态向量

和当前融合概率分布Q_j。进而在步骤S235，根据该当前融合概率分布，确定在当前位置输出的当前语义项，并且，此当前语义项和上述当前状态向量

被作为当前位置输出信息。在一个实施例中，可以基于当前融合概率分布，将其中的最大概率值所对应的条目(对话动作中的槽值或预定字符集中的字符)，确定为当前位置输出的当前语义项，可将此过程表示为y_j＝argmaxQ_j，其中Q_j表示当前融合概率分布，y_j表示当前语义项。

在一个实施例中，步骤S230中还可以包括，若当前语义项是从第一对话动作中的某一槽值复制而来的，则可以将当前语义项目的词嵌入向量，设定为该某一槽值所在的组成元素对应的编码向量，从而提高后续迭代步骤中计算结果的准确度。

由上，通过重复执行上述步骤S231至步骤S235，可以依次确定待输出的自然语言文本的各个位置的语义项。在一个示例中，依次确定出的语义项为："The","BlueSpice","is","a","low","cost","venue",".","it's","a","family","location"。

综上，采用本说明书实施例披露的自然语言生成方法，在将对话动作准确地转换为自然语言文本的同时，使得转换过程具有极高的可解释性。进一步，对于任一位置的输出语义项y_j，模式切换器对应输出的权重向量o_j可以指示其来表达器集中的哪个表达器，若指示来自指针网络，则指针网络产出的第一概率分布

与上述自然语言生成方法相对应的，本说明书实施例还披露一种自然语言生成装置。图3示出根据一个实施例的自然语言生成的装置结构示意图，所述装置可以实现为任何具有计算、处理能力的服务器、平台、或设备集群。

如图3所示，所述装置300包括以下单元和模块：

获取单元310，配置为获取第一对话动作，其n个组成元素中包括动作类型，以及n-1个词槽-槽值对。编码单元320，配置为对所述第一对话动作进行编码，得到对应n个组成元素的n个编码向量。解码单元330，配置为基于所述n个编码向量，依次确定待输出的自然语言文本的各个位置的语义项，其中，解码单元330利用以下模块确定任意当前位置的语义项：

第一处理模块331，配置为利用指针网络，对前一位置输出信息以及所述n个编码向量进行第一处理，得到第一输出，其中包括第一状态向量，以及将n-1个槽值中的各个槽值复制到当前位置的第一概率分布；第二处理模块332，配置为利用序列生成器，对所述前一位置输出信息和n个编码向量进行第二处理，得到第二输出，其中包括第二状态向量，以及从预定字符集中选取各个字符的第二概率分布；第三处理模块333，配置为利用语言模型，对所述前一位置输出信息进行第三处理，得到第三输出，其中包括第三状态向量，以及从预定字符集中选取各个字符的第三概率分布；输出融合模块334，配置为对所述第一输出，第二输出和第三输出进行加权融合，得到当前位置对应的当前状态向量和当前融合概率分布；信息确定模块335，配置为根据该当前融合概率分布，确定在当前位置输出的当前语义项，所述当前状态向量和所述当前语义项作为当前位置输出信息。

在一个实施例中，编码单元320具体配置为：对所述动作类型和n-1个词槽进行嵌入处理，得到n个嵌入向量；利用时序递归网络，对所述动作类型对应的预设字符进行处理，并对所述各个槽值所包含的若干字符进行处理，得到n个时序表征向量；将对应同一组成元素的嵌入向量和时序表征向量进行融合，得到n个融合向量；针对任一组成元素，确定该组成元素对应的融合向量对所述n个融合向量分配的注意力权重；利用该注意力权重对所述n个融合向量进行加权组合，得到该组成元素对应的编码向量。

在一个实施例中，所述前一位置输出信息包括，前一位置输出的前一语义项，该前一位置对应的前一状态向量；所述第一处理模块331具体配置为：利用第一时序递归网络，根据所述前一状态向量和基于所述前一语义项确定的当前输入向量，确定所述第一状态向量；确定所述第一状态向量相对于所述n个编码向量的注意力权重的权重分布，作为所述第一概率分布。

在一个实施例中，所述前一位置输出信息包括，前一位置输出的前一语义项，该前一位置对应的前一状态向量，上述第二处理模块332具体配置为：确定所述前一状态向量相对于所述n个编码向量的注意力权重，并利用所述注意力权重对所述n个编码向量进行加权组合，得到加权向量；利用第二时序递归网络，根据所述前一状态向量，以及基于所述前一语义项和所述加权向量确定的当前输入向量，确定所述第二状态向量；基于所述第二状态向量进行线性变换处理，得到所述第二概率分布。

在一个具体的实施例中，上述第二处理模块332进一步配置为：对所述第二状态向量和加权向量的拼接向量进行线性变换处理，得到所述第二概率分布。

在一个实施例中，所述前一位置输出信息包括，前一位置输出的前一语义项，该前一位置对应的前一状态向量，所述第三处理模块333具体配置为：利用第三时序递归网络，根据所述前一状态向量和基于所述前一语义项确定的当前输入向量，确定所述第三状态向量；对所述第三状态向量进行线性变换处理，得到所述第三概率分布。

在一个实施例中，所述前一位置输出信息包括该前一位置对应的前一状态向量；所述解码单元330还包括：权重确定模块336，配置为基于所述前一状态向量，确定权重向量；所述输出融合模块334具体配置为：根据所述权重向量，对所述第一输出，第二输出和第三输出进行加权融合。

在一个具体的实施例中，所述权重确定模块336具体配置为：将所述前一状态向量输入全连接网络，输出第一分数向量；基于对所述第一分数向量进行归一化处理的结果，确定所述权重向量。

在一个更具体的实施例中，所述权重确定模块336进一步配置为：对所述第一分数向量进行归一化处理，得到所述第二分数向量；针对所述第二分数向量中任一的向量元素，对其进行取对数运算，对该取对数运算的运算值进行耿贝尔噪声添加，得到加噪元素，以构建加噪向量；基于所述加噪向量进行归一化处理，得到所述权重向量。

在另一个具体的实施例中，所述权重确定模块336具体配置为：对所述前一状态向量进行参数重构处理，得到重构向量；分别计算所述第一状态向量、第二状态向量和第三状态向量，与所述重构向量之间的相似度；基于所述相似度，确定所述权重向量。

进一步，在一个更具体的实施例中，所述权重确定模块336进一步配置为：将所述前一状态向量分别输入第一全连接网络和第二全连接网络，得到第一变换向量和第二变换向量；对所述第二变换向量与随机采样的高斯向量进行对位相乘处理，得到对位相乘向量；将所述第一变换向量与对位相乘向量的和向量，确定为所述重构向量。

在另一个更具体的实施例中，所述权重确定模块336进一步配置为：基于所述相似度中最大值，进行独热编码，并将得到的独热编码向量作为所述权重向量。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种自然语言生成方法，包括：

获取第一对话动作，其n个组成元素中包括动作类型，以及n-1个词槽-槽值对；

对所述第一对话动作进行编码，得到对应n个组成元素的n个编码向量；

基于所述n个编码向量，依次确定待输出的自然语言文本的各个位置的语义项，其中，确定任意当前位置的语义项包括：

利用指针网络，对前一位置输出信息以及所述n个编码向量进行第一处理，得到第一输出，其中包括第一状态向量，以及将n-1个槽值中的各个槽值复制到当前位置的第一概率分布；

利用序列生成器，对所述前一位置输出信息和n个编码向量进行第二处理，得到第二输出，其中包括第二状态向量，以及从预定字符集中选取各个字符的第二概率分布；

利用语言模型，对所述前一位置输出信息进行第三处理，得到第三输出，其中包括第三状态向量，以及从预定字符集中选取各个字符的第三概率分布；

对所述第一输出，第二输出和第三输出进行加权融合，得到当前位置对应的当前状态向量和当前融合概率分布；根据该当前融合概率分布，确定在当前位置输出的当前语义项，所述当前状态向量和所述当前语义项作为当前位置输出信息。

2.根据权利要求1所述的方法，其中，对所述第一对话动作进行编码，得到对应n个组成元素的n个编码向量，包括：

对所述动作类型和n-1个词槽进行嵌入处理，得到n个嵌入向量；

利用时序递归网络，对所述动作类型对应的预设字符进行处理，并对所述各个槽值所包含的若干字符进行处理，得到n个时序表征向量；

将对应同一组成元素的嵌入向量和时序表征向量进行融合，得到n个融合向量；

针对任一组成元素，确定该组成元素对应的融合向量对所述n个融合向量分配的注意力权重；利用该注意力权重对所述n个融合向量进行加权组合，得到该组成元素对应的编码向量。

3.根据权利要求1所述的方法，其中，所述前一位置输出信息包括，前一位置输出的前一语义项，该前一位置对应的前一状态向量；所述第一处理包括：

利用第一时序递归网络，根据所述前一状态向量和基于所述前一语义项确定的当前输入向量，确定所述第一状态向量；

确定所述第一状态向量相对于所述n个编码向量的注意力权重的权重分布，作为所述第一概率分布。

4.根据权利要求1所述的方法，其中，所述前一位置输出信息包括，前一位置输出的前一语义项，该前一位置对应的前一状态向量，所述第二处理包括：

确定所述前一状态向量相对于所述n个编码向量的注意力权重，并利用所述注意力权重对所述n个编码向量进行加权组合，得到加权向量；

利用第二时序递归网络，根据所述前一状态向量，以及基于所述前一语义项和所述加权向量确定的当前输入向量，确定所述第二状态向量；

基于所述第二状态向量进行线性变换处理，得到所述第二概率分布。

5.根据权利要求4所述的方法，其中，基于所述第二状态向量进行线性变换处理，得到所述第二概率分布，包括：

对所述第二状态向量和加权向量的拼接向量进行线性变换处理，得到所述第二概率分布。

6.根据权利要求1所述的方法，其中，所述前一位置输出信息包括，前一位置输出的前一语义项，该前一位置对应的前一状态向量，所述第三处理包括：

利用第三时序递归网络，根据所述前一状态向量和基于所述前一语义项确定的当前输入向量，确定所述第三状态向量；

对所述第三状态向量进行线性变换处理，得到所述第三概率分布。

7.根据权利要求1所述的方法，其中，所述前一位置输出信息包括该前一位置对应的前一状态向量；在对所述第一输出，第二输出和第三输出进行加权融合之前，所述方法还包括：

基于所述前一状态向量，确定权重向量；

对所述第一输出，第二输出和第三输出进行加权融合，具体包括：

根据所述权重向量，对所述第一输出，第二输出和第三输出进行加权融合。

8.根据权利要求7所述的方法，其中，基于所述前一状态向量，确定权重向量，包括：

将所述前一状态向量输入全连接网络，输出第一分数向量；

基于对所述第一分数向量进行归一化处理的结果，确定所述权重向量。

9.根据权利要求8所述的方法，其中，基于对所述第一分数向量进行归一化处理的结果，确定所述权重向量，包括：

对所述第一分数向量进行归一化处理，得到所述第二分数向量；

针对所述第二分数向量中任一的向量元素，对其进行取对数运算，对该取对数运算的运算值进行耿贝尔噪声添加，得到加噪元素，以构建加噪向量；

基于所述加噪向量进行归一化处理，得到所述权重向量。

10.根据权利要求7所述的方法，其中，基于所述前一状态向量，确定权重向量，包括：

对所述前一状态向量进行参数重构处理，得到重构向量；

分别计算所述第一状态向量、第二状态向量和第三状态向量，与所述重构向量之间的相似度；

基于所述相似度，确定所述权重向量。

11.根据权利要求10所述的方法，其中，对所述前一状态向量进行参数重构处理，得到重构向量，包括：

将所述前一状态向量分别输入第一全连接网络和第二全连接网络，得到第一变换向量和第二变换向量；

对所述第二变换向量与随机采样的高斯向量进行对位相乘处理，得到对位相乘向量；

将所述第一变换向量与对位相乘向量的和向量，确定为所述重构向量。

12.根据权利要求10所述的方法，其中，基于所述相似度，确定所述权重向量，包括：

基于所述相似度中最大值，进行独热编码，并将得到的独热编码向量作为所述权重向量。

13.一种自然语言生成装置，包括：

获取单元，配置为获取第一对话动作，其n个组成元素中包括动作类型，以及n-1个词槽-槽值对；

编码单元，配置为对所述第一对话动作进行编码，得到对应n个组成元素的n个编码向量；

解码单元，配置为基于所述n个编码向量，依次确定待输出的自然语言文本的各个位置的语义项，其中，解码单元利用以下模块确定任意当前位置的语义项：

第一处理模块，配置为利用指针网络，对前一位置输出信息以及所述n个编码向量进行第一处理，得到第一输出，其中包括第一状态向量，以及将n-1个槽值中的各个槽值复制到当前位置的第一概率分布；

第二处理模块，配置为利用序列生成器，对所述前一位置输出信息和n个编码向量进行第二处理，得到第二输出，其中包括第二状态向量，以及从预定字符集中选取各个字符的第二概率分布；

第三处理模块，配置为利用语言模型，对所述前一位置输出信息进行第三处理，得到第三输出，其中包括第三状态向量，以及从预定字符集中选取各个字符的第三概率分布；

输出融合模块，配置为对所述第一输出，第二输出和第三输出进行加权融合，得到当前位置对应的当前状态向量和当前融合概率分布；

信息确定模块，配置为根据该当前融合概率分布，确定在当前位置输出的当前语义项，所述当前状态向量和所述当前语义项作为当前位置输出信息。

14.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-12中任一项的所述的方法。

15.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-12中任一项所述的方法。