CN109918503B

CN109918503B - 基于动态窗口自注意力机制提取语义特征的槽填充方法

Info

Publication number: CN109918503B
Application number: CN201910084904.XA
Authority: CN
Inventors: 马千里; 闫江月; 田帅
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2020-12-22
Anticipated expiration: 2039-01-29
Also published as: CN109918503A

Abstract

本发明公开了一种基于动态窗口自注意力机制提取语义特征的槽填充方法，用于口语对话系统中提取用户话语的语义槽，步骤如下：将文本数据中的句子切分为词；将切分句子得到的词用词嵌入向量表示；选定一个窗口大小，对每个词计算该词需选择当前窗口内的具体信息，进一步得到当前词的上下文特征；对每个词，用该词的上下文特征和词向量，根据自注意力机制计算当前词的融合特征；对于每个词，将当前词的融合特征和当前词向量输入双向循环神经网络中进行分类，输出结果。本发明提出的动态窗口的方法先计算出上下文特征中哪些是不需要的，筛选掉不需要的特征，然后再通过自注意力机制提取剩余更有价值的特征之间的关系，得到最终的输入特征表示。

Description

基于动态窗口自注意力机制提取语义特征的槽填充方法

技术领域

本发明涉及口语对话系统中的自然语言理解技术领域，具体涉及一种基于动态窗口自注意力机制提取语义特征的槽填充方法。

背景技术

槽填充是口语对话系统中自然语言理解模块的重要组成部分，旨在提取用户话语中一些比较重要的“语义槽”信息。槽填充性能的好坏，不仅对影响着自然语言理解的准确与否，也影响着整个对话系统中的后续模块的性能。提升槽填充的性能，可以让系统提取到用户话语中更准确的信息，让系统更好的和用户交互，提升用户的服务体验。在如今越来越多口语系统的不断发展下，槽填充也有着重要的实践和应用价值。

在槽填充的输入的特征提取方面，国内外目前的方法都是将词向量特征或者字符向量特征输入到模型进行分类(具体参见：Bing Liu and Ian Lane.“Attention-BasedRecurrent Neural Network Models for Joint Intent Detection and Slot Filling”,In Proceedings of INTERSPEECH.pp.685-689,2016.)，没有进一步提取更好的输入特征。词向量或者字符向量可以在一定程度上表示文本的语义信息，但是直接输入模型并不能提取到很好的特征表示。一些人使用卷积神经网络(CNN)提取输入的上下文特征(具体参见：Heike Adel,Benjamin Roth and Hinrich Schütze:“Comparing Convolutional NeuralNetworks to Traditional Models for Slot Filling”,In Proceedings of NAACL/HLT.pp.828–838,2016.)，Li等人使用了自注意力机制提取输入特征(具体参见：Changliang Li,Liang Li,Ji Qi.“A Self-Attentive Model with Gate Mechanism forSpoken Language Understanding”,In Proceedings of the 2018Conference onEmpirical Methods in Natural Language Processing.pp.3824–3833,2018.)。卷积神经网络可以提取到输入的上下文特征，但是卷积网络中卷积核的大小是固定的，这样提取到的特征上下文范围也是固定的。尽管自注意力机制是一种很好的特征提取手段，但是它假设了当前上下文中的信息是同等重要的，计算时计算了上下文范围内的所有特征。卷积网络和目前的自注意力机制都计算了上下文范围内所有特征，但是存在一些冗余特征是不需要被计算到的，针对这个问题，目前国内外并没有相关的解决方法。考虑到这一点，目前亟待提出一种基于动态窗口自注意力机制提取语义特征的槽填充方法。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于动态窗口自注意力机制提取语义特征的槽填充方法，该方法首先通过一种动态窗口选择特征，然后采用自注意力机制进行特征融合，更好地提取输入特征之间的关系。

本发明的目的可以通过采取如下技术方案达到：

一种基于动态窗口自注意力机制提取语义特征的槽填充方法，所述的槽填充方法包括下列步骤：

S1、将文本数据中的每个句子切分为词；

S2、将切分句子得到的词w＝(w₁,w₂,…w_T)用词嵌入向量

表示，其中T为词的个数，

S3、选定一个窗口大小L，对于每个词，利用当前词的词嵌入向量

计算该词需要选择当前窗口内的信息，得到当前词的上下文特征表示

其中t为当前词的下标；

S4、对于每一个词，利用该词的上下文特征表示

和词向量

根据自注意力机制计算当前词的融合特征表示

S5、对于每一个词，将当前词的融合特征表示

和词向量

输入到双向循环神经网络中进行分类，输出结果。

进一步地，所述的步骤S3包括：

S31、将当前词的词嵌入向量

和窗口内词的词嵌入向量

输入到下式中，产生动态窗口概率分布

分布每个元素

其中，函数

matmul(·)代表矩阵乘法，

S32、在训练和测试时分别利用

计算得到变量

1≤t≤L-1，mask_t的值为1时表示选中第t个词，mask_t的值为0时表示没有选中第t个词；

S33、利用

得到经过筛选后的窗口内的词表示

也即是当前词的上下文特征表示。其中，⊙为对应元素相乘二元运算符。

进一步地，所述的步骤S32中，在训练时实施过程如下：

从分布Gumbel(0,1)＝-log(-log(Uniform(0,1)))中产生随机变量

定义每个

为g的第t维的切片向量,其中Uniform(0,1)为正态分布；

定义温度超参数τ，定义变量

它的每一个分量是一个近似0或者1的数,[r_t-L/2,…,r_t-1,r_t+1,…,r_t+L/2]即可表示为窗口内词是否加入当前词的语义表示中，由下式计算得到r_t的第i个分量

1≤i≤2：

其中，

是p_t的第i个分量，p_t是P的第t个分量，

是g_t的第i个分量，exp(x)是指数函数；

计算

的值，计算公式如下：

其中，matmul(·)代表矩阵乘法。

进一步地，所述的步骤S32中，在预测时实施过程如下：

从多项式分布Multinomial(·)中采样产生

其中，

mask～Multinomial(log(P))。

进一步地，所述的步骤S4实施过程如下：

其中，matmul(·)代表矩阵乘法，indicator为和矩阵乘法结果张量同维的张量，矩阵乘法结果为0的元素，在indicator中对应位置元素为-∞，否则为0。

进一步地，所述的步骤S5包括：

S51、遍历每一个词，将当前词的融合特征

和当前词向量

进行拼接得到

S52、将得到的

1≤t≤T输入到双向循环神经网络中进行分类，得到输出结果[o₁,o₂,…,o_T]。

进一步地，所述的文本数据包括中文数据和/或英文数据。

本发明相对于现有技术具有如下的优点及效果：

1.与卷积网络和目前的自注意力计算上下文范围内所有特征不同，存在一些冗余特征对构建最终的输入特征是没有必要的。本发明提出的动态窗口的方法先计算出上下文特征中哪些是不需要的，筛选掉不需要的特征。这里使用求得的动态窗口概率分布，选择合适的温度超参数，利用Gumbel分布和softmax函数求得近似离散的01数值，作为窗口内特征的“掩码”，1代表保留，0代表丢弃，由于该数值是由动态窗口概率分布决定的，对于某个特征，对应的动态窗口概率越大，该数值是1的概率就越大，就越可能保留下来，反之同理，从而保留了窗口内有用的特征，过滤了窗口内无用的特征。

2.经过特征的筛选后，再通过自注意力机制提取剩余更有价值的特征之间的关系。用当前词向量和筛选的特征计算得到最终的输入特征。本发明使用的自注意力机制包含当前词向量和上下文特征的交互，且它的形式相对简单，相比一般自注意力机制有更少的参数，计算速度更快，可以很好的建模句子上下文特征之间的关系。

附图说明

图1是本发明中公开的基于动态窗口自注意力机制提取语义特征的槽填充方法的流程图；

图2是本发明中公开的基于动态窗口自注意力机制提取语义特征的槽填充方法的工作模型概要图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

图1是公开的基于动态窗口自注意力机制提取语义特征的槽填充方法的流程图，如图1所示，所述方法包括以下步骤：

S1、将文本数据中的每个句子切分为词。数据可以是中文数据也可以是英文数据，中文语句可以用jieba分词，但不限于此。在这里以英文数据为例。如图2所示将句子“findflights from charlotte to Newark.”切分为词，得到词的列表：[find,flights,from,charlotte,to,Newark]。

S2、将文本句子得到的词w＝(w₁,w₂,…w_T)用词嵌入向量

表示，每个词有一个300维的词嵌入向量，词嵌入矩阵大小为所有训练数据的词表大小，维度为300维。

S3、选定一个窗口大小L，这里选定L＝5，但不限于此，对于每个词

计算该词需要选择当前窗口内哪些词的信息，进一步得到当前词的上下文特征表示

得到上下文特征表示的过程如下：

S3.1、如图2所示，从中可以看出每个时间步时计算特征的方式。将当前正在计算的词charlotte的词嵌入向量表示

和窗口内的词flights,from,to,Newark的词嵌入向量表示

输入到一个网络中，产生动态窗口概率分布P＝[p_t-2,p_t-1,p_t+1,p_t+2]，它含4个2分类概率分布，其中每个

S3.2、在训练和测试时分别利用

计算得到变量

mask_t(1≤t≤4)的值为1表示选中窗口内的第t个词，为0表示没有选中窗口内的第t个词，这里求得的mask＝[0,1,0,1]。

S3.3、利用

得到经过筛选后的当前词的上下文特征表示

S4、利用上述步骤S3.2中，在训练和测试时分别利用

计算得到变量

具体按以下步骤：在训练时，

S4.1、从分布Gumbel(0,1)＝-log(-log(Uniform(0,1)))中产生随机变量

定义每个

为g的第t维的切片向量,其中Uniform(0,1)为正太分布；

S4.2、定义温度超参数为一个很小的值，如τ＝0.001，定义变量r_t，它的每一个分量是一个近似0或者1的数，

[r_t-2,r_t-1,r_t+1,r_t+2]即可表示为窗口内词是否加入当前词的语义表示中。由下式计算得到r_t的第i个分量

其中，

是p_t的第i个分量(1≤i≤2)，p_t是P的第t个分量，

是g_t的第i个分量(1≤i≤2)，exp(x)是指数函数。

S4.3、计算

的值，其中matmul(·)代表矩阵乘法，

mask＝matmul([r_t-2,r_t-1,r_t+1,r_t+2],[[0],[1]])

在预测时，从多项式分布Multinomial(·)中采样产生

mask～Multinomial(log(P))

S5、对于每一个词，这里以图2中正在计算的charlotte为例，利用上下文flights,from,to,Newark的特征表示

和当前词charlotte的特征表示

根据自注意力机制计算当前词的融合特征表示

具体如下：

其中，matmul(·)代表矩阵乘法，上下文特征和当前词特征利用矩阵乘法计算出一个4×1的张量，对于

它包含flights,from,to,Newark的特征表示，这里们求得flights和to的特征为全0的张量。为了便于后续处理，将indicator＝[-∞,0,-∞,0]这个4×1的张量和计算结果相加。输入softmax函数得到一个4×1的表示概率的张量，如图2所示，得到的张量为[0,0.3,0,0.7]。矩阵乘法计算得出的张量元素越大，经过softmax函数计算得到的概率值就越大,indicator对应为-∞的位置计算后为0，即达到了将这些不重要的语义去掉的目的。结果和

进行矩阵乘法，输入softmax函数，得到融合特征表示

S6、对于句子的每一个词，都进行上述步骤，这里以图2的charlotte为例，将charlotte的融合特征表示

和charlotte词向量

输入到双向循环神经网络(Bi-LSTM)中进行分类，输出结果，步骤如下：

S6.1、将当前词charlotte的融合特征

和charlotte的词向量

进行拼接得到

S6.2、将得到的

(1≤t≤6)输入到双向循环神经网络(Bi-LSTM)中进行分类，得到槽填充的输出结果[o₁,o₂,…,o₆]。

综上所述，本实施例提出的动态窗口的方法先计算出上下文特征中哪些是不需要的，筛选掉不需要的特征，然后再通过自注意力机制提取剩余更有价值的特征之间的关系，得到最终的输入特征表示。通过这种提取特征的方式，再输入到分类器如双向循环神经网络(Bi-LSTM)中，可以达到很好的识别效果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。