CN106156848B

CN106156848B - 一种基于lstm-rnn的陆空通话语义一致性校验方法

Info

Publication number: CN106156848B
Application number: CN201610478551.8A
Authority: CN
Inventors: 杨金锋; 路玉君; 师华; 师一华; 贾桂敏
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2016-06-22
Filing date: 2016-06-22
Publication date: 2018-08-14
Anticipated expiration: 2036-06-22
Also published as: CN106156848A

Abstract

一种基于LSTM‑RNN的陆空通话语义一致性校验方法。其包括制作语料库：根据民航的通话标准和上述语料库制作专用词表并获得单词的one‑hot向量：产生每一句子对中两个句子的语义向量；计算上述两个句子的语义向量的余弦相似度；根据上述余弦相似度利用逻辑回归法、K近邻法或随机森林法来校验两个句子的语义是否一致等步骤。本发明提供的基于利用RNN处理序列的优势，在计算句子语义向量的过程中充分考虑了句子中单词之间的关联性。由于深度学习利用模型自动地学习样本特征，所以本发明不需要对大量数据进行统计分析。

Description

一种基于LSTM-RNN的陆空通话语义一致性校验方法

技术领域

本发明属于民航运输中陆空通话的语义一致性校验技术领域，特别是涉及一种基于LSTM-RNN的陆空通话语义一致性校验方法。

背景技术

在民航运输中，导致事故发生的因素可以归纳为三类：自然因素、机械故障和人为因素。随着科技的发展由自然因素和机械故障导致的事故发生率得到了大幅下降，但是由于人为因素导致的事故发生率并没有明显的下降。常见的人为因素可以归纳为操作失误、维修故障和陆空通信错误。虽然民航组织及各国民航管理机构不断改进空中交通的通话标准，但由陆空通话失误导致的飞行事故仍不断发生。美国联邦航空局(NASA)的调查报告显示，由陆空通话内容不正确、用语不规范、信息纰漏、复述错误或无复述造成的民航飞行事故所占比例分别为14％、9.9％、5.5％和13％。可见陆空通话失误对民航安全有重大的威胁。

由于递归神经网络(RNN)模型能够处理任意长度的序列，因此RNN模型被广泛地应用于各种序列任务。RNN模型的一种变形形式LSTM-RNN模型的发展是为了解决RNN模型在训练过程的梯度消失问题。基于RNN和LSTM-RNN模型的优点，它们被成功地用于机器翻译，语音识别和信息检索。但目前尚未发现结合RNN和LSTM-RNN模型的用于校验陆空通话的语义一致性的相关方法。

发明内容

为了解决上述问题，本发明的目的在于提供一种基于LSTM-RNN的陆空通话语义一致性校验方法。

为了达到上述目的，本发明提供的基于LSTM-RNN的陆空通话语义一致性校验方法包括按顺序进行的下列步骤：

步骤1)制作语料库：

步骤1.1)从实际的陆空通话中挑选出复述类型的句子对并存入txt文本中；

步骤1.2)将上述文本中的句子对分成正样本和负样本两种类型，其中正样本由语义一致性的句子对组成，负样本由语义不一致性的句子对组成；

步骤1.3)对上述句子对进行分词：为了方便描述句子语义，需要对句子对进行分词，以每个单词为单位将句子进行分词，由分词之后的所有句子对构成语料库；

步骤2)根据民航的通话标准和上述语料库制作专用词表并获得单词的one-hot向量：

步骤2.1)根据民航的通话标准和上述语料库制作一个专用词表；

步骤2.2)利用上述专用词表获得语料库中所有单词的one-hot向量；

步骤3)产生每一句子对中两个句子的语义向量：

将上述每一句子对中两个句子的所有单词的one-hot向量分别作为一个单词序列输入到两个RNN模型或者两个LSTM-RNN模型中，以对两个模型同时进行训练，两个模型的输出向量分别为两个句子的语义向量；

步骤4)计算上述两个句子的语义向量的余弦相似度；

步骤5)最后根据上述余弦相似度利用逻辑回归法、K近邻法或随机森林法来校验两个句子的语义是否一致。

在步骤1.1)中，所述的句子对包括两个句子：分别为空管人员指令和飞行员复述语句。

在步骤4)中，所述的余弦相似度的公式如下式所示：

在上式中，y(A)和y(B)是步骤3)中每一句子对中两个句子对应的语义向量。

在步骤5)中，所述的逻辑回归法中采用sigmoid函数，函数形式如下式所示：

其中z＝wR，也就是确定逻辑回归中的参数w，R为步骤3)中的余弦相似度，然后再设定一个阈值，如果g(z)≥阈值，则sigmoid函数的输出为1，两个句子的语义一致，否则sigmoid函数的输出为0，两个句子的语义不一致。

在步骤5)中，所述的K近邻法的具体步骤如下：设有N个已知样本分属于c个w_i类，考察新样本x在这些样本中的前K个近邻，设其中有k_i个属于w_i类，则w_i类的判别函数就是：

gi(x)＝ki，i＝1,2

决策的规则是：

若则x∈w_k。

在步骤5)中，所述的随机森林法的具体步骤如下：

5.3.1)对样本数据进行自举重采样，得到多个样本集；所谓自举重采样，就是每次从原来的N个训练样本中有放回地随机抽取N个样本，包括可能的重复样本；

5.3.2)用每个重采样样本集作为训练样本构造一个决策树；在构造决策树的过程中，每次从所有候选特征中随机地抽取m个特征，作为当前节点下决策的备选特征，从这些特征中选择出最好特征来划分训练样本特征；

5.3.3)得到所需数目的决策树后，对这些决策树的输出进行投票，以得票最多的类作为随机森林的决策。

本发明提供的基于LSTM-RNN的陆空通话语义一致性校验方法是利用RNN处理序列的优势，在计算句子语义向量的过程中充分考虑了句子中单词之间的关联性。由于深度学习利用模型自动地学习样本特征，所以本发明不需要对大量数据进行统计分析。

附图说明

图1为本发明提供的基于LSTM-RNN的陆空通话语义一致性校验方法的流程图；

图2为RNN模型的基本结构图；

图3为LSTM-RNN模型的基本结构图；

图4为sigmoid函数图；

图5(a)和(b)分别为基于逻辑回归方法的LSTM-RNN模型及RNN模型测试精度图；

图6(a)和(b)分别为基于K近邻法的LSTM-RNN模型及RNN模型测试精度图；

图7(a)和(b)分别为基于随机森林法的LSTM-RNN模型及RNN模型测试精度图。

具体实施方式

下面结合附图和具体实施例对本发明提供的基于LSTM-RNN的陆空通话语义一致性校验方法进行详细说明。

如图1所示，本发明提供的基于LSTM-RNN的陆空通话语义一致性校验方法包括按顺序进行的下列步骤：

步骤1)制作语料库：

复述类型句子对的形式和句子对分词之后的结果如表1所示：

表1 复述类型句子对和句子对的分词

步骤2.2)利用上述专用词表获得语料库中所有单词的one-hot向量，其中：One-hot向量是用一个向量表示一个单词，向量的维度是词表的大小，其中绝大多数元素为0，只有一个维度的值为1，这个维度就代表了当前的单词；

步骤3)产生每一句子对中两个句子的语义向量：

步骤4)计算上述两个句子的语义向量的余弦相似度；

在步骤3)中，所述的RNN模型是一个前馈的神经网络模型，其基本结构如图2所示。在描述句子的语义向量过程中，RNN模型依句子中单词的顺序在每个时间步中激活一个单词向量，当最后一个单词向量被激活时，输出的隐层向量即为句子的语义向量。假设x＝(x₁,x₂,...,x_T)是输入的单词序列，y＝(y₁,y₂,...,y_T)是隐层的序列，x(t)是第t个单词的one-hot向量，y(t)是对应的第t个单词在t时刻被激活的隐层向量。当最后一个单词的one-hot向量x(T)输入到该模型中时，隐层的输出向量y(T)就是句子的语义向量。

RNN模型利用输入向量计算隐层激活向量的公式如式(1)所示：

y(t)＝tanh(Wx(t)+W_recy(t-1)+b) (1)

在上式中，tanh(·)是隐层激活函数，b是偏置值，本发明中将偏置值设定为0；W和W_rec分别是输入权值矩阵和递归权值矩阵。由式(1)可知，RNN模型隐层的状态是由当前时刻的输入和前一时刻隐层的状态共同决定的。

在步骤3)中，所述的LSTM-RNN模型也是一个前馈的神经网络模型，与RNN模型相比，LSTM-RNN模型增加了输出门、遗忘门、输入门和记忆单元。输出门和输入门的作用是决定存储单元中数据的传递，遗忘门是用于删除一些冗余信息，而记忆单元是LSTM-RNN最重要的一部分，其用于记住一些重要的长期的信息。LSTM-RNN模型的结构如图3所示。相比RNN模型，LSTM-RNN模型可以解决长期依赖问题和在训练过程中的梯度消失问题。

在本发明中，设o(t),f(t),i(t),c(t)分别为输出门、遗忘门、输入门和记忆单元的状态向量。W_i和W_reci(i＝1,2,3,4)分别是输出门、遗忘门、输入门和记忆单元的输入和输出的连接权值矩阵，W_pi(i＝1,2,3)是窥空的连接矩阵。LSTM-RNN模型各状态向量的计算公式如下所示：

i(t)＝σ(W₃x(t)+W_rec3y(t-1)+W_p3c(t-1)) (2)

f(t)＝σ(W₂x(t)+W_rec2y(t-1)+W_p2c(t-1)) (3)

o(t)＝σ(W₁x(t)+W_rec1y(t-1)+W_p1c(t-1)) (4)

l(t)＝tanh(W₄x(t)+W_rec4y(t-1)) (5)

c(t)＝f(t)c(t-1)+i(t)l(t) (6)

y(t)＝tanh(c(t))o(t) (7)

在上述公式中，σ(.)是sigmoid函数，tanh(·)和σ(.)同时作为激活函数。y(t)是隐层神经元的输出向量；l(t)是计算公式的一个中间步骤，没有实际的意义。与RNN模型相同，当输入序列为句子最后一个单词的one-hot向量时，LSTM-RNN模型的输出即为句子的语义向量。

在步骤4)中，所述的余弦相似度的公式如式(8)所示：

在上式中，y(A)和y(B)是步骤3)中每一句子对中两个句子对应的语义向量。如果两个句子的语义一致，那么余弦相似度R应该接近于1，否则余弦相似度R接近于—1。

在步骤3)中，所述的对两个模型同时进行训练的方法是：

在本发明中，由于所用语料库是由专业的空管人员制作并标记的，所以在训练过程中本发明人采用有监督的训练方式。在训练过程中，本发明人采用最小化交叉熵误差来优化模型。交叉熵误差公式如下：

在上式中，Λ是RNN或者LSTM-RNN模型的参数，R是句子对余弦相似度，C是被标记的数字，如果句子对的语义一致，C为1，否则为0。

本发明是采用通过时间反向传播(BPTT)的方法估计模型参数。在反向传播的过程，需要求交叉熵误差的梯度，并利用梯度值更新参数。在训练过程中，本发明人采用一种与标准冲量方法相似的方法(Nesterov冲量方法)加速梯度的收敛。利用Nesterov冲量方法更新参数的公式如下所示：

式中是式(9)中交叉熵误差的梯度，ε和μ分别是学习率和冲量项参数。

RNN模型有两个明显缺点：梯度消失和梯度爆炸。由前述可知，LSTM-RNN模型可以解决梯度消失问题。为了解决梯度爆炸问题，在训练过程中本发明人采用梯度归一化的方法。

在步骤5)中，所述的根据上述余弦相似度利用逻辑回归法、K近邻法或随机森林法校验两个句子的语义是否一致的方法如下：

在本发明中，校验语义一致性问题可以归纳成分类问题，而且是一个二分类问题，本发明人采用逻辑回归法、K近邻法和随机森林法三种方法校验句子对的语义一致性。

5.1)逻辑回归法

对于一个二分类问题，逻辑回归中采用sigmoid函数，函数形式如式(11)所示，sigmoid函数是关于z的函数，如图4所示。

逻辑回归需要先训练好一个模型，在本发明中z＝wR，也就是确定逻辑回归中的参数w，R为步骤3)中的余弦相似度，然后再设一个阈值(本发明中阈值设为0.5)。如果g(z)≥阈值，则sigmoid函数的输出为1，两个句子的语义一致，否则sigmoid函数的输出为0，两个句子的语义不一致。

5.2)K近邻法(KNN)

K近邻法的基本思想是：引入投票机制，选择前若干个离新样本最近的已知样本，用它们的类别投票来决定新样本的类别。人们习惯上把参加投票的近邻样本的个数记为k。K近邻法是一种lazy-learning算法，分类器不需要使用训练集进行训练，训练时间的复杂度为0。

K近邻法可以表示为：设有N个已知样本分属于c个w_i类(在本发明中为两类，i＝1,2)，考察新样本x在这些样本中的前K个近邻，设其中有k_i个属于w_i类，则w_i类的判别函数就是：

_gi(x)＝k_i，i＝1,2 (12)

决策的规则是：

若则x∈w_k (13)

5.3)随机森林法(random forest)

随机森林法的基本思想是：建立很多决策树，由此组成一个决策树的“森林”，通过很多棵树投票来进行决策。

具体步骤如下：

5.3.1)对样本数据进行自举重采样，得到多个样本集。所谓自举重采样，就是每次从原来的N个训练样本中有放回地随机抽取N个样本(包括可能的重复样本)。

5.3.2)用每个重采样样本集作为训练样本构造一个决策树。在构造决策树的过程中，每次从所有候选特征中随机地抽取m个特征，作为当前节点下决策的备选特征，从这些特征中选择出最好特征来划分训练样本特征。

实验与分析

本发明的实验数据包含800个语句对，其中500个语句对的语义是一致的(即正样本)，剩下300个语句对语义是不一致的(负样本)。根据步骤3中所描述的RNN和LSTM-RNN模型，本发明人选择640个语句对作为训练集，160个语句对作为测试集(训练集和测试集均包含正负样本)。

为了更准确地衡量模型的性能，本发明人随机对实验数据进行了30次的训练和测试，然后利用逻辑回归法、K近邻法和随机森林法三种方法校验句子对的语义一致性。通过30次实验之后，本发明人利用式(14)所示的平均测试精度来评估三种校验方法在本发明中的有效性。实验结果如图5、6、7和表2所示。

表2 基于三种校验方法的平均测试精度对比

从图5、6、7和表2可以看出：相比于逻辑回归法，K近邻法和随机森林法测试结果更稳定，而且测试精度更高。对比三种方法发现正样本的测试精度均高于负样本的测试精度，并且LSTM-RNN模型的测试精度要高于RNN模型的测试精度。

上述实验结果说明，利用RNN和LSTM-RNN模型描述陆空对话的语义并检验语义的一致性是可行的，同时LSTM-RNN模型的性能优于RNN模型。同时也证明了本发明方法的实用性和可行性。

Claims

1.一种基于LSTM-RNN的陆空通话语义一致性校验方法，其特征在于：所述的基于LSTM-RNN的陆空通话语义一致性校验方法包括按顺序进行的下列步骤：

步骤1)制作语料库：

步骤3)产生每一句子对中两个句子的语义向量：

步骤4)计算上述两个句子的语义向量的余弦相似度；

2.根据权利要求1所述的基于LSTM-RNN的陆空通话语义一致性校验方法，其特征在于：在步骤1.1)中，所述的句子对包括两个句子：分别为空管人员指令和飞行员复述语句。

3.根据权利要求1所述的基于LSTM-RNN的陆空通话语义一致性校验方法，其特征在于：在步骤4)中，所述的余弦相似度的公式如下式所示：

4.根据权利要求1所述的基于LSTM-RNN的陆空通话语义一致性校验方法，其特征在于：在步骤5)中，所述的逻辑回归法中采用sigmoid函数，函数形式如下式所示：

5.根据权利要求1所述的基于LSTM-RNN的陆空通话语义一致性校验方法，其特征在于：在步骤5)中，所述的K近邻法的具体步骤如下：设有N个已知样本分属于c个w_i类，考察新样本x在这些样本中的前K个近邻，设其中有k_i个属于w_i类，则w_i类的判别函数就是：

g_i(x)＝k_i，i＝1，2

决策的规则是：

若则x∈w_k。

6.根据权利要求1所述的基于LSTM-RNN的陆空通话语义一致性校验方法，其特征在于：在步骤5)中，所述的随机森林法的具体步骤如下：