CN108491386A

CN108491386A - 自然语言理解方法及系统

Info

Publication number: CN108491386A
Application number: CN201810224982.0A
Authority: CN
Inventors: 鞠剑勋; 刘浪
Original assignee: Shanghai Ctrip International Travel Agency Co Ltd
Current assignee: Shanghai Ctrip International Travel Agency Co Ltd
Priority date: 2018-03-19
Filing date: 2018-03-19
Publication date: 2018-09-04

Abstract

本发明公开了一种自然语言理解方法及系统。自然语言理解方法包括以下步骤：S₁、构建深度学习联合模型；所述深度学习联合模型的输入参数为语句的词向量，输出参数为语句的关键词向量和意图向量；S₂、获取待理解语句，对所述待理解语句进行分词处理得到词向量；S₃、将所述词向量输入所述深度学习联合模型，计算所述待理解语句的关键词向量和意图向量。本发明使用深度学习联合模型实现了自然语言理解，使得自然语言理解的准确率得到了大幅提升。

Description

自然语言理解方法及系统

技术领域

本发明涉及人工智能技术领域，特别涉及一种基于深度学习的自然语言理解方法及系统。

背景技术

自然语言理解技术广泛应用于理解句子的语义，分为两个方面，一是理解句子的整体意图，二是提取句子中影响理解的关键信息，这些关键信息通常为名词和数词等，比如命名实体、日期等，这种可变信息往往被提前设定好类型，被称为槽(SLOT)。

目前，最广泛的中文自然语言理解系统，使用了传统自然语言处理(NLP)技术。其预先设定好所有需要处理的问题的模板，模板中空出可变的关键词作为槽，对用户的实际问题进行关键字提取，并在模板集合中进行匹配。在匹配的结果中，进行打分，筛选出最有可能的目标模板。模板的意图即对应实际问题的意图，模板中槽里的词即为关键词，由意图和关键词共同决定了对整句话的理解。

由于语言表达的多样性、语义理解的困惑度，特别是中文的歧义等现象非常常见，导致了通过模板提取意图的准确率比较低，而且由于自然语言处理中的上下文复杂性，对于复杂的前后有上下文关联的长语句，模板并不能很好地处理，导致召回率也同样比较低。同时该方法需要投入大量人力制定很多模板和规则，因此在实际应用中，基于传统自然语言处理的自然语言理解系统，在成本控制和用户反馈上都没有取得很好的效果。

发明内容

本发明要解决的技术问题是为了克服现有技术中传统自然语言处理技术准确率低的缺陷，提供一种自然语言理解方法及系统。

本发明是通过下述技术方案来解决上述技术问题：

一种自然语言理解方法，所述自然语言理解方法包括以下步骤：

S₁、构建深度学习联合模型；所述深度学习联合模型的输入参数为语句的词向量，输出参数为语句的关键词向量和意图向量；

S₂、获取待理解语句，对所述待理解语句进行分词处理得到词向量；

S₃、将所述词向量输入所述深度学习联合模型，计算所述待理解语句的关键词向量和意图向量。

较佳地，所述深度学习联合模型包括长短时记忆网络模型和注意力模型；

步骤S₁具体包括：

获取语句样本；

标注所述语句样本的实际的关键词向量和意图向量，并对所述语句样本进行分词处理，得到词向量样本；

将所述词向量样本输入所述长短时记忆网络模型；

将所述长短时记忆网络模型的输出向量输入所述注意力模型；

将所述注意力模型的输出参数与所述实际的关键词向量和意图向量进行比较，根据比较结果调整所述长短时记忆网络模型和所述注意力模型的参数；

迭代执行上述步骤，当所述输出参数的准确度在预设范围内时，得到最终的深度学习联合模型。

较佳地，当所述输出参数的准确度在预设范围内时，得到最终的深度学习联合模型的步骤，具体包括：

分别基于交叉熵损失函数计算每次迭代过程中获得的关键词向量和语句意图向量的第一损失和第二损失；

当所述第一损失和所述第二损失的和为最小值时，将当前的深度学习联合模型作为最终的深度学习联合模型。

较佳地，对所述待理解语句进行分词处理的步骤之前，还包括：

过滤所述待理解语句以去除所述待理解语句中的停用词。

本发明还提供一种自然语言理解系统，所述自然语言理解系统包括：

模型构建模块，用于构建深度学习联合模型；

所述深度学习联合模型的输入参数为语句的词向量，输出参数为语句的关键词向量和意图向量；

语句处理模块，用于获取待理解语句，并对所述待理解语句进行分词处理得到词向量；

计算模块，用于将所述词向量输入所述深度学习联合模型，计算所述待理解语句的关键词向量和意图向量。

所述模型构建模块，具体包括：

样本获取单元，用于获取语句样本；

语句处理单元，用于标注所述语句样本的实际的关键词向量和意图向量，并对所述语句样本进行分词处理，得到词向量样本；

计算单元，用于将所述词向量样本输入所述长短时记忆网络模型进行计算，并将所述长短时记忆网络模型的输出向量输入所述注意力模型进行计算；

比较单元，用于将所述注意力模型的输出参数与所述实际的关键词向量和意图向量进行比较，根据比较结果调整所述长短时记忆网络模型和所述注意力模型的参数；

调用单元，用于重复调用所述样本获取单元、所述语句处理单元、所述计算单元和所述比较单元直至所述输出参数的准确度在预设范围内时，得到最终的深度学习联合模型。

较佳地，所述调用单元具体用于调用所述计算单元分别基于交叉熵损失函数计算每次迭代过程中获得的关键词向量和语句意图向量的第一损失和第二损失；

所述调用单元具体还用于调用所述比较单元，以当所述比较结果为所述第一损失和所述第二损失的和为最小值时，将当前的深度学习联合模型作为最终的深度学习联合模型。

较佳地，所述自然语言理解系统还包括：

语句预处理模块，用于过滤所述待理解语句以去除所述待理解语句中的停用词。

本发明的积极进步效果在于：本发明使用深度学习联合模型实现了自然语言理解，使得自然语言理解的准确率得到了大幅提升。

附图说明

图1为本发明实施例1的自然语言理解方法的流程图。

图2为图1中的步骤101的具体的流程图。

图3为本发明实施例2的自然语言理解系统的模块示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

如图1所示，本实施例的自然语言理解方法包括以下步骤：

步骤101、构建深度学习联合模型。

其中，深度学习联合模型的输入参数为语句的词向量，输出参数为语句的关键词向量(槽信息)和意图向量。

具体的，如图2所示，本实施例中，深度学习联合模型包括长短时记忆网络模型和注意力模型，步骤101包括：

步骤101-1、获取语句样本。

步骤101-2、标注语句样本的实际的关键词向量和意图向量，并对语句样本进行分词处理，得到词向量样本。

步骤101-2中，标注的语句样本的实际的关键词向量(槽向量)和意图向量可以分别存储为槽词典文件和意图词典文件。

为了便于计算，可预设词向量样本中词的个数为m，不足部分用其他字符(例如，<pad>)补充完整，若语句样本中包括n条语句，则可将语句样本的词向量的转化为m×n的矩阵，表示为[x₁,x₂,…,x_t,…]，将其作为输入参数，进行端对端模型的训练。其中，x_t表征语句样本的词向量。

本实施例中，为了提高建模的准确度同时减少计算量，在对语句样本进行分词处理的步骤之前，还包括：

过滤语句样本以去除语句样本中的停用词，也即对语句进行去噪处理。

步骤101-3、将词向量样本输入长短时记忆网络模型进行计算。

(1)设定长短时记忆网络模型(Bi-LSTM)的当前时刻遗忘门单元和输入门单元的输出分别为f_t和i_t，当前时刻cell状态的值为C_t，其中：

f_t＝σ(W_f*[h_t-1,x_t]+b_f)；

i_t＝σ(W_i*[h_t-1,x_t]+b_i)；

C_t＝tanh(W_C*[h_t-1,x_t]+b_c)；

其中，x_t为当前时刻的输入参数，h_t-1为前一时刻隐藏层的状态，W_f、W_i和W_C为遗忘门单元、输入门单元和cell状态的权值矩阵，b_f、b_i和b_c分别为遗忘门单元、输入门单元和cell状态的偏置向量，σ为sigmoid激活函数，tanh为双曲正切函数。

(2)通过公式C_t＝f_t*C_t-1+i_t*C_t更新cell的状态C_t；

(3)根据以下公式得出各个隐藏节点的输出h_t，将h_t依次连接，构成m维的特征向量：

o_t＝σ(W_o*[h_t-1,x_t]+b_o)；

h_t＝o_t*tanh(C_t)；

其中，W_o为长短时记忆网络模型的输出门单元的权值矩阵，b_o为输出门单元的偏置向量，o_t为输出门单元的输出。

(4)经过构建(1)-(3)步骤，得到正向输出fh_i。

(5)将词向量的矩阵反向经过(1)-(3)步骤，得到反向输出bh_i；

(6)将fh_i和bh_i合并得到Bi-LSTM的输出向量h_i。

步骤101-4、将长短时记忆网络模型的输出向量输入注意力模型进行计算。

其中，Bi-LSTM的输出向量序列表示为[h₁,h₂,…,h_t,…]，将其作为注意力模型(Attention)的输入，通过以下公式得到注意力向量[c₁,c₂,…,c_t,…]，与输出序列合并作为语句中每个词的槽输出向量。

其中，α_i,j为语句中的第j个词对第i个输出的attention权重参数。

同时，通过以下公式得到注意力向量[d₁,d₂,…,d_t,…]：

并通过以下公式计算出语句的意图向量：

output_intent＝W_dd_i+b_d；

其中，β_i,j为语句中的第j个词对第i个输出的attention权重参数，W_d为注意力向量序列的权值矩阵，b_d为偏置向量。

步骤101-5、将注意力模型的输出参数与实际的关键词向量和意图向量进行比较。

步骤101-6、判断输出参数的准确度是否在预设范围内。

当判断为否时，执行步骤101-7；当判断为是时，执行步骤101-8。

步骤101-7、调整长短时记忆网络模型和注意力模型的参数。并返回步骤101-1。

步骤101-8、将当前的深度学习联合模型作为最终的深度学习联合模型。

以下提供一种步骤101-5～101-8的可能实现的迭代方法：

基于交叉熵损失函数计算每次迭代过程中获得的关键词向量与实际的关键词向量的第一损失(loss1)，同时基于交叉熵损失函数计算每次迭代过程中获得的语句意图向量与实际的语句意图向量的第二损失(loss2)，使用梯度下降法使loss1+loss2最小，不断迭代训练得出最终的深度学习联合模型。也即当loss1+loss2为最小值时，将当前的深度学习联合模型作为最终的深度学习联合模型，否则继续迭代。

步骤102、获取待理解语句，对待理解语句进行分词处理得到词向量。

本实施例中，为了提供准确度同时减少计算量，在对待理解语句进行分词处理的步骤之前，还包括：

过滤待理解语句以去除待理解语句中的停用词，也即对待理解语句进行去噪处理。

步骤103、将词向量输入深度学习联合模型，计算待理解语句的关键词向量和意图向量。

步骤104、读取槽词典文件和意图词典文件，查询得出输入的待理解语句的关键词和意图(也即主题)。

本实施例中，使用深度学习联合模型实现了自然语言理解，使得自然语言理解的准确率得到了大幅提升。本发明可应用于各种领域，例如旅游领域的对话系统、客服机器人、产品售后咨询，其能准确、快速地理解用户输入的文本，或由语音转化得到的文本信息。经过比较试验，将原有传统自然语言处理方法应用于旅游领域，其中文自然语言理解的准确率仅为70％，而将本实施例的自然语言理解方法应用于旅游领域，准确率达到了95％，并且伴随语料库的增加准确率还可以获得提升。

实施例2

如图3所示，本实施例的自然语言理解系统包括：模型构建模块1、语句处理模块2、计算模块3和语句预处理模块4。

模型构建模块1用于构建深度学习联合模型。其中，深度学习联合模型的输入参数为语句的词向量，输出参数为语句的关键词向量和意图向量。

本实施例中，深度学习联合模型包括长短时记忆网络模型和注意力模型。模型构建模块1具体包括：样本获取单元11、语句处理单元12、计算单元13、比较单元14和调用单元15。

样本获取单元用于获取语句样本；语句处理单元用于标注语句样本的实际的关键词向量和意图向量，并对语句样本进行分词处理，得到词向量样本；计算单元用于将词向量样本输入长短时记忆网络模型进行计算，并将长短时记忆网络模型的输出向量输入注意力模型进行计算；比较单元用于将注意力模型的输出参数与实际的关键词向量和意图向量进行比较，根据比较结果调整长短时记忆网络模型和注意力模型的参数；调用单元用于重复调用样本获取单元、语句处理单元、计算单元和比较单元直至输出参数的准确度在预设范围内时，得到最终的深度学习联合模型。

本实施例中，语句处理单元对语句样本进行标注后，还将语句样本的实际的关键词向量(槽向量)和意图向量可以分别存储为槽词典文件和意图词典文件。

本实施例中，调用单元实现了对模型的迭代训练，具体的，调用单元用于调用计算单元分别基于交叉熵损失函数计算每次迭代过程中获得的关键词向量和语句意图向量的第一损失和第二损失；调用单元还用于调用比较单元，以当比较结果为第一损失和第二损失的和为最小值时，将当前的深度学习联合模型作为最终的深度学习联合模型。

语句处理模块2用于获取待理解语句，并对待理解语句进行分词处理得到词向量。

在进行分词处理之前，可使用语句预处理模块4过滤待理解语句以去除待理解语句中的停用词，也即对待理解语句进行去噪处理。语句处理模块则对经过去噪处理的语句进行分词处理。

计算模块3用于将词向量输入深度学习联合模型，计算待理解语句的关键词向量和意图向量。计算模块还用于读取槽词典文件和意图词典文件，查询得出输入的待理解语句的关键词和意图(也即主题)。

本实施例中，使用深度学习联合模型(只采用一种联合模型)实现了自然语言理解，可同时得出语句中的用户的意图和槽信息(关键词)，能准确且快速地对用户的问题进行响应，提升用户体验。且本实施例的自然语言理解系统的架构简单，大大降低了维护成本。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种自然语言理解方法，其特征在于，所述自然语言理解方法包括以下步骤：

2.如权利要求1所述的自然语言理解方法，其特征在于，所述深度学习联合模型包括长短时记忆网络模型和注意力模型；

步骤S₁具体包括：

获取语句样本；

将所述词向量样本输入所述长短时记忆网络模型；

3.如权利要求2所述的自然语言理解方法，其特征在于，当所述输出参数的准确度在预设范围内时，得到最终的深度学习联合模型的步骤，具体包括：

4.如权利要求1所述的自然语言理解方法，其特征在于，对所述待理解语句进行分词处理的步骤之前，还包括：

过滤所述待理解语句以去除所述待理解语句中的停用词。

5.一种自然语言理解系统，其特征在于，所述自然语言理解系统包括：

模型构建模块，用于构建深度学习联合模型；

6.如权利要求5所述的自然语言理解系统，其特征在于，所述深度学习联合模型包括长短时记忆网络模型和注意力模型；

所述模型构建模块，具体包括：

样本获取单元，用于获取语句样本；

7.如权利要求6所述的自然语言理解系统，其特征在于，所述调用单元具体用于调用所述计算单元分别基于交叉熵损失函数计算每次迭代过程中获得的关键词向量和语句意图向量的第一损失和第二损失；

8.如权利要求5所述的自然语言理解系统，其特征在于，所述自然语言理解系统还包括：