CN109857865A

CN109857865A - 一种文本分类方法及系统

Info

Publication number: CN109857865A
Application number: CN201910014972.9A
Authority: CN
Inventors: 双锴; 姚云腾; 谭逸佳
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2019-06-07
Anticipated expiration: 2039-01-08
Also published as: CN109857865B

Abstract

本发明实施例提供了一种文本分类方法及系统，方法包括：将文本分别输入第一卷积神经网络CNN模型和第一长短期记忆网络LSTM模型中，得到第一句向量和第二句向量；将所述第一句向量和第二CNN模型进行相互注意力Attention的结果，与所述第二句向量和第二LSTM模型进行相互Attention的结果进行拼接，得到目标句向量。本发明实施例提供的一种文本分类方法及系统，充分利用LSTM和CNN各自的特点，克服了已有模型捕获文本信息能力不足的特点，并且结合注意力机制，更好地完成文本分类任务。

Description

一种文本分类方法及系统

技术领域

本发明实施例涉及自然语言处理技术领域，尤其涉及一种文本分类方法及系统。

背景技术

深度学习已广泛应用到自然语言处理领域。对于非结构化的文本数据来说，传统常采用One-Hot表征单词为一个1*N(N为单词个数)的高维向量，考虑到词之间的相关性与稀疏性，目前常采用文本的分布式表示将每个词表示为D维稠密，连续的实数向量。

文本分类任务是要对给定文本进行分类，人工的做法通常是抓住中心句或者中心词，并将其归类。但在文本中每个句子的重要程度、一个句子中每个词汇的重要程度都是不一样的，每个词的重要性与其上下文有很强的相关性，故而现有的文本分类方法未能取得较好的分类效果。

因此，现在亟需一种新的文本分类方法来解决上述问题。

发明内容

为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的一种文本分类方法及系统。

第一方面本发明实施例提供一种文本分类方法，包括：

将文本分别输入第一卷积神经网络CNN模型和第一长短期记忆网络LSTM模型中，得到第一句向量和第二句向量；

将所述第一句向量和第二CNN模型进行相互注意力Attention的结果，与所述第二句向量和第二LSTM模型进行相互Attention的结果进行拼接，得到目标句向量。

第二方面本发明实施例提供了一种文本分类系统，包括：

CNN-LSTM模块，用于将文本分别输入第一卷积神经网络CNN模型和第一长短期记忆网络LSTM模型中，得到第一句向量和第二句向量；

相互Attention模块，用于将所述第一句向量和第二CNN模型进行相互注意力Attention的结果，与所述第二句向量和第二LSTM模型进行相互Attention的结果进行拼接，得到目标句向量。

第三方面本发明实施例提供了一种电子设备，包括：

处理器、存储器、通信接口和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述文本分类方法。

第四方面本发明实施例提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述文本分类方法。

本发明实施例提供的一种文本分类方法及系统，充分利用LSTM和CNN各自的特点，克服了已有模型捕获文本信息能力不足的特点，并且结合注意力机制，更好地完成文本分类任务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种文本分类方法流程示意图；

图2是本发明实施例提供的将两个LSTM进行Attention操作的基础模型示意图；

图3是本发明实施例提供的CNN和LSTM进行相互Attention的改进模型示意图；

图4是本发明实施例提供的一种文本分类系统结构示意图；

图5是本发明实施例提供的电子设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种文本分类方法流程示意图，如图1所示，包括：

101、将文本分别输入第一卷积神经网络CNN模型和第一长短期记忆网络LSTM模型中，得到第一句向量和第二句向量；

102、将所述第一句向量和第二CNN模型进行相互注意力Attention的结果，与所述第二句向量和第二LSTM模型进行相互Attention的结果进行拼接，得到目标句向量。

需要说明的是，本发明实施例是在利用了CNN模型和LSTM模型的特性的基础上，结合注意力机制得到的技术方案。卷积神经网络和循环神经网络是目前深度学习主要的架构，应用于各类自然处理任务中。卷积神经网络的特点是善于抽取局部特征，而循环神经网络的特点是善于按照序列对单元进行建模，两者之间存在着一定的差异性。这两类模型在不同的任务中的效果也不尽相同。注意力机制也普遍应用在目前的主流自然语言处理模型中，受到人类注意力机制的启发，当前时刻关注的是正在看的东西的某一个地方，当目光移向别处时，注意力随着目光的移动也在转移。在自然语言处理任务中，随着输入序列的不断增长，最终生成的句向量越来越难以捕捉整个句子的语义信息。故而本发明实施例结合注意力机制，使得模型对输入进行选择性的学习并在输出的时候将输出序列与之进行关联。

那么，本发明实施例结合上述模型和机制的特点，利用卷积神经网络善于捕捉局部信息，对于文本分类任务中具有强烈词性的词有很好的识别能力以及循环神经网络善于捕捉长期信息的特性将两者结合，从而获取更加充分的文本特征。

图2是本发明实施例提供的将两个LSTM进行Attention操作的基础模型示意图，如图2所示，首先将词向量通过LSTM-A训练出一个句向量，然后初始词向量在进入另一个LSTM-B前，首先经过一个Attention门，与得到的句向量进行Attention操作，再经过LSTM-B，得到最终输出。在训练过程中，即首先预训练LSTM-A，然后联合训练LSTM-A与LSTM-B。

那么在图2模型的基础上，本发明实施例结合CNN模型进行了改进，图3是本发明实施例提供的CNN和LSTM进行相互Attention的改进模型示意图，如图3所示，本发明实施例设计了两个Attention支路，每个支路都是CNN和LSTM相互进行Attention，最后级联输出，以便最大化结合CNN和LSTM两个模型的优点。

具体的，在步骤101中，将文本分别输入CNN-A和LSTM-A中，CNN-A即本发明实施例中的第一卷积神经网络，LSTM-A即本发明实施例中的第一长短期记忆网络，然后分别获取两条支路上的文本表征，在本发明实施例中具体为第一句向量和第二句向量。

紧接着在步骤102中，将CNN-A得到的文本向量与LSTM-B进行Attention，LSTM-B即本发明实施例所述的第二LSTM模型，并将LSTM-A得到的文本向量与CNN-B进行Attention，CNN-B即本发明实施例所述的第二CNN模型，最后把两者互相Attention的结果拼接作为最后的句向量，最后的句向量即本发明实施例中的目标句向量。可以理解的是，卷积神经网络有助于捕捉局部信息，善于抽取位置不变特征，对于文本中的关键词和带有显著极性的词组有较好的识别能力，适合短文本处理。采用卷积神经网络可以实现完全并行化计算，极大地提高了运算效率，而长短期记忆网络能够有效捕捉整个文本的信息，有助于获得整个文本较为复杂的语义信息，适合长文本处理，本发明实施例将二者结合，从而保证了在提取文本特征的过程中充分利用到CNN和LSTM两者的优点。

具体操作时，本发明实施例在数据集中选择指定size的数据来进入模型进行训练，用to_use来标识整个网络的三个部分。

首先to_use＝1时，预训练一个CNN-A网络，并将数据源通过CNN-A网络得到的句向量Pre-train-CNN保存在文件里。

接着当to_use＝2时，预训练一个LSTM-A网络，并将数据源通过LSTM-A网络得到的句向量Pre-train-LSTM保存在文件里。

最后当to_use＝3时，模型读入训练好的Pre-train-CNN向量并与LSTM-B网络进行Attention。然后读入训练好的Pre-train-LSTM向量与CNN-B网络进行Attention。利用Concat使得到的两个向量在对应维度上拼接，采用Softmax函数对输出结果进行归一化，计算损失函数，最后对通过网络表征出的句向量进行可视化比较，可以看出不同网络对于句子中情感词的挑选与其相应得分。

本发明实施例提供的一种文本分类方法，充分利用LSTM和CNN各自的特点，克服了已有模型捕获文本信息能力不足的特点，并且结合注意力机制，更好地完成文本分类任务。

在上述实施例的基础上，所述方法还包括：

对文本进行预处理，得到词向量；

基于所述词向量，训练得到所述第一CNN模型和所述第一LSTM模型。

由上述实施例的内容可知，本发明实施例需要预训练一个第一CNN模型和一个第一LSTM模型。那么实质上本发明实施例需要对训练文本进行预处理，得到文本中的词向量。

具体的，对于输入的文本序列，通过预先设定的字典将每个单词映射到对应的id上，同时初始化一个词向量矩阵，通过look_up_table操作得到每个单词对应的固定维度的词向量的值。

例如：设定训练集batch_size＝64，测试集batch_size＝200。

训练数据文本为train.txt，测试数据文本为test.txt。根据训练集中的单词，构建出每个单词对应的id，通过process_data()将每个句子映射到对应的id列表上，作为网络最底层的输入。初始化一个词向量矩阵W^|V|*D。|V|表示训练集中不同单词的个数，D代表词向量的维度。process_data()得到的句子id表示通过取得词向量对应索引的值作为整个网络的输入。

在上述实施例的基础上，所述基于所述词向量，训练得到所述第一CNN模型和所述第一LSTM模型，包括：

将所述词向量作为输入，所述文本中句子对应的标签作为真实值进行训练，得到所述第一CNN模型和所述第一LSTM模型。

将得到的词向量作为输入，每个句子所对应的标签label作为真实值，训练得到一个CNN，保留CNN的相关参数，从而完成对第一CNN模型的预训练。

同样的，将得到的词向量作为输入，每个句子所对应的标签label作为真实值，训练得到一个LSTM，保留LSTM的相关参数，从而完成对第一LSTM模型的预训练。

在上述实施例的基础上，所述进行相互Attention具体包括：

根据共享参数和联合训练策略的选择情况，确定进行Attention的位置；

在所述位置对所述词向量的语义信息进行Attention。

由上述实施例的内容可知，本发明实施例进行了Attention操作，而在本发明实施例提供的Attention操作中，需要确定共享参数和联合训练策略的选择情况，从而根据不同的选择情况完成不同的训练。

首先，需要确定是否共享参数，在LSTM-A、LSTM-B、CNN-A、CNN-B中的参数均不同，本发明实施例通过在Scope中对其进行相同的命名，可以共享LSTM或者CNN的网络参数。

其次，需要确定是否使用联合训练策略，若不选择联合训练，则将通过预训练CNN-A和LSTM-A得到的句向量保存并不变，然后不断地训练CNN-B和LSTM-B。若采用联合训练，则在CNN-A和LSTM-A的训练过程中加入LSTM-B和CNN-B的训练，分配两者的训练损失。

当明确了共享参数和联合训练策略的选择情况，就可以通过修改进行Attention的位置，对输入词的语义信息进行Attention。图1的实施例中是对输入词向量进行Attention，如果对输入词的语义信息进行Attention，则对输入词向量经过LSTM和CNN得到的隐藏层进行加权求和，从而对Attention的位置进行修改。进一步的，本发明实施例还在训练过程的损失函数中加入了KL散度信息，从而能够更好表征损失函数。

在上述实施例的基础上，所述得到目标句向量包括：

基于预设的归一化函数，获取所述目标句向量对应每一类别的概率分布。

由上述实施例的内容可知，本发明实施例能够从LSTM-B和CNN-B得到的两个句向量进行拼接得到最终的句向量。那么为了将最后的输出维度映射到我们所需要的分类个数上，本发明实施例采用Softmax函数将输出分布归一化，利用损失函数计算损失，进行反向传播优化网络参数，最终获得输出句向量所对应每一类别的概率分布。

图4是本发明实施例提供的一种文本分类系统结构示意图，如图4所示，包括：CNN-LSTM模块401以及相互Attention模块402，其中：

CNN-LSTM模块401用于将文本分别输入第一卷积神经网络CNN模型和第一长短期记忆网络LSTM模型中，得到第一句向量和第二句向量；

相互Attention模块402用于将所述第一句向量和第二CNN模型进行相互注意力Attention的结果，与所述第二句向量和第二LSTM模型进行相互Attention的结果进行拼接，得到目标句向量。

具体的如何通过CNN-LSTM模块401以及相互Attention模块402进行文本分类可用于执行图1所示的文本分类方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本发明实施例提供的一种文本分类系统，充分利用LSTM和CNN各自的特点，克服了已有模型捕获文本信息能力不足的特点，并且结合注意力机制，更好地完成文本分类任务。

在上述实施例的基础上，所述系统还包括：

预处理模块，用于对文本进行预处理，得到词向量；

预训练模块，用于基于所述词向量，训练得到所述第一CNN模型和所述第一LSTM模型。

在上述实施例的基础上，所述预训练模块包括：

训练单元，用于将所述词向量作为输入，所述文本中句子对应的标签作为真实值进行训练，得到所述第一CNN模型和所述第一LSTM模型。

在上述实施例的基础上，所述相互Attention模块具体包括：

确定单元，用于根据共享参数和联合训练策略的选择情况，确定进行Attention的位置；

Attention单元，用于在所述位置对所述词向量的语义信息进行Attention。

在上述实施例的基础上，所述得到目标句向量包括：

归一化单元，用于基于预设的归一化函数，获取所述目标句向量对应每一类别的概率分布。

本发明实施例提供一种电子设备，包括：至少一个处理器；以及与所述处理器通信连接的至少一个存储器，其中：

图5是本发明实施例提供的电子设备的结构框图，参照图5，所述电子设备，包括：处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和总线504，其中，处理器501，通信接口502，存储器503通过总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令，以执行如下方法：将文本分别输入第一卷积神经网络CNN模型和第一长短期记忆网络LSTM模型中，得到第一句向量和第二句向量；将所述第一句向量和第二CNN模型进行相互注意力Attention的结果，与所述第二句向量和第二LSTM模型进行相互Attention的结果进行拼接，得到目标句向量。

本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：将文本分别输入第一卷积神经网络CNN模型和第一长短期记忆网络LSTM模型中，得到第一句向量和第二句向量；将所述第一句向量和第二CNN模型进行相互注意力Attention的结果，与所述第二句向量和第二LSTM模型进行相互Attention的结果进行拼接，得到目标句向量。

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：将文本分别输入第一卷积神经网络CNN模型和第一长短期记忆网络LSTM模型中，得到第一句向量和第二句向量；将所述第一句向量和第二CNN模型进行相互注意力Attention的结果，与所述第二句向量和第二LSTM模型进行相互Attention的结果进行拼接，得到目标句向量。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行每个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对文本进行预处理，得到词向量；

3.根据权利要求2所述的方法，其特征在于，所述基于所述词向量，训练得到所述第一CNN模型和所述第一LSTM模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述进行相互Attention具体包括：

在所述位置对所述词向量的语义信息进行Attention。

5.根据权利要求4所述的方法，其特征在于，所述得到目标句向量包括：

6.一种文本分类系统，其特征在于，包括：

7.一种电子设备，其特征在于，包括存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。

8.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至5任一项所述的方法。