CN104572892B

CN104572892B - 一种基于循环卷积网络的文本分类方法

Info

Publication number: CN104572892B
Application number: CN201410817856.8A
Authority: CN
Inventors: 徐立恒; 刘康; 赵军; 来斯惟
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2014-12-24
Filing date: 2014-12-24
Publication date: 2017-10-03
Anticipated expiration: 2034-12-24
Also published as: CN104572892A

Abstract

本发明公开了一种基于循环卷积网络的文本分类方法，包括以下步骤：步骤1，利用双向循环网络对所有词进行上下文向量的表示；步骤2，将上下文向量及当前词的词向量组合成当前词的表示；步骤3，利用最大池化技术提取最重要的上下文信息得到文本表示；步骤4，利用文本表示进行文本分类。该方法能够较多地保留文本中的词序信息，捕捉长距离的文本依赖关系，精确刻画词的语义，并通过最大池化技术找到对文本分类影响最大的词和短语。有效地提高了文本分类的准确率。经过试验证明，本方法在多个文本分类数据集上平均提升1％。

Description

一种基于循环卷积网络的文本分类方法

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于循环卷积网络的文本分类方法。

背景技术

文本分类技术是自然语言处理中的一个重要技术，它是网页检索、情感分析、垃圾邮件识别等任务中的关键步骤。文本分类的目标是给定若干已经分类的文本集合，利用这些文本，学习一种分类方法，对于其它文本也归纳到已知的类别中。

文本分类中的关键问题在于特征表示，其中最常用的特征表示方法是词袋子模型。词袋子模型中，最常用的特征是词、二元词组、多元词组(n-gram)以及一些人工抽取的模版特征。在特征表示之后，传统模型往往使用词频、互信息、LDA等方法筛选出最有效的特征。然而，传统方法在表示文本时，会忽略上下文信息，或者说，会丢失词序信息。尽管传统特征中诸如多元词组以及更复杂的特征(如树核)也能捕获词序信息，但是这些特征往往会遇到数据稀疏问题，影响到文本分类的精度。而且人工设计特征也总是一项非常耗费时间的工作。

现已有若干基于深度神经网络技术的文本分类算法，如递归神经网络、循环神经网络、卷积神经网络。这些方法虽然可以较好地解决数据稀疏问题，但也有各自的缺陷。如递归神经网络在构建文本语义时，需要先构建一个树形结构，这个步骤可能会依赖于句法树的精度；循环神经网络在构建文本语义时，语义会偏向文本中靠后的的内容，但是实际上并非所有文本的重点信息均在最后部分；卷积神经网络在构建文本语义时需要人工设定一个窗口来捕获上下文信息，然而分类结果对窗口的大小比较敏感，如果窗口太小，保留的词序信息以及上下文依赖关系就会不足，如果窗口太大，则会引入大量噪声，对结果造成不利影响。

发明内容

为了克服现有技术存在的缺陷，本发明提出了一种基于循环卷积网络的文本分类方法，实现了对文本更加有效地分类。

本发明提出的一种基于循环卷积网络的文本分类方法，包括以下步骤：

步骤1，利用双向循环网络对所有词进行上下文向量的表示；

步骤2，将上下文向量及当前词的词向量组合成当前词的表示；

步骤3，利用最大池化技术提取最重要的上下文信息得到文本表示；

步骤4，利用文本表示进行文本分类。

优选的，步骤1所述的上下文向量的表示通过如下计算得到：

上文向量的表示的计算公式为

c_l(w_i)＝f(W^(l)c_l(w_i-1)+W^(sl)e(w_i-1))

下文向量的表示的计算公式为

c_r(w_i)＝f(W^(r)c_r(w_i+1)+W^(sr)e(w_i+1))

其中c_l(w_i)表示词w_i的上文向量的表示，c_r(w_i)表示词w_i的下文向量的表示，e(w_i)表示词w_i的词向量，W^(l)、W^(r)、W^(sl)、W^(sr)均为转移矩阵，f为非线性激活函数。

优选的，步骤2所述当前词的表示为上文向量的表示、下文向量的表示和当前词的词向量的串接，具体表示为

x_i＝[c_l(w_i)；e(w_i)；c_r(w_i)]

其中x_i为当前词的表示。

优选的，步骤3中利用最大池化技术提取最重要的上下文信息得到文本表示的方法为：将步骤2得到的当前词的表示映射到一个新的语义空间，对新语义空间中的每个向量，逐个元素求最大值，具体公式为

y_i ⁽²⁾＝tan(W⁽²⁾x_i+b⁽²⁾)

其中y_i ⁽²⁾为第i个词的隐含语义表示，y_i ⁽³⁾为整个文档的语义表示，W⁽²⁾为语义转移矩阵，b⁽²⁾为偏移项，n表示文档的长度。

优选的，在步骤4利用logistic回归对文本表示进行文本分类。

优选的，非线性激活函数f为tanh函数。

本发明采用模块化方法进行功能实现，包括词表示模块、文本表示模块、文本分类模块。词表示模块用于构建各个词的上下文信息以对词进行消歧，将上下文表示和词结合在一起表示词的语义，供文本表示模块选用；文本表示模块，用于构建整个文本的语义，利用最大池化技术选择对文本分类最重要的词及其上下文，总结出整个文本的语义表示；文本分类模块，利用logistic分类算法对文本表示进行分类。

本发明采用循环结构构建上下文语义表示，可以刻画长距离的文本依赖关系，保留更多的词序信息，同时减少数据稀疏问题，从而提升文本分类的性能。

附图说明

图1是本发明中基于循环卷积网络的文本分类方法原理图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明的基本思想是构建一个较好的上下文表示，从而得以对词进行消歧，进而得到一个好的文本表示，用于文本分类。

对于文本分类，其核心问题在于文本表示。传统方法往往会丢失词序信息，其改进方法也存在数据稀疏性问题。针对这两点，本方法提出使用循环网络对上下文进行建模，保留尽可能长的词序信息，优化当前词的表示；并使用最大池化技术抽取对文本分类最有用词和短语。

根据上述思路，本发明主要从文本分类存在的难点入手，成功地使用循环卷积网络做文本分类任务。通过实验证明，该方法有效地提高了文本分类的平均准确率。

如图1所示，该方法主要包括词义表示、文本语义表示和文本分类三个过程。具体步骤如下：

步骤1，使用双向循环网络表示所有词的上下文向量的表示。其中上文向量的表示按照以下公式计算得到：

c_l(w_i)＝f(W^(l)c_l(w_i-1)+W^(sl)e(w_i-1))

下文向量的表示按照以下公式计算得到：

c_r(w_i)＝f(W^(r)c_r(w_i+1)+W^(sr)e(w_i+1))

其中c_l(w_i)表示词w_i的上文向量的表示，c_r(w_i)表示词w_i的下文向量，e(w_i)表示词w_i的词向量，W^(l)、W^(r)、W^(sl)、W^(sr)均为转移矩阵，f为非线性激活函数，优选使用tanh函数。

步骤2，将上下文向量及当前词的词向量组合成当前词的表示。当前词的表示x_i具体表示为上文向量的表示、下文向量的表示和当前词的词向量的串接，表示公式为

x_i＝[c_l(w_i)；e(w_i)；c_r(w_i)]

步骤3，使用最大池化技术提取最重要的上下文信息得到文本表示。将步骤2得到的当前词的表示映射到一个新的语义空间，对新语义空间中的每个向量，逐个元素求最大值，计算公式为

y_i ⁽²⁾＝tan(W⁽²⁾x_i+b⁽²⁾)

步骤4，利用文本表示进行文本分类。本实施例采用logistic回归对文本表示进行文本分类。

本发明采用模块化方法进行功能实现，包括词表示模块、文本表示模块、文本分类模块，这三个模块分别为图1中的左中右三个部分。词表示模块用于构建各个词的上下文信息以对词进行消歧，将上下文表示和词结合在一起表示词的语义，供文本表示模块选用；文本表示模块，用于构建整个文本的语义，利用最大池化技术选择对文本分类最重要的词及其上下文，总结出整个文本的语义表示；文本分类模块，利用logistic分类算法对文本表示进行分类。

为了说明系统的性能，本发明做了实验来验证本方法的性能。

1)测试语料

使用20Newsgroups、复旦分类语料(Fudan Set)、ACL论文语料、情感树库(Sentiment Treebank)这四个常用的文本分类数据集进行测试。这些数据集覆盖了学科体系分类、作者母语分类、情感分类等不同分类体系。数据集语言也包括英语和汉语两种。

2)循环卷积网络的提高

通过对比循环卷积网络的结果与其他常用方法的结果来说明本方法的有效性。结果如下表：

表1循环卷积网络和其它方法结果对比

表格中最上面部分为基于词袋子的文本分类方法。中间部分为该数据集上此前的最好成绩，包括LDA、树核特征、递归神经网络等方法。从上表可以看到，相对于其他常用方法，循环卷积网络均取得了最好的成绩。

从上述实验结果可以看到，使用循环卷积网络在文本分类任务中取得了不错的效果。这个方法被证明是有效的。

本发明的借助循环卷积网络用于文本分类任务的方法，不同于传统基于人工设计特征的文本分类方法，使用神经网络自动学习特征，利用循环结构捕获了长距离的文本依赖关系，得到了较好的上下文表示，从而对词义消歧，进而表示出文本的语义。经过实验表明，对于文本分类的准确率在多个数据集上均有提升。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于循环卷积网络的文本分类方法，其特征在于，包括以下步骤：

步骤1，利用双向循环网络对所有词进行上下文向量的表示；

步骤4，利用文本表示进行文本分类。

2.根据权利要求1所述的方法，其特征在于，步骤1所述的上下文向量的表示通过如下计算得到：

上文向量的表示的计算公式为

c_l(w_i)＝f(W^(l)c_l(w_i-1)+W^(sl)e(w_i-1))

下文向量的表示的计算公式为

c_r(w_i)＝f(W^(r)c_r(w_i+1)+W^(sr)e(w_i+1))

3.根据权利要求2所述的方法，其特征在于，步骤2所述当前词的表示为上文向量的表示、下文向量的表示和当前词的词向量的串接，具体表示为

x_i＝[c_l(w_i)；e(w_i)；c_r(w_i)]

其中x_i为当前词的表示。

4.根据权利要求3所述方法，其特征在于，步骤3中利用最大池化技术提取最重要的上下文信息得到文本表示的方法为：将步骤2得到的当前词的表示映射到一个新的语义空间，对新语义空间中的每个向量，逐个元素求最大值，具体公式为

其中为第i个词的隐含语义表示，为整个文档的语义表示，W⁽²⁾为语义转移矩阵，b⁽²⁾为偏移项，n表示文档的长度。

5.根据权利要求4所述的方法，其特征在于，在步骤4利用logistic回归对文本表示进行文本分类。

6.根据权利要求5所述的方法，其特征在于，非线性激活函数f为tanh函数。