CN108829823A

CN108829823A - 一种文本分类方法

Info

Publication number: CN108829823A
Application number: CN201810605919.1A
Authority: CN
Inventors: 吕学强; 董志安
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2018-11-16

Abstract

本发明涉及一种采用一种改进输入的Attention‑Based LSTM模型来进行高校学术活动的文本分类工作，采用字符级语言模型，对输入进行五笔码转化，随后进行文本数据向量表示，再输入Attention‑Based LSTM模型进行分类。本发明提供的文本分类方法，利用改进输入的Attention‑Based LSTM特征选择模型进行特征选择和分类，能够改善数据质量，降低数据维度，并有效地突出重点信息，优化特征向量，分类结果的准确率、召回率和F值都很高，可以很好地满足实际应用的需要。

Description

一种文本分类方法

技术领域

本发明属于文本分类技术领域，具体涉及一种高校学术活动的文本分类方法。

背景技术

伴随信息技术的发展和大数据时代的到来，各大高校对打造“智慧校园”的需求不断增长。高校在举办不同类型的学术活动之前会在官网上发布通知公告。准确高效地抽取出学术活动通知公告的相关内容，并将学术活动分类统计，能够有效地整理、组织、查阅学术活动相关信息。因此针对高校学术活动进行文本分类是十分重要的。

文本分类是自然语言处理中的基本任务之一。文本分类是指计算机将一篇文章归于预先给定的某一类或某几类的过程。机器学习自90年代被应用于文本分类以来，以其强大的适应能力获得了突出的效果。目前，用于文本分类的机器学习算法有很多，例如，朴素贝叶斯算法、K最近邻算法、支持向量机(Support Vector Machine，SVM)等。近年来深度学习在图像分类等领域取得了很大的进展，研究者们逐渐尝试在自然语言处理领域使用深度学习技术。最常见的是循环神经网络(Recurrent Neural Network，RNN)，循环神经网络能够使用上下文信息，在解决序列化的问题上有突出的效果，在自然语言处理领域应用广泛，然而RNN具有梯度爆炸和消失问题，而且在长序列的处理问题上表现不理想。通常的文本分类以新闻文本分类为主。新闻文本的数据获取较为容易。新闻文本在分类体系的选择上具有较大的随意性，分类类别并不固定。而高校学术活动文本的领域性较强，类别较为固定。与通常的文本分类不同，学术活动文本数据集的获取是非常困难的，因为研究者较少，互联网上也没有公开的数据集。总体来说，现有技术的文本分类方法尤其是高校学术活动的文本分类方法的分类结果的准确率、召回率和F值不高，不能很好地满足实际应用的需要。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种可避免出现上述技术缺陷的文本分类方法。

为了实现上述发明目的，本发明提供的技术方案如下：

一种文本分类方法，采用Attention-Based LSTM模型来进行文本分类。

进一步地，所述文本分类方法包括以下步骤：

步骤1)文本预处理；

步骤2)对预处理后的文本数据进行向量表示；

步骤3)将所述向量输入Attention-Based LSTM模型进行分类。

进一步地，所述步骤1)具体为：提取标题和正文信息，再依据内容是否固定进行不同的文本数据编码工作，采用字符级语言模型，对输入进行五笔码转化。

进一步地，所述步骤2)具体为：为每类数据分配一个维度进行向量表示，通过五笔字型码转换，每个中文字符平均转化为3个英文字符，为此类数据每类分配1000维进行向量表示，多于1000维的截断，少于1000维的在末尾补0。

进一步地，所述步骤2)中，文本数据向量为：

X＝{x₁，x₂，x₃，x₄，x₅，…，x_T}；

其中，X为文本总体的输入向量；x₁为主讲人分量；x₂为时间分量；x₃为地点分量；x₄为主办单位分量；x₅，......，x_T分量为题目和介绍部分的内容。

进一步地，所述步骤3)具体为：将编码时的隐藏向量序列h₁，h₂，h₃，……，h_T按权重α_ki相加获得语义编码C；LSTM模型的输入即为包含注意力影响因子的语义编码C和最终节点的输入x_T，输出为最后的特征向量h_T’；

α_ki表示历史输入的隐藏状态对当前输入的注意力权重；C是语义编码；输入序列X＝{x₁，x₂，x₃，…，x_T}是文章的向量表示，其中x_i为1维的输入向量；h₁，h₂，h₃，……，h_T是对应于输入序列x₁，x₂，x₃，……，x_T的隐藏层状态值；h_T是对应于输入x_T的隐藏层状态值；最后节点的隐藏层状态值h_T’为最终的特征向量。注意力权重α_ki为：

f_ki＝ν tanh(Wh_T+Uh_i+b)；

语义编码C由编码时的隐藏向量序列h₁，h₂，h₃，……，h_T按权重相加得到，语义编码C为：

最后的特征向量h_T’即最后节点的隐藏向量，最后的特征向量h_T’为：

h_T′＝H(C，h_T，x_T)。

进一步地，提取标题和正文信息包括以下步骤：

通过提取<h1>、<h2>、<h3>标签中内容来提取标题；

通过提取<p>标签中的内容来提取正文；

对于没有<p>标签的页面，使用<span>标签来提取正文内容；

若<p>标签或<span>标签中还有其他标签，去除这些标签，只保留其中的文本信息。

进一步地，文本分类的过程是一个集合映射的过程，用形式化的方式表示为：

f：D→C；

D表示一组文本数据集合D＝{d₁，d₂，…，d_n}，C表示一组定义好的类别集合C＝{c₁，c₂，…，c_m}，f为C与D之间的映射函数，称为分类器。

本发明提供的文本分类方法，利用改进输入的Attention-Based LSTM特征选择模型进行特征选择和分类，能够改善数据质量，降低数据维度，并有效地突出重点信息，优化特征向量，分类结果的准确率、召回率和F值都很高，可以很好地满足实际应用的需要。

附图说明

图1为高校学术活动文本分类整体流程图；

图2为文本预处理流程图；

图3为文本分类映射模型图；

图4为基于Attention Model的LSTM模型结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明采用一种改进输入的Attention-Based LSTM模型来进行高校学术活动的文本分类工作。在本发明中采用字符级语言模型，对输入进行五笔码转化，随后进行文本数据向量表示，再输入Attention-Based LSTM模型进行分类。

高校学术活动文本分类的整体流程如图1所示。

高校学术活动的文本数据是从某高校网站上爬取获得的。如何去掉标签、广告、导航栏内容等无关信息，只提取标题和正文内容是爬取工作的首要任务。通过大量观察网站上的学术活动网页源代码，可以发现高校官网内容的组织形式都比较规范，绝大多数的正文内容可以在<p>标签中找到，而标题在几乎都存在于<h>标签中。基于上述情况，在本发明中采用如下规则用于提取标题和正文信息：

通过提取<h1>、<h2>、<h3>标签中内容来提取标题；

通过提取<p>标签中的内容来提取正文；

对于没有<p>标签的页面，使用<span>标签来提取正文内容；

部分学术活动页面的正文内容在页面上的word或pdf附件中。对于有附件的页面，可以通过直接提取附件中的文本内容来提取正文。

通过上述规则和提取附件内容的方法，学术活动的标题和正文被高质量地爬取下来。同时去除了页面内容中的非文本信息(如图像)，有效地改善了文本数据的质量。在本发明中的文本预处理流程图如图2所示。

文本分类的过程实质上是一个集合映射的过程，用形式化的方式可以表示为：

f：D→C (1)；

式中，D表示一组文本数据集合D＝{d₁，d₂，…，d_n}，C表示一组定义好的类别集合C＝{c₁，c₂，…，c_m}，f为C与D之间的映射函数，一般被称为分类器。分类映射如图3所示。

高校学术活动文本同一般文本相比有内容长短不固定、格式严格、专业术语多等特点，所以首先要进行文本预处理工作，提取标题和正文信息，再依据内容是否固定进行不同的文本数据编码工作。对预处理后的数据进行向量表示，然后运用Attention-BasedLSTM模型来选取特征，再训练分类器。分类器训练完毕后，输入测试数据，对产生的分类结果进行评价，并根据评价结果对该系统进行分析和改进。

大量观察高校学术活动语料可以发现，学术活动一般包括题目、主讲人、时间、地点、主办单位、介绍等几个方面的内容。其中主讲人、时间、地点、主办单位属于内容相对固定的实体类型，而题目和介绍属于内容不固定的实体类型。

根据高校学术活动语料的特点，采用命名实体识别技术识别学术活动文本中内容相对固定的实体，如：主讲人、时间、地点、主办单位。为了达到降低数据维度的目的，需要为每类实体单独建立一个ID编码库，使每个特定实体都有唯一编码与之相对应。

对于题目和介绍这类内容不固定的实体，在去停用词后将其翻译成五笔字型码。采用这种方法使每一个汉字对应于一个唯一的英文字符串，如例1所示。该方法无需对中文分词，所以避免了分词不准确对后续分类工作带来的负面影响。采用该方法的另一个好处是该方法可以将中文数据转化为英文的形式，作为字符级语言模型的输入，英文语料相比中文语料可以得到更好的效果。自然语言处理模型中单词级模型效果很好，但由于中文语料与英文语料在连贯问题上存在着天然的差异，需要进行中文分词才可以将单词级语言模型应用于中文。然而中文分词的准确率影响着最终的分类结果，采用字符级模型可以很好地解决这个问题。由于字符级语言模型比单词级语言模型保留了更多的原始信息，随着神经网络模型的发展以及计算能力的提高，字符级语言模型的效果更好。然而将一个中文汉字当做一个字符输入字符级语言模型会导致很多问题，实验效果相比英文语料来说并不理想，所以需要先将中文汉字转化为五笔字型码，输入模型计算后再将五笔字型码转换回汉字。

例1

主讲简介：

韩红梅老师毕业于北京师范大学计算机科学学院，教育技术专业硕士研究生，讲师，首都师范大学计算机设计大赛负责人。主要讲授《网站的设计与制作》、《课件的设计与制作》、《计算机教育》、《计算机应用基础》及《通用技术基础》等课程。

y yfj tuj wj：

fjfhf xa stx ftx jgm xxf og gf ux yiu jgm aib dd ip yf tha sm tu ipip bpf，ftbt yce rfc sy fny og ddm fghg dga pwv tg，yfj jgm，uth ftjb jgm aib ddip yf tha sm ymc yf dd pfjml qm gmup w.y s yfj rep《mqq uh r ymc yf gn rmhjwt》、《yjs wrhe r ymc yf gn rmhj wt》、《yf tha sm ftbt yce》、《yf tha sm yid et addbm》ey《cep et rfc sy ad dbm》tffu yjs tkgg.

在本发明中，文本分类系统采用字符级语言模型作为输入，对预处理中生成的编码和字符进行向量化。主讲人、时间、地点、主办单位这些类别中的每个特定实体都有唯一的ID编码与之相对应，所以为每类数据分配一个维度进行向量表示。经过对大量语料的分析，可以发现题目和介绍这类内容不固定的类别的文本长度平均在300字左右，通过五笔字型码转换，每个中文字符平均转化为3个英文字符。所以需要为此类数据每类分配1000维进行向量表示，多于1 000维的截断，少于1 000维的在末尾补0。综上所述，文本数据向量为：

X＝{x₁，x₂，x₃，x₄，x₅，…，x_T} (2)；

式中，X为文本总体的输入向量；x₁为主讲人分量；x₂为时间分量；x₃为地点分量；x₄为主办单位分量；x₅，......，x_T分量为题目和介绍部分的内容。

在本发明中，在LSTM模型的基础上结合了注意力模型(Attention Model)思想，Attention Model在产生输出时还会产生“注意力区域”来表示下个输出要重点关注输入序列中的哪些部分，然后根据关注的区域来产生下一个输出。Attention Model是从认知心理学中引入的概念，它的原理是将注意力区域放在重要部分上。它是一种资源分配模型，能够合理分配计算资源，减小甚至忽略非关键因素的影响。基于Attention Model的LSTM模型结构如图4所示。

在图4中α_ki表示历史输入的隐藏状态对当前输入的注意力权重；C是语义编码；输入序列X＝{x₁，x₂，x₃，…，x_T}是文章的向量表示，其中x_i为1维的输入向量；h₁，h₂，h₃，……，h_T是对应于输入序列x₁，x₂，x₃，……，x_T的隐藏层状态值；h_T是对应于输入x_T的隐藏层状态值；最后节点的隐藏层状态值h_T’为最终的特征向量。注意力权重α_ki为：

f_ki＝ν tanh(Wh_T+Uh_i+b) (4)；

h_T′＝H(C，h_T，x_T) (6)。

Attention-Based LSTM模型输入序列对最终状态的注意力权重分布的计算过程如下：将编码时的隐藏向量序列h₁，h₂，h₃，……，h_T按权重α_ki相加获得语义编码C。LSTM模型的输入即为包含注意力影响因子的语义编码C和最终节点的输入x_T，输出为最后的特征向量h_T’。通过计算输入序列的隐藏向量h₁，h₂，h₃，……，h_T对整个文档的注意力分配，使得重点信息的作用更显著，减小甚至忽略非重点信息对于整个语篇的影响。而最后的特征向量h_T’包含了历史输入的隐藏状态的权重，从而突出了重点信息，优化了特征向量。

本发明将Attention模型中最后生成的特征向量h_T’输入Softmax分类器来处理分类问题。Softmax分类器是逻辑回归二分类器泛化到多分类的情形，以多项式分布为模型建模，计算简单，效果显著，适用于本文的高校学术活动文本分类工作。

本发明提供的文本分类方法，基于改进输入的Attention-Based LSTM特征选择模型，可以学习长期依赖信息，有效地解决了信息冗余问题，能有效防止信息丢失；由于引入了Attention机制，本方法更有效地突出了重点信息，从而可以在特征选择方面取得更好的效果；本方法的准确率、召回率和F值较高；改进输入的Attention-Based LSTM特征选择模型采用了字符级模型，无需中文分词，避免了分词不准确所带来的负面作用，从而有效地降低了数据维度，改善了数据质量，取得了更好的效果；本发明的方法中使用了字符级语言模型，保留了更多的原始信息，达到了改善文本数据质量，降低数据维度，有效地突出重点信息的目的，在高校学术活动文本分类问题上能获得更好的分类结果。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种文本分类方法，其特征在于，采用Attention-Based LSTM模型来进行文本分类。

2.根据权利要求1所述的文本分类方法，其特征在于，所述文本分类方法包括以下步骤：

步骤1)文本预处理；

步骤2)对预处理后的文本数据进行向量表示；

步骤3)将所述向量输入Attention-Based LSTM模型进行分类。

3.根据权利要求1-2所述的文本分类方法，其特征在于，所述步骤1)具体为：提取标题和正文信息，再依据内容是否固定进行不同的文本数据编码工作，采用字符级语言模型，对输入进行五笔码转化。

4.根据权利要求1-3所述的文本分类方法，其特征在于，所述步骤2)具体为：为每类数据分配一个维度进行向量表示，通过五笔字型码转换，每个中文字符平均转化为3个英文字符，为此类数据每类分配1000维进行向量表示，多于1000维的截断，少于1000维的在末尾补0。

5.根据权利要求1-4所述的文本分类方法，其特征在于，所述步骤2)中，文本数据向量为：

X＝{x₁，x₂，x₃，x₄，x₅，…，x_T}；

6.根据权利要求1-4所述的文本分类方法，其特征在于，所述步骤3)具体为：将编码时的隐藏向量序列h₁，h₂，h₃，……，h_T按权重α_ki相加获得语义编码C；LSTM模型的输入即为包含注意力影响因子的语义编码C和最终节点的输入x_T，输出为最后的特征向量h_T’；

f_ki＝v tanh(Wh_T+Uh_i+b)；

h_T′＝H(C，h_T，x_T)。

7.根据权利要求1-6所述的文本分类方法，其特征在于，提取标题和正文信息包括以下步骤：

通过提取<h1>、<h2>、<h3>标签中内容来提取标题；

通过提取<p>标签中的内容来提取正文；

对于没有<p>标签的页面，使用<span>标签来提取正文内容；

8.根据权利要求1-7所述的文本分类方法，其特征在于，文本分类的过程是一个集合映射的过程，用形式化的方式表示为：

f：D→C；