CN103605702A

CN103605702A - 一种基于词相似度的网络文本分类方法

Info

Publication number: CN103605702A
Application number: CN201310552098.7A
Authority: CN
Inventors: 陆月明; 马晶; 陈贤
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2013-11-08
Filing date: 2013-11-08
Publication date: 2014-02-26

Abstract

本发明一种基于词相似度的网络文本分类方法，包括网络文本预处理模块、文本分词模块、词袋模型模块、文本空间向量表示模块、分类结果计算模块五个模块。本发明能够实现对网络文本进行规范化预处理、去除无意义停用词及标点符号、分类类别确定、特征词-类别相关度计算、组成词袋模型、文本转换为空间向量、计算文本所属类别等功能，完成文本类别特征的抽取和量化分析，对语料库处理、自动文摘、信息过滤以及信息检索等具有重要的作用。

Description

一种基于词相似度的网络文本分类方法

技术领域

本发明涉及一种基于词相似度的网络文本分类方法,本发明采用计算词与类别相关度技术实现对文本的分类或文本的主题挖掘，应用于语料库处理、自动文摘、信息过滤以及信息检索和数据挖掘等领域，属于信息领域和自然语言处理领域。

背景技术

随着万维网上及企业内部的可用信息的不断增长，人们越来越希望能更好的搜索、过滤、管理这些信息资源。文本分类简单来说，就是根据内容把自然语言文本划分到预先定义的类别中去的过程。它作为某些信息组织与管理的一个重要组成部分，也因此引起人们的关注与研究。

随着互联网的迅速发展，面向重要网络媒体海量发布信息实现智能分类，对于网络信息监管、舆论引导工作有着深远的意义。那么如何通过有效的计算机辅助手段来对网络上海量文本信息量按照一定的主题类别进行自动分类和主题挖掘是我们关注的焦点。

目前的文本分类方法大多是基于Salton等人在70年代提出的向量空间模型（VSM），这种方法计算简单有效，因此得到了广泛应用，但这种方法在文本表示时向量空间维数会达到上千维，大量的计算使分类器效率难以提高。另外，向量空间模型往往结合一些机器学习算法来解决文本自动分类问题，常用的算法有：决策树、人工神经网络、KNN法、SVM法、Boosting方法、Bayes法和基于规则的方法等等。但是这些算法需要使用大量语料进行训练来得到分类模型，由于网络文本数据浩大，结构千差万别，因此该方式往往存在时间复杂度和空间复杂度较大的缺点。针对上述的问题，我们提出了一种基于词相似度的网络文本分类方法，能有效应对海量网络文本处理过程中的效率问题。

本专利提出将计算词与类别相关度技术应用于对网络文本的自动分类，我们首先利用词向量空间模型WVSM理论，将词表示成空间向量，即将m个类别组成m维的欧式空间，例如若有m个类别C₁,C₂,…,C_m，则每一特征词T_i可表示成一m维向量(W₁,W₂,…,W_m)，其中W_j为词T_i与类别j的相关度。通过对已标识类别样本进行训练生成特征词-类别相关度矩阵A，矩阵中每一个元素a_ij表示特征词T_i对类别C_j的支持度（相关度），取得最大的支持度max_j C_j及其对应类别j，组成词袋模型。下面以二维向量做详细说明。

若类别C={体育，军事}，训练文本集经处理后得到特征词集T={(T₁:足球),(T₂:飞机)}，T₁、T₂的向量分别为(0.9000,0.0200),(0.0100,0.8000)，比较后可以看出特征词T₁趋向于类C₁,T₂趋向于类C₂。因此我们将足球和0.9000写入词袋模型中的“体育”类别下，将飞机和0.8000写入“军事”类别下。

下面实现对位置类别文本的自动分类，我们将所获取的网络文本进行过滤和分词后,根据文本中是否出现词袋模型中的词项将文本转换为空间向量，用W={w₁,w₂,…,w_n}表示，其中n代表该文本可被划分为n个类别，W_i代表该文本关于第i类的特征向量，且

m代表对于第i类，文本中共有m个词袋中出现的词项，k_j代表第j个特征词与类别i的相关度。（例如某个文本对于“体育”这个类别，有“田径”这个相关词，并且该词与“体育”的相关度为0.8，因此我们就将0.8写入到代表“体育”维度的向量中）。最后对每个维度向量求加权和记为W={w₁,w₂,…,w_n}，其中

并取最大值max_i w_i所对应的类别i作为该文本所属类别及其主题。

发明内容

本发明“一种基于词相似度的网络文本分类方法”旨在提供一种基于计算词与类别关联度技术实现网络文本分类的方法，该方法包括五个模块：文本预处理模块、文本分词模块、词袋模型模块、文本向量表示模块、分类结果计算模块。该方法改善了现有文本分类方法中准确度不高、效率低下的问题。下面详细介绍本发明的结构和组成部分、词袋模型和向量表示、分类结果计算、各执行步骤。

1.本发明的结构和组成部分

本发明“一种基于词相似度的网络文本分类方法”的结构和模块组成如错误!未找到引用源。所示，本发明包括五个模块：文本预处理模块、文本分词模块、词袋模型模块、文本向量表示模块、文本分类结果计算模块。下面就各模块作具体说明：

(1)文本预处理模块：该模块将网络文本（例如网页、文档和微博等）进行规范化预处理，去除格式不规范的HTML符号等冗余文本信息。

(2)文本分词模块：该模块对文本进行分词处理，英文分词可直接根据空格符分割，中文分词需要借助专用的分词软件，分词后过滤无意义的停用词以及标点符号等无意义成分。

(3)词袋模型模块：通过对已标识类别样本进行训练生成特征词-类别相关度矩阵，通过比较取得每个特征词与类别相关度的最大值及类别，并将所有特征词及其类别相关度组成词袋模型。

(4)文本向量表示模块：该模块通过分类别使用词袋模型，检索待分类文本词项，若对于某个类别，文本中存在词袋模型中的词项，则将该词项的类别相关度写入文本空间向量的对应维度。

(5)分类结果计算模块：该模块通过分析文本空间向量，取得向量中加权数值最大的维度，该维度对应的类别即为文本分类的输出结果。

2.本发明的词袋模型和文本向量表示

本发明“一种基于词相似度的网络文本分类方法”的词袋模型组成如图3所示。对于特定文本，根据文本来源、范围等方面确定文本分类的范围，如政治、体育、经济、农业、环境、航天、艺术、体育、医药、交通；或者矿业、军事、计算机、电子、通信、能源、哲学、历史、法律、文学；等等其他的分类方式。

通过对已标识类别样本进行训练生成特征词-类别相关度矩阵A，从而将词表示成空间向量，即若有m个类别，则每个特征词可表示为m维向量，每个维度代表该特征词与每个类别的相关度。取m维向量中的最大值及其所对应的类别，从而得到所有特征词所属类别及其类别相关度，并组成词袋模型。如对于“通信”类别，得到特征相关词有{中国联通：0.93；中国移动：0.97；中国电信：0.95；网络容量：0.83；天线：0.89；信号：0.91；…}

文本向量表示是指将实际的文本内容变成机器内部表示结构，可以用字、词、短语、n-Gram等形成向量或树等结构。文本表示方法可以使用VSM（vector space model），若文本中出现词袋中某类别的词项，则将该词项的相关度写入空间向量。

3.本发明的分类结果计算

本发明“一种基于次相似度的网络文本分类方法”在输出最终的分类结果时，需要分析得到的空间向量，找出向量中最突出的类别。对于一个n维的空间向量W={w₁,w₂,…,w_n}，

我们将每个类别对应的向量归一化令

得到加权值w_i，从而将该多维空间向量转换成横向量W={w₁,w₂,…,w_n}，比较找出横向量中的最大w_i值所对应的维度，该维度即为文本所属的类别。例如，待分类文本的分类范围是：艺术、历史、数学，对于某一文本的空间向量：W={w₁,w₂,w₃}，其中

将其转换为横向量为：W={0.9+0.7+0.8,0,0.6}即W={2.4,0,0.6}。该横向量中最大值为2.4，所对应的类别为第一个类别，故该文本输出类别为“艺术”。

本发明的有益效果是，能比较准确并有效地得到网络文本的分类以及主题。而且该方法的时间复杂度和空间复杂度都比较小。

4.本发明各步骤的执行流程

本发明“一种基于词相似度的网络文本分类方法”各步骤的执行流程分五步骤，各步骤的执行编号如图2所示。下面详细解释五步骤的执行情况：

(1)文本预处理：文本预处理该模块将网络文本（例如网页、微博、文档文件等文本）进行规范化预处理，该模块去除格式不规范的网络符号、HTML标记等冗余文本信息。

(2)网络文本分词：对预处理后的文本进行分词，对于得到的分词结果去除无意义的停用词以及标点符号等，针对文本的来源、用途等信息，确定分类范围。

(3)词袋模型组成：通过对已标识类别样本进行训练生成特征词-类别相关度矩阵，比较得到每个特征词与类别的最大相关度及其类别，并将结果保存为词袋模型。

(4)文本空间向量表示：将文本转换为空间向量，向量维度由文本待划分类别决定，对于每一个类别，通过词袋模型，以类别关键词出现与否为特征，以关键词的类别相关度为特征值，得到文本的空间向量。

(5)分类结果计算：分类结果模块依次处理空间向量的每个维度，将每个类别向量归一化，求得加权值，并取得加权值最大类别对应的类别，将此类别作为分类的输出结果。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1本发明的结构和模块组成

图2本发明的执行流程标号

图3本发明的词袋组成流程

图4本发明各步骤的执行流程

图5网络文本分类系统验证

5.具体实施方式

下面将结合本发明实施例中的附图，给出几个实例，具体分析展示本发明的技术要点。显然，所描述的实施例也仅仅是本发明的一部分实施例，而不是全部实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

例如，对于得到的大量网络文本，我们首先根据其来源及用途等方面确定其分类范围：{经济农业环境艺术体育医药交通哲学历史法律航天军事}，即我们的最终目的是将这大量文本语料自动归为这12类。然后将该文本语料进行分词以及去除无意义的冗余信息操作，对已标注类别的样本进行训练得到特征词-类别相关度矩阵，通过比较组成词袋模型，例如：对于“艺术”这一类别，得到部分词袋表如下：

艺术：1.0巴洛克：0.796哥特式：0.684古典：0.874维也纳：0.794装饰：0.691风格：0.703设计：0.821美术：0.846…

然后则根据词袋模型将文本语料转换为向量并归类，下面则举例说明文本转换为向量以及文本归类的过程。

(1)例子：羽毛球是一项隔着球网，使用长柄网状球拍击打平口端扎有一圈羽毛的半球状软木的室内运动。依据参与的人数，可以分为单打与双打。相较于性质相近的网球运动，羽毛球运动对选手的体格要求并不很高，却比较讲究耐力，极适合东方人发展。自1992年起，羽毛球成为奥运会的正式比赛项目。

本发明的执行流程实例为：

对于“体育”这一类别来说，该文本含有词袋模型中的词项及其相关度有：羽毛球1.0球拍0.97击打0.54运动1.0单打0.98双打0.98网球1.0选手0.95体格0.65耐力0.55奥运会0.99比赛1.0同理对于“”哲学“类别，则含有：性质0.74讲究0.42东方人0.36对于“环境”类别，含有：室内0.69，对于其他几个类别，则并不含有相关词项。依据该特征，设该文本的特征向量为：W={w₁,w₂,…,w₁,…,w₁₂}其中w_i表示第i个类别的特征向量，下面依次将权重写入向量，即代表“体育”类别的向量为：

w_{5}^{T} = \{\begin{matrix} 1.0 & 0.97 & 0.54 & 1.0 & 0.98 & 0.98 & 1.0 & 0.95 & 0.65 & 0.55 & 0.99 & 1.0 \end{matrix}\} .

代表：“哲学”类别的向量为：

代表：“环境”类别的向量为：

而其他几个类别的空间向量均为0，然后将各个类别的向量加权求和，得到横向量为：W＝{0,0,0.69,0,10.61,0,0,1.52,0,0,0,0}，比较该横向量数值，找到最大值10.61所对应的类别为“体育”，因此输出归类结果为“体育”。

(2)文森特·威廉·梵高，荷兰后印象派画家。他是表现主义的先驱，并深深影响了二十世纪艺术，尤其是野兽派与表现主义。梵高的作品，如《星夜》、《向日葵》与《有乌鸦的麦田》等，现已跻身于全球最著名、广为人知与珍贵的艺术作品的行列。1890年7月29日，因精神疾病的困扰，在法国瓦兹河开枪自杀，时年37岁。

本发明的执行流程实例为：

对于“艺术”这一类别来说，该文本含有词袋模型中的词项及其相关度有：梵高0.98印象派0.97画家0.97表现主义0.89先驱0.78艺术1.0野兽派0.94作品0.95著名0.69珍贵0.69同理对于“历史”类别，则含有：世纪0.74。对于“农业”类别，含有：向日葵0.68麦田0.78；对于“医药”类别，含有：精神疾病0.91；对于“交通”类别，含有：法国0.61；而对于其他几个类别，则并不含有相关词项。依据该特征，依次将权重写入向量，即代表“艺术”类别的向量为：

w_{4}^{T} = \{\begin{matrix} 0.98 & 0.97 & 0.97 & 0.89 & 0.78 & 1.0 & 0.94 & 0.95 & 0.69 & 0.69 \end{matrix}\} .

代表“历史”类别的向量为：

代表“农业”类别的向量为：

代表“医药”类别的向量为：

代表“交通”类别的向量为：而其他几个类别的空间向量均为0，然后将各个类别的向量加权求和，得到横向量为：W={0,1.46,0,8.86,0,0.91,0.61,0,0.74,0,0,0}，比较该横向量数值，找到最大值8.86所对应的类别为“艺术”，因此输出归类结果为“艺术”。该文本的情感分析系统结果参见图5。

(3)秦始皇即嬴政（公元前259年—公元前210年），出生于赵国首都邯郸。中国历史上著名的政治家、战略家、改革家，首位完成华夏大一统的铁腕政治人物，是古今中外第一个称皇帝的封建王朝君主。

本发明的执行流程实例为：

经济农业环境艺术体育医药交通哲学历史法律航天军事对于“历史”这一类别来说，该文本含有词袋模型中的词项及其相关度有：秦始皇0.98嬴政0.98公元前0.99赵国0.79历史1.0古今中外1.0皇帝0.99封建0.87王朝0.95君主0.98华夏0.79；同理对于“法律”类别，则含有：政治家0.79改革家0.65政治0.91。对于“交通”类别，含有：邯郸0.54中国0.78；对于“军事”类别，含有：战略家0.86；对于“艺术”类别，含有：著名0.69；而对于其他几个类别，则并不含有相关词项。依据该特征，依次将权重写入向量，即代表“历史”类别的向量为：

w_{9}^{T} = \{\begin{matrix} 0.98 & 0.98 & 0.99 & 0.79 & 1.0 & 1.0 & 0.99 & 0.87 & 0.95 & 0.98 & 0.79 \end{matrix}\} .

代表“法律”类别的向量为：

代表“交通”类别的向量为：

代表“军事”类别的向量为：

代表“艺术“类别的向量为：而其他几个类别的空间向量均为0，然后将各个类别的向量加权求和，得到横向量为：

W={0,0,0,0.69,0,0,1.32,0,10.32,2.35,0,0.86}，比较该横向量数值，找到最大值10.32所对应的类别为“历史”，因此输出归类结果为“历史”。

6.本发明的优势

本发明提出的一种基于词相关度的网络文本分类方法，通过计算网络文本中特征词与的类别的相关度，组成词袋模型，得到文本类别方面的空间向量，并计算出文本所属类别和主题。

本发明的优点主要有：

(1)该方法基于词向量空间模型，特征向量维数大幅下降，一般只有十几维或几十维；特征向量数目相对稳定，不会随着训练和待分文档数目的增加而增加，因为组成无限多文本的特征词数量是相对稳定的。

(2)基于词袋模型，仅提取与类别相关的特征，将文本转换为低维空间向量，计算简便，空间复杂度较低。

(3)将网络文本语料按照来源、用途等特征确定分类范围，较传统的模糊分类方法更为准确。

Claims

1.本发明涉及应用于网络文本分类的方法，并基于词空间向量模型计算特征词-类别相关度，由五个模块组成：网络文本预处理模块、文本分词模块、词袋模型模块、文本空间向量表示模块、分类结果计算模块。

2.本发明的主要特点有：

（1）基于词向量空间模型，特征向量维数大幅下降且特征向量数目相对稳定，能够大大降低时间复杂度和空间复杂度。

（2）基于词袋模型，将网络文本转换为低维空间向量。可以有效提取网络文本中与类别相关的特征，能够大大提高分类结果的准确度并降低计算成本。