CN103970888B

CN103970888B - 基于网络度量指标的文档分类方法

Info

Publication number: CN103970888B
Application number: CN201410215328.5A
Authority: CN
Inventors: 魏墨济; 杨子江; 朱世伟; 于俊凤; 李晨; 蔡斌雷; 王蕾; 冯海洲; 王彦
Original assignee: INFORMATION RESEARCH INSTITUTE OF SHANDONG ACADEMY OF SCIENCES
Current assignee: INFORMATION RESEARCH INSTITUTE OF SHANDONG ACADEMY OF SCIENCES
Priority date: 2014-05-21
Filing date: 2014-05-21
Publication date: 2017-02-15
Anticipated expiration: 2034-05-21
Also published as: CN103970888A

Abstract

本发明的基于网络度量指标的文档分类方法，包括样本训练阶段和文档分类阶段，样本训练阶包括：a).样本采集；b).文本分词；c).词性分析；d).去除虚词和人名；e).统计词频；f).构建特征集合；g).构建特征网络的顶点；h).构建特征网络的边；i).计算平均度；j).计算聚类系数；k).计算特征路径长度；l).获取网络度量指标的取值区间；文档分类包括：m).待分类文档处理;n).文档分类的判断。本发明的文档分类方法，分类准确、效率高，解决了现有分类方法无法将科技文献、小说和散文区分开来的问题，为文档在这三类中的自动区分提出了科学的分类方法、奠定了理论基础。

Description

基于网络度量指标的文档分类方法

技术领域

本发明涉及一种基于网络度量指标的文档分类方法，更具体的说，尤其涉及一种根据不同文档的用词特点所决定的其特征网络的度量指标不同来区分文档种类的基于网络度量指标的文档分类方法。

背景技术

着Internet技术的发展进步，网络中的文档资源不断丰富，这其中既有丰富人们精神生活的小说、散文等文学作品，也有为人们提供知识为科研奠定基础的科技文献，这些数字资源既是人们智慧和技术的结晶，更是人类文明的宝贵财富。然而随着大数据时代的到来，呈指数级增长的海量资源为文档的有效组织和管理提出了挑战。文档分类是指按照文档或内容的属性，对文档集合中的每一个文档指定一个或多个类别，通过类别的划定可以采用“分而治之”的思想对文档进行组织，从而有效地降低类别中文档资源的数量，提高文档的检索效率，进而提升文档管理的能力。近年来，文档分类研究已成为图书情报、数据挖掘以及智能信息检索等多个学科领域关注的热点。

当前文档分类一般是采用统计学习方法，基于文本分类技术通过对文本内容的分析，将文档归入一个或多个合适的类别，实现文档的自动分类。目前最常用的文档分类算法模型主要有K近邻算法（K-Nearest Neighbor，KNN）、贝叶斯算法（Bayes）、支持向量机（Support Vector Machine，SVM）算法和决策树算法。

其中，KNN算法通过计算待分类文档的特征值与训练样本集中每个文档特征值的相似度，找出K个与待分类文档最相似的文档，根据待分类文档与相似文档的加权距离，判断待分类文档的类别。Bayes算法是一类基于概率模型的分类算法，其中最简单的朴素贝叶斯算法在估计分类条件概率时假设文档的各特征值之间是相互独立的。而作为文档特征值的高频词在实际情况中并不满足独立性假设，因此出现了许多降低独立性假设的贝叶斯分类算法。SVM算法建立在VC维理论和结构风险最小理论上，通过训练样本的学习，找出能够较好区分不同类样本点的超平面，以此对待分类文档的类别进行判断。决策树算法以归纳学习算法为基础，从一组无序、无规则的样本集合中找出类似于树形的分类规则。树中的每个内节点表示特征，而叶节点表示特定的类别，从根节点到叶节点的一条路径就表示一条合取规则，整棵树就是文档的分类规则。

随着理论研究的成熟，上述算法模型已广泛应用于各类文档的分类中，如科技文献、电子邮件、web页面、技术专利等。这些算法通过对所提取的文档特征值进行训练，找出最能代表主题的特征值构建分类模型，有效地实现了给定领域中不同主题文档的分类。然而脱离了主题的依赖，在未确定领域之前，这些分类算法则无法从宏观上对无主题限制的文档建立有效的分类模型。上述问题便存在于文学作品与科技文献的区分中，也即无法有效地分类一篇文档属于一篇科技文献还是一篇小说或是一篇散文。因为文学作品和科技文献所涉及的领域和主题无限，并且不同类文档所涉及的领域和主题还存在交叉的现象时，无法在训练阶段提供准确的类别定义，也就无法抽取能够表征类别的特征值集合，因此难以为此种分类问题构建分类模型。

发明内容

本发明为了克服上述技术问题的缺点，提供了一种基于网络度量指标的文档分类方法。

本发明的基于网络度量指标的文档分类方法，包括样本训练阶段和文档分类阶段，其特征在于，

所述样本训练阶段通过以下步骤来实现：

a).样本采集，从现有多类文档库中采集足够数量的、已明确类别的科技文献、小说和散文，作为训练样本；并获取样本的文本内容；b).文本分词，采用现有基于词典的分词方法对每篇文档进行分词，获取文档所包含的词汇；c).词性分析，在分词的过程中，同时为文档的每个句子构建语法树，分析句子中每个分词的词性，并对分词的词性进行标注；d).去除虚词和人名，为了突出文档所要表达的语义，将词汇中的虚词和人名去除，以获取不包含虚词和人名的文档词汇；e).统计词频，统计步骤d)中所获取的不包含虚词和人名的词汇中每个分词出现的次数，获取分词的词频，将分词和对应的词频作为文档的特征；f).构建特征集合,为了尽可能多的涵盖文本内容并减小构建网络的计算量，对每篇文档按词频数量从多至少选取前25%～45%的分词作为文档的特征集合；g).构建特征网络的顶点，设是一篇文档，是文档的句子集合，是文档的特征集合，=，=，其中，为文档中的句子，1≤≤；为文档中的分词，1≤≤；以文档的特征集合中的每个分词为网络顶点构建特征网络，形成特征网络的顶点集合=；h).构建特征网络的边，任意选取网络顶点集合的两个顶点和，如果其同时出现于文档句子集合中的任意一个句子中，则为这两个顶点之间建立一条网络边，直至所有任意两个网络顶点判断完毕，所形成的网络边集合为=，1≤≤；通过顶点和边的建立，就形成了顶点为、边为的文档特征网络；i).计算网络的平均度，通过公式（1）计算出文档特征网络的网络平均度：

（1）

其中，为网络顶点的数目，为顶点的度数，其数值为与顶点相关联的边的条数；通过公式（1）可计算出样本集合中每篇文档所对应网络平均度的度量指标；j).计算网络的聚类系数，聚类系数表征了一个点的邻节点之间相互连接的程度，说明了网络中的顶点之间结集成团程度的系数；首先通过公式（2）求取单个顶点的聚类系数：

（2）

其中，为顶点所拥有的边数，为顶点的所有个邻居顶点所拥有边数的和；然后通过公式（3）计算出网络的聚类系数：

（3）

其中，为顶点的聚类系数；通过公式（3）可计算出样本集合中每篇文档所对应网络的聚类系数的度量指标；k).计算网络的特征路径长度，连通网络中任意两个顶点的最少边数，称为这两个顶点的路径长度，网络中所有顶点对的路径长度的平均值，称为网络的特征路径长度；首先通过Dijstra算法得到文档特征网络中任意两个顶点和之间的最短路径长度，然后根据公式（4）计算出网络的特征路径长度：

（4）

通过公式（4）可计算出样本集合中每篇文档所对应特征网络的特征路径长度的度量指标；l).获取各类文档网络度量指标的取值区间，对于训练样本中的所有文档均执行步骤b)至步骤k)，以获取所有文档的网络度量指标；按照科技文献、小说和散文分别对网络度量指标进行归类，统计每类文档的三个网络度量指标的取值范围，归纳得到不同类文档各个网络度量指标的规律性取值区间，直至各类网络度量指标的取值区间满足精度要求，将其作为待分类文档的分类标准；设科技文献、小说和散文的网络平均度的取值区间分别为、、，聚类系数的取值分别为、、，网络平均度的取值分别为、、；

所述文档分类阶段通过以下步骤来实现：

m).待分类文档的处理，获取待分类的电子文档，并按照步骤b)至步骤k)中的方法对待分类的文档进行处理，求取待分类电子文档的网络平均度、聚类系数和特征路径的长度，分别记为、和;n).文档分类的判断，根据步骤m)中求取的待分类文档的网络平均度、聚类系数和特征路径的长度，判断、和落入的区间所对应的文档类别，采用投票制将待分类文档归入相应的文档类别中。

本发明的基于网络度量指标的文档分类方法，步骤a)中所述的获取样本的文本内容包括抽取文档文本和预处理，在抽取文档文本的过程中，对pdf、doc和html格式的文档分别采用PDFBox插件、javadoc插件和HTMlParser解析文档以获取文档文本；预处理为将获取的文档文本中的无关信息进行去除，对于html文档应将与主题无关的广告、友情链接、同类推荐垃圾信息过滤掉。

本发明的基于网络度量指标的文档分类方法，步骤b)中所采用的分词方法为采用最大匹配法从文档中获取其所包含的词汇；步骤c)中所述的词性分析为使用ICTCLAS2008汉语词性标记集中的99个词性标记符号，对获取的分词进行词性标注；步骤f)中所获取的文档特征集合中的分词为从多至少选取的前35%的分词。

本发明的基于网络度量指标的文档分类方法，步骤l)中所获取的科技文献、小说和散文的网络平均度的参考取值区间分别为、、，聚类系数的参考取值分别为、、，网络平均度的参考取值分别为、、。

本发明的有益效果是：本发明的基于网络度量指标的文档分类方法，选取足够量的科技文献、小说和散文作为训练样本，通过分词、词性分析将文档词汇中的虚词和人名去除，再统计词汇的词频，并利用前25%～45%的分词构成文档的特征集合，保证了特征集合既涵盖了尽可能多的文本内容，又减小了构建网络的计算量。以特征集合中的每个分词为顶点，任意两个分词如果存在于文档的同一个句子中则为这两个顶点之间建立一条边，来形成可有效反应文档用词特点的特征网络。通过求取每篇样本文档特征网络的网络平均度、聚类系数和特征路径长度，根据样本文档的种类统计和归纳出科技文献、小说和散文的平均度、聚类系数和路径长度的取值范围，将其作为文档的分类标准。在分类过程中，采用相同的方法求出待分类文档的平均度、聚类系数和特征路径长度，根据待分类文档的3个网络度量指标所落入的取值区间，采用投票制将其归入相应的文档分类。

本发明的基于网络度量指标的文档分类方法，以科技文献、小说和散文的用词特点所决定的其特征网络的网络指标不同为原理，首先利用足够的样本文档归纳出不同类文档的网络指标的取值区间，再求出待分类文档的网络度量指标，最后根据待分类文档的网络度量指标所落入的取值区间来对其进行分类，整个文档的分类过程自动完成，分类准确、效率高，解决了现有分类方法无法将科技文献、小说和散文区分开来的问题，为文档在这三类中的自动区分提出了科学的分类方法、奠定了理论基础。

附图说明

图1为本发明的基于网络度量指标的文档分类方法的原理图；

图2为本发明的文档分类方法中样本训练阶段的流程图；

图3为本发明的文档分类方法中文档分类阶段的流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

如图1所示，给出了本发明的基于网络度量指标的文档分类方法的原理图，其包括样本训练阶段和文档分类阶段，其所采用的原理是科技文献、小说和散文的用词特点所决定的其特征网络的网络度量指标不同，在样本训练阶段，通过对已知类型样本的训练，得出不同类文档的规律性结果；在文档分类阶段，通过求出待分类文档的特征网络的度量指标，根据度量指标所落入的取值范围，来确定待分类文档的种类。整个分类方法，样本训练阶段只执行一次，只要所求出的网络度量指标的取值范围的精度满足要求，即可停止训练；在文档分类的过程中，依据训练得出的结果即可对文档进行分类，具有分类准确、效率高的优点。

本分发明的基于网络度量指标的文档分类方法，包括样本训练阶段和文档分类阶段，如图2所示，给出了样本训练阶段的流程图，本阶段首先需要从科技电子书库、技术专利库、文库、书吧多类文档库中，采集科技文献、小说和散文三种不同类型文档的样本。在充足样本的支持下，利用本方法进行训练可获得不同类文档用词的规律性特征，得到一个区域值，通过增加样本数量提高样本数量的数量级，可获得更高精度的统计性规律。训练阶段只需执行一次，在获得满足要求精度的样本规律性结果即可结束。

所述样本训练阶段通过以下步骤来实现：

a).样本采集，从现有多类文档库中采集足够数量的、已明确类别的科技文献、小说和散文，作为训练样本；并获取样本的文本内容；

该步骤中，所述的获取样本的文本内容包括抽取文档文本和预处理，在抽取文档文本的过程中，对pdf、doc和html格式的文档分别采用PDFBox插件、javadoc插件和HTMlParser解析文档以获取文档文本；预处理为将获取的文档文本中的无关信息进行去除，对于html文档应将与主题无关的广告、友情链接、同类推荐垃圾信息过滤掉。

步骤a)所抽取的文档内容均是计算机难以处理的文本，需要对其进行量化，也即是为文档构建特征集合，用可以量化的特征集合描述文档。文档特征集合的构建有多种方法，如文档频率法、信息增益法、开方拟合检验法、互信息法等，本发明中采用最简单的文档频率法表示文档。首先对文档的文本进行分词处理，其次对分词的词性进行分析，再次去除其中的虚词和人名，最后统计各个分词出现的频率，构建由分词和分词的词频组成的向量，作为文档的特征集合表征文档作为后续处理的基础。其具体通过步骤b)至步骤f)来实现。

b).文本分词，采用现有基于词典的分词方法对每篇文档进行分词，获取文档所包含的词汇；

该步骤中，所采用的分词方法为采用最大匹配法从文档中获取其所包含的词汇；

c).词性分析，在分词的过程中，同时为文档的每个句子构建语法树，分析句子中每个分词的词性，并对分词的词性进行标注；

该步骤中，所述的词性分析为使用ICTCLAS2008汉语词性标记集中的99个词性标记符号，对获取的分词进行词性标注；

d).去除虚词和人名，为了突出文档所要表达的语义，将词汇中的虚词和人名去除，以获取不包含虚词和人名的文档词汇；

实词有实在意义，能够单独充当句子成分一般能单独回答问题。而虚词没有完整的词汇意义，但有语法意义或功能意义的词。在一篇文档中对文档的核心内容起说明作用的一般是文档中的实词，因此为了能更好的突出文档所要表达的语义，应去除词汇中的虚词。在小说类文档中可能会出现几个出现频率极高的词汇，而这些词汇的出现频率远高于其他实词出现的频率，影响了后期的处理结果。经查看这些词汇一般均是人名，并不适合于做文档的特征集合，因此本发明将人名也在前期的处理中去除掉。

e).统计词频，统计步骤d)中所获取的不包含虚词和人名的词汇中每个分词出现的次数，获取分词的词频，将分词和对应的词频作为文档的特征；

f).构建特征集合,为了尽可能多的涵盖文本内容并减小构建网络的计算量，对每篇文档按词频数量从多至少选取前25%～45%的分词作为文档的特征集合；

网络模型的顶点是文档的分词，边的构建需要检测分词与其他分词的关系，因此随着分词数量的增加，构建网络所耗费的时间将呈指数级增长。为快速构建能够描述文档的网络，需要对分词进行取舍，本发明中采用频率法描述文档，因此选取了分词中的部分高频词来构建网络。在高频词的选取过程中，其原则是尽可能多的涵盖文本的内容，通过计算高频词的词汇量占整篇文档词汇量的百分比，可知前25%～45%的高频词的词汇量已超过了整篇文档词汇量的50%以上，易选取前25%～45%的高频词作为文档的特征集合，如选取的前35%的分词。

g).构建特征网络的顶点，设是一篇文档，是文档的句子集合，是文档的特征集合，=，=，其中，为文档中的句子，1≤≤；为文档中的分词，1≤≤；以文档的特征集合中的每个分词为网络顶点构建特征网络，形成特征网络的顶点集合=；

h).构建特征网络的边，任意选取网络顶点集合的两个顶点和，如果其同时出现于文档句子集合中的任意一个句子中，则为这两个顶点之间建立一条网络边，直至所有任意两个网络顶点判断完毕，所形成的网络边集合为=，1≤≤；通过顶点和边的建立，就形成了顶点为、边为的文档特征网络；

i).计算网络的平均度，通过公式（1）计算出文档特征网络的网络平均度：

（1）

其中，为网络顶点的数目，为顶点的度数，其数值为与顶点相关联的边的条数；通过公式（1）可计算出样本集合中每篇文档所对应网络平均度的度量指标；

顶点的度是指与该顶点相关联的边的条数，网络中所有顶点的度数的平均值定义为网络的平均度。通过统计的方法可以得到网络中每个顶点的度数，然后再求其平均值即可获得网络的平均度。

j).计算网络的聚类系数，聚类系数表征了一个点的邻节点之间相互连接的程度，说明了网络中的顶点之间结集成团程度的系数；首先通过公式（2）求取单个顶点的聚类系数：

（2）

其中，为顶点所拥有的边数，为顶点的所有个邻居顶点所拥有边数的和；

然后通过公式（3）计算出网络的聚类系数：

（3）

其中，为顶点的聚类系数；通过公式（3）可计算出样本集合中每篇文档所对应网络的聚类系数的度量指标；

聚类系数也称群聚系数、聚合系数或集群系数。若某个顶点有条边，则这条边连接的顶点（个）之间最多可能存在的边的条数为，用实际存在的边数除以最多可能存在的边数得到的分数值，称为这个顶点的聚类系数。顶点的聚类系数是一个介于0与1之间的数，越接近1，表示这个顶点附近的点越有“抱团”的趋势。该度量指标描述了一个点的邻接点之间相互连接的程度，说明网络中的顶点之间结集成团的程度的系数。

k).计算网络的特征路径长度，连通网络中任意两个顶点的最少边数，称为这两个顶点的路径长度，网络中所有顶点对的路径长度的平均值，称为网络的特征路径长度；首先通过Dijstra算法得到文档特征网络中任意两个顶点和之间的最短路径长度，然后根据公式（4）计算出网络的特征路径长度：

（4）

通过公式（4）可计算出样本集合中每篇文档所对应特征网络的特征路径长度的度量指标；

特征路径长度也称为平均路径长度或平均最短路径长度。

l).获取各类文档网络度量指标的取值区间，对于训练样本中的所有文档均执行步骤b)至步骤k)，以获取所有文档的网络度量指标；按照科技文献、小说和散文分别对网络度量指标进行归类，统计每类文档的三个网络度量指标的取值范围，归纳得到不同类文档各个网络度量指标的规律性取值区间，直至各类网络度量指标的取值区间满足精度要求，将其作为待分类文档的分类标准；设科技文献、小说和散文的网络平均度的取值区间分别为、、，聚类系数的取值分别为、、，网络平均度的取值分别为、、；

将所得到的三类样本网络度量指标取值区间与分类所需的精度进行比对，当不满足精度要求时，增加样本数量以提高取值区间的精度。

如图3所示，给出了文档分类阶段的流程图，所述文档分类阶段通过以下步骤来实现：

m).待分类文档的处理，获取待分类的电子文档，并按照步骤b)至步骤k)中的方法对待分类的文档进行处理，求取待分类电子文档的网络平均度、聚类系数和特征路径的长度，分别记为、和;

n).文档分类的判断，根据步骤m)中求取的待分类文档的网络平均度、聚类系数和特征路径的长度，判断、和落入的区间所对应的文档类别，采用投票制将待分类文档归入相应的文档类别中。

本发明所述的两个阶段，样本训练阶段中的样本采集中可使用爬虫技术，为其指定抓取的位置，然后由机器自动实现，而后的样本训练和样本规律性结果的获取均可由机器自动实现。在文档分类阶段，除待分类文档输入需要用户指定文档外，其他步骤也均自动实现，因此总的来说本发明除输入待分类文本外，均无需人工干预可完全由机器学习的方法自动实现。

Claims

1.一种基于网络度量指标的文档分类方法，包括样本训练阶段和文档分类阶段，其特征在于，

所述样本训练阶段通过以下步骤来实现：

f).构建特征集合V_D,为了尽可能多的涵盖文本内容并减小构建网络的计算量，对每篇文档按词频数量从多至少选取前25％～45％的分词作为文档的特征集合V_D；

g).构建特征网络的顶点，设D是一篇文档，S是文档D的句子集合，V_D是文档D的特征集合，S＝{s₁,s₂…,s_l,…s_q}，V_D＝{v₁,v₂…,v_i,…v_n}，其中，s_l为文档D中的句子，1≤l≤q；v_i为文档D中的分词，1≤i≤n；以文档的特征集合V_D中的每个分词为网络顶点构建特征网络，形成特征网络的顶点集合V_G＝{v₁,v₂…,v_i,…v_n}；

h).构建特征网络的边，任意选取网络顶点集合V_G的两个顶点v_i和v_j，如果其同时出现于文档D句子集合S中的任意一个句子s_l中，则为这两个顶点之间建立一条网络边e_k(v_i,v_j)，直至所有任意两个网络顶点判断完毕，所形成的网络边集合为E_G＝{e₁,e₂…,e_k,…e_m}，1≤k≤m；通过顶点和边的建立，就形成了顶点为V_G、边为E_G的文档特征网络；

i).计算网络的平均度，通过公式(1)计算出文档特征网络的网络平均度Ave_Degree：

A v e_D e g r e e = \frac{1}{n} Σ_{i = 1}^{n} {degree}_{i} - - - (1)

其中，n为网络顶点的数目，degree_i为顶点v_i的度数，其数值为与顶点v_i相关联的边的条数；通过公式(1)可计算出样本集合中每篇文档所对应网络平均度的度量指标；

j).计算网络的聚类系数，聚类系数表征了一个点的邻节点之间相互连接的程度，说明了网络中的顶点之间结集成团程度的系数；首先通过公式(2)求取单个顶点的聚类系数CC_vi：

{CC}_{v i} = \frac{{sum}_{k}}{C_{k}^{2}} = \frac{2 {sum}_{k}}{k (k - 1)} - - - (2)

其中，k为顶点v_i所拥有的边数，sum_k为顶点v_i的所有k个邻居顶点所拥有边数的和；

然后通过公式(3)计算出网络的聚类系数CC_G：

{CC}_{G} = \frac{1}{n} Σ_{i = 1}^{n} {CC}_{v i} - - - (3)

其中，CC_vi为顶点v_i的聚类系数；通过公式(3)可计算出样本集合中每篇文档所对应网络的聚类系数的度量指标；

k).计算网络的特征路径长度，连通网络中任意两个顶点的最少边数，称为这两个顶点的路径长度，网络中所有顶点对的路径长度的平均值，称为网络的特征路径长度；首先通过Dijstra算法得到文档特征网络中任意两个顶点v_i和v_j之间的最短路径长度dist(i,j)，然后根据公式(4)计算出网络的特征路径长度Ave_Distance：

A v e_D i s \tan c e = \frac{2}{n (n - 1)} \underset{i \leq n}{Σ} \underset{j > i}{Σ} d i s t (i, j) - - - (4)

通过公式(4)可计算出样本集合中每篇文档所对应特征网络的特征路径长度的度量指标；

l).获取各类文档网络度量指标的取值区间，对于训练样本中的所有文档均执行步骤b)至步骤k)，以获取所有文档的网络度量指标；按照科技文献、小说和散文分别对网络度量指标进行归类，统计每类文档的三个网络度量指标的取值范围，归纳得到不同类文档各个网络度量指标的规律性取值区间，直至各类网络度量指标的取值区间满足精度要求，将其作为待分类文档的分类标准；设科技文献、小说和散文的网络平均度的取值区间分别为[De₁，De₂)、[De₃，De₄)、[De₅，De₆)，聚类系数的取值分别为[CC₁，CC₂)、[CC₃，CC₄)、[CC₅，CC₆)，特征路径长度的取值分别为[Di₁，Di₂)、[Di₃，Di₄)、[Di₅，Di₆)；

所述文档分类阶段通过以下步骤来实现：

m).待分类文档的处理，获取待分类的电子文档，并按照步骤b)至步骤k)中的方法对待分类的文档进行处理，求取待分类电子文档的网络平均度、聚类系数和特征路径的长度，分别记为De′、CC′和Di′；

n).文档分类的判断，根据步骤m)中求取的待分类文档的网络平均度、聚类系数和特征路径的长度，判断De′、CC′和Di′落入的区间所对应的文档类别，采用投票制将待分类文档归入相应的文档类别中。

2.根据权利要求1所述的基于网络度量指标的文档分类方法，其特征在于：步骤a)中所述的获取样本的文本内容包括抽取文档文本和预处理，在抽取文档文本的过程中，对pdf、doc和html格式的文档分别采用PDFBox插件、javadoc插件和HTMlParser解析文档以获取文档文本；预处理为将获取的文档文本中的无关信息进行去除，对于html文档应将与主题无关的广告、友情链接、同类推荐垃圾信息过滤掉。

3.根据权利要求1或2所述的基于网络度量指标的文档分类方法，其特征在于：步骤b)中所采用的分词方法为采用最大匹配法从文档中获取其所包含的词汇；步骤c)中所述的词性分析为使用ICTCLAS2008汉语词性标记集中的99个词性标记符号，对获取的分词进行词性标注；步骤f)中所获取的文档特征集合V_D中的分词为从多至少选取的前35％的分词。