CN103970888B - 基于网络度量指标的文档分类方法 - Google Patents

基于网络度量指标的文档分类方法 Download PDF

Info

Publication number
CN103970888B
CN103970888B CN201410215328.5A CN201410215328A CN103970888B CN 103970888 B CN103970888 B CN 103970888B CN 201410215328 A CN201410215328 A CN 201410215328A CN 103970888 B CN103970888 B CN 103970888B
Authority
CN
China
Prior art keywords
document
network
participle
classification
summit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410215328.5A
Other languages
English (en)
Other versions
CN103970888A (zh
Inventor
魏墨济
杨子江
朱世伟
于俊凤
李晨
蔡斌雷
王蕾
冯海洲
王彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INFORMATION RESEARCH INSTITUTE OF SHANDONG ACADEMY OF SCIENCES
Original Assignee
INFORMATION RESEARCH INSTITUTE OF SHANDONG ACADEMY OF SCIENCES
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INFORMATION RESEARCH INSTITUTE OF SHANDONG ACADEMY OF SCIENCES filed Critical INFORMATION RESEARCH INSTITUTE OF SHANDONG ACADEMY OF SCIENCES
Priority to CN201410215328.5A priority Critical patent/CN103970888B/zh
Publication of CN103970888A publication Critical patent/CN103970888A/zh
Application granted granted Critical
Publication of CN103970888B publication Critical patent/CN103970888B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的基于网络度量指标的文档分类方法,包括样本训练阶段和文档分类阶段,样本训练阶包括:a).样本采集;b).文本分词;c).词性分析;d).去除虚词和人名;e).统计词频;f).构建特征集合;g).构建特征网络的顶点;h).构建特征网络的边;i).计算平均度;j).计算聚类系数;k).计算特征路径长度;l).获取网络度量指标的取值区间;文档分类包括:m).待分类文档处理;n).文档分类的判断。本发明的文档分类方法,分类准确、效率高,解决了现有分类方法无法将科技文献、小说和散文区分开来的问题,为文档在这三类中的自动区分提出了科学的分类方法、奠定了理论基础。

Description

基于网络度量指标的文档分类方法
技术领域
本发明涉及一种基于网络度量指标的文档分类方法,更具体的说,尤其涉及一种根据不同文档的用词特点所决定的其特征网络的度量指标不同来区分文档种类的基于网络度量指标的文档分类方法。
背景技术
着Internet技术的发展进步,网络中的文档资源不断丰富,这其中既有丰富人们精神生活的小说、散文等文学作品,也有为人们提供知识为科研奠定基础的科技文献,这些数字资源既是人们智慧和技术的结晶,更是人类文明的宝贵财富。然而随着大数据时代的到来,呈指数级增长的海量资源为文档的有效组织和管理提出了挑战。文档分类是指按照文档或内容的属性,对文档集合中的每一个文档指定一个或多个类别,通过类别的划定可以采用“分而治之”的思想对文档进行组织,从而有效地降低类别中文档资源的数量,提高文档的检索效率,进而提升文档管理的能力。近年来,文档分类研究已成为图书情报、数据挖掘以及智能信息检索等多个学科领域关注的热点。
当前文档分类一般是采用统计学习方法,基于文本分类技术通过对文本内容的分析,将文档归入一个或多个合适的类别,实现文档的自动分类。目前最常用的文档分类算法模型主要有K近邻算法(K-Nearest Neighbor,KNN)、贝叶斯算法(Bayes)、支持向量机(Support Vector Machine,SVM)算法和决策树算法。
其中,KNN算法通过计算待分类文档的特征值与训练样本集中每个文档特征值的相似度,找出K个与待分类文档最相似的文档,根据待分类文档与相似文档的加权距离,判断待分类文档的类别。Bayes算法是一类基于概率模型的分类算法,其中最简单的朴素贝叶斯算法在估计分类条件概率时假设文档的各特征值之间是相互独立的。而作为文档特征值的高频词在实际情况中并不满足独立性假设,因此出现了许多降低独立性假设的贝叶斯分类算法。SVM算法建立在VC维理论和结构风险最小理论上,通过训练样本的学习,找出能够较好区分不同类样本点的超平面,以此对待分类文档的类别进行判断。决策树算法以归纳学习算法为基础,从一组无序、无规则的样本集合中找出类似于树形的分类规则。树中的每个内节点表示特征,而叶节点表示特定的类别,从根节点到叶节点的一条路径就表示一条合取规则,整棵树就是文档的分类规则。
随着理论研究的成熟,上述算法模型已广泛应用于各类文档的分类中,如科技文献、电子邮件、web页面、技术专利等。这些算法通过对所提取的文档特征值进行训练,找出最能代表主题的特征值构建分类模型,有效地实现了给定领域中不同主题文档的分类。然而脱离了主题的依赖,在未确定领域之前,这些分类算法则无法从宏观上对无主题限制的文档建立有效的分类模型。上述问题便存在于文学作品与科技文献的区分中,也即无法有效地分类一篇文档属于一篇科技文献还是一篇小说或是一篇散文。因为文学作品和科技文献所涉及的领域和主题无限,并且不同类文档所涉及的领域和主题还存在交叉的现象时,无法在训练阶段提供准确的类别定义,也就无法抽取能够表征类别的特征值集合,因此难以为此种分类问题构建分类模型。
发明内容
本发明为了克服上述技术问题的缺点,提供了一种基于网络度量指标的文档分类方法。
本发明的基于网络度量指标的文档分类方法,包括样本训练阶段和文档分类阶段,其特征在于,
所述样本训练阶段通过以下步骤来实现:
a).样本采集,从现有多类文档库中采集足够数量的、已明确类别的科技文献、小说和散文,作为训练样本;并获取样本的文本内容;b).文本分词,采用现有基于词典的分词方法对每篇文档进行分词,获取文档所包含的词汇;c).词性分析,在分词的过程中,同时为文档的每个句子构建语法树,分析句子中每个分词的词性,并对分词的词性进行标注;d).去除虚词和人名,为了突出文档所要表达的语义,将词汇中的虚词和人名去除,以获取不包含虚词和人名的文档词汇;e).统计词频,统计步骤d)中所获取的不包含虚词和人名的词汇中每个分词出现的次数,获取分词的词频,将分词和对应的词频作为文档的特征;f).构建特征集合,为了尽可能多的涵盖文本内容并减小构建网络的计算量,对每篇文档按词频数量从多至少选取前25%~45%的分词作为文档的特征集合;g).构建特征网络的顶点,设是一篇文档,是文档的句子集合,是文档的特征集合,==,其中,为文档中的句子,1≤为文档中的分词,1≤;以文档的特征集合中的每个分词为网络顶点构建特征网络,形成特征网络的顶点集合=;h).构建特征网络的边,任意选取网络顶点集合的两个顶点,如果其同时出现于文档句子集合中的任意一个句子中,则为这两个顶点之间建立一条网络边,直至所有任意两个网络顶点判断完毕,所形成的网络边集合为=,1≤;通过顶点和边的建立,就形成了顶点为、边为的文档特征网络;i).计算网络的平均度,通过公式(1)计算出文档特征网络的网络平均度
(1)
其中,为网络顶点的数目,为顶点的度数,其数值为与顶点相关联的边的条数;通过公式(1)可计算出样本集合中每篇文档所对应网络平均度的度量指标;j).计算网络的聚类系数,聚类系数表征了一个点的邻节点之间相互连接的程度,说明了网络中的顶点之间结集成团程度的系数;首先通过公式(2)求取单个顶点的聚类系数
(2)
其中,为顶点所拥有的边数,为顶点的所有个邻居顶点所拥有边数的和; 然后通过公式(3)计算出网络的聚类系数
(3)
其中,为顶点的聚类系数;通过公式(3)可计算出样本集合中每篇文档所对应网络的聚类系数的度量指标;k).计算网络的特征路径长度,连通网络中任意两个顶点的最少边数,称为这两个顶点的路径长度,网络中所有顶点对的路径长度的平均值,称为网络的特征路径长度;首先通过Dijstra算法得到文档特征网络中任意两个顶点之间的最短路径长度,然后根据公式(4)计算出网络的特征路径长度
(4)
通过公式(4)可计算出样本集合中每篇文档所对应特征网络的特征路径长度的度量指标;l).获取各类文档网络度量指标的取值区间,对于训练样本中的所有文档均执行步骤b)至步骤k),以获取所有文档的网络度量指标;按照科技文献、小说和散文分别对网络度量指标进行归类,统计每类文档的三个网络度量指标的取值范围,归纳得到不同类文档各个网络度量指标的规律性取值区间,直至各类网络度量指标的取值区间满足精度要求,将其作为待分类文档的分类标准;设科技文献、小说和散文的网络平均度的取值区间分别为,聚类系数的取值分别为,网络平均度的取值分别为
所述文档分类阶段通过以下步骤来实现:
m).待分类文档的处理,获取待分类的电子文档,并按照步骤b)至步骤k)中的方法对待分类的文档进行处理,求取待分类电子文档的网络平均度、聚类系数和特征路径的长度,分别记为;n).文档分类的判断,根据步骤m)中求取的待分类文档的网络平均度、聚类系数和特征路径的长度,判断落入的区间所对应的文档类别,采用投票制将待分类文档归入相应的文档类别中。
本发明的基于网络度量指标的文档分类方法,步骤a)中所述的获取样本的文本内容包括抽取文档文本和预处理,在抽取文档文本的过程中,对pdf、doc和html格式的文档分别采用PDFBox插件、javadoc插件和HTMlParser解析文档以获取文档文本;预处理为将获取的文档文本中的无关信息进行去除,对于html文档应将与主题无关的广告、友情链接、同类推荐垃圾信息过滤掉。
本发明的基于网络度量指标的文档分类方法,步骤b)中所采用的分词方法为采用最大匹配法从文档中获取其所包含的词汇;步骤c)中所述的词性分析为使用ICTCLAS2008汉语词性标记集中的99个词性标记符号,对获取的分词进行词性标注;步骤f)中所获取的文档特征集合中的分词为从多至少选取的前35%的分词。
本发明的基于网络度量指标的文档分类方法,步骤l)中所获取的科技文献、小说和散文的网络平均度的参考取值区间分别为,聚类系数的参考取值分别为,网络平均度的参考取值分别为
本发明的有益效果是:本发明的基于网络度量指标的文档分类方法,选取足够量的科技文献、小说和散文作为训练样本,通过分词、词性分析将文档词汇中的虚词和人名去除,再统计词汇的词频,并利用前25%~45%的分词构成文档的特征集合,保证了特征集合既涵盖了尽可能多的文本内容,又减小了构建网络的计算量。以特征集合中的每个分词为顶点,任意两个分词如果存在于文档的同一个句子中则为这两个顶点之间建立一条边,来形成可有效反应文档用词特点的特征网络。通过求取每篇样本文档特征网络的网络平均度、聚类系数和特征路径长度,根据样本文档的种类统计和归纳出科技文献、小说和散文的平均度、聚类系数和路径长度的取值范围,将其作为文档的分类标准。在分类过程中,采用相同的方法求出待分类文档的平均度、聚类系数和特征路径长度,根据待分类文档的3个网络度量指标所落入的取值区间,采用投票制将其归入相应的文档分类。
本发明的基于网络度量指标的文档分类方法,以科技文献、小说和散文的用词特点所决定的其特征网络的网络指标不同为原理,首先利用足够的样本文档归纳出不同类文档的网络指标的取值区间,再求出待分类文档的网络度量指标,最后根据待分类文档的网络度量指标所落入的取值区间来对其进行分类,整个文档的分类过程自动完成,分类准确、效率高,解决了现有分类方法无法将科技文献、小说和散文区分开来的问题,为文档在这三类中的自动区分提出了科学的分类方法、奠定了理论基础。
附图说明
图1为本发明的基于网络度量指标的文档分类方法的原理图;
图2为本发明的文档分类方法中样本训练阶段的流程图;
图3为本发明的文档分类方法中文档分类阶段的流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
如图1所示,给出了本发明的基于网络度量指标的文档分类方法的原理图,其包括样本训练阶段和文档分类阶段,其所采用的原理是科技文献、小说和散文的用词特点所决定的其特征网络的网络度量指标不同,在样本训练阶段,通过对已知类型样本的训练,得出不同类文档的规律性结果;在文档分类阶段,通过求出待分类文档的特征网络的度量指标,根据度量指标所落入的取值范围,来确定待分类文档的种类。整个分类方法,样本训练阶段只执行一次,只要所求出的网络度量指标的取值范围的精度满足要求,即可停止训练;在文档分类的过程中,依据训练得出的结果即可对文档进行分类,具有分类准确、效率高的优点。
本分发明的基于网络度量指标的文档分类方法,包括样本训练阶段和文档分类阶段,如图2所示,给出了样本训练阶段的流程图,本阶段首先需要从科技电子书库、技术专利库、文库、书吧多类文档库中,采集科技文献、小说和散文三种不同类型文档的样本。在充足样本的支持下,利用本方法进行训练可获得不同类文档用词的规律性特征,得到一个区域值,通过增加样本数量提高样本数量的数量级,可获得更高精度的统计性规律。训练阶段只需执行一次,在获得满足要求精度的样本规律性结果即可结束。
所述样本训练阶段通过以下步骤来实现:
a).样本采集,从现有多类文档库中采集足够数量的、已明确类别的科技文献、小说和散文,作为训练样本;并获取样本的文本内容;
该步骤中,所述的获取样本的文本内容包括抽取文档文本和预处理,在抽取文档文本的过程中,对pdf、doc和html格式的文档分别采用PDFBox插件、javadoc插件和HTMlParser解析文档以获取文档文本;预处理为将获取的文档文本中的无关信息进行去除,对于html文档应将与主题无关的广告、友情链接、同类推荐垃圾信息过滤掉。
步骤a)所抽取的文档内容均是计算机难以处理的文本,需要对其进行量化,也即是为文档构建特征集合,用可以量化的特征集合描述文档。文档特征集合的构建有多种方法,如文档频率法、信息增益法、开方拟合检验法、互信息法等,本发明中采用最简单的文档频率法表示文档。首先对文档的文本进行分词处理,其次对分词的词性进行分析,再次去除其中的虚词和人名,最后统计各个分词出现的频率,构建由分词和分词的词频组成的向量,作为文档的特征集合表征文档作为后续处理的基础。其具体通过步骤b)至步骤f)来实现。
b).文本分词,采用现有基于词典的分词方法对每篇文档进行分词,获取文档所包含的词汇;
该步骤中,所采用的分词方法为采用最大匹配法从文档中获取其所包含的词汇;
c).词性分析,在分词的过程中,同时为文档的每个句子构建语法树,分析句子中每个分词的词性,并对分词的词性进行标注;
该步骤中,所述的词性分析为使用ICTCLAS2008汉语词性标记集中的99个词性标记符号,对获取的分词进行词性标注;
d).去除虚词和人名,为了突出文档所要表达的语义,将词汇中的虚词和人名去除,以获取不包含虚词和人名的文档词汇;
实词有实在意义,能够单独充当句子成分一般能单独回答问题。而虚词没有完整的词汇意义,但有语法意义或功能意义的词。在一篇文档中对文档的核心内容起说明作用的一般是文档中的实词,因此为了能更好的突出文档所要表达的语义,应去除词汇中的虚词。在小说类文档中可能会出现几个出现频率极高的词汇,而这些词汇的出现频率远高于其他实词出现的频率,影响了后期的处理结果。经查看这些词汇一般均是人名,并不适合于做文档的特征集合,因此本发明将人名也在前期的处理中去除掉。
e).统计词频,统计步骤d)中所获取的不包含虚词和人名的词汇中每个分词出现的次数,获取分词的词频,将分词和对应的词频作为文档的特征;
f).构建特征集合,为了尽可能多的涵盖文本内容并减小构建网络的计算量,对每篇文档按词频数量从多至少选取前25%~45%的分词作为文档的特征集合
网络模型的顶点是文档的分词,边的构建需要检测分词与其他分词的关系,因此随着分词数量的增加,构建网络所耗费的时间将呈指数级增长。为快速构建能够描述文档的网络,需要对分词进行取舍,本发明中采用频率法描述文档,因此选取了分词中的部分高频词来构建网络。在高频词的选取过程中,其原则是尽可能多的涵盖文本的内容,通过计算高频词的词汇量占整篇文档词汇量的百分比,可知前25%~45%的高频词的词汇量已超过了整篇文档词汇量的50%以上,易选取前25%~45%的高频词作为文档的特征集合,如选取的前35%的分词。
g).构建特征网络的顶点,设是一篇文档,是文档的句子集合,是文档的特征集合,==,其中,为文档中的句子,1≤为文档中的分词,1≤;以文档的特征集合中的每个分词为网络顶点构建特征网络,形成特征网络的顶点集合=
h).构建特征网络的边,任意选取网络顶点集合的两个顶点,如果其同时出现于文档句子集合中的任意一个句子中,则为这两个顶点之间建立一条网络边,直至所有任意两个网络顶点判断完毕,所形成的网络边集合为=,1≤;通过顶点和边的建立,就形成了顶点为、边为的文档特征网络;
i).计算网络的平均度,通过公式(1)计算出文档特征网络的网络平均度
(1)
其中,为网络顶点的数目,为顶点的度数,其数值为与顶点相关联的边的条数;通过公式(1)可计算出样本集合中每篇文档所对应网络平均度的度量指标;
顶点的度是指与该顶点相关联的边的条数,网络中所有顶点的度数的平均值定义为网络的平均度。通过统计的方法可以得到网络中每个顶点的度数,然后再求其平均值即可获得网络的平均度。
j).计算网络的聚类系数,聚类系数表征了一个点的邻节点之间相互连接的程度,说明了网络中的顶点之间结集成团程度的系数;首先通过公式(2)求取单个顶点的聚类系数
(2)
其中,为顶点所拥有的边数,为顶点的所有个邻居顶点所拥有边数的和;
然后通过公式(3)计算出网络的聚类系数
(3)
其中,为顶点的聚类系数;通过公式(3)可计算出样本集合中每篇文档所对应网络的聚类系数的度量指标;
聚类系数也称群聚系数、聚合系数或集群系数。若某个顶点有条边,则这条边连接的顶点(个)之间最多可能存在的边的条数为,用实际存在的边数除以最多可能存在的边数得到的分数值,称为这个顶点的聚类系数。顶点的聚类系数是一个介于0与1之间的数,越接近1,表示这个顶点附近的点越有“抱团”的趋势。该度量指标描述了一个点的邻接点之间相互连接的程度,说明网络中的顶点之间结集成团的程度的系数。
k).计算网络的特征路径长度,连通网络中任意两个顶点的最少边数,称为这两个顶点的路径长度,网络中所有顶点对的路径长度的平均值,称为网络的特征路径长度;首先通过Dijstra算法得到文档特征网络中任意两个顶点之间的最短路径长度,然后根据公式(4)计算出网络的特征路径长度
(4)
通过公式(4)可计算出样本集合中每篇文档所对应特征网络的特征路径长度的度量指标;
特征路径长度也称为平均路径长度或平均最短路径长度。
l).获取各类文档网络度量指标的取值区间,对于训练样本中的所有文档均执行步骤b)至步骤k),以获取所有文档的网络度量指标;按照科技文献、小说和散文分别对网络度量指标进行归类,统计每类文档的三个网络度量指标的取值范围,归纳得到不同类文档各个网络度量指标的规律性取值区间,直至各类网络度量指标的取值区间满足精度要求,将其作为待分类文档的分类标准;设科技文献、小说和散文的网络平均度的取值区间分别为,聚类系数的取值分别为,网络平均度的取值分别为
将所得到的三类样本网络度量指标取值区间与分类所需的精度进行比对,当不满足精度要求时,增加样本数量以提高取值区间的精度。
如图3所示,给出了文档分类阶段的流程图,所述文档分类阶段通过以下步骤来实现:
m).待分类文档的处理,获取待分类的电子文档,并按照步骤b)至步骤k)中的方法对待分类的文档进行处理,求取待分类电子文档的网络平均度、聚类系数和特征路径的长度,分别记为;
n).文档分类的判断,根据步骤m)中求取的待分类文档的网络平均度、聚类系数和特征路径的长度,判断落入的区间所对应的文档类别,采用投票制将待分类文档归入相应的文档类别中。
本发明所述的两个阶段,样本训练阶段中的样本采集中可使用爬虫技术,为其指定抓取的位置,然后由机器自动实现,而后的样本训练和样本规律性结果的获取均可由机器自动实现。在文档分类阶段,除待分类文档输入需要用户指定文档外,其他步骤也均自动实现,因此总的来说本发明除输入待分类文本外,均无需人工干预可完全由机器学习的方法自动实现。

Claims (3)

1.一种基于网络度量指标的文档分类方法,包括样本训练阶段和文档分类阶段,其特征在于,
所述样本训练阶段通过以下步骤来实现:
a).样本采集,从现有多类文档库中采集足够数量的、已明确类别的科技文献、小说和散文,作为训练样本;并获取样本的文本内容;
b).文本分词,采用现有基于词典的分词方法对每篇文档进行分词,获取文档所包含的词汇;
c).词性分析,在分词的过程中,同时为文档的每个句子构建语法树,分析句子中每个分词的词性,并对分词的词性进行标注;
d).去除虚词和人名,为了突出文档所要表达的语义,将词汇中的虚词和人名去除,以获取不包含虚词和人名的文档词汇;
e).统计词频,统计步骤d)中所获取的不包含虚词和人名的词汇中每个分词出现的次数,获取分词的词频,将分词和对应的词频作为文档的特征;
f).构建特征集合VD,为了尽可能多的涵盖文本内容并减小构建网络的计算量,对每篇文档按词频数量从多至少选取前25%~45%的分词作为文档的特征集合VD
g).构建特征网络的顶点,设D是一篇文档,S是文档D的句子集合,VD是文档D的特征集合,S={s1,s2…,sl,…sq},VD={v1,v2…,vi,…vn},其中,sl为文档D中的句子,1≤l≤q;vi为文档D中的分词,1≤i≤n;以文档的特征集合VD中的每个分词为网络顶点构建特征网络,形成特征网络的顶点集合VG={v1,v2…,vi,…vn};
h).构建特征网络的边,任意选取网络顶点集合VG的两个顶点vi和vj,如果其同时出现于文档D句子集合S中的任意一个句子sl中,则为这两个顶点之间建立一条网络边ek(vi,vj),直至所有任意两个网络顶点判断完毕,所形成的网络边集合为EG={e1,e2…,ek,…em},1≤k≤m;通过顶点和边的建立,就形成了顶点为VG、边为EG的文档特征网络;
i).计算网络的平均度,通过公式(1)计算出文档特征网络的网络平均度Ave_Degree:
A v e _ D e g r e e = 1 n Σ i = 1 n degree i - - - ( 1 )
其中,n为网络顶点的数目,degreei为顶点vi的度数,其数值为与顶点vi相关联的边的条数;通过公式(1)可计算出样本集合中每篇文档所对应网络平均度的度量指标;
j).计算网络的聚类系数,聚类系数表征了一个点的邻节点之间相互连接的程度,说明了网络中的顶点之间结集成团程度的系数;首先通过公式(2)求取单个顶点的聚类系数CCvi
CC v i = sum k C k 2 = 2 sum k k ( k - 1 ) - - - ( 2 )
其中,k为顶点vi所拥有的边数,sumk为顶点vi的所有k个邻居顶点所拥有边数的和;
然后通过公式(3)计算出网络的聚类系数CCG
CC G = 1 n Σ i = 1 n CC v i - - - ( 3 )
其中,CCvi为顶点vi的聚类系数;通过公式(3)可计算出样本集合中每篇文档所对应网络的聚类系数的度量指标;
k).计算网络的特征路径长度,连通网络中任意两个顶点的最少边数,称为这两个顶点的路径长度,网络中所有顶点对的路径长度的平均值,称为网络的特征路径长度;首先通过Dijstra算法得到文档特征网络中任意两个顶点vi和vj之间的最短路径长度dist(i,j),然后根据公式(4)计算出网络的特征路径长度Ave_Distance:
A v e _ D i s tan c e = 2 n ( n - 1 ) Σ i ≤ n Σ j > i d i s t ( i , j ) - - - ( 4 )
通过公式(4)可计算出样本集合中每篇文档所对应特征网络的特征路径长度的度量指标;
l).获取各类文档网络度量指标的取值区间,对于训练样本中的所有文档均执行步骤b)至步骤k),以获取所有文档的网络度量指标;按照科技文献、小说和散文分别对网络度量指标进行归类,统计每类文档的三个网络度量指标的取值范围,归纳得到不同类文档各个网络度量指标的规律性取值区间,直至各类网络度量指标的取值区间满足精度要求,将其作为待分类文档的分类标准;设科技文献、小说和散文的网络平均度的取值区间分别为[De1,De2)、[De3,De4)、[De5,De6),聚类系数的取值分别为[CC1,CC2)、[CC3,CC4)、[CC5,CC6),特征路径长度的取值分别为[Di1,Di2)、[Di3,Di4)、[Di5,Di6);
所述文档分类阶段通过以下步骤来实现:
m).待分类文档的处理,获取待分类的电子文档,并按照步骤b)至步骤k)中的方法对待分类的文档进行处理,求取待分类电子文档的网络平均度、聚类系数和特征路径的长度,分别记为De′、CC′和Di′;
n).文档分类的判断,根据步骤m)中求取的待分类文档的网络平均度、聚类系数和特征路径的长度,判断De′、CC′和Di′落入的区间所对应的文档类别,采用投票制将待分类文档归入相应的文档类别中。
2.根据权利要求1所述的基于网络度量指标的文档分类方法,其特征在于:步骤a)中所述的获取样本的文本内容包括抽取文档文本和预处理,在抽取文档文本的过程中,对pdf、doc和html格式的文档分别采用PDFBox插件、javadoc插件和HTMlParser解析文档以获取文档文本;预处理为将获取的文档文本中的无关信息进行去除,对于html文档应将与主题无关的广告、友情链接、同类推荐垃圾信息过滤掉。
3.根据权利要求1或2所述的基于网络度量指标的文档分类方法,其特征在于:步骤b)中所采用的分词方法为采用最大匹配法从文档中获取其所包含的词汇;步骤c)中所述的词性分析为使用ICTCLAS2008汉语词性标记集中的99个词性标记符号,对获取的分词进行词性标注;步骤f)中所获取的文档特征集合VD中的分词为从多至少选取的前35%的分词。
CN201410215328.5A 2014-05-21 2014-05-21 基于网络度量指标的文档分类方法 Expired - Fee Related CN103970888B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410215328.5A CN103970888B (zh) 2014-05-21 2014-05-21 基于网络度量指标的文档分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410215328.5A CN103970888B (zh) 2014-05-21 2014-05-21 基于网络度量指标的文档分类方法

Publications (2)

Publication Number Publication Date
CN103970888A CN103970888A (zh) 2014-08-06
CN103970888B true CN103970888B (zh) 2017-02-15

Family

ID=51240386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410215328.5A Expired - Fee Related CN103970888B (zh) 2014-05-21 2014-05-21 基于网络度量指标的文档分类方法

Country Status (1)

Country Link
CN (1) CN103970888B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110260882A (zh) * 2019-06-25 2019-09-20 北京金山安全软件有限公司 基于电子地图的计步方法、装置和电子设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182182B (zh) * 2017-12-27 2021-09-10 传神语联网网络科技股份有限公司 翻译数据库中文档匹配方法、装置及计算机可读存储介质
CN108509552A (zh) * 2018-03-22 2018-09-07 广西科技大学鹿山学院 一种文本分类方法
CN109299850A (zh) * 2018-08-09 2019-02-01 中国人民解放军战略支援部队航天工程大学 基于复杂网络模型的天基信息支援信息流程设计方法
CN112309368A (zh) * 2020-11-23 2021-02-02 北京有竹居网络技术有限公司 韵律预测方法、装置、设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576903A (zh) * 2009-03-03 2009-11-11 杜小勇 一种文档相似度衡量方法
CN101853250A (zh) * 2009-04-03 2010-10-06 华为技术有限公司 对文档进行分类的方法及装置
CN101944099A (zh) * 2010-06-24 2011-01-12 西北工业大学 一种使用本体进行文本文档自动分类的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8335683B2 (en) * 2003-01-23 2012-12-18 Microsoft Corporation System for using statistical classifiers for spoken language understanding
US20060069678A1 (en) * 2004-09-30 2006-03-30 Wu Chou Method and apparatus for text classification using minimum classification error to train generalized linear classifier

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576903A (zh) * 2009-03-03 2009-11-11 杜小勇 一种文档相似度衡量方法
CN101853250A (zh) * 2009-04-03 2010-10-06 华为技术有限公司 对文档进行分类的方法及装置
CN101944099A (zh) * 2010-06-24 2011-01-12 西北工业大学 一种使用本体进行文本文档自动分类的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于图模型的中文文档分类研究;邹加棋 等;《小型微型计算机系统》;20060430;第27卷(第4期);754-757 *
文本网络表示研究与应用;刘建毅 等;《中国科技论文在线》;20071031;第2卷(第10期);755-760 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110260882A (zh) * 2019-06-25 2019-09-20 北京金山安全软件有限公司 基于电子地图的计步方法、装置和电子设备

Also Published As

Publication number Publication date
CN103970888A (zh) 2014-08-06

Similar Documents

Publication Publication Date Title
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
Schäfer et al. Building large corpora from the web using a new efficient tool chain.
CN102411563B (zh) 一种识别目标词的方法、装置及系统
Akter et al. An extractive text summarization technique for Bengali document (s) using K-means clustering algorithm
CN103970888B (zh) 基于网络度量指标的文档分类方法
CN108197144B (zh) 一种基于BTM和Single-pass的热点话题发现方法
CN104484380A (zh) 个性化搜索方法及装置
CN101944099A (zh) 一种使用本体进行文本文档自动分类的方法
CN106156163B (zh) 文本分类方法以及装置
WO2022121163A1 (zh) 用户行为倾向识别方法、装置、设备及存储介质
Kaur et al. News classification and its techniques: a review
CN110188077A (zh) 一种电子卷宗智能分类方法、装置、电子设备和存储介质
CN110222260A (zh) 一种搜索方法、装置及存储介质
Zaghloul et al. Text classification: neural networks vs support vector machines
Campbell et al. Content+ context networks for user classification in twitter
CN113743079A (zh) 一种基于共现实体交互图的文本相似度计算方法及装置
Saha et al. A large scale study of SVM based methods for abstract screening in systematic reviews
CN107122420A (zh) 一种旅游热点事件检测方法及系统
CN110580286A (zh) 一种基于类间信息熵的文本特征选择方法
CN106649255A (zh) 一种对短文本自动分类和识别主题词的方法
CN109492098A (zh) 基于主动学习和语义密度的目标语料库构建方法
CN105183894B (zh) 过滤网站内链的方法及装置
Vanegas et al. Bioingenium at Image. CLEF 2012: Textual and Visual Indexing for Medical Images
Broda et al. Evaluation method for automated wordnet expansion
CN104123272B (zh) 一种基于方差的文档分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170215

Termination date: 20190521