CN102004796A - 一种网页文本的无阻滞层次分类方法与装置 - Google Patents

一种网页文本的无阻滞层次分类方法与装置 Download PDF

Info

Publication number
CN102004796A
CN102004796A CN 201010605831 CN201010605831A CN102004796A CN 102004796 A CN102004796 A CN 102004796A CN 201010605831 CN201010605831 CN 201010605831 CN 201010605831 A CN201010605831 A CN 201010605831A CN 102004796 A CN102004796 A CN 102004796A
Authority
CN
China
Prior art keywords
text
classification
feature
web page
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010605831
Other languages
English (en)
Other versions
CN102004796B (zh
Inventor
钱钢
王艳军
沈玲玲
王海
钱铁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Nanshen audit big data Research Institute Co.,Ltd.
Original Assignee
钱钢
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 钱钢 filed Critical 钱钢
Priority to CN2010106058313A priority Critical patent/CN102004796B/zh
Publication of CN102004796A publication Critical patent/CN102004796A/zh
Application granted granted Critical
Publication of CN102004796B publication Critical patent/CN102004796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于信息技术领域,涉及网页文本的无阻滞层次分类方法和装置。包括:基于训练文本TF向量的均值和方差以及rough集属性约简的特征抽取方法;确定每个分类器的辨识框架和焦元,利用特征的权重构造基本可信度分配函数(BPA);根据基本可信度分配函数和待分类网页文本的特征权重合成待分类网页文本在类别树的每个节点的信度分配;利用信度分配根据分类规则对待分类网页文本进行分类。本发明还公开实现方法的装置。本发明完全可以应用在实时系统上或者其他对时间要求比较高的场合,例如网络上;可以用于网站特别是大规模网站的文本自动分类管理,可以代替人力进行文本的层次分类;还可以用于知识管理系统中的带标题文本的分类管理,高效快速。

Description

一种网页文本的无阻滞层次分类方法与装置
技术领域:本发明属于信息技术领域,涉及利用数据挖掘技术进行网络文本信息处理的方法和装置,特别是涉及一种基于粗糙集理论和证据推理理论的网页文本的无阻滞层次分类方法和装置。
背景技术:随着在行业内部网络或者因特网上的各种技术类、办公类以及其他电子化文档的快速增长,对文档的分类管理效率及性能提出了更高要求。一方面海量的文档导致单层目录导航不再高效,需要更加科学的多层次目录分类系统进行文档分类管理。另一方面单纯依靠手工对大量文档进行分类已经显得不切实际。所以,文本的自动层次分类技术的研究有很强的实际应用意义。然而目前比较成熟的研究与应用大多在文档的单层目录分类上,文本多层次分类技术还处在初步探索阶段,分类的准确度和性能仍是需要解决的关键问题。
目前探索的层次分类方法的解决方案可以分为两种:
(1)自顶向下的方法(top-down level-based)现有的大部分层次分类方法都采用这种模式,其特点是在类别树的每一层都构建一个或者多个分类器,每个分类器在所在层像单层文本分类一样工作。一个文本从根节点开始,逐层向下分类,直至到达叶子节点。这种方法具有明显的优点:将大的分类问题转化为小的子问题,能较好地降低时间和空间复杂度。然而这种方法也有明显的缺点:如果一个文本被分入了错误的父类,将不可能分入正确的叶子类。一般把这种情况称之为阻滞。
(2)大爆炸方法(big-bang)这种方法在整个分类过程中只构造一个分类器。并用来对文本进行分类。虽然克服了方法1所述的缺点,但方法的时间空间开销一般比较大,不适合在对时间要求较高的场合比如网络上使用。
在没有一种方法能保证100%的正确率的前提下,尽可能提高分类准确率就成了分类算法追求的目标。利用特征进行分类的模式下,特征包含的信息是模糊的,不确定的。比如“电脑”一词即可能出现在计算机类的文本中,也可能出现在生物科技类的文本,很难确定一个特征词只出现在一个文本类中,不出现在其他类中,这就是当前的分类算法热衷于使用概率来描述特征的区分度的原因。
对于一个文本分类问题的解决方案,两个环节是其关键:一是文本特征的选取;二是分类器的训练。对于文本特征的选取,有基于概率或统计的方法,比如TF或TF*IDF公式,也有在此基础上的基于互信息量和信息增益的方法,比如期望交叉熵、CHI统计量等。另一种常用的方法就是基于粗糙(rough)集理论的属性约简,该方法利用上下近似等概念,从大量数据中剔除冗余信息,求出大量数据中的最小不变核,也就是对分类决策最有用的信息。在平面分类问题中,分类器的训练有多种方法,常用的有KNN方法、支持向量机方法、rough集方法等。
网页文本的分类作为搜索引擎的预处理或者网站的文本自动分类管理具有很大的意义。而这种情况下的文本分类有别于通常的文本分类,最显著的特点就是对算法的时间复杂度很敏感,通常为了适应这个特点不得不牺牲一定程度的分类准确率。
发明内容:本发明的目的是提出一种新的网页文本分类方法和装置,即网页文本的无阻滞层次分类方法和装置。
本发明所述网页文本的无阻滞层次分类方法,包括:
基于训练文本TF向量的均值和方差以及rough集属性约简的特征抽取方法;
确定每个分类器的辨识框架和焦元,利用特征的权重构造基本可信度分配函数(BPA);
根据基本可信度分配函数和待分类网页文本的特征权重合成待分类网页文本在类别树的每个节点的信度分配;
利用信度分配根据分类规则对待分类网页文本进行分类。
具体地说,包括:
a)基于训练文本TF向量的均值和方差以及rough集属性约简的特征抽取方法,主要技术方案为:首先利用类c中各子类的训练文本的词的TF值的期望、类内方差以及类间方差从词典中抽取指定数量的词作为候选特征词,然后利用rough集的属性约简理论,通过判断候选特征词作为条件属性时对决策属性的重要性来决定改候选特征词是否作为当前分类器的特征;
b)对于层次分类的每个分类器,确定其辨识框架为:
Figure BDA0000040531410000021
确定其可能的焦元集合为
Figure BDA0000040531410000022
其中为父节点c的nc个子节点;
c)对于层次分类的每个分类器,将每个特征及其出现次数作为分类的一个证据,特征证据的基本可信度分配函数(BPA)为:
m ( c i ) = tf ij / Σ j = 1 n c tf ij , i=1,2,…,nc
m ( { c 1 , c 2 , · · · , c n c } ) = 1 - Σ i = 1 n c m ( c i ) ,
其中tfij为特征tzj上类别ci的训练文本的平均TF值,i=1,2,,nc,j=1,2,…,tc
d)对于待分类网页文本x,预处理后,按如下规则计算其在每次分类时的特征的权重:
w j = tf j / Σ i = 1 t c tf j , if Σ i = 1 t c tf j ≠ 0 0 , if Σ i = 1 t c tf j = 0 j=1,2,,tc
其中tfj为的待分类网页文本x的特征tzj上的TF值;
e)对于待分类网页文本x,首先将其在类别树的每个节点的可信度,然后从底向上逐层合成待分类网页文本x属于类别树的每个节点的概率P(c):
Figure BDA0000040531410000032
本发明同时公开了一种实现本发明网页文本的无阻滞层次分类方法的装置,包括如下依次串行连接的4个模块:
a)文本预处理模块U1:从网络上或者数据库中获取文本,并预处理成T F向量的形式,包括文本获取单元U11,格式化单元U12,分词单元U13和文本向量生成单元U14;
b)类别树生成模块U2:利用从文本预处理模块U1获取的训练文本通过层次聚类技术生成分类过程中使用的类别树以及类别名称,同时对训练文本添加类标号,包括层次聚类单元U21,类别树及类别名称生成单元U21和文本类标号添加单元U21;
c)特征提取模块U3:利用类别树生成模块U2生成的类别树和带类标号的训练文本确定每个分类器的辨识框架和焦元,抽取每个分类器的特征并生成对应的基本可信度分配函数(BPA),包括辨识框架与焦元生成单元U31,候选特征生成单元U32,基于rough集的特征抽取单元U33,基本可信度分配函数生成单元U34;
d)分类与统计模块U4:对于每个预处理后的待分类网页文本,计算在每个分类器下的特征证据的权重,利用证据推理算法合成证据,从而得到待分类网页文本在类别树各节点的可信度,再计算其属于各类别的概率并分类,并统计分类精度,包括特征权重生成单元U41,证据合成单元U42,概率计算单元U43,分类单元U44和分类精度统计单元U45。
本发明的网页文本的无阻滞层次分类方法有以下优点:
1、本发明的特征抽取算法可以在兼顾分类精度的同时很大程度的减少特征数,这使得本发明的方法完全可以应用在实时系统上或者其他对时间要求比较高的场合,例如网络上;
2、本发明的方法在对待分类网络文本进行分类时,通过先在所有分类器中预分类,在通过特定算法综合各类别的可信度,用来修正预分类的结果。这样使得在下一层次分类时可以纠正上一层分类的错误;
3、本发明的方法并没有独立的看待每个层次的类别,二是充分利用了层次之间的关系,通过下一层次的可信度来修正上一层次的可信度,再自顶向下分类,提高了分类精度;
本发明的网页文本的无阻滞层次分类方法与装置具有明显的效益:
1、如上述的方法,由于分类算法的时间空间复杂度较小,可以很方便地应用于网络上,例如应用于搜索引擎的文本预分类,可以高效快速地向用户提供正确类别的搜索结果,提高用户的体验度;
2、本发明的网页文本分类方法与装置可以用于网站特别是大规模网站的文本自动分类管理,可以代替人力进行文本的层次分类;
3、本发明的网页文本分类方法也是一种带标题文本的层次分类方法,故还可以用于知识管理系统中的带标题文本的分类管理;
附图说明:图1是本发明实施例中网页文本的无阻滞层次分类方法的流程图;
图2是本发明实施例中分类器训练的流程图;
图3是本发明实施例中特征抽取算法的流程图;
图4是本发明实施例中待分类网页文本在类别树各节点的可信度分配过程的流程图;
图5是本发明实施例中待分类网页文本属于类别树各节点的概率的计算及分类结果确定的流程图;
图6是实现本发明网页文本无阻滞层次分类方法的装置的结构图。
具体实施方式:以下结合附图对本发明作具体说明。应该指出,所描述的实施例仅仅视为说明的目的,而不是对本发明的限制。
实施例1
本发明的实施例1提供了一种网页文本无阻滞层次分类方法,如图1所示,包括以下步骤:
步骤101:网页文本预处理;
步骤102:从训练文本中为每个分类器提取特征,同时确定每个分类器的辨识框架和焦元,计算特征的权重并构造基本可信度分配函数(BPA);
步骤103:根据基本可信度分配函数和待分类网页文本的特征权重合成待分类网页文本在类别树的每个节点的信度分配;
步骤104:利用信度分配根据分类规则对待分类网页文本进行分类。
以下进一步详细的说明本发明实施例中的各个细节问题。
本发明假设类别树已知(事实上,类别树的确定以及扩充可以通过层次聚类的方法来完成),共有L个层次,NC个表示类别的节点,其中非叶子节点有N个,也就是在自顶向下的层次分类方法中一共有N个分类器,对于每一个分类器,也就是一个包含一个父节点(父类)和若干子节点(子类)的类别树的子树,记父节点为c,对应的子节点为ci,其中i=1,2,,nc
1、网页文本的预处理
网页文本是一种格式化的文本,考虑到其特殊性,本发明提取格式化文本中的标题和正文部分,再通过处理转化成一般文本进而利用向量空间模型表示文本:
设一篇文本的标题的TF向量为:
TF ( H ) = ( tf 1 ( H ) , f 2 ( H ) , · · · , f n ( H ) )
其中n为词典中的词总数;文本的正文TF向量为:
TF ( T ) = ( tf 1 ( T ) , f 2 ( T ) , · · · , f n ( T ) )
由于标题能很大程度的反映出文本的类别,故应区别的对待词出现的位置。这里将文本的TF向量表示为:
TF=α.TF(H)+TF(T)
其中α为参数,且α>1。
2、分类器训练
特征抽取与分类器的训练,如图2所示,包含如下步骤:
步骤201:对类别树进行先根遍历,生成类别树的节点队列;
步骤202:队列元素出列,设置为当前节点;
步骤203:判断当前节点是否为叶子节点,如果是,转入步骤207;否则,转入可以并行执行的步骤204和步骤205;
步骤204:获取当前节点的所有子节点,并生成当前分类器的分类决策问题的辨识框架如下:
如前所述,设此时的父节点为c,对应的子节点为ci,其中i=1,2,,nc,辨识框架设定为:
H = { c 1 , c 2 , · · · , c n c }
H中共nc个元素;可能的焦元集合为
F = { c 1 , c 2 , · · · , c n c , { c 1 , c 2 , · · · , c n c } }
F中共有nc+1个元素,也就是说m(2H\F)=0。若m(c1)=0.5说明文本属于c下的第一个子类的概率为50%;若
Figure BDA0000040531410000055
说明存在10%的不确定,即现有证据不知道文本属于哪个子类。使用证据理论进行分类的优点就在于其可以定量的描述分类问题的不确定性,通过合理的方法处理这种不确定性,能更好的改善分类问题的精度。
步骤205:利用基于训练文本TF向量的均值和方差以及rough集属性约简的特征抽取方法抽取当前分类器的特征。该方法的输入为类c的所有训练文本,输出为当前分类器的特征,也就是在类c下分类的特征,设共有tc个特征,记为tzj(j=1,2,…,tc);
步骤206:生成特征的基本可信度分配函数(BPA)。设特征tzj上类别ci的训练文本的平均TF值为tfij,其中i=1,2,,nc,j=1,2,…,tc。则可能的焦元集合F中的元素的基本可信度按如下规则分配:
m ( c i ) = tf ij / Σ j = 1 n c tf ij , i=1,2,…,nc
m ( { c 1 , c 2 , · · · , c n c } ) = 1 - Σ i = 1 n c m ( c i ) ;
步骤207:如果队列非空,则转入步骤202,否则,转入步骤208;
步骤208:输出所有分类器的特征及其基本可信度分配函数(BPA),算法结束。
图2中的步骤205中所述基于训练文本TF向量的期望和方差以及rough集属性约简的特征抽取方法,基本思想为:首先利用类c中各子类的训练文本的词的TF值的期望、类内方差以及类间方差从词典中抽取指定数量(记为t1)的词作为候选特征词,然后利用rough集的属性约简理论,通过判断候选特征词作为条件属性时对决策属性的重要性来决定改候选特征词是否作为当前分类器的特征,如图3,其步骤包括:
步骤301:将类c的所有训练文本TF向量构成的矩阵分块为若干子矩阵,其中每个子矩阵由类c的一个子类ci的所有训练文本TF向量构成的矩阵;
步骤302:对于i∈{1,2,…,nc},计算子类ci的矩阵的列期望和列方差(特征TF类内方差),得到的行向量分别记为Ei
Figure BDA0000040531410000063
步骤303:将所有的Ei组成一个矩阵E,即
Figure BDA0000040531410000064
将所有的组成一个矩阵D(I),即
Figure BDA0000040531410000066
计算E的列方差(特征TF类间方差),得到的行向量记为D1;
步骤304:对于矩阵E的各列的最大值,选择D(I)中对应位置的元素,组成的行向量记为D2;
步骤305:去掉类间方差几乎为零(≤1e-8)的词;选取类内方差几乎为零(≤1e-8)的词作为候选特征词;选择D1-D2中较大元素对应的词作为特征词,按大小排在方差几乎为零的候选特征词之后;共选择t1个候选特征词,其集合记为
步骤306:设特征集合为R,赋初值R=φ;取T中的元素T1:t=T1
步骤307:如果δR∪{t}(c)>δR(c),则转入步骤308;否则,转入步骤309;其中,δR(c)表示条件属性R对决策属性c的重要性;
步骤308:R=R∪{t},取T中的下一个元素赋给t,转入步骤307;
步骤309:输出特征集合R以及特征数tc
3、证据合成与可信度分配
当分类需要的分类器的特征和基本可信度分配函数确定后,就可以用来对待分类网页文本进行分类。本发明采用改进的证据理论——analytical evidential reasoning algorithm进行证据合成,该方法为现有技术。可信度分配过程,如图4,分为如下步骤:
步骤401:将待分类网页文本x预处理成TF向量形式,预处理方法同前述;
步骤402:对于一个非叶子节点c,获取当前分类器的tc个特征tzj(j=1,2,…,tc),将待分类网页文本x的TF向量按特征约简,记约简的结果为:
x = ( tf 1 , tf 2 , · · · , tf t c )
分类时将每个特征的出现次数作为一个证据,简称特征证据。特征证据的权重按如下规则计算:
w j = tf j / Σ i = 1 t c tf j , if Σ i = 1 t c tf j ≠ 0 0 , if Σ i = 1 t c tf j = 0 j=1,2,,tc
步骤403:获取当前分类器的特征的基本可信度分配函数,利用特征的基本可信度分配函数和特征证据权重按analytical evidential reasoning algorithm合成待分类网页文本x在类别c下属于其子类ci的可信度,记为β(ci),即P(ci|c)=β(ci);
步骤404:如果还有非叶子节点未遍历,转入步骤402;否则,转入步骤405;
步骤405:结束。
4、分类规则
上述算法获得了待分类网页文本x属于类别树上的每个节点的基本可信度,在实际操作的过程中,如果某个类c的可信度为0,则可以终止在其子类上的分类,这样可以减少很多的计算量,节约了开销。为了确定其所属的层次类别,本发明设计了下面的分类结果确定方法,设类别树的总层次数为L,如图5所示,包含如下步骤:
步骤501:设置类别树的第L层为当前层;
步骤502:如果当前层次为第一层,转入步骤505;否则,转入步骤503;
步骤503:获取当前层的所有节点;按如下规则计算待分类网页文本x属于当前层次每个节点c的概率P(c):
Figure BDA0000040531410000081
其中β(c)为待分类网页文本x属于类别树节点c的可信度,
Figure BDA0000040531410000082
为待分类网页文本x属于类别树节点c的所有子类的可信度的和。显然,P(c)≤β(c),并且如果分类网页文本x属于类别c是一个正确的分类,则
Figure BDA0000040531410000083
一般接近于1,如果分类网页文本x属于类别c是一个错误的分类,
Figure BDA0000040531410000084
一般接近于0。所以本发明方法充分利用了层次之间的关系,有利于分类精度的改进。
步骤504:当前层次=当前层次-1,转入步骤502;
步骤505:对待分类网页文本x从类别树的根节点开始自顶向下按照概率最大原则进行分类,输出分类结果。
5、实验
本发明采取了下面的实验来验证本发明方法的有效性和相对传统方法的有效性。本实验采用的训练语料为中文文本分类语料库-TanCorpV1.0,该语料库分为两个层次,第一层12个类别,第二层60个类别,共有文本14150篇,文本分布不平衡。测试语料使用中德语言技术联合实验室的新闻语料库系统(News Corpus System),从中搜索得到涉及TanCorpV1.0中的6个大类28个小类的共1533篇新闻网页,利用本发明公开的方法,进行层次分类层次。评价指标选择准确率(P)和召回率(R)。参数α的取值为5。实验中用到的7分类器(以分类的父节点作为分类器名称)的特征数见表1、以及在此条件下的分类测试的各类别准确率(P)和召回率(R)见表2。
表1分类器的特征数
Figure BDA0000040531410000085
表2各类别测试文本的指标值
Figure BDA0000040531410000091
实施例2
本发明的实施例2还提供了一种网页文本的无阻滞层次分类装置,如图6所示,包括:
a)文本预处理模块U1:从网络上或者数据库中获取文本,并预处理成T F向量的形式,包括:
文本获取单元U11,用于从网络上或者数据库中获取文本;
格式化单元U12,用于对文本获取单元U11获取的文本格式化,格式化的结果包含文本标题和文本正文两部分;
分词单元U13,用于对格式化单元U12中生成的格式化文本进行分词;
文本向量生成单元U14,用于对经过分词的文本标题和文本正文合成并转化成TF向量形式;
b)类别树生成模块U2:利用从文本预处理模块U1获取的训练文本通过层次聚类技术生成分类过程中使用的类别树以及类别名称,同时对训练文本添加类标号,包括:
层次聚类单元U21,用于对文本预处理模块U1获取的经过预处理的训练文本进行层次聚类;
类别树及类别名称生成单元U22,从层次聚类单元U21的层次聚类结果中生成或给定类别名称,同时生成类别树;
文本类标号添加单元U23,利用聚类结果对每个训练文本添加类标号;
c)特征提取模块U3:利用类别树生成模块U2生成的类别树和带类标号的训练文本确定每个分类器的辨识框架和焦元,抽取每个分类器的特征并生成对应的基本可信度分配函数(BPA),包括:
辨识框架与焦元生成单元U31,生成当前分类器的辨识框架与可能的焦元集合;
候选特征生成单元U32,利用训练文本的TF向量的期望、类内方差和类间方差提取指定数量的词作为候选特征;
基于rough集的特征抽取单元U33,利用候选特征对决策属性(类别)的重要性从候选特征中选取词作为最终的分类特征;
基本可信度分配函数生成单元U34,利用类文本TF均值生成每个特征条件下的焦元的基本可信度分配函数;
d)分类与统计模块U4:对于每个预处理后的待分类网页文本,计算在每个分类器下的特征证据的权重,利用证据推理算法合成证据,从而得到待分类网页文本在类别树各节点的可信度,再计算其属于各类别的概率并分类,最后统计分类精度,包括:
特征权重生成单元U41,生成待分类网页文本在当前分类器下各特征证据的权重;
证据合成单元U42,利用analytical evidential reasoning algorithm证据推理算法进行证据合成;
概率计算单元U43,利用证据支持待分类网页文本属于类别树各阶段的可信度计算其属于类别树各类别的概率;
分类单元U44,根据概率计算单元U43生成的待分类网页文本属于类别树各类别的概率自顶向下根据概率最大原则进行层次分类;
分类精度统计单元U45,通过统计迄今为止的所有分类的正误情况计算分类算法的精度。

Claims (11)

1.一种网页文本的无阻滞层次分类方法,其特征在于,所述方法包括:
基于训练文本TF向量的均值和方差以及rough集属性约简的特征抽取方法;
确定每个分类器的辨识框架和焦元,利用特征的权重构造基本可信度分配函数(BPA);
根据基本可信度分配函数和待分类网页文本的特征权重合成待分类网页文本在类别树的每个节点的信度分配;
利用信度分配根据分类规则对待分类网页文本进行分类。
2.如权利要求1的方法,其特征在于,所述基于训练文本TF向量的均值和方差以及rough集属性约简的特征抽取方法包括:
利用类中各子类的训练文本的词的TF值的期望、类内方差以及类间方差从词典中抽取指定数量的词作为候选特征词;
利用rough集的属性约简理论,通过判断候选特征词作为条件属性时对决策属性的重要度来决定改候选特征词是否作为当前分类器的特征。
3.如权利要求2所述的方法,其特征在于,所述利用类中各子类的训练文本的词的TF值的期望、类内方差以及类间方差从词典中抽取指定数量的词作为候选特征词包括如下步骤:
步骤301:将类c的所有训练文本TF向量构成的矩阵分块为若干子矩阵,其中每个子矩阵由类c的一个子类ci的所有训练文本TF向量构成的矩阵;
步骤302:计算类c的子类ci(i∈{1,2,…,nc},其中nc为类c的子类的个数)的矩阵的列期望和列方差(特征TF类内方差),得到的行向量分别记为Ei
Figure FDA0000040531400000011
步骤303:将所有的Ei组成一个矩阵E,即将所有的
Figure FDA0000040531400000013
组成一个矩阵D(I),即计算E的列方差(特征TF类间方差),得到的行向量记为D1;
步骤304:对于矩阵E的各列的最大值,选择D(I)中对应位置的元素,组成的行向量记为D2;
步骤305:去掉类间方差几乎为零(≤1e-8)的词;选取类内方差几乎为零(≤1e-8)的词作为候选特征词;选择D1-D2中较大元素对应的词作为特征词,按大小排在方差几乎为零的候选特征词之后;共选择t1个候选特征词,其集合记为
所述利用rough集的属性约简理论,通过判断候选特征词作为条件属性时对决策属性的重要度来决定改候选特征词是否作为当前分类器的特征包含如下步骤:
步骤306:设特征集合为R,赋初值R=φ;取T中的元素T1:t=T1
步骤307:如果δR∪{t}(c)>δR(c),则转入步骤308;否则,转入步骤309;其中,δR(c)表示条件属性R对决策属性c的重要性;
步骤308:R=R∪{t},取T中的下一个元素赋给t,转入步骤307;
步骤309:输出特征集合R以及特征数tc
4.如权利要求1的方法,其特征在于,所述确定每个分类器的辨识框架和焦元包括:
辨识框架设定为:
H = { c 1 , c 2 , · · · , c n c }
焦元为可能的焦元集合为
F = { c 1 , c 2 , · · · , c n c , { c 1 , c 2 , · · · , c n c } }
其中该分类器的父节点为c,对应的子节点为ci,i=1,2,,nc
所述利用特征的权重构造基本可信度分配函数(BPA)包括:
可能的焦元集合F中的元素的基本可信度按如下规则分配:
m ( c i ) = tf ij / Σ j = 1 n c tf ij , i=1,2,…,nc
m ( { c 1 , c 2 , · · · , c n c } ) = 1 - Σ i = 1 n c m ( c i ) ;
其中tfij为特征tzj上类别ci的训练文本的平均TF值,i=1,2,,nc,j=1,2,…,tc
5.如权利要求1的方法,其特征在于,所述根据基本可信度分配函数和待分类网页文本的特征权重合成待分类网页文本在类别树的每个节点的信度分配包括如下步骤:
步骤401:将待分类网页文本x预处理成TF向量形式;
步骤402:对于一个非叶子节点c,获取当前分类器的tc个特征tzj(j=1,2,…,tc),将待分类网页文本x的TF向量按特征约简,记约简的结果为:
Figure FDA0000040531400000025
分类时将每个特征的出现次数作为一个证据,简称特征证据;特征证据的权重按如下规则计算:
w j = tf j / Σ i = 1 t c tf j , if Σ i = 1 t c tf j ≠ 0 0 , if Σ i = 1 t c tf j = 0 j=1,2,,tc
步骤403:获取当前分类器的特征的基本可信度分配函数,利用特征的基本可信度分配函数和特征证据权重按analytical evidential reasoning algorithm合成待分类网页文本x在类别c下属于其子类ci的可信度,记为β(ci),即P(ci|c)=β(ci);
步骤404:如果还有非叶子节点未遍历,转入步骤402;否则,转入步骤405;
步骤405:结束。
6.如权利要求1的方法,其特征在于,所述利用信度分配根据分类规则对待分类网页文本进行分类包括如下步骤:
步骤501:设置类别树的第L层为当前层;
步骤502:如果当前层次为第一层,转入步骤505;否则,转入步骤503;
步骤503:获取当前层的所有节点;按如下规则计算待分类网页文本x属于当前层次每个节点c的概率P(c):
Figure FDA0000040531400000031
其中β(c)为待分类网页文本x属于类别树节点c的可信度,
Figure FDA0000040531400000032
为待分类网页文本x属于类别树节点c的所有子类的可信度的和;
步骤504:当前层次=当前层次-1,转入步骤502;
步骤505:对待分类网页文本x从类别树的根节点开始自顶向下按照概率最大原则进行分类,输出分类结果。
7.一种实现权利要求1所述网页文本的无阻滞层次分类方法的装置,其特征在于,包括如下依次串行连接的4个模块:
文本预处理模块U1:从网络上或者数据库中获取文本,并预处理成T F向量的形式;
类别树生成模块U2:利用从文本预处理模块U1获取的训练文本通过层次聚类技术生成分类过程中使用的类别树以及类别名称,同时对训练文本添加类标号;
特征提取模块U3:利用类别树生成模块U2生成的类别树和带类标号的训练文本确定每个分类器的辨识框架和焦元,抽取每个分类器的特征并生成对应的基本可信度分配函数(BPA);
分类与统计模块U4:对于每个预处理后的待分类网页文本,计算在每个分类器下的特征证据的权重,利用证据推理算法合成证据,从而得到待分类网页文本在类别树各节点的可信度,再计算其属于各类别的概率并分类,并统计分类精度。
8.如权利要求7所述的无阻滞层次分类装置,其特征在于,所述文本预处理模块U1包括:
文本获取单元U11,用于从网络上或者数据库中获取文本;
格式化单元U12,用于对文本获取单元U11获取的文本格式化,格式化的结果包含文本标题和文本正文两部分;
分词单元U13,用于对格式化单元U12中生成的格式化文本进行分词;
文本向量生成单元U14,用于对经过分词的文本标题和文本正文合成并转化成TF向量形式。
9.如权利要求7所述的无阻滞层次分类装置,其特征在于,所述类别树生成模块U2包括:
层次聚类单元U21,用于对文本预处理模块U1获取的经过预处理的训练文本进行层次聚类;
类别树及类别名称生成单元U22,从层次聚类单元U21的层次聚类结果中生成或给定类别名称,同时生成类别树;
文本类标号添加单元U23,利用聚类结果对每个训练文本添加类标号。
10.如权利要求7所述的无阻滞层次分类装置,其特征在于,所述特征提取模块U3包括:
辨识框架与焦元生成单元U31,生成当前分类器的辨识框架与可能的焦元集合;
候选特征生成单元U32,利用训练文本的TF向量的期望、类内方差和类间方差提取指定数量的词作为候选特征;
基于rough集的特征抽取单元U33,利用候选特征对决策属性(类别)的重要性从候选特征中选取词作为最终的分类特征;
基本可信度分配函数生成单元U34,利用类文本TF均值生成每个特征条件下的焦元的基本可信度分配函数。
11.如权利要求7所述的无阻滞层次分类装置,其特征在于,所述分类与统计模块U4包括:
特征权重生成单元U41,生成待分类网页文本在当前分类器下各特征证据的权重;
证据合成单元U42,利用analytical evidential reasoning algorithm证据推理算法进行证据合成;
概率计算单元U43,利用证据支持待分类网页文本属于类别树各阶段的可信度计算其属于类别树各类别的概率;
分类单元U44,根据概率计算单元U43生成的待分类网页文本属于类别树各类别的概率自顶向下根据概率最大原则进行层次分类;
分类精度统计单元U45,通过统计迄今为止的所有分类的正误情况计算分类算法的精度。
CN2010106058313A 2010-12-24 2010-12-24 一种网页文本的无阻滞层次分类方法与装置 Active CN102004796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010106058313A CN102004796B (zh) 2010-12-24 2010-12-24 一种网页文本的无阻滞层次分类方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010106058313A CN102004796B (zh) 2010-12-24 2010-12-24 一种网页文本的无阻滞层次分类方法与装置

Publications (2)

Publication Number Publication Date
CN102004796A true CN102004796A (zh) 2011-04-06
CN102004796B CN102004796B (zh) 2012-04-25

Family

ID=43812158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010106058313A Active CN102004796B (zh) 2010-12-24 2010-12-24 一种网页文本的无阻滞层次分类方法与装置

Country Status (1)

Country Link
CN (1) CN102004796B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156349A (zh) * 2014-03-19 2014-11-19 邓柯 基于统计词典模型的未登录词发现和分词系统及方法
CN108197295A (zh) * 2018-01-22 2018-06-22 重庆邮电大学 基于多粒度属性树的属性约简在文本分类中的应用方法
CN109002858A (zh) * 2018-07-23 2018-12-14 合肥工业大学 一种用于用户行为分析的基于证据推理的集成聚类方法
CN109471942A (zh) * 2018-11-07 2019-03-15 合肥工业大学 基于证据推理规则的中文评论情感分类方法及装置
CN109800384A (zh) * 2018-12-28 2019-05-24 西安交通大学 一种基于粗糙集信息决策表的基本概率赋值计算方法
CN110753939A (zh) * 2017-06-07 2020-02-04 三菱电机大楼技术服务株式会社 数据名称分类辅助装置和数据名称分类辅助程序
CN112507186A (zh) * 2020-11-27 2021-03-16 北京数立得科技有限公司 网页元素分类方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《北京师范大学学报(自然科学版)》 20090630 马乐等 一种基于SVM的网页层次分类算法 第247-249页 1-11 第45卷, 第3期 2 *
《计算机工程与设计》 20080531 彭小刚等 单路径层次化网页分类算法 第2356-2358页 1-11 第29卷, 第9期 2 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156349A (zh) * 2014-03-19 2014-11-19 邓柯 基于统计词典模型的未登录词发现和分词系统及方法
CN104156349B (zh) * 2014-03-19 2017-08-15 邓柯 基于统计词典模型的未登录词发现和分词系统及方法
CN110753939A (zh) * 2017-06-07 2020-02-04 三菱电机大楼技术服务株式会社 数据名称分类辅助装置和数据名称分类辅助程序
CN110753939B (zh) * 2017-06-07 2024-03-01 三菱电机楼宇解决方案株式会社 数据名称分类辅助装置
CN108197295A (zh) * 2018-01-22 2018-06-22 重庆邮电大学 基于多粒度属性树的属性约简在文本分类中的应用方法
CN109002858A (zh) * 2018-07-23 2018-12-14 合肥工业大学 一种用于用户行为分析的基于证据推理的集成聚类方法
CN109002858B (zh) * 2018-07-23 2022-01-28 合肥工业大学 一种用于用户行为分析的基于证据推理的集成聚类方法
CN109471942A (zh) * 2018-11-07 2019-03-15 合肥工业大学 基于证据推理规则的中文评论情感分类方法及装置
CN109471942B (zh) * 2018-11-07 2021-09-07 合肥工业大学 基于证据推理规则的中文评论情感分类方法及装置
CN109800384A (zh) * 2018-12-28 2019-05-24 西安交通大学 一种基于粗糙集信息决策表的基本概率赋值计算方法
CN109800384B (zh) * 2018-12-28 2020-07-28 西安交通大学 一种基于粗糙集信息决策表的基本概率赋值计算方法
CN112507186A (zh) * 2020-11-27 2021-03-16 北京数立得科技有限公司 网页元素分类方法

Also Published As

Publication number Publication date
CN102004796B (zh) 2012-04-25

Similar Documents

Publication Publication Date Title
CN102004796B (zh) 一种网页文本的无阻滞层次分类方法与装置
CN101976270B (zh) 基于不确定推理的文本层次分类方法与装置
CN100533441C (zh) 基于概率主题词的两级组合文本分类方法
CN101587493B (zh) 文本分类方法
CN106021410A (zh) 一种基于机器学习的源代码注释质量评估方法
CN102622373B (zh) 一种基于tf*idf算法的统计学文本分类系统及方法
CN103345528B (zh) 一种基于关联分析和knn的文本分类方法
CN107577785A (zh) 一种适用于法律识别的层次多标签分类方法
CN107871144A (zh) 发票商品名分类方法、系统、设备及计算机可读存储介质
CN104965867A (zh) 基于chi特征选取的文本事件分类方法
CN109543178A (zh) 一种司法文本标签体系构建方法及系统
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
CN109299480A (zh) 基于上下文语境的术语翻译方法及装置
CN105760493A (zh) 一种电力营销服务热点95598工单自动分类方法
CN102194013A (zh) 一种基于领域知识的短文本分类方法及文本分类系统
CN101256631B (zh) 一种字符识别的方法、装置
CN103699523A (zh) 产品分类方法和装置
CN102640089A (zh) 电子设备的文本输入系统及文本输入方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN102156871A (zh) 基于类别相关的码本和分类器投票策略的图像分类方法
CN109739844A (zh) 基于衰减权重的数据分类方法
CN112051986B (zh) 基于开源知识的代码搜索推荐装置及方法
CN105975518A (zh) 基于信息熵的期望交叉熵特征选择文本分类系统及方法
CN106021578A (zh) 一种基于聚类和隶属度融合的改进型文本分类算法
CN103577587A (zh) 一种新闻主题分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220113

Address after: 210000 Room 501, west side of office, building 2, park, No. 1, Renshan Road, Jiangpu street, Pukou District, Nanjing, Jiangsu Province

Patentee after: Nanjing Nanshen audit big data Research Institute Co.,Ltd.

Address before: School of computer science, Nanjing Normal University, No. 122, Ninghai Road, Gulou District, Nanjing, Jiangsu 210097

Patentee before: Qian Gang