CN101976270A - 基于不确定推理的文本层次分类方法与装置 - Google Patents

基于不确定推理的文本层次分类方法与装置 Download PDF

Info

Publication number
CN101976270A
CN101976270A CN 201010562470 CN201010562470A CN101976270A CN 101976270 A CN101976270 A CN 101976270A CN 201010562470 CN201010562470 CN 201010562470 CN 201010562470 A CN201010562470 A CN 201010562470A CN 101976270 A CN101976270 A CN 101976270A
Authority
CN
China
Prior art keywords
text
classification
feature
probability
classifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010562470
Other languages
English (en)
Other versions
CN101976270B (zh
Inventor
钱钢
王海
沈玲玲
姜乃松
冯向前
王艳军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Normal University
Original Assignee
Nanjing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Normal University filed Critical Nanjing Normal University
Priority to CN2010105624709A priority Critical patent/CN101976270B/zh
Publication of CN101976270A publication Critical patent/CN101976270A/zh
Application granted granted Critical
Publication of CN101976270B publication Critical patent/CN101976270B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及利用数据挖掘技术进行中文文本处理的信息技术领域,涉及一种基于不确定推理的文本层次分类方法和装置。包括:a)从训练文本中提取特征;b)确定分类问题的辨识框架和焦元;c)利用特征的权重构造基本可信度分配函数;d)利用特征的基本可信度分配函数合成测试文本的信度分布;e)利用信度分布根据分类规则进行分类。本发明具有以下优点:通过将非叶子类构造成虚拟的叶子类参与分类,很好的区分了父类与子类之间的不同特征;利用基本可信度分配函数分配给非叶子类的信度以及pignistic概率将文本的分类可信度表示为一个三角模糊数,在分类时充分地利用了不确定信息,提高了分类的准确程度。

Description

基于不确定推理的文本层次分类方法与装置
技术领域:本发明涉及利用数据挖掘技术进行中文文本处理的信息技术领域,特别是涉及一种基于证据推理的无标题文本的分类方法和装置。
背景技术:随着在行业内部网络或者因特网上的各种技术类、办公类以及其他电子化文档的快速增长,对文档的分类管理效率及性能提出了更高要求。一方面海量的文档导致单层目录导航不再高效,需要更加科学的多层次目录分类系统进行文档分类管理。另一方面单纯依靠手工对大量文档进行分类已经显得不切实际。所以,文本的自动层次分类技术的研究有很强的实际应用意义。然而目前比较成熟的研究与应用大多在文档的单层目录分类上,文本多层次分类技术还处在初步探索阶段,分类的准确度和性能仍是需要解决的关键问题。
目前探索的层次分类方法的解决方案可以分为两种:
(1)自顶向下的方法(top-down level-based)现有的大部分层次分类方法都采用这种模式,其特点是在类别树的每一层都构建一个或者多个分类器,每个分类器在所在层像单层文本分类一样工作。一个文本从根节点开始,逐层向下分类,直至到达叶子节点。这种方法具有明显的优点:将大的分类问题转化为小的子问题,能较好地降低时间和空间复杂度。然而这种方法也有明显的缺点:如果一个文本被分入了错误的父类,将不可能分入正确的叶子类。
(2)大爆炸方法(big-bang)这种方法在整个分类过程中只构造一个分类器。并用来对文本进行分类。虽然克服了方法1所述的缺点,但方法的时间空间开销一般比较大,不适合在对时间要求较高的场合比如网络上使用。
在没有一种方法能保证100%的正确率的前提下,近可能提高分类准确率就成了分类算法追求的目标。利用特征进行分类的模式下,特征包含的信息是模糊的,不确定的。比如“电脑”一词即可能出现在计算机类的文本中,也可能出现在生物科技类的文本,很难确定一个特征词只出现在一个文本类中,不出现在其他类中,这就是当前的分类算法热衷于使用概率来描述特征的区分度的原因。
发明内容:本发明的目的在于提供一种新的中文文本层次分类方法和装置,用于提高对中文文本分类的准确程度。
本发明利用不确定推理理论:即证据推理和模糊数的相关理论,充分挖掘特征中的不确定信息,改善分类的准确度。
本发明是这样来实现的:一种基于不确定推理的文本层次分类方法,包括:
a)从训练文本中提取特征;
b)确定分类问题的辨识框架和焦元;
c)利用特征的权重构造基本可信度分配函数(BPA);
d)根据基本可信度分配函数和待分类文本的特征权重合成待分类文本的信度分配;
e)利用信度分布根据分类规则对待分类文本进行分类。
本发明还提供一种文本层次分类装置,包括:
a)文本预处理模块U1,用于将文本预处理成算法需要的TF及BINARY向量形式;
b)特征抽取、分类器训练模块U2,用于对文本预处理模块U1处理的文本特征的抽取、训练分类器;即用于利用TF*IDF方法提取文本特征,对文本降维,并利用特征权重构造基本可信度分配函数;
c)分类模块U3,用于根据特征抽取、分类器训练模块U2生成的分类器对待分类文本进行分类,并评价分类效率与准确性。
与现有文本层次分类技术相比,本发明具有以下优点:
通过将非叶子类构造成虚拟的叶子类参与分类,很好的区分了父类与子类之间的不同特征;利用基本可信度分配函数分配给非叶子类的信度以及pignistic概率将文本的分类可信度表示为一个三角模糊数,在分类时充分地利用了不确定信息,提高了分类的准确程度。
附图说明:图1是本发明实施例中文本层次分类方法的流程图;
图2是本发明实施例中分类器训练的流程图;
图3是本发明实施例中分类模块的流程图;
图4是本发明实施例中测试文本的分类结果判定的流程图;
图5A、5B是本发明实施例中测试宏平均值及微平均值与每个类选取的特征数之间的关系图;
图6是实现本发明的文本层次分类方法的装置的结构图;
具体实施方式:以下结合附图对本发明作具体说明。应该指出,所描述的实施例仅仅视为说明的目的,而不是对本发明的限制。
实施例1
本发明的实施例1提供了一种文本层次分类方法,如图1所示,包括以下步骤:
步骤101:从训练文本中提取特征;
步骤102:确定分类问题的辨识框架和焦元,利用特征的权重构造基本可信度分配函数(BPA);
步骤103:根据基本可信度分配函数和待分类文本的特征权重合成测试文本的信度分配;
步骤104:利用信度分布根据分类规则对待分类文本进行分类。
以下进一步详细的说明本发明实施例的文本层次分类方法中的各个细节问题。
1、语料选择:
本实施例采用的语料为中文文本分类语料库-TanCorpV1.0,该语料库分为两个层次,第一层12个类别,第二层60个类别,共有文本14150篇,具体层级结构及文本数见表1。实验时选取每个类别其中的70%作为训练语料,剩下的30%作为测试语料。
表1
2、确定辨识框架与焦元:
对于一个层次分类问题,其类别层次结构可以用一个类别树来表示。类别树由一个根节点、若干中间节点和叶子节点组成。文本层次分类就是要将一个文本通过根节点、中间节点分到某个叶子节点。
为描述问题方便,下面只说明层次结构为2层的情况。设分类问题中共有CN1个大类,记为cm,共CN2个小类,其中cm类中有nm个子类,其中m 1,2,…,CN1。类层次关系可以用下面类似矩阵的形式表示:
c 1 c 2 M c CN 1 c 11 c 12 Λ c 1 , n 1 c 21 c 22 Λ c 2 , n 1 M M O M c CN 1,1 c CN 1,1 Λ c CN 1 , n CN 1
于是,所有叶子类构成该分类问题的辨识框架,记为:
Ω = { c 11 , Λ , c 1 , n 1 , c 21 , Λ , c 2 , n 1 , Λ , c CN 1,1 , Λ , c CN 1 , n CN 1 }
本发明实施例中假设信度只可能分配到某个具体的类别上,包括层次1大类和层次2子类,故所有可能的焦元集合可以记为:
F = { c 11 , Λ , c 1 , n 1 , c 21 , Λ , c 2 , n 1 , Λ , c CN 1,1 , Λ , c CN 1 , n CN 1 , { c 11 , Λ , c 1 , n 1 } , { c 21 , Λ , c 2 , n 1 } , Λ , { c CN 1,1 , Λ , c CN 1 , n CN 1 } , Ω }
也就是说:m(2Ω\F)=0。同时,将文本中的特征及其出现频率作为证据。以下将F\Ω中的每个元素看做一个类,即共有CN1+CN2个类,显然该集合中有CN1个虚拟类,其意义为:例如,表示有证据说明文本有10%的可能性是属于第一大类的,但是却不确定这10%的可能性是支持文本属于第一大类的哪一个子类的。这种不确定性是由于大类的特征与子类的特征一般不同造成的,它不仅对将文本分入正确的大类很有用,而且利用不确定推理的知识,也可以用之来帮助子类层次的分类。这正是本发明的主要思想之一。
2、特征选取:
这里选择词作为文本特征。特征选取采用TF*IDF方法:选取TF*IDF值最大的前一定数目的词作为特征。首先将每个类包含的所有文本(层次1大类包含的文本是指其全部子类包含的全部文本)的TF向量融合成一个类文本TF向量;然后设定想要抽取的类的特征数的阀值ρ1,并根据类文本的TF*IDF值选取制定数目的词作为该类的特征;最后综合得到分类器的特征,特征数记为N。这种为每个类分别选取特征的方法能使得在总特征数大为缩减的同时还能提高分类精度。最优特征数量由分类测试的结果来确定。
4、训练分类器
如图2所示,分为如下步骤:
步骤201:分别生成每个类的文本特征的TF向量和BINARY向量;
步骤202:由下面的公式计算类文本di中特征fj的权重W(di,fj):
W ( d i , f j ) = TF ( d i , f j ) · IDF ( f j ) / Σ j = 1 N ( TF ( d i , f j ) · IDF ( f j ) ) 2
由于直觉上词的权重与词频TF的关系不应该是TF*IDF公式所描述的简单的线性关系,本发明将公式中的TF改进为
Figure BDA0000034743850000046
实验证明改进后分类精度得到了改善;
步骤203:利用特征的权重值构造证据推理的基础:基本可信度分配函数。
首先给出本发明中使用的基本可信度分配函数的定义:
定义1:设类文本di中特征fj的权重为W(di,fj),记Sj=∑iW(di,fj)。定义特征fj的基本可信度分配函数:
m(ci,fj)=W(di,fj)/Sj
其中,i=1,2,Λ,CN2,CN2+1,Λ,CN2+CN1,j=1,2,Λ,N。
显然,根据定义1:m(Ω,fj)=0。本发明中这样定义的原因是基于这样的假设:特征至少在一个类(层次1大类或者层次2子类)中出现过。
5、分类
分类的主要思想是将待分类文本中出现的特征及其频度作为证据,结合训练得到的基本可信度分配函数,利用证据推理的理论合成待分类文本在各焦元上的信度分配,在利用信度分配按照分类规则分类,如图3所示,具体步骤如下:
步骤301:读入待分类文本并预处理成特征及其频度的向量形式,记为:
x=(TF1,TF2,Λ,TFj,Λ,TFN)
步骤302:将x归一化,作为各证据的权重w=(w1,w2,Λ,wj,Λ,wN),其中:
w j = TF j / Σ j TF j
步骤303:利用证据推理知识进行证据合成。共有N个证据,其基本可信度分配函数由定义1给出,证据权重由步骤302给出。本发明实施例采用递推合成算法,该算法属于现有技术。
记合成后的信度分布为m(ci),其中i=1,2,Λ,CN2,CN2+1,Λ,CN2+CN1。当1≤i≤CN2时,m(ci)表示证据支持待分类文本属于层次2子类ci的程度,当CN2+1≤i≤CN2+CN1时,m(ci)表示证据支持待分类文本属于层次1大类ci-CN2的程度,是没有分配给具体层次2子类的信度。
步骤304:利用合成的信度分布根据分类规则,如图4所示,分类结果判定流程如下:
步骤401:利用步骤303中的得到的信度分布,计算出待分类文本属于层次1大类cm的概率P1(cm),属于层次2子类ci的概率P2(ci)。记index(max(·))表示取最大值的下标索引,即index(max(P1))表示概率最大的层次1大类的类标号,index(max(P2))表示概率最大的层次2子类的类标号。同时记L1Index(ci)为层次2子类ci的层次1大类的类标号。这里概率的计算方法如下:
(1)测试文本属于层次2子类ci的概率P2(ci)分为两部分,一部分是证据支持待分类文本属于该类的信度m(ci),这一部分是确定的;另一部分是证据支持待分类文本属于该类的父类cm即层次1大类的信度m(cm),这一部分是不确定的,即不知道该怎样分配到其子类上。本发明采用根据理由不充分准则而来的Pignistic概率分配方法
BetP ( c i ) = 1 | c m | m ( c m )
其中,ci为层次1大类cm的所有子类,|cm|表示包含的子类数。于是P2(ci)可以表示成一个三角模糊数(m(ci),m(ci)+BetP(ci),m(ci)+m(cm)),其意义分别为文本属于层次2子类ci的概率的下界、最可能值、上界。为了实现三角模糊数的比较,本发明采用逆模糊化的方法:
P2(ci)=α·m(ci)+β·(m(ci)+BetP(ci))+γ·(m(ci)+m(cm))
其中α,β,γ∈(0,1)且α+β+γ=1。
(2)待分类文本属于层次1大类cm的概率P1(cm)等于该文本属于大类cm的所有子类的概率之和:
P1(cm)=∑P2(ci)
其中ci为层次1大类cm的所有子类。
步骤402:如果index(max(P1))等于L1Index(index(max(P2))),也就是待分类文本最可能属于的层次1大类与文本最可能属于的层次2子类所在的大类相同,这时接受分类结果,待分类文本属于层次1的第index(max(P1))大类、层次2的第index(max(P2))子类,转至步骤406。否则转入步骤403。
步骤403:对于两个错误的分类而言,第一个错误将待分类文本归入正确的层次1大类、错误的层次2子类,第二个错误将待分类文本归入错误的层次1大类,显然前者犯的错误小于后者。在没有办法保证100%的正确率时,减小分类错误及其后果是很有必要的。因此,基于优先将待分类文本分入正确可能性大的大类的思想,本发明采取如下判断规则:如果max(P1)大于某一预先设定的阀值ρ2,接受第一层次的分类,将待分类文本分入层次1的第index(max(P1))大类,转入步骤404;否则转入步骤405。
步骤404:在层次1大类确定的条件下,根据该类下的子类的概率对待分类文本进行第二层次的分类,分类结果为待分类文本属于层次2的第index(max(P2))子类。转入步骤406。
步骤405:如果待分类文本属于层次1上大类的概率区分度不大,也就是不能比较高概率地判断文本属于哪个大类,这时利用待分类文本属于层次2子类的概率进行分类,根据max(P2)将文本分入层次1第L1Index(index(max(P2)))大类、层次2第index(max(P2))子类。转入步骤406。
步骤406:输出分类结果,分类结束。
6、评价方法与实施例实验结果
为了验证本发明的层次分类方法的有效性,采用前述TanCorpV1.0语料库的两个层次全部12大类60小类的文本进行测试。评价指标选择F1的宏平均和微平均。在以下的实验中,取阀值ρ2=0.5,α=γ=1/6,β=4/6。
特征提取环节是分类的基础,特征数的多少能直接影响分类的准确性。在本发明的算法中,每个类特征数由预先设定的阀值ρ1确定,在实施例中,ρ1为一个CN1+CN2维向量,为选择最优的阀值ρ1以及合成后的分类器的特征数,发明人通过单层次的分类实验,如图5,确定了各层次分类时的最优特征数。图5A、5B分别显示了层次1的CN1个大类上分类时不同的分类器特征数对应的F1的微平均(MicroF1)和宏平均(MacroF1),同时也显示了在相同条件下利用SVM方法分类的F1的微平均(MicroF1)和宏平均(MacroF1),显然本发明提供的方法比SVM方法有更好的分类精度。从图中也可以看出,随着特征数的增多,分类准确度也增加,但是特征数太多带来的时间和空间的开销也增大。同时当层次1大类的每个类选取的特征数为350时,分类性能局部最高,此时,对应的合成后层次1大类的分类器特征数为3527。类似地,在层次2小类上进行分类实验,可以确定当当层次1大类的每个类选取的特征数为200时,分类性能局部最高,此时,对应的合成后层次2小类的分类器特征总数为6258。最后综合得到本发明方法的分类器的特征数为7960,后面的实验中均取此值。
选择该特征数阀值,第一层次上的分类和第二层次上的分类精度分别如下表2所示。
表2
  MicroF1   MacroF1
 层次1   92.72%   89.02%
 层次2   77.66%   74.47%
本发明公开的方法提高了中文文本层次分类的精度,该方法可以应用于涉及对大量文本进行分类管理的知识管理系统或者网络信息处理系统中,对于中文文本特别是无标题文本的自动分类管理提供了更科学高效的方法。例如,搜索引擎的搜索结果分类,有利用用户找到自己感兴趣的类别的搜索结果;知识管理系统中的文本分类,有利用系统挖掘和发现隐藏在类别信息下的知识。
实施例2
本发明的实施例2还提供了一种文本层次分类装置,如图6所示,包括:
文本预处理模块U1,用于将文本预处理成算法需要的TF及BINARY向量形式,包括:
分词单元U11,用于对输入的文本进行分析,输出分词的结果:词列表。
系统词典生成单元U12,用于统计文本集合中出现的词,并统一编号。
文本向量生成单元U13,用于根据系统词典对每个文本进行分析,生成文本的TF及BINARY向量。
特征抽取、分类器训练模块U2,用于对文本预处理模块U1处理的文本特征的抽取,训练分类器,包括:
类文本向量生成单元U21,用于统计每个类(包括叶子节点类和非叶子节点类)的文本TF及BINARY向量。
特征抽取单元U22,用于根据特征权重计算公式和特征数阀值抽取一定数目的特征。
特征BPA函数生成单元U23,用于根据文本的特征权重向量生成各特征的基本可信度分配(BPA)函数。
分类模块U3,用于根据特征抽取、分类器训练模块U2模块生成的分类器对待分类文本进行分类,包括:
特征证据权重生成单元U31,用于对待分类文本表示成特征的TF向量形式,并生成归一化的特征证据权重。
证据合成单元U32,用于根据特征抽取、分类器训练模块U2模块生成的BPA函数和特征证据权重对证据进行合成,生成待分类文本属于各类别的信度分布。
概率计算单元U33,用于根据证据合成单元U32生成的信度分布,利用Pignistic概率以及三角模糊数的知识计算待分类文本属于各叶子节点类和非叶子节点类的概率。
分类结果判定单元U34,用于根据概率计算单元U33输出的待分类文本属于各类别的概率,一用分类规则判定待分类文本的最终分类结果。
分类精度评价单元U35,用于对待分类文本集的分类结果按照通用的评价标准评价分类进度。
最优特征数生成单元U36,用于根据多次具体的分类精度评价值的优劣生成特征提取时的最优特征权重阀值及特征数阀值。

Claims (12)

1.一种基于不确定推理的文本层次分类方法,其特征在于,所述方法包括如下步骤:
从训练文本中提取特征;
确定分类问题的辨识框架和焦元集合;
利用特征的权重构造基本可信度分配函数(BPA);
根据基本可信度分配函数和待分类文本的特征权重合成待分类文本的信度分配;
利用信度分布根据分类规则对待分类文本进行分类。
2.如权利要求1的方法,其特征在于,所述从训练文本中提取特征包括:
对文本进行分词,统计词频,将文本表示成TF向量和BINARY向量,计算文本中词的TF*IDF值,根据权重提取特征;文本中特征的权重包括:
W ( d i , f j ) = TF ( d i , f j ) · IDF ( f j ) / Σ j = 1 N ( TF ( d i , f j ) · IDF ( f j ) ) 2
其中,W(di,fj)为文本di中特征fj的权重,TF(di,fj)为文本di中特征fj的频数,IDF(fj)为特征fj的反文档频率。
3.如权利要求1的方法,其特征在于,确定分类问题的辨识框架和焦元集合,是将所有的叶子节点类的集合确定为分类问题的辨识框架;将除根节点外的所有节点类的集合作为分类问题的焦元集合;焦元集合中的非叶子节点类焦元的信度是指分配在该大类上且不确定该分配给该大类的哪个子类的信度。
4.如权利要求1的方法,其特征在于,所述根据特征的权重构造基本可信度分配函数包括:
m(ci,fj)=W(di,fj)/Sj
其中,m(ci,fj)为特征fj属于焦元集合中的类ci,的可信度,Sj为焦元集合中的所有类上特征fj的权重之和。
5.如权利要求1的方法,其特征在于,所述利用信度分布根据分类规则对待分类文本进行分类包括:
由待分类文本的TF向量按下述公式生成待分类文本的特征证据权重:
w j = TF j / Σ j TF j
其中,wj为待分类文本中特征fj的权重,TFj为待分类文本中特征fj出现的频数;
利用证据权重对基本可信度分配加权,再利用递推合成算法得到待分类文本属于焦元集合中所有类的信度分布;
由信度分布根据分类规则对待分类文本进行分类。
6.如权利要求5的方法,其特征在于,所述根据分类规则进行分类包括:
利用信度分布计算待分类文本属于每个层次的所有类的概率;
利用待分类文本属于每个层次的所有类的概率根据分类规则在每个层次上分类。
7.如权利要求6的方法,其特征在于,所述利用信度分布计算待分类文本属于每个层次的所有类的概率包括:
将分配给父类的信度根据Pignistic概率分配方法分配给其子类,构造子类的信度的三角模糊数的表述形式,并逆模糊化为概率;一个父类的信度等于分配给其所有子类的的概率之和;
所述将分配给父类的信度根据Pignistic概率分配方法分配给其子类包括:
BetP ( c i ) = 1 | c m | m ( c m )
其中,BetP(ci)为Pignistic概率分配给子类ci的信度,|cm|为父类cm包含的子类数,m(cm)为分配给父类cm的信度。
所述子类的信度的三角模糊数的表述形式包括:
(m(ci),m(ci)+BetP(ci),m(ci)+m(cm))
其中,m(ci)为待分类文本属于类ci的最小概率,m(ci)+BetP(ci)为待分类文本文本属于类ci的最可能概率,m(ci)+m(cm)为待分类文本文本属于类ci的最大概率。
所述逆模糊化包括:
P2(ci)=α·m(ci)+β·(m(ci)+BetP(ci))+γ·(m(ci)+m(cm))
其中,P2(ci)为文本属于类的概率,α,β,γ∈(0,1)且α+β+γ=1。
8.如权利要求6的方法,其特征在于,所述分类规则包括:
如果下一层次概率最大的类别属于上一层次的概率最大的类别,则接受上下两个层次上的分类结果,按各层次最大概率分类;如果下一层次概率最大的类别不属于上一层次的概率最大的类别,但上一层次的最大概率大于预先设定的阀值时,将上一层次按最大概率分类,再在该类别中按照概率最大原则分类;如果下一层次概率最大的类别不属于上一层次的概率最大的类别,同时上一层次的最大概率不大于预先设定的阀值,按照下一层次的概率最大原则确定文本的上下层次分类结果。
9.一种基于不确定推理的文本层次分类装置,其特征在于,包括:
文本预处理模块U1,用于将文本预处理成算法需要的TF及BINARY向量形式;
特征抽取、分类器训练模块U2,用于对文本预处理模块U1处理的文本特征的抽取、训练分类器;即用于利用TF*IDF方法提取文本特征,对文本降维,并利用特征权重构造基本可信度分配函数;
分类模块U3,用于根据特征抽取、分类器训练模块U2生成的分类器对待分类文本进行分类,并评价分类效率与准确性。
10.如权利要求9的文本层次分类装置,其特征在于,所述文本预处理模块U1包括:
分词单元,用于对输入的文本进行分析,输出分词的结果:词列表;
系统词典生成单元,用于统计文本集合中出现的词,并统一编号;
文本向量生成单元,用于根据系统词典对每个文本进行分析,生成文本的TF向量及BINARY向量。
11.如权利要求9的文本层次分类装置,其特征在于,所述特征抽取、分类器训练模块U2包括:
类文本向量生成单元,用于统计每个类,包括叶子节点类和非叶子节点类的文本TF向量及BINARY向量;
特征抽取单元,用于根据特征权重计算公式和权重阀值抽取一定数目的特征;
特征BPA函数生成单元,用于根据类的文本特征权重向量生成各特征的基本可信度分配(BPA)函数。
12.如权利要求9的文本层次分类装置,其特征在于,所述分类模块U3包括:
特征证据权重生成单元,用于对待分类文本表示成特征的TF向量形式,并生成归一化的特征证据权重;
证据合成单元,用于根据特征抽取、分类器训练模块模块生成的BPA函数和特征证据权重对证据进行合成,生成待分类文本属于各类别的信度分布;
概率计算单元,用于根据证据合成单元生成的信度分布,利用Pignistic概率以及三角模糊数的知识计算待分类文本属于各叶子节点类和非叶子节点类的概率;
分类结果判定单元,用于根据概率计算单元输出的待分类文本属于各类别的概率,一用分类规则判定待分类文本的最终分类结果;
分类精度评价单元,用于对待分类文本集的分类结果按照通用的评价标准评价分类进度;
最优特征数生成单元,用于根据多次具体的分类精度评价值的优劣生成特征提取时的最优特征权重阀值及特征数。
CN2010105624709A 2010-11-29 2010-11-29 基于不确定推理的文本层次分类方法与装置 Expired - Fee Related CN101976270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010105624709A CN101976270B (zh) 2010-11-29 2010-11-29 基于不确定推理的文本层次分类方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105624709A CN101976270B (zh) 2010-11-29 2010-11-29 基于不确定推理的文本层次分类方法与装置

Publications (2)

Publication Number Publication Date
CN101976270A true CN101976270A (zh) 2011-02-16
CN101976270B CN101976270B (zh) 2012-04-25

Family

ID=43576156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105624709A Expired - Fee Related CN101976270B (zh) 2010-11-29 2010-11-29 基于不确定推理的文本层次分类方法与装置

Country Status (1)

Country Link
CN (1) CN101976270B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298632A (zh) * 2011-09-06 2011-12-28 神华集团有限责任公司 字符串相似度计算方法及装置以及物资分类方法及装置
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN103092994A (zh) * 2013-02-20 2013-05-08 苏州思方信息科技有限公司 基于信息概念格矫正的svm文本自动分类方法及其系统
CN104750833A (zh) * 2015-04-03 2015-07-01 浪潮集团有限公司 一种文本分类方法及装置
CN104750835A (zh) * 2015-04-03 2015-07-01 浪潮集团有限公司 一种文本分类方法及装置
CN107247963A (zh) * 2017-05-23 2017-10-13 北京科技大学 一种用于处理模糊和高冲突信息的目标识别方法
CN107341508A (zh) * 2017-06-22 2017-11-10 北京飞搜科技有限公司 一种快速美食图片识别方法及系统
CN107506472A (zh) * 2017-09-05 2017-12-22 淮阴工学院 一种学生浏览网页分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6192360B1 (en) * 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
CN1719436A (zh) * 2004-07-09 2006-01-11 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
CN101587493A (zh) * 2009-06-29 2009-11-25 中国科学技术大学 文本分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6192360B1 (en) * 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
CN1719436A (zh) * 2004-07-09 2006-01-11 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
CN101587493A (zh) * 2009-06-29 2009-11-25 中国科学技术大学 文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《计算机工程》 20100531 台德艺等 文本分类特征权重改进算法 197-199页,202页 1-12 第36卷, 第9期 2 *
《计算机应用研究》 201002 焦庆争等 一种可靠信任推荐文本分类特征权重算法 472-474页 1-12 第27卷, 第2期 2 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298632A (zh) * 2011-09-06 2011-12-28 神华集团有限责任公司 字符串相似度计算方法及装置以及物资分类方法及装置
CN102298632B (zh) * 2011-09-06 2014-10-29 神华集团有限责任公司 字符串相似度计算方法及装置以及物资分类方法及装置
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN102930063B (zh) * 2012-12-05 2015-06-24 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN103092994A (zh) * 2013-02-20 2013-05-08 苏州思方信息科技有限公司 基于信息概念格矫正的svm文本自动分类方法及其系统
CN104750835A (zh) * 2015-04-03 2015-07-01 浪潮集团有限公司 一种文本分类方法及装置
CN104750833A (zh) * 2015-04-03 2015-07-01 浪潮集团有限公司 一种文本分类方法及装置
CN107247963A (zh) * 2017-05-23 2017-10-13 北京科技大学 一种用于处理模糊和高冲突信息的目标识别方法
CN107247963B (zh) * 2017-05-23 2019-11-08 北京科技大学 一种用于处理模糊和高冲突信息的目标识别方法
CN107341508A (zh) * 2017-06-22 2017-11-10 北京飞搜科技有限公司 一种快速美食图片识别方法及系统
CN107341508B (zh) * 2017-06-22 2020-12-04 苏州飞搜科技有限公司 一种快速美食图片识别方法及系统
CN107506472A (zh) * 2017-09-05 2017-12-22 淮阴工学院 一种学生浏览网页分类方法
CN107506472B (zh) * 2017-09-05 2020-09-08 淮阴工学院 一种学生浏览网页分类方法

Also Published As

Publication number Publication date
CN101976270B (zh) 2012-04-25

Similar Documents

Publication Publication Date Title
CN101976270B (zh) 基于不确定推理的文本层次分类方法与装置
CN107577785B (zh) 一种适用于法律识别的层次多标签分类方法
Schapire et al. BoosTexter: A boosting-based system for text categorization
CN102640089B (zh) 电子设备的文本输入系统及文本输入方法
CN102622373B (zh) 一种基于tf*idf算法的统计学文本分类系统及方法
CN106202032B (zh) 一种面向微博短文本的情感分析方法及其系统
CN101587493B (zh) 文本分类方法
CN104199857B (zh) 一种基于多标签分类的税务文档层次分类方法
CN101819601B (zh) 学术文献自动分类的方法
CN110704624B (zh) 一种地理信息服务元数据文本多层级多标签分类方法
CN102194013A (zh) 一种基于领域知识的短文本分类方法及文本分类系统
CN104285224B (zh) 用于对文本进行分类的方法
CN104750844A (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN105760493A (zh) 一种电力营销服务热点95598工单自动分类方法
CN105975518B (zh) 基于信息熵的期望交叉熵特征选择文本分类系统及方法
CN102004796B (zh) 一种网页文本的无阻滞层次分类方法与装置
CN103617435A (zh) 一种主动学习图像分类方法和系统
Hashida et al. Classifying sightseeing tweets using convolutional neural networks with multi-channel distributed representation
CN109784387A (zh) 基于神经网络和贝叶斯模型的多层次递进分类方法及系统
CN114757302A (zh) 一种文本处理用聚类方法系统
CN110781297B (zh) 基于层次判别树的多标签科研论文的分类方法
CN106991171A (zh) 基于智慧校园信息服务平台的话题发现方法
CN110866087A (zh) 一种基于主题模型的面向实体的文本情感分析方法
CN103207893A (zh) 基于向量组映射的两类文本的分类方法
CN100378713C (zh) 为对象分类的自动确定显著特点的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120425

Termination date: 20171129

CF01 Termination of patent right due to non-payment of annual fee