CN102214233A - 一种对文本进行分类的方法及装置 - Google Patents

一种对文本进行分类的方法及装置 Download PDF

Info

Publication number
CN102214233A
CN102214233A CN2011101778223A CN201110177822A CN102214233A CN 102214233 A CN102214233 A CN 102214233A CN 2011101778223 A CN2011101778223 A CN 2011101778223A CN 201110177822 A CN201110177822 A CN 201110177822A CN 102214233 A CN102214233 A CN 102214233A
Authority
CN
China
Prior art keywords
text
classification
lexical item
space
classification space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011101778223A
Other languages
English (en)
Other versions
CN102214233B (zh
Inventor
赵大哲
栗伟
杨金柱
覃文军
李博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN 201110177822 priority Critical patent/CN102214233B/zh
Publication of CN102214233A publication Critical patent/CN102214233A/zh
Application granted granted Critical
Publication of CN102214233B publication Critical patent/CN102214233B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种对文本进行分类的方法及装置,所述方法包括:构建一个类别空间,该类别空间包括多个坐标轴,每个坐标轴代表一个文本类别;计算任一训练文本中所包含词项在所述类别空间中的表示向量,获得训练文本集所有词项在所述类别空间中的表示向量;根据待分类文本所包含的词项及所述词项在所述类别空间中的表示向量,获得待分类文本在所述类别空间中的表示向量;计算所述待分类文本在所述类别空间中的表示向量与所述类别空间中各个坐标轴对应的基向量的余弦相似度值;将最大的余弦相似度值所对应的坐标轴所代表的文本类别作为待分类文本的类别。应用本发明,可以根据文本内容所表达的含义准确、高效的对高维文本进行分类。

Description

一种对文本进行分类的方法及装置
技术领域
本发明涉及分类技术领域,特别涉及一种对文本进行分类的方法及装置。
背景技术
文本分类是指在给定分类模型下,根据文本内容自动判断文本类别的过程,它广泛应用于信息检索、文本过滤等领域。文本分类一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引、降维和统计、特征抽取等步骤。文本分类技术的研究开始于20世纪60年代,词频统计是主要的分类技术。后来兴起了基于知识工程方法的文本分类方法,但是由于知识工程方法中专家的主观因素较多,存在可推广性极差的致命弱点。直到20世纪90年代,机器学习逐渐成为文本分类的主流技术。当前统计方法和机器学习的文本分类方法有很多,比如决策树,Rocchio,朴素贝叶斯,神经网络,支持向量机,最邻近算法(kNN,k-Nearest Neighbor algorithm)等。
电子病历(Electronic Health Record)是以电子化方式管理的有关个人终生健康状态和医疗保健行为的文本数据,涉及病人信息的采集、存储、传输、处理和利用。病历信息化在医院信息化建设中处于核心的地位,电子病历是医院数字化之本。因此,近年来电子病历得到了从政府到医院、从业务科室到IT部门的普遍关注。电子病历的应用将促进病历书写的规范化及标准化、提高临床医生的工作效率及医疗质量、降低医疗费用、加快临床数据的共享,并且向着电子化、集成化和智能化方向迅速发展。
文本通常描述多样,数量巨大,尤其对于电子病历文本,又具有医学知识复杂、表述严谨,医学词典异常庞杂等特点,因此,待分类文本的通常是一个具有高维向量的文本,而如何准确、高效的对高维文本进行分类,是个有待解决的问题。
发明内容
本发明实施例在于提供一种对文本进行分类的方法及装置,以准确、高效的对文本进行分类。
本发明实施例提供了一种对文本进行分类的方法,所述方法包括:
构建一个类别空间,所述类别空间包括多个坐标轴,每个坐标轴代表一个文本类别;
计算任一训练文本中所包含词项在所述类别空间中的表示向量,获得训练文本集所有词项在所述类别空间中的表示向量;
根据待分类文本所包含的词项及所述词项在所述类别空间中的表示向量,获得待分类文本在所述类别空间中的表示向量;
计算所述待分类文本在所述类别空间中的表示向量与所述类别空间中各个坐标轴对应的基向量的余弦相似度值;
将最大的余弦相似度值所对应的坐标轴所代表的文本类别作为待分类文本的类别。
其中,计算任一训练文本中所包含词项在所述类别空间中的表示向量,获得训练文本集所有词项在所述类别空间中的表示向量的步骤包括:
1)计算词项tk在类别Cm中的频率TCFkm
TCFkm=γmtcf(tk,Cm)
其中tcf(tk,Cm)为词项tk在文本类别Cm中出现的次数,γm为权值,通常取1或
Figure BDA0000071924830000021
tk表示词项,k∈{1,...,S},S表示词典中词项数量,N表示文档集中文档数量,文本类别集合C={Cm},m∈{1,...,M},文本类别总数为M;
2)计算词项tk的类别频率CFk
CFk=包含词项tk的类别数量,
其中,CFk记作cfk
3)计算词项tk的逆向类别频率ICFk
ICF k = lo g 2 M cf k
4)计算词项tk在类别Cm中的权重wkm
w km = TCF km × ICF k = γ m tcf ( t k , C m ) log 2 ( M cf k )
5)计算训练文本集所有词项在所述类别空间中的表示向量
t k = ( w k 1 ′ , w k 2 ′ , . . . , w kM ′ ) = ( w k 1 Σ m = 1 M w km 2 , w k 2 Σ m = 1 M w km 2 , . . . , w kM Σ m = 1 M w km 2 )
其中,w′k1,w′k2,...,w′kM分别代表wk1,wk2,...,wkM经过向量归一化处理后的权重值。
其中,获得待分类文本在所述类别空间中的表示向量的步骤为:
d i = ( x i 1 , x i 2 , . . . , x iM ) = ( Σ k = 1 S n ki w k 1 ′ Σ m = 1 M ( Σ k = 1 S n ki w km ′ ) 2 , Σ k = 1 S n ki w k 2 ′ Σ m = 1 M ( Σ k = 1 S n ki w km ′ ) 2 , . . . , Σ k = 1 S n ki w kM ′ Σ m = 1 M ( Σ k = 1 S n ki w km ′ ) 2 )
其中,i∈{1,...,N},nki表示词项tk在文档di中出现的次数;S表示词典中词项数量;M为文本类别总数,w’km为对权重wkm进行归一化处理后的权重值,xil为文本在空间中对应坐标轴所对应类型的权重值。
其中,计算余弦相似度值的步骤包括:
1)计算类别空间中轴上的基向量:
em=(cm1,cm2,...,cmM),其中 c mi = 0 , m ≠ i 1 , m = i , m∈{1,...,M},i∈{1,...,M}
其中,em为类别空间中的轴,Cm为文本类别,M为文本类别总数;
2)计算余弦相似度值
CosSim ( C m , d i ) = Σ l = 1 M ( c ml x il ) Σ l = 1 M c ml 2 Σ l = 1 M x il 2 = x il | d i | , l∈{1,...,M}
其中,CosSim(Cm,di)为余弦相似度值,M为文本类别总数,Cm为类别空间中轴,xil为文本在空间中对应坐标轴所对应类型的权重值。
其中,如果待分类文本为非词频统计特征数据,在设置待分类数据集中一个文本在文档集合中的表示模型之前,所述方法还包括:
对待分类数据集Vi=(vil,...,viL)进行离散化处理和数据区间变换处理。
其中,如果所述待分类数据集大小为N,组成的矩阵A=(vij)N×L,其中i∈{1,...,N},j∈{1,...,L},
则所述离散化处理包括:
对矩阵A中列向量Vj=(v1j,...,vNj)T进行区间划分,区间数为pj
其中,pj>1,并定义区间标号为
Figure BDA0000071924830000042
所述数据区间变换处理包括:
对分类的数据Vi做变换为V′i=(v′il,...,v′iL),其中v′ij的值取区间的标号;
对待分类的数据Vi=(vil,...,viL)中各个分类的值变换为区间标号的值V′i=(v′il,...,v′iL)。
本发明实施例还提供了一种对文本进行分类的装置,所述装置包括:
构建单元,用于构建一个类别空间,所述类别空间包括多个坐标轴,每个坐标轴代表一个文本类别;
第一向量计算单元,用于计算任一训练文本中所包含词项在所述类别空间中的表示向量,获得训练文本集所有词项在所述类别空间中的表示向量;
第二向量计算单元,用于根据待分类文本所包含的词项及所述词项在所述类别空间中的表示向量,获得待分类文本在所述类别空间中的表示向量;
余弦相似度计算单元,用于计算所述待分类文本在所述类别空间中的表示向量与所述类别空间中各个坐标轴对应的基向量的余弦相似度值;
分类识别单元,用于将最大的余弦相似度值所对应的坐标轴所代表的文本类别作为待分类文本的类别。
其中,所述第一向量计算单元包括:
第一频率计算单元,用于计算词项tk在类别Cm中的频率TCFkm
TCFkm=γmtcf(tk,Cm)
其中tcf(tk,Cm)为词项tk在文本类别Cm中出现的次数,γm为权值,通常可以取1或
Figure BDA0000071924830000051
tk表示词项,k∈{1,...,S},S表示词典中词项数量,N表示文档集中文档数量,文本类别集合C={Cm},m∈{1,...,M},文本类别总数为M;
第二频率计算单元,用于计算词项tk的类别频率CFk,CFk=包含词项tk的类别数量,其中,CFk记作cfk
第三频率计算单元,用于计算词项tk的逆向类别频率ICFk
第一权重计算单元,用于计算词项tk在类别Cm中的权重wkm w km = TCF km × ICF k = γ m tcf ( t k , C m ) log 2 ( M cf k )
第一向量计算子单元,用于计算训练文本集所有词项在所述类别空间中的表示向量
t k = ( w k 1 ′ , w k 2 ′ , . . . , w kM ′ ) = ( w k 1 Σ m = 1 M w km 2 , w k 2 Σ m = 1 M w km 2 , . . . , w kM Σ m = 1 M w km 2 )
其中,w′k1,w′k2,...,w′kM分别代表wk1,wk2,...,wkM经过向量归一化处理后的权重值;
其中,所述第二向量计算单元包括:
第二向量计算子单元,具体为:
d i = ( x i 1 , x i 2 , . . . , x iM ) = ( Σ k = 1 S n ki w k 1 ′ Σ m = 1 M ( Σ k = 1 S n ki w km ′ ) 2 , Σ k = 1 S n ki w k 2 ′ Σ m = 1 M ( Σ k = 1 S n ki w km ′ ) 2 , . . . , Σ k = 1 S n ki w kM ′ Σ m = 1 M ( Σ k = 1 S n ki w km ′ ) 2 )
其中,i∈{1,...,N},nki表示词项tk在文档di中出现的次数;S表示词典中词项数量;M为文本类别总数,w’km为对权重wkm进行归一化处理后的权重值,xil为文本在空间中对应坐标轴所对应类型的权重值。
其中,所述余弦相似度计算单元包括:
基向量计算子单元,用于计算类别空间中轴上的基向量:
em=(cm1,cm2,...,cmM),其中 c mi = 0 , m ≠ i 1 , m = i , m∈{1,...,M},i∈{1,...,M}
其中,em为类别空间中的轴,Cm为文本类别,M为文本类别总数;
余弦相似度值计算子单元,具体为:
CosSim ( C m , d i ) = Σ l = 1 M ( c ml x il ) Σ l = 1 M c ml 2 Σ l = 1 M x il 2 = x il | d i | , l∈{1,...,M}
其中,CosSim(Cm,di)为余弦相似度值,M为文本类别总数,Cm为类别空间中轴,xil为文本在空间中对应坐标轴所对应类型的权重值。
其中,所述装置还包括:
预处理单元,用于待分类文本为非词频统计特征数据时,在设置待分类数据集中一个文本在文档集合中的表示模型之前,对待分类数据集Vi=(vil,...,viL)进行离散化处理和数据区间变换处理。
应用本发明实施例提供的方法和装置,可以根据文本内容所表达的含义准确、高效的对高维文本进行分类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的对文本进行分类的方法流程图;
图2是根据本发明实施例的类别空间示意图;
图3是根据本发明实施例的电子病历文本识别结果示意图;
图4是根据本发明实施例的对文本进行分类的装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,其是根据本发明实施例的对文本进行分类的方法流程图,为了更准确、高效的对文本进行分类,该流程具体包括:
步骤101,构建一个类别空间,所述类别空间包括多个坐标轴,每个坐标轴代表一个文本类别;
步骤102,计算任一训练文本中所包含词项在所述类别空间中的表示向量,获得训练文本集所有词项在所述类别空间中的表示向量;
该步骤具体包括:
1)计算词项tk在类别Cm中的频率TCFkm
TCFkm=γmtcf(tk,Cm)
其中tcf(tk,Cm)为词项tk在文本类别Cm中出现的次数,γm为权值,通常可以取1或
Figure BDA0000071924830000071
tk表示词项,k∈{1,...,S},S表示词典中词项数量,N表示文档集中文档数量,文本类别集合C={Cm},m∈{1,...,M},文本类别总数为M;
2)计算词项tk的类别频率CFk
CFk=包含词项tk的类别数量,
其中,CFk记作cfk
3)计算词项tk的逆向类别频率ICFk
ICF k = lo g 2 M cf k
4)计算词项tk在类别Cm中的权重wkm
w km = TCF km × ICF k = γ m tcf ( t k , C m ) log 2 ( M cf k ) - - - ( 1 )
5)计算训练文本集所有词项在所述类别空间中的表示向量
t k = ( w k 1 ′ , w k 2 ′ , . . . , w kM ′ ) = ( w k 1 Σ m = 1 M w km 2 , w k 2 Σ m = 1 M w km 2 , . . . , w kM Σ m = 1 M w km 2 )
其中,w′k1,w′k2,...,w′kM分别代表wk1,wk2,...,wkM经过向量归一化处理后的权重值。其中分母
Figure BDA0000071924830000084
用于对向量归一化,以减少个别词项对整体的影响,平衡词项间的的权重。
步骤103,根据待分类文本所包含的词项及所述词项在所述类别空间中的表示向量,获得待分类文本在所述类别空间中的表示向量;
具体的,
d i = ( x i 1 , x i 2 , . . . , x iM ) = ( Σ k = 1 S n ki w k 1 ′ Σ m = 1 M ( Σ k = 1 S n ki w km ′ ) 2 , Σ k = 1 S n ki w k 2 ′ Σ m = 1 M ( Σ k = 1 S n ki w km ′ ) 2 , . . . , Σ k = 1 S n ki w kM ′ Σ m = 1 M ( Σ k = 1 S n ki w km ′ ) 2 )
其中,i∈{1,...,N},nki表示词项tk在文档di中出现的次数;S表示词典中词项数量;M为文本类别总数,w’km为对权重wkm进行归一化处理后的权重值,xil为文本在空间中对应坐标轴所对应类型的权重值。
上述文本di可以表示在类别空间内文档集合中的任何一个文本。
步骤104,计算所述待分类文本在所述类别空间中的表示向量与所述类别空间中各个坐标轴对应的基向量的余弦相似度值;
参见图2,其是根据本发明实施例的类别空间示意图。本实施例中,假设类别总数M=3,则该类别空间共有3个坐标轴。图2中,AC1、AC2、AC3代表类别空间中类别C1、C2、C3对应的坐标轴,T1、T2、T3分别代表类别空间中的三个词项。设定de代表由T2、T3构成的文档。则文档de=aT2+bT3=(s1,s2,s3),其中a与b分别代表T2与T3在文本de中出现的频次,s1、s2、s3代表de在类别空间中坐标轴AC1、AC2、AC3上的分量。
通过上述示例,本步骤可以具体包括:
1)计算类别空间中轴上的基向量:
em=(cm1,cm2,...,cmM),其中 c mi = 0 , m ≠ i 1 , m = i , m∈{1,...,M},i∈{1,...,M}
其中,em为类别空间中的轴,Cm为文本类别,M为文本类别总数;
2)计算余弦相似度值
CosSim ( C m , d i ) = Σ l = 1 M ( c ml x il ) Σ l = 1 M c ml 2 Σ l = 1 M x il 2 = x il | d i | , l∈{1,...,M}
其中,CosSim(Cm,di)为余弦相似度值,M为文本类别总数,Cm为类别空间中轴,xil为文本在空间中对应坐标轴所对应类型的权重值。
步骤105,将最大的余弦相似度值所对应的坐标轴所代表的文本类别作为待分类文本的类别。
具体的,在1,...,M中取一个max,即max∈{1,...,M},该max使得CosSim(Cmax,di)的值为最大,将CosSim(Cmax,di)所对应坐标轴所指示的类别作为文本di的类别。
至此,根据文本的内容对文本进行了分类。
需要说明的是,上述步骤101、102实际是分类器训练过程,上述步骤103-105实际是分类器测试过程。
本发明实施例提出了基于词项类别频率-逆向类别频率(TCF-ICF,Term Class Frequency-Inverse Class Frequency)模型的类别空间分级(Class Space Classification,CSC)方法,利用类别词项的类别频率统计原理实现文档类别的识别。针对文档集合中的每个文档进行分词,对词频进行训练,如通过上述公式(1)计算每个词项tk的权重wkm。因此一个在当前类别中频繁出现,但是在剩余的其它类别中很少出现的词项可以获得较高的权重。
上述图1所示方法是基于词频统计的,对于非词频统计特征数据,在进入如下预处理后,也可以应用图1所示方法。这里的预处理包括:
对待分类数据集Vi=(vil,...,viL)进行离散化处理和数据区间变换处理。
其中,如果所述待分类数据集大小为N,组成的矩阵A=(vij)N×L,其中i∈{1,...,N},j∈{1,...,L},则
所述离散化处理具体包括:
对矩阵A中列向量Vj=(v1j,...,vNj)T进行区间划分,区间数为pj;,具体实现时,可以按照经验划分,比如采用等分、高斯分布划分等方式。
其中,pj>1,并定义区间标号为
Figure BDA0000071924830000101
所述数据区间变换处理具体包括:
对分类的数据Vi做变换为V′i=(v′il,...,v′iL),其中v′ij的值取区间的标号;
所述变换具体为对待分类的数据Vi=(vil,...,viL)中各个分类的值变换为区间标号的值V′i=(v′il,...,v′iL)。
在进行上述预处理后,再执行步骤101,这样,使得本发明实施例所提供的方法可以更具有通用性,即词频统计特征数据和非词频统计特征数据都可以采用本发明的方法。
下面通过实验的方法对本发明的效果进行说明。
本发明提供的CSC方法经过三组数据集测试,并通过和其他两类经典的分类方法(决策树(Decision tree)和支持向量机(SVM))做了准确度和性能指标的比较。
首先,对测试用数据集进行简介:
1)Reuters数据集
路透社新闻数据集Reuters-21578是文本分类研究经常使用的数据集。它的类别划分方法有很多,本发明实验采用最为常用的ModApte规则,选取24329个特征词项,共有90个分类类别。
2)20Newsgroups数据集
20Newsgroups也是一个较常用的文本数据集。本发明实验选取10000个特征词项,收集了来自20个不同新闻组的文档,即共有20个分类类别。
3)东软电子病历数据集(NSR-EMR,Neusoft Research Electronical Medical Record)
NSR-EMR数据集包含了来自912个真实电子病历文档。本发明实验选取330207个特征词项,包含主诉、现病史、既往史、过敏史、个人史、家族史、查体、辅助检查、初步诊断、诊断依据、鉴别诊断、诊疗计划、消毒内诊、产科检查14个分类类别。
经测试后测试结果如下:
1)数据集测试结果
针对Decision tree和SVM两种方法的测试进行降维处理,CSC方法未做降维处理。本发明测试环境为内存大小:2G,处理器速度:CoreTM2Quad CPU Q9400@2.66GHz,Linux内核版本为:
2.6.32-31-generic。测试结果如表1所示。
表1文本分类测试结果对比
Figure BDA0000071924830000112
Figure BDA0000071924830000121
根据表1可以看出本方明的分类方法在准确度和时间性能指标上都具有较高的优势。本发明所述分类方法的训练时间复杂度为O(NS+2SM),测试时间复杂度为O(N′SM),其中N为训练文档个数,S为特征维数,M为类别个数,N′为测试文档个数。
2)分类应用效果
将上述方法应用到电子病历系统中的文本语义识别中,试验结果表明平均识别准确率在90%以上。应用效果如图3所示。
可见,应用本发明实施例提供的方法可以准确、高效的对高维文本进行分类。
本发明实施例还提供了一种对文本进行分类的装置,参见图4,所述装置具体包括:
构建单元401,用于构建一个类别空间,所述类别空间包括多个坐标轴,每个坐标轴代表一个文本类别;
第一向量计算单元402,用于计算任一训练文本中所包含词项在所述类别空间中的表示向量,获得训练文本集所有词项在所述类别空间中的表示向量;
第二向量计算单元403,用于根据待分类文本所包含的词项及所述词项在所述类别空间中的表示向量,获得待分类文本在所述类别空间中的表示向量;
余弦相似度计算单元404,用于计算所述待分类文本在所述类别空间中的表示向量与所述类别空间中各个坐标轴对应的基向量的余弦相似度值;
分类识别单元405,用于将最大的余弦相似度值所对应的坐标轴所代表的文本类别作为待分类文本的类别。
上述第一向量计算单元402可以具体包括:
第一频率计算单元,用于计算词项tk在类别Cm中的频率TCFkm
TCFkm=γmtcf(tk,Cm)
其中tcf(tk,Cm)为词项tk在文本类别Cm中出现的次数,γm为权值,通常可以取1或tk表示词项,k∈{1,...,S},S表示词典中词项数量,N表示文档集中文档数量,文本类别集合C={Cm},m∈{1,...,M},文本类别总数为M;
第二频率计算单元,用于计算词项tk的类别频率CFk,CFk=包含词项tk的类别数量,其中,CFk记作cfk
第三频率计算单元,用于计算词项tk的逆向类别频率ICFk
Figure BDA0000071924830000132
第一权重计算单元,用于计算词项tk在类别Cm中的权重wkm w km = TCF km × ICF k = γ m tcf ( t k , C m ) log 2 ( M cf k )
第一向量计算子单元,用于计算训练文本集所有词项在所述类别空间中的表示向量
t k = ( w k 1 ′ , w k 2 ′ , . . . , w kM ′ ) = ( w k 1 Σ m = 1 M w km 2 , w k 2 Σ m = 1 M w km 2 , . . . , w kM Σ m = 1 M w km 2 )
其中,w′k1,w′k2,...,w′kM分别代表wk1,wk2,...,wkM经过向量归一化处理后的权重值;
上述第二向量计算单元403可以具体包括:
第二向量计算子单元,具体为:
d i = ( x i 1 , x i 2 , . . . , x iM ) = ( Σ k = 1 S n ki w k 1 ′ Σ m = 1 M ( Σ k = 1 S n ki w km ′ ) 2 , Σ k = 1 S n ki w k 2 ′ Σ m = 1 M ( Σ k = 1 S n ki w km ′ ) 2 , . . . , Σ k = 1 S n ki w kM ′ Σ m = 1 M ( Σ k = 1 S n ki w km ′ ) 2 )
其中,i∈{1,...,N},nki表示词项tk在文档di中出现的次数;S表示词典中词项数量;M为文本类别总数,w’km为对权重wkm进行归一化处理后的权重值,xil为文本在空间中对应坐标轴所对应类型的权重值。
上述余弦相似度计算单元404具体包括:
基向量计算子单元,用于计算类别空间中轴上的基向量:
em=(cm1,cm2,...,cmM),其中 c mi = 0 , m ≠ i 1 , m = i , m∈{1,...,M},i∈{1,...,M}
其中,em为类别空间中的轴,Cm为文本类别,M为文本类别总数;
余弦相似度值计算子单元,具体为:
CosSim ( C m , d i ) = Σ l = 1 M ( c ml x il ) Σ l = 1 M c ml 2 Σ l = 1 M x il 2 = x il | d i | , l∈{1,...,M}
其中,CosSim(Cm,di)为余弦相似度值,M为文本类别总数,Cm为类别空间中轴,xil为文本在空间中对应坐标轴所对应类型的权重值。
上述装置还可以包括:
预处理单元,用于待分类文本为非词频统计特征数据时,在设置待分类数据集中一个文本在文档集合中的表示模型之前,对待分类数据集Vi=(vil,...,viL)进行离散化处理和数据区间变换处理。
所述预处理单元可以具体包括:
离散化处理单元,用于离散化处理,具体包括:对矩阵A中列向量Vj=(v1j,...,vNj)T进行区间划分,区间数为pj;其中,pj>1,并定义区间标号为 { label j 1 , . . . , label j p j } ;
数据区间变换处理单元,用于数据区间变换处理,具体包括:对分类的数据Vi做变换为V′i=(v′i1,...,v′iL),其中v′ij的值取区间的标号;所述变换为对待分类的数据Vi=(vil,...,viL)中各个分类的值变换为区间标号的值V′i=(v′il,...,v′iL)。
应用本发明实施例提供的装置可以准确、高效的对高维文本进行分类。
对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (11)

1.一种对文本进行分类的方法,其特征在于,
构建一个类别空间,所述类别空间包括多个坐标轴,每个坐标轴代表一个文本类别;
计算任一训练文本中所包含词项在所述类别空间中的表示向量,获得训练文本集所有词项在所述类别空间中的表示向量;
根据待分类文本所包含的词项及所述词项在所述类别空间中的表示向量,获得待分类文本在所述类别空间中的表示向量;
计算所述待分类文本在所述类别空间中的表示向量与所述类别空间中各个坐标轴对应的基向量的余弦相似度值;
将最大的余弦相似度值所对应的坐标轴所代表的文本类别作为待分类文本的类别。
2.根据权利要求1所述的方法,其特征在于,计算任一训练文本中所包含词项在所述类别空间中的表示向量,获得训练文本集所有词项在所述类别空间中的表示向量的步骤包括:
1)计算词项tk在类别Cm中的频率TCFkm
TCFkm=γmtcf(tk,Cm)
其中tcf(tk,Cm)为词项tk在文本类别Cm中出现的次数,γm为权值,通常取1或 
Figure FDA0000071924820000011
tk表示词项,k∈{1,...,S},S表示词典中词项数量,N表示文档集中文档数量,文本类别集合C={Cm},m∈{1,...,M},文本类别总数为M;
2)计算词项tk的类别频率CFk
CFk=包含词项tk的类别数量,
其中,CFk记作cfk
3)计算词项tk的逆向类别频率ICFk
Figure FDA0000071924820000021
4)计算词项tk在类别Cm中的权重wkm
Figure FDA0000071924820000022
5)计算训练文本集所有词项在所述类别空间中的表示向量
Figure FDA0000071924820000023
其中,w′k1,w′k2,...,w′kM分别代表wk1,wk2,...,wkM经过向量归一化处理后的权重值。
3.根据权利要求1所述的方法,其特征在于,获得待分类文本在所述类别空间中的表示向量的步骤为:
Figure FDA0000071924820000024
其中,i∈{1,...,N},nki表示词项tk在文档di中出现的次数;S表示词典中词项数量;M为文本类别总数,w’km为对权重wkm进行归一化处理后的权重值,xil为文本在空间中对应坐标轴所对应类型的权重值。
4.根据权利要求1所述的方法,其特征在于,计算余弦相似度值的步骤包括:
1)计算类别空间中轴上的基向量: 
em=(cm1,cm2,...,cmM),其中
Figure FDA0000071924820000031
m∈{1,...,M},i∈{1,...,M}
其中,em为类别空间中的轴,Cm为文本类别,M为文本类别总数;
2)计算余弦相似度值
Figure FDA0000071924820000032
l∈{1,...,M}
其中,CosSim(Cm,di)为余弦相似度值,M为文本类别总数,Cm为类别空间中轴,xil为文本在空间中对应坐标轴所对应类型的权重值。
5.根据权利要求1所述的方法,其特征在于,如果待分类文本为非词频统计特征数据,在设置待分类数据集中一个文本在文档集合中的表示模型之前,所述方法还包括:
对待分类数据集Vi=(vil,...,viL)进行离散化处理和数据区间变换处理。
6.根据权利要求4所述的方法,其特征在于,如果所述待分类数据集大小为N,组成的矩阵A=(vij)N×L,其中i∈{1,...,N},j∈{1,...,L},
则所述离散化处理包括:
对矩阵A中列向量Vj=(v1j,...,vNj)T进行区间划分,区间数为pj
其中,pj>1,并定义区间标号为 
Figure FDA0000071924820000033
所述数据区间变换处理包括:
对分类的数据Vi做变换为V′i=(v′il,...,v′iL),其中v′ij的值取区间的标号;
对待分类的数据Vi=(vil,...,viL)中各个分类的值变换为区间标号的值V′i=(v′il,...,v′iL)。
7.一种对文本进行分类的装置,其特征在于,所述装置包括:
构建单元,用于构建一个类别空间,所述类别空间包括多个坐标轴,每个坐标轴代表一个文本类别;
第一向量计算单元,用于计算任一训练文本中所包含词项在所述类别空间中的表示向量,获得训练文本集所有词项在所述类别空间中的表示向量;
第二向量计算单元,用于根据待分类文本所包含的词项及所述词项在所述类别空间中的表示向量,获得待分类文本在所述类别空间中的表示向量; 
余弦相似度计算单元,用于计算所述待分类文本在所述类别空间中的表示向量与所述类别空间中各个坐标轴对应的基向量的余弦相似度值;
分类识别单元,用于将最大的余弦相似度值所对应的坐标轴所代表的文本类别作为待分类文本的类别。
8.根据权利要求7所述的装置,其特征在于,所述第一向量计算单元包括:
第一频率计算单元,用于计算词项tk在类别Cm中的频率TCFkm
TCFkm=γmtcf(tk,Cm)
其中tcf(tk,Cm)为词项tk在文本类别Cm中出现的次数,γm为权值,通常可以取1或 
Figure FDA0000071924820000041
tk表示词项,k∈{1,...,S},S表示词典中词项数量,N表示文档集中文档数量,文本类别集合C={Cm},m∈{1,...,M},文本类别总数为M;
第二频率计算单元,用于计算词项tk的类别频率CFk,CFk=包含词项tk的类别数量,其中,CFk记作cfk
第三频率计算单元,用于计算词项tk的逆向类别频率ICFk, 
Figure FDA0000071924820000042
第一权重计算单元,用于计算词项tk在类别Cm中的权重wkm, 
Figure FDA0000071924820000043
第一向量计算子单元,用于计算训练文本集所有词项在所述类别空间中的表示向量 
Figure FDA0000071924820000051
其中,w′k1,w′k2,...,w′kM分别代表wk1,wk2,...,wkM经过向量归一化处理后的权重值。
9.根据权利要求7所述的装置,其特征在于,所述第二向量计算单元包括:
第二向量计算子单元,具体为:
Figure FDA0000071924820000052
其中,i∈{1,...,N},nki表示词项tk在文档di中出现的次数;S表示词典中词项数量;M为文本类别总数,w’km为对权重wkm进行归一化处理后的权重值,xil为文本在空间中对应坐标轴所对应类型的权重值。
10.根据权利要求7所述的装置,其特征在于,所述余弦相似度计算单元包括:
基向量计算子单元,用于计算类别空间中轴上的基向量:
em=(cm1,cm2,...,cmM),其中
Figure FDA0000071924820000053
m∈{1,...,M},i∈{1,...,M}
其中,em为类别空间中的轴,Cm为文本类别,M为文本类别总数;
余弦相似度值计算子单元,具体为:
l∈{1,...,M} 
其中,CosSim(Cm,di)为余弦相似度值,M为文本类别总数,Cm为类别空间中轴,xil为文本在空间中对应坐标轴所对应类型的权重值。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
预处理单元,用于待分类文本为非词频统计特征数据时,在设置待分类数据集中一个文本在文档集合中的表示模型之前,对待分类数据集Vi=(vil,...,viL)进行离散化处理和数据区间变换处理。 
CN 201110177822 2011-06-28 2011-06-28 一种对文本进行分类的方法及装置 Expired - Fee Related CN102214233B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110177822 CN102214233B (zh) 2011-06-28 2011-06-28 一种对文本进行分类的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110177822 CN102214233B (zh) 2011-06-28 2011-06-28 一种对文本进行分类的方法及装置

Publications (2)

Publication Number Publication Date
CN102214233A true CN102214233A (zh) 2011-10-12
CN102214233B CN102214233B (zh) 2013-04-10

Family

ID=44745541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110177822 Expired - Fee Related CN102214233B (zh) 2011-06-28 2011-06-28 一种对文本进行分类的方法及装置

Country Status (1)

Country Link
CN (1) CN102214233B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408035A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 词语情感类型的分析方法和装置
CN104915356A (zh) * 2014-03-13 2015-09-16 中国移动通信集团上海有限公司 一种文本分类校正方法及装置
CN106503146A (zh) * 2016-10-21 2017-03-15 江苏理工学院 计算机文本的特征选择方法、分类特征选择方法及系统
CN106802940A (zh) * 2016-12-30 2017-06-06 东软集团股份有限公司 一种计算文本主题模型的方法及装置
CN107329999A (zh) * 2017-06-09 2017-11-07 江西科技学院 文档分类方法及装置
CN107577760A (zh) * 2017-09-01 2018-01-12 北京神州泰岳软件股份有限公司 一种基于约束规范的文本分类方法及装置
CN107833603A (zh) * 2017-11-13 2018-03-23 医渡云(北京)技术有限公司 电子病历文档分类方法、装置、电子设备及存储介质
CN108021667A (zh) * 2017-12-05 2018-05-11 新华网股份有限公司 一种文本分类方法和装置
CN109582791A (zh) * 2018-11-13 2019-04-05 阿里巴巴集团控股有限公司 文本的风险识别方法及装置
CN111259155A (zh) * 2020-02-18 2020-06-09 中国地质大学(武汉) 一种基于特异性的词频加权方法及文本分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1438592A (zh) * 2003-03-21 2003-08-27 清华大学 一种文本自动分类方法
CN101187985A (zh) * 2006-11-17 2008-05-28 沈阳东软软件股份有限公司 确定对象分类器分类边界的方法及装置
CN102034117A (zh) * 2010-12-17 2011-04-27 东软集团股份有限公司 一种图像分类方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1438592A (zh) * 2003-03-21 2003-08-27 清华大学 一种文本自动分类方法
CN101187985A (zh) * 2006-11-17 2008-05-28 沈阳东软软件股份有限公司 确定对象分类器分类边界的方法及装置
CN102034117A (zh) * 2010-12-17 2011-04-27 东软集团股份有限公司 一种图像分类方法和装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915356B (zh) * 2014-03-13 2018-12-07 中国移动通信集团上海有限公司 一种文本分类校正方法及装置
CN104915356A (zh) * 2014-03-13 2015-09-16 中国移动通信集团上海有限公司 一种文本分类校正方法及装置
CN104408035A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 词语情感类型的分析方法和装置
CN106503146A (zh) * 2016-10-21 2017-03-15 江苏理工学院 计算机文本的特征选择方法、分类特征选择方法及系统
CN106503146B (zh) * 2016-10-21 2019-06-07 江苏理工学院 计算机文本的特征选择方法
CN106802940A (zh) * 2016-12-30 2017-06-06 东软集团股份有限公司 一种计算文本主题模型的方法及装置
CN107329999A (zh) * 2017-06-09 2017-11-07 江西科技学院 文档分类方法及装置
CN107329999B (zh) * 2017-06-09 2020-10-20 江西科技学院 文档分类方法及装置
CN107577760A (zh) * 2017-09-01 2018-01-12 北京神州泰岳软件股份有限公司 一种基于约束规范的文本分类方法及装置
CN107577760B (zh) * 2017-09-01 2019-12-17 中科鼎富(北京)科技发展有限公司 一种基于约束规范的文本分类方法及装置
CN107833603A (zh) * 2017-11-13 2018-03-23 医渡云(北京)技术有限公司 电子病历文档分类方法、装置、电子设备及存储介质
CN108021667A (zh) * 2017-12-05 2018-05-11 新华网股份有限公司 一种文本分类方法和装置
CN109582791A (zh) * 2018-11-13 2019-04-05 阿里巴巴集团控股有限公司 文本的风险识别方法及装置
CN109582791B (zh) * 2018-11-13 2023-01-24 创新先进技术有限公司 文本的风险识别方法及装置
CN111259155A (zh) * 2020-02-18 2020-06-09 中国地质大学(武汉) 一种基于特异性的词频加权方法及文本分类方法
CN111259155B (zh) * 2020-02-18 2023-04-07 中国地质大学(武汉) 一种基于特异性的词频加权方法及文本分类方法

Also Published As

Publication number Publication date
CN102214233B (zh) 2013-04-10

Similar Documents

Publication Publication Date Title
CN102214233B (zh) 一种对文本进行分类的方法及装置
US11568311B2 (en) Method and system to test a document collection trained to identify sentiments
James et al. Unsupervised learning
Balyan et al. Applying natural language processing and hierarchical machine learning approaches to text difficulty classification
Liu et al. Unrestricted mixture models for class identification in growth mixture modeling
Cohen An effective general purpose approach for automated biomedical document classification
CN102236636A (zh) 情感倾向性分析方法和装置
Ziemski et al. Beating naive bayes at taxonomic classification of 16S rRNA gene sequences
Huang et al. Predicting adverse drug reactions from social media posts: data balance, feature selection and deep learning
Ahmed et al. Enhancement of student performance prediction using modified K-nearest neighbor
Kou Association rule mining using chaotic gravitational search algorithm for discovering relations between manufacturing system capabilities and product features
Meiriza et al. Prediction graduate student use naive bayes classifier
Santur et al. Knowledge mining approach for healthy monitoring from pregnancy data with big volumes
Guo et al. Spectral clustering algorithm for cognitive diagnostic assessment
Spichakova et al. Application of Machine Learning for Assessment of HS Code Correctness.
Feng et al. A combination of resampling and ensemble method for text classification on imbalanced data
Al Shamsi et al. Automatic patent classification by a three-phase model with document frequency matrix and boosted tree
Kato et al. Categorization of web news documents using word2vec and deep learning
Elyassami et al. Intelligent models for mining social media data
Ghosh et al. Understanding Machine Learning
Alshalif et al. Alternative Relative Discrimination Criterion Feature Ranking Technique for Text Classification
Sagala et al. A comparative study for classification on different domain
Danilov et al. The classification of scientific literature for its topical tracking on a small human-prepared dataset
Manek et al. Classification of drugs reviews using W-LRSVM model
CN114996446B (zh) 一种文本分类方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130410

Termination date: 20200628