CN102214233A

CN102214233A - 一种对文本进行分类的方法及装置

Info

Publication number: CN102214233A
Application number: CN2011101778223A
Authority: CN
Inventors: 赵大哲; 栗伟; 杨金柱; 覃文军; 李博
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2011-06-28
Filing date: 2011-06-28
Publication date: 2011-10-12
Anticipated expiration: 2031-06-28
Also published as: CN102214233B

Abstract

本发明公开了一种对文本进行分类的方法及装置，所述方法包括：构建一个类别空间，该类别空间包括多个坐标轴，每个坐标轴代表一个文本类别；计算任一训练文本中所包含词项在所述类别空间中的表示向量，获得训练文本集所有词项在所述类别空间中的表示向量；根据待分类文本所包含的词项及所述词项在所述类别空间中的表示向量，获得待分类文本在所述类别空间中的表示向量；计算所述待分类文本在所述类别空间中的表示向量与所述类别空间中各个坐标轴对应的基向量的余弦相似度值；将最大的余弦相似度值所对应的坐标轴所代表的文本类别作为待分类文本的类别。应用本发明，可以根据文本内容所表达的含义准确、高效的对高维文本进行分类。

Description

一种对文本进行分类的方法及装置

技术领域

本发明涉及分类技术领域，特别涉及一种对文本进行分类的方法及装置。

背景技术

文本分类是指在给定分类模型下，根据文本内容自动判断文本类别的过程，它广泛应用于信息检索、文本过滤等领域。文本分类一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程，其中文本的表达又可细分为文本预处理、索引、降维和统计、特征抽取等步骤。文本分类技术的研究开始于20世纪60年代，词频统计是主要的分类技术。后来兴起了基于知识工程方法的文本分类方法，但是由于知识工程方法中专家的主观因素较多，存在可推广性极差的致命弱点。直到20世纪90年代，机器学习逐渐成为文本分类的主流技术。当前统计方法和机器学习的文本分类方法有很多，比如决策树，Rocchio，朴素贝叶斯，神经网络，支持向量机，最邻近算法(kNN，k-Nearest Neighbor algorithm)等。

电子病历(Electronic Health Record)是以电子化方式管理的有关个人终生健康状态和医疗保健行为的文本数据，涉及病人信息的采集、存储、传输、处理和利用。病历信息化在医院信息化建设中处于核心的地位，电子病历是医院数字化之本。因此，近年来电子病历得到了从政府到医院、从业务科室到IT部门的普遍关注。电子病历的应用将促进病历书写的规范化及标准化、提高临床医生的工作效率及医疗质量、降低医疗费用、加快临床数据的共享，并且向着电子化、集成化和智能化方向迅速发展。

文本通常描述多样，数量巨大，尤其对于电子病历文本，又具有医学知识复杂、表述严谨，医学词典异常庞杂等特点，因此，待分类文本的通常是一个具有高维向量的文本，而如何准确、高效的对高维文本进行分类，是个有待解决的问题。

发明内容

本发明实施例在于提供一种对文本进行分类的方法及装置，以准确、高效的对文本进行分类。

本发明实施例提供了一种对文本进行分类的方法，所述方法包括：

构建一个类别空间，所述类别空间包括多个坐标轴，每个坐标轴代表一个文本类别；

计算任一训练文本中所包含词项在所述类别空间中的表示向量，获得训练文本集所有词项在所述类别空间中的表示向量；

根据待分类文本所包含的词项及所述词项在所述类别空间中的表示向量，获得待分类文本在所述类别空间中的表示向量；

计算所述待分类文本在所述类别空间中的表示向量与所述类别空间中各个坐标轴对应的基向量的余弦相似度值；

将最大的余弦相似度值所对应的坐标轴所代表的文本类别作为待分类文本的类别。

其中，计算任一训练文本中所包含词项在所述类别空间中的表示向量，获得训练文本集所有词项在所述类别空间中的表示向量的步骤包括：

1)计算词项t_k在类别C_m中的频率TCF_km

TCF_km＝γ_mtcf(t_k，C_m)

其中tcf(t_k，C_m)为词项t_k在文本类别C_m中出现的次数，γ_m为权值，通常取1或

t_k表示词项，k∈{1，...，S}，S表示词典中词项数量，N表示文档集中文档数量，文本类别集合C＝{C_m}，m∈{1，...，M}，文本类别总数为M；

2)计算词项t_k的类别频率CF_k，

CF_k＝包含词项t_k的类别数量，

其中，CF_k记作cf_k；

3)计算词项t_k的逆向类别频率ICF_k

{ICF}_{k} = lo g_{2} \frac{M}{{cf}_{k}}

4)计算词项t_k在类别C_m中的权重w_km

w_{km} = {TCF}_{km} \times {ICF}_{k} = γ_{m} tcf (t_{k}, C_{m}) \log_{2} (\frac{M}{{cf}_{k}})

5)计算训练文本集所有词项在所述类别空间中的表示向量

t_{k} = (w_{k 1}^{'}, w_{k 2}^{'}, . . ., w_{kM}^{'}) = (\frac{w_{k 1}}{\sqrt{Σ_{m = 1}^{M} w_{km}^{2}}}, \frac{w_{k 2}}{\sqrt{Σ_{m = 1}^{M} w_{km}^{2}}}, . . ., \frac{w_{kM}}{\sqrt{Σ_{m = 1}^{M} w_{km}^{2}}})

其中，w′_k1，w′_k2，...，w′_kM分别代表w_k1，w_k2，...，w_kM经过向量归一化处理后的权重值。

其中，获得待分类文本在所述类别空间中的表示向量的步骤为：

d_{i} = (x_{i 1}, x_{i 2}, . . ., x_{iM}) = (\frac{Σ_{k = 1}^{S} n_{ki} w_{k 1}^{'}}{\sqrt{Σ_{m = 1}^{M} {(Σ_{k = 1}^{S} n_{ki} w_{km}^{'})}^{2}}}, \frac{Σ_{k = 1}^{S} n_{ki} w_{k 2}^{'}}{\sqrt{Σ_{m = 1}^{M} {(Σ_{k = 1}^{S} n_{ki} w_{km}^{'})}^{2}}}, . . ., \frac{Σ_{k = 1}^{S} n_{ki} w_{kM}^{'}}{\sqrt{Σ_{m = 1}^{M} {(Σ_{k = 1}^{S} n_{ki} w_{km}^{'})}^{2}}})

其中，i∈{1，...，N}，n_ki表示词项t_k在文档d_i中出现的次数；S表示词典中词项数量；M为文本类别总数，w’_km为对权重w_km进行归一化处理后的权重值，x_il为文本在空间中对应坐标轴所对应类型的权重值。

其中，计算余弦相似度值的步骤包括：

1)计算类别空间中轴上的基向量：

e_m＝(c_m1，c_m2，...，c_mM)，其中

c_{mi} = \{\begin{matrix} 0, m &NotEqual; i \\ 1, m = i \end{matrix},

m∈{1，...，M}，i∈{1，...，M}

其中，e_m为类别空间中的轴，C_m为文本类别，M为文本类别总数；

2)计算余弦相似度值

CosSim (C_{m}, d_{i}) = \frac{Σ_{l = 1}^{M} (c_{ml} x_{il})}{\sqrt{Σ_{l = 1}^{M} c_{ml}^{2} Σ_{l = 1}^{M} x_{il}^{2}}} = \frac{x_{il}}{| d_{i} |},

l∈{1，...，M}

其中，CosSim(C_m，d_i)为余弦相似度值，M为文本类别总数，C_m为类别空间中轴，x_il为文本在空间中对应坐标轴所对应类型的权重值。

其中，如果待分类文本为非词频统计特征数据，在设置待分类数据集中一个文本在文档集合中的表示模型之前，所述方法还包括：

对待分类数据集V_i＝(v_il，...，v_iL)进行离散化处理和数据区间变换处理。

其中，如果所述待分类数据集大小为N，组成的矩阵A＝(v_ij)_N×L，其中i∈{1，...，N}，j∈{1，...，L}，

则所述离散化处理包括：

对矩阵A中列向量V_j＝(v_1j，...，v_Nj)^T进行区间划分，区间数为p_j；

其中，p_j＞1，并定义区间标号为

所述数据区间变换处理包括：

对分类的数据V_i做变换为V′_i＝(v′_il，...，v′_iL)，其中v′_ij的值取区间的标号；

对待分类的数据V_i＝(v_il，...，v_iL)中各个分类的值变换为区间标号的值V′_i＝(v′_il，...，v′_iL)。

本发明实施例还提供了一种对文本进行分类的装置，所述装置包括：

构建单元，用于构建一个类别空间，所述类别空间包括多个坐标轴，每个坐标轴代表一个文本类别；

第一向量计算单元，用于计算任一训练文本中所包含词项在所述类别空间中的表示向量，获得训练文本集所有词项在所述类别空间中的表示向量；

第二向量计算单元，用于根据待分类文本所包含的词项及所述词项在所述类别空间中的表示向量，获得待分类文本在所述类别空间中的表示向量；

余弦相似度计算单元，用于计算所述待分类文本在所述类别空间中的表示向量与所述类别空间中各个坐标轴对应的基向量的余弦相似度值；

分类识别单元，用于将最大的余弦相似度值所对应的坐标轴所代表的文本类别作为待分类文本的类别。

其中，所述第一向量计算单元包括：

第一频率计算单元，用于计算词项t_k在类别C_m中的频率TCF_km

TCF_km＝γ_mtcf(t_k，C_m)

其中tcf(t_k，C_m)为词项t_k在文本类别C_m中出现的次数，γ_m为权值，通常可以取1或

第二频率计算单元，用于计算词项t_k的类别频率CF_k，CF_k＝包含词项t_k的类别数量，其中，CF_k记作cf_k；

第三频率计算单元，用于计算词项t_k的逆向类别频率ICF_k，

第一权重计算单元，用于计算词项t_k在类别C_m中的权重w_km，

w_{km} = {TCF}_{km} \times {ICF}_{k} = γ_{m} tcf (t_{k}, C_{m}) \log_{2} (\frac{M}{{cf}_{k}})

第一向量计算子单元，用于计算训练文本集所有词项在所述类别空间中的表示向量

t_{k} = (w_{k 1}^{'}, w_{k 2}^{'}, . . ., w_{kM}^{'}) = (\frac{w_{k 1}}{\sqrt{Σ_{m = 1}^{M} w_{km}^{2}}}, \frac{w_{k 2}}{\sqrt{Σ_{m = 1}^{M} w_{km}^{2}}}, . . ., \frac{w_{kM}}{\sqrt{Σ_{m = 1}^{M} w_{km}^{2}}})

其中，w′_k1，w′_k2，...，w′_kM分别代表w_k1，w_k2，...，w_kM经过向量归一化处理后的权重值；

其中，所述第二向量计算单元包括：

第二向量计算子单元，具体为：

d_{i} = (x_{i 1}, x_{i 2}, . . ., x_{iM}) = (\frac{Σ_{k = 1}^{S} n_{ki} w_{k 1}^{'}}{\sqrt{Σ_{m = 1}^{M} {(Σ_{k = 1}^{S} n_{ki} w_{km}^{'})}^{2}}}, \frac{Σ_{k = 1}^{S} n_{ki} w_{k 2}^{'}}{\sqrt{Σ_{m = 1}^{M} {(Σ_{k = 1}^{S} n_{ki} w_{km}^{'})}^{2}}}, . . ., \frac{Σ_{k = 1}^{S} n_{ki} w_{kM}^{'}}{\sqrt{Σ_{m = 1}^{M} {(Σ_{k = 1}^{S} n_{ki} w_{km}^{'})}^{2}}})

其中，所述余弦相似度计算单元包括：

基向量计算子单元，用于计算类别空间中轴上的基向量：

e_m＝(c_m1，c_m2，...，c_mM)，其中

c_{mi} = \{\begin{matrix} 0, m &NotEqual; i \\ 1, m = i \end{matrix},

m∈{1，...，M}，i∈{1，...，M}

余弦相似度值计算子单元，具体为：

CosSim (C_{m}, d_{i}) = \frac{Σ_{l = 1}^{M} (c_{ml} x_{il})}{\sqrt{Σ_{l = 1}^{M} c_{ml}^{2} Σ_{l = 1}^{M} x_{il}^{2}}} = \frac{x_{il}}{| d_{i} |},

l∈{1，...，M}

其中，所述装置还包括：

预处理单元，用于待分类文本为非词频统计特征数据时，在设置待分类数据集中一个文本在文档集合中的表示模型之前，对待分类数据集V_i＝(v_il，...，v_iL)进行离散化处理和数据区间变换处理。

应用本发明实施例提供的方法和装置，可以根据文本内容所表达的含义准确、高效的对高维文本进行分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的对文本进行分类的方法流程图；

图2是根据本发明实施例的类别空间示意图；

图3是根据本发明实施例的电子病历文本识别结果示意图；

图4是根据本发明实施例的对文本进行分类的装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，其是根据本发明实施例的对文本进行分类的方法流程图，为了更准确、高效的对文本进行分类，该流程具体包括：

步骤101，构建一个类别空间，所述类别空间包括多个坐标轴，每个坐标轴代表一个文本类别；

步骤102，计算任一训练文本中所包含词项在所述类别空间中的表示向量，获得训练文本集所有词项在所述类别空间中的表示向量；

该步骤具体包括：

1)计算词项t_k在类别C_m中的频率TCF_km

TCF_km＝γ_mtcf(t_k，C_m)

2)计算词项t_k的类别频率CF_k，

CF_k＝包含词项t_k的类别数量，

其中，CF_k记作cf_k；

3)计算词项t_k的逆向类别频率ICF_k

{ICF}_{k} = lo g_{2} \frac{M}{{cf}_{k}}

4)计算词项t_k在类别C_m中的权重w_km

w_{km} = {TCF}_{km} \times {ICF}_{k} = γ_{m} tcf (t_{k}, C_{m}) \log_{2} (\frac{M}{{cf}_{k}}) - - - (1)

5)计算训练文本集所有词项在所述类别空间中的表示向量

t_{k} = (w_{k 1}^{'}, w_{k 2}^{'}, . . ., w_{kM}^{'}) = (\frac{w_{k 1}}{\sqrt{Σ_{m = 1}^{M} w_{km}^{2}}}, \frac{w_{k 2}}{\sqrt{Σ_{m = 1}^{M} w_{km}^{2}}}, . . ., \frac{w_{kM}}{\sqrt{Σ_{m = 1}^{M} w_{km}^{2}}})

其中，w′_k1，w′_k2，...，w′_kM分别代表w_k1，w_k2，...，w_kM经过向量归一化处理后的权重值。其中分母

用于对向量归一化，以减少个别词项对整体的影响，平衡词项间的的权重。

步骤103，根据待分类文本所包含的词项及所述词项在所述类别空间中的表示向量，获得待分类文本在所述类别空间中的表示向量；

具体的，

d_{i} = (x_{i 1}, x_{i 2}, . . ., x_{iM}) = (\frac{Σ_{k = 1}^{S} n_{ki} w_{k 1}^{'}}{\sqrt{Σ_{m = 1}^{M} {(Σ_{k = 1}^{S} n_{ki} w_{km}^{'})}^{2}}}, \frac{Σ_{k = 1}^{S} n_{ki} w_{k 2}^{'}}{\sqrt{Σ_{m = 1}^{M} {(Σ_{k = 1}^{S} n_{ki} w_{km}^{'})}^{2}}}, . . ., \frac{Σ_{k = 1}^{S} n_{ki} w_{kM}^{'}}{\sqrt{Σ_{m = 1}^{M} {(Σ_{k = 1}^{S} n_{ki} w_{km}^{'})}^{2}}})

上述文本d_i可以表示在类别空间内文档集合中的任何一个文本。

步骤104，计算所述待分类文本在所述类别空间中的表示向量与所述类别空间中各个坐标轴对应的基向量的余弦相似度值；

参见图2，其是根据本发明实施例的类别空间示意图。本实施例中，假设类别总数M＝3，则该类别空间共有3个坐标轴。图2中，AC₁、AC₂、AC₃代表类别空间中类别C₁、C₂、C₃对应的坐标轴，T₁、T₂、T₃分别代表类别空间中的三个词项。设定d_e代表由T₂、T₃构成的文档。则文档d_e＝aT₂+bT₃＝(s₁，s₂，s₃)，其中a与b分别代表T₂与T₃在文本d_e中出现的频次，s1、s2、s3代表d_e在类别空间中坐标轴AC₁、AC₂、AC₃上的分量。

通过上述示例，本步骤可以具体包括：

1)计算类别空间中轴上的基向量：

e_m＝(c_m1，c_m2，...，c_mM)，其中

c_{mi} = \{\begin{matrix} 0, m &NotEqual; i \\ 1, m = i \end{matrix},

m∈{1，...，M}，i∈{1，...，M}

2)计算余弦相似度值

CosSim (C_{m}, d_{i}) = \frac{Σ_{l = 1}^{M} (c_{ml} x_{il})}{\sqrt{Σ_{l = 1}^{M} c_{ml}^{2} Σ_{l = 1}^{M} x_{il}^{2}}} = \frac{x_{il}}{| d_{i} |},

l∈{1，...，M}

步骤105，将最大的余弦相似度值所对应的坐标轴所代表的文本类别作为待分类文本的类别。

具体的，在1，...，M中取一个max，即max∈{1，...，M}，该max使得CosSim(C_max，d_i)的值为最大，将CosSim(C_max，d_i)所对应坐标轴所指示的类别作为文本d_i的类别。

至此，根据文本的内容对文本进行了分类。

需要说明的是，上述步骤101、102实际是分类器训练过程，上述步骤103-105实际是分类器测试过程。

本发明实施例提出了基于词项类别频率-逆向类别频率(TCF-ICF，Term Class Frequency-Inverse Class Frequency)模型的类别空间分级(Class Space Classification，CSC)方法，利用类别词项的类别频率统计原理实现文档类别的识别。针对文档集合中的每个文档进行分词，对词频进行训练，如通过上述公式(1)计算每个词项t_k的权重w_km。因此一个在当前类别中频繁出现，但是在剩余的其它类别中很少出现的词项可以获得较高的权重。

上述图1所示方法是基于词频统计的，对于非词频统计特征数据，在进入如下预处理后，也可以应用图1所示方法。这里的预处理包括：

其中，如果所述待分类数据集大小为N，组成的矩阵A＝(v_ij)_N×L，其中i∈{1，...，N}，j∈{1，...，L}，则

所述离散化处理具体包括：

对矩阵A中列向量V_j＝(v_1j，...，v_Nj)^T进行区间划分，区间数为p_j；，具体实现时，可以按照经验划分，比如采用等分、高斯分布划分等方式。

其中，p_j＞1，并定义区间标号为

所述数据区间变换处理具体包括：

所述变换具体为对待分类的数据V_i＝(v_il，...，v_iL)中各个分类的值变换为区间标号的值V′_i＝(v′_il，...，v′_iL)。

在进行上述预处理后，再执行步骤101，这样，使得本发明实施例所提供的方法可以更具有通用性，即词频统计特征数据和非词频统计特征数据都可以采用本发明的方法。

下面通过实验的方法对本发明的效果进行说明。

本发明提供的CSC方法经过三组数据集测试，并通过和其他两类经典的分类方法(决策树(Decision tree)和支持向量机(SVM))做了准确度和性能指标的比较。

首先，对测试用数据集进行简介：

1)Reuters数据集

路透社新闻数据集Reuters-21578是文本分类研究经常使用的数据集。它的类别划分方法有很多，本发明实验采用最为常用的ModApte规则，选取24329个特征词项，共有90个分类类别。

2)20Newsgroups数据集

20Newsgroups也是一个较常用的文本数据集。本发明实验选取10000个特征词项，收集了来自20个不同新闻组的文档，即共有20个分类类别。

3)东软电子病历数据集(NSR-EMR，Neusoft Research Electronical Medical Record)

NSR-EMR数据集包含了来自912个真实电子病历文档。本发明实验选取330207个特征词项，包含主诉、现病史、既往史、过敏史、个人史、家族史、查体、辅助检查、初步诊断、诊断依据、鉴别诊断、诊疗计划、消毒内诊、产科检查14个分类类别。

经测试后测试结果如下：

1)数据集测试结果

针对Decision tree和SVM两种方法的测试进行降维处理，CSC方法未做降维处理。本发明测试环境为内存大小：2G，处理器速度：Core^TM2Quad CPU Q9400@2.66GHz，Linux内核版本为：

2.6.32-31-generic。测试结果如表1所示。

表1文本分类测试结果对比

根据表1可以看出本方明的分类方法在准确度和时间性能指标上都具有较高的优势。本发明所述分类方法的训练时间复杂度为O(NS+2SM)，测试时间复杂度为O(N′SM)，其中N为训练文档个数，S为特征维数，M为类别个数，N′为测试文档个数。

2)分类应用效果

将上述方法应用到电子病历系统中的文本语义识别中，试验结果表明平均识别准确率在90％以上。应用效果如图3所示。

可见，应用本发明实施例提供的方法可以准确、高效的对高维文本进行分类。

本发明实施例还提供了一种对文本进行分类的装置，参见图4，所述装置具体包括：

构建单元401，用于构建一个类别空间，所述类别空间包括多个坐标轴，每个坐标轴代表一个文本类别；

第一向量计算单元402，用于计算任一训练文本中所包含词项在所述类别空间中的表示向量，获得训练文本集所有词项在所述类别空间中的表示向量；

第二向量计算单元403，用于根据待分类文本所包含的词项及所述词项在所述类别空间中的表示向量，获得待分类文本在所述类别空间中的表示向量；

余弦相似度计算单元404，用于计算所述待分类文本在所述类别空间中的表示向量与所述类别空间中各个坐标轴对应的基向量的余弦相似度值；

分类识别单元405，用于将最大的余弦相似度值所对应的坐标轴所代表的文本类别作为待分类文本的类别。

上述第一向量计算单元402可以具体包括：

第一频率计算单元，用于计算词项t_k在类别C_m中的频率TCF_km

TCF_km＝γ_mtcf(t_k，C_m)

其中tcf(t_k，C_m)为词项t_k在文本类别C_m中出现的次数，γ_m为权值，通常可以取1或t_k表示词项，k∈{1，...，S}，S表示词典中词项数量，N表示文档集中文档数量，文本类别集合C＝{C_m}，m∈{1，...，M}，文本类别总数为M；

第三频率计算单元，用于计算词项t_k的逆向类别频率ICF_k，

第一权重计算单元，用于计算词项t_k在类别C_m中的权重w_km，

w_{km} = {TCF}_{km} \times {ICF}_{k} = γ_{m} tcf (t_{k}, C_{m}) \log_{2} (\frac{M}{{cf}_{k}})

t_{k} = (w_{k 1}^{'}, w_{k 2}^{'}, . . ., w_{kM}^{'}) = (\frac{w_{k 1}}{\sqrt{Σ_{m = 1}^{M} w_{km}^{2}}}, \frac{w_{k 2}}{\sqrt{Σ_{m = 1}^{M} w_{km}^{2}}}, . . ., \frac{w_{kM}}{\sqrt{Σ_{m = 1}^{M} w_{km}^{2}}})

上述第二向量计算单元403可以具体包括：

第二向量计算子单元，具体为：

d_{i} = (x_{i 1}, x_{i 2}, . . ., x_{iM}) = (\frac{Σ_{k = 1}^{S} n_{ki} w_{k 1}^{'}}{\sqrt{Σ_{m = 1}^{M} {(Σ_{k = 1}^{S} n_{ki} w_{km}^{'})}^{2}}}, \frac{Σ_{k = 1}^{S} n_{ki} w_{k 2}^{'}}{\sqrt{Σ_{m = 1}^{M} {(Σ_{k = 1}^{S} n_{ki} w_{km}^{'})}^{2}}}, . . ., \frac{Σ_{k = 1}^{S} n_{ki} w_{kM}^{'}}{\sqrt{Σ_{m = 1}^{M} {(Σ_{k = 1}^{S} n_{ki} w_{km}^{'})}^{2}}})

上述余弦相似度计算单元404具体包括：

基向量计算子单元，用于计算类别空间中轴上的基向量：

e_m＝(c_m1，c_m2，...，c_mM)，其中

c_{mi} = \{\begin{matrix} 0, m &NotEqual; i \\ 1, m = i \end{matrix},

m∈{1，...，M}，i∈{1，...，M}

余弦相似度值计算子单元，具体为：

CosSim (C_{m}, d_{i}) = \frac{Σ_{l = 1}^{M} (c_{ml} x_{il})}{\sqrt{Σ_{l = 1}^{M} c_{ml}^{2} Σ_{l = 1}^{M} x_{il}^{2}}} = \frac{x_{il}}{| d_{i} |},

l∈{1，...，M}

上述装置还可以包括：

所述预处理单元可以具体包括：

离散化处理单元，用于离散化处理，具体包括：对矩阵A中列向量V_j＝(v_1j，...，v_Nj)^T进行区间划分，区间数为p_j；其中，p_j＞1，并定义区间标号为

{{label}_{j 1}, . . ., {label}_{j p_{j}}};

数据区间变换处理单元，用于数据区间变换处理，具体包括：对分类的数据V_i做变换为V′_i＝(v′_i1，...，v′_iL)，其中v′_ij的值取区间的标号；所述变换为对待分类的数据V_i＝(v_il，...，v_iL)中各个分类的值变换为区间标号的值V′_i＝(v′_il，...，v′_iL)。

应用本发明实施例提供的装置可以准确、高效的对高维文本进行分类。

对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。