CN101634983A

CN101634983A - 一种文本分类方法和装置

Info

Publication number: CN101634983A
Application number: CN200810132172A
Authority: CN
Inventors: 佘莉; 张翼
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2008-07-21
Filing date: 2008-07-21
Publication date: 2010-01-27

Abstract

本发明的实施例公开了一种文本分类方法和装置。该方法包括：从输入的文本中获取情感特征词；根据预先构造的同义词库，获取所述情感特征词的情感倾向度；根据所述情感特征词的情感倾向度，对所述文本进行分类。通过使用本发明的实施例，根据预先构造的同义词库，获取文本中情感特征词的情感倾向度以用于文本的分类，提高了对词汇的情感倾向度的判断准确程度。

Description

一种文本分类方法和装置

技术领域

本发明涉及网络技术领域，特别涉及一种文本分类方法和装置。

背景技术

随着通信技术的飞速发展以及互联网的普及，对互联网信息的有效处理和过滤成为一个重要的研究课题。

语义倾向性研究在这一背景下应运而生。所谓词汇的语义倾向，即对于词汇的褒贬程度计算出一个度量值。为了便于统计和比较，目前比较常用的做法是将度量值规定为位于[-1，1]之间的实数。若度量值高于某阈值时，判别为褒义倾向；反之，则判为贬义倾向。此外，可以通过对篇章中词汇的语义倾向值求平均值而获得篇章的语义倾向。因此，对词汇的语义倾向计算是此类研究中的关键工作。

此外，语义倾向判别也为文本过滤、自动文摘的研究工作提供了新的思路和新的手段。例如可以对语义倾向度量值设定一个合适的阈值，对于倾向值低于或高于阈值，也就是态度倾向过于偏激的文章进行过滤操作，或者可将倾向值赋予一定的权值，作为文本过滤中需要考虑的一个因素。该方法如果应用在网络新闻组的自动过滤中，有利于维护讨论秩序，缓和讨论气氛。而自动文摘的生成，可将具有强烈褒贬倾向的语句作为关键句摘出，从而更好地保留原作者的观点和意见。

单词的语义倾向判别是篇章语义倾向研究的基础。目前，在中文词汇倾向性计算方面，主要的方法是选择基准词对，利用知网(Hownet)计算倾向性待定的词汇与基准词汇的相似度，从而判定词汇的倾向性。Hownet是一个以词语所代表的概念为描述对象，以揭示概念和概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。

该方法的基本思想是：设想所有的概念都可以分解成各种各样的义原，同时应该有一个有限的义原集合，其中的义原组合成一个无限的概念集合。如果能够把握这一有限的义原集合，并利用它来描述概念间的关系以及属性之间的关系，就可能建立所设想的知识系统。词汇相似度是一个数值，一般取值范围在[0，1]之间，一个词语与其自身的语义相似度为1。如果两个词语在任何上下文中都不可替换，那么其相似度为0。

使用该方法获取词汇的倾向度的一例如下：首先选择一个基准词，比如选择“好”和“坏”分别代表褒义和贬义的基准词。然后判别待定词t与基准词在Hownet中是否是同义词，计算词汇的倾向度，计算公式如下：

函数d表示两个词汇t1，t2在由Hownet生成的相似图中的最短路径，记作d(t，好)。d(好，坏)是两个基准词好和坏在Hownet中的最短路径；d(t，坏)是词汇t到基准词坏在Hownet中的最短路径；d(t，好)是词汇t到基准词好在Hownet中的最短路径；公式(1)对词汇t到两个基准词的最短路径进行归一化处理，得到词汇的倾向度是介于[-1，1]的浮点数。正数表示倾向于好，负数表示倾向于坏。

根据词汇的倾向度，使用文本分类算法对待判定文档进行分类。该方法是利用词汇相似度来间接计算篇章的语义倾向，因此，词汇相似度算法是该方案的核心。方案使用的Hownet是Hownet的源文件由词典学家编写。这些文件是词汇语义学分析的产物：多种词汇关系和语义关系被用来表示词汇知识的组织方式。词形式(word form)和词义(word meaning)是这些文件中可见的两个基本构件。词形式以规范的词形表示；词义以同义词集合(synset)表示。词汇关系是两个词形式之间的关系；语义关系是两个词义之间的关系。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

没有包含指示词语在特定的篇章话题领域的相关概念关系，也缺少关于词语的句法信息和不同词类词语间的关系，这样会对在不同语境中表达不同情感倾向度的判定有一定误差。

发明内容

本发明实施例提供一种文本分类方法和装置，用于提高基于情感倾向对文本进行分类的准确程度。

本发明实施例提供一种文本分类方法，包括：

从输入的文本中获取情感特征词；

根据预先构造的同义词库，获取所述情感特征词的情感倾向度；

根据所述情感特征词的情感倾向度，对所述文本进行分类。

本发明实施例还提供一种文本分类装置，包括：

情感特征词获取单元，用于从输入的文本中获取情感特征词；

情感倾向度获取单元，用于根据预先构造的同义词库，获取所述情感特征词获取单元获取的情感特征词的情感倾向度；

分类单元，用于根据所述情感倾向度获取单元获取的情感特征词的情感倾向度，对所述文本进行分类。

本发明的实施例还提供一种计算机可存储介质，存储有可读写程序，使得处理器执行上述的方法。

与现有技术相比，本发明实施例具有以下优点：

根据预先构造的同义词库，获取文本中情感特征词的情感倾向度以用于文本的分类，提高了对词汇的情感倾向度的判断准确程度。

附图说明

图1是本发明实施例中文本分类方法的流程图；

图2是本发明实施例中从输入的文本中获取情感特征词并获取情感特征词的情感倾向度的流程图；

图3是本发明实施例中利用LSA和关联规则构造同义词库的流程图；

图4是本发明实施例中根据情感倾向度对文档进行分类的流程图；

图5是本发明实施例中文本分类装置的结构示意图；

图6是本发明实施例中文本分类装置的另一结构示意图。

具体实施方式

本发明实施例提供了一种文本分类方法，如图1所示，包括以下步骤：

步骤s101、从输入的文本中获取情感特征词。

步骤s102、根据预先构造的同义词库，获取情感特征词的情感倾向度。

步骤s103、根据情感特征词的情感倾向度，对文本进行分类。

以下结合具体的实施例，对上述图1中所描述的文本分类方法中的各步骤进行进一步的详细描述。

如图2所示，为本发明实施例中从输入的文本中获取情感特征词并获取情感特征词的情感倾向度的流程图，包括：

步骤s201，给定一任意文本d，首先使用一个中文分词器对文档d进行分析处理，该中文分词器的输入为构成文本d的一串文本，输出为一个带有词性标注的词列表。

具体的，该分析处理过程包括：分词预处理，分词(带分词词库)，歧义词重切分(如果存在歧义切分，则按照规则重切分)。词性包括：名词、动词、形容词、断句符号等语言学常用词语属性类型。

步骤s202，使用语法分析器对分词处理后的词列表进行语法分析。该语法分析器的输入为带有词性标注的词列表，输出为一个经约简和转化的带有词性标注的词列表。

步骤s203，将输出后的带有词性标注列表对词语进行统计，根据统计信息获取情感特征词。

具体的，统计信息可以包括词频、句子的长度、平均词长、功能词(functionword，具体指前置词，连词等)等。以该统计信息为权重，词性为类别，对每类词取权重大于阈值的作为情感特征词，输出的词语的属性包括：词、词性、统计数据。

步骤s204，进行情感特征词的情感倾向度计算。

具体的，应用LSA(Latent Semantic Analysis，潜在语义分析)和关联规则构造的同义词库来获取情感特征词之间的语义关联强度，在计算情感特征词的情感倾向度时，采用根据情感特征词与预先设定的特征词之间的关联度计算情感倾向度的方法。因此，在进行情感倾向度计算的时候，预先设定一些情感倾向度反差明显的词语对，如“支持”、“反对”，对于其他某一情感特征词，分别计算计算该情感特征词与两者的关联强弱程度，作为该情感特征词的情感倾向度。

以下介绍利用LSA和关联规则构造同义词库的方法。在LSA中，通过引用概念空间来减少同义噪音，其基本原理为利用词的上下文相关性判断不同词的相似程度。根据LSA方法，出现在相似上下文中的词，被认为在用法和含义上相近。

以下具体描述利用LSA和关联规则构造同义词库的流程，如图3所示，包括：

步骤s301，构造词语-文档矩阵。

具体的，构造词语-文档矩阵，矩阵的行向量代表情感词词汇量，列向量代表文档个数，矩阵的每一个元素a_ij代表第i个词在第j个文档中出现的权重。以词语-文档矩阵为X＝|a_ij|_m×n为例，m代表词汇总量，n代表文档个数，a_ij为非负值，表示第i个词在第j个文档中出现的权重。不同的词对应矩阵X不同的行，每一个文档则对应矩阵X不同的列，这里a_ij用tf/idf作为权重。

当用户搜索一个词的时候，经常会搜索到多篇文档。在对最相关的文档的排列上，使用最多的公式是经典的tf/itf公式，权重可以使用tf/idf来加权。其中：tf(Term Frequency，关键词汇频率)指搜索词在某文档里出现的次数。显然，这个次数越多文档就越相关。当用户搜索一个短语时，短语会被分解为几个词。例如搜索“算法的优缺点”，将会被分解为“算法”、“的”、“优缺点”，任何一篇文档中“的”字都会出现很多，而整个短语中重要的部分应该是“算法”和“优缺点”，而idf(Inverse Document Frequency，反文档频率)的定义为：

idf (C) = \log (\frac{N}{docNum (C)}),

其中N为文档总数，docNum(C)为包含C的文档数，idf定义了词的重要性。易知，包含词C的文档越多，idf的值越小，C这个词越不重要。

本发明的实施例中，对于搜索出来的每一篇文档，将短语切词后的每一个词的在某个文档里出现在次数(tf)乘上一个权重(idf)再相加，就得到了短语与该文档的相似度。

步骤s302，对词语-文档矩阵进行信息熵变换。

具体的，对于词语-文档矩阵X＝|a_ij|_m＞n中的每一个元素a_ij，信息熵变换的方法为：

a_{ij}^{'} = \frac{\log (a_{ij} + 1)}{- \underset{l = j}{Σ} {(\frac{a_{ij}}{\underset{l = j}{Σ} a_{ij}}) \times \log (\frac{a_{ij}}{\underset{l = j}{Σ} a_{ij}})}} - - - (2)

即在信息熵变换中，将a_ij转化为log(a_ij+1)，再除以它的熵。这样预处理能将词的上下文考虑进来，突出了词在文章中的用文环境。如果词分布极度均匀，其熵等于-1；如果词只在一个文档中出现，熵等于0。这样的处理能将词的上下文考虑进来，突出了词在文档中的上下文环境。经过信息熵变换后得到次序化的词语-文档矩阵X′＝|a′_ij|_m×n。

步骤s303，对信息熵变换后的词-文档矩阵的奇异值分解，得到转换后的矩阵。

具体的，对信息熵变换后的词语-文档矩阵X进行SVD(Singular ValueDecomposition，奇异值分解)，将信息熵变换后的词-文档矩阵分解为三个矩阵的乘积。

奇异值分解是数理统计中常用的方法，词语-文档矩阵X′建立后，利用奇异值分解计算X′的k-秩近似矩阵X′_k(k＜＜min(m，n))。经奇异值分解，矩阵X′可表示为三个矩阵的乘积：

X′＝U∑V^T (3)

式中，U和V分别是X′的奇异值对应的左、右奇异向量矩阵，且U和V为正交矩阵；∑是标准型，V^T是V的转秩，X′的奇异值按递减排列构成对角矩阵∑_k，取U和V最前而的k个列，构建X′的k-秩近似矩阵

X_{k}^{'} = U_{k} Σ_{k} V_{k}^{T} - - - (4)

式中，U_k和V_k的列向量均为正交向。假定X′的秩为r，则有

U_kU＝V^TV＝I_r (5)

其中，I_r是r*r阶单位阵。用X′_k近似表征原词语-文档矩阵X′，在此基础上进行其他各种文档处理，这就是潜在语义分析技术。LSA通过奇异值分解和取k秩近似矩阵，一方面消减了原词语-文档矩阵中包含的噪声因索，从而更凸现出词和文档之间的语义关系，另一方面使得词、文档向量空间大大缩减，可以提高文本挖掘的效率。

通过上述步骤s301～s303，实现了对词语的潜在语义分析。

以下结合一个具体的实例描述上述步骤s301～s303所述的词语-文档矩阵的相关处理方法。

原始文档的内容参见表1所示，其中列举了不同的编号所对应的文档内容：

表1原始文档(Table Original documents)

提取如表1所示中9个文档中的21个关键词，建立词语-文档矩阵X，如表2所示：

表2“词语-文档”原始矩阵

(Table2 Original term-doc matrix)

	N1	N2	N3	N4	N5	N6	N7	N8	N9
	N1	N2	N3	N4	N5	N6	N7	N8	N9	神经网络	2	0	0	0	0	0	0	0	0
数据	2	1	0	0	0	0	0	0	0	神经网络	2	0	0	0	0	0	0	0	0
数据	2	1	0	0	0	0	0	0	0	挖掘	1	0	0	1	0	0	0	0	1
分类	3	0	0	0	0	0	0	0	0	挖掘	1	0	0	1	0	0	0	0	1
分类	3	0	0	0	0	0	0	0	0	聚类	0	1	1	0	0	0	0	0	0
类	0	3	0	0	0	0	0	0	0	聚类	0	1	1	0	0	0	0	0	0
类	0	3	0	0	0	0	0	0	0	对象	0	3	0	0	0	0	0	0	1
相似性	0	2	0	0	0	0	0	0	0	对象	0	3	0	0	0	0	0	0	1

文本	0	4	2	2	2	2	0
文本	0	4	2	2	2	2	0	购买	0	0	1	0	0	0	0	0	0
特征	1	1	0	2	1	1	0	购买	0	0	1	0	0	0	0	0	0
特征	1	1	0	2	1	1	0	概念	0	0	0	1	0	0	0	0	0
摘要	0	0	2	0	0	0	0	概念	0	0	0	1	0	0	0	0	0
摘要	0	0	2	0	0	0	0	主题	0	0	0	0	1	1	0	0	0
关键词	0	0	0	1	0	0	0	主题	0	0	0	0	1	1	0	0	0
关键词	0	0	0	1	0	0	0	汉语	0	0	0	0	0	0	2	0	0
分词	0	0	0	0	1	0	0	汉语	0	0	0	0	0	0	2	0	0
分词	0	0	0	0	1	0	0	词频	0	0	0	0	0	0	0	1	0
矩阵	0	0	0	0	0	1	0	词频	0	0	0	0	0	0	0	1	0
矩阵	0	0	0	0	0	1	0	维度	0	0	0	0	0	0	0	1	0
Web	0	0	0	0	0	0	2	维度	0	0	0	0	0	0	0	1	0

原始矩阵中，“特征”和“概念”两个词语的相关系数，经过计算为0.438。计算奇异值分解，选取两个最大奇异值，得到X的近似矩阵X2，如表3所示。

表3原始矩阵在二维空间中的重构矩阵

(Table reconstructed matrix of original matrix under subspace with rank＝2)

	N1	N2	N3	N4	N5	N6	N7	N8	N9
	N1	N2	N3	N4	N5	N6	N7	N8	N9	神经网络	0.009907814088938916	-0.11372406743526836	0.4573411014674813	-0.043679081761270465	0.042082663359207365	0.000919252244698446	0.023579825955924047	0.029363765208130402	0.008164825354692611
数据	0.011732958496567143	-0.3017774659155633	0.38772022285690094	-0.07267845568512865	0.09296270157827628	0.009333835285487065	-0.009775875795526837	0.01717516776143018	0.03273660231081327	神经网络	0.009907814088938916	-0.11372406743526836	0.4573411014674813	-0.043679081761270465	0.042082663359207365	0.000919252244698446	0.023579825955924047	0.029363765208130402	0.008164825354692611
数据	0.011732958496567143	-0.3017774659155633	0.38772022285690094	-0.07267845568512865	0.09296270157827628	0.009333835285487065	-0.009775875795526837	0.01717516776143018	0.03273660231081327	挖掘	0.11098168959789294	-0.08804812095145231	0.2366913028823363	0.29993628868995303	-0.3414803014450377	-0.022609615497685573	-0.0891944073991898	-0.18609679138452398	-0.11087864031952868
分类	0.014861721133408256	-0.17058610115290257	0.6860116522012218	-0.06551862264190543	0.06312399503881075	0.001378878367047583	0.03536973893388643	0.04404564781219629	0.012247238032039325	挖掘	0.11098168959789294	-0.08804812095145231	0.2366913028823363	0.29993628868995303	-0.3414803014450377	-0.022609615497685573	-0.0891944073991898	-0.18609679138452398	-0.11087864031952868
分类	0.014861721133408256	-0.17058610115290257	0.6860116522012218	-0.06551862264190543	0.06312399503881075	0.001378878367047583	0.03536973893388643	0.04404564781219629	0.012247238032039325	聚类	0.01143228226484252	-0.19596161032044654	-0.07600382111943263	-0.15389744542235262	0.006014115614586934	-0.1435225094465304	0.15363405548633816	-0.06750037994394414	-0.5628836664897677
类	0.005475433222884263	-0.5641601954408846	-0.2088626358317412	-0.08699812177157491	0.15264011465720737	0.025243749122365856	-0.10006710525435321	-0.03656579234010084	0.073715330868361	聚类	0.01143228226484252	-0.19596161032044654	-0.07600382111943263	-0.15389744542235262	0.006014115614586934	-0.1435225094465304	0.15363405548633816	-0.06750037994394414	-0.5628836664897677

对象	0.008789550464659127	-0.5965072632053816	-0.20662311261062286	0.14394409464558222	-0.15837469100429102	0.02067390258709301	0.054601167110156425	0.058767334579488316	0.08561823117626033
对象	0.008789550464659127	-0.5965072632053816	-0.20662311261062286	0.14394409464558222	-0.15837469100429102	0.02067390258709301	0.054601167110156425	0.058767334579488316	0.08561823117626033	相似性	0.0036502888152561952	-0.37610679696058963	-0.13924175722116092	-0.05799874784771661	0.10176007643813814	0.016829166081577144	-0.06671140350290199	-0.024377194893400553	0.049143553912240776
文本	0.8861532974515934	0.02780595818485789	-0.028221133689444216	0.15200160978935243	0.07922465277058566	0.08398056093025001	-0.24652420353905452	-0.07054618560853998	-0.011925170964840645	相似性	0.0036502888152561952	-0.37610679696058963	-0.13924175722116092	-0.05799874784771661	0.10176007643813814	0.016829166081577144	-0.06671140350290199	-0.024377194893400553	0.049143553912240776
文本	0.8861532974515934	0.02780595818485789	-0.028221133689444216	0.15200160978935243	0.07922465277058566	0.08398056093025001	-0.24652420353905452	-0.07054618560853998	-0.011925170964840645	购买	0.009607137857214426	-0.007908211840151653	-0.006382942508852204	-0.12489807149849434	-0.04486592260448198	-0.1519370924873189	0.18698975723778907	-0.05531178249724398	-0.5874554434458874
特征	0.36458831910445055	0.004876859390383338	-0.028843394367454096	-0.4608559696589525	-0.21271923972252427	-0.37664685734194525	0.3655129245260515	-0.024559081506276937	0.04721893584837833	购买	0.009607137857214426	-0.007908211840151653	-0.006382942508852204	-0.12489807149849434	-0.04486592260448198	-0.1519370924873189	0.18698975723778907	-0.05531178249724398	-0.5874554434458874
特征	0.36458831910445055	0.004876859390383338	-0.028843394367454096	-0.4608559696589525	-0.21271923972252427	-0.37664685734194525	0.3655129245260515	-0.024559081506276937	0.04721893584837833	概念	0.10271366531164855	0.0011609805306788522	0.005781228927477175	0.09083361315343116	-0.05150682746314293	-0.018499395084761918	-0.25565259274166147	-0.29611180090817835	-0.1268639533047745
摘要	0.10468306432300623	0.0058086409042215105	-0.010329093797029032	0.43925258946538753	0.5117952165098856	0.14874031074595462	0.4019639297355397	0.2225539167145173	-0.23769925261298352	概念	0.10271366531164855	0.0011609805306788522	0.005781228927477175	0.09083361315343116	-0.05150682746314293	-0.018499395084761918	-0.25565259274166147	-0.29611180090817835	-0.1268639533047745
摘要	0.10468306432300623	0.0058086409042215105	-0.010329093797029032	0.43925258946538753	0.5117952165098856	0.14874031074595462	0.4019639297355397	0.2225539167145173	-0.23769925261298352	主题	0.11930126215609387	0.005851713573006335	-0.012897749883431621	0.11812749956368426	0.2528227455434079	-0.13645912965855855	0.44809660605166773	-0.007532090398424256	0.2760737588589283
关键词	0.06695972999459077	0.002947393120895569	-0.007733202984917124	-0.10149879516900952	-0.0030748627115351305	-0.21082928503153583	0.24711464118389792	-0.11880904875568286	0.39492338516542025	主题	0.11930126215609387	0.005851713573006335	-0.012897749883431621	0.11812749956368426	0.2528227455434079	-0.13645912965855855	0.44809660605166773	-0.007532090398424256	0.2760737588589283
关键词	0.06695972999459077	0.002947393120895569	-0.007733202984917124	-0.10149879516900952	-0.0030748627115351305	-0.21082928503153583	0.24711464118389792	-0.11880904875568286	0.39492338516542025	汉语	0.12162279312486121	0.006000029375051406	-0.01372679615319957	-0.34022948801417563	-0.17876229969672153	0.7240800362710819	0.20844906579194605	0.14184754980136852	-0.014969282760757917
分词	0.060811396562430606	0.003000014687525703	-0.006863398076599785	-0.17011474400708781	-0.08938114984836076	0.36204001813554093	0.10422453289597303	0.07092377490068426	-0.007484641380378959	汉语	0.12162279312486121	0.006000029375051406	-0.01372679615319957	-0.34022948801417563	-0.17876229969672153	0.7240800362710819	0.20844906579194605	0.14184754980136852	-0.014969282760757917
分词	0.060811396562430606	0.003000014687525703	-0.006863398076599785	-0.17011474400708781	-0.08938114984836076	0.36204001813554093	0.10422453289597303	0.07092377490068426	-0.007484641380378959	词频	0.05753665938397535	0.0027292897705392914	-0.005911876739645075	-0.05367917696878249	-0.020815614383468177	-0.14659181784233358	-0.16427805523384517	0.49355882450982663	-0.02082379635142109
矩阵	0.05753665938397535	0.0027292897705392914	-0.005911876739645075	-0.05367917696878249	-0.020815614383468177	-0.14659181784233358	-0.16427805523384517	0.49355882450982663	-0.02082379635142109	词频	0.05753665938397535	0.0027292897705392914	-0.005911876739645075	-0.05367917696878249	-0.020815614383468177	-0.14659181784233358	-0.16427805523384517	0.49355882450982663	-0.02082379635142109
矩阵	0.05753665938397535	0.0027292897705392914	-0.005911876739645075	-0.05367917696878249	-0.020815614383468177	-0.14659181784233358	-0.16427805523384517	0.49355882450982663	-0.02082379635142109	维度	0.05753665938397535	0.0027292897705392914	-0.005911876739645075	-0.05367917696878249	-0.020815614383468177	-0.14659181784233358	-0.16427805523384517	0.49355882450982663	-0.02082379635142109

Web

0.006628234483549865

-0.06469413552899428

0.004479046442236702

0.4618844328343144

-0.6220296113229967

-0.00913969307054559

0.3093365447290191

0.19066625383917785

0.023805800615798782

本实施例中使用余弦距离计算两个向量之间的相关系数。在初始矩阵X中，向量“主题”和“关键词”的相关系数只有0.1250，两者的相似性较小。在矩阵X中，向量“主题”和“关键词”的相关系数为0.5813，可见含义相近的词汇的相关度得到加强。

步骤s304，根据转换后的矩阵，生成关联词集合。

具体的，上述步骤s301～步骤s304描述的潜在语义分析过程中，使用统计方法取得词在文本中的上下文关系(或称为位置相似关系)，从而近似的将这种位置相似关系作为语义相似的一种度量方法。这种方法在一定程度上存在缺失，因此，本步骤中采用关联规则来挖掘前期分析的数据，发现潜在有用的关联或相关关系，把相关性也作为语义相似的一种度量方法。

关联规则是数据挖掘中的一种主要挖掘技术，设I＝{i₁，i₂，...，i_m}是项的集合(i是item的简写，也就是潜在语义分析中的词)，记D为事务T的集合，这里事务T是项的集合(事务可以看作为多个词的集合，如“计算机+CPU”，“牛奶+面包+黄油”等)，并且T∈I(事务中出现的词应该且必须被包含在前面分析处理出来的词集合中)。对应每一个事务有唯一的标识，如事务号，记作TID。设Z是一个I里项的集合，如果Z∈T，那么称事务T包含Z。一个关联规则是形如

X &DoubleRightArrow; Y

的蕴涵式，这里

X &Subset; I,

Y &Subset; I,

并且X∩Y＝Ф。(例如X表示“牛奶+面包+黄油”，Y表示“西餐”，

满足上述条件，这个式子就是一条关联规则。)

给定一个事务集D，关联规则挖掘问题就是产生支持度和可信度分别大于用户给定的最小支持度和最小可信度的关联规则。对于关联词挖掘，设挖掘出的关联规则形如

{t_{i} &DoubleRightArrow; t_{j}, s, c},

表示了词t_i出现在文档中，则词t_j出现在同一文档的支持度为s(0≤s≤1)，置信度为c(0≤c≤1)。如果支持度和置信度大于指定的阈值，则可以认为它们的关联性很大。这里的支持度和置信度是过滤关联规则的阈值，对于上面的例子，如果“牛奶+面包+黄油”和“西餐”在一起出现的次数超过一定的值，那么就可以认为“牛奶+面包+黄油”和“西餐”是关联词，这样提供了一种词与词之间的相关性比较方法，关联规则满足的支持度和置信度的大小就是词与词之间相关性大小的具体度量。

常用关联规则挖掘的经典算法有Apriori算法。Aproir关联规则算法核心思想为：

C_k：大小为k的候选项集；候选是指在算法过程中出现的中间结果，这些中间结果经过逐步筛选和计算，要么出现在最终的结果中，要么删除掉。

L_k：大小为k的频繁项集；频繁项集是指支持度大于等于给定最小支持度的项集；也就是指在同一文档中出现的次数超过给定阈值的词的集合。

Aproir关联规则算法中，首先找出所有频繁项集；然后利用频繁项集生成关联规则。

其特点是：

(1)使用逐层搜索的迭代方法，在后面的描述中，可以看到L₁，L₂，......，L_k和C₁，C₂，......，C_k)；(2)用k项集探求k+1项集；(3)主要采用连接和剪枝。其中，连接是指C_k中的每一个项集是由L_k-1中的两个项集连接产生的，这两个项集满足这样的要求：项集中前k-2₁项都相同，只有最后一项不同；剪枝是指删除那些具有非频繁子集的项集。

本发明实施例在基于Aprior算法上作了一些相应的改进，主要体现在：(1)先删除规模小于1的事务；(2)在生成k+1频繁项集之前先删除不包含长度为k的频繁项集，减少迭代次数。

其中，生成频繁项集合的方法具体包括：

步骤(1)：设置支持度阈值和置信度阈值，对矩阵，找出所有C₁的支持同时标记其中所有长度小于等于1的事务，根据最小支持度确定L₁。

步骤(2)：对L₁进行连接操作，生成C_k+1。

步骤(3)：找出C_k+1的支持度，标记其中所有长度小于等于k+1的事务，标记所有不包含C_k+1的事务，根据最小支持度生成L_k+1。

步骤(4)：k增加1，转到步骤(2)，直到L_k为空集终结。

其中，生成关联规则的方法具体包括：

步骤(1)：定义L_max为最高频繁项集的集合。

步骤(2)：从L_max开始依次递减直到L₂为止，执行循环操作。第k次循环(2≤k≤max)中，系统对L_k的每个元素l_k到L_k-1中找子集l_k-1，如果找到子集，且

则输出该规则。

步骤(3)：根据以上的关联规则，得到情感词汇的关联表，关联规则左边的特征词对应1个或者多个关联词，如“咖啡”与“休息”、“舒缓”等相关联。

以下结合一个具体的实例，描述上述步骤s304中生成关联词集合的具体实施方式。

原始数据如表4所示，其中TID表示事务号，Ti是某具体的事务，Ii是项即词，中间的值代表是否出现，出现标注为1，否则为0。这里是简化的例子，对于之前潜在语义分析处理后的结果是表征语义相似程度的数字，可以转化得到该表4。

表4用于生成关联词集合的原始数据

TID	11	12	13	14	15	16
TID	11	12	13	14	15	16	T1	1	1		1	1
T2		1					T1	1	1		1	1
T2		1					T3		1	1		1
T4	1	1		1			T3		1	1		1
T4	1	1		1			T5	1		1	1
T6		1	1				T5	1		1	1
T6		1	1				T7	1		1
T8	1	1	1		1		T7	1		1
T8	1	1	1		1		T9	1	1	1
T10		1				1	T9	1	1	1

扫描原始数据，得到C₁及其支持度，筛选出支持度≥2的项集，得到L₁，删除其中不大于1的TID。C₁表示大小为1的候选集，于是，获取各个项出现的次数的和，I1出现6次，I2出现8次，......，在L₁中，删除掉支持度小于2的，于是删掉了I4所在的事务T4。，如下表5所示：

表5 C₁和L₁

利用L₁的连接，产生C₂，扫描数据得到其各元素的支持度，同时删除不大于2的TID以及不包含任何C₂元素的TID，筛选出支持度≥2的项集，得到L₂。C₂表示大小为2的候选集，于是，就L₁中项进行两两组合，于是有“I1、I2”，“I5、I6”等，这些组合构成这个步骤的中间结果，视为候选集。统计得到：“I1、I2”出现4次，“I5、I6”出现1次，......，在L₂中，删除掉支持度小于2的，于是删掉了“I1，I6”，“I3，I6”，“I5，I6”。如下表6所示：

表6 C₂和L₂

利用L₂的连接，产生C₃，扫描数据得到其各元素的支持度，同时删除不大于2的TID以及不包含任何C₃元素的TID，筛选出支持度≥2的项集，得到L₃，如下表7所示：

表7 C₃和L₃

C₃表示大小为2的候选集。就L₂中项进行组合，于是有“I1、I2、I3”，“I2、I5、I6”等，这些组合构成这个步骤的中间结果，视为候选集。统计得到：“I1、I2、I3”出现2次，“I2、I5、I6”出现1次，......，在L₃中，删除支持度小于2的项集。

利用L₃的连接，产生C₄，扫描数据得到其各元素的支持度，同时删除不大于2的TID以及不包含任何C₄元素的TID，筛选出支持度≥2的项集，得到L₄，如下表8所示：

表8 C₄和L₄

L₄为空；

以L₂和L₃计算如下：

\frac{I_{1}, I_{2}, I_{3}}{I_{1}, I_{2}} = \frac{2}{4} = \frac{1}{2};

\frac{I_{1}, I_{2}, I_{3}}{I_{1}, I_{3}} = \frac{2}{4} = \frac{1}{2};

\frac{I_{1}, I_{2}, I_{5}}{I_{1}, I_{5}} = \frac{2}{3}; \cdot \cdot \cdot \cdot \cdot \cdot

如果置信度为20％，则得到关联规则如下：

I_{1}, I_{2} &DoubleRightArrow; I_{3};

I_{1}, I_{5} &DoubleRightArrow; I_{2}; \cdot \cdot \cdot \cdot \cdot \cdot

步骤s305、矩阵与关联词集合一同构成词库，该词库是计算情感倾向的依据。

以下对上述实施例中，步骤s204所描述的情感特征词的情感倾向度计算方法进行描述。

本发明的实施例中，对于一情感特征词word，其情感倾向度计算公式为：

SO (word) = \underset{pword &Element; words}{Σ} LSA (word, pword) - \underset{nword &Element; words}{Σ} LSA (word, nword) - - - (8)

其中假设：word为情感特征词；pword＝{好，支持，优美，美丽，......}；nword＝{坏，反对，丑陋，厌恶，......}。

当SO(word)的值是正的时候，则情感词具有更靠近pword中定义的正面情感的倾向，反之，具有反面的情感倾向度。SO(word)的绝对值大小反映情感词word情感倾向度的程度，正的越大，则情感词的正面的情感倾向度越大；负的越大，则反面的情感倾向度越大。

在获得情感特征词的情感倾向度后，还需要对情感倾向度进行归一化处理。

SO (word) = \frac{\underset{pword &Element; words}{Σ} LSA (word, pword) - \underset{nword &Element; words}{Σ} LSA (word, nword)}{\underset{pword &Element; words, nword &Element; words}{Σ} LSA (pword - nword)} - - - (9)

上述归一化后获得的情感特征词的情感倾向度的数值都是介于[-1，1]区间的浮点数。此外，还需要考虑文本中否定词对特征权重的影响。因为自然语言中表达同一种倾向的情感时，既可能使用正面也可能使用反面的词汇。例如，在表达对某首歌曲的评论时，“这首歌曲很好听”和“这首歌曲不难听”，都表示一种对歌曲的赞赏的正面倾向。而且这种现象在实际文本中经常出现。因此，利用否定词词表，寻找在文档d中出现的否定词，如“不”、“没有”、“非”等。然后对这些否定词后面的情景特征词的情感倾向度进行反向修正，反向修正的计算方法为：

SO(word)＝1-SO(word) (10)

本发明的实施例中，根据情感倾向度对文档进行分类的流程如图4所示，包括以下步骤：

步骤s401、设置情感特征词的权重，权重包括情感特征的情感倾向度和出现频率。权重的具体计算方法如下：

\overset{&RightArrow;}{w} = \frac{\overset{&OverBar;}{SO (word)} * {idf}_{i} * {tf}_{i}}{\sqrt{\underset{t &Element; d}{Σ} ({idf}_{i} * {tf}_{i})}} - - - (11)

步骤s402、使用迭代优化的聚类算法将文档的情感特征词到划分为不同倾向的子类，子类中的大多数情感词的情感倾向度相同，而不同子类的情感倾向度不同。

步骤s403、比较子类的密度(平均频率)，其中具有最高密度(频率)的子类标记为主情感倾向度，次高密度(频率)的几个子类标记为次情感倾向度。子类的密度的计算方法可以为：

\overset{&RightArrow;}{SO (d)} = Σ {\overset{&RightArrow;}{w}}_{i} - - - (12)

表示主情感倾向度。

步骤s404、以多个情感倾向度值的向量值为文档倾向向量，为文档建立索引，便于之后对文档的检索。

以下结合一个具体的应用场景，描述本发明实施例中文本分类方法的具体实施方式。

如表9所示，有一个包含4个文件的文本集和包含“聚类”标注词的查询，用向量空间模型进行查找的结果。虽然文本3是一个与查询相关的文件，但分在不同子类中，因此未被检索到。其原因在于文本3中虽然大量出现标注词“分类”，但是没有使用标注词“聚类”，因而被认为是不相关的。

表9一般查询实施例

原始词-文本矩阵的秩等于4，LSA使用k＝2，求出的奇异值按照从大到小的排列为：11.718，5，2.9462，0.0869；则使用LSA的分类查询结果如下：

表10 LSA分类查询实施例

文件3被识别为与查询相关的文件。说明，采用LSA和关联词表，即使查询与文本在没有共同词语的情况下，只要语义相关，查询也会被分类分到相关的文本集中。这个是传统的分类算法所不具有的特点。

以下给出一具体的实施例，说明本发明实施例中文本分类方法的具体实施方式。

使用了两个语料集D1和D2进行实验，语料集D1来自于复旦日月光华BBS的新闻板块，包含了多个热门话题，共12000多条贴子，每个贴子都由人工标注了它的倾向性(正面的和反面的)：语料集D2包含100多篇宣扬法轮功反动信息的文章、100多篇批判法轮功的文章和100多篇与法轮功无关的文章。

首先，使用“基于传统文本分类技术的方法”和“情感特征词的方法”对语料集D1的50个主题进行分类(正面的和反面的)。接着，分别使用三种方法对语料集D2进行分类(健康的和不良的)。实验结果如下表11所示。方法1、方法2、方法3分别代表“基于传统文本分类技术的方法”、“基于情感特征词的方法”和“基于语义模式的方法”。

表11 分类方法性能比较

从表11中可以看到，“基于情感特征词的方法”的分类性能较其它两种分类方法要差一些。但是“基于情感特征词的方法”不需要人工标注训练样本，不需要针对每个主题构建一个独立的分类器，所以这种方法有较强的通用性，而且分类速度也要快很多。

通过使用本发明实施例提供的方法，根据预先构造的同义词库，获取文本中情感特征词的情感倾向度以用于文本的分类，提高了对词汇的情感倾向度的判断准确程度。

本发明的实施例还提供一种文本分类装置，如图5所示，包括：

情感特征词获取单元11，用于从输入的文本中获取情感特征词；

情感倾向度获取单元12，用于根据预先构造的同义词库，获取情感特征词获取单元11获取的情感特征词的情感倾向度；

分类单元13，用于根据情感倾向度获取单元12获取的情感特征词的情感倾向度，对文本进行分类。

其中，如图6所示，情感特征词获取单元11包括：

中文分词子单元111，用于述输入的文本进行分析，获取带有词性标注的词列表。

语法分析子单元112，用于对中文分词子单元111获取的带有词性标注的词列表进行分析，获取约简和转化后的带有词性标注的词列表。

统计子单元113，用于对语法分析子单元112获取的约简和转化后的带有词性标注的词列表进行统计，获取词语的统计信息。

获取子单元114，用于根据统计子单元113获取的词语的统计信息，获取特定的词语作为情感特征词。

分类单元13还包括：

权重获取子单元131，用于根据情感特征词的情感倾向度以及出现频率，获取情感特征词的权重。

子类划分子单元132，用于将情感特征词划分到具有不同倾向的子类。

情感倾向度获取子单元133，用于根据划分到不同子类的情感特征词的权重，获取作为各个子类的情感倾向度。

分类子单元134，用于根据各个子类的情感倾向度作为所述文本的倾向并建立索引，作为对所述文本的分类。

另外，该文本分类装置还包括：同义词库构造单元14，用于根据潜在语义分析LSA以及关联规则，构造同义词库。该同义词库构造单元14包括：

矩阵构造子单元141，用于构造词汇-文档矩阵；

信息熵变换子单元142，用于对矩阵构造子单元141构造的词汇-文档矩阵中的元素进行信息熵变换，得到信息熵变换后的词汇-文档矩阵；

奇异值分解子单元143，用于对信息熵变换子单元142信息熵变换后的词汇-文档矩阵进行奇异值分解，得到变换后的词汇-文档矩阵；

关联词集合生成子单元144，用于根据奇异值分解子单元143变换后的词汇-文档矩阵，生成关联词集合；

词库构造子单元，用于根据所述关联词集合以及预设的分类对应的基本词集合，构成类对应的同义词库。

该文本分类装置还包括：

归一化单元15，用于对情感倾向度获取单元12获取的情感特征词的情感倾向度进行归一化；

反向修正单元16，用于根据否定词词表，对归一化单元15归一化后的情感倾向度进行反向修正。

通过使用本发明提供实施例提供的设备，根据预先构造的同义词库，获取文本中情感特征词的情感倾向度以用于文本的分类，提高了对词汇的情感倾向度的判断准确程度。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可以通过硬件实现，也可以借助软件以及必要的通用硬件平台的方式实现。基于这样的理解，本发明的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1、一种文本分类方法，其特征在于，包括：

从输入的文本中获取情感特征词；

根据所述情感特征词的情感倾向度，对所述文本进行分类。

2、如权利要求1所述的方法，其特征在于，所述从输入的文本中获取情感特征词包括：

对所述输入的文本进行分析，获取带有词性标注的词列表；

对所述带有词性标注的词列表进行分析，获取约简和转化后的带有词性标注的词列表；

对所述约简和转化后的带有词性标注的词列表进行统计，获取词语的统计信息；

根据词语的统计信息，获取特定的词语作为情感特征词。

3、如权利要求2所述的方法，其特征在于，所述根据词语的统计信息，获取特定的词语作为情感特征词包括：

对于不同的词语，以统计信息为权重，词性为类别，对每类词获取权重大于阈值的词语作为情感特征词。

4、如权利要求1所述的方法，其特征在于，所述预先构造同义词库包括：根据潜在语义分析LSA以及关联规则，构造同义词库。

5、如权利要求4所述的方法，其特征在于，所述根据潜在语义分析LSA以及关联规则，构造同义词库包括：

构造词汇-文档矩阵；

对所述词汇-文档矩阵中的元素进行信息熵变换，得到信息熵变换后的词汇-文档矩阵；

对所述信息熵变换后的词汇-文档矩阵进行奇异值分解，得到变换后的词汇-文档矩阵；

根据所述变换后的词汇-文档矩阵，生成关联词集合；

根据所述关联词集合以及预设的分类对应的基本词集合，构成类对应的同义词库。

6、如权利要求5所述的方法，其特征在于，所述构造词汇-文档矩阵包括：

构造词语-文档矩阵为X＝|a_ij|_m×n，m代表词汇总量，n代表文档个数，所述词语-文档矩阵的行向量代表情感词词汇量，列向量代表文档个数，所述造词语-文档矩阵的每一个元素a_ij代表第i个词对第j个文档而言的权重值。

7、如权利要求6所述的方法，其特征在于，所述a_ij的值为：第i个词在第j个文档中出现的次数tf、乘以所述第i个词的反文档频率idf；

词C的反文档频率idf为：

idf (C) = \log (\frac{N}{docNum (C)}),

其中N为文档总数，docNum(C)为包含词C的文档数。

8、如权利要求5或6所述的方法，其特征在于，所述对所述词汇-文档矩阵中的元素进行信息熵变换包括：

{a_{ij}}^{'} = \frac{\log (a_{ij} + 1)}{- \underset{l = j}{Σ} {(\frac{a_{ij}}{\underset{l = j}{Σ} a_{ij}}) \times \log (\frac{a_{ij}}{\underset{l = j}{Σ} a_{ij}})}}

所述a_ij为信息熵变换前词语-文档矩阵中的元素，所述a_ij′为信息熵变换后的词语-文档矩阵X′＝|a_ij′|_m×n中的元素，。

9、如权利要求8所述的方法，其特征在于，所述对所述信息熵变换后的词汇-文档矩阵进行奇异值分解，得到变换后的词汇-文档矩阵包括：

将所述X′＝|a_ij′|m×n分解为X′＝U∑V^T；其中U和V分别是X′的奇异值对应的左、右奇异向量矩阵，且U和V为正交矩阵；∑是标准型，V^T是V的转秩，X′的奇异值按递减排列构成对角矩阵∑_k，取U和V最前而的k个列，构建X′的k-秩近似矩阵：

X_{k}^{'} = U_{k} Σ_{k} V_{k}^{T} .

10、如权利要求5所述的方法，其特征在于，所属根据所述变换后的词汇-文档矩阵，生成关联词集合包括：

生成频繁项集合；

根据所属频繁项集合生成关联规则；

根据所述关联规则获取情感词汇的关联词集合。

11、如权利要求1所述的方法，其特征在于，所述获取所述情感特征词的情感倾向度后，还包括：

对所述情感特征词的情感倾向度进行归一化；

根据否定词词表寻找在文档中出现的否定词，对所述否定词修饰范围内的情感特征词归一化后的情感倾向度进行反向修正；

所述反向修正包括：若情感特征词C的归一化后情感倾向度SO(C)＝d，d∈[0，1]，某否定词修饰情感特征词C，则反向修正SO(C)为：SO(C)＝1-d。

12、如权利要求1所述的方法，其特征在于，所述根据所述情感特征词的情感倾向度，对所述文本进行分类包括：

根据所述情感特征词的情感倾向度以及出现频率，获取所述情感特征词的权重；

将所述情感特征词划分到具有不同倾向的子类；

根据划分到不同子类的情感特征词的权重，获取作为各个子类的情感倾向度；

根据各个子类的情感倾向度作为所述文本的倾向并建立索引，作为对所述文本的分类。

13、一种文本分类装置，其特征在于，包括：

14、如权利要求13所述文本分类装置，其特征在于，所述情感特征词获取单元包括：

中文分词子单元，用于对所述输入的文本进行分析，获取带有词性标注的词列表；

语法分析子单元，用于对所述中文分词子单元获取的带有词性标注的词列表进行分析，获取约简和转化后的带有词性标注的词列表；

统计子单元，用于对所述语法分析子单元获取的约简和转化后的带有词性标注的词列表进行统计，获取词语的统计信息；

获取子单元，用于根据所述统计子单元获取的词语的统计信息，获取特定的词语作为情感特征词。

15、如权利要求13所述文本分类装置，其特征在于，还包括同义词库构造单元，用于根据潜在语义分析LSA以及关联规则，构造同义词库，并提供给所述情感倾向度获取单元。

16、如权利要求15所述文本分类装置，其特征在于，所述同义词库构造单元包括：

矩阵构造子单元，用于构造词汇-文档矩阵；

信息熵变换子单元，用于对所述矩阵构造子单元构造的词汇-文档矩阵中的元素进行信息熵变换，得到信息熵变换后的词汇-文档矩阵；

奇异值分解子单元，用于对所述信息熵变换后的词汇-文档矩阵进行奇异值分解，得到变换后的词汇-文档矩阵；

关联词集合生成子单元，用于根据所述奇异值分解子单元变换后的词汇-文档矩阵，生成关联词集合；

17、如权利要求13所述文本分类装置，其特征在于，还包括：

归一化单元，用于对所述情感倾向度获取单元获取的情感特征词的情感倾向度进行归一化；

反向修正单元，用于根据否定词词表寻找在文档中出现的否定词，对所述否定词后面的情感特征词的归一化后的情感倾向度进行反向修正。

18、如权利要求13所述文本分类装置，其特征在于，所述分类单元：

权重获取子单元，用于根据所述情感特征词的情感倾向度以及出现频率，获取所述情感特征词的权重；

子类划分子单元，用于将所述情感特征词划分到具有不同倾向的子类；

情感倾向度获取子单元，用于根据划分到不同子类的情感特征词的权重，获取作为各个子类的情感倾向度；

分类子单元，用于根据各个子类的情感倾向度作为所述文本的倾向并建立索引，作为对所述文本的分类。

19、一种计算机可存储介质，其特征在于，存储有可读写程序，使得处理器执行所述权利要求1至权利要求13中任一项所述的方法。