CN104102651B

CN104102651B - 云计算环境下基于语义的自适应文本分类方法

Info

Publication number: CN104102651B
Application number: CN201310118393.1A
Authority: CN
Inventors: 王肃; 沈佳杰; 郑骏; 陈志云; 江红
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2013-04-07
Filing date: 2013-04-07
Publication date: 2017-07-25
Anticipated expiration: 2033-04-07
Also published as: CN104102651A

Abstract

本发明涉及一种云计算环境下基于语义的自适应文本分类方法，该方法包括以下步骤：1)本地代理端提取各文本的关键词及其相应属性，上传到中心端；2)中心端根据接收到的关键词及其相应属性进行数据汇总，为每个关键词匹配一个信用值，生成关键词列表，并传输给本地代理端；3)本地代理端根据关键词列表对文本进行分类，将分类结果传输给中心端；4)中心端输出分类结果。与现有技术相比，本发明具有文本分类效率高、准确性高等优点。

Description

云计算环境下基于语义的自适应文本分类方法

技术领域

本发明涉及一种文本分类方法，尤其是涉及一种云计算环境下基于语义的自适应文本分类方法。

背景技术

随着互联网和云技术的发展，越来越多的应用被部署到了云端，它容纳了海量的各种类型的原始信息，包括文本信息、声音信息、图像信息等等。如何在浩若烟海而又纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一大目标。基于人工智能技术的文本分类系统能依据文本的语义将大量的文本自动分门别类，从而更好地帮助人们把握文本信息。近年来，文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合，有效地提高了信息服务的质量。如何在保证分类准确度的情况下，高效的在云计算环境中对于文本进行分类，成为了一个需要解决的问题。文本分类是指按照预先定义的主题类别，根据信息内容将不同的信息划分到与其相关的类别中。文本分类技术研究始于50年代末，美国IBM公司的H.P.Luhn首先提出了基于词频统计的文本分类算法，对文本分类技术进行可行性研究。20世纪60年代至80年代末，知识工程技术是这段时期最主要最有效的内容文本分类系统，主要使用人工的方法来构建分类器，这样既耗费人力物力，又容易出现人为错误。20世纪90年代以后，随着互联网技术的飞速发展，基于统计理论和机器学习方法成为主流的文本分类技术，主要包括决策树方法、神经网络方法、遗传算法、贝叶斯分类、K近邻、最小二乘拟合方法、粗糙集方法、模糊集方法、支持向量机等等。

传统基于统计的中文语义分类方法是基于一个统计方法或模型对于文本进行关键词抽取，在云计算环境下进行文本分类效率较低，且随着类别数量的增加其效率也会明显下降。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种文本分类效率高、准确性高的云计算环境下基于语义的自适应文本分类方法。

本发明的目的可以通过以下技术方案来实现：

一种云计算环境下基于语义的自适应文本分类方法，该方法包括以下步骤：

1)本地代理端提取各文本的关键词及其相应属性，上传到中心端；

2)中心端根据接收到的关键词及其相应属性进行数据汇总，为每个关键词匹配一个信用值，生成关键词列表，并传输给本地代理端；

3)本地代理端根据关键词列表对文本进行分类，将分类结果传输给中心端；

4)中心端输出分类结果。

所述的提取各文本的关键词及其相应属性具体为：

11)设定每个文本需要提取的关键词个数；

12)采用基于语义的关键词提取算法进行关键词提取，并获得该关键词的相应属性。

所述的关键词的相应属性包括关键词的位置、字数、出现频率和词性。

所述的为每个关键词匹配一个信用值具体为：

21)根据各个本地代理端的上传的关键词信息，确定各关键词的统计直方图，即关键词以及关键词对应的数量；

22)计算在直方图中数量最多的n个关键词，且每两个关键词的同义词林编码距离大于等于类别阈值dp，由这n个关键词确定n个不同的类别，这n个关键词则作为这n个类别的类别词；

23)计算每一个关键词对于每一个类别的信用值c_ij：

l_ij为第i个关键词与第j个类别词之间的距离。

所述的根据关键词列表对文本进行分类具体为：

将文本中的各个关键词相对于某一类别的信用度进行加权求和得到这篇文本对于该类别的信用度，计算公式如下：

k_i表示在文章k中第i个关键词的权重，c_ij在文章k中第i个关键词对于类别j的信用度，计算该文本对于每一个类别的信用度ct_kj，求出信用度最大的类别，就是该文本的类别。

与现有技术相比，本发明具有以下优点：

1、本发明方法是对文本关键词进行传输而不是文本本身的传输，减少了云计算环境下分类通信的代价，进而提高了文本的分类效率；

2、在关键词提取数量足够的情况下，本发明方法在云计算环境下可以正确对文本进行分类，并取得较高的效率。

附图说明

图1为本发明的流程示意图；

图2为实施例中查准率和召回率的调和比较；

图3为实施例中关键词整体差示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例

如图1所示，一种云计算环境下基于语义的自适应文本分类方法，其特征在于，该方法包括以下步骤：

Step1：本地代理端提取各文本的关键词及其相应属性，上传到中心端(中心数据库)。

Step1.1：设定每个文本需要提取的关键词个数；

Step1.2：采用基于语义的关键词提取算法进行关键词提取，并获得该关键词的相应属性，包括关键词的位置、字数、出现频率、词性等；

Step1.3：将关键词及其相应信息上传到中心端进行统计。

Step2：中心端根据接收到的关键词及其相应属性进行数据汇总，调用信用分配算法为每个关键词匹配一个信用值，生成关键词列表，并传输给本地代理端。

信用分配算法具体为：

Step2.1：根据各个代理的上传的关键词信息，确定全局的统计直方图。(即关键词以及关键词对应的数量)

Step2.2：计算在直方图中数量最多的n个关键词，且每两个关键词的同义词林编码距离大于等于类别阈值dp，由这n个关键词确定n个不同的类别，这n个关键词则作为这n个类别的类别词。

Step2.3：计算词林中关键词与类别词的距离l_ij，以及每一个关键词对于每一个类别的信用值c_ij。

其中信用值计算公式为一个减函数：

l_ij为第i个关键词与第j个类别词之间的距离。

Step2.4：将关键词列表，关键词信用度值以及类别列表传到客户端。

Step3：本地代理端根据关键词列表对文本进行分类，将分类结果传输给中心端。

Step3.1：对于一篇文本，将该文本中的各个关键词相对于某一类别的信用度进行加权求和得到这篇文本对于该类别的信用度，计算公式如下：

k_i表示在文章k中第i个关键词的权重，c_ij在文章k中第i个关键词对于类别j的信用度。计算该文本对于每一个类别的信用度ct_kj，求出信用度最大的类别，就是文章的类别。

Step3.2：对每一篇文章进行分类。

Step3.3：将本地的文本分类结果传输到远端中心数据库。

Step4：中心端输出分类结果。

在进行上述方法时，需要进行以下假设：

假设1：云计算传输的代价与传输的文件数成正比，本地的计算代价相对于网络传输代价忽略不计。

假设2：文本提取的关键字字数小于文本本身的字数。

假设3：随着关键词的数量增多，文本的语义描述越明确，但是分类正确的文本个数与关键词字数的比值越小，当全文传输时其比值接近于0。

假设4：在人工分类的情况下，可以正确有效地分辨文本关键词和文本的类别。

定义如下变量：

A：人工和算法均判断为关键词的个数。

B：人工判断不是关键词而算法判断是关键词的个数。

C：人工判断是关键词而算法判断不是关键词的个数。

n：传输的文字个数。

T_alli：全文本需要传输的字数。

T_keywordi：关键词提取分类算法需要传输的关键词字数。

下面给出算法使用的定义：

定义1：人工和机器均判断为关键词的个数与传输字数的比值，记为

定义2：全文本分类算法传输所需要的字数与关键词分类算法所需要传输的关键词字数的差值，叫做关键词整体差。

D_t＝T_alli-T_keywordi (2)

定义3：定义查准率P，记为

定义4：定义召回率R，记为

定义5：定义查准率和召回率的调和为查准率与召回率的两倍乘积同其和的比值，记为

定义6：定义单位查准率和召回率的调和为查准率和召回率的调和同传输文字数之间的比值，记为：

定义7：根据词性的不同来确定词语的重要性，对于词性重要性的定义如下：

w_i为第i个词，pos_i为第i个词的权值。

定义8：两个词之间距离：在同义词林的基础上定义两个词之间的距离，本发明使用梅家驹先生构造的同义词词林，在该词林中，每一个词都有一个编码，编码的第一个字母代表该词所属的大类，第二个字母代表中类，第三位数字代表一级小类，第四位数字代表二级小类。

定义词i与词j之间的距离l_ij为两个词编码中第一个不同类别的编码位数。例如：“爸爸”的编码Ah04，叔叔的编码Ah05，l_{爸爸，叔叔}＝1，表示这两个词属于不同的二级小类，意思相近。“音乐”的编码Dk28，“歌曲”的编码Dk28，l_{音乐，歌曲}＝0，表示这两个词属于同一类别，是同义词；“音标”的编码Dk04，l_{音乐，音标}＝2，表示这两个词属于一级小类，意思比较相近；“音量”的编码Dn01，l_{音乐，音量}＝3，表示这两个词属于不同的中类，意思不同；“音乐家”的编码Al02，l_{音乐，音乐家}＝4，表示这两个词属于不同的大类，意思完全不一样。

定理1：基于语义的分类算法的传输效率严格优于传统的文本分类方法。

证明：

由于假设2，提取出的关键字的长度要严格小于文本传输的字数，又因为假设1，随着字数的增加传输代价将增加，所以对于字数比较少的关键字分类方法其传输效率比较高。

定理2：当关键词提取的数量大于某一个常数时，随着关键词数量的增加，算法查准率和召回率的调和将单调上升。

证明：

将公式(1)、(2)代入公式(3)得：

其中S为一个常量D＝S-A-B-C。

随着关键词提取数量的增加，又根据假设3、4，所以在关键词提取的过程中A，B，C将变大，而S是一个常量，又因为：

D＝S-A-B-C (9)

所以由公式7可知，当规则提取数足够大时，D和趋向于0，即：

所以将公式(8)代入公式(6)得：

又因为A单调递增，所以原式单调递减。

推论2：当关键词提取的数量大于某一个常数时，随着关键词数量的增加，单位查准率和召回率的调和将单调递减。

证明：

将公式(9)代入公式(4)得：

将公式由x代替，并且公式(10)对于n求导：

又因为当n足够大时，所以原式为

所以，因为随着规则提取数的增加而减小，所以x′＜0，而S，n，A(即)都大于0，所以原始在n最够大时单调递减。

从定理2和推论2中我们可以看到，只要提取的关键词足够多(即满足假设3)，则可以通过关键词对文本进行分类。在基于云计算的环境中，可以只提取出各个代理中的关键词，然后传输到中心端进行文本分类，这样在传输的过程中只传输关键词信息以代替对于文本全文的传输，减少通信代价。

本实验环境是matlab2010b，实验的主要目的是为了证明本发明的准确性。首先试验中比较了基于语义的关键词分类算法与基于统计的关键词分类算法对于不同代理以及中心数据库关键词提取能力(主要比较查准率、召回率以及查准率和召回率的调和)，其次本发明中的实验比较了改进的分类算法与集中式基于统计和语义分类算法的分类准确率，最后通过对比提取关键词个数与关键词整体差的关系，说明改进的分类算法可以有效的提高云计算分布式网络环境下的网络的传输效率。

本实验数据主要由人民日报1998年语料库中随机抽出120篇文章进行统计，分别整个数据集将随机划分成两个集合来模拟两个代理集合，其中每一个代理分别有60篇文章，与此同时，将原先的120篇文章作为集中式实验的素材。

其中对于各种不同的词语的词性的权值的定义，如定义7所示。

为了比较不同的关键词提取方法对于云计算分布式情况下的影响，分别使用基于语义的关键词提取分类和基于统计的关键词提取分类。

以下表1展示了对于两个代理的查准率、召回率以及查准率和召回率的调和。表2展示了中心数据库的查准率、召回率以及查准率和召回率的调和。

表1各个代理分类结果

表2各个中心数据库分类结果

如表1所示，对于两个代理基于语义的关键词提取方法和基于统计的关键词提取算法基本符合本文假设3，随着关键词个数的增加，其查准率，召回率以及查准率和召回率的调和单调递增，而且基于语义的关键词提取算法明显优于基于统计的关键词提取算法。

图(2a)(2b)展示本发明中基于语义的分类算法的准确率相较于集中式条件下基于语义和基于统计算法(全文文本分类方法)的准确率的比较。图(2a)是各代理关键词提取后的准确率与全文文本分类方法的准确率比较，图(2b)是中心数据库关键词提取后分类的准确率与全文分类方法的准确率比较。如图(2a)所示，随着关键词提取数的增加，每一个代理对于文本的分类的准确率提高，接近于基于语义分类方法的准确率。如图(2b)所示，随着关键词提取数量的增加，中心数据库的分类的准确率也会上升。

图(3a)(3b)分别描述了代理的关键词整体差和中心端的关键词整体差。如图(3a)所示，随着关键词提取数量的增加，每一个代理提取关键词个数的增加，关键词整体差随着下降，图(3b)所示，随着关键词提取数量的增加，中心数据库关键词整体差也随之下降，综合图(3a)(3b)虽然代理和中心数据库的关键词整体差，即使提取的关键词数达到了20个，其中心数据库关键词整体差依然高达1.75*105，说明改进的关键词提取分类算法可以有效地减少网络的传输量从而提高分类效果。

Claims

1.一种云计算环境下基于语义的自适应文本分类方法，其特征在于，该方法包括以下步骤：

2)中心端根据接收到的关键词及其相应属性进行数据汇总，为每个关键词匹配一个信用值，生成关键词列表，并传输给本地代理端，所述的为每个关键词匹配一个信用值具体为：

23)计算每一个关键词对于每一个类别的信用值c_ij：

c_{i j} = \frac{1}{l_{i j} + 1}

l_ij为第i个关键词与第j个类别词之间的距离；

4)中心端输出分类结果。

2.根据权利要求1所述的一种云计算环境下基于语义的自适应文本分类方法，其特征在于，所述的提取各文本的关键词及其相应属性具体为：

11)设定每个文本需要提取的关键词个数；

3.根据权利要求2所述的一种云计算环境下基于语义的自适应文本分类方法，其特征在于，所述的关键词的相应属性包括关键词的位置、字数、出现频率和词性。

4.根据权利要求1所述的一种云计算环境下基于语义的自适应文本分类方法，其特征在于，所述的根据关键词列表对文本进行分类具体为：

将文本中的各个关键词相对于某一类别的信用度进行加权求和得到这篇文本对于该类别的信用度ct_kj，计算公式如下：

{ct}_{k j} = Σ_{i = 1}^{n} k_{i} c_{i j}