CN104102651B - 云计算环境下基于语义的自适应文本分类方法 - Google Patents

云计算环境下基于语义的自适应文本分类方法 Download PDF

Info

Publication number
CN104102651B
CN104102651B CN201310118393.1A CN201310118393A CN104102651B CN 104102651 B CN104102651 B CN 104102651B CN 201310118393 A CN201310118393 A CN 201310118393A CN 104102651 B CN104102651 B CN 104102651B
Authority
CN
China
Prior art keywords
keyword
text
classification
cloud computing
center
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310118393.1A
Other languages
English (en)
Other versions
CN104102651A (zh
Inventor
王肃
沈佳杰
郑骏
陈志云
江红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201310118393.1A priority Critical patent/CN104102651B/zh
Publication of CN104102651A publication Critical patent/CN104102651A/zh
Application granted granted Critical
Publication of CN104102651B publication Critical patent/CN104102651B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种云计算环境下基于语义的自适应文本分类方法,该方法包括以下步骤:1)本地代理端提取各文本的关键词及其相应属性,上传到中心端;2)中心端根据接收到的关键词及其相应属性进行数据汇总,为每个关键词匹配一个信用值,生成关键词列表,并传输给本地代理端;3)本地代理端根据关键词列表对文本进行分类,将分类结果传输给中心端;4)中心端输出分类结果。与现有技术相比,本发明具有文本分类效率高、准确性高等优点。

Description

云计算环境下基于语义的自适应文本分类方法
技术领域
本发明涉及一种文本分类方法,尤其是涉及一种云计算环境下基于语义的自适应文本分类方法。
背景技术
随着互联网和云技术的发展,越来越多的应用被部署到了云端,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息、图像信息等等。如何在浩若烟海而又纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一大目标。基于人工智能技术的文本分类系统能依据文本的语义将大量的文本自动分门别类,从而更好地帮助人们把握文本信息。近年来,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。如何在保证分类准确度的情况下,高效的在云计算环境中对于文本进行分类,成为了一个需要解决的问题。文本分类是指按照预先定义的主题类别,根据信息内容将不同的信息划分到与其相关的类别中。文本分类技术研究始于50年代末,美国IBM公司的H.P.Luhn首先提出了基于词频统计的文本分类算法,对文本分类技术进行可行性研究。20世纪60年代至80年代末,知识工程技术是这段时期最主要最有效的内容文本分类系统,主要使用人工的方法来构建分类器,这样既耗费人力物力,又容易出现人为错误。20世纪90年代以后,随着互联网技术的飞速发展,基于统计理论和机器学习方法成为主流的文本分类技术,主要包括决策树方法、神经网络方法、遗传算法、贝叶斯分类、K近邻、最小二乘拟合方法、粗糙集方法、模糊集方法、支持向量机等等。
传统基于统计的中文语义分类方法是基于一个统计方法或模型对于文本进行关键词抽取,在云计算环境下进行文本分类效率较低,且随着类别数量的增加其效率也会明显下降。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种文本分类效率高、准确性高的云计算环境下基于语义的自适应文本分类方法。
本发明的目的可以通过以下技术方案来实现:
一种云计算环境下基于语义的自适应文本分类方法,该方法包括以下步骤:
1)本地代理端提取各文本的关键词及其相应属性,上传到中心端;
2)中心端根据接收到的关键词及其相应属性进行数据汇总,为每个关键词匹配一个信用值,生成关键词列表,并传输给本地代理端;
3)本地代理端根据关键词列表对文本进行分类,将分类结果传输给中心端;
4)中心端输出分类结果。
所述的提取各文本的关键词及其相应属性具体为:
11)设定每个文本需要提取的关键词个数;
12)采用基于语义的关键词提取算法进行关键词提取,并获得该关键词的相应属性。
所述的关键词的相应属性包括关键词的位置、字数、出现频率和词性。
所述的为每个关键词匹配一个信用值具体为:
21)根据各个本地代理端的上传的关键词信息,确定各关键词的统计直方图,即关键词以及关键词对应的数量;
22)计算在直方图中数量最多的n个关键词,且每两个关键词的同义词林编码距离大于等于类别阈值dp,由这n个关键词确定n个不同的类别,这n个关键词则作为这n个类别的类别词;
23)计算每一个关键词对于每一个类别的信用值cij
lij为第i个关键词与第j个类别词之间的距离。
所述的根据关键词列表对文本进行分类具体为:
将文本中的各个关键词相对于某一类别的信用度进行加权求和得到这篇文本对于该类别的信用度,计算公式如下:
ki表示在文章k中第i个关键词的权重,cij在文章k中第i个关键词对于类别j的信用度,计算该文本对于每一个类别的信用度ctkj,求出信用度最大的类别,就是该文本的类别。
与现有技术相比,本发明具有以下优点:
1、本发明方法是对文本关键词进行传输而不是文本本身的传输,减少了云计算环境下分类通信的代价,进而提高了文本的分类效率;
2、在关键词提取数量足够的情况下,本发明方法在云计算环境下可以正确对文本进行分类,并取得较高的效率。
附图说明
图1为本发明的流程示意图;
图2为实施例中查准率和召回率的调和比较;
图3为实施例中关键词整体差示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
如图1所示,一种云计算环境下基于语义的自适应文本分类方法,其特征在于,该方法包括以下步骤:
Step1:本地代理端提取各文本的关键词及其相应属性,上传到中心端(中心数据库)。
Step1.1:设定每个文本需要提取的关键词个数;
Step1.2:采用基于语义的关键词提取算法进行关键词提取,并获得该关键词的相应属性,包括关键词的位置、字数、出现频率、词性等;
Step1.3:将关键词及其相应信息上传到中心端进行统计。
Step2:中心端根据接收到的关键词及其相应属性进行数据汇总,调用信用分配算法为每个关键词匹配一个信用值,生成关键词列表,并传输给本地代理端。
信用分配算法具体为:
Step2.1:根据各个代理的上传的关键词信息,确定全局的统计直方图。(即关键词以及关键词对应的数量)
Step2.2:计算在直方图中数量最多的n个关键词,且每两个关键词的同义词林编码距离大于等于类别阈值dp,由这n个关键词确定n个不同的类别,这n个关键词则作为这n个类别的类别词。
Step2.3:计算词林中关键词与类别词的距离lij,以及每一个关键词对于每一个类别的信用值cij
其中信用值计算公式为一个减函数:
lij为第i个关键词与第j个类别词之间的距离。
Step2.4:将关键词列表,关键词信用度值以及类别列表传到客户端。
Step3:本地代理端根据关键词列表对文本进行分类,将分类结果传输给中心端。
Step3.1:对于一篇文本,将该文本中的各个关键词相对于某一类别的信用度进行加权求和得到这篇文本对于该类别的信用度,计算公式如下:
ki表示在文章k中第i个关键词的权重,cij在文章k中第i个关键词对于类别j的信用度。计算该文本对于每一个类别的信用度ctkj,求出信用度最大的类别,就是文章的类别。
Step3.2:对每一篇文章进行分类。
Step3.3:将本地的文本分类结果传输到远端中心数据库。
Step4:中心端输出分类结果。
在进行上述方法时,需要进行以下假设:
假设1:云计算传输的代价与传输的文件数成正比,本地的计算代价相对于网络传输代价忽略不计。
假设2:文本提取的关键字字数小于文本本身的字数。
假设3:随着关键词的数量增多,文本的语义描述越明确,但是分类正确的文本个数与关键词字数的比值越小,当全文传输时其比值接近于0。
假设4:在人工分类的情况下,可以正确有效地分辨文本关键词和文本的类别。
定义如下变量:
A:人工和算法均判断为关键词的个数。
B:人工判断不是关键词而算法判断是关键词的个数。
C:人工判断是关键词而算法判断不是关键词的个数。
n:传输的文字个数。
Talli:全文本需要传输的字数。
Tkeywordi:关键词提取分类算法需要传输的关键词字数。
下面给出算法使用的定义:
定义1:人工和机器均判断为关键词的个数与传输字数的比值,记为
定义2:全文本分类算法传输所需要的字数与关键词分类算法所需要传输的关键词字数的差值,叫做关键词整体差。
Dt=Talli-Tkeywordi (2)
定义3:定义查准率P,记为
定义4:定义召回率R,记为
定义5:定义查准率和召回率的调和为查准率与召回率的两倍乘积同其和的比值,记为
定义6:定义单位查准率和召回率的调和为查准率和召回率的调和同传输文字数之间的比值,记为:
定义7:根据词性的不同来确定词语的重要性,对于词性重要性的定义如下:
wi为第i个词,posi为第i个词的权值。
定义8:两个词之间距离:在同义词林的基础上定义两个词之间的距离,本发明使用梅家驹先生构造的同义词词林,在该词林中,每一个词都有一个编码,编码的第一个字母代表该词所属的大类,第二个字母代表中类,第三位数字代表一级小类,第四位数字代表二级小类。
定义词i与词j之间的距离lij为两个词编码中第一个不同类别的编码位数。例如:“爸爸”的编码Ah04,叔叔的编码Ah05,l爸爸,叔叔=1,表示这两个词属于不同的二级小类,意思相近。“音乐”的编码Dk28,“歌曲”的编码Dk28,l音乐,歌曲=0,表示这两个词属于同一类别,是同义词;“音标”的编码Dk04,l音乐,音标=2,表示这两个词属于一级小类,意思比较相近;“音量”的编码Dn01,l音乐,音量=3,表示这两个词属于不同的中类,意思不同;“音乐家”的编码Al02,l音乐,音乐家=4,表示这两个词属于不同的大类,意思完全不一样。
定理1:基于语义的分类算法的传输效率严格优于传统的文本分类方法。
证明:
由于假设2,提取出的关键字的长度要严格小于文本传输的字数,又因为假设1,随着字数的增加传输代价将增加,所以对于字数比较少的关键字分类方法其传输效率比较高。
定理2:当关键词提取的数量大于某一个常数时,随着关键词数量的增加,算法查准率和召回率的调和将单调上升。
证明:
将公式(1)、(2)代入公式(3)得:
其中S为一个常量D=S-A-B-C。
随着关键词提取数量的增加,又根据假设3、4,所以在关键词提取的过程中A,B,C将变大,而S是一个常量,又因为:
D=S-A-B-C (9)
所以由公式7可知,当规则提取数足够大时,D和趋向于0,即:
所以将公式(8)代入公式(6)得:
又因为A单调递增,所以原式单调递减。
推论2:当关键词提取的数量大于某一个常数时,随着关键词数量的增加,单位查准率和召回率的调和将单调递减。
证明:
将公式(9)代入公式(4)得:
将公式由x代替,并且公式(10)对于n求导:
又因为当n足够大时, 所以原式为
所以,因为随着规则提取数的增加而减小,所以x′<0,而S,n,A(即)都大于0,所以原始在n最够大时单调递减。
从定理2和推论2中我们可以看到,只要提取的关键词足够多(即满足假设3),则可以通过关键词对文本进行分类。在基于云计算的环境中,可以只提取出各个代理中的关键词,然后传输到中心端进行文本分类,这样在传输的过程中只传输关键词信息以代替对于文本全文的传输,减少通信代价。
本实验环境是matlab2010b,实验的主要目的是为了证明本发明的准确性。首先试验中比较了基于语义的关键词分类算法与基于统计的关键词分类算法对于不同代理以及中心数据库关键词提取能力(主要比较查准率、召回率以及查准率和召回率的调和),其次本发明中的实验比较了改进的分类算法与集中式基于统计和语义分类算法的分类准确率,最后通过对比提取关键词个数与关键词整体差的关系,说明改进的分类算法可以有效的提高云计算分布式网络环境下的网络的传输效率。
本实验数据主要由人民日报1998年语料库中随机抽出120篇文章进行统计,分别整个数据集将随机划分成两个集合来模拟两个代理集合,其中每一个代理分别有60篇文章,与此同时,将原先的120篇文章作为集中式实验的素材。
其中对于各种不同的词语的词性的权值的定义,如定义7所示。
为了比较不同的关键词提取方法对于云计算分布式情况下的影响,分别使用基于语义的关键词提取分类和基于统计的关键词提取分类。
以下表1展示了对于两个代理的查准率、召回率以及查准率和召回率的调和。表2展示了中心数据库的查准率、召回率以及查准率和召回率的调和。
表1各个代理分类结果
表2各个中心数据库分类结果
如表1所示,对于两个代理基于语义的关键词提取方法和基于统计的关键词提取算法基本符合本文假设3,随着关键词个数的增加,其查准率,召回率以及查准率和召回率的调和单调递增,而且基于语义的关键词提取算法明显优于基于统计的关键词提取算法。
图(2a)(2b)展示本发明中基于语义的分类算法的准确率相较于集中式条件下基于语义和基于统计算法(全文文本分类方法)的准确率的比较。图(2a)是各代理关键词提取后的准确率与全文文本分类方法的准确率比较,图(2b)是中心数据库关键词提取后分类的准确率与全文分类方法的准确率比较。如图(2a)所示,随着关键词提取数的增加,每一个代理对于文本的分类的准确率提高,接近于基于语义分类方法的准确率。如图(2b)所示,随着关键词提取数量的增加,中心数据库的分类的准确率也会上升。
图(3a)(3b)分别描述了代理的关键词整体差和中心端的关键词整体差。如图(3a)所示,随着关键词提取数量的增加,每一个代理提取关键词个数的增加,关键词整体差随着下降,图(3b)所示,随着关键词提取数量的增加,中心数据库关键词整体差也随之下降,综合图(3a)(3b)虽然代理和中心数据库的关键词整体差,即使提取的关键词数达到了20个,其中心数据库关键词整体差依然高达1.75*105,说明改进的关键词提取分类算法可以有效地减少网络的传输量从而提高分类效果。

Claims (4)

1.一种云计算环境下基于语义的自适应文本分类方法,其特征在于,该方法包括以下步骤:
1)本地代理端提取各文本的关键词及其相应属性,上传到中心端;
2)中心端根据接收到的关键词及其相应属性进行数据汇总,为每个关键词匹配一个信用值,生成关键词列表,并传输给本地代理端,所述的为每个关键词匹配一个信用值具体为:
21)根据各个本地代理端的上传的关键词信息,确定各关键词的统计直方图,即关键词以及关键词对应的数量;
22)计算在直方图中数量最多的n个关键词,且每两个关键词的同义词林编码距离大于等于类别阈值dp,由这n个关键词确定n个不同的类别,这n个关键词则作为这n个类别的类别词;
23)计算每一个关键词对于每一个类别的信用值cij
c i j = 1 l i j + 1
lij为第i个关键词与第j个类别词之间的距离;
3)本地代理端根据关键词列表对文本进行分类,将分类结果传输给中心端;
4)中心端输出分类结果。
2.根据权利要求1所述的一种云计算环境下基于语义的自适应文本分类方法,其特征在于,所述的提取各文本的关键词及其相应属性具体为:
11)设定每个文本需要提取的关键词个数;
12)采用基于语义的关键词提取算法进行关键词提取,并获得该关键词的相应属性。
3.根据权利要求2所述的一种云计算环境下基于语义的自适应文本分类方法,其特征在于,所述的关键词的相应属性包括关键词的位置、字数、出现频率和词性。
4.根据权利要求1所述的一种云计算环境下基于语义的自适应文本分类方法,其特征在于,所述的根据关键词列表对文本进行分类具体为:
将文本中的各个关键词相对于某一类别的信用度进行加权求和得到这篇文本对于该类别的信用度ctkj,计算公式如下:
ct k j = Σ i = 1 n k i c i j
ki表示在文章k中第i个关键词的权重,cij在文章k中第i个关键词对于类别j的信用度,计算该文本对于每一个类别的信用度ctkj,求出信用度最大的类别,就是该文本的类别。
CN201310118393.1A 2013-04-07 2013-04-07 云计算环境下基于语义的自适应文本分类方法 Expired - Fee Related CN104102651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310118393.1A CN104102651B (zh) 2013-04-07 2013-04-07 云计算环境下基于语义的自适应文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310118393.1A CN104102651B (zh) 2013-04-07 2013-04-07 云计算环境下基于语义的自适应文本分类方法

Publications (2)

Publication Number Publication Date
CN104102651A CN104102651A (zh) 2014-10-15
CN104102651B true CN104102651B (zh) 2017-07-25

Family

ID=51670810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310118393.1A Expired - Fee Related CN104102651B (zh) 2013-04-07 2013-04-07 云计算环境下基于语义的自适应文本分类方法

Country Status (1)

Country Link
CN (1) CN104102651B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956031A (zh) * 2016-04-25 2016-09-21 深圳市永兴元科技有限公司 文本分类方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944099A (zh) * 2010-06-24 2011-01-12 西北工业大学 一种使用本体进行文本文档自动分类的方法
US20110314024A1 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Semantic content searching

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110314024A1 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Semantic content searching
CN101944099A (zh) * 2010-06-24 2011-01-12 西北工业大学 一种使用本体进行文本文档自动分类的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"语义相似度的计算方法研究与分析";魏凯斌 等;《计算机技术与发展》;20100731;第20卷(第7期);第102-105页 *

Also Published As

Publication number Publication date
CN104102651A (zh) 2014-10-15

Similar Documents

Publication Publication Date Title
CN107515873B (zh) 一种垃圾信息识别方法及设备
CN102411563B (zh) 一种识别目标词的方法、装置及系统
CN104951548B (zh) 一种负面舆情指数的计算方法及系统
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN105955951B (zh) 一种消息过滤的方法及装置
El-Halees Mining opinions in user-generated contents to improve course evaluation
CN107291723A (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN108388651A (zh) 一种基于图核和卷积神经网络的文本分类方法
CN106844424A (zh) 一种基于lda的文本分类方法
CN104750844A (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
Briliani et al. Hate speech detection in indonesian language on instagram comment section using K-nearest neighbor classification method
CN107944014A (zh) 一种基于深度学习的中文文本情感分析方法
CN101295381B (zh) 一种垃圾邮件检测方法
CN108874921A (zh) 提取文本特征词的方法、装置、终端设备及存储介质
CN102289522A (zh) 一种对于文本智能分类的方法
CN106156163B (zh) 文本分类方法以及装置
CN102945246B (zh) 网络信息数据的处理方法及装置
CN108596637B (zh) 一种电商服务问题自动发现系统
CN107729917A (zh) 一种标题的分类方法及装置
CN104050556A (zh) 一种垃圾邮件的特征选择方法及其检测方法
Zhang et al. Semi-supervised discovery of informative tweets during the emerging disasters
CN105975518A (zh) 基于信息熵的期望交叉熵特征选择文本分类系统及方法
CN109858974A (zh) 已购车用户识别模型构建方法及识别方法
CN108268470A (zh) 一种基于演化聚类的评论文本分类提取方法
CN111966878A (zh) 基于机器学习的舆情事件反转检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170725

Termination date: 20210407

CF01 Termination of patent right due to non-payment of annual fee