CN107943947A - 一种基于Hadoop平台的改进并行KNN网络舆情分类算法 - Google Patents

一种基于Hadoop平台的改进并行KNN网络舆情分类算法 Download PDF

Info

Publication number
CN107943947A
CN107943947A CN201711190525.6A CN201711190525A CN107943947A CN 107943947 A CN107943947 A CN 107943947A CN 201711190525 A CN201711190525 A CN 201711190525A CN 107943947 A CN107943947 A CN 107943947A
Authority
CN
China
Prior art keywords
data
network public
opinion
test
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711190525.6A
Other languages
English (en)
Inventor
杜少波
何文华
杨露
李静
陈显祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou University of Commerce
Original Assignee
Guizhou University of Commerce
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou University of Commerce filed Critical Guizhou University of Commerce
Priority to CN201711190525.6A priority Critical patent/CN107943947A/zh
Publication of CN107943947A publication Critical patent/CN107943947A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Hadoop平台的改进并行KNN网络舆情分类算法,利用Hadoop分布式存储特性和设计并行kNN的MapReduce程序来解决处理大批量数据时存在的问题,对并行kNN算法进行分类能力和分类效率进行测试验证,实验结果表明,基于Hadoop平台的并行kNN网络舆情分类算法在处理大批量网络舆情数据时,能够快速、高效和准确对网络舆情数据进行分类。

Description

一种基于Hadoop平台的改进并行KNN网络舆情分类算法
技术领域
本发明涉及网络大数据运算技术领域,特别涉及一种基于Hadoop平台的改进并行KNN网络舆情分类算法。
背景技术
随着移动互联网、移动终端和社交平台的快速发展,微博、博客等网络媒体逐渐成为人们获取信息的重要媒介,同时也是人们发布信息的重要渠道,因此网络上每天的数据量正在成几何数量增长。网络舆情已经成为影响社会发展和稳定的重要因素,因此对海量网络舆情进行监控和及时处理网络上的敏感信息,对不同主题的信息进行分类、分析、预警、引导具有现实意义。由于网络舆情数据具有数据量大、非结构化、分散性等特点,使得用于处理文本分类的传统算法很难快速、高效的对网络舆情数据进行分类。
发明内容
本发明的目的在于提供一种基于Hadoop平台的改进并行KNN网络舆情分类算法,利用Hadoop分布式存储特性和设计并行kNN的MapReduce程序来解决处理大批量数据时存在的问题,能够快速、高效和准确对网络舆情数据进行分类,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于Hadoop平台的改进并行KNN网络舆情分类算法,包括如下步骤:
S1:将测试集和调练集数据上传至HDFS集群中;
S2:HDFS集群通过MAP函数输出以<key,value>键值形式存在的结果;
S3:将步骤S2中输出的结果输入至shuffle函数中重新筛选,再上传至Reduce函数中;
S4:Reduce函数读取MAP函数输出结果,并计算确定测试向量所属类别即输出测试数据的分类结果。
优选的,所述步骤S2中的MAP函数计算步骤如下:
S2.1:读取测试集和调练集数据中的各Node节点数据;
S2.2:对数据进行预处理;
S2.3:计算测试集和训练集之间的相似度;
S2.4:输出结果以<key,value>键值形式。
优选的,所述MAP函数在舆情分类算法中设置有多组,可进行同步计算。
优选的,所述MAP函数中key值为测试数据集的行号即偏移量,Value代表该行对应的训练集数据,数据集中包括相应的属性字段和类别标示。
优选的,所述步骤S4中的Reduce函数计算步骤如下:
S4.1:读取MAP函数计算结果;
S4.2:根据相似度计算结果选取K个具有最大相似度的特征向量;
S4.3:确定测试向量所属类别;
S4.4:输出分类结果。
与现有技术相比,本发明的有益效果是:
本基于Hadoop平台的改进并行KNN网络舆情分类算法,针对网络舆情数据存在数据量大、分散度高、数据非结构化等特点,而常用的文本分类算法难以实现对网络舆情快速、准确分类的问题,本发明利用Hadoop分布式存储特性和设计并行kNN的MapReduce程序来解决处理大批量数据时存在的问题,对并行kNN算法进行分类能力和分类效率进行测试验证,实验结果表明,基于Hadoop平台的并行kNN网络舆情分类算法在处理大批量网络舆情数据时,能够快速、高效和准确对网络舆情数据进行分类。
附图说明
图1为本发明的整体流程图;
图2为本发明实施例不同数量测试数据集分类时间图;
图3为本发明实施例不同K值运行时间图;
图4为本发明实施例分类算法结果对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,一种基于Hadoop平台的改进并行KNN网络舆情分类算法,包括如下步骤:
第一步:将测试集和调练集数据上传至HDFS集群中;
第二步:HDFS集群通过MAP函数输出以<key,value>键值形式存在的结果,MAP函数中key值为测试数据集的行号即偏移量,Value代表该行对应的训练集数据,数据集中包括相应的属性字段和类别标示;具体步骤包括首先读取测试集和调练集数据中的各Node节点数据,对数据进行预处理,再计算测试集和训练集之间的相似度,输出结果以<key,value>键值形式
第三步:将步骤二中输出的结果输入至shuffle函数中重新筛选,再上传至Reduce函数中;
第四步:Reduce函数读取MAP函数输出结果,并计算确定测试向量所属类别即输出测试数据的分类结果,Reduce函数计算步骤首先读取MAP函数计算结果,再根据相似度计算结果选取K个具有最大相似度的特征向量,确定测试向量所属类别,输出分类结果。
基于上述算法,提供如下实施例:
一、KNN并行化MapReduce网络舆情分类算法实现函数如下:
1、Map函数:
Input:训练数据集和测试数据集、设定的值一般取奇数、给出训练数据集的类别;
Output:键值对<Key1,Value1>,其中Key1表示测试数据集索引值,Value1由字符串相似度和类别标签组成:
1.1: Method map(Key,Value,Key1,Value1);
1.2: {;
1.3:for each line in Value do, 将line中的数据分解成<id,x,y>的形式; 计算相似度 表示测试向量;表示训练向量; Emit(Key1,Value1);
1.4:};
2、Reduce函数:
Input:map函数的输出结果<Key1,Value1>;
Output:<Key2,Value2>,其中Key2为Key1的值,Value2表示分类结果;
2.1: Method reduce(Key1,Value1,Key2,Value2)
2.2: {;
2.3: Collection sem = new ArrayList();//声明一个集合sem用于存放测试数据;//集与训练数//据集的相似度;
2.4: Collection classify = new ArrayList();//声明一个集合classify用于存放分类标签;
2.5: for each v in Value1 do;构建键值对,其中为相似度,为类别标签; 将的值加入到集合sem中,添加到集合classify中;
2.6:将集合sem中的值进行排序,确定个最近领集合同时得到集合sem数据所对应的类别;
2.7:把Key1的值赋值给Key2;
2.8:Emit(Key2,Value2);
2.9:};
通过将KNN算法构造成MapReduce程序实现算法的并行化处理网络舆情分类,其中Map函数中key值为测试数据集的行号即偏移量,Value代表该行对应的训练集数据,数据集中包括相应的属性字段和类别标示;Map阶段的输出Key1表示测试数据集的行号,Value1表示计算出的相似度和类别标签;在Reduce阶段Key2表示测试数据集的行号,Value2代表计算出的分类结果。
二、对上述实施例的算法测试和性能评估:
第一步:实验数据通过网络爬虫工具主要爬取互联网网页和微博数据,对爬取到的数据进行前期预处理:过滤网页和微博数据中的@符号、网络地址、图片、广告、视频、语音等;
第二步:采用中国科学院NLPIR汉语分词系统对预处理后的数据进行分词处理,利用信息增益算法抽取和计算文档的词频和权重,对并行化kNN算法进行舆情文档分类性能评估;
第三步:利用5台计算机(Intel E7400,4GB内存,CentOS 6.5)搭建基于Hadoop平台的网络舆情处理平台,其中1台作为Master,该结点实现数据的上传管理和作业资料的调度与结果汇总,其余4台作为Slave节点,用于分布式存储数据和计算功能,各服务器上开启的进程,如表1所示:
表1服务器进程表
第四步:算法分类性能测试:采用搜狗实验室提供的SogouT互联网中文分类语料库,该语料库中保存了大量搜狐新闻网站数据,这些数据经过人工整理后将语料与分类信息一一对应,实现数据分类的精确性,语料库规模达到TB级;语料库包含:军事、体育、新闻、娱乐、社会、教育、交通、政治、财经、科技等10大类别,每大类下有80%数据用于模型训练,20%用于算法分类性能测试;同样使用中国科学院NLPIR汉语分词系统对语料库进行分词和词性标注,利用信息增益算法计算特征词和权重,每篇语料库中特征词汇平均为186个,通过对不同类别特征词汇排序,提取前500个组建特征词汇库,对剩余测试数据也进行特征词汇提取,选取前20项组建文档特征向量,通过搭建的Hadoop仿真平台测试算法分类性能,分类结果对比,如表2所示:
表2分类算法对比表
由表2可知,基于并行化kNN算法在对网络舆情数据进行分类时能够准确进行分类;该算法在查全率和查准率方面总体在86%以上,具有较好的分类效果,这是因为并行kNN算法可以在每个数据结点上单独获取更多的舆情特征词汇,同时能够根据不同的分类选取不同的特征词汇与权重构造特征向量,增加了算法的分类能力,与行并化朴素贝叶斯算法(Naive Bayes, NB)相比在查全率和查准率这两个方面略好于后者,而在娱乐和社会两个大类别下分类正确率较低,是由于语料库中这两个方面数据重叠较大导致的;
第五步:算法运行效率:为了验证算法的运行效率,现将测试数据集分为以下几个量级:1000、3000、5000、7000、9000、10000;分别在基于Hadoop平台的并行kNN算法和独立服务器(Intel E7400,4GB内存,CentOS 6.5)集中模式的kNN算法进行分类比较最后结果,参阅图2;通过图2可以看出,当测试数据集体量较小时,并行模式与集中模式所耗时间没有较大差距,随着测试数据集体量增大,并行模式采用Hadoop平台的分布式存储与分布计算的特点,使计算能力分布到各数据结点上,这样减少了数据传递带来的开销,因此并行模式在处理大体量数据时具有独特优势,随着测试样本体量的增加集中模式所需计算时间将成倍增加,因为集中模式在计算时需要将数据传输到程序中,在将结果暂时保存到硬盘中,最后将结果进行汇总,移动数据将给程序执行带来很大开销;
kNN算法的处理效率受到选取值的不同而不同,因此通过修改并行kNN算法的值来观察随着值的变化对并行算法运行效率的影响,参阅图3;由图3可知,随着取不同的值,则算法的处理时间也在不断增加,当值较小时,并行kNN算法和集中模式kNN两者之间消耗时间差距不是很大,但是随着值的增加并行模式和集中模式,在进行分类处理时所消耗的时间差距越来越大;
第六步:算法性能验证:微博由于其实时性强、传播速度快、影响范围广的特点,在人们的日常生活中越来越重要,因此微博也是最能反映社会舆情的地方,为验证kNN算法分类性能,实验数据选择网络爬虫抓取微博和论坛数据,抓取2017-7-6到2017-7-12微博和论坛数据共计127456条;将数据分为以下10类:军事、体育、新闻、娱乐、社会、教育、交通、政治、财经、科技;对归类后的数据进行前期预期处理后,采用并行kNN算法和并行NB算法分别对采集到的数据进行分类测试,测试结果如图4所示;
参阅图4,实验结果表明,2017年7月6日至7月12日一周的舆情数据有关“社会”类舆情占比27.8%,“教育”类舆情数据受到高考志愿填报、名校招生乱象和谢师宴因素的影响占比在22.6%,这与新华云智公布的一周网络舆情参考数据结果相一致;并行kNN网络舆情分类算法与朴素贝叶斯算法的分类结果整体一致,而在用时方面基于Hadoop平台的并行kNN算法用时为20分34秒,而基于朴素贝叶斯分类算法用时25分16秒,系统分类效率提升18.6%以上。
综上所述,本发明提出的基于Hadoop平台的改进并行KNN网络舆情分类算法,针对网络舆情数据存在数据量大、分散度高、数据非结构化等特点,而常用的文本分类算法难以实现对网络舆情快速、准确分类的问题,本发明利用Hadoop分布式存储特性和设计并行kNN的MapReduce程序来解决处理大批量数据时存在的问题,对并行kNN算法进行分类能力和分类效率进行测试验证,实验结果表明,基于Hadoop平台的并行kNN网络舆情分类算法在处理大批量网络舆情数据时,能够快速、高效和准确对网络舆情数据进行分类。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种基于Hadoop平台的改进并行KNN网络舆情分类算法,其特征在于,包括如下步骤:
S1:将测试集和调练集数据上传至HDFS集群中;
S2:HDFS集群通过MAP函数输出以<key,value>键值形式存在的结果;
S3:将步骤S2中输出的结果输入至shuffle函数中重新筛选,再上传至Reduce函数中;
S4:Reduce函数读取MAP函数输出结果,并计算确定测试向量所属类别即输出测试数据的分类结果。
2.如权利要求1所述的一种基于Hadoop平台的改进并行KNN网络舆情分类算法,其特征在于,所述步骤S2中的MAP函数计算步骤如下:
S2.1:读取测试集和调练集数据中的各Node节点数据;
S2.2:对数据进行预处理;
S2.3:计算测试集和训练集之间的相似度;
S2.4:输出结果以<key,value>键值形式。
3.如权利要求2所述的一种基于Hadoop平台的改进并行KNN网络舆情分类算法,其特征在于,所述MAP函数在舆情分类算法中设置有多组,可进行同步计算。
4.如权利要求2所述的一种基于Hadoop平台的改进并行KNN网络舆情分类算法,其特征在于,所述MAP函数中key值为测试数据集的行号即偏移量,Value代表该行对应的训练集数据,数据集中包括相应的属性字段和类别标示。
5.如权利要求1所述的一种基于Hadoop平台的改进并行KNN网络舆情分类算法,其特征在于,所述步骤S4中的Reduce函数计算步骤如下:
S4.1:读取MAP函数计算结果;
S4.2:根据相似度计算结果选取K个具有最大相似度的特征向量;
S4.3:确定测试向量所属类别;
S4.4:输出分类结果。
CN201711190525.6A 2017-11-24 2017-11-24 一种基于Hadoop平台的改进并行KNN网络舆情分类算法 Pending CN107943947A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711190525.6A CN107943947A (zh) 2017-11-24 2017-11-24 一种基于Hadoop平台的改进并行KNN网络舆情分类算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711190525.6A CN107943947A (zh) 2017-11-24 2017-11-24 一种基于Hadoop平台的改进并行KNN网络舆情分类算法

Publications (1)

Publication Number Publication Date
CN107943947A true CN107943947A (zh) 2018-04-20

Family

ID=61949646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711190525.6A Pending CN107943947A (zh) 2017-11-24 2017-11-24 一种基于Hadoop平台的改进并行KNN网络舆情分类算法

Country Status (1)

Country Link
CN (1) CN107943947A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109669987A (zh) * 2018-12-13 2019-04-23 国网河北省电力有限公司石家庄供电分公司 一种大数据存储优化方法
CN109739984A (zh) * 2018-12-25 2019-05-10 贵州商学院 一种基于Hadoop平台的改进并行KNN网络舆情分类算法
CN110263233A (zh) * 2019-05-06 2019-09-20 平安科技(深圳)有限公司 企业舆情库构建方法、装置、计算机设备及存储介质
CN111814892A (zh) * 2020-07-16 2020-10-23 贵州民族大学 一种分布式对象构建并行knn分类器的设计方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955489A (zh) * 2014-04-15 2014-07-30 华南理工大学 基于信息熵特征权重量化的海量短文本分布式knn分类算法及系统
CN104536830A (zh) * 2015-01-09 2015-04-22 哈尔滨工程大学 一种基于MapReduce的KNN文本分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955489A (zh) * 2014-04-15 2014-07-30 华南理工大学 基于信息熵特征权重量化的海量短文本分布式knn分类算法及系统
CN104536830A (zh) * 2015-01-09 2015-04-22 哈尔滨工程大学 一种基于MapReduce的KNN文本分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JES´US MAILLO 等: "A MapReduce-based k-Nearest Neighbor Approach for Big Data Classification", 《2015 IEEE TRUSTCOM/BIGDATASE/ISPA》 *
闫永刚 等: "KNN分类算法的MapReduce并行化实现", 《南京航空航天大学学报》 *
韩财兴: "海量数据的KNN文本分类算法的MapReduce实现研究", 《万方数据知识服务平台》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109669987A (zh) * 2018-12-13 2019-04-23 国网河北省电力有限公司石家庄供电分公司 一种大数据存储优化方法
CN109739984A (zh) * 2018-12-25 2019-05-10 贵州商学院 一种基于Hadoop平台的改进并行KNN网络舆情分类算法
CN110263233A (zh) * 2019-05-06 2019-09-20 平安科技(深圳)有限公司 企业舆情库构建方法、装置、计算机设备及存储介质
CN111814892A (zh) * 2020-07-16 2020-10-23 贵州民族大学 一种分布式对象构建并行knn分类器的设计方法

Similar Documents

Publication Publication Date Title
CN104346438B (zh) 基于大数据数据管理服务系统
CN108536870A (zh) 一种融合情感特征和语义特征的文本情感分类方法
CN107943947A (zh) 一种基于Hadoop平台的改进并行KNN网络舆情分类算法
Dos Santos et al. Multilabel classification on heterogeneous graphs with gaussian embeddings
CN107526819A (zh) 一种面向短文本主题模型的大数据舆情分析方法
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
CN106126605A (zh) 一种基于用户画像的短文本分类方法
Liu et al. Identifying experts in community question answering website based on graph convolutional neural network
Peng et al. Sc-gat: Web services classification based on graph attention network
Rezaei et al. Event detection in twitter by deep learning classification and multi label clustering virtual backbone formation
Gu et al. Learning joint multimodal representation based on multi-fusion deep neural networks
Islam et al. MPool: motif-based graph pooling
Martínez-Castaño et al. Polypus: a big data self-deployable architecture for microblogging text extraction and real-time sentiment analysis
Lu et al. An effective approach for Chinese news headline classification based on multi-representation mixed model with attention and ensemble learning
Roy et al. A tag2vec approach for questions tag suggestion on community question answering sites
Xu et al. Research on Tibetan hot words, sensitive words tracking and public opinion classification
Yu et al. Connecting factorization and distance metric learning for social recommendations
Prasanth et al. A mutual refinement technique for big data retrieval using hash tag graph
Suresh et al. A fuzzy based hybrid hierarchical clustering model for twitter sentiment analysis
Liu et al. Supervised group embedding for rumor detection in social media
Zeng et al. Model-Stacking-based network user portrait from multi-source campus data
Zhang et al. Improve link prediction accuracy with node attribute similarities
JP2020113267A (ja) リーディングリストを生成するシステム及び方法
Sahin et al. Streaming event detection in microblogs: Balancing accuracy and performance
Sharmila et al. Non-Class Element based Iterative Text Clustering Algorithm for Improved Clustering Accuracy using Semantic Ontology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180420

WD01 Invention patent application deemed withdrawn after publication