CN107943947A

CN107943947A - 一种基于Hadoop平台的改进并行KNN网络舆情分类算法

Info

Publication number: CN107943947A
Application number: CN201711190525.6A
Authority: CN
Inventors: 杜少波; 何文华; 杨露; 李静; 陈显祥
Original assignee: Guizhou University of Commerce
Current assignee: Guizhou University of Commerce
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2018-04-20

Abstract

本发明公开了一种基于Hadoop平台的改进并行KNN网络舆情分类算法，利用Hadoop分布式存储特性和设计并行kNN的MapReduce程序来解决处理大批量数据时存在的问题，对并行kNN算法进行分类能力和分类效率进行测试验证，实验结果表明，基于Hadoop平台的并行kNN网络舆情分类算法在处理大批量网络舆情数据时，能够快速、高效和准确对网络舆情数据进行分类。

Description

一种基于Hadoop平台的改进并行KNN网络舆情分类算法

技术领域

本发明涉及网络大数据运算技术领域，特别涉及一种基于Hadoop平台的改进并行KNN网络舆情分类算法。

背景技术

随着移动互联网、移动终端和社交平台的快速发展，微博、博客等网络媒体逐渐成为人们获取信息的重要媒介，同时也是人们发布信息的重要渠道，因此网络上每天的数据量正在成几何数量增长。网络舆情已经成为影响社会发展和稳定的重要因素，因此对海量网络舆情进行监控和及时处理网络上的敏感信息，对不同主题的信息进行分类、分析、预警、引导具有现实意义。由于网络舆情数据具有数据量大、非结构化、分散性等特点，使得用于处理文本分类的传统算法很难快速、高效的对网络舆情数据进行分类。

发明内容

本发明的目的在于提供一种基于Hadoop平台的改进并行KNN网络舆情分类算法，利用Hadoop分布式存储特性和设计并行kNN的MapReduce程序来解决处理大批量数据时存在的问题，能够快速、高效和准确对网络舆情数据进行分类，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于Hadoop平台的改进并行KNN网络舆情分类算法，包括如下步骤：

S1：将测试集和调练集数据上传至HDFS集群中；

S2：HDFS集群通过MAP函数输出以<key,value>键值形式存在的结果；

S3：将步骤S2中输出的结果输入至shuffle函数中重新筛选，再上传至Reduce函数中；

S4：Reduce函数读取MAP函数输出结果，并计算确定测试向量所属类别即输出测试数据的分类结果。

优选的，所述步骤S2中的MAP函数计算步骤如下：

S2.1：读取测试集和调练集数据中的各Node节点数据；

S2.2：对数据进行预处理；

S2.3：计算测试集和训练集之间的相似度；

S2.4：输出结果以<key,value>键值形式。

优选的，所述MAP函数在舆情分类算法中设置有多组，可进行同步计算。

优选的，所述MAP函数中key值为测试数据集的行号即偏移量，Value代表该行对应的训练集数据，数据集中包括相应的属性字段和类别标示。

优选的，所述步骤S4中的Reduce函数计算步骤如下：

S4.1：读取MAP函数计算结果；

S4.2：根据相似度计算结果选取K个具有最大相似度的特征向量；

S4.3：确定测试向量所属类别；

S4.4：输出分类结果。

与现有技术相比，本发明的有益效果是：

本基于Hadoop平台的改进并行KNN网络舆情分类算法，针对网络舆情数据存在数据量大、分散度高、数据非结构化等特点，而常用的文本分类算法难以实现对网络舆情快速、准确分类的问题，本发明利用Hadoop分布式存储特性和设计并行kNN的MapReduce程序来解决处理大批量数据时存在的问题，对并行kNN算法进行分类能力和分类效率进行测试验证，实验结果表明，基于Hadoop平台的并行kNN网络舆情分类算法在处理大批量网络舆情数据时，能够快速、高效和准确对网络舆情数据进行分类。

附图说明

图1为本发明的整体流程图；

图2为本发明实施例不同数量测试数据集分类时间图；

图3为本发明实施例不同K值运行时间图；

图4为本发明实施例分类算法结果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，一种基于Hadoop平台的改进并行KNN网络舆情分类算法，包括如下步骤：

第一步：将测试集和调练集数据上传至HDFS集群中；

第二步：HDFS集群通过MAP函数输出以<key,value>键值形式存在的结果，MAP函数中key值为测试数据集的行号即偏移量，Value代表该行对应的训练集数据，数据集中包括相应的属性字段和类别标示；具体步骤包括首先读取测试集和调练集数据中的各Node节点数据，对数据进行预处理，再计算测试集和训练集之间的相似度，输出结果以<key,value>键值形式

第三步：将步骤二中输出的结果输入至shuffle函数中重新筛选，再上传至Reduce函数中；

第四步：Reduce函数读取MAP函数输出结果，并计算确定测试向量所属类别即输出测试数据的分类结果，Reduce函数计算步骤首先读取MAP函数计算结果，再根据相似度计算结果选取K个具有最大相似度的特征向量，确定测试向量所属类别，输出分类结果。

基于上述算法，提供如下实施例：

一、KNN并行化MapReduce网络舆情分类算法实现函数如下：

1、Map函数：

Input:训练数据集和测试数据集、设定的值一般取奇数、给出训练数据集的类别；

Output：键值对<Key1，Value1>，其中Key1表示测试数据集索引值，Value1由字符串相似度和类别标签组成：

1.1: Method map(Key,Value,Key1,Value1)；

1.2: {；

1.3:for each line in Value do，将line中的数据分解成<id，x，y>的形式；计算相似度表示测试向量；表示训练向量； Emit(Key1,Value1);

1.4：}；

2、Reduce函数：

Input：map函数的输出结果<Key1，Value1>；

Output：<Key2，Value2>，其中Key2为Key1的值，Value2表示分类结果；

2.1: Method reduce(Key1,Value1,Key2,Value2)

2.2: {；

2.3: Collection sem = new ArrayList()；//声明一个集合sem用于存放测试数据；//集与训练数//据集的相似度；

2.4: Collection classify = new ArrayList()；//声明一个集合classify用于存放分类标签；

2.5: for each v in Value1 do；构建键值对，其中为相似度，为类别标签；将的值加入到集合sem中，添加到集合classify中；

2.6：将集合sem中的值进行排序，确定个最近领集合同时得到集合sem数据所对应的类别；

2.7：把Key1的值赋值给Key2；

2.8：Emit(Key2，Value2)；

2.9：}；

通过将KNN算法构造成MapReduce程序实现算法的并行化处理网络舆情分类，其中Map函数中key值为测试数据集的行号即偏移量，Value代表该行对应的训练集数据，数据集中包括相应的属性字段和类别标示；Map阶段的输出Key1表示测试数据集的行号，Value1表示计算出的相似度和类别标签；在Reduce阶段Key2表示测试数据集的行号，Value2代表计算出的分类结果。

二、对上述实施例的算法测试和性能评估：

第一步：实验数据通过网络爬虫工具主要爬取互联网网页和微博数据，对爬取到的数据进行前期预处理：过滤网页和微博数据中的@符号、网络地址、图片、广告、视频、语音等；

第二步：采用中国科学院NLPIR汉语分词系统对预处理后的数据进行分词处理，利用信息增益算法抽取和计算文档的词频和权重，对并行化kNN算法进行舆情文档分类性能评估；

第三步：利用5台计算机（Intel E7400，4GB内存，CentOS 6.5）搭建基于Hadoop平台的网络舆情处理平台，其中1台作为Master，该结点实现数据的上传管理和作业资料的调度与结果汇总，其余4台作为Slave节点，用于分布式存储数据和计算功能，各服务器上开启的进程，如表1所示：

表1服务器进程表

第四步：算法分类性能测试：采用搜狗实验室提供的SogouT互联网中文分类语料库，该语料库中保存了大量搜狐新闻网站数据，这些数据经过人工整理后将语料与分类信息一一对应，实现数据分类的精确性，语料库规模达到TB级；语料库包含：军事、体育、新闻、娱乐、社会、教育、交通、政治、财经、科技等10大类别，每大类下有80%数据用于模型训练，20%用于算法分类性能测试；同样使用中国科学院NLPIR汉语分词系统对语料库进行分词和词性标注，利用信息增益算法计算特征词和权重，每篇语料库中特征词汇平均为186个，通过对不同类别特征词汇排序，提取前500个组建特征词汇库，对剩余测试数据也进行特征词汇提取，选取前20项组建文档特征向量，通过搭建的Hadoop仿真平台测试算法分类性能，分类结果对比，如表2所示：

表2分类算法对比表

由表2可知，基于并行化kNN算法在对网络舆情数据进行分类时能够准确进行分类；该算法在查全率和查准率方面总体在86%以上，具有较好的分类效果，这是因为并行kNN算法可以在每个数据结点上单独获取更多的舆情特征词汇，同时能够根据不同的分类选取不同的特征词汇与权重构造特征向量，增加了算法的分类能力，与行并化朴素贝叶斯算法(Naive Bayes, NB)相比在查全率和查准率这两个方面略好于后者，而在娱乐和社会两个大类别下分类正确率较低，是由于语料库中这两个方面数据重叠较大导致的；

第五步：算法运行效率：为了验证算法的运行效率，现将测试数据集分为以下几个量级：1000、3000、5000、7000、9000、10000；分别在基于Hadoop平台的并行kNN算法和独立服务器（Intel E7400,4GB内存,CentOS 6.5）集中模式的kNN算法进行分类比较最后结果，参阅图2；通过图2可以看出，当测试数据集体量较小时，并行模式与集中模式所耗时间没有较大差距，随着测试数据集体量增大，并行模式采用Hadoop平台的分布式存储与分布计算的特点，使计算能力分布到各数据结点上，这样减少了数据传递带来的开销，因此并行模式在处理大体量数据时具有独特优势，随着测试样本体量的增加集中模式所需计算时间将成倍增加，因为集中模式在计算时需要将数据传输到程序中，在将结果暂时保存到硬盘中，最后将结果进行汇总，移动数据将给程序执行带来很大开销；

kNN算法的处理效率受到选取值的不同而不同，因此通过修改并行kNN算法的值来观察随着值的变化对并行算法运行效率的影响，参阅图3；由图3可知，随着取不同的值，则算法的处理时间也在不断增加，当值较小时，并行kNN算法和集中模式kNN两者之间消耗时间差距不是很大，但是随着值的增加并行模式和集中模式，在进行分类处理时所消耗的时间差距越来越大；

第六步：算法性能验证：微博由于其实时性强、传播速度快、影响范围广的特点，在人们的日常生活中越来越重要，因此微博也是最能反映社会舆情的地方，为验证kNN算法分类性能，实验数据选择网络爬虫抓取微博和论坛数据，抓取2017-7-6到2017-7-12微博和论坛数据共计127456条；将数据分为以下10类：军事、体育、新闻、娱乐、社会、教育、交通、政治、财经、科技；对归类后的数据进行前期预期处理后，采用并行kNN算法和并行NB算法分别对采集到的数据进行分类测试，测试结果如图4所示；

参阅图4，实验结果表明，2017年7月6日至7月12日一周的舆情数据有关“社会”类舆情占比27.8%，“教育”类舆情数据受到高考志愿填报、名校招生乱象和谢师宴因素的影响占比在22.6%，这与新华云智公布的一周网络舆情参考数据结果相一致；并行kNN网络舆情分类算法与朴素贝叶斯算法的分类结果整体一致，而在用时方面基于Hadoop平台的并行kNN算法用时为20分34秒，而基于朴素贝叶斯分类算法用时25分16秒，系统分类效率提升18.6%以上。

综上所述，本发明提出的基于Hadoop平台的改进并行KNN网络舆情分类算法，针对网络舆情数据存在数据量大、分散度高、数据非结构化等特点，而常用的文本分类算法难以实现对网络舆情快速、准确分类的问题，本发明利用Hadoop分布式存储特性和设计并行kNN的MapReduce程序来解决处理大批量数据时存在的问题，对并行kNN算法进行分类能力和分类效率进行测试验证，实验结果表明，基于Hadoop平台的并行kNN网络舆情分类算法在处理大批量网络舆情数据时，能够快速、高效和准确对网络舆情数据进行分类。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于Hadoop平台的改进并行KNN网络舆情分类算法，其特征在于，包括如下步骤：

S1：将测试集和调练集数据上传至HDFS集群中；

2.如权利要求1所述的一种基于Hadoop平台的改进并行KNN网络舆情分类算法，其特征在于，所述步骤S2中的MAP函数计算步骤如下：