CN105224955A

CN105224955A - 基于微博大数据获取网络服务状态的方法

Info

Publication number: CN105224955A
Application number: CN201510676163.6A
Authority: CN
Inventors: 许德玮; 郝俊瑞; 向智宇; 郭嘉
Original assignee: Wuhan Research Institute of Posts and Telecommunications Co Ltd
Current assignee: Wuhan Research Institute of Posts and Telecommunications Co Ltd
Priority date: 2015-10-16
Filing date: 2015-10-16
Publication date: 2016-01-06

Abstract

本发明公开了基于微博大数据获取网络服务状态的方法，包括：将微博数据集的部分微博作为训练数据集，剩余微博作为测试数据集，对训练数据集和测试数据集进行预处理；对训练数据进行标记、初始化操作、分词和停词处理，对训练数据集进行特征选择获得特征词项字典，由特征词项字典生成特征向量，获得特征向量集，对特征向量集进行训练获得SVM分类器；获取预置关键词库，对测试数据进行预分类以及对预分类失败的测试数据的初始化操作、分词和停词，根据特征词项字典生成预分类失败的测试数据的特征向量，获得特征向量集，通过SVM分类器进行分类得到分类结果，将分类结果与预分类结果综合。本发明，有效地降低了网络大数据的规模和网络大数据的复杂度。

Description

基于微博大数据获取网络服务状态的方法

技术领域

本发明涉及大数据和SVM(SupportVectorMachine，支持向量机)分类器领域，具体涉及基于微博大数据获取网络服务状态的方法。

背景技术

随着电信网络的不断发展和普及，网络的复杂度不断增加，产生了惊人的数据量，基于DDN(DataDrivenNetwork,数据驱动网络)利用大数据技术来分析网络大数据并发现其中所暗含的线索和规律，帮助人们感知和预测网络服务状态。

网络大数据按照数据类型可分为自媒体数据、日志数据和富媒体数据三类，微博作为一种自媒体数据，其发布内容简洁，表达信息明确，具有及时性，近年来成为了最热门的新型社交媒体和信息交流平台，产生了海量的数据。新浪微博数据中心发布的2014年用户发展报告显示，截止2014年9月30日，新浪微博MAU(monthlyactiveusers，月活跃用户数)已经达到1.67亿人，日活跃用户也已经达到7660人，每秒钟数以千计的新微博发布数量，是人们交流信息的一种重要体现。

然而，这三种类型的网络大数据规模巨大、分布广泛、动态演变、模态多样、关联复杂、真伪难辨等一系列特性为将其应用于网络服务状态的获取带来了数据复杂性的挑战。

因此，急需一种缩小网络大数据规模、降低网络大数据复杂度的获取网络服务状态的方法。

发明内容

本发明所要解决的技术问题是现有的网络大数据规模巨大，应用于获取网络服务状态时复杂度较高的问题。

为了解决上述技术问题，本发明所采用的技术方案是提供一种基于微博大数据获取网络服务状态的方法，包括以下步骤：

步骤A1：获取微博数据集中的一部分微博数据作为训练数据集，获取微博数据集中的剩余微博数据作为测试数据集，对训练数据集和测试数据集分别进行预处理；

步骤A2：对训练数据集中的训练数据进行分类标记、初始化操作、分词处理和停词处理，对训练数据集进行特征选择并获得特征词项字典，由特征词项字典生成训练数据的特征向量，并获得训练数据集的特征向量集，对特征向量集进行训练获得SVM分类器；

步骤A3：对测试数据集中的测试数据进行预分类以及对预分类失败的测试数据进行初始化操作、分词处理和停词处理，根据上述特征词项字典生成预分类失败的测试数据的特征向量，并获得预分类失败的测试数据的特征向量集，通过上述SVM分类器对预分类失败的测试数据进行分类得到分类结果，并将分类结果与预分类的结果综合，得到最终的分类结果。

在上述技术方案中，步骤A2具体包括以下步骤：

步骤A21：对预处理后的所述训练数据集中的所述训练数据进行分类标记；

步骤A22：对经过分类标记的所述训练数据进行初始化操作；

步骤A23：使用分词工具对经过初始化操作的所述训练数据进行分词处理，得到所述训练数据集的微博文本词项集；

步骤A24：使用停用词典，对所述训练数据集的微博文本词项集进行停词处理，得到所述训练数据集的微博文本原始特征词项集；

步骤A25：对所述微博文本原始特征词项集进行特征选择，得到所述训练数据集的特征词项字典；

步骤A26：根据所述特征词项字典生成所述训练数据的特征向量，得到所述训练数据集的特征向量集；

步骤A27：使用Libsvm构建分类器，输入所述特征向量集，通过对所述特征向量集的训练，得到所述SVM分类器。

在上述技术方案中，步骤A3具体包括以下步骤：

步骤A31：由所述训练数据集获取预置关键词库；

步骤A32：使用所述预置关键词库对所述测试数据集中的所述测试数据进行预分类，得到预分类结果；

步骤A33：对所述预分类失败的测试数据进行初始化操作；

步骤A34：使用分词工具对所述预分类失败的测试数据进行分词处理，得到所述预分类失败的测试数据的微博文本词项集；

步骤A35：使用停用词典，对所述预分类失败的测试数据的微博文本词项集进行停词处理，得到所述预分类失败的测试数据的微博文本原始特征词项集；

步骤A36：根据所述特征词项字典生成所述预分类失败的测试数据的特征向量，并得到其特征向量集；

步骤A37：通过所述SVM分类器对所述预分类失败的测试数据进行分类，将分类结果与所述预分类结果综合，得到最终的分类结果。

在上述技术方案中，在步骤A21中，将所述训练数据标记为网络服务状态类或非网络服务状态类。

在上述技术方案中，步骤A25主要包括以下步骤：

根据所述微博文本原始特征词项集中每个微博文本原始特征词项在所述训练数据的各类别中出现的频率对所述微博文本原始特征词项进行排序，保留出现频率高的前N个所述微博文本原始特征词项作为所述特征词项字典，所述特征词项字典按照所述微博文本原始特征词项的出现频率由高到低排序，其中N＝1000。

在上述技术方案中，步骤A31具体包括以下步骤：

步骤A311：按照所述训练数据的类别提取所述训练数据集中的每两个“#”符号之间的文本内容，并对所述文本内容进行分词处理，然后分别统计分词处理所得微博文本原始特征词项的词频，并将微博文本原始特征词项按词频降序排列；

步骤A312：从所述训练数据的类别中词频最高的微博文本原始特征词项开始，依次检查微博文本原始特征词项是否在其它类别中出现过，若该微博文本原始特征词项在其它类别中出现的次数占所述训练数据集的比例小于等于1％,则将该微博文本原始特征词项选取为该类别的预置关键词，统计完后，得到预置关键词库。

在上述技术方案中，步骤A32具体包括以下步骤：

步骤A321：提取所述测试数据集中的所述测试数据中每两个“#”符号之间的文本内容，并对文本内容进行分词处理，将分词处理所得微博文本原始特征词项与所述预置关键词库相比较，判断各微博文本原始特征词项所属类别，统计各微博文本原始特征词项在各类别中出现的频度；

步骤A322：若属于某个类别的微博文本原始特征词项频度最大，则认为该微博文本原始特征词项所属的测试数据属于该类别，其它情况则通过所述SVM分类器对所述测试数据进行分类。

在上述技术方案中，步骤A26具体包括以下步骤：

步骤A261：将所述微博文本原始特征词项集中的每个微博文本原始特征词项与所述特征词项字典进行比较；

步骤A262：若所述微博文本原始特征词项在所述特征词项字典中，则采用TF-IDF算法计算所述微博文本原始特征词项在所述训练数据中的特征值；若所述微博文本原始特征词项不在所述特征词项字典中，则忽略所述微博文本原始特征词项；若所述特征词项字典中的词项没有出现在所述微博文本原始特征词项集中，则所述词项的特征值为零。

在上述技术方案中，所述预处理即删除无意义微博，所述无意义微博包括垃圾微博文本和广告营销微博文本。

在上述技术方案中，所述初始化操作和对所述预分类失败的测试数据的初始化操作包括：删除话题标签、去除文本信息中的标点符号以及非中文字符。

本发明，采用监督机器学习方法，在网络服务终端发生故障时和网络正常操作时收集微博数据来作为训练数据，利用训练数据基于SVM构造一个分类器，采用分类器实时检测微博中与网络服务终端相关的信息，有效地降低了网络大数据的规模和网络大数据的复杂度。

附图说明

图1为本发明实施例提供的基于微博大数据获取网络服务状态的方法流程图；

图2为本发明实施例提供的基于微博大数据获取网络服务状态的框架图。

具体实施方式

下面结合说明书附图和具体实施方式对本发明做出详细的说明。

本发明实施例提供了一种基于微博大数据获取网络服务状态的方法，如图1和图2所示，该方法包括以下步骤：

步骤S1、随机获取微博数据集中的一小部分微博数据作为训练数据集。

本实施例中，所采集的微博数据集有上百万条微博，可随机获取其中的几千条作为训练数据集。

步骤S2、对训练数据集进行预处理，即删除无意义微博。

其中，无意义微博包括垃圾微博文本和广告营销微博文本，本实施例中所用到的删除无意义微博算法是参考贝叶斯垃圾邮件过滤算法设计的，主要做法是构建无意义微博词库，设置门槛值为0.9，当计算出一条微博数据的概率值大于等于0.9时，则判断该条微博数据无意义。

步骤S3、对预处理后的训练数据集中的每条训练数据进行分类标记。

在本实施例中，分类标记时可按实际需求进行分类，由5位工作人员对训练数据集中的所有训练数据同时进行标记，标记为网络服务状态类或非网络服务状态类，统计标记结果后，根据每条训练数据标记类别的多寡，确定其最终类别。

步骤S4、对经过标记的每条训练数据进行初始化操作，删除训练数据中的话题标签。

即删除“#”符号和两个“#”符号中间的文本内容，同时对训练数据中的文本信息去除标点符号和去除非中文字符。

步骤S5、使用分词工具对经过初始化操作的每条训练数据进行分词处理，获得训练数据集的微博文本词项集。

其中，比较常见的分词工具有ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem，计算技术研究所，汉语词法分析系统)和IKAnalyzer(IK分词器)等，在本实施例中分词处理采用的是ICTCLAS分词工具。

步骤S6、使用停用词典，对训练数据集的微博文本词项集进行停词处理，获取训练数据集的微博文本原始特征词项集。

停词处理包括去除微博文本词项集中没有实义的字或词，如“的”、“了”、“不但”、“而且”等，此外还包括一些生僻字和特殊符号。

步骤S7、对训练数据集的微博文本原始特征词项集进行特征选择，得到特征词项字典。

特征选择的方法包括DF(DocumentFrequency,文档频率)、IG(InformationGain,信息增益)、MI(MutualInformation,互信息)和CHI(开方拟合检验)等，在本实施例中，采用算法简单且质量高的DF方法进行特征选择，主要做法是根据微博文本原始特征词项集中每个微博文本原始特征词项在训练数据的各类别中出现的频率对微博文本原始特征词项进行排序，保留出现频率高的前N个微博文本原始特征词项作为特征词项字典，该特征词项字典按照微博文本原始特征词项的出现频率由高到低排列，本实施例中N设定为1000。

步骤S8、根据特征词项字典生成训练数据集中每条训练数据的特征向量，得到训练数据集的特征向量集。

目前，生成特征向量比较常用的方法是基于TF-IDF(TermFrequency–InverseDocumentFrequency，词频-逆向文件频率)和基于TF-RF(TermFrequency–RelatedFrequency，词频-相关频率)的传统特征权重算法，在本实施例中，采用的是TF-IDF算法，主要做法是先将微博文本原始特征词项集中的每个微博文本原始特征词项与特征词项字典进行比较，若该微博文本原始特征词项在特征词项字典中，则采用TF-IDF算法计算该微博文本原始特征词项在对应训练数据中的特征值；若该微博文本原始特征词项不在特征词项字典中，则忽略该微博文本原始特征词项；若某特征词项字典中的微博文本原始特征词项没有出现在微博文本原始特征词项集中，则该微博文本原始特征词项的特征值为0。在本实施例中，每条微博的微博文本数据被转换成一个维度为1000的特征向量。

步骤S9、使用Libsvm构建分类器，输入训练数据集的特征向量集，通过对特征向量集的训练，得到SVM分类器。

步骤S10、由训练数据集获取预置关键词库。

包括以下几步：

a、按照训练数据的类别提取训练数据集中的每两个“#”符号之间的文本内容，并对文本内容进行分词处理，然后分别统计分词处理所得微博文本原始特征词项的词频，并将微博文本原始特征词项按词频降序排列；

b、从每个训练数据的类别中词频最高的微博文本原始特征词项开始，依次检查微博文本原始特征词项是否在其它类别中出现过，若该微博文本原始特征词项在其它类别中出现的次数占训练数据集的比例小于等于1％,则将该微博文本原始特征词项选取为该类别的预置关键词，统计完后，得到预置关键词库。

步骤S11、获取微博数据集中的剩余微博数据作为测试数据集。

步骤S12、对测试数据集进行预处理，删除无意义微博。

步骤S13、使用预置关键词库对测试数据集中的测试数据进行预分类，得到预分类结果。

包括以下几步：

a、提取测试数据集中的测试数据中每两个“#”符号之间的文本内容，并对文本内容进行分词处理，将分词处理所得微博文本原始特征词项与预置关键词库相比较，判断各微博文本原始特征词项所属类别，统计各微博文本原始特征词项在各类别中出现的频度；

b、若属于某个类别的微博文本原始特征词项频度最大，则认为该微博文本原始特征词项所属的测试数据属于该类别，其它情况则通过SVM分类器对测试数据进行分类。

步骤S14、对预分类失败的测试数据进行初始化操作，删除测试数据中的话题标签。

步骤S15、使用分词工具对经过初始化操作的预分类失败的测试数据进行分词处理，得到预分类失败的测试数据的微博文本词项集。

步骤S16、使用停用词典，对预分类失败的测试数据的微博文本词项集进行停词处理，得到预分类失败的测试数据的微博文本原始特征词项集。

停词处理包括去除预分类失败的测试数据的微博文本词项集中没有实义的字或词，如“的”、“了”、“不但”、“而且”等，此外还有一些生僻字和特殊符号。

步骤S17、根据特征词项字典生成预分类失败的测试数据的特征向量，并得到其特征向量集。

在本实施例中采用TF-IDF算法来生成特征向量，主要做法是先将测试数据集中预分类失败的测试数据的微博文本原始特征词项集中的每个微博文本原始特征词项与特征词项字典进行比较，若该微博文本原始特征词项在特征词项字典中，则采用TF-IDF算法计算该微博文本原始特征词项在对应训练数据中的特征值；若该微博文本原始特征词项不在特征词项字典中，则忽略该博文本原始特征词项；若某特征词项字典中的词项没有出现在微博文本原始特征词项集中，则该词项的特征值为0。在本实施例中，每条微博的微博文本数据被转换成一个维度为1000的特征向量。

步骤S18、通过SVM分类器对经过特征向量化的预分类失败的测试数据进行自动分类，将分类结果与预分类结果综合，获取最后的分类结果。

本发明不局限于上述最佳实施方式，任何人应该得知在本发明的启示下作出的结构变化，凡是与本发明具有相同或相近的技术方案，均落入本发明的保护范围之内。

Claims

1.基于微博大数据获取网络服务状态的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，步骤A2具体包括以下步骤：

步骤A22：对经过分类标记的所述训练数据进行初始化操作；

3.如权利要求1所述的方法，其特征在于，步骤A3具体包括以下步骤：

步骤A31：由所述训练数据集获取预置关键词库；

步骤A33：对所述预分类失败的测试数据进行初始化操作；

4.如权利要求2所述的方法，其特征在于，在步骤A21中，将所述训练数据标记为网络服务状态类或非网络服务状态类。

5.如权利要求2所述的方法，其特征在于，步骤A25主要包括以下步骤：

6.如权利要求3所述的方法，其特征在于，步骤A31具体包括以下步骤：

7.如权利要求3所述的方法，其特征在于，步骤A32具体包括以下步骤：

8.如权利要求2所述的方法，其特征在于，步骤A26具体包括以下步骤：

9.如权利要求1所述的方法，其特征在于，所述预处理即删除无意义微博，所述无意义微博包括垃圾微博文本和广告营销微博文本。

10.如权利要求1所述的方法，其特征在于，所述初始化操作和对所述预分类失败的测试数据的初始化操作包括：删除话题标签、去除文本信息中的标点符号以及非中文字符。