CN104142960A

CN104142960A - 互联网数据分析系统

Info

Publication number: CN104142960A
Application number: CN201310172687.2A
Authority: CN
Inventors: 顾青; 倪庆洋; 谢超; 梁佐泉; 冯四风; 梁艳敏; 张士鹏; 田文晋; 贾伟峰; 田肖
Original assignee: SHANGHAI CHRUST INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHANGHAI CHRUST INFORMATION TECHNOLOGY Co Ltd
Priority date: 2013-05-10
Filing date: 2013-05-10
Publication date: 2014-11-12

Abstract

本申请公开了一种互联网数据分析系统，包括：数据预处理模块，从互联网的网页信息中提取其主要内容，过滤而得到每个网页对应的文本；对获取的文本首先由分词器得到多个分词，再经过特征值降维仅保留突出该文本特征的分词。数据分析模块，根据分析要求，从分类算法、聚类算法、关联规则算法、特殊规则算法这四类算法中选择相应的一类对多类算法，每类算法中采用一种或多种算法，对所述数据预处理模块输出的每个网页所对应的经过降维后的分词进行处理，并存储分析结果。本申请避免了使用单一数据挖掘算法造成数据分析结果不准确的缺陷，或在使用一种算法的基础上再使用其它算法时需要进行系统的二次开发的时间成本，提高了数据分析的效率和准确率。

Description

互联网数据分析系统

技术领域

本申请涉及一种数据挖掘（data mining）技术，特别是涉及一种对互联网数据进行分析的方法。

背景技术

数据挖掘是指从大量的数据中揭示出隐含的、先前未知的并有潜在价值的信息的过程。它主要基于人工智能、机器学习、模式识别、统计学、数据库、数据检索等技术来实现上述目标。

现有的数据挖掘过程使用一种或者固定的几种数据分析算法构建出数据分析系统，由于每种算法都具有各自的优势和劣势，往往造成数据分析结果之间产生偏差，导致基于数据分析的上层业务应用难以进行决策。

发明内容

本申请所要解决的技术问题是提供一种互联网数据分析系统，可根据不同行业需求对互联网数据按照一种或多种算法同时进行挖掘分析，实现各种算法的优势互补。

为解决上述技术问题，本申请互联网数据分析系统包括：

数据预处理模块，从互联网的网页信息中提取其主要内容，过滤而得到每个网页对应的文本；对获取的文本首先由分词器得到多个分词，再经过特征值降维仅保留突出该文本特征的分词；

数据分析模块，根据分析要求，从分类算法、聚类算法、关联规则算法、特殊规则算法这四类算法中选择相应的一类对多类算法，每类算法中采用一种或多种算法，对所述数据预处理模块输出的每个网页所对应的经过降维后的分词各自独立地进行处理，并存储分析结果。

本申请互联网数据分析系统中包含了四类数据分析算法，每一类算法中又可采用一种或多种算法并可任意替换。这便避免了使用单一数据挖掘算法造成数据分析结果不准确的缺陷，或在使用一种算法的基础上再使用其它算法时需要进行系统的二次开发的时间成本，提高了数据分析的效率和准确率。

附图说明

图1是本申请互联网数据分析系统的结构示意图；

图2是本申请互联网数据分析系统用于对互联网网站进行分类的一个实施例的实施方法流程图。

图中附图标记说明：

10为数据预处理模块；20为数据分析模块。

具体实施方式

请参阅图1，本申请互联网数据分析系统包括数据预处理模块10和数据分析模块20。

所述数据预处理模块10从互联网的网页信息中提取其主要内容，过滤掉标签等无用信息，从而获取每个网页对应的文本。对获取的文本首先由分词器进行有效切分而得到多个分词，再经过特征值降维从中过滤掉不太重要的分词，仅保留可以明显突出该文本特征的分词。

所述数据分析模块20根据分析要求，从分类算法、聚类算法、关联规则算法、特殊规则算法这四类算法中选择相应的一类或多类算法，每类算法中采用一种或多种算法，对所述数据预处理模块10输出的每个网页所对应的经过降维后的分词数据进行处理，并存储分析结果。

所述分类（classi fica tion）算法主要是通过对已知类别的文本进行训练，得出训练模型，从而根据模型对待处理的数据进行分类。分类算法适用于在已经规定了类别的前提下，对数据进行分类。常见的分类算法有svm算法、贝叶斯（bayes）算法、随机森立（ramdom forest）算法等。

所述聚类（clustering）算法又称为无监督学习算法，主要通过tf-idf（termfrequency–inverse document frequency、词频-反文档频率）、idf（inverse documentfrequency、反文档频率）等算法将文本中的分词转换为向量，通过比较文本中对应向量的距离与设定阈值的大小，从而对这些文本进行分类。聚类算法适用于在类别未知的前提下，对数据进行分类。常见的聚类算法有k-means算法等。

所述关联规则(Association Rules)算法主要是从大量数据中获取数据之间的关联关系。关联规则算法适用于从海量数据中寻求各数据之间的关联性。例如，美国沃尔玛超市发现婴儿尿布与啤酒被同时采购的概率很高，经分析发现年轻爸爸在为孩子采购尿布的同时往往为自己采购啤酒。

所述特殊规则匹配（rules matching）算法主要是通过大量经验的积累，总结出在出现某种规则的前提下，该文本一定属于某个类别的一种特殊的算法。特殊规则匹配算法可与上述三类算法相结合使用。

以上四类算法均有多种已存在的实现方式，在此不做赘述。

请参阅图2，下面就以一个具体实施例对本申请所述的互联网数据分析系统进行详细说明，该实施例是用来分析互联网网站的性质，至少区分为经营性网站和非经营性网站两大类，这两者的区别主要在于是否以营利为目的。

第1步，对采集下来的大量互联网的网页数据中进行文本预处理，即过滤掉无用信息，获取网页主要内容，并将获取到的内容保存为文本。然后，选用分词器对文本进行分词，得到包含文本和此时分词的中间文本集。如果是针对中文分词，所述分词器例如采用ansj分词器、mmseg4j分词器、lucene分词器中的一种或多种。最后，选用特征值降维算法从中间文本集中过滤掉无用的分词，仅保留权重较高、可以比较明显表示出该文本类别特征的分词，得到包含文本和此时分词的最终文本集。所述特征值降维例如采用tf-idf算法、权重计算等方法。

第2步，由于类别已定为至少两种，因而适于采用分类算法和/或特殊规则匹配算法。对于分类算法而言构建模型，对于特殊规则匹配算法而言归纳规则。

所述分类算法构建模型所用的数据称为训练数据，是所属类别已知的多个互联网网站经过第1步处理后的最终文本集。例如构建经营性网站模型的时候，选择公司类、网上大卖场类、收费的俱乐部类的网站的最终文本集作为训练数据。构建非经营性网站模型的时候，选择政府部门网站、学校类、社会公益类的网站的最终文本集作为训练数据。

可根据多种分类算法构建各自的模型。当采用svm算法时，可首先构建公司类网站和非公司类网站模型，然后用非公司类网站再构建学校类网站和非学校类网站的模型，以此类推，最终得到多个类别模型。这是由于svm算法虽然分类准确率较高，但具有一定的局限性，每次只能分成两个类别。当采用bayes算法时，其一次可构建多个类别的模型，可分别选取公司类网站、政府类网站、网上大卖场类网站等具有代表性的网站的最终文本集，对这些最终文本集用bayes算法同时构建多个类别模型。

所述特殊规则匹配算法归纳的规则例如是：政府类网站一定为非经营性网站，从而可以得出url中含有“.gov.”的网页一定是非经营性网站，为此建立一条规则。

第3步，以所选择分类算法和特殊规则匹配算法，并以分类算法中的一种或多种，例如svm算法、bayes算法、随机森林（random forest）算法等，对待分类文本的最终文本集各自独立地进行分类，并将分类的结果存入结果库。

第4步，如果一个互联网网站的最终文本集用多种算法分类的结果都属于公司类网站，则可以确定该最终文本集对应的网站一定为经营性网站。如果一个互联网网站的最终文本集用多种算法的分类结果不一样，则有两种处理方式：一种是区分各类算法的权重并由此判断分类结果的权重，采纳权重较大的分类结果；另一种最终由人工判定。

例如，可将特殊规则匹配算法设为具有最高优先级，一旦符合某条规则后就采用特殊规则匹配算法的结论。在不符合任何规则的前提下，为svm算法、bayes算法、随机森林算法赋予不同的权重W1、W2、W3。若一个互联网网站的最终文本集用svm算法被分为A类别，用bayes算法和随机森林算法均被分为B类别。若W1>W2+W3,则该互联网网站被分为A类别；若W1<W2+W3，则该互联网网站被分为B类别；若W1=W2+W3，则交由人工判定。

以上仅为本申请的优选实施例，并不用于限定本申请。对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种互联网数据分析系统，其特征是，包括：

2.根据权利要求1所述的互联网数据分析系统，其特征是，所述分词器包括ansj分词器、mmseg4j分词器、lucene分词器中的一种或多种。

3.根据权利要求1所述的互联网数据分析系统，其特征是，所述特征值降维采用tf-idf算法、权重计算的一种或多种。

4.根据权利要求1所述的互联网数据分析系统，其特征是，所述分类算法包括svm算法、贝叶斯算法、随机森林算法。

5.根据权利要求1所述的互联网数据分析系统，其特征是，所述聚类算法包括k-means算法。

6.根据权利要求1所述的互联网数据分析系统，其特征是，当所述数据分析模块采用多种算法处理时，当分析结果不一致，则根据各种算法的权重判断分析结果的权重，并采纳权重较大的分析结果。