CN104142960A - 互联网数据分析系统 - Google Patents

互联网数据分析系统 Download PDF

Info

Publication number
CN104142960A
CN104142960A CN201310172687.2A CN201310172687A CN104142960A CN 104142960 A CN104142960 A CN 104142960A CN 201310172687 A CN201310172687 A CN 201310172687A CN 104142960 A CN104142960 A CN 104142960A
Authority
CN
China
Prior art keywords
algorithm
data
internet
data analysis
algorithms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310172687.2A
Other languages
English (en)
Inventor
顾青
倪庆洋
谢超
梁佐泉
冯四风
梁艳敏
张士鹏
田文晋
贾伟峰
田肖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI CHRUST INFORMATION TECHNOLOGY Co Ltd
Original Assignee
SHANGHAI CHRUST INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI CHRUST INFORMATION TECHNOLOGY Co Ltd filed Critical SHANGHAI CHRUST INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310172687.2A priority Critical patent/CN104142960A/zh
Publication of CN104142960A publication Critical patent/CN104142960A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种互联网数据分析系统,包括:数据预处理模块,从互联网的网页信息中提取其主要内容,过滤而得到每个网页对应的文本;对获取的文本首先由分词器得到多个分词,再经过特征值降维仅保留突出该文本特征的分词。数据分析模块,根据分析要求,从分类算法、聚类算法、关联规则算法、特殊规则算法这四类算法中选择相应的一类对多类算法,每类算法中采用一种或多种算法,对所述数据预处理模块输出的每个网页所对应的经过降维后的分词进行处理,并存储分析结果。本申请避免了使用单一数据挖掘算法造成数据分析结果不准确的缺陷,或在使用一种算法的基础上再使用其它算法时需要进行系统的二次开发的时间成本,提高了数据分析的效率和准确率。

Description

互联网数据分析系统
技术领域
本申请涉及一种数据挖掘(data mining)技术,特别是涉及一种对互联网数据进行分析的方法。
背景技术
数据挖掘是指从大量的数据中揭示出隐含的、先前未知的并有潜在价值的信息的过程。它主要基于人工智能、机器学习、模式识别、统计学、数据库、数据检索等技术来实现上述目标。
现有的数据挖掘过程使用一种或者固定的几种数据分析算法构建出数据分析系统,由于每种算法都具有各自的优势和劣势,往往造成数据分析结果之间产生偏差,导致基于数据分析的上层业务应用难以进行决策。
发明内容
本申请所要解决的技术问题是提供一种互联网数据分析系统,可根据不同行业需求对互联网数据按照一种或多种算法同时进行挖掘分析,实现各种算法的优势互补。
为解决上述技术问题,本申请互联网数据分析系统包括:
数据预处理模块,从互联网的网页信息中提取其主要内容,过滤而得到每个网页对应的文本;对获取的文本首先由分词器得到多个分词,再经过特征值降维仅保留突出该文本特征的分词;
数据分析模块,根据分析要求,从分类算法、聚类算法、关联规则算法、特殊规则算法这四类算法中选择相应的一类对多类算法,每类算法中采用一种或多种算法,对所述数据预处理模块输出的每个网页所对应的经过降维后的分词各自独立地进行处理,并存储分析结果。
本申请互联网数据分析系统中包含了四类数据分析算法,每一类算法中又可采用一种或多种算法并可任意替换。这便避免了使用单一数据挖掘算法造成数据分析结果不准确的缺陷,或在使用一种算法的基础上再使用其它算法时需要进行系统的二次开发的时间成本,提高了数据分析的效率和准确率。
附图说明
图1是本申请互联网数据分析系统的结构示意图;
图2是本申请互联网数据分析系统用于对互联网网站进行分类的一个实施例的实施方法流程图。
图中附图标记说明:
10为数据预处理模块;20为数据分析模块。
具体实施方式
请参阅图1,本申请互联网数据分析系统包括数据预处理模块10和数据分析模块20。
所述数据预处理模块10从互联网的网页信息中提取其主要内容,过滤掉标签等无用信息,从而获取每个网页对应的文本。对获取的文本首先由分词器进行有效切分而得到多个分词,再经过特征值降维从中过滤掉不太重要的分词,仅保留可以明显突出该文本特征的分词。
所述数据分析模块20根据分析要求,从分类算法、聚类算法、关联规则算法、特殊规则算法这四类算法中选择相应的一类或多类算法,每类算法中采用一种或多种算法,对所述数据预处理模块10输出的每个网页所对应的经过降维后的分词数据进行处理,并存储分析结果。
所述分类(classi fica tion)算法主要是通过对已知类别的文本进行训练,得出训练模型,从而根据模型对待处理的数据进行分类。分类算法适用于在已经规定了类别的前提下,对数据进行分类。常见的分类算法有svm算法、贝叶斯(bayes)算法、随机森立(ramdom forest)算法等。
所述聚类(clustering)算法又称为无监督学习算法,主要通过tf-idf(termfrequency–inverse document frequency、词频-反文档频率)、idf(inverse documentfrequency、反文档频率)等算法将文本中的分词转换为向量,通过比较文本中对应向量的距离与设定阈值的大小,从而对这些文本进行分类。聚类算法适用于在类别未知的前提下,对数据进行分类。常见的聚类算法有k-means算法等。
所述关联规则(Association Rules)算法主要是从大量数据中获取数据之间的关联关系。关联规则算法适用于从海量数据中寻求各数据之间的关联性。例如,美国沃尔玛超市发现婴儿尿布与啤酒被同时采购的概率很高,经分析发现年轻爸爸在为孩子采购尿布的同时往往为自己采购啤酒。
所述特殊规则匹配(rules matching)算法主要是通过大量经验的积累,总结出在出现某种规则的前提下,该文本一定属于某个类别的一种特殊的算法。特殊规则匹配算法可与上述三类算法相结合使用。
以上四类算法均有多种已存在的实现方式,在此不做赘述。
请参阅图2,下面就以一个具体实施例对本申请所述的互联网数据分析系统进行详细说明,该实施例是用来分析互联网网站的性质,至少区分为经营性网站和非经营性网站两大类,这两者的区别主要在于是否以营利为目的。
第1步,对采集下来的大量互联网的网页数据中进行文本预处理,即过滤掉无用信息,获取网页主要内容,并将获取到的内容保存为文本。然后,选用分词器对文本进行分词,得到包含文本和此时分词的中间文本集。如果是针对中文分词,所述分词器例如采用ansj分词器、mmseg4j分词器、lucene分词器中的一种或多种。最后,选用特征值降维算法从中间文本集中过滤掉无用的分词,仅保留权重较高、可以比较明显表示出该文本类别特征的分词,得到包含文本和此时分词的最终文本集。所述特征值降维例如采用tf-idf算法、权重计算等方法。
第2步,由于类别已定为至少两种,因而适于采用分类算法和/或特殊规则匹配算法。对于分类算法而言构建模型,对于特殊规则匹配算法而言归纳规则。
所述分类算法构建模型所用的数据称为训练数据,是所属类别已知的多个互联网网站经过第1步处理后的最终文本集。例如构建经营性网站模型的时候,选择公司类、网上大卖场类、收费的俱乐部类的网站的最终文本集作为训练数据。构建非经营性网站模型的时候,选择政府部门网站、学校类、社会公益类的网站的最终文本集作为训练数据。
可根据多种分类算法构建各自的模型。当采用svm算法时,可首先构建公司类网站和非公司类网站模型,然后用非公司类网站再构建学校类网站和非学校类网站的模型,以此类推,最终得到多个类别模型。这是由于svm算法虽然分类准确率较高,但具有一定的局限性,每次只能分成两个类别。当采用bayes算法时,其一次可构建多个类别的模型,可分别选取公司类网站、政府类网站、网上大卖场类网站等具有代表性的网站的最终文本集,对这些最终文本集用bayes算法同时构建多个类别模型。
所述特殊规则匹配算法归纳的规则例如是:政府类网站一定为非经营性网站,从而可以得出url中含有“.gov.”的网页一定是非经营性网站,为此建立一条规则。
第3步,以所选择分类算法和特殊规则匹配算法,并以分类算法中的一种或多种,例如svm算法、bayes算法、随机森林(random forest)算法等,对待分类文本的最终文本集各自独立地进行分类,并将分类的结果存入结果库。
第4步,如果一个互联网网站的最终文本集用多种算法分类的结果都属于公司类网站,则可以确定该最终文本集对应的网站一定为经营性网站。如果一个互联网网站的最终文本集用多种算法的分类结果不一样,则有两种处理方式:一种是区分各类算法的权重并由此判断分类结果的权重,采纳权重较大的分类结果;另一种最终由人工判定。
例如,可将特殊规则匹配算法设为具有最高优先级,一旦符合某条规则后就采用特殊规则匹配算法的结论。在不符合任何规则的前提下,为svm算法、bayes算法、随机森林算法赋予不同的权重W1、W2、W3。若一个互联网网站的最终文本集用svm算法被分为A类别,用bayes算法和随机森林算法均被分为B类别。若W1>W2+W3,则该互联网网站被分为A类别;若W1<W2+W3,则该互联网网站被分为B类别;若W1=W2+W3,则交由人工判定。
以上仅为本申请的优选实施例,并不用于限定本申请。对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (6)

1.一种互联网数据分析系统,其特征是,包括:
数据预处理模块,从互联网的网页信息中提取其主要内容,过滤而得到每个网页对应的文本;对获取的文本首先由分词器得到多个分词,再经过特征值降维仅保留突出该文本特征的分词;
数据分析模块,根据分析要求,从分类算法、聚类算法、关联规则算法、特殊规则算法这四类算法中选择相应的一类对多类算法,每类算法中采用一种或多种算法,对所述数据预处理模块输出的每个网页所对应的经过降维后的分词各自独立地进行处理,并存储分析结果。
2.根据权利要求1所述的互联网数据分析系统,其特征是,所述分词器包括ansj分词器、mmseg4j分词器、lucene分词器中的一种或多种。
3.根据权利要求1所述的互联网数据分析系统,其特征是,所述特征值降维采用tf-idf算法、权重计算的一种或多种。
4.根据权利要求1所述的互联网数据分析系统,其特征是,所述分类算法包括svm算法、贝叶斯算法、随机森林算法。
5.根据权利要求1所述的互联网数据分析系统,其特征是,所述聚类算法包括k-means算法。
6.根据权利要求1所述的互联网数据分析系统,其特征是,当所述数据分析模块采用多种算法处理时,当分析结果不一致,则根据各种算法的权重判断分析结果的权重,并采纳权重较大的分析结果。
CN201310172687.2A 2013-05-10 2013-05-10 互联网数据分析系统 Pending CN104142960A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310172687.2A CN104142960A (zh) 2013-05-10 2013-05-10 互联网数据分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310172687.2A CN104142960A (zh) 2013-05-10 2013-05-10 互联网数据分析系统

Publications (1)

Publication Number Publication Date
CN104142960A true CN104142960A (zh) 2014-11-12

Family

ID=51852134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310172687.2A Pending CN104142960A (zh) 2013-05-10 2013-05-10 互联网数据分析系统

Country Status (1)

Country Link
CN (1) CN104142960A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866472A (zh) * 2015-06-15 2015-08-26 百度在线网络技术(北京)有限公司 分词训练集的生成方法和装置
CN105488697A (zh) * 2015-12-09 2016-04-13 焦点科技股份有限公司 一种基于客户行为特征的潜在客户挖掘方法
CN106446011A (zh) * 2016-08-24 2017-02-22 东软集团股份有限公司 数据处理的方法及装置
CN106484795A (zh) * 2016-09-22 2017-03-08 天津大学 一种基于非结构化网页数据的兴趣推荐方法
CN107577792A (zh) * 2017-09-18 2018-01-12 前海梧桐(深圳)数据有限公司 一种企业数据自动聚类的方法及其系统
CN107967347A (zh) * 2017-12-07 2018-04-27 湖北三新文化传媒有限公司 批量数据处理方法、服务器、系统及存储介质
WO2018120813A1 (zh) * 2016-12-27 2018-07-05 华为技术有限公司 一种智能推荐方法和终端
CN108256029A (zh) * 2018-01-11 2018-07-06 北京神州泰岳软件股份有限公司 统计分类模型训练装置及训练方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050102292A1 (en) * 2000-09-28 2005-05-12 Pablo Tamayo Enterprise web mining system and method
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN102567375A (zh) * 2010-12-27 2012-07-11 中国移动通信集团公司 数据挖掘方法及设备
CN102968410A (zh) * 2012-12-04 2013-03-13 江南大学 一种基于rbf神经网络算法与语义特征选取的文本分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050102292A1 (en) * 2000-09-28 2005-05-12 Pablo Tamayo Enterprise web mining system and method
CN102567375A (zh) * 2010-12-27 2012-07-11 中国移动通信集团公司 数据挖掘方法及设备
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN102968410A (zh) * 2012-12-04 2013-03-13 江南大学 一种基于rbf神经网络算法与语义特征选取的文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李晓黎等: ""基于支持向量机与无监督聚类相结合的中文网页分类器"", 《计算机学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866472A (zh) * 2015-06-15 2015-08-26 百度在线网络技术(北京)有限公司 分词训练集的生成方法和装置
CN105488697A (zh) * 2015-12-09 2016-04-13 焦点科技股份有限公司 一种基于客户行为特征的潜在客户挖掘方法
CN106446011A (zh) * 2016-08-24 2017-02-22 东软集团股份有限公司 数据处理的方法及装置
CN106446011B (zh) * 2016-08-24 2019-11-26 东软集团股份有限公司 数据处理的方法及装置
CN106484795A (zh) * 2016-09-22 2017-03-08 天津大学 一种基于非结构化网页数据的兴趣推荐方法
WO2018120813A1 (zh) * 2016-12-27 2018-07-05 华为技术有限公司 一种智能推荐方法和终端
CN107577792A (zh) * 2017-09-18 2018-01-12 前海梧桐(深圳)数据有限公司 一种企业数据自动聚类的方法及其系统
CN107967347A (zh) * 2017-12-07 2018-04-27 湖北三新文化传媒有限公司 批量数据处理方法、服务器、系统及存储介质
CN107967347B (zh) * 2017-12-07 2021-01-22 湖北三新文化传媒有限公司 批量数据处理方法、服务器、系统及存储介质
CN108256029A (zh) * 2018-01-11 2018-07-06 北京神州泰岳软件股份有限公司 统计分类模型训练装置及训练方法

Similar Documents

Publication Publication Date Title
CN104142960A (zh) 互联网数据分析系统
CN107609121A (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN102194013A (zh) 一种基于领域知识的短文本分类方法及文本分类系统
CN107871144A (zh) 发票商品名分类方法、系统、设备及计算机可读存储介质
CN107291723A (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
Kurniawan et al. Real-time traffic classification with Twitter data mining
CN104951548A (zh) 一种负面舆情指数的计算方法及系统
CN104239485A (zh) 一种基于统计机器学习的互联网暗链检测方法
CN103823896A (zh) 一种学科特征值算法及基于其的项目评审专家推荐算法
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN110795568A (zh) 基于用户信息知识图谱的风险评估方法、装置和电子设备
CN105574544A (zh) 一种数据处理方法和装置
CN105740382A (zh) 一种对短评论文本进行方面分类方法
CN106897359A (zh) 互联网信息收集及关联方法
CN108090178A (zh) 一种文本数据分析方法、装置、服务器和存储介质
CN107194617A (zh) 一种app软件工程师软技能分类系统及方法
Schofield et al. Identifying hate speech in social media
CN105068986A (zh) 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法
Javaid et al. Coal mining accident causes classification using voting-based hybrid classifier (VHC)
CN101673305A (zh) 行业分类方法、装置和服务器
Padmaja et al. Twitter sentiment analysis using adaptive neuro-fuzzy inference system with genetic algorithm
Mary et al. ASFuL: Aspect based sentiment summarization using fuzzy logic
CN112434163A (zh) 风险识别方法及模型构建方法、装置、电子设备和介质
Jong Predicting rating with sentiment analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141112

WD01 Invention patent application deemed withdrawn after publication