CN102402592A - 一种基于网页数据挖掘的信息采集方法 - Google Patents
一种基于网页数据挖掘的信息采集方法 Download PDFInfo
- Publication number
- CN102402592A CN102402592A CN2011103447850A CN201110344785A CN102402592A CN 102402592 A CN102402592 A CN 102402592A CN 2011103447850 A CN2011103447850 A CN 2011103447850A CN 201110344785 A CN201110344785 A CN 201110344785A CN 102402592 A CN102402592 A CN 102402592A
- Authority
- CN
- China
- Prior art keywords
- information
- collected
- data
- web
- execution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于网页数据挖掘的信息采集方法,涉及数据挖掘技术领域。所述方法包括步骤:A:从目标Web文档中获得待采集信息;B:判断待采集信息类型是否是固定格式数据,如果是,执行步骤E;否则,剔除无用信息后进行信息整理,执行步骤C;C:判断待采集信息类型是否是半结构化数据,如果是,进行模式发现,执行步骤D;否则,执行步骤E;D:判断是否保存有模式模板,如果是,执行步骤E;否则,进行模式分析后保存其模式模板,执行步骤E;E:剔除重复信息后存储到本地计算机上。所述方法,能够以较低的成本和较短的时间,满足需求简单、数据量较小的信息采集需求。
Description
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种基于网页数据挖掘的信息采集方法。
背景技术
Web(网页)数据挖掘是从Web资源上抽取信息或知识的过程,它是将传统的数据挖掘的思想和方法应用于Web,从Web文档和Web活动中抽取感兴趣的、潜在的、有用的模式和隐藏信息。Web上的数据于传统的数据库数据不同,传统的数据库都有固定的数据模型,可以根据此模型来描述特定的数据;而Web上的数据非常复杂,没有特定的模型描述,每一个站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性,因而Web数据有一定的结构化,但因自述层次的存在,其是一种非完全结构化的数据,也被称为半结构化数据。半结构化也是Web数据的一个特点,Web数据挖掘首先要解决的就是半结构化数据源模型和半结构化模型的查询与集成技术,要想解决此问题必须要有一个模型来清晰半结构化模型。整个过程需要用到大量的人力和物力,所以目前成熟的技术和产品不是很多。
根据对Web数据的感兴趣程度不同,Web挖掘一般可以分为三类:Web内容挖掘(Web Content mining)、Web结构挖掘(Webstructure mining)、Web用法挖掘(Web usage Mining)。其中,Web内容挖掘,主要是对Web上的数据进行集成,抓取,并通过一定的归类和压缩从而转化成为对用户有价值的可用的数据资源。传统的Web内容挖掘一般是通过两种模式进行,一种是针对非结构化数据的采集,一种是针对半结构化数据的采集。其中,非结构化数据一般是指一些Web上的自由文本,包括小说、新闻等。这方面的研究相对比较多一些,大部分都是建立在词汇袋(bag of words)或称向量表示法(vector representation)的基础上,这种方法将单个的词汇看成文档集合中的属性,只从统计的角度将词汇孤立地看待而忽略该词汇出现的位置和上下文环境。而对于Web上的半结构化数据的挖掘,是指对加入了HTML(Hypertext Markup Language,超文本标记语言)、超链接等附加结构的信息进行挖掘,其应用包括超链接文本的分类、聚类、发现文档之间的关系、提出半结构化文档中的模式和规则等。
如果要做Web数据挖掘和信息采集需要用到数据的分类、聚集、关联等方面的知识,更细化的来说,只分类中就要使用到统计方法、机器学习方法、神经网络方法,需要用到的计算机算法包括:贝叶斯法和非参数法,BP(Error Back Propagation,误差反向传播算法)算法等。这样拿到的数据固然清晰丰富,但是,对于一些基本的应用来说成本太高了,而且从开发的时效性上来讲确实是一个很大的负担。传统的做法需要大量的Web数据作为基础,然后通过复杂的算法将有用的信息进行筛选最后拿到自己需要的部分,这样不但从实现的手段上面来讲有很大的难度,而且需要很高的硬件支持,还要有非常畅通的网络,否则就没有办法拿到更多来自Web的数据。因此,传统的基于Web数据挖掘的信息采集方法,对于一些需求相对简单,数据量较小的信息采集需求,成本过高、时间过长。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何提供一种基于网页数据挖掘的信息采集方法,从而以较低的成本和较短的时间,满足需求简单、数据量较小的信息采集需求。
(二)技术方案
为解决上述技术问题,本发明提供一种基于网页数据挖掘的信息采集方法,其包括步骤:
A:从目标Web文档中获得待采集信息;
B:判断所述待采集信息类型是否是固定格式数据,如果是,执行步骤E;否则,从所述待采集信息中剔除无用信息后进行信息整理,然后执行步骤C;
C:判断所述待采集信息类型是否是半结构化数据,如果是,对所述待采集信息进行模式发现,然后执行步骤D;否则,执行步骤E;
D:判断是否保存有所述待采集信息的模式模板,如果是,执行步骤E;否则,对所述待采集信息进行模式分析后保存其模式模板,再执行步骤E;
E:对所述待采集信息进行分类,剔除重复信息后创建检索目录;
F:将所述待采集信息存储到本地计算机上。
优选地,在所述步骤F之后还包括步骤G:从所述待采集信息中获得需要使用的数据进行显示。
优选地,所述步骤G中,对所述待采集信息进行解压缩处理后,再获得需要使用的数据进行显示。
优选地,所述步骤A中的目标Web文档包括:在线Web文档、电子邮件、电子文档、新闻组、网站日志数据或者通过Web形成的交易数据库中的数据。
优选地,所述步骤B中的固定格式数据在Web上具有统计好的数据资源以供抓取;所述固定格式数据包括:天气预报、实时新闻、财经新闻、航班信息或者股票信息。
优选地,所述步骤B中的无用信息包括:多余广告链接、多余格式标记、自动识别段落或者自动识别字段。
优选地,所述步骤C中,对所述待采集信息进行模式发现包括,在同一个Web站点内部或者多个Web站点之间进行模式发现。
优选地,所述步骤D中,对所述待采集信息进行模式分析包括,验证和解释所述步骤C中产生的模式。
优选地,将所述待采集信息按照预定的压缩算法进行压缩处理后,再存储到本地计算机上。
(三)有益效果
本发明所述基于网页数据挖掘的信息采集方法,集成了多种数据挖掘方法,并且针对不同的待采集信息的数据类型,采用相应的数据挖掘方法,能够以较低的成本和较短的时间,满足需求简单、数据量较小的信息采集需求。同时,对于半结构化数据,第一次模式分析后自动保存其模式模板,再次采集该类信息时,无需再次执行模式分析,进一步减少了操作时间。
附图说明
图1是本发明的实施例所述的基于网页数据挖掘的信息采集方法流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例一
本实施例假设待采集信息为新浪网的新闻频道的新闻数据。图1是本发明的实施例所述的基于网页数据挖掘的信息采集方法流程图。如图1所示,所述方法包括:
步骤A:从目标Web文档中获得待采集信息。这里的目标Web文档即为新浪网的新闻频道的Web文档。需要说明的是,本发明所述目标Web文档还可能包括:电子邮件、电子文档、新闻组、网站日志数据或者通过Web形成的交易数据库中的数据。
步骤B:经判断所述待采集信息类型不是固定格式数据,于是通过决策树、分类、聚类、关联规则等,从所述待采集信息中剔除无用信息,然后进行信息整理,再执行步骤C。所述无用信息包括:广告链接、多余格式标记、自动识别段落或者自动识别字段等。所述信息整理即将所述待采集信息组织成规整的逻辑形式。
步骤C:对所述待采集信息进行模式发现,即查找当前Web的模型结构,通过对标准HTML页面内容进行分析,通过检索头信息,使用HITS(Hypertext-Induced Topic Search)算法和PageRank(网页级别算法)算法进行数据分析,计算Web页面之间超链接的质量,从而得到页面的权重,分析有效的链接地址,最终得到对应所述待采集信息的模式,然后执行步骤D。这里,对所述待采集信息进行模式发现包括,在同一个Web站点内部或者多个Web站点之间进行模式发现。
步骤D:判断是否保存有所述待采集信息的模式模板,如果是,执行步骤E;否则,对所述待采集信息进行模式分析后保存其模式模板,再执行步骤E。对所述待采集信息进行模式分析包括,验证和解释所述步骤C中产生的模式。第一次执行此类信息采集时,需要对所述待采集信息进行模式分析并保存其模式模板;后续再次执行此类信息采集时只需直接读取所述模式模板,然后直接进行数据访问,从而有效节省信息采集的时间。
步骤E:对所述待采集信息按照不同的信息类型进行详细信息分类,剔除重复信息后创建检索目录。
步骤F:将所述待采集信息按照预定的压缩算法进行压缩处理后,再存储到本地计算机上。
步骤G:对所述待采集信息进行解压缩处理后,从所述待采集信息中获得需要使用的数据进行显示。
实施例二
本实施例假设待采集信息为航班信息,仍旧如图1所示,所述方法包括步骤:
步骤A:从目标Web文档中获得待采集信息。航班信息一般格式比较固定,更新频率很低,而且现有的很多WebServers提供相关服务,所以可以选择使用RSS(Really Simple Syndication)采集器从一个可以使用的WebServers上采集该航班信息。设置好所述航班信息的更新周期后,RSS采集器可以定期从所述可以使用的WebServers获取航班信息。
步骤B:经判断所述待采集信息即航班信息属于固定格式数据,于是直接执行步骤E。与航班信息类似,所述固定格式数据还包括:天气预报、实时新闻、财经新闻、或者股票信息等。
步骤E:对所述航班信息进行简单的分类,剔除重复信息后创建检索目录。
步骤F:将所述航班信息按照预定的压缩算法进行压缩处理后,再存储到本地计算机上。
步骤G:对所述航班信息进行解压缩处理后,从所述待采集信息中获得需要使用的数据进行显示。
本发明实施例所述基于网页数据挖掘的信息采集方法,集成了多种数据挖掘方法,并且针对不同数据类型的待采集信息,采用相应的数据挖掘方法,能够以较低的成本和较短的时间,满足需求简单、数据量较小的信息采集需求。同时,对于半结构化数据,第一次模式分析后自动保存其模式模板,再次采集该类信息时,无需再次执行模式分析,进一步减少了操作时间。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (9)
1.一种基于网页数据挖掘的信息采集方法,其特征在于,包括步骤:
A:从目标Web文档中获得待采集信息;
B:判断所述待采集信息类型是否是固定格式数据,如果是,执行步骤E;否则,从所述待采集信息中剔除无用信息后进行信息整理,然后执行步骤C;
C:判断所述待采集信息类型是否是半结构化数据,如果是,对所述待采集信息进行模式发现,然后执行步骤D;否则,执行步骤E;
D:判断是否保存有所述待采集信息的模式模板,如果是,执行步骤E;否则,对所述待采集信息进行模式分析后保存其模式模板,再执行步骤E;
E:对所述待采集信息进行分类,剔除重复信息后创建检索目录;
F:将所述待采集信息存储到本地计算机上。
2.如权利要求1所述的方法,其特征在于,在所述步骤F之后还包括步骤G:从所述待采集信息中获得需要使用的数据进行显示。
3.如权利要求2所述的方法,其特征在于,所述步骤G中,对所述待采集信息进行解压缩处理后,再获得需要使用的数据进行显示。
4.如权利要求1所述的方法,其特征在于,所述步骤A中的目标Web文档包括:在线Web文档、电子邮件、电子文档、新闻组、网站日志数据或者通过Web形成的交易数据库中的数据。
5.如权利要求1所述的方法,其特征在于,所述步骤B中的固定格式数据在Web上具有统计好的数据资源以供抓取;所述固定格式数据包括:天气预报、实时新闻、财经新闻、航班信息或者股票信息。
6.如权利要求1所述的方法,其特征在于,所述步骤B中的无用信息包括:多余广告链接、多余格式标记、自动识别段落或者自动识别字段。
7.如权利要求1所述的方法,其特征在于,所述步骤C中,对所述待采集信息进行模式发现包括,在同一个Web站点内部或者多个Web站点之间进行模式发现。
8.如权利要求1所述的方法,其特征在于,所述步骤D中,对所述待采集信息进行模式分析包括,验证和解释所述步骤C中产生的模式。
9.如权利要求1所述的方法,其特征在于,所述步骤F中,将所述待采集信息按照预定的压缩算法进行压缩处理后,再存储到本地计算机上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103447850A CN102402592A (zh) | 2011-11-04 | 2011-11-04 | 一种基于网页数据挖掘的信息采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103447850A CN102402592A (zh) | 2011-11-04 | 2011-11-04 | 一种基于网页数据挖掘的信息采集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102402592A true CN102402592A (zh) | 2012-04-04 |
Family
ID=45884792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011103447850A Pending CN102402592A (zh) | 2011-11-04 | 2011-11-04 | 一种基于网页数据挖掘的信息采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102402592A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182465A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于网络的大数据处理方法 |
WO2015027868A1 (en) * | 2013-08-26 | 2015-03-05 | Tencent Technology (Shenzhen) Company Limited | Storing method and apparatus for data acquisition |
CN106487886A (zh) * | 2016-09-30 | 2017-03-08 | 广州特道信息科技有限公司 | 大数据信息发布系统及方法 |
CN113836405A (zh) * | 2021-09-09 | 2021-12-24 | 深圳Tcl新技术有限公司 | 信息查询方法、装置以及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101141370A (zh) * | 2007-10-09 | 2008-03-12 | 南京财经大学 | 基于网格服务的电力企业实时数据处理方法 |
CN101231661A (zh) * | 2008-02-19 | 2008-07-30 | 上海估家网络科技有限公司 | 对象级知识挖掘的方法和系统 |
CN102096705A (zh) * | 2010-12-31 | 2011-06-15 | 南威软件股份有限公司 | 一种文章采集的方法 |
-
2011
- 2011-11-04 CN CN2011103447850A patent/CN102402592A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101141370A (zh) * | 2007-10-09 | 2008-03-12 | 南京财经大学 | 基于网格服务的电力企业实时数据处理方法 |
CN101231661A (zh) * | 2008-02-19 | 2008-07-30 | 上海估家网络科技有限公司 | 对象级知识挖掘的方法和系统 |
CN102096705A (zh) * | 2010-12-31 | 2011-06-15 | 南威软件股份有限公司 | 一种文章采集的方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015027868A1 (en) * | 2013-08-26 | 2015-03-05 | Tencent Technology (Shenzhen) Company Limited | Storing method and apparatus for data acquisition |
US9977836B2 (en) | 2013-08-26 | 2018-05-22 | Tencent Technology (Shenzhen) Company Limited | Storing method and apparatus for data acquisition |
CN104182465A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于网络的大数据处理方法 |
CN106487886A (zh) * | 2016-09-30 | 2017-03-08 | 广州特道信息科技有限公司 | 大数据信息发布系统及方法 |
CN113836405A (zh) * | 2021-09-09 | 2021-12-24 | 深圳Tcl新技术有限公司 | 信息查询方法、装置以及计算机可读存储介质 |
CN113836405B (zh) * | 2021-09-09 | 2024-03-12 | 深圳Tcl新技术有限公司 | 信息查询方法、装置以及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104182389B (zh) | 一种基于语义的大数据分析商业智能服务系统 | |
CN103226578B (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
CN102426610B (zh) | 微博搜索排名方法及微博搜索引擎 | |
CN104965905B (zh) | 一种网页分类的方法和装置 | |
CN102915335B (zh) | 基于用户操作记录和资源内容的信息关联方法 | |
CN102542061B (zh) | 一种产品的智能分类方法 | |
CN103186675A (zh) | 一种基于网络热词识别的网页自动分类方法 | |
CN104102639B (zh) | 基于文本分类的推广触发方法和装置 | |
CN103605794A (zh) | 一种网站分类方法 | |
CN101788988B (zh) | 信息抓取方法 | |
CN101794311A (zh) | 基于模糊数据挖掘的中文网页自动分类方法 | |
CN105138558A (zh) | 基于用户访问内容的实时个性化信息采集方法 | |
CN102831193A (zh) | 基于分布式多级聚类的话题检测装置及方法 | |
CN104462611A (zh) | 信息排序模型的建模方法、排序方法及建模装置、排序装置 | |
CN103389998A (zh) | 一种基于云服务的新型互联网商业情报语义分析技术 | |
CN110457579B (zh) | 基于模板和分类器协同工作的网页去噪方法及系统 | |
CN105512143A (zh) | 一种网页分类方法及装置 | |
CN102035883A (zh) | 一种在网络设备中用于优化网页的方法和设备 | |
CN101650715A (zh) | 一种筛选网页上链接的方法和装置 | |
CN103778125A (zh) | 一种网页投放内容的分析方法及装置和网页投放内容的自动投放方法及装置 | |
CN103810162A (zh) | 推荐网络信息的方法和系统 | |
CN104899229A (zh) | 基于群体智能的行为聚类系统 | |
CN107967347A (zh) | 批量数据处理方法、服务器、系统及存储介质 | |
CN103309862A (zh) | 一种网页类型识别方法和系统 | |
CN102169496A (zh) | 基于锚文本分析的领域术语自动生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120404 |