CN102096705A - 一种文章采集的方法 - Google Patents

一种文章采集的方法 Download PDF

Info

Publication number
CN102096705A
CN102096705A CN 201010618421 CN201010618421A CN102096705A CN 102096705 A CN102096705 A CN 102096705A CN 201010618421 CN201010618421 CN 201010618421 CN 201010618421 A CN201010618421 A CN 201010618421A CN 102096705 A CN102096705 A CN 102096705A
Authority
CN
China
Prior art keywords
article
acquisition
collection
content
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010618421
Other languages
English (en)
Inventor
曾文语
林雅珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Linewell Software Co Ltd
Original Assignee
Linewell Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Linewell Software Co Ltd filed Critical Linewell Software Co Ltd
Priority to CN 201010618421 priority Critical patent/CN102096705A/zh
Publication of CN102096705A publication Critical patent/CN102096705A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种文章采集的方法,先选定采集来源,采用正则表达式制定采集规则,使用关键信息处理方式确定采集内容的范围,将采集的内容和目标站点的栏目进行绑定;开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站点采集;根据设定的采集规则,把采集到的内容存放在各自对应的栏目下;若需要自动发布,则调用文章合并模板进行发布;本发明根据用户自定义的任务配置,批量而精确地抽取目标网络媒体栏目中的新闻或文章,转化为结构化的记录保存或用于内部使用或外网发布,能快速实现外部信息的获取,对各类网站新闻的采集具有较快的速度和较高的准确率。

Description

一种文章采集的方法
技术领域
本发明涉及一种针对各式各样的网站文章进行自动采集的方法。 
背景技术
文章采集是根据用户定义的关键词字,从各式各样的网站上检索出相关的数据,并对数据进行合理的截取、分类、去重和过滤,然后以文件或数据库的方式保存下来。 
文章采集应用的关键在于如何从众多的网站获取所需要的准确内容到预期的中心资源库中,然后进行快速的利用。文章采集的核心技术是模式定义和模式匹配。模式属于人工智能的术语,是对前人积累的经验的抽象和升华。简单地说,就是从不断重复出现的事件中发现和抽象出的规律,是解决问题的经验的总结。只要是一再重复出现的事物,就可能存在某种模式。文章采集的模式大多不是程序自动发现的,目前几乎所有的文章采集产品都需要通过人工来定义。但模式本身是个很复杂、很抽象的内容,所以所有的开发者精力都花在怎样让模式定义更简单、更准确上,这也是文章采集技术竞争力的衡量标准。目前大多采用正则表达式定义和文档结构定义。 
传统的文章采集存在几个方面的问题:1、采集的是整篇文章,需要手工进行页面处理才能被利用;2、不能分栏目采集;3、只支持单一站点的采集;4、采集的文章不能自动套用自己网站的格式进行发布,需要进行手工处理。 
发明内容
本发明的目的在于提供一种文章采集的方法,支持网站群的多站点采集,可针对文章进行分段采集和分栏目采集,采集的文章能自动套用自己网站的格式进行发布,不需要进行手工处理。 
一种文章采集的方法,具体包括如下步骤:先选定采集来源,采用正则表达式制定采集规则,使用关键信息处理方式确定采集内容的范围,将采集的内容和目标站点的栏目进行绑定;开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站点采集;根据设定的采集规则,把采集到的内容存放在各自对应的栏目下;若需要自动发布,则调用文章合并模板进行发布。 
所述的采用正则表达式制定采集规则,是指输入需要采集的静态页面地址,确定地址中到第N个“/”为需要被采集的静态文件内容的地址,并将其自动转换成正则表达式规则。 
所述的关键信息处理方式,指确定需要采集内容的文章标题或者关键信息的字符串位置。 
本发明采用正则表达式定义的方式,根据用户自定义的任务配置,批量而精确地抽取目标网络媒体栏目中的新闻或文章,转化为结构化的记录(标题,作者,内容,采集时间,来源,分类,相关图片等),保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取,对各类网站新闻的采集具有较快的速度和较高的准确率。本发明可在自动、手动两种模式下运行,自动由系统定期到指定的站点更新最新的信息,手动提供了及时触发的机制;支持不同的信息采集使用不同的模式。 
本发明对传统的文章采集技术进行改进,真正满足了用户的应用需求:1、可以针对文章进行分段采集,只获取所需要的内容;2、每个栏目都可以定制相应的采集任务,文章采集后自动存放在对应栏目下;3、采用多线程技术,支持网站群的多站点采集;4、结合模板引擎技术,文章采集后可以自动套用网站模板进行自动发布。 
附图说明
图1为本发明的逻辑流程图。 
图2为本发明实施例中采集内容的字符串位置示意图。 
以下结合附图和具体实施例对本发明作进一步详述。 
具体实施方式
如图1所示,本发明一种文章采集的方法,具体包括如下: 
先选定采集来源,采用正则表达式制定采集规则,使用关键信息处理方式确定采集内容的范围,将采集的内容和目标站点的栏目进行绑定。 
所述的采用正则表达式制定采集规则:指输入需要采集的静态页面地址,该路径指向待采集页面的某个栏目中的其中一篇文章,确定第N个“/”开始下的内容,自动转换成正则表达式规则,符合表达式规则的静态文件内容将被采集。 
所述的关键信息处理方式:指确定需要采集内容的文章标题或者关键信息的字符串位置(如图2举例所示)。由于每个网站内容展示位置不一样,在配置采集时需先找到所要采集内容的字符串位置,才能准确地采集到数据。 
所述的将采集的内容和目标站点的栏目进行绑定:就是用户在采集配置中,用户需选择所属栏目,或在创建栏目时,用户可选择指定的文章模板,开始采集时,通过栏目找到指定的文章模板,在发布时合并生成静态页面。 
开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站点采集;根据设定的采集规则,把采集到的内容存放在各自对应的栏目下;若需要自动发布,则调用文章合并模板进行发布。 
所述的文章合并模板:指将动态的文章数据通过调用模板引擎生成静态的HTML页面。 
以上所述,仅是本发明较佳实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。 

Claims (3)

1.一种文章采集的方法,其特征在于包括如下步骤:先选定采集来源,采用正则表达式制定采集规则,使用关键信息处理方式确定采集内容的范围,将采集的内容和目标站点的栏目进行绑定;开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站点采集;根据设定的采集规则,把采集到的内容存放在各自对应的栏目下;若需要自动发布,则调用文章合并模板进行发布。
2.根据权利要求1所述的一种文章采集的方法,其特征在于:所述的采用正则表达式制定采集规则,是指输入需要采集的静态页面地址,确定地址中到第N个“/”为需要被采集的静态文件内容的地址,并将其自动转换成正则表达式规则。
3.根据权利要求1所述的一种文章采集的方法,其特征在于:所述的关键信息处理方式,指确定需要采集内容的文章标题或者关键信息的字符串位置。
CN 201010618421 2010-12-31 2010-12-31 一种文章采集的方法 Pending CN102096705A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010618421 CN102096705A (zh) 2010-12-31 2010-12-31 一种文章采集的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010618421 CN102096705A (zh) 2010-12-31 2010-12-31 一种文章采集的方法

Publications (1)

Publication Number Publication Date
CN102096705A true CN102096705A (zh) 2011-06-15

Family

ID=44129800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010618421 Pending CN102096705A (zh) 2010-12-31 2010-12-31 一种文章采集的方法

Country Status (1)

Country Link
CN (1) CN102096705A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402627A (zh) * 2011-12-31 2012-04-04 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法
CN102402592A (zh) * 2011-11-04 2012-04-04 同辉佳视(北京)信息技术股份有限公司 一种基于网页数据挖掘的信息采集方法
CN102609456A (zh) * 2012-01-12 2012-07-25 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法
CN104361061A (zh) * 2014-11-03 2015-02-18 烽火通信科技股份有限公司 一种web页面信息感知采集方法
CN104850588A (zh) * 2015-04-24 2015-08-19 深圳市梦网科技股份有限公司 媒体内容生成发布方法及系统
CN104965904A (zh) * 2015-06-30 2015-10-07 北京奇虎科技有限公司 一种多平台数据的抓取方法和装置
CN105335516A (zh) * 2015-11-04 2016-02-17 浪潮软件集团有限公司 一种通用采集系统的构建方法
CN105718477A (zh) * 2014-12-03 2016-06-29 中国移动通信集团重庆有限公司 一种获取目标文件的方法及装置
CN106776652A (zh) * 2015-11-24 2017-05-31 北京国双科技有限公司 数据处理方法及装置
CN107451218A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 网评自动发布方法及装置
CN108090105A (zh) * 2016-11-22 2018-05-29 北京国双科技有限公司 栏目与文章页的匹配方法和装置
CN108270812A (zh) * 2016-12-30 2018-07-10 深圳市青果乐园网络科技有限公司 用于获取文章发布和分享情况的方法和系统
CN113254574A (zh) * 2021-03-15 2021-08-13 河北地质大学 一种机关公文辅助生成方法、装置以及系统
CN113590999A (zh) * 2021-06-23 2021-11-02 小铁世纪(成都)科技有限公司 一种基于小程序的自适应内容识别及发布系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441629A (zh) * 2007-11-19 2009-05-27 上海新纳广告传媒有限公司 一种非结构化网页信息的自动采集方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441629A (zh) * 2007-11-19 2009-05-27 上海新纳广告传媒有限公司 一种非结构化网页信息的自动采集方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402592A (zh) * 2011-11-04 2012-04-04 同辉佳视(北京)信息技术股份有限公司 一种基于网页数据挖掘的信息采集方法
CN102402627B (zh) * 2011-12-31 2013-08-14 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法
CN102402627A (zh) * 2011-12-31 2012-04-04 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法
CN102609456A (zh) * 2012-01-12 2012-07-25 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法
CN104361061B (zh) * 2014-11-03 2018-02-16 南京烽火星空通信发展有限公司 一种web页面信息感知采集方法
CN104361061A (zh) * 2014-11-03 2015-02-18 烽火通信科技股份有限公司 一种web页面信息感知采集方法
CN105718477B (zh) * 2014-12-03 2019-05-24 中国移动通信集团重庆有限公司 一种获取目标文件的方法及装置
CN105718477A (zh) * 2014-12-03 2016-06-29 中国移动通信集团重庆有限公司 一种获取目标文件的方法及装置
CN104850588A (zh) * 2015-04-24 2015-08-19 深圳市梦网科技股份有限公司 媒体内容生成发布方法及系统
CN104965904B (zh) * 2015-06-30 2019-06-04 北京奇虎科技有限公司 一种多平台数据的抓取方法和装置
CN104965904A (zh) * 2015-06-30 2015-10-07 北京奇虎科技有限公司 一种多平台数据的抓取方法和装置
CN105335516A (zh) * 2015-11-04 2016-02-17 浪潮软件集团有限公司 一种通用采集系统的构建方法
CN106776652A (zh) * 2015-11-24 2017-05-31 北京国双科技有限公司 数据处理方法及装置
CN108090105A (zh) * 2016-11-22 2018-05-29 北京国双科技有限公司 栏目与文章页的匹配方法和装置
CN108270812A (zh) * 2016-12-30 2018-07-10 深圳市青果乐园网络科技有限公司 用于获取文章发布和分享情况的方法和系统
CN108270812B (zh) * 2016-12-30 2021-03-23 深圳市青果乐园网络科技有限公司 用于获取文章发布和分享情况的方法和系统
CN107451218A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 网评自动发布方法及装置
CN107451218B (zh) * 2017-07-17 2020-04-03 云润大数据服务有限公司 网评自动发布方法及装置
CN113254574A (zh) * 2021-03-15 2021-08-13 河北地质大学 一种机关公文辅助生成方法、装置以及系统
CN113590999A (zh) * 2021-06-23 2021-11-02 小铁世纪(成都)科技有限公司 一种基于小程序的自适应内容识别及发布系统

Similar Documents

Publication Publication Date Title
CN102096705A (zh) 一种文章采集的方法
CN102930059B (zh) 一种聚焦爬虫的设计方法
CN102446225A (zh) 一种实时搜索的方法、装置和系统
CN103617169A (zh) 一种基于Hadoop的微博热点话题提取方法
CN103838785A (zh) 一种专利领域的垂直搜索引擎
CN105677918A (zh) 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法
CN102567494B (zh) 网站分类方法及装置
CN103955543A (zh) 基于多模态的服装图像检索方法
CN102662965A (zh) 一种自动发现互联网热点新闻主题的方法及系统
CN102708174A (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN102012936B (zh) 基于云计算平台的海量数据聚合方法和系统
CN105045932A (zh) 一种基于降序存储的数据分页查询方法
CN101833587A (zh) 网络视频搜索系统
CN102637172A (zh) 网页分块标注方法与系统
CN104021483A (zh) 旅客需求推荐方法
CN105550375A (zh) 一种异构数据的整合方法及系统
CN102253939A (zh) 一种基于云计算技术的搜索方法及系统
CN102073641A (zh) 对消费者生成媒体信息进行处理的方法、装置和程序
CN103198078B (zh) 一种互联网新闻事件报道趋势分析方法及系统
CN104281578A (zh) 数据文件的地域标记方法以及装置
CN103440328B (zh) 一种基于鼠标行为的用户分类方法
CN104298669A (zh) 一种基于社交网络的人员地理信息挖掘模型
CN106033428A (zh) 统一资源定位符的选择方法和统一资源定位符的选择装置
Kim et al. TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme
CN103605770A (zh) 网页模板生成方法和服务器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB02 Change of applicant information

Address after: 362000 Fujian city of Quanzhou province Quanxiu Street modern square modern furniture enterprise office building on the eighth floor

Applicant after: Linewell Software Co., Ltd.

Address before: The lake of Quanzhou city of Fujian Province, 362000 West Street No. 492 East Lake community building two floor

Applicant before: Linewell Software Co., Ltd.

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110615