CN104317857B - 一种房屋信息采集服务系统 - Google Patents

一种房屋信息采集服务系统 Download PDF

Info

Publication number
CN104317857B
CN104317857B CN201410545328.1A CN201410545328A CN104317857B CN 104317857 B CN104317857 B CN 104317857B CN 201410545328 A CN201410545328 A CN 201410545328A CN 104317857 B CN104317857 B CN 104317857B
Authority
CN
China
Prior art keywords
website
website crawler
service
module
crawler
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410545328.1A
Other languages
English (en)
Other versions
CN104317857A (zh
Inventor
璐惧博
贾岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yi map Touchplus information Corp
Original Assignee
Shenzhen Yi Map Touchplus Information Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yi Map Touchplus Information Corp filed Critical Shenzhen Yi Map Touchplus Information Corp
Priority to CN201410545328.1A priority Critical patent/CN104317857B/zh
Publication of CN104317857A publication Critical patent/CN104317857A/zh
Application granted granted Critical
Publication of CN104317857B publication Critical patent/CN104317857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明公开了一种房屋信息采集服务系统,包括:网站爬虫组件,用于针对一个网站的抓取工作,针对网站的页面元素与特点进行专门的解析,完成数据抽取后,映射到对应的数据实体当中,再交给网站爬虫服务模块进行数据的保存;监控服务模块,用于监控网站爬虫服务模块的工作情况,及各个网站爬虫组件的工作情况,及时发现网站爬虫组件是否工作正常,抓取的数据是否正确;管理服务模块,用于整个网站爬虫服务的管理与配置;部署服务模块,用于升级了网站爬虫组件后部署升级网站爬虫组件;调度服务模块,用于调度网站爬虫服务里面的网站爬虫组件如何工作、什么时候工作、什么时候停止。以解决对抓取目标的描述或定义、对网页或数据的分析与过滤、对URL的搜索策略的问题。

Description

一种房屋信息采集服务系统
技术领域
本发明涉及数据网络技术领域,尤其涉及一种房屋信息采集服务系统。
背景技术
网络爬虫是一个自动提取网页的程序,为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL(Uniform Resoure Locator,统一资源定位器)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。其中,聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
目前系统所需要的房产信息网络爬虫是一种聚焦爬虫,它只关注有房产信息的页面,相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题:1、对抓取目标的描述或定义;2、对网页或数据的分析与过滤;3、对URL的搜索策略。
发明内容
为了解决背景技术中存在的技术问题,本发明提出了一种房屋信息采集服务系统,以解决对抓取目标的描述或定义、对网页或数据的分析与过滤、对URL的搜索策略的问题。
本发明提出的一种房屋信息采集服务系统,包括:
网站爬虫组件,用于针对一个网站的抓取工作,针对网站的页面元素与特点进行专门的解析,完成数据抽取后,映射到对应的数据实体当中,再交给网站爬虫服务模块进行数据的保存;
监控服务模块,用于监控网站爬虫服务模块的工作情况,及各个网站爬虫组件的工作情况,及时发现网站爬虫组件是否工作正常,抓取的数据是否正确;
管理服务模块,用于整个网站爬虫服务的管理与配置;
部署服务模块,用于升级了网站爬虫组件后部署升级网站爬虫组件;
调度服务模块,用于调度网站爬虫服务里面的网站爬虫组件如何工作、什么时候工作、什么时候停止。
优选地,所述网站爬虫组件,还用于在抓取的网站它的页面元素与认证模式等发生变化时,进行相应的升级改造。
优选地,所述管理服务模块用于对服务的启动与停止,网站爬虫组件的生命周期管理。
优选地,所述网站爬虫组件基于多线程。
优选地,所述所述网站爬虫组件具体工作流程包括:
向服务器发送自己设定好请求;
通过http将Web服务器上站点的网页代码提取出来;
根据一定的正则表达式提取出所需要的信息;
广度优先搜索从网页中某个链接出发,访问该链接网页上的所有链接,访问完成后,再通过递归算法实现下一层的访问。
本发明中,基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页;根据种子样本获取方式可分为:预先给定的初始抓取种子样本;预先给定的网页分类目录和与分类目录对应的种子样本;通过用户行为确定的抓取目标样例,分为:用户浏览过程中显示标注的抓取样本;通过用户日志挖掘得到访问模式及相关样本。其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征等。以解决对抓取目标的描述或定义、对网页或数据的分析与过滤、对URL的搜索策略的问题。
附图说明
图1为本发明实施例提出的一种房屋信息采集服务系统结构图;
图2为本发明中网站爬虫组件的具体工作流程图。
具体实施方式
如图1所示,本发明实施例提出了一种房屋信息采集服务系统,包括:
网站爬虫组件10,用于针对一个网站的抓取工作,针对网站的页面元素与特点进行专门的解析,完成数据抽取后,映射到对应的数据实体当中,再交给网站爬虫服务模块进行数据的保存。网站爬虫组件是网站爬虫服务当中的最容易变动的部分,如果抓取的网站它的页面元素与认证模式等发生变化,那么对应的网站爬虫组件就要进行相应的升级改造,以保证抓取内容的准确性。
监控服务模块20,用于监控网站爬虫服务模块的工作情况,及各个网站爬虫组件的工作情况,及时发现网站爬虫组件是否工作正常,抓取的数据是否正确,以便运维与开发人员及时进行网站掉组件的升级。
管理服务模块30,用于整个网站爬虫服务的管理与配置,如相关参数的设置,服务的启动与停止,网站爬虫组件的生命周期管理等。
部署服务模块40,用于提升网站爬虫组件的部署方便性,开发人员升级了网站爬虫组件后可以通过部署服务模块40方便地部署升级网站爬虫组件。由于网站爬虫组件都是针对专门的网站而定制的,如网站发生变化,那么对应的网站爬虫组件也必须得发生相应的升级,以保证抓取到准确的数据。
调度服务模块50,用于调度网站爬虫服务里面的网站爬虫组件如何工作,什么时候工作,什么时候停止等。
其中,网站爬虫组件基于多线程,具体工作流程如图2所示,包括:向服务器发送自己设定好请求;通过http将Web服务器上站点的网页代码提取出来;根据一定的正则表达式提取出所需要的信息;广度优先搜索从网页中某个链接出发,访问该链接网页上的所有链接,访问完成后,再通过递归算法实现下一层的访问。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (4)

1.一种房屋信息采集服务系统,其特征在于,包括:
网站爬虫组件,用于针对一个网站的抓取工作,针对网站的页面元素与特点进行专门的解析,完成数据抽取后,映射到对应的数据实体当中,再交给网站爬虫服务模块进行数据的保存;
监控服务模块,用于监控网站爬虫服务模块的工作情况,及各个网站爬虫组件的工作情况,及时发现网站爬虫组件是否工作正常,抓取的数据是否正确;
管理服务模块,用于整个网站爬虫服务的管理与配置;
部署服务模块,用于升级了网站爬虫组件后部署升级网站爬虫组件;
调度服务模块,用于调度网站爬虫服务里面的网站爬虫组件如何工作、什么时候工作、什么时候停止;
所述网站爬虫组件具体工作流程包括:
向服务器发送自己设定好的请求;
通过http将Web服务器上站点的网页代码提取出来;
根据一定的正则表达式提取出所需要的信息;
广度优先搜索从网页中某个链接出发,访问该链接网页上的所有链接,访问完成后,再通过递归算法实现下一层的访问。
2.根据权利要求1所述的房屋信息采集服务系统,其特征在于,所述网站爬虫组件,还用于在抓取的网站它的页面元素与认证模式发生变化时,进行相应的升级改造。
3.根据权利要求1所述的房屋信息采集服务系统,其特征在于,所述管理服务模块用于对服务的启动与停止,网站爬虫组件的生命周期进行管理。
4.根据权利要求1所述的房屋信息采集服务系统,其特征在于,所述网站爬虫组件基于多线程。
CN201410545328.1A 2014-10-15 2014-10-15 一种房屋信息采集服务系统 Active CN104317857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410545328.1A CN104317857B (zh) 2014-10-15 2014-10-15 一种房屋信息采集服务系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410545328.1A CN104317857B (zh) 2014-10-15 2014-10-15 一种房屋信息采集服务系统

Publications (2)

Publication Number Publication Date
CN104317857A CN104317857A (zh) 2015-01-28
CN104317857B true CN104317857B (zh) 2019-03-22

Family

ID=52373089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410545328.1A Active CN104317857B (zh) 2014-10-15 2014-10-15 一种房屋信息采集服务系统

Country Status (1)

Country Link
CN (1) CN104317857B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294393A (zh) * 2015-05-20 2017-01-04 天脉聚源(北京)科技有限公司 一种网络搜索的方法和系统
CN105868564A (zh) * 2016-04-05 2016-08-17 苏州联康网络有限公司 疾病的就诊医院推荐系统
CN109145233A (zh) * 2018-08-27 2019-01-04 山东浪潮商用系统有限公司 互联网信息采集系统
CN110472120A (zh) * 2019-07-25 2019-11-19 厦门快商通科技股份有限公司 一种基于社交网络的租房信息收集方法及系统
CN111310012A (zh) * 2020-01-21 2020-06-19 国网安徽省电力有限公司滁州供电公司 一种企业失信行为自动监测预警方法
CN111881335A (zh) * 2020-07-28 2020-11-03 芯薇(上海)智能科技有限公司 一种基于爬虫技术的多任务处理系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1924915A (zh) * 2006-09-20 2007-03-07 中山大学 基于数据仓库技术的图书馆智能管理系统
KR20110057644A (ko) * 2009-11-24 2011-06-01 한국과학기술정보연구원 연구자의 연구정보 분석 장치 및 그 방법 그리고 방법에 관한 컴퓨터가 실행할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
WO2013104181A1 (zh) * 2012-01-11 2013-07-18 华为技术有限公司 管理资源的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1924915A (zh) * 2006-09-20 2007-03-07 中山大学 基于数据仓库技术的图书馆智能管理系统
KR20110057644A (ko) * 2009-11-24 2011-06-01 한국과학기술정보연구원 연구자의 연구정보 분석 장치 및 그 방법 그리고 방법에 관한 컴퓨터가 실행할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
WO2013104181A1 (zh) * 2012-01-11 2013-07-18 华为技术有限公司 管理资源的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
互联网舆情监控系统中聚焦爬虫的设计与实现;王旭;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110915;第1-59页

Also Published As

Publication number Publication date
CN104317857A (zh) 2015-01-28

Similar Documents

Publication Publication Date Title
CN104317857B (zh) 一种房屋信息采集服务系统
KR102317535B1 (ko) 소프트웨어 개발 키트로 데이터 추적을 구현하는 방법 및 시스템
CN104615852B (zh) 针对保障网上预约挂号秩序及提高号源使用效率的方法
Turvey et al. Interview‐based sighting histories can inform regional conservation prioritization for highly threatened cryptic species
CN103605715B (zh) 用于多个数据源的数据整合处理方法和装置
US20140245438A1 (en) Download resource providing method and device
CN103077250B (zh) 一种网页内容抓取方法及装置
CN109450879A (zh) 用户访问行为监控方法、电子装置和计算机可读存储介质
CN103246726B (zh) 一种网络信息的搜索方法、装置和系统
US11550937B2 (en) Privacy trustworthiness based API access
CN103049451B (zh) 网络内容更新的跟踪方法和装置
CN107766470B (zh) 一种数据分享的智能统计方法、智能统计显示方法及装置
US8082291B2 (en) Identifying relevant data from unstructured feeds
CN110519263A (zh) 防刷量方法、装置、设备及计算机可读存储介质
McCord et al. Adaptive monitoring in support of adaptive management in rangelands
US20160277422A9 (en) System and method for detecting final distribution site and landing site of malicious code
JP5436309B2 (ja) データ処理装置及びデータ処理方法及びプログラム
CN108121743A (zh) 一种通用网页模版的生成和使用方法、系统
CN108038233B (zh) 一种采集文章的方法、装置、电子设备及存储介质
CN106528569B (zh) 计算站内搜索有效度的方法及装置
Ferraz et al. Biological monitoring in the Amazon: recent progress and future needs
US9756064B2 (en) Apparatus and method for collecting harmful website information
CN110069691A (zh) 用于处理点击行为数据的方法和装置
Shobe et al. On mapping releases to commits in open source systems
Liew et al. Performance database: capturing data for optimizing distributed streaming workflows

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180914

Address after: 102600 3 floor, 2 building, No. 4 Daxing District Garden Road, Beijing, 1 unit 317

Applicant after: Beijing informed investment home intellectual property rights Operation Co., Ltd.

Address before: 230000 A502, National Science and Technology Park, 602 Mount Huangshan Road, Hefei high tech Zone, Anhui

Applicant before: Anhui Huazhen Information Science & Technology Co., Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190226

Address after: 518000 Jiurun Building, 36 Xianglin Road, Futian District, Shenzhen City, Guangdong Province, 2-5 floors

Applicant after: Shenzhen Yi map Touchplus information Corp

Address before: 102600 3 floor, 2 building, No. 4 Daxing District Garden Road, Beijing, 1 unit 317

Applicant before: Beijing informed investment home intellectual property rights Operation Co., Ltd.

GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 518000 floor 14-15, block a, building 10, Shenzhen Bay science and technology ecological park, No. 10, Gaoxin South 9th Road, high tech Zone community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: SHENZHEN ETOP INFORMATION Co.,Ltd.

Address before: 518000 Guangdong city of Shenzhen province Futian District Road No. 36 building, nine incense run 2 to 5

Patentee before: SHENZHEN ETOP INFORMATION Co.,Ltd.