CN112199570A - 基于网络爬虫的房地产信息可视化分析系统和方法 - Google Patents

基于网络爬虫的房地产信息可视化分析系统和方法 Download PDF

Info

Publication number
CN112199570A
CN112199570A CN202011176388.2A CN202011176388A CN112199570A CN 112199570 A CN112199570 A CN 112199570A CN 202011176388 A CN202011176388 A CN 202011176388A CN 112199570 A CN112199570 A CN 112199570A
Authority
CN
China
Prior art keywords
information
real estate
house
screening
estate information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011176388.2A
Other languages
English (en)
Inventor
龙非池
夏煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Shake Big Data Co ltd
Original Assignee
Chongqing Shake Big Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Shake Big Data Co ltd filed Critical Chongqing Shake Big Data Co ltd
Priority to CN202011176388.2A priority Critical patent/CN112199570A/zh
Publication of CN112199570A publication Critical patent/CN112199570A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/909Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/16Real estate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于网络爬虫的房地产信息可视化分析系统和方法,其中,系统包括:数据处理模块、检索模块和可视化显示模块;所述数据处理模块、检索模块和所述可视化显示模块之间通信连接;所述数据处理模块用于采集房地产信息,并对所述房地产信息进行筛选,获取一级筛选数据集;所述检索模块用于输入检索信息,并根据所述检索信息依次进行二级筛选和三级筛选,分别获取二级筛选数据集和三级筛选数据集;所述可视化显示模块用于将所述三级筛选数据集中的的房地产信息显示于电子地图上。本发明能够提高输出房地产信息的有效性和针对性,满足检索者的个性化需求。

Description

基于网络爬虫的房地产信息可视化分析系统和方法
技术领域
本发明涉及可视化系统技术领域,尤其涉及一种基于网络爬虫的房地产信息可视化分析系统和方法。
背景技术
随着互联网的发展,网上租房信息和新开发楼盘信息已成为主流的查看房产信息的途径,网上房地产信息系统为购房者/租房者和房地产公司/房东牵线搭桥,为双方最大限度地提供了便利。
然而,购房者/租房者面对海量的房地产信息/租房信息,他们可能花大量的时间也难以找到合适的房子。一些租房/购房网站推出了基于关键词列表的房产信息搜索器,允许注册的用户订阅多个这样的搜索器,网站房产信息系统根据用户描述向用户发布租房/房产信息,向用户发布租房/房产信息时,多以列表文字的形式进行罗列展现,直观表达不够清晰,且对于有固定工作地点的租房/购房者,如何满足其个性化需求,在满足搜索要求的同时,按照到达目的地方便程度个性化、可视化推荐展示是目前急需解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种基于网络爬虫的房地产信息可视化分析系统。
一种基于网络爬虫的房地产信息可视化分析系统,包括:数据处理模块、检索模块和可视化显示模块;所述数据处理模块、检索模块和所述可视化显示模块之间通信连接;所述数据处理模块用于采集房地产信息,并对所述房地产信息进行筛选,获取一级筛选数据集;所述检索模块用于输入检索信息,并根据所述检索信息在所述一级筛选数据集中进行二级筛选,获取二级筛选数据集;所述检索信息中还包含有目的地要求信息,所述二级筛选数据集中的房地产信息包含有房屋地点信息,根据所述目的地要求信息匹配对应的房屋地点信息,获取三级筛选数据集;所述可视化显示模块用于将所述三级筛选数据集中的的房地产信息显示于电子地图上。
在其中一个实施例中,所述数据处理模块包括:数据采集单元、数据提取单元和数据清洗单元;所述数据采集单元、数据提取单元和数据清洗单元之间通信连接;所述数据采集单元用于通过网络爬虫技术在网络上采集目标数据源;所述数据提取单元用于提取所述目标数据源中的房地产信息,构成房地产信息数据集,所述房地产信息包括有房屋所在地、房屋小区名称、房屋面积和房屋价格中的至少三个数据且必包含有房地产类别;所述数据清洗单元中预存有房地产分类表,根据所述房地产分类表对所述房地产信息数据集中的房地产信息进行分类,过滤其中重复的房地产信息,形成一级筛选数据集,所述一级筛选数据集中的房地产信息为一级房地产信息。
在其中一个实施例中,若所述一级房地产信息中包括有房屋所在地,重复的房地产信息为房屋所在地、房地产类别和房屋小区名称均相同的房地产信息;若所述一级房地产信息中不包括房屋所在地,重复的房地产信息为房屋小区名称、房屋面积和房地产类别均相同的房地产信息。
在其中一个实施例中,所述检索模块包括:检索输入单元、信息匹配单元、房屋地点识别单元、目的地限定单元、要求输入单元和信息筛选单元;所述检索输入单元、信息匹配单元、房屋地点识别单元、目的地限定单元、要求输入单元和信息筛选单元之间均通信连接;所述检索输入单元用于输入检索信息;所述信息匹配单元与所述数据清洗单元通信连接,用于获取检索者输入的检索信息,并在所述一级筛选数据集中筛选与所述检索信息匹配的一级房地产信息,形成二级筛选数据集,所述二级筛选数据集中的房地产信息为二级房地产信息;所述房屋地点识别单元用于识别所述二级房地产信息对应的房屋所在地或房屋小区名称,作为房屋地点信息;所述目的地限定单元,用于检索者输入目的地信息;所述要求输入单元用于输入交通要求信息;所述信息筛选单元用于结合所述目的地信息和所述交通要求信息筛选出符合要求的房屋地点信息,所述房屋地点信息对应的二级房地产信息形成三级筛选数据集,所述三级筛选数据集中的房地产信息为三级房地产信息。
在其中一个实施例中,所述检索输入单元包括:地名输入框、房屋价格输入框、房屋房型输入框和房屋类型输入框;所述地名输入框包括有按照被包含关系由大至小设置的省、市、详细地址的既定关键词选项;房屋房型输入框包括有一室、两室、三室、四室和五室及以上的既定关键词选项;所述房屋类型输入框包括有普通住宅、公寓和别墅的既定关键词选项。
在其中一个实施例中,所述要求输入单元包括交通工具限定框和交通要求限定框,所述交通工具限定框的优先级优先于所述交通要求限定框;所述交通工具限定框包括有公共交通、自驾、出租车和不限的既定关键词选项;所述交通要求限定框包括有时间要求、路程要求、收费要求的既定关键词选项。
在其中一个实施例中,所述可视化显示模块与所述信息筛选单元通信连接,并根据所述目的地信息将所述三级房地产信息显示于电子地图上。
一种基于网络爬虫的房地产信息可视化分析方法,包括以下步骤:采集房地产信息,对所述房地产信息进行一级筛选,获取一级筛选数据集,所述一级筛选数据集中的房地产信息为一级房地产信息;获取检索信息,根据所述检索信息在所述一级筛选数据集中进行二级筛选,获取二级筛选数据集,所述二级筛选数据集中的房地产信息为二级房地产信息;识别所述检索信息中的目的地信息和交通要求信息并获取所述二级房地产信息中的房屋地点信息,根据所述目的地信息和所述交通要求信息对所述房屋地点信息进行三级筛选,筛选出的房屋地点信息对应的二级房地产信息形成三级筛选数据集,所述三级筛选数据集中的房地产信息为三级房地产信息;将所述三级筛选数据集中的三级房地产信息显示于电子地图上。
在其中一个实施例中,所述采集房地产信息,对所述房地产信息进行一级筛选,获取一级筛选数据集之前,还包括:预存初始房地产分类表;在相同时间间隔内采用网络爬虫技术在房源网站上采集目标数据源;提取所述目标数据源中的房地产类别名称,剔除与所述初始房地产分类表中相同的房地产类别名称,得到预筛选房地产类别集;判断与所述预筛选房地产类别集中的房地产类别名称和初始房地产分类表中的房地产类别名称的相似度,按照所述相似度由低至高对所述预筛选房地产类别集进行重新排列,判断重新排列的所述预筛选房地产类别集中的房地产类别名称是否为新的房地产类别名称,若不是新的房地产类别名称,则删除所述房地产类别名称并停止判断;若是新的房地产类别名称,则所述房地产类别名称加入所述初始房地产分类表,获取房地产分类表。
在其中一个实施例中,所述识别所述检索信息中的目的地信息和交通要求信息并获取所述二级房地产信息中的房屋地点信息具体包括:若所述二级房地产信息中包含有房屋所在地时,判断所述房屋所在地是否为具体地址,若所述房屋所在地是具体地址,则以所述房屋所在地为房屋地点信息;若所述房屋所在地不是具体地址,而是具体地址的上位地址,则以所述上位地址范围内的最优地点作为房屋地点信息,并将所述房屋所在地对应的二级房地产信息标注为模糊信息;其中,所述最优地点的确定具体为:所述最优地点根据所述交通要求信息中的既定关键词选项确定;所述既定关键词选项包括有交通工具、时间、路程和收费;若既定关键词选项为时间,则以既定交通工具下,到达目的地信息中的目的地时间最短的地点作为最优地点;若既定关键词选项为路程,则以既定交通工具下,到达目的地信息中的目的地路程最短的地点作为最优地点;若既定关键词选项为收费,则以既定交通工具下,到达目的地信息中的目的地收费最少的地点作为最优地点。
上述基于网络爬虫的房地产信息可视化分析系统,能够根据数据处理模块对房地产信息进行获取并进行一级筛选,获取一级筛选数据集,检索模块输入检索信息,根据检索信息对一级筛选数据集进行二级筛选,获取二级筛选数据集,检索信息包含有目的地信息,在二级筛选数据集中筛选出符合目的地信息的数据,获取三级筛选数据集,最后通过可视化显示模块在电子地图上显示三级筛选数据集,能够根据检索者的目的地对房地产信息进行对应的筛选,提高输出房地产信息的有效性和针对性,满足检索者的个性化需求。
附图说明
图1为一个实施例中基于网络爬虫的房地产信息可视化分析系统的结构示意图;
图2为图1中数据处理模块的结构示意图;
图3为图1中检索模块的结构示意图;
图4为图3中检索输入单元的结构示意图;
图5为图3中要求输入单元的结构示意图;
图6为一个实施例中基于网络爬虫的房地产信息可视化分析方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面通过具体实施方式结合附图对本发明做进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在一个实施例中,如图1所示,提供了一种基于网络爬虫的房地产信息可视化分析系统,该基于网络爬虫的房地产信息可视化分析系统1包括:数据处理模块10、检索模块20和可视化显示模块30;数据处理模块10、检索模块20和可视化显示模块30之间通信连接;数据处理模块10用于采集房地产信息,并对房地产信息进行筛选,获取一级筛选数据集;检索模块20用于输入检索信息,并根据检索信息在一级筛选数据集中进行二级筛选,获取二级筛选数据集;检索信息中还包含有目的地要求信息,二级筛选数据集中的房地产信息包含有房屋地点信息,根据目的地要求信息匹配对应的房屋地点信息,获取三级筛选数据集;可视化显示模块30用于将三级筛选数据集中的房地产信息显示于电子地图上。
在本实施例中,能够根据数据处理模块10对房地产信息进行获取并进行一级筛选,获取一级筛选数据集,检索模块20输入检索信息,根据检索信息对一级筛选数据集进行二级筛选,获取二级筛选数据集,检索信息包含有目的地信息,在二级筛选数据集中筛选出符合目的地信息的数据,获取三级筛选数据集,最后通过可视化显示模块30在电子地图上显示三级筛选数据集,能够根据检索者的目的地对房地产信息进行对应的筛选,提高输出数据的有效性和针对性,满足检索者的个性化需求。
如图2所示,数据处理模块10包括:数据采集单元11、数据提取单元12和数据清洗单元13;数据采集单元11、数据提取单元12和数据清洗单元13之间通信连接;数据采集单元11用于通过网络爬虫技术在网络上采集目标数据源;数据提取单元12用于提取目标数据源中的房地产信息,构成房地产信息数据集;房地产信息数据集包括有多条房地产信息,房地产信息包括房屋所在地、房屋小区名称、房屋面积和房屋价格中的至少三个数据且必包含有房地产类别;数据清洗单元13中预存有房地产分类表,根据房地产分类表对房地产信息数据集中的房地产信息进行分类,过滤其中重复的房地产信息,形成一级筛选数据集,一级筛选数据集中的房地产信息为一级房地产信息。
具体地,数据采集单元11可以在各大房产资源网站,例如,安居客和到家了等网站中采集目标数据源。由于网站中含有的房屋信息时原始的非结构化网页,其中包含有广告等无关信息,数据提取单元12可以采用行块分布函数方法剔除无关信息,然后从非结构化的数据中准确地提取结构化的数据,形成房地产信息数据集。
具体地,房地产信息中包括有房屋所在地时,重复的房地产信息为房屋所在地、房屋类别和房屋小区名称均相同的房地产信息;若房地产信息中不包括房屋所在地时,重复的房地产信息为房屋小区名称、房屋面积和房屋类型均相同的房地产信息。
如图3所示,检索模块20包括:检索输入单元21、信息匹配单元22、房屋地点识别单元23、目的地限定单元24、要求输入单元25和信息筛选单元26;检索输入单元21、信息匹配单元22、房屋地点识别单元23、目的地限定单元24、要求输入单元25和信息筛选单元26之间均通信连接;检索输入单元21用于输入检索信息;信息匹配单元22与数据清洗单元13通信连接,用于获取检索者输入的检索信息,并在一级筛选数据集中筛选与检索信息匹配的房地产信息,形成二级筛选数据集,二级筛选数据集中的房地产信息为二级房地产信息;房屋地点识别单元23用于识别二级房地产信息对应的房屋所在地或房屋小区名称,作为房屋地点信息;目的地限定单元24,用于检索者输入目的地信息;要求输入单元25用于输入交通要求信息;信息筛选单元26用于结合目的地信息和交通要求信息筛选出符合要求的房屋地点信息,该房屋地点信息对应的二级房地产信息形成三级筛选数据集,三级筛选数据集中的房地产信息为三级房地产信息。
其中,目的地信息和交通要求信息即为目的地要求信息。
其中,如图4所示,检索输入单元21包括:地名输入框211、房屋价格输入框212、房屋房型输入框213和房屋类型输入框214;地名输入框211包括有按照被包含关系由大至小设置的省、市、详细地址的既定关键词选项;房屋房型输入框213包括有一室、两室、三室、四室和五室及以上的既定关键词选项;房屋类型输入框214包括有普通住宅、公寓和别墅的既定关键词选项。
具体地,一级房地产信息还包括有限定信息,限定信息包括房屋朝向,是否具有电梯和是否靠近地铁站或公交站的限定条件中的至少一种;因此,检索输入单元21还可以包括有:房屋朝向输入框、是否具有电梯的选项框和是否靠近地铁站或公交站的选项框。
具体地,检索信息可以如下表1所示:
表1
房屋位置 房屋类型 房屋价格 房屋房型 房屋朝向
重庆渝北 普通住宅 1500-2000 二室 朝东
因此,可以依据表1中的检索信息对一级筛选数据集中的一级房地产信息进行筛选,筛选满足房屋位置在重庆渝北区、房屋类型为普通住宅、房屋价格为1500-2000、房屋房型为二室且房屋朝向为朝东的房地产信息,从而形成二级筛选数据集。
其中,如图5所示,要求输入单元25包括有交通工具限定框251和交通要求限定框252,交通工具限定框251的优先级优先于交通要求限定框252;交通工具限定框251包括有公共交通、自驾、出租车和不限的既定关键词选项;交通要求限定框252包括有时间要求、路程要求和收费要求的既定关键词选项。
具体地,交通要求信息可以入下表2所示:
表2
Figure BDA0002748786480000071
其中,检索者可以根据目的地限定单元24输入目的地信息,该目的地信息可以是检索者的工作地点;同时结合要求输入单元25的交通要求信息,进一步地限定房屋地点信息,形成三级筛选数据集。
具体地,例如检索者的交通要求信息为要求信息1时,即检索者从房屋地点自驾到目的地的时间要短于1h,信息筛选单元26需要在二级筛选数据集中筛选出到目的地自驾不超过1小时的房屋地点信息,筛选出的符合要求的房屋地点信息对应的二级房地产信息就形成三级筛选数据集。
根据交通要求信息筛选出符合要求信息的房地产信息,形成三级筛选数据集具体为:
当交通要求信息为要求信息1时,判断以自驾作为交通工具的条件下,单程由房屋地点信息中的位置到目的地信息中的位置的时间是否短于1h,若是,则将该房屋地点信息对应的二级房地产信息认定为三级筛选信息,其中,自驾时间长短的判断依据正常交通进行判断;
当交通要求信息为要求信息2时,判断在不限交通工具的条件下,单程由房屋地点信息中的位置到目的地信息中的位置的最低费用是否少于10元,若是,则将该房屋地点信息对应的二级房地产信息认定为三级筛选信息,其中,不限交通工具时最低费用的判断为使用自驾、出租车和公共交通三种交通方式依次判断后比较的结果;
当交通要求信息为要求信息3时,判断是否存在以公共交通作为交通工具的条件,存在以公共交通作为交通工具的条件具体可设定为存在地铁或公交,且人行走距离小于预定距离(具体可为2千米);使用过程中,利用数据处理模块10获得一级筛选数据集,利用检索模块20获得三级筛选数据集,将三级筛选数据集对应的三级房地产信息通过可视化显示模块30进行显示。
在本实施例中,能够在满足检索者搜索要求的同时,按照达到目的地的方便程度进行个性化、可视化推荐展示,具体为:通过数据清洗单元13、信息匹配单元22和信息筛选单元26配合逐步实现三级筛选,第一步剔除无效重复数据,第二步,剔除不满足检索者要求的数据,提高输出数据的有效性,第三步,个性化判断目的地与房屋地点间的关系,进行三级筛选,满足在目的地固定时检索者的个性化需求。
在一个实施例中,房地产信息还包括发布时间,数据清洗单元13在过滤重复的房地产信息前,还包括剔除发布时间长于一个月的房地产信息,从而进一步剔除无效信息。
其中,可视化显示模块30与信息筛选单元26通信连接,并根据目的地信息将三级房地产信息显示于电子地图上。
如图6所示,提供了一种基于网络爬虫的房地产信息可视化分析方法,包括以下步骤:
步骤S601,采集房地产信息,对房地产信息进行一级筛选,获取一级筛选数据集,一级筛选数据集中的房地产信息为一级房地产信息。
步骤S602,获取检索信息,根据检索信息在一级筛选数据集中进行二级筛选,获取二级筛选数据集,二级筛选数据集中的房地产信息为二级房地产信息。
步骤S603,识别检索信息中的目的地信息和交通要求信息并获取二级房地产信息中的房屋地点信息,根据目的地信息和交通要求信息对房屋地点信息进行三级筛选,筛选出的房屋地点信息对应的二级房地产信息形成三级筛选数据集,三级筛选数据集中的房地产信息为三级房地产信息。
步骤S604,将三级筛选数据集中的三级房地产信息显示于电子地图上。
在本实施例中,通过采集房地产信息,并对房地产信息的重复信息进行筛选剔除,形成一级筛选数据集,再根据检索信息依次进行二级筛选和三级筛选,获得经过三个级别筛选的房地产信息,从而能够提高输出数据的有效性和针对性,满足检索者的个性化需求。
在一个实施例中,步骤S601之前还包括:预存初始房地产分类表;在相同时间间隔内采用网络爬虫技术在房源网站上采集目标数据源;提取目标数据源中的房地产类别名称,剔除与初始房地产分类表中相同的房地产类别名称,得到预筛选房地产类别集;判断与预筛选房地产类别集中的房地产类别名称和初始房地产分类表中的房地产类别名称的相似度,按照相似度由低至高对预筛选房地产类别集进行重新排列,判断重新排列的预筛选房地产类别集中的房地产类别名称是否为新的房地产类别名称,若是新的房地产类别名称,则所述房地产类别名称加入所述初始房地产分类表,获取房地产分类表;若不是新的房地产类别名称,则删除所述房地产类别名称并停止判断。
具体地,可以通过人工判断重新排列的预筛选房地产类别集中的房地产类别名称是否为新的房地产类别名称,若为新的房地产类别名称,将该房地产类别名称加入初始房地产分类表;若不为新的房地产类别名称,则删除该房地产类别名称并停止判断。或者也可以,预设标准相似度,将低于该标准相似度的房地产类别名称均认定为新的房地产类别名称,并将新的房地产类别名称加入初始房地产分类表;高于该标准相似度的房地产类别名称均删除。
在一个实施例中,步骤S603中的识别检索信息中的目的地信息和交通要求信息并获取二级房地产信息中的房屋地点信息具体包括:若二级房地产信息中包含有房屋所在地时,判断房屋所在地是否为具体地址,若房屋所在地是具体地址,则以房屋所在地为房屋地点信息;若房屋所在地不是具体地址,而是具体地址的上位地址,则以上位地址范围内的最优地点作为房屋地点信息,并将房屋所在地对应的二级房地产信息标注为模糊信息。
其中,最优地点的确定具体为:所述最优地点根据交通要求信息中的既定关键词选项确定;既定关键词选项包括有交通工具、时间路程和收费;若既定关键词选项为时间,则以既定交通工具下,到达目的地信息中的目的地时间最短的地点作为最优地点;若既定关键词选项为路程,则以既定交通工具下,到达目的地信息中的目的地路程最短的地点作为最优地点;若既定关键词选项为收费,则以既定交通工具下,到达目的地信息中的目的地收费最少的地点作为最优地点。
具体地,若二级房地产信息中包含有房屋所在地时,判断该房屋所在是否为具体地址(具体地址为能够定位至具体地点,例如门牌号或楼栋名称等,能够定位至具体位置的地址);若是,则以房屋所在地作为房屋地点信息;若该房屋所在地不为具体地址时,其应当为具体地址的上位地址,概括的为一较大范围,例如表1中呈现的重庆渝北,判断房屋所在地是否归属于重庆渝北的范围内,若是,则确定房屋所在地为房屋地点信息;
若房屋所在地不归属于重庆渝北的范围内,则以房屋所在地范围内的最优地点作为房屋地点信息,并标注为模糊信息,对应筛选的二级房地产信息作为模糊房地产信息,其中最优地点的确定依据现实要求限定框中既定关键词选项确定,若选项为时间,则以既定交通工具下,到达目的地时间最短的地点作为最优地点;若选项为路程,则以既定交通工具下,到达目的地路程最短的地点作为最优地点;若选项为收费,则以在既定交通工具下,到达目的地收费最少的地点作为最优地点;
当房屋地点信息为模糊信息时,交通要求信息为要求信息1时,判断以自驾为交通工具的条件下,单程由房屋地点到达目的地范围内(最优地点)的最短时间,并判断该时间是否短于1h,若是,则该房屋地点信息对应的二级房地产信息构成三级筛选数据集中的一条,其中,时间长短的判断依据正常交通进行判断。采用这种方案,确定房屋地点信息时,以工作地点为主导,并综合考虑房屋地点和工作地点之间的关系,在提高确定目的地信息准确度的条件下,允许模糊信息存在,有效避免检索漏项。
在一个实施例中,其他三级筛选房地产信息(区别于模糊房地产信息)按照符合程度渐变显示。采用这种方案,符合程度具体指满足要求信息的程度,如果交通要求限定框内设定的为时间要求,则按照时间长短渐变显示;如果交通要求限定框设定的为路程要去,则按照路程长短渐变显示;如果交通要求限定框内设定的为收费要求,则按照收费高低渐变显示。
在本实施例中,能够根据目的地信息和交通要求信息筛选出对应的三级房地产信息,并通过不同的方式进行渐变显示,使得检索者能够更加直观的对房地产信息进行区分。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
显然,本领域的技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在计算机存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以,本发明不限制于任何特定的硬件和软件结合。
以上内容是结合具体的实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于网络爬虫的房地产信息可视化分析系统,其特征在于,包括:数据处理模块、检索模块和可视化显示模块;所述数据处理模块、检索模块和所述可视化显示模块之间通信连接;所述数据处理模块用于采集房地产信息,并对所述房地产信息进行筛选,获取一级筛选数据集;所述检索模块用于输入检索信息,并根据所述检索信息在所述一级筛选数据集中进行二级筛选,获取二级筛选数据集;所述检索信息中还包含有目的地要求信息,所述二级筛选数据集中的房地产信息包含有房屋地点信息,根据所述目的地要求信息匹配对应的房屋地点信息,获取三级筛选数据集;所述可视化显示模块用于将所述三级筛选数据集中的的房地产信息显示于电子地图上。
2.根据权利要求1所述的基于网络爬虫的房地产信息可视化分析系统,其特征在于,所述数据处理模块包括:数据采集单元、数据提取单元和数据清洗单元;所述数据采集单元、数据提取单元和数据清洗单元之间通信连接;所述数据采集单元用于通过网络爬虫技术在网络上采集目标数据源;所述数据提取单元用于提取所述目标数据源中的房地产信息,构成房地产信息数据集,所述房地产信息包括有房屋所在地、房屋小区名称、房屋面积和房屋价格中的至少三个数据且必包含有房地产类别;所述数据清洗单元中预存有房地产分类表,根据所述房地产分类表对所述房地产信息数据集中的房地产信息进行分类,过滤其中重复的房地产信息,形成一级筛选数据集,所述一级筛选数据集中的房地产信息为一级房地产信息。
3.根据权利要求2所述的基于网络爬虫的房地产信息可视化分析系统,其特征在于,若所述一级房地产信息中包括有房屋所在地,重复的房地产信息为房屋所在地、房地产类别和房屋小区名称均相同的房地产信息;若所述一级房地产信息中不包括房屋所在地,重复的房地产信息为房屋小区名称、房屋面积和房地产类别均相同的房地产信息。
4.根据权利要求2所述的基于网络爬虫的房地产信息可视化分析系统,其特征在于,所述检索模块包括:检索输入单元、信息匹配单元、房屋地点识别单元、目的地限定单元、要求输入单元和信息筛选单元;所述检索输入单元、信息匹配单元、房屋地点识别单元、目的地限定单元、要求输入单元和信息筛选单元之间均通信连接;所述检索输入单元用于输入检索信息;所述信息匹配单元与所述数据清洗单元通信连接,用于获取检索者输入的检索信息,并在所述一级筛选数据集中筛选与所述检索信息匹配的一级房地产信息,形成二级筛选数据集,所述二级筛选数据集中的房地产信息为二级房地产信息;所述房屋地点识别单元用于识别所述二级房地产信息对应的房屋所在地或房屋小区名称,作为房屋地点信息;所述目的地限定单元,用于检索者输入目的地信息;所述要求输入单元用于输入交通要求信息;所述信息筛选单元用于结合所述目的地信息和所述交通要求信息筛选出符合要求的房屋地点信息,所述房屋地点信息对应的二级房地产信息形成三级筛选数据集,所述三级筛选数据集中的房地产信息为三级房地产信息。
5.根据权利要求4所述的基于网络爬虫的房地产信息可视化分析系统,其特征在于,所述检索输入单元包括:地名输入框、房屋价格输入框、房屋房型输入框和房屋类型输入框;所述地名输入框包括有按照被包含关系由大至小设置的省、市、详细地址的既定关键词选项;房屋房型输入框包括有一室、两室、三室、四室和五室及以上的既定关键词选项;所述房屋类型输入框包括有普通住宅、公寓和别墅的既定关键词选项。
6.根据权利要求4所述的基于网络爬虫的房地产信息可视化分析系统,其特征在于,所述要求输入单元包括交通工具限定框和交通要求限定框,所述交通工具限定框的优先级优先于所述交通要求限定框;所述交通工具限定框包括有公共交通、自驾、出租车和不限的既定关键词选项;所述交通要求限定框包括有时间要求、路程要求、收费要求的既定关键词选项。
7.根据权利要求4所述的基于网络爬虫的房地产信息可视化分析系统,其特征在于,所述可视化显示模块与所述信息筛选单元通信连接,并根据所述目的地信息将所述三级房地产信息显示于电子地图上。
8.一种基于网络爬虫的房地产信息可视化分析方法,其特征在于,包括以下步骤:
采集房地产信息,对所述房地产信息进行一级筛选,获取一级筛选数据集,所述一级筛选数据集中的房地产信息为一级房地产信息;
获取检索信息,根据所述检索信息在所述一级筛选数据集中进行二级筛选,获取二级筛选数据集,所述二级筛选数据集中的房地产信息为二级房地产信息;
识别所述检索信息中的目的地信息和交通要求信息并获取所述二级房地产信息中的房屋地点信息,根据所述目的地信息和所述交通要求信息对所述房屋地点信息进行三级筛选,筛选出的房屋地点信息对应的二级房地产信息形成三级筛选数据集,所述三级筛选数据集中的房地产信息为三级房地产信息;
将所述三级筛选数据集中的三级房地产信息显示于电子地图上。
9.根据权利要求8所述的基于网络爬虫的房地产信息可视化分析方法,其特征在于,所述采集房地产信息,对所述房地产信息进行一级筛选,获取一级筛选数据集之前,还包括:预存初始房地产分类表;在相同时间间隔内采用网络爬虫技术在房源网站上采集目标数据源;提取所述目标数据源中的房地产类别名称,剔除与所述初始房地产分类表中相同的房地产类别名称,得到预筛选房地产类别集;判断与所述预筛选房地产类别集中的房地产类别名称和初始房地产分类表中的房地产类别名称的相似度,按照所述相似度由低至高对所述预筛选房地产类别集进行重新排列,判断重新排列的所述预筛选房地产类别集中的房地产类别名称是否为新的房地产类别名称,若不是新的房地产类别名称,则删除所述房地产类别名称并停止判断;若是新的房地产类别名称,则将所述房地产类别名称加入所述初始房地产分类表,获取房地产分类表。
10.根据权利要求8所述的基于网络爬虫的房地产信息可视化分析方法,其特征在于,所述识别所述检索信息中的目的地信息和交通要求信息并获取所述二级房地产信息中的房屋地点信息具体包括:
若所述二级房地产信息中包含有房屋所在地时,判断所述房屋所在地是否为具体地址,若所述房屋所在地是具体地址,则以所述房屋所在地为房屋地点信息;若所述房屋所在地不是具体地址,而是具体地址的上位地址,则以所述上位地址范围内的最优地点作为房屋地点信息,并将所述房屋所在地对应的二级房地产信息标注为模糊信息;
其中,所述最优地点的确定具体为:所述最优地点根据所述交通要求信息中的既定关键词选项确定;所述既定关键词选项包括有交通工具、时间、路程和收费;若既定关键词选项为时间,则以既定交通工具下,到达目的地信息中的目的地时间最短的地点作为最优地点;若既定关键词选项为路程,则以既定交通工具下,到达目的地信息中的目的地路程最短的地点作为最优地点;若既定关键词选项为收费,则以既定交通工具下,到达目的地信息中的目的地收费最少的地点作为最优地点。
CN202011176388.2A 2020-10-29 2020-10-29 基于网络爬虫的房地产信息可视化分析系统和方法 Pending CN112199570A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011176388.2A CN112199570A (zh) 2020-10-29 2020-10-29 基于网络爬虫的房地产信息可视化分析系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011176388.2A CN112199570A (zh) 2020-10-29 2020-10-29 基于网络爬虫的房地产信息可视化分析系统和方法

Publications (1)

Publication Number Publication Date
CN112199570A true CN112199570A (zh) 2021-01-08

Family

ID=74011833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011176388.2A Pending CN112199570A (zh) 2020-10-29 2020-10-29 基于网络爬虫的房地产信息可视化分析系统和方法

Country Status (1)

Country Link
CN (1) CN112199570A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961589A (zh) * 2021-12-22 2022-01-21 中经未来(北京)传媒科技有限责任公司 一种互联网信息收集处理方法及系统
CN115204991A (zh) * 2022-09-14 2022-10-18 深圳市房帮帮互联网科技有限公司 基于网络爬虫的房地产信息可视化分析系统和方法
TWI811709B (zh) * 2021-06-21 2023-08-11 信義房屋股份有限公司 具有推薦功能的語音講解房屋裝置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182466A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种房库网系统
CN107729426A (zh) * 2017-09-28 2018-02-23 链家网(北京)科技有限公司 一种选房方法、装置、服务器及系统
CN109064243A (zh) * 2018-06-19 2018-12-21 链家网(北京)科技有限公司 房源搜索方法
CN111414522A (zh) * 2020-02-18 2020-07-14 北京网聘咨询有限公司 基于网络爬虫的招聘信息可视化分析系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182466A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种房库网系统
CN107729426A (zh) * 2017-09-28 2018-02-23 链家网(北京)科技有限公司 一种选房方法、装置、服务器及系统
CN109064243A (zh) * 2018-06-19 2018-12-21 链家网(北京)科技有限公司 房源搜索方法
CN111414522A (zh) * 2020-02-18 2020-07-14 北京网聘咨询有限公司 基于网络爬虫的招聘信息可视化分析系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI811709B (zh) * 2021-06-21 2023-08-11 信義房屋股份有限公司 具有推薦功能的語音講解房屋裝置
CN113961589A (zh) * 2021-12-22 2022-01-21 中经未来(北京)传媒科技有限责任公司 一种互联网信息收集处理方法及系统
CN115204991A (zh) * 2022-09-14 2022-10-18 深圳市房帮帮互联网科技有限公司 基于网络爬虫的房地产信息可视化分析系统和方法

Similar Documents

Publication Publication Date Title
CN105183869B (zh) 楼宇知识图谱数据库及其构建方法
CN112199570A (zh) 基于网络爬虫的房地产信息可视化分析系统和方法
JP5856618B2 (ja) 地理空間データベース統合方法、およびデバイス
CN111414522B (zh) 基于网络爬虫的招聘信息可视化分析系统
CN109299438B (zh) 一种基于网约车数据的公共交通设施供给水平评价方法
CN107609107A (zh) 一种基于多源城市数据的出行共现现象可视化分析方法
CN102097002A (zh) 一种基于ic卡数据获取公交站点od的方法及系统
KR20170025454A (ko) 소셜 미디어 데이터의 시공간 분석 시스템 및 방법
KR20130019629A (ko) 부동산 물건의 유형별 입지 및 상권 분석 서비스 제공 시스템, 방법 및 컴퓨터 판독 가능한 기록 매체
KR20140097805A (ko) 좌표(x, y)위치 값을 이용한 체계적인 블록번호 생성 및 그 이용한 주소매칭 서비스 방법
JP2002032773A (ja) 地図データの処理装置及び方法
KR20140050217A (ko) 키워드 연관 관계 시각화 제공 시스템 및 방법과, 이를 지원하는 장치
CN106503108A (zh) 地理位置检索方法和装置
Deng et al. Identify urban building functions with multisource data: A case study in Guangzhou, China
CN114708521A (zh) 基于街景图像目标关系感知网络的城市功能区识别方法及系统
KR102184048B1 (ko) Gis 기반 토지 이용 계획 검토 시스템 및 방법
KR100823827B1 (ko) Gis를 기반으로 교통사고 실황지도를 그리는 방법과 교통사고 고유식별용 연속번호를 자동 생성하여 교통사고의 통계를 관리하는 방법과 시스템
Chen et al. Mining real estate ads and property transactions for building and amenity data acquisition
CN106886517A (zh) 业务选址方法、装置以及系统
CN112614007B (zh) 充电潜力小区的识别方法和装置
Chung et al. Investigating the effects of POI-based land use on traffic accidents in Suzhou Industrial Park, China
CN113688870A (zh) 一种采用混合算法的基于用户用电行为的群租房识别方法
Goldberg et al. Extracting geographic features from the internet to automatically build detailed regional gazetteers
Ryu et al. Linking Smart City and Urban Sustainability Issue A Comparative Study of Smart City Services in Japan and Korea
CN111723172A (zh) 一种数据融合方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination