CN108197312A - 获取房源数据方法、装置、设备及可读存储介质 - Google Patents
获取房源数据方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN108197312A CN108197312A CN201810099832.1A CN201810099832A CN108197312A CN 108197312 A CN108197312 A CN 108197312A CN 201810099832 A CN201810099832 A CN 201810099832A CN 108197312 A CN108197312 A CN 108197312A
- Authority
- CN
- China
- Prior art keywords
- source
- houses
- data
- houses data
- received
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种获取房源数据方法,所述方法包括以下步骤:启动房源系统中添加的数据采集器,根据接收到的房源爬取条件,选取需要爬取的房源数据并进行采集;根据接收到的测试指令,测试采集到的房源数据是否为接收到的房源爬取条件所对应的房源数据;若采集到的房源数据为接收到的房源爬取条件所对应的房源数据,则根据接收到的下载指令下载所述房源数据,从而获得房源数据;对爬取得到的房源数据进行数据清洗,并将清洗成功的房源数据按照聚合规则进行聚合。本发明还公开了一种获取房源数据装置、设备及计算机可读存储介质。本发明能够获得全网房源数据,从而保证房源质量和数量,并且可以避免重复的房源数据。
Description
技术领域
本发明涉及数据聚合展示领域,尤其涉及一种获取房源数据方法、装置、设备及计算机可读存储介质。
背景技术
随着互联网的进步,人们在需要购买房子或者租赁房子时,越来越倾向于在网上进行查找房源,从而缩短查找房源的时间,提高查找房源的效率。
目前,市面上的房源分布于各渠道,无法查看全部的在架房源数据,并且没有全面信息的平台,房源数据滞后,垃圾数据较多。一个房源相册中存在多套房源的照片,不可信,无顺序,获取到的房源数据可信度不高。
发明内容
本发明的主要目的在于提出一种获取房源数据方法、装置、设备及计算机可读存储介质,旨在解决获取到的房源数据可信度不高的技术问题。
为实现上述目的,本发明提供一种获取房源数据方法,所述方法包括:
启动房源系统中添加的数据采集器,根据接收到的房源爬取条件,选取需要爬取的房源数据并进行采集;
根据接收到的测试指令,测试采集到的房源数据是否为接收到的房源爬取条件所对应的房源数据;
若采集到的房源数据为接收到的房源爬取条件所对应的房源数据,则根据接收到的下载指令下载所述房源数据,从而获得房源数据;
对爬取得到的房源数据进行数据清洗,并将清洗成功的房源数据按照聚合规则进行聚合。
可选地,所述启动房源系统中添加的数据采集器,根据接收到的房源爬取条件,选取需要爬取的房源数据并进行采集的步骤之前,还包括:
根据接收到的访问指令进入获取房源数据的网站,并根据接收到的模式选择指令进入获取房源数据的模式。
可选地,所述根据接收到的访问指令进入获取房源数据的网站,并根据接收到的模式选择指令进入获取房源数据的模式的步骤之后,还包括
将启动房源系统中添加的数据采集器,及采集房源数据的信息发送至获取房源数据的网站;
在获得启动房源系统中添加的数据采集器,及采集房源数据的权限之后,启动房源系统中添加的数据采集器。
可选地,所述对爬取得到的房源数据进行数据清洗的步骤包括:
对爬取到的房源数据进行一致性检查,识别超出标准值的房源数据;
将所述超出标准值的房源数据返回至获取房源数据的网站进行验证;
将验证失败的房源数据进行删除。
可选地,所述将验证失败的房源数据进行删除的步骤之后,还包括:
对删除验证失败的房源数据之后的房源数据进行估算、整例删除、变量删除和成对删除处理;
将处理失败的房源数据进行删除,获得清洗之后的房源数据。
可选地,所述将清洗成功的房源数据按照聚合规则进行聚合的步骤包括:
提取清洗成功的待聚合房源数据,根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组;
提取分组后的待聚合房源数据中的房源渠道,以及各个房源渠道的优先级;
提取优先级最高的待聚合房源作为核心房源,其余房源作为附属房源,并将所述核心房源及附属房源的房源数据进行聚合;
将聚合得到的房源数据以预设方式进行展示。
可选地,所述对爬取得到的房源数据进行数据清洗,并将清洗成功的房源数据按照聚合规则进行聚合的步骤之后,还包括:
当接收到用户的搜索条件时,根据用户的搜索条件查找聚合房源数据、核心房源数据及附属房源数据;
将查找到的聚合房源数据、核心房源数据及附属房源数据进行展示。
此外,为实现上述目的,本发明还提供一种获取房源数据装置,所述装置包括:
选取模块,用于启动房源系统中添加的数据采集器,根据接收到的房源爬取条件,选取需要爬取的房源数据并进行采集;
测试模块,用于根据接收到的测试指令,测试采集到的房源数据是否为接收到的房源爬取条件所对应的房源数据;
下载模块,用于若采集到的房源数据为接收到的房源爬取条件所对应的房源数据,则根据接收到的下载指令下载所述房源数据,从而获得房源数据;
清洗模块,用于对爬取得到的房源数据进行数据清洗,并将清洗成功的房源数据按照聚合规则进行聚合。
此外,为实现上述目的,本发明还提供一种获取房源数据设备,所述获取房源数据设备包括获取房源数据程序,所述获取房源数据程序被所述获取房源数据设备执行时实现如上所述的获取房源数据方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有获取房源数据程序,所述获取房源数据程序被处理器执行时实现如上所述的获取房源数据方法的步骤。
本发明提出的获取房源数据方法、装置、设备及计算机可读存储介质,通过启动房源系统中添加的数据采集器,根据接收到的房源爬取条件,选取需要爬取的房源数据并进行采集;然后根据接收到的测试指令,测试采集到的房源数据是否为接收到的房源爬取条件所对应的房源数据;若采集到的房源数据为接收到的房源爬取条件所对应的房源数据,则根据接收到的下载指令下载所述房源数据,从而获得房源数据,实现了获得全网房源数据,从而保证房源质量和数量;并对爬取得到的房源数据进行数据清洗,从而避免重复的房源数据,然后将清洗成功的房源数据按照聚合规则进行聚合,从而获得聚合后的房源数据,从而提高了获取房源数据的可信度,使得用户在查找房源时,查找到的房源数据为可靠且不重复的房源数据,提高了用户体验。
附图说明
图1为本发明获取房源数据方法第一实施例的流程示意图;
图2为本发明获取房源数据方法第二实施例的流程示意图;
图3为本发明获取房源数据方法第三实施例的流程示意图;
图4为本发明获取房源数据方法第四实施例中对爬取得到的房源数据进行数据清洗的步骤的细化流程示意图;
图5为本发明获取房源数据方法第五实施例的流程示意图;
图6为本发明获取房源数据方法第六实施例中将清洗成功的房源数据按照聚合规则进行聚合的步骤的细化流程示意图;
图7为聚合房源的显示示意图;
图8为本发明获取房源数据方法第八实施例的流程示意图;
图9为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:通过启动房源系统中添加的数据采集器,根据接收到的房源爬取条件,选取需要爬取的房源数据并进行采集;然后根据接收到的测试指令,测试采集到的房源数据是否为接收到的房源爬取条件所对应的房源数据;若采集到的房源数据为接收到的房源爬取条件所对应的房源数据,则根据接收到的下载指令下载所述房源数据,从而获得房源数据,实现了获得全网房源数据,从而保证房源质量和数量;并对爬取得到的房源数据进行数据清洗,从而避免重复的房源数据,然后将清洗成功的房源数据按照聚合规则进行聚合,从而获得聚合后的房源数据,从而提高了获取房源数据的可信度,使得用户在查找房源时,查找到的房源数据为可靠且不重复的房源数据,提高了用户体验。
本发明实施例考虑到,目前,市面上的房源分布于各渠道,无法查看全部的在架房源数据,并且没有全面信息的平台,房源数据滞后,垃圾数据较多。一个房源相册中存在多套房源的照片,不可信,无顺序,获取到的房源数据可信度不高。
为此,本发明实施例提出一种获取房源数据方法,通过启动房源系统中添加的数据采集器,根据接收到的房源爬取条件,选取需要爬取的房源数据并进行采集;然后根据接收到的测试指令,测试采集到的房源数据是否为接收到的房源爬取条件所对应的房源数据;若采集到的房源数据为接收到的房源爬取条件所对应的房源数据,则根据接收到的下载指令下载所述房源数据,从而获得房源数据,实现了获得全网房源数据,从而保证房源质量和数量;并对爬取得到的房源数据进行数据清洗,从而避免重复的房源数据,然后将清洗成功的房源数据按照聚合规则进行聚合,从而获得聚合后的房源数据,从而提高了获取房源数据的可信度,使得用户在查找房源时,查找到的房源数据为可靠且不重复的房源数据,提高了用户体验。
本发明提供一种获取房源数据方法。
参照图1,图1为本发明获取房源数据方法第一实施例的流程示意图
在本实施例中,该方法包括:
步骤S10,启动房源系统中添加的数据采集器,根据接收到的房源爬取条件,选取需要爬取的房源数据并进行采集;
在本实施例中,可通过爬取的方式获取各个房源网站的房源数据,具体地,首先启动房源系统中添加的数据采集器,其中所述数据采集器也可以为安装在浏览器中的数据采集器,其中,数据采集器是用来批量采集网页,论坛等的内容,直接保存到数据或发布到网络的一种信息化工具。可以根据用户设定的规则自动采集原网页,获取格式网页中需要的内容,现在发展成也可以对数据进行处理的工具(系统)。如SQL Server 2008性能数据采集器可以让我们创建一个中心数据库来存储性能数据;它包含三个内置数据收集组来收集和存储数据;为了帮助我们识别和排除SQL Server性能相关的问题,我们可以使用其内置的三个报表来查看收集存储的数据。然后根据接收到的房源爬取条件,选取需要爬取的房源数据并进行采集,即可获取需要爬取的房源数据,从而避免获取到不是房源数据的其他数据,提高获取房源数据的准确性。
步骤S20,根据接收到的测试指令,测试采集到的房源数据是否为接收到的房源爬取条件所对应的房源数据;
在获取到房源数据之后,可以进一步对获取到的房源数据进行测试,具体地,用户可以通过点击测试按钮触发测试指令,系统在接收到测试指令时,即可根据所述测试指令测试采集到的房源数据是否为接收到的房源爬取条件所对应的房源数据,当测试完成之后,根据接收到的测试完成指令即可关闭测试窗口。
步骤S30,若采集到的房源数据为接收到的房源爬取条件所对应的房源数据,则根据接收到的下载指令下载所述房源数据,从而获得房源数据;
在通过测试,确定采集到的房源数据为接收到的房源爬取条件所对应的房源数据之后,用户即可对采集到房源数据进行下载或者保存,具体地,根据接收到的下载指令下载所述房源数据,从而获得房源数据;
步骤S40,对爬取得到的房源数据进行数据清洗,并将清洗成功的房源数据按照聚合规则进行聚合。
在爬取得到房源数据之后,可以进一步对爬取到的房源数据进行清洗,从而删除清洗失败的房源数据,保证房源数据的准确性,具体地,可以对爬取到的房源数据进行一致性检查,一致性检查(consistency check)是根据每个变量的合理取值范围和相互关系,检查房源数据是否合乎要求,从而发现超出正常范围、逻辑上不合理或者相互矛盾的房源数据。然后对进行一致性检查的房源数据进行估算,整例删除,变量删除和成对删除等操作,其中,估算(estimation)最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。整例删除(casewise deletion)是剔除含有缺失值的房源数据,比如将没有房屋面积的房源数据进行整列删除。变量删除(variable deletion)如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除。成对删除(pairwise deletion)是用一个特殊码(通常是9、99、999等)代表无效值和缺失值,同时保留房源数据集中的全部变量和样本,再将清洗失败的房源数据进行删除,即可获得清洗成功的待聚合房源数据。
然后将清洗成功的房源数据按照预设规则进行聚合,具体地,可以根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组;然后提取分组后的待聚合房源数据中的房源渠道,以及各个房源渠道的优先级;其中各个房源渠道的优先级顺序可以根据房源数据的数量进行排序,房源数据越多的房源渠道,优先级越高,当然还可以根据房源数据的真实性将各个房源渠道的优先级顺序进行排序,房源数据的真实性越高的房源渠道,优先级越高,在此不对房源渠道的优先级排序方法进行限定。在提取得到各条房源数据的房源渠道,以及房源渠道的优先级顺序之后,首先将各条房源数据根据房源渠道的优先级高低进行排序,即可获得优先级最高的房源数据,然后将优先级最高的待聚合房源作为核心房源,其余房源作为附属房源,其中,附属房源可以有多个,也可以为一个,然后将所述核心房源及附属房源的房源数据进行聚合,即将核心房源的房源数据与附属房源的房源数据进行对比,然后将存在与附属房源中,但在核心房源中不存在的房源数据进行提取,并添加至核心房源中,获得聚合房源数据,并单独保留核心房源及附属房源的房源数据,从而使得当前房源数据更加完善。
本实施例提出的获取房源数据方法,通过启动房源系统中添加的数据采集器,根据接收到的房源爬取条件,选取需要爬取的房源数据并进行采集;然后根据接收到的测试指令,测试采集到的房源数据是否为接收到的房源爬取条件所对应的房源数据;若采集到的房源数据为接收到的房源爬取条件所对应的房源数据,则根据接收到的下载指令下载所述房源数据,从而获得房源数据,实现了获得全网房源数据,从而保证房源质量和数量;并对爬取得到的房源数据进行数据清洗,从而避免重复的房源数据,然后将清洗成功的房源数据按照聚合规则进行聚合,从而获得聚合后的房源数据,从而提高了获取房源数据的可信度,使得用户在查找房源时,查找到的房源数据为可靠且不重复的房源数据,提高了用户体验。
进一步地,参照图2,基于本发明获取房源数据方法第一实施例提出本发明获取房源数据方法第二实施例。
在本实施例中,所述步骤S10之前的步骤,还包括:
步骤S50,根据接收到的访问指令进入获取房源数据的网站,并根据接收到的模式选择指令进入获取房源数据的模式。
在本实施例中,在启动房源系统中添加的数据采集器之前,可以首先根据接收到的访问指令进入获取房源数据的网站,在进入获取房源数据的网站之后,用户可自行选择采集房源数据的模式,比如自定义采集模式、网站简易采集模式、APP简易采集模式等;在接收到用户输入的模式选择指令时,进入对应的获取房源数据的模式。
进一步地,参照图3,基于本发明获取房源数据方法第二实施例提出本发明获取房源数据方法第三实施例。
在本实施例中,所述步骤S50之后的步骤,还包括:
步骤S60,将启动房源系统中添加的数据采集器,及采集房源数据的信息发送至获取房源数据的网站;
在本实施例中,为了保证获取房源数据的网站中的用户数据安全,在进行启动数据采集器、采集房源数据之前,需要获得获取房源数据的网站的启动采集权限,因此,首先需要将请求启动数据采集器、采集房源数据的信息发送至获取房源数据的网站,以便获取房源数据的网站对发送请求的系统的身份进行核验,并在核验通过之后授予发送请求的系统启动数据采集器、采集房源数据的权限。
步骤S70,在获得启动房源系统中添加的数据采集器,及采集房源数据的权限之后,启动房源系统中添加的数据采集器。
在获得启动房源系统中添加的数据采集器,及采集房源数据的权限之后,启动房源系统中添加的数据采集器,并在接收到爬取条件时,根据爬取条件进行爬取房源数据。
本实施例提出的获取房源数据方法,通过将启动房源系统中添加的数据采集器,及采集房源数据的信息发送至获取房源信息的网站;在获得启动房源系统中添加的数据采集器,及采集房源数据的权限之后,启动房源系统中添加的数据采集器,在启动数据采集器、采集房源数据的同时,保证了获取房源数据的网站的用户数据安全。
进一步地,参照图4,基于本发明获取房源数据方法第一实施例提出本发明获取房源数据方法第四实施例。
在本实施例中,所述步骤S40包括:
步骤S41,对爬取到的房源数据进行一致性检查,识别超出标准值的房源数据;
在本实施例中,所述清洗的具体步骤可以为,首先对爬取到的房源数据进行一致性检查,识别超出标准值的房源数据,一致性检查(consistency check)是根据每个变量的合理取值范围和相互关系,检查房源数据是否合乎要求,从而发现超出正常范围、逻辑上不合理或者相互矛盾的房源数据。例如,用户的房屋的套内面积为60平方,但是建筑面积只有50平方,小于套内面积,应视为超出正常范围的房源数据。
步骤S42,将所述超出标准值的房源数据返回至获取房源信息的网站进行验证;
在发现超出正常的房源数据之后,可以将所述超出标准值的房源数据返回至获取房源数据的网站进行验证,或者直接将所述超出正常范围的房源数据进行删除;
步骤S43,将验证失败的房源数据进行删除。
当将所述超出标准值的房源数据返回至获取房源信息的网站进行验证之后,当所述房源数据验证失败时,将验证失败的房源数据进行删除,当所述房源数据验证成功时,则根据获取房源数据的网站反馈的修改方案对房源数据进行修改。
进一步地,参照图5,基于本发明获取房源数据方法第四实施例提出本发明获取房源数据方法第五实施例。
在本实施例中,所述步骤S43之后的步骤,还包括:
步骤S44,对删除验证失败的房源数据之后的房源数据进行估算、整例删除、变量删除和成对删除处理;
在本实施例中,在获得进行一致性检查的之后的房源数据时,可以进一步对进行一致性检查的之后的房源数据进行估算,整例删除,变量删除和成对删除等操作,其中,估算(estimation)最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。整例删除(casewise deletion)是剔除含有缺失值的房源数据,比如将没有房屋面积的房源信息进行整列删除。变量删除(variable deletion)如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除。成对删除(pairwise deletion)是用一个特殊码(通常是9、99、999等)代表无效值和缺失值,同时保留房源数据集中的全部变量和样本。
步骤S45,将处理失败的房源数据进行删除,获得清洗之后的房源数据。
再将清洗失败的房源数据进行删除,即可获得清洗成功的待聚合房源数据。
进一步地,参照图6,基于本发明获取房源数据方法第一实施例提出本发明获取房源数据方法第六实施例。
在本实施例中,所述步骤S40,还包括:
步骤S46,提取清洗成功的待聚合房源数据,根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组;
在本实施例中,可通过爬取的方式在保存有房源数据的网站获取房源数据,然后将获取到的房源数据进行数据清洗,比如对爬取到的房源数据进行一致性检查,一致性检查(consistency check)是根据每个变量的合理取值范围和相互关系,检查房源数据是否合乎要求,从而发现超出正常范围、逻辑上不合理或者相互矛盾的房源数据。例如,用户的房屋的套内面积为60平方,但是建筑面积只有50平方,小于套内面积,应视为超出正常范围的房源数据,在发现超出正常的房源数据之后,将所述超出正常范围的房源数据进行删除,然后对进行一致性检查的房源数据进行估算,整例删除,变量删除和成对删除等操作,其中,估算(estimation)最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。整例删除(casewise deletion)是剔除含有缺失值的房源数据,比如没有将没有房屋面积的房源信息进行整列删除。变量删除(variable deletion)如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除。成对删除(pairwise deletion)是用一个特殊码(通常是9、99、999等)代表无效值和缺失值,同时保留房源数据集中的全部变量和样本,再将清洗失败的房源数据进行删除,即可获得清洗成功的待聚合房源数据。
在进行房源聚合之前,即可提取所述清洗成功的待聚合房源数据,然后根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组,即首先根据所述地址信息识别具体的房源,然后将来源于不同渠道的多条房源数据中,为同一房源的房源数据分到同一组中,其中,所述地址信息包括省份、城市、县区、小区名称、栋数、具体门牌号等。
步骤S47,提取分组后的待聚合房源数据中的房源渠道,以及各个房源渠道的优先级;
在将房源进行分组之后,提取各条房源数据对应的房源渠道,并提取各个房源渠道的优先级,其中各个房源渠道的优先级顺序可以根据房源数据的数量进行排序,房源数据越多的房源渠道,优先级越高,当然还可以根据房源数据的真实性将各个房源渠道的优先级顺序进行排序,房源数据的真实性越高的房源渠道,优先级越高,在此不对房源渠道的优先级排序方法进行限定。
步骤S48,提取优先级最高的待聚合房源作为核心房源,其余房源作为附属房源,并将所述核心房源及附属房源的房源信息进行聚合;
在提取得到各条房源数据的房源渠道,以及房源渠道的优先级顺序之后,首先将各条房源数据根据房源渠道的优先级高低进行排序,即可获得优先级最高的房源数据,然后将优先级最高的待聚合房源作为核心房源,其余房源作为附属房源,其中,附属房源可以有多个,也可以为一个,然后将所述核心房源及附属房源的房源信息进行聚合,即将核心房源的房源数据与附属房源的房源数据进行对比,然后将存在与附属房源中,但在核心房源中不存在的房源数据进行提取,并添加至核心房源中,获得聚合房源信息,并单独保留核心房源及附属房源的房源数据,从而使得当前房源数据更加完善。
步骤S49,将整合得到的房源信息以预设方式进行展示。
在得到聚合后的房源数据之后,即可将聚合得到的房源信息以预设方式进行展示,具体地,首先将聚合房源数据、核心房源数据、附属房源数据添加至不同的页签中,然后将聚合房源数据的对应页签设置为第一页签,即可以将聚合房源数据的对应页签的位置设置在显示界面的最左边,并设置为默认选中显示的页签,当用户点击其他页签,比如核心房源数据对应的页签时,才会将显示界面切换至核心房源数据对应的页签,具体显示方式可以如图7所示。
进一步地,参照图8,基于本发明获取房源数据方法第一至第六任一实施例提出本发明获取房源数据方法第七实施例。
在本实施例中,所述步骤S40之后的步骤,还包括:
步骤S80,当接收到用户的搜索条件时,根据用户的搜索条件查找聚合房源信息、核心房源信息及附属房源信息;
在本实施例中,在将房源数据进行展示时,可以进一步在展示页面中添加搜索框,以便用户进行搜索房源,具体地,当接收到用户的搜索条件时,根据用户的搜索条件查找聚合房源信息、核心房源信息及附属房源信息;
步骤S90,将查找到的聚合房源信息、核心房源信息及附属房源信息进行展示。
在查找得到聚合房源信息、核心房源信息及附属房源信息,将查找到的聚合房源信息、核心房源信息及附属房源信息进行展示,从而提高用户查找房源的效率。
本发明进一步提供一种获取房源数据装置,所述装置包括:
选取模块,用于启动房源系统中添加的数据采集器,根据接收到的房源爬取条件,选取需要爬取的房源数据并进行采集;
测试模块,用于根据接收到的测试指令,测试采集到的房源数据是否为接收到的房源爬取条件所对应的房源数据;
下载模块,用于若采集到的房源数据为接收到的房源爬取条件所对应的房源数据,则根据接收到的下载指令下载所述房源数据,从而获得房源数据;
清洗模块,用于对爬取得到的房源数据进行数据清洗,并将清洗成功的房源数据按照聚合规则进行聚合。
本发明获取房源数据装置的具体实施例与上述获取房源数据方法各实施例基本相同,在此不作赘述。
本发明进一步提供一种获取房源数据设备。
参照图9,图9为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
如图9所示,该获取房源数据设备可以包括:处理器1001,例如CPU,网络接口1002,用户接口1003,存储器1004。这些组件之间的连接通信可以通过通信总线实现。网络接口1002可选的可以包括标准的有线接口(用于连接有线网络)、无线接口(如WI-FI接口、蓝牙接口、红外线接口等,用于连接无线网络)。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口(例如用于连接有线键盘、有线鼠标等)和/或无线接口(例如用于连接无线键盘、无线鼠标)。存储器1004可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1004可选的还可以是独立于前述处理器1001的存储装置。
可选地,该获取房源数据设备还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。
本领域技术人员可以理解,图中示出的获取房源数据设备结构并不构成对获取房源数据设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图9所示,作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信模块、用户接口模块以及获取房源数据程序。其中,操作系统是管理和控制获取房源数据设备硬件与软件资源的程序,支持网络通信模块、用户接口模块、获取房源数据程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1002;用户接口模块用于管理和控制用户接口1003。
在图9所示的获取房源数据设备中,网络接口1002主要用于连接数据库,与数据库进行数据通信;用户接口1003主要用于连接客户端(可以理解为用户端),与客户端进行数据通信,如通过窗口展示信息给客户端,或者接收客户端发送的操作信息;而处理器1001可以用于执行存储器1004中存储的获取房源数据程序,以实现以下步骤:
启动房源系统中添加的数据采集器,根据接收到的房源爬取条件,选取需要爬取的房源数据并进行采集;
根据接收到的测试指令,测试采集到的房源数据是否为接收到的房源爬取条件所对应的房源数据;
若采集到的房源数据为接收到的房源爬取条件所对应的房源数据,则根据接收到的下载指令下载所述房源数据,从而获得房源数据;
对爬取得到的房源数据进行数据清洗,并将清洗成功的房源数据按照聚合规则进行聚合。
进一步地,所述处理器1001还用于执行存储器1004中存储的获取房源数据程序,以实现以下步骤:
根据接收到的访问指令进入获取房源数据的网站,并根据接收到的模式选择指令进入获取房源数据的模式。
进一步地,所述处理器1001还用于执行存储器1004中存储的获取房源数据程序,以实现以下步骤:
将启动房源系统中添加的数据采集器,及采集房源数据的信息发送至获取房源数据的网站;
在获得启动房源系统中添加的数据采集器,及采集房源数据的权限之后,启动房源系统中添加的数据采集器。
进一步地,所述处理器1001还用于执行存储器1004中存储的获取房源数据程序,以实现以下步骤:
对爬取到的房源数据进行一致性检查,识别超出标准值的房源数据;
将所述超出标准值的房源数据返回至获取房源数据的网站进行验证;
将验证失败的房源数据进行删除。
进一步地,所述处理器1001还用于执行存储器1004中存储的获取房源数据程序,以实现以下步骤:
对删除验证失败的房源数据之后的房源数据进行估算、整例删除、变量删除和成对删除处理;
将处理失败的房源数据进行删除,获得清洗之后的房源数据。
进一步地,所述处理器1001还用于执行存储器1004中存储的获取房源数据程序,以实现以下步骤:
提取清洗成功的待聚合房源数据,根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组;
提取分组后的待聚合房源数据中的房源渠道,以及各个房源渠道的优先级;
提取优先级最高的待聚合房源作为核心房源,其余房源作为附属房源,并将所述核心房源及附属房源的房源数据进行聚合;
将聚合得到的房源数据以预设方式进行展示。
进一步地,所述处理器1001还用于执行存储器1004中存储的获取房源数据程序,以实现以下步骤:
当接收到用户的搜索条件时,根据用户的搜索条件查找聚合房源数据、核心房源数据及附属房源数据;
将查找到的聚合房源数据、核心房源数据及附属房源数据进行展示。
本发明获取房源数据设备的具体实施例与上述获取房源数据方法及获取房源数据装置各实施例基本相同,在此不作赘述。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现以下步骤:
启动房源系统中添加的数据采集器,根据接收到的房源爬取条件,选取需要爬取的房源数据并进行采集;
根据接收到的测试指令,测试采集到的房源数据是否为接收到的房源爬取条件所对应的房源数据;
若采集到的房源数据为接收到的房源爬取条件所对应的房源数据,则根据接收到的下载指令下载所述房源数据,从而获得房源数据;
对爬取得到的房源数据进行数据清洗,并将清洗成功的房源数据按照聚合规则进行聚合。
进一步地,所述一个或者多个程序可被所述一个或者多个处理器执行,还实现以下步骤:
根据接收到的访问指令进入获取房源数据的网站,并根据接收到的模式选择指令进入获取房源数据的模式。
进一步地,所述一个或者多个程序可被所述一个或者多个处理器执行,还实现以下步骤:
将启动房源系统中添加的数据采集器,及采集房源数据的信息发送至获取房源数据的网站;
在获得启动房源系统中添加的数据采集器,及采集房源数据的权限之后,启动房源系统中添加的数据采集器。
进一步地,所述一个或者多个程序可被所述一个或者多个处理器执行,还实现以下步骤:
对爬取到的房源数据进行一致性检查,识别超出标准值的房源数据;
将所述超出标准值的房源数据返回至获取房源数据的网站进行验证;
将验证失败的房源数据进行删除。
进一步地,所述一个或者多个程序可被所述一个或者多个处理器执行,还实现以下步骤:
对删除验证失败的房源数据之后的房源数据进行估算、整例删除、变量删除和成对删除处理;
将处理失败的房源数据进行删除,获得清洗之后的房源数据。
进一步地,所述一个或者多个程序可被所述一个或者多个处理器执行,还实现以下步骤:
提取清洗成功的待聚合房源数据,根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组;
提取分组后的待聚合房源数据中的房源渠道,以及各个房源渠道的优先级;
提取优先级最高的待聚合房源作为核心房源,其余房源作为附属房源,并将所述核心房源及附属房源的房源数据进行聚合;
将聚合得到的房源数据以预设方式进行展示。
进一步地,所述一个或者多个程序可被所述一个或者多个处理器执行,还实现以下步骤:
当接收到用户的搜索条件时,根据用户的搜索条件查找聚合房源数据、核心房源数据及附属房源数据;
将查找到的聚合房源数据、核心房源数据及附属房源数据进行展示。
本发明计算机可读存储介质的具体实施例与上述获取房源数据方法、获取房源数据装置和获取房源数据设备各实施例基本相同,在此不作赘述。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种获取房源数据方法,其特征在于,所述方法包括以下步骤:
启动房源系统中添加的数据采集器,根据接收到的房源爬取条件,选取需要爬取的房源数据并进行采集;
根据接收到的测试指令,测试采集到的房源数据是否为接收到的房源爬取条件所对应的房源数据;
若采集到的房源数据为接收到的房源爬取条件所对应的房源数据,则根据接收到的下载指令下载所述房源数据,从而获得房源数据;
对爬取得到的房源数据进行数据清洗,并将清洗成功的房源数据按照聚合规则进行聚合。
2.如权利要求1所述的获取房源数据方法,其特征在于,所述启动房源系统中添加的数据采集器,根据接收到的房源爬取条件,选取需要爬取的房源数据并进行采集的步骤之前,还包括:
根据接收到的访问指令进入获取房源数据的网站,并根据接收到的模式选择指令进入获取房源数据的模式。
3.如权利要求2所述的获取房源数据方法,其特征在于,所述根据接收到的访问指令进入获取房源数据的网站,并根据接收到的模式选择指令进入获取房源数据的模式的步骤之后,还包括
将启动房源系统中添加的数据采集器,及采集房源数据的信息发送至获取房源数据的网站;
在获得启动房源系统中添加的数据采集器,及采集房源数据的权限之后,启动房源系统中添加的数据采集器。
4.如权利要求1所述的获取房源数据方法,其特征在于,所述对爬取得到的房源数据进行数据清洗的步骤包括:
对爬取到的房源数据进行一致性检查,识别超出标准值的房源数据;
将所述超出标准值的房源数据返回至获取房源数据的网站进行验证;
将验证失败的房源数据进行删除。
5.如权利要求4所述的获取房源数据方法,其特征在于,所述将验证失败的房源数据进行删除的步骤之后,还包括:
对删除验证失败的房源数据之后的房源数据进行估算、整例删除、变量删除和成对删除处理;
将处理失败的房源数据进行删除,获得清洗之后的房源数据。
6.如权利要求1所述的获取房源数据方法,其特征在于,所述将清洗成功的房源数据按照聚合规则进行聚合的步骤包括:
提取清洗成功的待聚合房源数据,根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组;
提取分组后的待聚合房源数据中的房源渠道,以及各个房源渠道的优先级;
提取优先级最高的待聚合房源作为核心房源,其余房源作为附属房源,并将所述核心房源及附属房源的房源数据进行聚合;
将聚合得到的房源数据以预设方式进行展示。
7.如权利要求1-6任一项所述的获取房源数据方法,其特征在于,所述对爬取得到的房源数据进行数据清洗,并将清洗成功的房源数据按照聚合规则进行聚合的步骤之后,还包括:
当接收到用户的搜索条件时,根据用户的搜索条件查找聚合房源数据、核心房源数据及附属房源数据;
将查找到的聚合房源数据、核心房源数据及附属房源数据进行展示。
8.一种获取房源数据装置,其特征在于,所述装置包括:
选取模块,用于启动房源系统中添加的数据采集器,根据接收到的房源爬取条件,选取需要爬取的房源数据并进行采集;
测试模块,用于根据接收到的测试指令,测试采集到的房源数据是否为接收到的房源爬取条件所对应的房源数据;
下载模块,用于若采集到的房源数据为接收到的房源爬取条件所对应的房源数据,则根据接收到的下载指令下载所述房源数据,从而获得房源数据;
清洗模块,用于对爬取得到的房源数据进行数据清洗,并将清洗成功的房源数据按照聚合规则进行聚合。
9.一种获取房源数据设备,其特征在于,所述获取房源数据设备包括获取房源数据程序,所述获取房源数据程序被所述获取房源数据设备执行时实现如权利要求1至7中任一项所述的获取房源数据方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有获取房源数据程序,所述获取房源数据程序被处理器执行时实现如权利要求1至7中任一项所述的获取房源数据方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810099832.1A CN108197312A (zh) | 2018-01-31 | 2018-01-31 | 获取房源数据方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810099832.1A CN108197312A (zh) | 2018-01-31 | 2018-01-31 | 获取房源数据方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108197312A true CN108197312A (zh) | 2018-06-22 |
Family
ID=62592282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810099832.1A Pending CN108197312A (zh) | 2018-01-31 | 2018-01-31 | 获取房源数据方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108197312A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109035078A (zh) * | 2018-08-31 | 2018-12-18 | 北京诸葛找房信息技术有限公司 | 一种基于多维度信息相似计算的房源聚合方法 |
CN110618982A (zh) * | 2018-12-26 | 2019-12-27 | 北京时光荏苒科技有限公司 | 一种多源异构数据的处理方法、装置、介质及电子设备 |
CN110633726A (zh) * | 2018-12-25 | 2019-12-31 | 北京时光荏苒科技有限公司 | 一种房源识别方法、装置、存储介质及电子设备 |
CN112699289A (zh) * | 2020-12-30 | 2021-04-23 | 上海瑞家信息技术有限公司 | 房源信息聚合展示方法、装置、电子设备和计算机可读介质 |
CN113450163A (zh) * | 2021-08-30 | 2021-09-28 | 贝壳找房(北京)科技有限公司 | 房源呈现情况分析方法及存储介质 |
CN113902457A (zh) * | 2021-11-19 | 2022-01-07 | 北京房江湖科技有限公司 | 房源信息可靠性的评估方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102542351A (zh) * | 2011-12-31 | 2012-07-04 | 深圳中兴网信科技有限公司 | 一种酒店数据库建立方法及自动预订酒店的方法 |
CN107193939A (zh) * | 2017-05-19 | 2017-09-22 | 苏州商信宝信息科技有限公司 | 一种基于数据挖掘的智能房源推荐方法及其系统 |
US9786021B1 (en) * | 2005-03-08 | 2017-10-10 | Unearthed Land Technologies, Llc | Method and system for retrieving and serving regulatory history for a property |
-
2018
- 2018-01-31 CN CN201810099832.1A patent/CN108197312A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9786021B1 (en) * | 2005-03-08 | 2017-10-10 | Unearthed Land Technologies, Llc | Method and system for retrieving and serving regulatory history for a property |
CN102542351A (zh) * | 2011-12-31 | 2012-07-04 | 深圳中兴网信科技有限公司 | 一种酒店数据库建立方法及自动预订酒店的方法 |
CN107193939A (zh) * | 2017-05-19 | 2017-09-22 | 苏州商信宝信息科技有限公司 | 一种基于数据挖掘的智能房源推荐方法及其系统 |
Non-Patent Citations (2)
Title |
---|
FERVENTDESERT: "《https://www.cnblogs.com/buptzym/p/3946357.html》", 1 September 2014 * |
深圳视界信息技术有限公司: "《http://www.bazhuayu.com/tutorial/cookie70》", 20 June 2017 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109035078A (zh) * | 2018-08-31 | 2018-12-18 | 北京诸葛找房信息技术有限公司 | 一种基于多维度信息相似计算的房源聚合方法 |
CN110633726A (zh) * | 2018-12-25 | 2019-12-31 | 北京时光荏苒科技有限公司 | 一种房源识别方法、装置、存储介质及电子设备 |
CN110618982A (zh) * | 2018-12-26 | 2019-12-27 | 北京时光荏苒科技有限公司 | 一种多源异构数据的处理方法、装置、介质及电子设备 |
CN110618982B (zh) * | 2018-12-26 | 2022-09-30 | 北京时光荏苒科技有限公司 | 一种多源异构数据的处理方法、装置、介质及电子设备 |
CN112699289A (zh) * | 2020-12-30 | 2021-04-23 | 上海瑞家信息技术有限公司 | 房源信息聚合展示方法、装置、电子设备和计算机可读介质 |
CN113450163A (zh) * | 2021-08-30 | 2021-09-28 | 贝壳找房(北京)科技有限公司 | 房源呈现情况分析方法及存储介质 |
CN113902457A (zh) * | 2021-11-19 | 2022-01-07 | 北京房江湖科技有限公司 | 房源信息可靠性的评估方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108197312A (zh) | 获取房源数据方法、装置、设备及可读存储介质 | |
CN108197311A (zh) | 房源数据聚合展示方法、装置、设备及可读存储介质 | |
US9978093B2 (en) | Method and system for pushing mobile application | |
JP5795650B2 (ja) | 顔認識 | |
CN108230113A (zh) | 用户画像生成方法、装置、设备及可读存储介质 | |
CN102339320B (zh) | 恶意网页的识别方法以及识别装置 | |
CN109729044B (zh) | 一种通用的互联网数据采集反反爬系统及方法 | |
US20080270549A1 (en) | Extracting link spam using random walks and spam seeds | |
CN108256067A (zh) | 计算房源相似度的方法、装置、设备及存储介质 | |
CN104615760A (zh) | 钓鱼网站识别方法和系统 | |
CN103020123B (zh) | 一种搜索不良视频网站的方法 | |
CN104765592B (zh) | 一种面向网页采集任务的插件管理方法及其装置 | |
CN106982381A (zh) | 首页推荐处理方法及装置 | |
CN102760151A (zh) | 开源软件获取与搜索系统的实现方法 | |
CN108062468B (zh) | 一种基于图片验证码识别的网络爬虫方法 | |
CN104348871A (zh) | 一种同类账号扩展方法及装置 | |
CN108197030A (zh) | 基于深度学习的软件界面自动测试云平台装置及测试方法 | |
CN107276842A (zh) | 接口测试方法、装置及电子设备 | |
CN105589943A (zh) | 搜索结果页面的图片适应性处理的方法、装置和服务器 | |
JP2019512143A (ja) | データ処理方法及び装置 | |
CN111723083B (zh) | 用户身份识别方法、装置、电子设备及存储介质 | |
CN109871770A (zh) | 房产证识别方法、装置、设备及存储介质 | |
CN111859076A (zh) | 数据爬取方法、装置、计算机设备及计算机可读存储介质 | |
CN102955859B (zh) | 网页内容展现方法和装置 | |
CN110929058A (zh) | 商标图片的检索方法、装置、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180622 |
|
RJ01 | Rejection of invention patent application after publication |