CN108197311B - 房源数据聚合展示方法、装置、设备及可读存储介质 - Google Patents
房源数据聚合展示方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN108197311B CN108197311B CN201810099481.4A CN201810099481A CN108197311B CN 108197311 B CN108197311 B CN 108197311B CN 201810099481 A CN201810099481 A CN 201810099481A CN 108197311 B CN108197311 B CN 108197311B
- Authority
- CN
- China
- Prior art keywords
- house
- source data
- house source
- aggregated
- room
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/235—Update request formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
- G06F16/244—Grouping and aggregation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种房源数据聚合展示方法,所述方法包括以下步骤:提取清洗成功的待聚合房源数据,根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组;提取分组后的待聚合房源数据中的房源渠道,以及各个房源渠道的优先级;提取优先级最高的待聚合房源作为核心房源,其余房源作为附属房源,并将所述核心房源及附属房源的房源信息进行整合;将整合得到的房源信息以预设方式进行展示。本发明还公开了一种房源数据聚合展示装置、设备及计算机可读存储介质。本发明便于对房源数据的管理和查看,使得用户可以对房源数据进行下载和收藏,能够提高用户获取房源数据的效率。
Description
技术领域
本发明涉及数据聚合展示领域,尤其涉及一种房源数据聚合展示方法、装置、设备及计算机可读存储介质。
背景技术
随着互联网的进步,人们在需要购买房子或者租赁房子时,越来越倾向于在网上进行查找房源,从而缩短查找房源的时间,提高查找房源的效率。
目前,市面上的房源分布于各渠道,无法查看全部的在架房源信息,并且没有全面信息的平台,房源数据滞后,垃圾数据较多。并且房源信息天天变,无法收藏和转发,一个房源相册中存在多套房源的照片,不可信,无顺序,房源标题大多是通过拼接而成,比如将房源标题设置为小区名+户型,容易造成重复,不便于用户进行查找。
发明内容
本发明的主要目的在于提出一种房源数据聚合展示方法、装置、设备及计算机可读存储介质,旨在解决目前房源信息不全面,数据不可靠的技术问题。
为实现上述目的,本发明提供一种房源数据聚合展示方法,所述方法包括:
提取清洗成功的待聚合房源数据,根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组;
提取分组后的待聚合房源数据中的房源渠道,以及各个房源渠道的优先级;
提取优先级最高的待聚合房源作为核心房源,其余房源作为附属房源,并将所述核心房源及附属房源的房源信息进行整合;
将整合得到的房源信息以预设方式进行展示。
可选地,所述将整合得到的房源信息以预设方式进行展示的步骤之后,还包括:
将房源进行聚合之后,实时提取清洗成功的待聚合房源数据;
将提取到的待聚合房源数据中的渠道房源ID与已聚合房源的渠道房源ID进行匹配,判断是否匹配到一致的渠道房源ID;
若在已聚合房源的渠道房源ID中匹配到一致的渠道房源ID,则根据所述待聚合房源数据对所述已聚合房源的房源数据进行更新;否则,执行所述根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组的步骤。
可选地,所述根据所述待聚合房源数据对所述已聚合房源的房源数据进行更新的步骤包括:
将所述待聚合房源数据与已聚合房源的房源数据进行对比;
若所述待聚合房源数据与已聚合房源的房源数据不一致,则提取所述待聚合房源数据中与已聚合房源的房源数据不一致的房源数据;
根据提取到的房源数据对已聚合房源的房源数据进行更新。
可选地,所述将整合得到的房源信息以预设方式进行展示的步骤包括:
将所述附属房源的房源数据与核心房源的房源数据进行对比;
若所述附属房源的房源数据与核心房源的房源数据不一致,则提取所述附属房源数据中与核心房源的房源数据不一致的房源数据;
将所述不一致的房源数据添加至核心房源的房源数据中,并赋予添加房源数据后的核心房源数据对应的房源ID;
将所述添加房源数据后的核心房源数据及对应的房源ID在第一页签进行展示;
将所述核心房源的房源数据及附属房源的房源数据在第二页签进行展示。
可选地,所述提取清洗成功的待聚合房源数据的步骤之前,还包括:
启动房源系统中添加的数据采集器,根据接收到的房源爬取条件,选取需要爬取的房源信息并进行采集;
根据接收到的测试指令,测试采集到的房源信息是否为接收到的房源爬取条件所对应的房源信息;
若采集到的房源信息为接收到的房源爬取条件所对应的房源信息,则根据接收到的下载指令下载所述房源数据,从而获得房源数据;
对爬取得到的房源数据进行数据清洗,并将清洗成功的房源数据按照聚合规则进行聚合。
可选地,所述对爬取得到的房源数据进行数据清洗的步骤包括:
对爬取到的房源数据进行一致性检查,识别出异常的房源数据;
将所述异常的房源数据返回至获取房源信息的网站进行验证;
将验证失败的房源数据进行删除。
可选地,所述将整合得到的房源信息以预设方式进行展示的步骤之后,还包括:
当接收到用户的搜索条件时,根据用户的搜索条件查找聚合房源信息、核心房源信息及附属房源信息;
将查找到的聚合房源信息、核心房源信息及附属房源信息进行展示。
此外,为实现上述目的,本发明还提供一种房源数据聚合展示装置,所述装置包括:
提取模块,用于提取清洗成功的待聚合房源数据,根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组;提取分组后的待聚合房源数据中的房源渠道,以及各个房源渠道的优先级;提取优先级最高的待聚合房源作为核心房源,其余房源作为附属房源,并将所述核心房源及附属房源的房源信息进行整合;
展示模块,用于将整合得到的房源信息以预设方式进行展示。
本发明提出的房源数据聚合展示方法、装置、设备及计算机可读存储介质,通过提取清洗成功的待聚合房源数据,根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组;然后提取分组后的待聚合房源数据中的房源渠道,以及各个房源渠道的优先级;提取优先级最高的待聚合房源作为核心房源,其余房源作为附属房源,并将所述核心房源及附属房源的房源数据进行聚合;将聚合得到的房源数据以预设方式进行展示,通过上述方式,将多渠道的房源数据进行聚合,整理到系统,便于对房源数据的管理和查看,以及便于用户查找,提高了用户获取房源数据的效率,并且通过预设方式进行展示,使得用户可以对房源数据进行下载和收藏,便于用户提取房源数据。
附图说明
图1为本发明房源数据聚合展示方法第一实施例的流程示意图;
图2为聚合房源的显示示意图;
图3为本发明房源数据聚合展示方法第二实施例的流程示意图;
图4为本发明房源数据聚合展示方法第三实施例中根据所述待聚合房源数据对所述已聚合房源的房源数据进行更新的步骤的细化流程示意图;
图5为本发明房源数据聚合展示方法第四实施例中将整合得到的房源信息以预设方式进行展示的步骤的细化流程示意图;
图6为本发明房源数据聚合展示方法第五实施例的流程示意图;
图7为本发明房源数据聚合展示方法第六实施例对爬取得到的房源数据进行数据清洗的步骤的细化流程示意图;
图8为本发明房源数据聚合展示方法第七实施例的流程示意图;
图9为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:通过提取清洗成功的待聚合房源数据,根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组;然后提取分组后的待聚合房源数据中的房源渠道,以及各个房源渠道的优先级;提取优先级最高的待聚合房源作为核心房源,其余房源作为附属房源,并将所述核心房源及附属房源的房源数据进行聚合;将聚合得到的房源数据以预设方式进行展示,通过上述方式,将多渠道的房源数据进行聚合,整理到系统,便于对房源数据的管理和查看,以及便于用户查找,提高了用户获取房源数据的效率,并且通过预设方式进行展示,使得用户可以对房源数据进行下载和收藏,便于用户提取房源数据。
本发明实施例考虑到,目前,市面上的房源分布于各渠道,无法查看全部的在架房源信息,并且没有全面信息的平台,房源数据滞后,垃圾数据较多。并且房源信息天天变,无法收藏和转发,一个房源相册中存在多套房源的照片,不可信,无顺序,房源标题大多是通过拼接而成,比如将房源标题设置为小区名+户型,容易造成重复,不便于用户进行查找。
为此,本发明实施例提出一种房源数据聚合展示方法,通过提取清洗成功的待聚合房源数据,根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组;然后提取分组后的待聚合房源数据中的房源渠道,以及各个房源渠道的优先级;提取优先级最高的待聚合房源作为核心房源,其余房源作为附属房源,并将所述核心房源及附属房源的房源数据进行聚合;将聚合得到的房源数据以预设方式进行展示,通过上述方式,将多渠道的房源数据进行聚合,整理到系统,便于对房源数据的管理和查看,以及便于用户查找,提高了用户获取房源数据的效率,并且通过预设方式进行展示,使得用户可以对房源数据进行下载和收藏,便于用户提取房源数据。
本发明提供一种房源数据聚合展示方法。
参照图1,图1为本发明房源数据聚合展示方法第一实施例的流程示意图。
在本实施例中,该方法包括:
步骤S10,提取清洗成功的待聚合房源数据,根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组;
在本实施例中,可通过爬取的方式在保存有房源数据的网站获取房源数据,然后将获取到的房源数据进行数据清洗,比如对爬取到的房源数据进行一致性检查,一致性检查(consistency check)是根据每个变量的合理取值范围和相互关系,检查房源数据是否合乎要求,从而发现超出正常范围、逻辑上不合理或者相互矛盾的房源数据。例如,用户的房屋的套内面积为60平方,但是建筑面积只有50平方,小于套内面积,应视为超出正常范围的房源数据,在发现超出正常的房源数据之后,将所述超出正常范围的房源数据进行删除,然后对进行一致性检查的房源数据进行估算,整例删除,变量删除和成对删除等操作,其中,估算(estimation)最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。整例删除(casewise deletion)是剔除含有缺失值的房源数据,比如没有将没有房屋面积的房源信息进行整列删除。变量删除(variable deletion)如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除。成对删除(pairwise deletion)是用一个特殊码(通常是9、99、999等)代表无效值和缺失值,同时保留房源数据集中的全部变量和样本,再将清洗失败的房源数据进行删除,即可获得清洗成功的待聚合房源数据。
在进行房源聚合之前,即可提取所述清洗成功的待聚合房源数据,然后根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组,即首先根据所述地址信息识别具体的房源,然后将来源于不同渠道的多条房源数据中,为同一房源的房源数据分到同一组中,其中,所述地址信息包括省份、城市、县区、小区名称、栋数、具体门牌号等。
步骤S20,提取分组后的待聚合房源数据中的房源渠道,以及各个房源渠道的优先级;
在将房源进行分组之后,提取各条房源数据对应的房源渠道,并提取各个房源渠道的优先级,其中各个房源渠道的优先级顺序可以根据房源数据的数量进行排序,房源数据越多的房源渠道,优先级越高,当然还可以根据房源数据的真实性将各个房源渠道的优先级顺序进行排序,房源数据的真实性越高的房源渠道,优先级越高,在此不对房源渠道的优先级排序方法进行限定。
步骤S30,提取优先级最高的待聚合房源作为核心房源,其余房源作为附属房源,并将所述核心房源及附属房源的房源数据进行聚合;
在提取得到各条房源数据的房源渠道,以及房源渠道的优先级顺序之后,首先将各条房源数据根据房源渠道的优先级高低进行排序,即可获得优先级最高的房源数据,然后将优先级最高的待聚合房源作为核心房源,其余房源作为附属房源,其中,附属房源可以有多个,也可以为一个,然后将所述核心房源及附属房源的房源信息进行聚合,即将核心房源的房源数据与附属房源的房源数据进行对比,然后将存在与附属房源中,但在核心房源中不存在的房源数据进行提取,并添加至核心房源中,获得聚合房源信息,并单独保留核心房源及附属房源的房源数据,从而使得当前房源数据更加完善。
步骤S40,将聚合得到的房源数据以预设方式进行展示。
在得到聚合后的房源数据之后,即可将聚合得到的房源信息以预设方式进行展示,具体地,首先将聚合房源数据、核心房源数据、附属房源数据添加至不同的页签中,然后将聚合房源数据的对应页签设置为第一页签,即可以将聚合房源数据的对应页签的位置设置在显示界面的最左边,并设置为默认选中显示的页签,当用户点击其他页签,比如核心房源数据对应的页签时,才会将显示界面切换至核心房源数据对应的页签,具体显示方式可以如图2所示。
本实施例提出的房源数据聚合展示方法,通过提取清洗成功的待聚合房源数据,根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组;然后提取分组后的待聚合房源数据中的房源渠道,以及各个房源渠道的优先级;提取优先级最高的待聚合房源作为核心房源,其余房源作为附属房源,并将所述核心房源及附属房源的房源数据进行聚合;将聚合得到的房源数据以预设方式进行展示,通过上述方式,将多渠道的房源数据进行聚合,整理到系统,便于对房源数据的管理和查看,以及便于用户查找,提高了用户获取房源数据的效率,并且通过预设方式进行展示,使得用户可以对房源数据进行下载和收藏,便于用户提取房源数据。
进一步地,参照图3,基于本发明房源数据聚合展示方法第一实施例提出本发明房源数据聚合展示方法第二实施例。
在本实施例中,所述步骤S40之后的步骤,还包括:
步骤S50,将房源数据进行聚合之后,实时提取清洗成功的待聚合房源数据;
在将房源数据进行聚合之后,由于后续发布房源数据的用户可能会对房源数据进行更新,因此,在将聚合后的房源数据进行展示期间,还可以实时提取各个房源网站的房源数据,并对提取到的房源进行清洗,即可获得清洗成功的待聚合房源数据;
步骤S60,将提取到的待聚合房源数据中的渠道房源ID与已聚合房源的渠道房源ID进行匹配,判断是否匹配到一致的渠道房源ID;
在获得提取清洗成功的待聚合房源数据之后,可以将提取到的待聚合房源数据中的渠道房源ID与已聚合房源的渠道房源ID进行匹配,从而判断所述清洗成功的待聚合房源数据是否为聚合过的房源数据;
步骤S70,若在已聚合房源的渠道房源ID中匹配到一致的渠道房源ID,则根据所述待聚合房源数据对所述已聚合房源的房源数据进行更新;
若在已聚合房源的渠道房源ID中匹配到一致的渠道房源ID,则说明当前房源数据为聚合过的房源数据,则根据所述待聚合房源数据对所述已聚合房源的房源数据进行更新即可,不需要重新进行聚合,从而提高房源数据处理的效率。
若在已聚合房源的渠道房源ID中没有匹配到一致的渠道房源ID,则执行所述步骤10。
若在已聚合房源的渠道房源ID中没有匹配到一致的渠道房源ID,则说明当前房源数据为没有聚合过的房源数据,则需要将当前房源数据进行分组等操作,从而将当前房源数据进行聚合。进一步地,若当前房源数据聚合失败时,则先将聚合失败的房源数据进行保存,便于后续再次进行聚合,并对聚合失败的时间进行记录,当房源数据聚合失败的时间超过30天时,则将待聚合房源数据30天未聚合的数据成功自动标为下架;
进一步地,一套聚合房源,每个渠道的房源只能有一套。一旦聚合成功,待聚合房源进行标记,以后不再参与聚合。聚合房源中的附属房源,下架后,在聚合房源中把此附属房源剔除掉。待聚合房源下架后,时间超过30天,从待聚合房源库中剔除。其中,房源上下架状态的控制具体为:核心房源和附属房源的上下架状态:聚合房源下架时,核心房源和附属房源都进行下架。核心房源和附属房源一旦下架,则不能再上架,除非手动上架。核心房源和附属房源有7*24小数未能抓取到时,则认为房源以下架。下架后的房源不能参与聚合。聚合房源的上下架状态以核心房源为准。聚合房源可以手动上下架,手动上下架时,聚合房源中的房源都进行上下架的操作,从而使得便于对房源的生命周期进行管控。
进一步地,参照图4,基于本发明房源数据聚合展示方法第二实施例提出本发明房源数据聚合展示方法第三实施例。
在本实施例中,所述步骤S70包括:
步骤S71,将所述待聚合房源数据与已聚合房源的房源数据进行对比;
在本实施例中,在已聚合房源的渠道房源ID中匹配到一致的渠道房源ID时,需要判断所述已聚合房源的数据是否有更新,需要将所述待聚合房源数据与已聚合房源的房源数据进行对比,具体地,由于各个房源渠道获取到的房源数据有可能会不一样,在对比之前,可以进一步提取各个待聚合房源数据的房源渠道,然后将所述待聚合房源数据与已聚合房源的房源数据中房源渠道一致的房源数据进行对比。
步骤S72,若所述待聚合房源数据与已聚合房源的房源数据不一致,则提取所述待聚合房源数据中与已聚合房源的房源数据不一致的房源数据;
若所述待聚合房源数据与已聚合房源的房源数据不一致,则说明当前房源数据进行了更新,则提取所述待聚合房源数据中与已聚合房源的房源数据不一致的房源数据,以便对已聚合房源进行更新。
步骤S73,根据提取到的房源数据对已聚合房源的房源数据进行更新。
在提取得到待聚合房源数据中与已聚合房源的房源数据不一致的房源数据之后,即可根据提取到的房源数据对已聚合房源的房源数据进行更新即可,不需要重新进行聚合,从而提高房源数据处理的效率。
进一步地,参照图5,基于本发明房源数据聚合展示方法第一实施例提出本发明房源数据聚合展示方法第四实施例。
在本实施例中,所述步骤S40包括:
步骤S41,将所述附属房源的房源数据与核心房源的房源数据进行对比;
在本实施例中,由于需要得到完善的房源数据,因此,首先需要将附属房源及核心房源的房源数据进行聚合,具体地,将所述附属房源的房源数据与核心房源的房源数据进行对比,从而判断是否有存在于附属房源中,但在核心房源中不存在的房源数据。
步骤S42,若所述附属房源的房源数据与核心房源的房源数据不一致,则提取所述附属房源数据中与核心房源的房源数据不一致的房源数据;
若所述附属房源的房源数据与核心房源的房源数据不一致,则说明有存在于附属房源中,但在核心房源中不存在的房源数据,此时需要提取所述附属房源数据中与核心房源的房源数据不一致的房源数据,以便对核心房源的房源数据进行完善。
步骤S43,将所述不一致的房源数据添加至核心房源的房源数据中,并赋予添加房源数据后的核心房源数据对应的房源ID;
在提取得到附属房源数据中与核心房源的房源数据不一致的房源数据之后,即可将所述不一致的房源数据添加至核心房源的房源数据中,并赋予添加房源数据后的核心房源数据对应的房源ID,以便根据房源ID对聚合后的房源数据进行管理。
步骤S44,将所述添加房源数据后的核心房源数据及对应的房源ID在第一页签进行展示;
在将不一致的房源数据添加至核心房源的房源数据之后,即可获得聚合后的房源数据,此时可以将聚合后的房源数据添加至第一页签中,从而使得当前房源数据更加完善,然后将所述添加房源数据后的核心房源数据及对应的房源ID在第一页签进行展示。
步骤S45,将所述核心房源的房源数据及附属房源的房源数据在第二页签进行展示。
然后将核心房源、附属房源的房源数据分别添加至第二页签中,其中,所述第二页签可以有多个,并将所述核心房源的房源数据及附属房源的房源数据在第二页签进行展示。
进一步地,参照图6,基于本发明房源数据聚合展示方法第一实施例提出本发明房源数据聚合展示方法第五实施例。
在本实施例中,所述步骤S10之前的步骤,还包括:
步骤S80,启动房源系统中添加的数据采集器,根据接收到的房源爬取条件,选取需要爬取的房源信息并进行采集;
在本实施例中,可通过爬取的方式获取各个房源网站的房源数据,具体地,首先启动房源系统中添加的数据采集器,其中所述数据采集器也可以为安装在浏览器中的数据采集器,其中,数据采集器是用来批量采集网页,论坛等的内容,直接保存到数据或发布到网络的一种信息化工具。可以根据用户设定的规则自动采集原网页,获取格式网页中需要的内容,现在发展成也可以对数据进行处理的工具(系统)。如SQL Server 2008性能数据采集器可以让我们创建一个中心数据库来存储性能数据;它包含三个内置数据收集组来收集和存储数据;为了帮助我们识别和排除SQL Server性能相关的问题,我们可以使用其内置的三个报表来查看收集存储的数据。然后根据接收到的房源爬取条件,选取需要爬取的房源信息并进行采集,即可获取需要爬取的房源信息,从而避免获取到不是房源数据的其他数据,提高获取房源数据的准确性。
步骤S90,根据接收到的测试指令,测试采集到的房源信息是否为接收到的房源爬取条件所对应的房源信息;
在获取到房源数据之后,可以进一步对获取到的房源数据进行测试,具体地,用户可以通过点击测试按钮触发测试指令,系统在接收到测试指令时,即可根据所述测试指令测试采集到的房源信息是否为接收到的房源爬取条件所对应的房源信息,当测试完成之后,根据接收到的测试完成指令即可关闭测试窗口。
步骤S100,若采集到的房源信息为接收到的房源爬取条件所对应的房源信息,则根据接收到的下载指令下载所述房源数据,从而获得房源数据;
在通过测试,确定采集到的房源信息为接收到的房源爬取条件所对应的房源信息之后,用户即可对采集到房源数据进行下载或者保存,具体地,根据接收到的下载指令下载所述房源数据,从而获得房源数据;
步骤S110,对爬取得到的房源数据进行数据清洗,并将清洗成功的房源数据按照聚合规则进行聚合。
在爬取得到房源数据之后,可以进一步对爬取到的房源数据进行清洗,从而删除清洗失败的房源数据,保证房源数据的准确性,具体地,可以对爬取到的房源数据进行一致性检查,一致性检查(consistency check)是根据每个变量的合理取值范围和相互关系,检查房源数据是否合乎要求,从而发现超出正常范围、逻辑上不合理或者相互矛盾的房源数据。然后对进行一致性检查的房源数据进行估算,整例删除,变量删除和成对删除等操作,其中,估算(estimation)最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。整例删除(casewise deletion)是剔除含有缺失值的房源数据,比如将没有房屋面积的房源信息进行整列删除。变量删除(variable deletion)如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除。成对删除(pairwise deletion)是用一个特殊码(通常是9、99、999等)代表无效值和缺失值,同时保留房源数据集中的全部变量和样本,再将清洗失败的房源数据进行删除,即可获得清洗成功的待聚合房源数据。
可以根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组;然后提取分组后的待聚合房源数据中的房源渠道,以及各个房源渠道的优先级;其中各个房源渠道的优先级顺序可以根据房源数据的数量进行排序,房源数据越多的房源渠道,优先级越高,当然还可以根据房源数据的真实性将各个房源渠道的优先级顺序进行排序,房源数据的真实性越高的房源渠道,优先级越高,在此不对房源渠道的优先级排序方法进行限定。在提取得到各条房源数据的房源渠道,以及房源渠道的优先级顺序之后,首先将各条房源数据根据房源渠道的优先级高低进行排序,即可获得优先级最高的房源数据,然后将优先级最高的待聚合房源作为核心房源,其余房源作为附属房源,其中,附属房源可以有多个,也可以为一个,然后将所述核心房源及附属房源的房源信息进行聚合,即将核心房源的房源数据与附属房源的房源数据进行对比,然后将存在与附属房源中,但在核心房源中不存在的房源数据进行提取,并添加至核心房源中,获得聚合房源信息,并单独保留核心房源及附属房源的房源数据,从而使得当前房源数据更加完善。
进一步地,参照图7,基于本发明房源数据聚合展示方法第五实施例提出本发明房源数据聚合展示方法第六实施例。
在本实施例中,所述步骤S110包括:
步骤S111,对爬取到的房源数据进行一致性检查,识别出异常的房源数据;
在本实施例中,所述清洗的具体步骤可以为,首先对爬取到的房源数据进行一致性检查,识别异常的房源数据,一致性检查(consistency check)是根据每个变量的合理取值范围和相互关系,检查房源数据是否合乎要求,从而发现超出正常范围、逻辑上不合理或者相互矛盾的房源数据。例如,正常情况下,用户房屋的建筑面积应该大于套内面积,当用户的房屋的套内面积为60平方,但是建筑面积只有50平方,小于套内面积,应视为异常的房源数据。
步骤S112,将所述异常的房源数据返回至获取房源数据的网站进行验证;
在发现异常的房源数据之后,可以将所述异常的房源数据返回至获取房源数据的网站进行验证,或者直接将所述异常的房源数据进行删除;
步骤S113,将验证失败的房源数据进行删除。
当将所述异常的房源数据返回至获取房源信息的网站进行验证之后,当所述房源数据验证失败时,将验证失败的房源数据进行删除,当所述房源数据验证成功时,则根据获取房源数据的网站反馈的修改方案对房源数据进行修改。
进一步地,参照图8,基于本发明房源数据聚合展示方法第五实施例提出本发明房源数据聚合展示方法第七实施例。
在本实施例中,所述步骤S40之后的步骤,还包括:
步骤S120,当接收到用户的搜索条件时,根据用户的搜索条件查找聚合房源信息、核心房源信息及附属房源信息;
在本实施例中,在将房源数据进行展示时,可以进一步在展示页面中添加搜索框,以便用户进行搜索房源,具体地,当接收到用户的搜索条件时,根据用户的搜索条件查找聚合房源信息、核心房源信息及附属房源信息;
步骤S130,将查找到的聚合房源信息、核心房源信息及附属房源信息进行展示。
在查找得到聚合房源信息、核心房源信息及附属房源信息,将查找到的聚合房源信息、核心房源信息及附属房源信息进行展示,从而提高用户查找房源的效率。
本发明实施例进一步提供一种房源数据聚合展示装置,所述装置包括:
提取模块,用于提取清洗成功的待聚合房源数据,根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组;提取分组后的待聚合房源数据中的房源渠道,以及各个房源渠道的优先级;提取优先级最高的待聚合房源作为核心房源,其余房源作为附属房源,并将所述核心房源及附属房源的房源信息进行整合;
展示模块,用于将整合得到的房源信息以预设方式进行展示。
本发明房源数据聚合展示装置的具体实施例与上述房源数据聚合展示各实施例基本相同,在此不作赘述。
本发明实施例进一步提供一种房源数据聚合展示设备。
参照图9,图9为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
如图9所示,该房源数据聚合展示设备可以包括:处理器1001,例如CPU,网络接口1002,用户接口1003,存储器1004。这些组件之间的连接通信可以通过通信总线实现。网络接口1002可选的可以包括标准的有线接口(用于连接有线网络)、无线接口(如WI-FI接口、蓝牙接口、红外线接口等,用于连接无线网络)。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口(例如用于连接有线键盘、有线鼠标等)和/或无线接口(例如用于连接无线键盘、无线鼠标)。存储器1004可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1004可选的还可以是独立于前述处理器1001的存储装置。
可选地,该房源数据聚合展示设备还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。
本领域技术人员可以理解,图中示出的房源数据聚合展示设备结构并不构成对房源数据聚合展示设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图9所示,作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信模块、用户接口模块以及房源数据聚合展示程序。其中,操作系统是管理和控制房源数据聚合展示设备硬件与软件资源的程序,支持网络通信模块、用户接口模块、获取房源数据程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1002;用户接口模块用于管理和控制用户接口1003。
在图9所示的房源数据聚合展示设备中,网络接口1002主要用于连接数据库,与数据库进行数据通信;用户接口1003主要用于连接客户端(可以理解为用户端),与客户端进行数据通信,如通过窗口展示信息给客户端,或者接收客户端发送的操作信息;而处理器1001可以用于执行存储器1004中存储的房源数据聚合展示程序,以实现上述房源数据聚合展示方法实施例中的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述房源数据聚合展示方法实施例中的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种房源数据聚合展示方法,其特征在于,所述方法包括以下步骤:
提取清洗成功的待聚合房源数据,根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组;
提取分组后的待聚合房源数据中的房源渠道,以及各个房源渠道的优先级;
提取优先级最高的待聚合房源作为核心房源,其余房源作为附属房源,并将所述核心房源及附属房源的房源信息进行整合;
将整合得到的房源信息以预设方式进行展示。
2.如权利要求1所述的房源数据聚合展示方法,其特征在于,所述将整合得到的房源信息以预设方式进行展示的步骤之后,还包括:
将房源进行聚合之后,实时提取清洗成功的待聚合房源数据;
将提取到的待聚合房源数据中的渠道房源ID与已聚合房源的渠道房源ID进行匹配,判断是否匹配到一致的渠道房源ID;
若在已聚合房源的渠道房源ID中匹配到一致的渠道房源ID,则根据所述待聚合房源数据对所述已聚合房源的房源数据进行更新;否则,执行所述根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组的步骤。
3.如权利要求2所述的房源数据聚合展示方法,其特征在于,所述根据所述待聚合房源数据对所述已聚合房源的房源数据进行更新的步骤包括:
将所述待聚合房源数据与已聚合房源的房源数据进行对比;
若所述待聚合房源数据与已聚合房源的房源数据不一致,则提取所述待聚合房源数据中与已聚合房源的房源数据不一致的房源数据;
根据提取到的房源数据对已聚合房源的房源数据进行更新。
4.如权利要求1所述的房源数据聚合展示方法,其特征在于,所述将整合得到的房源信息以预设方式进行展示的步骤包括:
将所述附属房源的房源数据与核心房源的房源数据进行对比;
若所述附属房源的房源数据与核心房源的房源数据不一致,则提取所述附属房源的房源数据中与核心房源的房源数据不一致的房源数据;
将所述不一致的房源数据添加至核心房源的房源数据中,并赋予添加房源数据后的核心房源数据对应的房源ID;
将所述添加房源数据后的核心房源数据及对应的房源ID在第一页签进行展示;
将所述核心房源的房源数据及附属房源的房源数据在第二页签进行展示。
5.如权利要求1所述的房源数据聚合展示方法,其特征在于,所述提取清洗成功的待聚合房源数据的步骤之前,还包括:
启动房源系统中添加的数据采集器,根据接收到的房源爬取条件,选取需要爬取的房源信息并进行采集;
根据接收到的测试指令,测试采集到的房源信息是否为接收到的房源爬取条件所对应的房源信息;
若采集到的房源信息为接收到的房源爬取条件所对应的房源信息,则根据接收到的下载指令下载所述房源数据,从而获得房源数据;
对爬取得到的房源数据进行数据清洗,并将清洗成功的房源数据按照聚合规则进行聚合。
6.如权利要求5所述的房源数据聚合展示方法,其特征在于,所述对爬取得到的房源数据进行数据清洗的步骤包括:
对爬取到的房源数据进行一致性检查,识别出异常的房源数据;
将所述异常的房源数据返回至获取房源信息的网站进行验证;
将验证失败的房源数据进行删除。
7.如权利要求1-6任一项所述的房源数据聚合展示方法,其特征在于,所述将整合得到的房源信息以预设方式进行展示的步骤之后,还包括:
当接收到用户的搜索条件时,根据用户的搜索条件查找聚合房源信息、核心房源信息及附属房源信息;
将查找到的聚合房源信息、核心房源信息及附属房源信息进行展示。
8.一种房源数据聚合展示装置,其特征在于,所述装置包括:
提取模块,用于提取清洗成功的待聚合房源数据,根据所述待聚合房源数据中的地址信息将待聚合房源数据进行分组;提取分组后的待聚合房源数据中的房源渠道,以及各个房源渠道的优先级;提取优先级最高的待聚合房源作为核心房源,其余房源作为附属房源,并将所述核心房源及附属房源的房源信息进行整合;
展示模块,用于将整合得到的房源信息以预设方式进行展示。
9.一种房源数据聚合展示设备,其特征在于,所述房源数据聚合展示设备包括房源数据聚合展示程序,所述房源数据聚合展示程序被所述房源数据聚合展示设备执行时实现如权利要求1至7中任一项所述的房源数据聚合展示方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有房源数据聚合展示程序,所述房源数据聚合展示程序被处理器执行时实现如权利要求1至7中任一项所述的房源数据聚合展示方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810099481.4A CN108197311B (zh) | 2018-01-31 | 2018-01-31 | 房源数据聚合展示方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810099481.4A CN108197311B (zh) | 2018-01-31 | 2018-01-31 | 房源数据聚合展示方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108197311A CN108197311A (zh) | 2018-06-22 |
CN108197311B true CN108197311B (zh) | 2020-06-05 |
Family
ID=62592217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810099481.4A Active CN108197311B (zh) | 2018-01-31 | 2018-01-31 | 房源数据聚合展示方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108197311B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109191245A (zh) * | 2018-08-22 | 2019-01-11 | 山东儒房融科网络科技股份有限公司 | 一种房产电商平台 |
CN109035078A (zh) * | 2018-08-31 | 2018-12-18 | 北京诸葛找房信息技术有限公司 | 一种基于多维度信息相似计算的房源聚合方法 |
CN109472721A (zh) * | 2018-11-20 | 2019-03-15 | 北京千丁互联科技有限公司 | 一种房产资源管理方法及系统 |
CN110618982B (zh) * | 2018-12-26 | 2022-09-30 | 北京时光荏苒科技有限公司 | 一种多源异构数据的处理方法、装置、介质及电子设备 |
CN109918599A (zh) * | 2019-01-17 | 2019-06-21 | 平安城市建设科技(深圳)有限公司 | 房源发布决策方法、装置、设备及存储介质 |
CN110704524A (zh) * | 2019-09-06 | 2020-01-17 | 平安城市建设科技(深圳)有限公司 | 房源录入方法、装置、设备及计算机可读存储介质 |
CN115129973A (zh) * | 2020-03-31 | 2022-09-30 | 北京城市网邻信息技术有限公司 | 一种房源信息显示方法和装置 |
CN111798251A (zh) * | 2020-07-03 | 2020-10-20 | 北京字节跳动网络技术有限公司 | 房源数据的验证方法、装置和电子设备 |
CN112418631A (zh) * | 2020-11-16 | 2021-02-26 | 五八同城信息技术有限公司 | 一种资源分配方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101840562A (zh) * | 2009-02-16 | 2010-09-22 | 埃森哲环球服务有限公司 | 跨社区邀请和多提供商产品信息处理系统 |
CN101937449A (zh) * | 2010-07-01 | 2011-01-05 | 上海杰图房网信息科技有限公司 | 基于全景电子地图的房产展示系统和方法 |
CN105893622A (zh) * | 2016-04-29 | 2016-08-24 | 深圳市中润四方信息技术有限公司 | 一种聚合搜索方法及聚合搜索系统 |
CN106095953A (zh) * | 2016-06-13 | 2016-11-09 | 西安数驰信息科技有限公司 | 一种基于gis的不动产数据整合方法 |
CN107357940A (zh) * | 2017-08-28 | 2017-11-17 | 中煤航测遥感集团有限公司 | 一种不动产数据整合的方法和设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9516009B2 (en) * | 2014-09-29 | 2016-12-06 | Tetrapod Software, Inc. | Authenticating redirection service |
-
2018
- 2018-01-31 CN CN201810099481.4A patent/CN108197311B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101840562A (zh) * | 2009-02-16 | 2010-09-22 | 埃森哲环球服务有限公司 | 跨社区邀请和多提供商产品信息处理系统 |
CN101937449A (zh) * | 2010-07-01 | 2011-01-05 | 上海杰图房网信息科技有限公司 | 基于全景电子地图的房产展示系统和方法 |
CN105893622A (zh) * | 2016-04-29 | 2016-08-24 | 深圳市中润四方信息技术有限公司 | 一种聚合搜索方法及聚合搜索系统 |
CN106095953A (zh) * | 2016-06-13 | 2016-11-09 | 西安数驰信息科技有限公司 | 一种基于gis的不动产数据整合方法 |
CN107357940A (zh) * | 2017-08-28 | 2017-11-17 | 中煤航测遥感集团有限公司 | 一种不动产数据整合的方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108197311A (zh) | 2018-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108197311B (zh) | 房源数据聚合展示方法、装置、设备及可读存储介质 | |
CN109902224A (zh) | 基于用户行为分析的房源推荐方法、装置、设备和介质 | |
CN108874289B (zh) | 应用历史记录查看方法、装置及电子设备 | |
CN107909466B (zh) | 客户关系网络展示方法、装置、设备及可读存储介质 | |
CN113872691B (zh) | 光缆自动监测管理系统、方法、计算机设备及存储介质 | |
CN108230113A (zh) | 用户画像生成方法、装置、设备及可读存储介质 | |
US9262037B2 (en) | Selective capture of incoming email messages for diagnostic analysis | |
US10268655B2 (en) | Method, device, server and storage medium of searching a group based on social network | |
CN113872681B (zh) | 移动终端的光缆监管方法、系统、移动终端及存储介质 | |
WO2014082398A1 (zh) | 多平台应用搜索方法和服务器 | |
CN110704524A (zh) | 房源录入方法、装置、设备及计算机可读存储介质 | |
CN108197312A (zh) | 获取房源数据方法、装置、设备及可读存储介质 | |
CN109522282A (zh) | 图片管理方法、装置、计算机装置及存储介质 | |
CN104714987B (zh) | 社交网站搜寻结果数据排序显示的装置、方法与系统 | |
CN107153690A (zh) | 内容推送方法和装置 | |
JP6088781B2 (ja) | サーバ装置、プログラム及び制御方法 | |
JP5088016B2 (ja) | トレーサビリティ管理装置 | |
CN107622125B (zh) | 一种信息爬取方法和装置、电子设备 | |
JP4373751B2 (ja) | 問題解決支援サーバ、及び問題解決支援方法 | |
JP2005078334A (ja) | 文書管理システムにおける検索方法 | |
CN114048381A (zh) | 产品推荐方法、系统、存储介质及电子设备 | |
CN113256240A (zh) | 消息的处理方法、装置和服务器 | |
JP2007323554A (ja) | ネットワーク検索方法,クライアント,サーバ,システム | |
JP2009230483A (ja) | 情報検索方法、プログラム及び装置 | |
CN104572743A (zh) | 快速链接的信息更新方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |