CN110619039A - 一种房产信息的校验方法、装置、存储介质及电子设备 - Google Patents

一种房产信息的校验方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN110619039A
CN110619039A CN201811592982.2A CN201811592982A CN110619039A CN 110619039 A CN110619039 A CN 110619039A CN 201811592982 A CN201811592982 A CN 201811592982A CN 110619039 A CN110619039 A CN 110619039A
Authority
CN
China
Prior art keywords
verified
house source
source
house
characteristic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811592982.2A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youzhuju Network Technology Co Ltd
Original Assignee
Beijing Time Business Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Time Business Technology Co Ltd filed Critical Beijing Time Business Technology Co Ltd
Priority to CN201811592982.2A priority Critical patent/CN110619039A/zh
Publication of CN110619039A publication Critical patent/CN110619039A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/16Real estate

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开实施例公开了一种房产信息的校验方法、装置、存储介质及电子设备。该方法包括获取待校验房源的房产信息对应的特征信息集;根据每个所述待校验房源的特征信息集查询预设楼盘词典,并根据查询结果确定所述待校验房源是否为虚假房源。采用本公开实施例的技术方案,通过真实房源中的标准特征信息验证待校验房源的房产信息中的特征信息,以确定待校验房源是否为虚假房源,从而,实现快速地由已获取的房源中识别出虚假房源的效果,避免因缺乏识别虚假房源的有效手段而将虚假房源发布到网络平台进行展示的问题发生。

Description

一种房产信息的校验方法、装置、存储介质及电子设备
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种房产信息的校验方法、装置、存储介质及电子设备。
背景技术
随着互联网技术的发展,网络提供给用户的信息越来越丰富。例如,用户可以通过网络平台浏览房产信息,从而满足租房或买房的需求。
目前,网络平台上展示的房产信息,通常是由房产中介公司内的房产经纪人上传的。房产中介公司对房产经纪人的考核指标可能包括房源录入次数、以及售出房源套数等指标。由于涉及到业绩考核,一些房产经纪人可能会录入一些编造的房源或重复录入一些房源来满足考核要求,而相关技术中又缺少鉴别虚假房源的有效手段,导致这些虚假房源的相关信息被展示到网络平台上供用户浏览,给用户购置或租赁房产带来了不必要的麻烦,进而影响网络平台的用户黏度。
发明内容
本公开实施例提供一种房产信息的校验方法、装置、存储介质及电子设备,可以快速地识别出虚假房源。
第一方面,本公开实施例提供了一种房产信息的校验方法,包括:
获取待校验房源的房产信息对应的特征信息集;
根据每个所述待校验房源的特征信息集查询预设楼盘词典,并根据查询结果确定所述待校验房源是否为虚假房源,其中,所述预设楼盘词典是以设定特征字段为索引,对真实房源的标准特征信息进行存储的数据结构。
上述方案中,可选的是,在根据查询结果确定所述待校验房源是否为虚假房源之后,还包括:
若所述待校验房源为虚假房源,则删除所述待校验房源的房产信息。
上述方案中,可选的是,所述获取待校验房源的房产信息对应的特征信息集,包括:
获取待校验房源的房产信息,由所述房产信息中提取与设定特征字段对应的特征信息;
获取所述房产信息中的房源标识,关联存储所述房源标识、设定特征字段和特征信息,得到待校验房源的特征信息集。
上述方案中,可选的是,所述设定特征字段包括房产所属小区、户型、面积、楼层、朝向和价格。
上述方案中,可选的是,在获取待校验房源的房产信息对应的特征信息集之后,还包括:
将每个待校验房源的特征信息集中的特征信息映射至设定数字区间内,得到所述特征信息集对应的特征向量;
相应地,根据每个所述待校验房源的特征信息集查询预设楼盘词典,并根据查询结果确定所述待校验房源是否为虚假房源,包括:
根据所述特征向量遍历所述预设楼盘词典,确定与所述特征向量中房产所属小区相同的参考特征向量,其中,预设楼盘词典包含将各个标准特征信息映射至所述设定数字区间内得到的标准特征向量;
计算每个待校验房源的所述特征向量与所述参考特征向量的距离;
若所述距离超过设定距离阈值,则确定所述待校验房源是虚假房源;
若所述距离小于或等于设定距离阈值,则确定所述待校验房源是真实房源。
上述方案中,可选的是,根据每个所述待校验房源的特征信息集查询预设楼盘词典,并根据查询结果确定所述待校验房源是否为虚假房源,包括:
根据一个或至少两个设定特征字段对应的特征信息的组合查询预设楼盘词典,得到每个待校验房源对应的参考特征信息集;
确定每个待校验房源的特征信息集与所述参考特征信息集的相似度;
若所述相似度超过设定相似度阈值,则确定所述待校验房源是真实房源;
若所述相似度小于设定相似度阈值,则确定所述待校验房源是虚假房源。
进一步的,确定每个待校验房源的特征信息集与所述参考特征信息集的相似度,包括:
确定每个待校验房源在各个设定特征字段下的特征信息与参考特征信息的匹配程度;
根据所述匹配程度为每个待校验房源的特征信息集打分,将所述特征信息集的得分作为所述特征信息集与所述参考特征信息集的相似度。
第二方面,本公开实施例还提供了一种房产信息的校验装置,该装置包括:
信息获取模块,用于获取待校验房源的房产信息对应的特征信息集;
房源校验模块,用于根据每个所述待校验房源的特征信息集查询预设楼盘词典,并根据查询结果确定所述待校验房源是否为虚假房源,其中,所述预设楼盘词典是以设定特征字段为索引,对真实房源的标准特征信息进行存储的数据结构。
上述方案中,可选的是,所述房产信息的校验装置还包括:
信息删除模块,用于在根据查询结果确定所述待校验房源是否为虚假房源之后,若所述待校验房源为虚假房源,则删除所述待校验房源的房产信息。
上述方案中,可选的是,信息获取模块具体用于:
获取待校验房源的房产信息,由所述房产信息中提取与设定特征字段对应的特征信息;
获取所述房产信息中的房源标识,关联存储所述房源标识、设定特征字段和特征信息,得到待校验房源的特征信息集。
上述方案中,可选的是,所述设定特征字段包括房产所属小区、户型、面积、楼层、朝向和价格。
上述方案中,可选的是,所述房产信息的校验装置还包括:
向量确定模块,用于在获取待校验房源的房产信息对应的特征信息集之后,将每个待校验房源的特征信息集中的特征信息映射至设定数字区间内,得到所述特征信息集对应的特征向量;
相应地,房源校验模块具体用于:
根据所述特征向量遍历所述预设楼盘词典,确定与所述特征向量中房产所属小区相同的参考特征向量,其中,预设楼盘词典包含将各个标准特征信息映射至所述设定数字区间内得到的标准特征向量;
计算每个待校验房源的所述特征向量与所述参考特征向量的距离;
若所述距离超过设定距离阈值,则确定所述待校验房源是虚假房源;
若所述距离小于或等于设定距离阈值,则确定所述待校验房源是真实房源。
上述方案中,可选的是,房源校验模块包括:
词典查询子模块,用于根据一个或至少两个设定特征字段对应的特征信息的组合查询预设楼盘词典,得到每个待校验房源对应的参考特征信息集;
相似度确定子模块,用于确定每个待校验房源的特征信息集与所述参考特征信息集的相似度;若所述相似度超过设定相似度阈值,则确定所述待校验房源是真实房源;若所述相似度小于设定相似度阈值,则确定所述待校验房源是虚假房源。
进一步的,相似度确定子模块具体用于:
确定每个待校验房源在各个设定特征字段下的特征信息与参考特征信息的匹配程度;
根据所述匹配程度为每个待校验房源的特征信息集打分,将所述特征信息集的得分作为所述特征信息集与所述参考特征信息集的相似度。
第三方面,本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例所述的房产信息的校验方法。
第四方面,本公开实施例提供了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个存储器执行,使得所述一个或多个处理器实现如本公开实施例所述的房产信息的校验方法。
本公开实施例提供一种房产信息的校验方案,通过获取待校验房源信息中的特征信息集,根据每个待校验房源的特征信息集查询预设楼盘词典,并根据该查询结果确定该待校验房源是否为虚假房源。采用本公开实施例的技术方案,通过真实房源中的标准特征信息验证待校验房源的房产信息中的特征信息,以确定待校验房源是否为虚假房源,从而,实现快速地由已获取的房源中识别出虚假房源的效果,避免因缺乏识别虚假房源的有效手段而将虚假房源发布到网络平台进行展示的问题发生。
附图说明
图1为本发明实施例提供的一种房产信息的校验方法的流程图;
图2为本公开实施例提供的另一种房产信息的校验方法的流程图;
图3为本公开实施例提供的又一种房产信息的校验方法的流程图;
图4为本公开实施例提供的一种房产信息的校验装置的结构示意图;
图5为本公开实施例提供的一种电子设备的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1为本发明实施例提供的一种房产信息的校验方法的流程图,该方法可以由房产信息的校验装置来执行,该装置可由硬件和/或软件组成,并一般可集成在电子设备中。如图1所示,该方法可以包括如下步骤:
步骤110、获取待校验房源的房产信息对应的特征信息集。
需要说明的是,房产信息是对房源进行描述的信息,包括但不限于房源记录号(即房源标识)、地理位置、所属小区、户型、面积、楼层、朝向及价格。可以通过上述房产信息唯一代表一条房源记录,对应现实中的一个真实房源。例如,房产信息的形式可以是A市B区Z街道幸福里小区两室一厅小户型70平方米的朝南的中高层5楼的房源,售价为C万元。
示例性的,获取待校验房源的房产信息,由该房产信息中提取与设定特征字段对应的特征信息;获取所述房产信息中的房源标识,关联存储所述房源标识、设定特征字段和特征信息,得到待校验房源的特征信息集。其中,设定特征字段包括房产所属小区、户型、面积、楼层、朝向和价格中的一项或者至少两项的组合。对所获取的待校验房源的房产信息进行分词处理,将分词结果与设定特征字段进行匹配,分别确定各个设定特征字段对应的特征信息,由各个设定特征字段对应的特征信息构成特征信息集。
需要说明的是,上述公开的设定特征字段仅为示例并非限定。此外,此处的设定特征字段可以由预设楼盘词典中作为索引的设定特征字段确定。例如,用于确定待校验房源的房产信息中的特征信息的设定特征字段与预设楼盘词典中作为索引的设定特征字段可以是相同的字段。
步骤120、根据每个所述待校验房源的特征信息集查询预设楼盘词典,并根据查询结果确定所述待校验房源是否为虚假房源。
需要说明的是,上述预设楼盘词典可以是以设定特征字段为索引,对真实房源的标准特征信息进行存储的数据结构。其中,数据结构是指相互之间存在一种或多种特定关系的数据元素的集合,包括数组、链表、队列以及散列表(又称为哈希表)等。
例如,可以采用房产所属小区、户型、面积、楼层、朝向和价格中的一项或至少两项的组合作为索引,将真实房源的标准特征信息存储于预设楼盘词典中。以楼盘词典为哈希表为例,哈希表中每条记录为一个真实房源的房产信息(即value),设定特征字段作为键(即key),对房产信息进行存储。真实房源可以是通过爬虫技术由互联网中获取的真实的房源,还可以是地产商上报的真实的房源等等。
示例性的,根据特征信息查询预设楼盘词典可以是根据特征信息对应的设定特征字段查询楼盘词典,得到与设定特征字段对应的真实房源的标准特征信息。将待校验房源的房产信息中的特征信息与上述标准特征信息进行匹配,可以根据所述匹配程度确定待验证房源是否为虚假房源。例如,可以根据待校验房源的房产信息中的特征信息与标准特征信息的匹配数量为待校验房源的特征信息集打分,根据得分判断待校验房源是否为虚假房源。又如,计算待校验房源的特征信息与标准特征信息的偏差,根据该偏差程度确定待校验房源是否为虚假房源。可选的,若确定待校验房源为虚假房源,则删除该待校验房源的房产信息,从而,避免将虚假房源的房产信息发布至网络平台,提高了网络平台中展示的房产信息的准确度,提升了该网络平台的用户黏度。
本公开实施例的技术方案,通过获取待校验房源信息中的特征信息集,根据每个待校验房源的特征信息集查询预设楼盘词典,并根据该查询结果确定该待校验房源是否为虚假房源。采用本公开实施例的技术方案,通过真实房源中的标准特征信息验证待校验房源的房产信息中的特征信息,以确定待校验房源是否为虚假房源,从而,实现快速地由已获取的房源中识别出虚假房源的效果,避免因缺乏识别虚假房源的有效手段而将虚假房源发布到网络平台进行展示的问题发生。
图2为本公开实施例提供的另一种房产信息的校验方法的流程图。本实施例以上述实施例中各个可选方案为基础进行具体优化。如图2所示,该方法包括如下步骤:
步骤210、获取待校验房源的房产信息,由所述房产信息中提取与设定特征字段对应的特征信息。
其中,该设定特征字段包括房产所属小区、户型、面积、楼层、朝向和价格。
示例性的,顺序获取待校验的一条房产信息,对该房产信息进行分词处理,并将分词处理后得到的各个词语段与设定特征字段进行匹配,得到设定特征字段对应的特征信息,关联存储房源标识、各个设定特征字段及对应的特征信息,记为一条房产信息的特征信息集。以A市B区Z街道幸福里小区两室一厅小户型70平方米的朝南的中高层5楼,售价为C万元的房源为例,对上述房产信息进行分词处理,得到房源的定语为“A市”、“B区”、“Z街道”、“幸福里小区”、“两室一厅”、“小户型”、“70平方米”、“朝南”、“中高层”、“5楼”以及“C万元”等词语段。由于楼盘词典可以是以设定特征字段为索引的数据结构,因此,可以采用与楼盘词典相同的设定特征字段对上述词语段进行匹配操作,得到各个设定特征字段对应的词语段,将词语段对应的记为设定特征字段的特征信息。需要说明的是,如果某一设定特征字段未匹配到对应的词语段,则将该设定特征字段对应的特征信息记为0,以代表该特征字段对应的特征信息未包含在房产信息内。
步骤220、获取所述房产信息中的房源标识,关联存储所述房源标识、设定特征字段和特征信息,得到待校验房源的特征信息集。
示例性的,由待校验房源的房产信息中提取房源标识(如房源ID),将该房源标识、设定特征字段和对应的特征信息进行关联存储,得到待校验房源的特征信息集。需要说明的是,一条房产信息的特征信息集可以是该条房产信息中各个设定特征字段对应的特征信息的集合。当待校验的房源有多个时,分别获取各个房源的房产信息中各个设定特征字段对应的特征信息构成各个房源对应的特征信息集。
步骤230、根据一个或至少两个设定特征字段对应的特征信息的组合查询预设楼盘词典,得到每个待校验房源对应的参考特征信息集。
示例性的,可以根据设定特征字段对应的特征信息查询预设楼盘词典,可以得到与待校验房源的特征信息集具有相似特征的参考房源的参考特征信息集。例如,根据房产所属小区(诸如A市幸福里小区)查询预设楼盘词典,可以得到与待校验房源(A市幸福里小区)在同一小区内的参考房源的参考特征信息集,其中,参考房源的参考特征信息记录于楼盘词典内。又如,根据房产所属小区和户型查询预设楼盘词典,可以得到与待校验房源在同一小区且具有相同户型的参考房源的参考特征信息集。
步骤240、确定每个待校验房源在各个设定特征字段下的特征信息与参考特征信息的匹配程度。
在本实施例中,可以通过同一设定特征字段下的特征信息的偏差是否在设定偏差范围内,来衡量特征信息与参考特征信息的匹配程度。例如,待校验房源的房产所属小区在参考特征信息集中匹配到相同的房产所属小区,则确定在房产所属小区这一设定特征字段下,校验房源的特征信息与楼盘词典中的标准特征信息的匹配程度是100%。可选的,若待校验房源的房产所属小区是参考特征信息集中房产所属小区的缩写,则确定校验房源的特征信息与楼盘词典中的标准特征信息的匹配程度是100%。可选的,计算待校验房源的房产所属小区与参考特征信息集中的房产所属小区中出现重复字的概率,将该概率作为待校验房源的特征信息与参考特征信息集中的标准特征信息的匹配程度。假设待校验房源的房产所属小区与参考特征信息集中的房产所属小区的名字有3个字均相同,且小区名共4个字,则确定待校验房源的特征信息与楼盘词典中的标准特征信息的匹配程度是75%。
又如,计算待校验房源的价格与参考特征信息集内各个房源的价格的偏差,将该偏差作为价格特征字段下的特征信息与参考特征信息集中的标准特征信息的匹配程度。假设校验房源的价格是a,参考特征信息集内一个房源的价格是b,则偏差可以表示为|a-b|/b。
又如,计算待校验房源的面积与参考特征信息集内各个房源的面积的偏差,将该偏差作为面积特征字段下待校验房源的特征信息与参考特征信息集中标准特征信息的匹配程度。假设校验房源的价格是A,参考特征信息集内一个房源的价格是B,则偏差可以表示为|A-B|/B。
步骤250、根据所述匹配程度为每个待校验房源的特征信息集打分,将所述特征信息集的得分作为所述特征信息集与所述参考特征信息集的相似度。
示例性的,基于预先规定匹配程度与分值的对应关系,基于待校验房源的各个特征字段下的特征信息与参考特征信息的匹配程度,确定各个字段对应的特征信息得分,从而,得到特征信息集的得分,并将该得分作为特征信息集与参考特征信息集的相似度。假设预先规定的匹配程度与分值的对应关系是:匹配程度在0~20%的特征信息的得分是1分,匹配程度在21%~40%的特征信息的得分是2分,匹配程度在41%~60%的特征信息的得分是3分,匹配程度在61%~80%的特征信息的得分是4分,以及匹配程度在81%~100%的特征信息的得分是5分。假设待校验房源的各个特征字段下的特征信息与参考特征信息的匹配程度分别为:房产所属小区:匹配程度100%,户型:匹配程度100%,面积:匹配程度89%,楼层:匹配程度100%,朝向:匹配程度100%,价格:匹配程度100%。基于匹配程度与分值的对应关系可以得到各个设定特征字段对应特征信息的得分分别为:房产所属小区:5分,户型:5分,面积:4分,楼层:5分,朝向:5分,价格:5分,进而,该待校验房源的特征信息集的得分是29分。将该得分作为特征信息集与参考特征信息集的相似度。
步骤260、判断所述相似度是否超过设定相似度阈值,若是,则执行步骤270,否则执行步骤280。
需要说明的是,设定相似度阈值是可以判定两个房源为相似房源的最低得分。由于同一小区内包含的户型是固定的,且同一户型下的各个房源具有相似的特征,可以设定一个分数,将低于该分数的两个房源确定为不相似的房源。
步骤270、确定所述待校验房源是真实房源。
若所述相似度超过设定相似度阈值,则确定所述待校验房源是真实房源,在网络平台上发布该真实房源相关的房产信息。
步骤280、确定所述待校验房源是虚假房源。
若所述相似度小于设定相似度阈值,则确定所述待校验房源是虚假房源。
本实施例的技术方案,根据一个或至少两个设定特征字段对应的特征信息的组合查询预设楼盘词典,得到每个待校验房源对应的参考特征信息集,基于特征信息集与参考特征信息集的匹配程度为待校验房源的特征信息集打分,实现通过简单的运算即可确定待校验房源是否为虚假房源的效果,提高了由已获取的房源中识别出虚假房源的效率。
图3为本公开实施例提供的又一种房产信息的校验方法的流程图。本实施例以上述实施例中各个可选方案为基础进行具体优化。如图3所示,该方法包括如下步骤:
步骤310、获取待校验房源的房产信息,由所述房产信息中提取与设定特征字段对应的特征信息。
步骤320、获取所述房产信息中的房源标识,关联存储所述房源标识、设定特征字段和特征信息,得到待校验房源的特征信息集。
步骤330、将每个待校验房源的特征信息集中的特征信息映射至设定数字区间内,得到所述特征信息集对应的特征向量。
其中,所述设定特征字段包括单不限于房产所在城市、行政区、商圈、房产所属小区、户型、面积、楼层、朝向和价格。
示例性的,规定将地理位置在北京的二手房源的特征信息中城市映射为1,将地理位置在上海的二手房源的特征信息中城市映射为2,将地理位置在广州的二手房源的特征信息中城市映射为3,将地理位置在深圳的二手房源的特征信息中城市映射为4,以此类推,采用上述设定规则将待校验房源中的城市特征信息映射至设定数字区间内。
另外,对于北京市内的二手房的房源,可以根据行政区域不同进行映射处理。例如,规定位于海淀区的二手房源的地理位置中的行政区域映射为1,将朝阳区的二手房源的地理位置中的行政区域映射为2,将西城区的二手房源的地理位置中的行政区域映射为3,以此类推,采用上述设定规则将待校验房源中的行政区域映射至设定数字区间内。
另外,根据小区名为二手房的房源所在的小区进行编号,将小区编号作为将二手房源中的所属小区映射后的数值。
另外,根据户型信息将二手房的描述信息中户型映射至设定数字区间。例如,可以规定一室一厅的待校验房源的户型特征信息映射为11,将一室两厅的待校验房源的户型特征信息映射为12,将二室一厅的待校验房源的户型特征信息映射为21,将三室一厅的待校验房源的户型特征信息映射为31,将三室两厅的待校验房源的户型特征信息映射为32等等。
另外,根据待校验房源的楼层确定楼层映射后的数值。例如,假设待校验房源位于一楼,则将待校验房源的楼层特征信息映射为1。
另外,预先赋予东、南、西、北、东南、东北、西南及西北8个方向为1至8中的任意数值,从而,实现待校验房源中的朝向特征信息映射至设定数字区间。例如,待校验房源的朝向是南,则将待校验房源中的朝向特征信息映射为1。
另外,根据价格区间将待校验房源中的价格特征信息映射至设定数字区间。例如,预先设置价格区间是0到100万,101万到200万,201万到300万,…,对应的映射值分别为1,2,3,4,…,从而,实现将待校验房源中的价格特征信息映射至设定数字区间。经过上述映射处理,可以采用一维向量表示待校验房源的特征信息集。可选的,可以采用数组的形式分别存储各个待校验房源的特征信息集。
需要说明的是,在房产信息中的某项描述信息为空时,将该项描述信息映射至0,例如,房产信息中朝向特征信息为空,则将朝向特征信息映射为0。另外,本公开实施例中所列举的映射操作的数值是示例而非限定。
步骤340、根据所述特征向量遍历所述预设楼盘词典,确定与所述特征向量中房产所属小区相同的参考特征向量。
其中,预设楼盘词典包含将各个标准特征信息映射至所述设定数字区间内得到的标准特征向量。
示例性的,根据特征向量查询预设楼盘词典中的标准特征集对应的向量,确定与特征信息的房产所属小区的映射值相同的参考特征集,将参考特征集对应的向量记为参考特征向量。
需要说明的是,确定参考特征向量的方式还可以是结合至少两个设定字段对应的特征信息的映射值查询楼盘词典得到,本公开实施例对参考特征向量的确定方式并不作具体限定。
步骤350、计算每个待校验房源的所述特征向量与所述参考特征向量的距离。
示例性的,分别计算特征向量与参考特征向量对应分量的差值,得到特征向量与参考特征向量的距离。
步骤360、判断所述距离是否超过设定距离阈值,若是,则执行步骤370,否则执行步骤390。
需要说明的是,设定距离阈值是可以判定两个房源为相似房源的最小距离。
步骤370、确定所述待校验房源是虚假房源。
若所述距离超过设定距离阈值,则确定所述待校验房源是虚假房源。
步骤380、若所述待校验房源为虚假房源,则删除所述待校验房源的房产信息。
步骤390、确定所述待校验房源是真实房源。
若所述距离小于或等于设定距离阈值,则确定所述待校验房源是真实房源,避免因存储虚假房源的房产信息而影响真实房源的房产信息的查询效率的问题发生。
本实施例的技术方案,通过将特征信息集中的特征信息映射至设定数字区间,得到特征信息集对应的特征向量,采用计算特征向量与参考特征向量之间的距离的方式确定该特征向量对应的房源是否为虚假房源,通过计算向量中各个分量的差值的方式确定待校验房源与楼盘词典中真实房源的差异,可以提高虚假房源的辨识准确度。此外,在确定待校验房源是虚假房源后,将其由房源数据库中删除,可以避免将虚假房源的房产信息存储于数据库而对真实房源的数据查询效率造成影响的问题发生。
图4为本公开实施例提供的一种房产信息的校验装置的结构示意图,本实施例可适用于对房产信息进行校验的情况。该装置可以采用软件和/或硬件的方式实现,该装置可以配置于电子设备中。如图4所示,该装置可以包括:
信息获取模块410,用于获取待校验房源的房产信息对应的特征信息集;
房源校验模块420,用于根据每个所述待校验房源的特征信息集查询预设楼盘词典,并根据查询结果确定所述待校验房源是否为虚假房源,其中,所述预设楼盘词典是以设定特征字段为索引,对真实房源的标准特征信息进行存储的数据结构。
本公开实施例的技术方案,通过获取待校验房源信息中的特征信息集,根据每个待校验房源的特征信息集查询预设楼盘词典,并根据该查询结果确定该待校验房源是否为虚假房源。采用本公开实施例的技术方案,通过真实房源中的标准特征信息验证待校验房源的房产信息中的特征信息,以确定待校验房源是否为虚假房源,从而,实现快速地由已获取的房源中识别出虚假房源的效果,避免因缺乏识别虚假房源的有效手段而将虚假房源发布到网络平台进行展示的问题发生。
可选的是,所述房产信息的校验装置还包括:
信息删除模块,用于在根据查询结果确定所述待校验房源是否为虚假房源之后,若所述待校验房源为虚假房源,则删除所述待校验房源的房产信息。
可选的是,信息获取模块410具体用于:
获取待校验房源的房产信息,由所述房产信息中提取与设定特征字段对应的特征信息,得到待校验房源的特征信息集。
可选的是,所述设定特征字段包括房产所属小区、户型、面积、楼层、朝向和价格。
可选的是,所述房产信息的校验装置还包括:
向量确定模块,用于在获取待校验房源的房产信息对应的特征信息集之后,将每个待校验房源的特征信息集中的特征信息映射至设定数字区间内,得到所述特征信息集对应的特征向量;
相应地,房源校验模块420具体用于:
根据所述特征向量遍历所述预设楼盘词典,确定与所述特征向量中房产所属小区相同的参考特征向量,其中,预设楼盘词典包含将各个标准特征信息映射至所述设定数字区间内得到的标准特征向量;
计算每个待校验房源的所述特征向量与所述参考特征向量的距离;
若所述距离超过设定距离阈值,则确定所述待校验房源是虚假房源;
若所述距离小于或等于设定距离阈值,则确定所述待校验房源是真实房源。
可选的是,房源校验模块420包括:
词典查询子模块,用于根据一个或至少两个设定特征字段对应的特征信息的组合查询预设楼盘词典,得到每个待校验房源对应的参考特征信息集;
相似度确定子模块,用于确定每个待校验房源的特征信息集与所述参考特征信息集的相似度;若所述相似度超过设定相似度阈值,则确定所述待校验房源是真实房源;若所述相似度小于设定相似度阈值,则确定所述待校验房源是虚假房源。
进一步的,相似度确定子模块具体用于:
确定每个待校验房源在各个设定特征字段下的特征信息与参考特征信息的匹配程度;
根据所述匹配程度为每个待校验房源的特征信息集打分,将所述特征信息集的得分作为所述特征信息集与所述参考特征信息集的相似度。
本公开实施例还提供了一种电子设备,该电子设备中可集成本公开实施例提供的房产信息的校验装置。本公开实施例电子设备包括终端设备或服务器,其中,的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
图5为本公开实施例提供的一种电子设备的结构框图。该电子设备可以包括:一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个存储器执行,使得所述一个或多个处理器实现如下方法:
获取待校验房源的房产信息对应的特征信息集;
根据每个所述待校验房源的特征信息集查询预设楼盘词典,并根据查询结果确定所述待校验房源是否为虚假房源,其中,所述预设楼盘词典是以设定特征字段为索引,对真实房源的标准特征信息进行存储的数据结构。
应该理解的是,图示电子设备500仅仅是一个范例,并且电子设备500可以具有比图中所示出的更多的或者更少的部件,可以组合两个或更多的部件,或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
下面就本实施例提供的集成有房产信息的校验装置的电子设备进行详细的描述。
如图5所示,电子设备500可以包括处理器(例如中央处理器、图形处理器等)520,其可以根据存储在只读存储器(ROM)530中的程序或者从存储器510加载到随机访问存储器(RAM)540中的程序而执行各种适当的动作和处理。在RAM540中,还存储有电子设备500操作所需的各种程序和数据。处理器520、ROM530以及RAM540通过总线550彼此相连。输入/输出(I/O)接口560也连接至总线550。
通常,以下装置可以连接至I/O接口560:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置580;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置590;包括例如磁带、硬盘等的存储器510;电子设备500还可以包括通信装置570。通信装置570可以允许电子设备500与其它设备进行无线或有线通信以交换数据。
特别地,根据本公开实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行本公开实施例提供的房产信息的校验方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置从网络上被下载和安装,或者从存储器被安装,或者从ROM被安装。在该计算机程序被处理器执行时,执行本公开实施例的房产信息的校验方法中限定的上述功能。
需要说明的是,本公开实施例中计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备实现如下方法:
获取待校验房源的房产信息对应的特征信息集;
根据每个所述待校验房源的特征信息集查询预设楼盘词典,并根据查询结果确定所述待校验房源是否为虚假房源,其中,所述预设楼盘词典是以设定特征字段为索引,对真实房源的标准特征信息进行存储的数据结构。
当然,本公开实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的房产信息的校验操作,还可以执行本公开任意实施例所提供的房产信息的校验方法中的相关操作。
上述实施例中提供的房产信息的校验装置、存储介质及电子设备可执行本公开任意实施例所提供的房产信息的校验方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本公开任意实施例所提供的房产信息的校验方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块、单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块、单元的名称在某种情况下并不构成对该模块或单元本身的限定。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种房产信息的校验方法,其特征在于,包括:
获取待校验房源的房产信息对应的特征信息集;
根据每个所述待校验房源的特征信息集查询预设楼盘词典,并根据查询结果确定所述待校验房源是否为虚假房源,其中,所述预设楼盘词典是以设定特征字段为索引,对真实房源的标准特征信息进行存储的数据结构。
2.根据权利要求1所述的方法,其特征在于,在根据查询结果确定所述待校验房源是否为虚假房源之后,还包括:
若所述待校验房源为虚假房源,则删除所述待校验房源的房产信息。
3.根据权利要求1所述的方法,其特征在于,所述获取待校验房源的房产信息对应的特征信息集,包括:
获取待校验房源的房产信息,由所述房产信息中提取与设定特征字段对应的特征信息;
获取所述房产信息中的房源标识,关联存储所述房源标识、设定特征字段和特征信息,得到待校验房源的特征信息集。
4.根据权利要求2或3所述的方法,其特征在于,所述设定特征字段包括房产所属小区、户型、面积、楼层、朝向和价格。
5.根据权利要求4所述的方法,其特征在于,在获取待校验房源的房产信息对应的特征信息集之后,还包括:
将每个待校验房源的特征信息集中的特征信息映射至设定数字区间内,得到所述特征信息集对应的特征向量;
相应地,根据每个所述待校验房源的特征信息集查询预设楼盘词典,并根据查询结果确定所述待校验房源是否为虚假房源,包括:
根据所述特征向量遍历所述预设楼盘词典,确定与所述特征向量中房产所属小区相同的参考特征向量,其中,预设楼盘词典包含将各个标准特征信息映射至所述设定数字区间内得到的标准特征向量;
计算每个待校验房源的所述特征向量与所述参考特征向量的距离;
若所述距离超过设定距离阈值,则确定所述待校验房源是虚假房源;
若所述距离小于或等于设定距离阈值,则确定所述待校验房源是真实房源。
6.根据权利要求1所述的方法,其特征在于,根据每个所述待校验房源的特征信息集查询预设楼盘词典,并根据查询结果确定所述待校验房源是否为虚假房源,包括:
根据一个或至少两个设定特征字段对应的特征信息的组合查询预设楼盘词典,得到每个待校验房源对应的参考特征信息集;
确定每个待校验房源的特征信息集与所述参考特征信息集的相似度;
若所述相似度超过设定相似度阈值,则确定所述待校验房源是真实房源;
若所述相似度小于设定相似度阈值,则确定所述待校验房源是虚假房源。
7.根据权利要求6所述的方法,其特征在于,确定每个待校验房源的特征信息集与所述参考特征信息集的相似度,包括:
确定每个待校验房源在各个设定特征字段下的特征信息与参考特征信息的匹配程度;
根据所述匹配程度为每个待校验房源的特征信息集打分,将所述特征信息集的得分作为所述特征信息集与所述参考特征信息集的相似度。
8.一种房产信息的校验装置,其特征在于,包括:
信息获取模块,用于获取待校验房源的房产信息对应的特征信息集;
房源校验模块,用于根据每个所述待校验房源的特征信息集查询预设楼盘词典,并根据查询结果确定所述待校验房源是否为虚假房源,其中,所述预设楼盘词典是以设定特征字段为索引,对真实房源的标准特征信息进行存储的数据结构。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的房产信息的校验方法。
10.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个存储器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的房产信息的校验方法。
CN201811592982.2A 2018-12-25 2018-12-25 一种房产信息的校验方法、装置、存储介质及电子设备 Pending CN110619039A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811592982.2A CN110619039A (zh) 2018-12-25 2018-12-25 一种房产信息的校验方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811592982.2A CN110619039A (zh) 2018-12-25 2018-12-25 一种房产信息的校验方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN110619039A true CN110619039A (zh) 2019-12-27

Family

ID=68920170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811592982.2A Pending CN110619039A (zh) 2018-12-25 2018-12-25 一种房产信息的校验方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN110619039A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111383032A (zh) * 2020-02-12 2020-07-07 北京城市网邻信息技术有限公司 一种房源信息的真实性检测方法和装置
CN111552868A (zh) * 2020-03-31 2020-08-18 北京城市网邻信息技术有限公司 一种房源信息的排序方法和装置
CN111737599A (zh) * 2020-05-07 2020-10-02 北京城市网邻信息技术有限公司 一种房源对象的验证方法和装置
CN111798251A (zh) * 2020-07-03 2020-10-20 北京字节跳动网络技术有限公司 房源数据的验证方法、装置和电子设备
CN112148945A (zh) * 2020-09-25 2020-12-29 一起住好房(北京)网络科技有限公司 一种异常房源信息的识别方法
CN113947676A (zh) * 2021-09-30 2022-01-18 北京五八信息技术有限公司 一种信息处理方法、装置、电子设备及存储介质
WO2022134584A1 (zh) * 2020-12-22 2022-06-30 深圳壹账通智能科技有限公司 房产图片验证方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335422A (zh) * 2014-08-06 2016-02-17 阿里巴巴集团控股有限公司 舆情信息的告警方法及装置
CN107909516A (zh) * 2017-12-06 2018-04-13 链家网(北京)科技有限公司 一种问题房源识别方法和系统
US20180107643A1 (en) * 2016-10-18 2018-04-19 International Business Machines Corporation Methods and system for fast, adaptive correction of misspells

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335422A (zh) * 2014-08-06 2016-02-17 阿里巴巴集团控股有限公司 舆情信息的告警方法及装置
US20180107643A1 (en) * 2016-10-18 2018-04-19 International Business Machines Corporation Methods and system for fast, adaptive correction of misspells
CN107909516A (zh) * 2017-12-06 2018-04-13 链家网(北京)科技有限公司 一种问题房源识别方法和系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111383032A (zh) * 2020-02-12 2020-07-07 北京城市网邻信息技术有限公司 一种房源信息的真实性检测方法和装置
CN111383032B (zh) * 2020-02-12 2023-11-14 北京城市网邻信息技术有限公司 一种房源信息的真实性检测方法和装置
CN111552868A (zh) * 2020-03-31 2020-08-18 北京城市网邻信息技术有限公司 一种房源信息的排序方法和装置
CN111552868B (zh) * 2020-03-31 2024-06-11 北京城市网邻信息技术有限公司 一种房源信息的排序方法和装置
CN111737599A (zh) * 2020-05-07 2020-10-02 北京城市网邻信息技术有限公司 一种房源对象的验证方法和装置
CN111798251A (zh) * 2020-07-03 2020-10-20 北京字节跳动网络技术有限公司 房源数据的验证方法、装置和电子设备
CN112148945A (zh) * 2020-09-25 2020-12-29 一起住好房(北京)网络科技有限公司 一种异常房源信息的识别方法
WO2022134584A1 (zh) * 2020-12-22 2022-06-30 深圳壹账通智能科技有限公司 房产图片验证方法、装置、计算机设备及存储介质
CN113947676A (zh) * 2021-09-30 2022-01-18 北京五八信息技术有限公司 一种信息处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110619039A (zh) 一种房产信息的校验方法、装置、存储介质及电子设备
CN110633726A (zh) 一种房源识别方法、装置、存储介质及电子设备
CN110633381B (zh) 一种识别虚假房源的方法、装置、存储介质及电子设备
CN110618982B (zh) 一种多源异构数据的处理方法、装置、介质及电子设备
CN111427983B (zh) 基于地理信息检索的服务方法、系统、设备及存储介质
CN110196834A (zh) 一种用于数据项、文件、数据库的对标方法和系统
CN109492066B (zh) 一种兴趣点分支名称的确定方法、装置、设备及存储介质
CN111522927A (zh) 基于知识图谱的实体查询方法和装置
CN111522838A (zh) 地址相似度计算方法及相关装置
CN110781263A (zh) 房源信息展示方法、装置、电子设备及计算机存储介质
CN110659433B (zh) Poi价值评估的方法、装置、设备和计算机存储介质
CN111238507A (zh) 小区地理位置的确定方法、系统、电子设备及存储介质
CN111597466A (zh) 展示方法、装置和电子设备
CN111581228A (zh) 更正搜索条件的搜索方法、装置、存储介质及电子设备
CN111710017A (zh) 展示方法、装置和电子设备
CN111126422A (zh) 行业模型的建立及行业的确定方法、装置、设备及介质
CN113722580A (zh) 地址信息处理方法、装置、电子设备和计算机可读介质
CN114925680A (zh) 物流兴趣点信息生成方法、装置、设备和计算机可读介质
CN111241368B (zh) 数据处理方法、装置、介质和设备
CN111125272B (zh) 一种区域特征获取方法、装置、计算机设备及介质
CN110457705B (zh) 一种兴趣点数据处理方法、装置、设备和存储介质
CN114201568A (zh) 信息处理方法、生成方法、装置、电子设备以及存储介质
CN113868360A (zh) 地址数据处理方法、装置、电子设备和存储介质
CN109542986B (zh) 网络数据的要素归一化方法、装置、设备及存储介质
CN112699289A (zh) 房源信息聚合展示方法、装置、电子设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230421

Address after: Room 802, Information Building, 13 Linyin North Street, Pinggu District, Beijing, 101299

Applicant after: Beijing youzhuju Network Technology Co.,Ltd.

Address before: 100086 no.179, 15th floor, block B, building 1, No.38, Zhongguancun Street, Haidian District, Beijing

Applicant before: BEIJING SHIGUANG RENRAN TECHNOLOGY Co.,Ltd.