CN109189963B - 一种基于房源信息相似度与图片识别的房源去重方法 - Google Patents

一种基于房源信息相似度与图片识别的房源去重方法 Download PDF

Info

Publication number
CN109189963B
CN109189963B CN201811010586.4A CN201811010586A CN109189963B CN 109189963 B CN109189963 B CN 109189963B CN 201811010586 A CN201811010586 A CN 201811010586A CN 109189963 B CN109189963 B CN 109189963B
Authority
CN
China
Prior art keywords
house
source
pictures
repeated
house source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811010586.4A
Other languages
English (en)
Other versions
CN109189963A (zh
Inventor
张文战
杨丽娟
白峻峰
刘子耀
张凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuge Qihang Suzhou Technology Co ltd
Original Assignee
Beijing Zhuge Zhaofang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhuge Zhaofang Information Technology Co ltd filed Critical Beijing Zhuge Zhaofang Information Technology Co ltd
Priority to CN201811010586.4A priority Critical patent/CN109189963B/zh
Publication of CN109189963A publication Critical patent/CN109189963A/zh
Application granted granted Critical
Publication of CN109189963B publication Critical patent/CN109189963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于房源信息相似度与图片识别的房源去重方法,包括以下步骤:步骤(1)、关键字段等值去重:判断两个房源同字段值是否相等,如果房源的信息相等,判定为一套房源,新来的房源不入库;步骤(2)、根据图片链接,从源网站下载房源图片,并进行phash值计算,把相同phash值对应的房源ID找出来等。本发明的优点是:利用elasticsearch模块的快速检索及图片的phash值,可以快速从海量图片中找到重复图片,从而筛选出疑似重复房源,结合房源关键属性,实现精准去重,即使经纪人篡改信息,也能识别出来。

Description

一种基于房源信息相似度与图片识别的房源去重方法
技术领域
本发明涉及基于房源信息相似度与图片识别的房源去重方法。
背景技术
现有经纪公司、房产平台存在大量虚假、重复房源。经纪公司发布房源信息变化了,比如价格调整,经常忘了下架老房源,导致官网出现重复房源;平台类网站更有为了获取流量大量发布重复房源的现象。
现有平台大量重复房源的现象,导致购房者用户体验较差,而且有的重复房源信息不一致,购房者很难辨别哪个信息是可靠的。
发明内容
为克服现有技术的缺陷,本发明提供一种基于房源信息相似度与图片识别的房源去重方法,本发明的技术方案是:
一种基于房源信息相似度与图片识别的房源去重方法,包括以下步骤:
步骤(1)、关键字段等值去重:判断两个房源同字段值是否相等,如果房源的信息相等,判定为一套房源,新来的房源不入库;
步骤(2)、根据图片链接,从源网站下载房源图片,并进行phash值计算,把相同phash值对应的房源ID找出来,然后向elasticsearch模块存储对应房源图片的phash值;当下载的房源图片所有的房源图片比对过phash值后,和当前房源具有相同phash值的图片个数超过设定阈值时,判定为疑似重复房源;设定阈值需要满足:下载的房源图片张数以及当前房源图片的张数的至少70%以上的图片phash值相等,下载房源图片张数与当前房源图片张数差值的绝对值大于4;
步骤(3)、判定为疑似重复房源的,比对基础属性,例如房源的小区,楼层,总楼层,室数,厅数,卫生间数,装修,朝向,只要有5个符合条件,就可以认为是重复房源了,对于重复房源,把时间较早的房源进行下架;
步骤(4): 将elasticsearch模块中已经下架的房源图片信息删除;
步骤(5):准确性与覆盖率准确性检测:将判定为重复房源的房源通过报表例行输出,并进行抽检,人工确认是否确实是重复房源,若不是,则进行调整;
覆盖率检测:人工抽检确认是否属于重复房源。
本发明的优点是:利用elasticsearch模块的快速检索及图片的phash值,可以快速从海量图片中找到重复图片,从而筛选出疑似重复房源,结合房源关键属性,实现精准去重,即使经纪人篡改信息,也能识别出来。
具体实施方式
下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本发明的范围构成任何限制。本领域技术人员应该理解的是,在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换,但这些修改和替换均落入本发明的保护范围内。
本发明涉及一种基于房源信息相似度与图片识别的房源去重方法,包括以下步骤:
步骤(1)、关键字段等值去重:判断两个房源同字段值是否相等,如果房源的信息相等,判定为一套房源,新来的房源不入库;
步骤(2)、根据图片链接,从源网站下载房源图片,并进行phash值计算,把相同phash值对应的房源ID找出来,然后向elasticsearch模块存储对应房源图片的phash值;当下载的房源图片所有的房源图片比对过phash值后,和当前房源具有相同phash值的图片个数超过设定阈值时,判定为疑似重复房源;设定阈值需要满足:下载的房源图片张数以及当前房源图片的张数的至少70%以上的图片phash值相等,下载房源图片张数与当前房源图片张数差值的绝对值大于4;
步骤(3)、判定为疑似重复房源的,比对基础属性,例如房源的小区,楼层,总楼层,室数,厅数,卫生间数,装修,朝向,只要有5个符合条件,就可以认为是重复房源了,对于重复房源,把时间较早的房源进行下架;
步骤(4): 将elasticsearch模块中已经下架的房源图片信息删除;
步骤(5):准确性与覆盖率准确性检测:将判定为重复房源的房源通过报表例行输出,并进行抽检,人工确认是否确实是重复房源,若不是,则进行调整;
覆盖率检测:人工抽检确认是否属于重复房源。

Claims (1)

1.一种基于房源信息相似度与图片识别的房源去重方法,其特征在于,包括以下步骤:
步骤(1)、关键字段等值去重:判断两个房源同字段值是否相等,如果房源的信息相等,判定为一套房源,新来的房源不入库;
步骤(2)、根据图片链接,从源网站下载房源图片,并进行phash值计算,把相同phash值对应的房源ID找出来,然后向elasticsearch模块存储对应房源图片的phash值;当下载所有的房源图片与当前房源比对过phash值后,和当前房源具有相同phash值的图片个数超过设定阈值时,判定为疑似重复房源;设定阈值需要满足:下载的房源图片张数以及当前房源图片的张数的至少70%以上的图片phash值相等,下载房源图片张数与当前房源图片张数差值的绝对值大于4;
步骤(3)、判定为疑似重复房源的,比对基础属性,房源的小区,楼层,总楼层,室数,厅数,卫生间数,装修,朝向,只要有5个符合条件,就认为是重复房源了,对于重复房源,把时间较早的房源进行下架;
步骤(4): 将elasticsearch模块中已经下架的房源图片信息删除;
步骤(5):准确性与覆盖率准确性检测:将判定为重复房源的房源通过报表例行输出,并进行抽检,人工确认是否确实是重复房源,若不是,则进行调整;
覆盖率检测:人工抽检确认是否属于重复房源。
CN201811010586.4A 2018-08-31 2018-08-31 一种基于房源信息相似度与图片识别的房源去重方法 Active CN109189963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811010586.4A CN109189963B (zh) 2018-08-31 2018-08-31 一种基于房源信息相似度与图片识别的房源去重方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811010586.4A CN109189963B (zh) 2018-08-31 2018-08-31 一种基于房源信息相似度与图片识别的房源去重方法

Publications (2)

Publication Number Publication Date
CN109189963A CN109189963A (zh) 2019-01-11
CN109189963B true CN109189963B (zh) 2021-07-06

Family

ID=64917652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811010586.4A Active CN109189963B (zh) 2018-08-31 2018-08-31 一种基于房源信息相似度与图片识别的房源去重方法

Country Status (1)

Country Link
CN (1) CN109189963B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111383032B (zh) * 2020-02-12 2023-11-14 北京城市网邻信息技术有限公司 一种房源信息的真实性检测方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101034442A (zh) * 2006-03-08 2007-09-12 刘欣融 基于图像识别技术的商品的外观设计相同和相近似判断系统
KR100976138B1 (ko) * 2009-09-16 2010-08-16 (주)올라웍스 건축물 이미지의 계층적 매칭 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN103984776B (zh) * 2014-06-05 2017-05-03 北京奇虎科技有限公司 一种识别重复图片的方法、图片搜索去重方法及其装置
CN108009598A (zh) * 2017-12-27 2018-05-08 北京诸葛找房信息技术有限公司 基于深度学习的户型图识别方法
CN108427714A (zh) * 2018-02-02 2018-08-21 北京邮电大学 基于机器学习的房源重复记录识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于RESTful和Android的途家网房源管理系统的设计与实现";刘兴邦;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》;20151015;第I138-144页 *
"房产专业网站搜索可用性研究";段江玲;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》;20120715;第I139-458页 *

Also Published As

Publication number Publication date
CN109189963A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
US10303874B2 (en) Malicious code detection method based on community structure analysis
US9710488B2 (en) Location estimation using image analysis
CN110020433B (zh) 一种基于企业关联关系的工商高管人名消歧方法
CN105825138B (zh) 一种敏感数据识别的方法和装置
CN107977823A (zh) 突发事件处理方法和装置
CN103220352B (zh) 终端、服务器、文件存储系统和文件存储方法
WO2020000743A1 (zh) 一种webshell检测方法及相关设备
CN107844409A (zh) 测试用例执行方法和装置
CN111352759A (zh) 一种告警根因的判定方法及装置
CN106557574B (zh) 基于树结构的目标地址匹配方法和系统
CN104615658A (zh) 一种确定用户身份的方法
CN110111062B (zh) 一种基于大数据的伪装考勤场景识别方法及装置
CN109189963B (zh) 一种基于房源信息相似度与图片识别的房源去重方法
CN111615048A (zh) 一种定位方法、装置、电子设备及存储介质
JP2008226179A (ja) 業務プロセス推定プログラム、業務プロセス推定方法および業務プロセス推定装置
CN109858025A (zh) 一种地址标准化语料的分词方法及系统
CN104700030A (zh) 一种病毒数据查找方法、装置及服务器
CN112819056A (zh) 群控账号挖掘方法、装置、设备及存储介质
CN104376261A (zh) 一种在取证场景下自动检测恶意进程的方法
CN111581110A (zh) 一种业务数据准确性检测方法、装置、系统及存储介质
CN108540471B (zh) 移动应用网络流量聚类方法、计算机可读存储介质和终端
CN111383032B (zh) 一种房源信息的真实性检测方法和装置
CN110288272B (zh) 数据处理方法、装置、电子设备及存储介质
CN115239066A (zh) 一种通信信息化数据管控平台
CN111930977A (zh) 识别敏感信息的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 20th Floor, Building 6, Wisdom Valley Park, Taihu Software Industrial Park, No. 1421 Wuzhong Avenue, Yuexi Street, Wuzhong Economic Development Zone, Suzhou City, Jiangsu Province 215168

Patentee after: Zhuge Qihang (Suzhou) Technology Co.,Ltd.

Address before: 100012 13th floor, building 1, yard 19, Beiyuan East Road, Chaoyang District, Beijing (a316, Hongyuan Guangxing incubator, Laiguangying)

Patentee before: BEIJING ZHUGE ZHAOFANG INFORMATION TECHNOLOGY Co.,Ltd.