CN109189963B - 一种基于房源信息相似度与图片识别的房源去重方法 - Google Patents
一种基于房源信息相似度与图片识别的房源去重方法 Download PDFInfo
- Publication number
- CN109189963B CN109189963B CN201811010586.4A CN201811010586A CN109189963B CN 109189963 B CN109189963 B CN 109189963B CN 201811010586 A CN201811010586 A CN 201811010586A CN 109189963 B CN109189963 B CN 109189963B
- Authority
- CN
- China
- Prior art keywords
- house
- source
- pictures
- repeated
- house source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于房源信息相似度与图片识别的房源去重方法,包括以下步骤:步骤(1)、关键字段等值去重:判断两个房源同字段值是否相等,如果房源的信息相等,判定为一套房源,新来的房源不入库;步骤(2)、根据图片链接,从源网站下载房源图片,并进行phash值计算,把相同phash值对应的房源ID找出来等。本发明的优点是:利用elasticsearch模块的快速检索及图片的phash值,可以快速从海量图片中找到重复图片,从而筛选出疑似重复房源,结合房源关键属性,实现精准去重,即使经纪人篡改信息,也能识别出来。
Description
技术领域
本发明涉及基于房源信息相似度与图片识别的房源去重方法。
背景技术
现有经纪公司、房产平台存在大量虚假、重复房源。经纪公司发布房源信息变化了,比如价格调整,经常忘了下架老房源,导致官网出现重复房源;平台类网站更有为了获取流量大量发布重复房源的现象。
现有平台大量重复房源的现象,导致购房者用户体验较差,而且有的重复房源信息不一致,购房者很难辨别哪个信息是可靠的。
发明内容
为克服现有技术的缺陷,本发明提供一种基于房源信息相似度与图片识别的房源去重方法,本发明的技术方案是:
一种基于房源信息相似度与图片识别的房源去重方法,包括以下步骤:
步骤(1)、关键字段等值去重:判断两个房源同字段值是否相等,如果房源的信息相等,判定为一套房源,新来的房源不入库;
步骤(2)、根据图片链接,从源网站下载房源图片,并进行phash值计算,把相同phash值对应的房源ID找出来,然后向elasticsearch模块存储对应房源图片的phash值;当下载的房源图片所有的房源图片比对过phash值后,和当前房源具有相同phash值的图片个数超过设定阈值时,判定为疑似重复房源;设定阈值需要满足:下载的房源图片张数以及当前房源图片的张数的至少70%以上的图片phash值相等,下载房源图片张数与当前房源图片张数差值的绝对值大于4;
步骤(3)、判定为疑似重复房源的,比对基础属性,例如房源的小区,楼层,总楼层,室数,厅数,卫生间数,装修,朝向,只要有5个符合条件,就可以认为是重复房源了,对于重复房源,把时间较早的房源进行下架;
步骤(4): 将elasticsearch模块中已经下架的房源图片信息删除;
步骤(5):准确性与覆盖率准确性检测:将判定为重复房源的房源通过报表例行输出,并进行抽检,人工确认是否确实是重复房源,若不是,则进行调整;
覆盖率检测:人工抽检确认是否属于重复房源。
本发明的优点是:利用elasticsearch模块的快速检索及图片的phash值,可以快速从海量图片中找到重复图片,从而筛选出疑似重复房源,结合房源关键属性,实现精准去重,即使经纪人篡改信息,也能识别出来。
具体实施方式
下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本发明的范围构成任何限制。本领域技术人员应该理解的是,在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换,但这些修改和替换均落入本发明的保护范围内。
本发明涉及一种基于房源信息相似度与图片识别的房源去重方法,包括以下步骤:
步骤(1)、关键字段等值去重:判断两个房源同字段值是否相等,如果房源的信息相等,判定为一套房源,新来的房源不入库;
步骤(2)、根据图片链接,从源网站下载房源图片,并进行phash值计算,把相同phash值对应的房源ID找出来,然后向elasticsearch模块存储对应房源图片的phash值;当下载的房源图片所有的房源图片比对过phash值后,和当前房源具有相同phash值的图片个数超过设定阈值时,判定为疑似重复房源;设定阈值需要满足:下载的房源图片张数以及当前房源图片的张数的至少70%以上的图片phash值相等,下载房源图片张数与当前房源图片张数差值的绝对值大于4;
步骤(3)、判定为疑似重复房源的,比对基础属性,例如房源的小区,楼层,总楼层,室数,厅数,卫生间数,装修,朝向,只要有5个符合条件,就可以认为是重复房源了,对于重复房源,把时间较早的房源进行下架;
步骤(4): 将elasticsearch模块中已经下架的房源图片信息删除;
步骤(5):准确性与覆盖率准确性检测:将判定为重复房源的房源通过报表例行输出,并进行抽检,人工确认是否确实是重复房源,若不是,则进行调整;
覆盖率检测:人工抽检确认是否属于重复房源。
Claims (1)
1.一种基于房源信息相似度与图片识别的房源去重方法,其特征在于,包括以下步骤:
步骤(1)、关键字段等值去重:判断两个房源同字段值是否相等,如果房源的信息相等,判定为一套房源,新来的房源不入库;
步骤(2)、根据图片链接,从源网站下载房源图片,并进行phash值计算,把相同phash值对应的房源ID找出来,然后向elasticsearch模块存储对应房源图片的phash值;当下载所有的房源图片与当前房源比对过phash值后,和当前房源具有相同phash值的图片个数超过设定阈值时,判定为疑似重复房源;设定阈值需要满足:下载的房源图片张数以及当前房源图片的张数的至少70%以上的图片phash值相等,下载房源图片张数与当前房源图片张数差值的绝对值大于4;
步骤(3)、判定为疑似重复房源的,比对基础属性,房源的小区,楼层,总楼层,室数,厅数,卫生间数,装修,朝向,只要有5个符合条件,就认为是重复房源了,对于重复房源,把时间较早的房源进行下架;
步骤(4): 将elasticsearch模块中已经下架的房源图片信息删除;
步骤(5):准确性与覆盖率准确性检测:将判定为重复房源的房源通过报表例行输出,并进行抽检,人工确认是否确实是重复房源,若不是,则进行调整;
覆盖率检测:人工抽检确认是否属于重复房源。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811010586.4A CN109189963B (zh) | 2018-08-31 | 2018-08-31 | 一种基于房源信息相似度与图片识别的房源去重方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811010586.4A CN109189963B (zh) | 2018-08-31 | 2018-08-31 | 一种基于房源信息相似度与图片识别的房源去重方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109189963A CN109189963A (zh) | 2019-01-11 |
CN109189963B true CN109189963B (zh) | 2021-07-06 |
Family
ID=64917652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811010586.4A Active CN109189963B (zh) | 2018-08-31 | 2018-08-31 | 一种基于房源信息相似度与图片识别的房源去重方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109189963B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111383032B (zh) * | 2020-02-12 | 2023-11-14 | 北京城市网邻信息技术有限公司 | 一种房源信息的真实性检测方法和装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101034442A (zh) * | 2006-03-08 | 2007-09-12 | 刘欣融 | 基于图像识别技术的商品的外观设计相同和相近似判断系统 |
KR100976138B1 (ko) * | 2009-09-16 | 2010-08-16 | (주)올라웍스 | 건축물 이미지의 계층적 매칭 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 |
CN103984776B (zh) * | 2014-06-05 | 2017-05-03 | 北京奇虎科技有限公司 | 一种识别重复图片的方法、图片搜索去重方法及其装置 |
CN108009598A (zh) * | 2017-12-27 | 2018-05-08 | 北京诸葛找房信息技术有限公司 | 基于深度学习的户型图识别方法 |
CN108427714A (zh) * | 2018-02-02 | 2018-08-21 | 北京邮电大学 | 基于机器学习的房源重复记录识别方法及系统 |
-
2018
- 2018-08-31 CN CN201811010586.4A patent/CN109189963B/zh active Active
Non-Patent Citations (2)
Title |
---|
"基于RESTful和Android的途家网房源管理系统的设计与实现";刘兴邦;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》;20151015;第I138-144页 * |
"房产专业网站搜索可用性研究";段江玲;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》;20120715;第I139-458页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109189963A (zh) | 2019-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10303874B2 (en) | Malicious code detection method based on community structure analysis | |
US9710488B2 (en) | Location estimation using image analysis | |
CN110020433B (zh) | 一种基于企业关联关系的工商高管人名消歧方法 | |
CN105825138B (zh) | 一种敏感数据识别的方法和装置 | |
CN107977823A (zh) | 突发事件处理方法和装置 | |
CN103220352B (zh) | 终端、服务器、文件存储系统和文件存储方法 | |
WO2020000743A1 (zh) | 一种webshell检测方法及相关设备 | |
CN107844409A (zh) | 测试用例执行方法和装置 | |
CN111352759A (zh) | 一种告警根因的判定方法及装置 | |
CN106557574B (zh) | 基于树结构的目标地址匹配方法和系统 | |
CN104615658A (zh) | 一种确定用户身份的方法 | |
CN110111062B (zh) | 一种基于大数据的伪装考勤场景识别方法及装置 | |
CN109189963B (zh) | 一种基于房源信息相似度与图片识别的房源去重方法 | |
CN111615048A (zh) | 一种定位方法、装置、电子设备及存储介质 | |
JP2008226179A (ja) | 業務プロセス推定プログラム、業務プロセス推定方法および業務プロセス推定装置 | |
CN109858025A (zh) | 一种地址标准化语料的分词方法及系统 | |
CN104700030A (zh) | 一种病毒数据查找方法、装置及服务器 | |
CN112819056A (zh) | 群控账号挖掘方法、装置、设备及存储介质 | |
CN104376261A (zh) | 一种在取证场景下自动检测恶意进程的方法 | |
CN111581110A (zh) | 一种业务数据准确性检测方法、装置、系统及存储介质 | |
CN108540471B (zh) | 移动应用网络流量聚类方法、计算机可读存储介质和终端 | |
CN111383032B (zh) | 一种房源信息的真实性检测方法和装置 | |
CN110288272B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN115239066A (zh) | 一种通信信息化数据管控平台 | |
CN111930977A (zh) | 识别敏感信息的方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 20th Floor, Building 6, Wisdom Valley Park, Taihu Software Industrial Park, No. 1421 Wuzhong Avenue, Yuexi Street, Wuzhong Economic Development Zone, Suzhou City, Jiangsu Province 215168 Patentee after: Zhuge Qihang (Suzhou) Technology Co.,Ltd. Address before: 100012 13th floor, building 1, yard 19, Beiyuan East Road, Chaoyang District, Beijing (a316, Hongyuan Guangxing incubator, Laiguangying) Patentee before: BEIJING ZHUGE ZHAOFANG INFORMATION TECHNOLOGY Co.,Ltd. |