CN110807482A - 相同房源检测方法、装置和存储介质 - Google Patents
相同房源检测方法、装置和存储介质 Download PDFInfo
- Publication number
- CN110807482A CN110807482A CN201911047048.7A CN201911047048A CN110807482A CN 110807482 A CN110807482 A CN 110807482A CN 201911047048 A CN201911047048 A CN 201911047048A CN 110807482 A CN110807482 A CN 110807482A
- Authority
- CN
- China
- Prior art keywords
- house
- sources
- similarity
- house sources
- platforms
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 38
- 239000013598 vector Substances 0.000 claims description 93
- 238000004364 calculation method Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 12
- 230000003203 everyday effect Effects 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0629—Directed, with specific intent or strategy for generating comparisons
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Resources & Organizations (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供一种相同房源检测方法、装置和存储介质,所述方法包括通过获取N个平台上的房源的多项发布信息;针对N个平台中任意两个平台,根据两个平台上的房源的发布信息,获取两个平台间的各房源之间的各项发布信息的相似度;针对两个平台间的任意两个房源,根据两个房源之间的各项发布信息的相似度,确定两个房源之间的相似度;根据N个平台中所有两个平台间的各房源之间的相似度,确定N个平台中属于同一房源的房源。解决了现有技术中,用户需要查看各平台上的房源,从而确定相同房源时,效率低的问题,提高了在不同平台上获取到同一房源的效率,对于同一房源可以为用户确定其最低价格,提高了用户体验。
Description
技术领域
本发明实施例涉及大数据技术领域,尤其涉及一种相同房源检测方法、装置和存储介质。
背景技术
民宿指的是Airbnb、美团民宿、途家等平台上的个人短租房源,民宿以个性化、位置、价格等优势,成为越来越多的年轻人出行的住宿选择。个人房东将闲置的房源发布到上述平台,由于各个平台的优惠政策不一样,同一房源在不同平台上的价格也不同,并且,房东在不同平台上设置的价格也会变化,这些都导致同一个房源反映在各个平台的最终用户支付价格有高有低。对于用户来说同一房源,价格越低越好。
目前,用户为找到同一房源在多个平台上的最低价格,通常是比较发布同一房源的多个平台中上的价格,这样方式不仅效率低,并且用户很难找到发布同一房源的所有的平台,因此,支付的价格有很大可能不是最低的。但是,对于用户来说,通过在发布同一房源的每个平台上找到该房源进行比价,难以实现,且效率也低。
发明内容
本发明实施例提供一种相同房源检测方法、装置和存储介质,提高了在不同平台上获取到同一房源的效率,并且比较的平台的数量也尽可能的多,从而对于同一房源可以为用户确定其最低价格,提高了用户体验。
第一方面,本发明实施例提供一种相同房源检测方法,包括:
获取N个平台上的房源的多项发布信息,N为大于或等于2的整数,所述多项发布信息包括:房源的位置、房源的名称、房源的图片集和过去预设时间段内房源的价格日历中的多项;
针对N个平台中任意两个平台,根据所述两个平台上的房源的发布信息,获取所述两个平台间的各房源之间的各项发布信息的相似度;
针对所述两个平台间的任意两个房源,根据所述两个房源之间的各项发布信息的相似度,确定所述两个房源之间的相似度;
根据N个平台中所有两个平台间的各房源之间的相似度,确定所述N个平台中属于同一房源的房源。
在一些可能的实施例中,所述根据N个平台中所有两个平台间的各房源之间的相似度,确定所述N个平台中属于同一房源的房源,包括:
若两个房源之间的相似度大于预设相似度,则确定所述两个房源为同一房源。
在一些可能的实施例中,所述根据所述两个平台上的房源的发布信息,获取所述两个平台间的各房源之间的各项发布信息的相似度,包括:
若所述发布信息包括房源的位置,则根据两个房源的位置,分别确定所述两个房源的经纬度;
根据所述两个房源的经纬度,分别获得所述两个房源的二维空间向量,其中,二维空间向量的坐标包括经度和纬度;
根据所述两个房源的二维空间向量,确定所述两个房源之间的房源的位置的相似度。
在一些可能的实施例中,所述根据所述两个平台上的房源的发布信息,获取所述两个平台间的各房源之间的各项发布信息的相似度,包括:
若所述发布信息包括房源的名称,则对每个房源的名称进行分词处理,获得至少一个词语;
获取所述两个房源的名称分词后的词语的并集,所述并集包括M个词语,所述M为大于等于1的整数;
获取所述并集中每个词语分别在两个房源的名称中出现的次数;
根据所述并集中M个词语分别在两个房源的名称中出现的次数,分别获得所述两个房源的M维空间向量,所述M维空间向量的坐标包括M个词语中各个词语在房源的名称中出现在的次数;
根据所述两个房源的M维空间向量,确定所述两个房源之间的房源的位置的相似度。
在一些可能的实施例中,所述价格日历包括:房源的价格和房源的预定状态,其中,预定状态包括可预定状态、不可预定状态;
所述根据所述两个平台上的房源的发布信息,获取所述两个平台间的各房源之间的各项发布信息的相似度,包括:
若所述发布信息包括过去预设时间段内房源的价格日历,则根据过去预设时间段内两个房源的价格,获得所述两个房源的价格的相似度;
根据过去预设时间段内两个房源的预定状态,获得所述两个房源的预定状态的相似度;
根据所述两个房源的价格的相似度以及所述两个房源的预定状态的相似度,获得所述两个平台间的各房源之间的价格日历的相似度。
在一些可能的实施例中,所述根据所述两个房源的价格的相似度以及所述两个房源的预定状态的相似度,获得所述两个平台间的各房源之间的价格日历的相似度,包括:
根据所述两个房源的价格的相似度、价格相似度的权重因子以及所述两个房源的预定状态的相似度、预定状态相似度的权重因子,获得所述两个平台间的各房源之间的价格日历的相似度。
在一些可能的实施例中,所述预设时间段为K天,所述K为大于等于2的整数,所述根据过去预设时间段内两个房源的价格,获得所述两个房源的价格的相似度,包括:
根据K天内两个房源的价格,分别获得所述两个房源的K维空间向量,所述K维空间向量的坐标包括K天中每天房源的价格;
根据所述两个房源的K维空间向量,确定所述两个房源之间的房源的价格的相似度。
在一些可能的实施例中,所述预设时间段为K天,所述K为大于等于2的整数,所述根据过去预设时间段内两个房源的预定状态,获得所述两个房源的预定状态的相似度,包括:
根据K天内两个房源的预定状态,分别获得所述两个房源的K维空间向量,所述K维空间向量的坐标包括K天中每天房源的预定状态数值,其中,可预定状态对应的预定状态数值与不可预定状态对应的预定状态数值不同;
根据所述两个房源的K维空间向量,确定所述两个房源之间的房源的预定状态的相似度。
在一些可能的实施例中,根据所述两个房源的空间向量,确定所述两个房源之间的发布信息的相似度,包括:
根据所述两个房源的空间向量,确定所述两个房源的空间向量之间夹角的余弦值,并确定所述余弦值为所述两个房源之间的房源的位置的相似度。
在一些可能的实施例中,所述根据所述两个平台上的房源的发布信息,获取所述两个平台间的各房源之间的各项发布信息的相似度,包括:
若所述发布信息包括房源的图片集,根据两个房源的图片集,确定两个房源中图片集的相似图片;
根据相似图片的张数以及两个房源中数量最多的图片集的图片数量,确定两个房源中的房源的图片的相似度。
第二方面,本发明实施例提供一种相同房源检测装置,包括:
获取模块,用于获取N个平台上的房源的多项发布信息,N为大于或等于2的整数,所述多项发布信息包括:房源的位置、房源的名称、房源的图片集和过去预设时间段内房源的价格日历中的多项;
计算模块,用于针对N个平台中任意两个平台,根据所述两个平台上的房源的发布信息,获取所述两个平台间的各房源之间的各项发布信息的相似度;
所述计算模块,还用于针对所述两个平台间的任意两个房源,根据所述两个房源之间的各项发布信息的相似度,确定所述两个房源之间的相似度;
处理模块,用于根据N个平台中所有两个平台间的各房源之间的相似度,确定所述N个平台中属于同一房源的房源。
在一些可能的实施例中,所述处理模块在根据N个平台中所有两个平台间的各房源之间的相似度,确定所述N个平台中属于同一房源的房源时,具体用于:
若两个房源之间的相似度大于预设相似度,则确定所述两个房源为同一房源。
在一些可能的实施例中,所述计算模块在根据所述两个平台上的房源的发布信息,获取所述两个平台间的各房源之间的各项发布信息的相似度时,具体用于:
若所述发布信息包括房源的位置,则根据两个房源的位置,分别确定所述两个房源的经纬度;
根据所述两个房源的经纬度,分别获得所述两个房源的二维空间向量,其中,二维空间向量的坐标包括经度和纬度;
根据所述两个房源的二维空间向量,确定所述两个房源之间的房源的位置的相似度。
在一些可能的实施例中,所述计算模块在根据所述两个平台上的房源的发布信息,获取所述两个平台间的各房源之间的各项发布信息的相似度时,具体用于:
若所述发布信息包括房源的名称,则对每个房源的名称进行分词处理,获得至少一个词语;
获取所述两个房源的名称分词后的词语的并集,所述并集包括M个词语,所述M为大于等于1的整数;
获取所述并集中每个词语分别在两个房源的名称中出现的次数;
根据所述并集中M个词语分别在两个房源的名称中出现的次数,分别获得所述两个房源的M维空间向量,所述M维空间向量的坐标包括M个词语中各个词语在房源的名称中出现在的次数;
根据所述两个房源的M维空间向量,确定所述两个房源之间的房源的位置的相似度。
在一些可能的实施例中,所述价格日历包括:房源的价格和房源的预定状态,其中,预定状态包括可预定状态、不可预定状态;
所述计算模块在根据所述两个平台上的房源的发布信息,获取所述两个平台间的各房源之间的各项发布信息的相似度时,具体用于:
若所述发布信息包括过去预设时间段内房源的价格日历,则根据过去预设时间段内两个房源的价格,获得所述两个房源的价格的相似度;
根据过去预设时间段内两个房源的预定状态,获得所述两个房源的预定状态的相似度;
根据所述两个房源的价格的相似度以及所述两个房源的预定状态的相似度,获得所述两个平台间的各房源之间的价格日历的相似度。
在一些可能的实施例中,所述计算模块在根据所述两个房源的价格的相似度以及所述两个房源的预定状态的相似度,获得所述两个平台间的各房源之间的价格日历的相似度时,具体用于:
根据所述两个房源的价格的相似度、价格相似度的权重因子以及所述两个房源的预定状态的相似度、预定状态相似度的权重因子,获得所述两个平台间的各房源之间的价格日历的相似度。
在一些可能的实施例中,所述预设时间段为K天,所述K为大于等于2的整数,所述计算模块在根据过去预设时间段内两个房源的价格,获得所述两个房源的价格的相似度时,具体用于:
根据K天内两个房源的价格,分别获得所述两个房源的K维空间向量,所述K维空间向量的坐标包括K天中每天房源的价格;
根据所述两个房源的K维空间向量,确定所述两个房源之间的房源的价格的相似度。
在一些可能的实施例中,所述预设时间段为K天,所述K为大于等于2的整数,所述计算模块在根据过去预设时间段内两个房源的预定状态,获得所述两个房源的预定状态的相似度时,具体用于:
根据K天内两个房源的预定状态,分别获得所述两个房源的K维空间向量,所述K维空间向量的坐标包括K天中每天房源的预定状态数值,其中,可预定状态对应的预定状态数值与不可预定状态对应的预定状态数值不同;
根据所述两个房源的K维空间向量,确定所述两个房源之间的房源的预定状态的相似度。
在一些可能的实施例中,所述计算模块在根据所述两个房源的空间向量,确定所述两个房源之间的发布信息的相似度时,具体用于:
根据所述两个房源的空间向量,确定所述两个房源的空间向量之间夹角的余弦值,并确定所述余弦值为所述两个房源之间的房源的位置的相似度。
在一些可能的实施例中,所述计算模块字啊根据所述两个平台上的房源的发布信息,获取所述两个平台间的各房源之间的各项发布信息的相似度时,具体用于:
若所述发布信息包括房源的图片集,根据两个房源的图片集,确定两个房源中图片集的相似图片;
根据相似图片的张数以及两个房源中数量最多的图片集的图片数量,确定两个房源中的房源的图片的相似度。
第三方面,本发明实施例提供一种电子设备,该电子设备包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,以执行本发明实施例第一方面任一项所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,该计算机可读存储介质中存储有程序指令,所述程序指令被处理器执行时实现发明实施例第一方面任一项所述的方法。
第五方面,本申请实施例提供一种程序产品,所述程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备实施本申请发明实施例第一方面任一项所述的方法。
本发明实施例提供一种相同房源检测方法、装置和存储介质,通过获取N个平台上的房源的多项发布信息,N为大于或等于2的整数,多项发布信息包括:房源的位置、房源的名称、房源的图片集和过去预设时间段内房源的价格日历中的多项;针对N个平台中任意两个平台,根据两个平台上的房源的发布信息,获取两个平台间的各房源之间的各项发布信息的相似度;针对两个平台间的任意两个房源,根据两个房源之间的各项发布信息的相似度,确定两个房源之间的相似度;根据N个平台中所有两个平台间的各房源之间的相似度,确定N个平台中属于同一房源的房源。解决了现有技术中,用户需要查看各平台上的房源,从而确定相同房源时,效率低的问题,以及用户无法通过查看每个平台上的房源信息,确定相同房源的问题,提高了在不同平台上获取到同一房源的效率,并且比较的平台的数量也尽可能的多,从而对于同一房源可以为用户确定其最低价格,提高了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的应用场景示意图;
图2为本发明一实施例提供的相同房源检测方法的流程图;
图3为本发明一实施例提供的S102的流程图;
图4为本发明另一实施例提供的S102的流程图;
图5为本发明另一实施例提供的S102的流程图;
图6为本发明另一实施例提供的S102的流程图;
图7为本发明一实施例提供的相同房源检测装置的结构示意图;
图8为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一实施例提供的应用场景示意图。如图1所示,房东将同一房源登记在平台1、平台2、平台3、…、平台N上,通过相同房源检测系统获取平台1、平台2、平台3、…、平台N上的房源的多项发布信息,从而根据下面任一实施例的方法确定N个平台上的相同的房源。
图2为本发明一实施例提供的相同房源检测方法的流程图,如图2所示,本实施例的方法可以包括:
S101、获取N个平台上的房源的多项发布信息。
其中,N为大于或等于2的整数,多项发布信息包括:房源的位置、房源的名称、房源的图片集和过去预设时间段内房源的价格日历中的多项。
本实施例中,房东将闲置的房源发布到多个平台上时,对于一个房源,房东在每个平台上会设置该房源的位置、房源的名称、房源的至少一张照片以及房源的价格,以使用户跟高的了解房源,增加房源被租赁的概率。其中,对于同一房源,房东在各平台上的设置的房源的位置、房源的名称、房源的图片以及房源的价格应该是相同的,但是在一些情况下,例如,平台对房源的位置的设置标准不同,或者房源的名称的字数限制,或者图片的数量限制,或者各平台优惠力度不同等,会导致在不同的平台之间房源的位置、房源的名称、房源的图片以及房源的价格会有差异,但是,会有一些共同点。并且,对于同一房源,当用户在其中一个平台上已经预定时,则该房源的预定状态在发布该房源的每平台上都被设置为不可预定状态,例如,当用户在一平台上预定房源后,房东会将该房源在每个平台上都设置为不可预定状态,或者发布该房源的平台通过房源状态检测系统(例如,第三方提供的房源状态检测系统)检测该房源的可预定状态,当检测到该房源被预定后,将本平台上该房源的预定状态设置为不可预定状态。因此,我们需要尽可能多的获取该房源所在的平台上的与该房源对应的多项发布信息,即获取房源的位置、房源的名称、房源的图片集和过去预设时间段内房源的价格日历中的多项。例如,房东将每个房源的信息(即房源的位置、房源的名称、房源的至少一张照片以及房源的价格)发布在平台A、平台B、平台C上,获取每个房源的房源的位置、房源的名称、房源的至少一张照片以及房源的价格,并且,根据每个平台上每个房源的预定状态,即可预定状态、不可预定状态。
S102、针对N个平台中任意两个平台,根据两个平台上的房源的发布信息,获取两个平台间的各房源之间的各项发布信息的相似度。
本实施例中,由于获取到的是N个平台上的房源的多项发布信息,对于任一房源,如果同时确定是否可以在N个平台上找到该房源,则处理量比较大,因此,可以先判断从N个平台中的任意两个平台上是否可以找到该房源。例如,对于平台A、平台B、平台C,可以先找到平台A和平台B之间的同一房源,然后,在找到平台B和平台C之间的同一房源,从而找到平台A、平台B、平台C中的同一房源。
对于任意两个平台上的房源,例如,对于平台A上的其中一个房源H,将其与平台B上的每个房源进行比较,根据该房源H在平台A上的多项发布信息,以及平台B上的每个房源的多项发布信息,计算每个发布信息的相似度,即房源的位置的相似度、房源的名称的相似度、房源的图片集的相似度和过去预设时间段内房源的价格日历的相似度。在一些实施例中,由于房源H在平台A上设置的房源的位置是已知的,并且,对于同一个房源,房东在平台上登记时,其设置的位置不会有很大差异,因此,可以根据房源H在平台A上设置的房源的位置,在平台B上可以确定出房源H的位置,虽然房源H在平台A上的房源的位置和房源H在平台B上的房源的位置可能不是完全相同,但是如果房东将房源H登记在平台B上,则房源H在平台A上的房源的位置和房源H在平台B上的房源的位置非常接近,因此,在房源H位于平台B上(假设房源H登记在平台B上)的房源的位置的预设距离内确定多个房源,计算该多个房源中每个房源的各项发布信息与房源H的各项发布信息的相似度,从而减小计算量,提高确定出同一房源的效率。
S103、针对两个平台间的任意两个房源,根据两个房源之间的各项发布信息的相似度,确定两个房源之间的相似度。
本实施例中,对于任意两个平台上的房源,例如,两个房源中的房源H1位于平台A上,房源H2位于平台B上,将房源H1和房源H2之间的各项发布信息相似度相加,获得房源H1和房源H2之间相似度,或者将房源H1和房源H2之间的各项发布信息相似度按照比例加权,获得房源H1和房源H2之间相似度。
S104、根据N个平台中所有两个平台间的各房源之间的相似度,确定N个平台中属于同一房源的房源。
本实施例中,确定出两个平台上的相同房源之后,将其中一个平台作为基准,与N个平台中的其他平台中的每个平台的房源进行比较,确定其他平台上中该平台的相同房源,例如,有平台A、平台B、平台C、平台D、平台E,确定出平台A和平台B之间的相同房源后,将平台B作为基准,确定出平台B分别与平台C、平台D、平台E之间的相同房源,从而确定出平台A、平台B、平台C、平台D、平台E之间的相同房源。
在一些可能的实施例中,S104的一种可能的实现方式为:若两个房源之间的相似度大于预设相似度,则确定所述两个房源为同一房源。本实施例中,预设相似度例如可以根据参数修正获得,参数例如为根据经验预先设置的预设相似度的值,具体获得方法在下文进行详细说明,当分别位于两个平台上的两个房源的相似度大于预设相似度时,说明该两个房源是同一房源。
本实施例,通过获取N个平台上的房源的多项发布信息,N为大于或等于2的整数,多项发布信息包括:房源的位置、房源的名称、房源的图片集和过去预设时间段内房源的价格日历中的多项;针对N个平台中任意两个平台,根据两个平台上的房源的发布信息,获取两个平台间的各房源之间的各项发布信息的相似度;针对两个平台间的任意两个房源,根据两个房源之间的各项发布信息的相似度,确定两个房源之间的相似度;根据N个平台中所有两个平台间的各房源之间的相似度,确定N个平台中属于同一房源的房源。解决了现有技术中,用户需要查看各平台上的房源,从而确定相同房源时,效率低的问题,以及用户无法通过查看每个平台上的房源信息,确定相同房源的问题,提高了在不同平台上获取到同一房源的效率,并且比较的平台的数量也尽可能的多,从而对于同一房源可以为用户确定其最低价格,提高了用户体验。
图3为本发明一实施例提供的S102的流程图,如图3所示,在发布信息包括房源的位置时,在图1所示实施例的基础上,本实施例的方法可以包括:
S2011、根据两个房源的位置,分别确定两个房源的经纬度。
本实施例中,对于分别位于两个平台上的两个房源,根据其在平台上的房源的位置,确定每个房源的经度和纬度。
S2012、根据两个房源的经纬度,分别获得两个房源的二维空间向量。
其中,二维空间向量的坐标包括经度和纬度。
本实施例中,根据每个房源的经度和维度,获得该房源的二维空间向量,即根据经度和维度,确定经纬度坐标,例如,平台A上房源H的经纬度坐标为(39.904498N,116.407147E),平台B上其中一个房源的经纬度坐标为(39.903650N,116.407582E)。
S2013、根据两个房源的二维空间向量,确定两个房源之间的房源的位置的相似度。
本实施例中,两个房源的二维空间向量确定后,即经纬度坐标确定后,根据每个房源的经纬度坐标以及两点间距离公式,可以计算获得两个房源之间的距离,根据获得的距离,确定该两个房源的房源的位置的相似度。
在一些实施例中,S2013的一种可能的实现方式为:根据所述两个房源的空间向量,确定所述两个房源的空间向量之间夹角的余弦值,并确定所述余弦值为所述两个房源之间的房源的位置的相似度。
本实施例中,如果两个向量之间的夹角越小,说明该两个向量的重合度越高,反映到该两个向量分别对应的比较对象上,说明该两个比较对象的相似度越高。因此,通过两个向量之间的夹角的大小,可以确定该两个向量分别对应的比较对象的相似度。其中,可以计算该两个向量之间的余弦值,夹角越小,余弦值越大,该两个向量分别对应的比较对象的相似度越高。其中,计算两个向量之间余弦值的公式例如可以为公式1:
根据公式1,若平台A上房源H1的经纬度坐标为(39.904498N,116.407147E),平台B上其中一个房源H2的经纬度坐标为(39.903650N,116.407582E),房源H1和房源H2之间的相似度为:
因此,根据夹角余弦值可知,房源H1和房源H2之间的距离非常近,有可能为同一房源。
图4为本发明另一实施例提供的S102的流程图,如图4所示,在发布信息包括房源的名称,在上述各实施例的基础上,本实施例的方法可以包括:
S2021、对每个房源的名称进行分词处理,获得至少一个词语。
本实施例中,采用分析算法对房源的名称进行分词,例如,平台A上的房源H1的房源的名称为“故宫周边@精美公寓”,平台B上的房源H2的房源的名称为“故宫周边俯瞰故宫@精美公寓”,则对房源H1的房源的名称进行分词的结果为:故宫、周边、精美、公寓,对房源H2的房源的名称进行分词的结果为:故宫、周边、俯瞰、故宫、精美、公寓。
S2022、获取两个房源的名称分词后的词语的并集。
其中,并集包括M个词语,M为大于等于1的整数。
本实施例中,从两个房源分词后的词语中,获得两个房源的名称分词后的词语的并集,例如,房源H1的房源的名称分词获得的词语为:故宫、周边、精美、公寓,对房源H2的房源的名称分词获得的词语为:故宫、周边、俯瞰、故宫、精美、公寓,则词语的并集为:由于故宫、周边、精美、公寓、俯瞰。
S2023、获取并集中每个词语分别在两个房源的名称中出现的次数。
本实施例中,根据每个房源的房源的名称分词后的词语以及词语的并集,确定词语的并集的每个词语在每个房源的房源的名称分词获得的词语中的出现的次数,例如,并集中的词语故宫、周边、精美、公寓、俯瞰,在房源H1的房源的名称分词获得的词语中的出现次数为:1、1、1、1、0,在房源H2的房源的名称分词获得的词语中的出现次数为:2、1、1、1、1。
S2024、根据并集中M个词语分别在两个房源的名称中出现的次数,分别获得两个房源的M维空间向量。
其中,M维空间向量的坐标包括M个词语中各个词语在房源的名称中出现在的次数。
本实施例中,并集中的词语故宫、周边、精美、公寓、俯瞰,在房源H1的房源的名称分词获得的词语中的出现次数为:1、1、1、1、0,在房源H2的房源的名称分词获得的词语中的出现次数为:2、1、1、1、1,则房源H1对应的空间向量为:(1,1,1,1,0),房源H2对应的空间向量为:(2,1,1,1,1)。
S2025、根据两个房源的M维空间向量,确定两个房源之间的房源的位置的相似度。
本实施例中,根据公式1计算两个向量之间的相似度为:
图5为本发明另一实施例提供的S102的流程图,如图5所示,在发布信息包括预设时间段内房源的价格日历,其中,价格日历包括:房源的价格和房源的预定状态,预定状态包括可预定状态、不可预定状态。在述各实施例的基础上,本实施例的方法可以包括:
S2031、根据过去预设时间段内两个房源的价格,获得两个房源的价格的相似度。
本实施例中,如果是同一个房源,其在不同平台上的价格会根据每个平台的优惠政策、预定热度等存在差异,但是,差异非常小。因此,在确定不同平台上的房源是否为同一房源时,可以根据其价格相似度进行判断。
在一些实施例中,S2031的一种可能的实现方式为:根据K天内两个房源的价格,分别获得两个房源的K维空间向量,K维空间向量的坐标包括K天中每天房源的价格;根据两个房源的K维空间向量,确定两个房源之间的房源的价格的相似度。
本实施例中,对于两个平台上的两个房源,分别获取其在过去同一个预设时间段内,即K天的房源的价格,例如,获取平台A上房源H1在当天前30天内的价格,获取平台B上房源H2在同一时间段内的价格,并根据房源H1和房源H2在过去30天内的价格获得每个房源的价格向量,房源H1的价格向量例如为:(220,221,224,220,229,220,220,....,220,220,228,225),房源H2的价格向量例如为:(223,223,225,210,229,220,220,....,220,220,228,220)。根据公式1计算房源H1和房源H2的价格相似度为:ωb=0.73。
S2032、根据过去预设时间段内两个房源的预定状态,获得两个房源的预定状态的相似度。
本实施例中,房源的预定状态包括可预订状态和不可预订状态,对于同一个房源,为避免同一个房源被两个用户同时预订,因此,其在不同平台上的预订状态是相同的。当房源被预订后,该房源在每个平台上的预订状态均为不可预订状态。因此,过去预设时间段内分别位于两个平台上两个房源的预定状态,可以作为判断该两个房源是否为同一房源的依据。
在一些可能的实施例中,S2032的一种实现方式为:根据K天内两个房源的预定状态,分别获得两个房源的K维空间向量,K维空间向量的坐标包括K天中每天房源的预定状态数值,其中,可预定状态对应的预定状态数值与不可预定状态对应的预定状态数值不同;根据两个房源的K维空间向量,确定两个房源之间的房源的预定状态的相似度。
本实施例中,对于位于两个平台上的两个房源,获取其在过去K天的预定状态,其中,可以根据数字区分不同的预定状态,例如,可预定状态用数字1表示,不预定状态用数字0表示。例如,获取平台A上房源H1在当天前30天内的预定状态表示值,获取平台B上房源H2在同一时间段内的预定状态表示值,并根据房源H1和房源H2在过去30天内的预定状态表示值获得每个房源的预定状态向量。其中,房源H1的预定状态向量为:(1,1,1,0,0,0,1,....,0,0,0,1),房源H2的预定状态向量为:(1,1,1,0,0,0,1,....,0,0,0,1)。则根据公式1计算出房源H1和房源H2的预定状态相似度为:ωa=0.85。
S2033、根据两个房源的价格的相似度以及两个房源的预定状态的相似度,获得两个平台间的各房源之间的价格日历的相似度。
本实施例中,根据两个房源的价格的相似度以及两个房源的预定状态的相似度,获得两个房源之间的价格日历的相似度。在一些可能的实施例中,S2033的一种实现方式为:根据两个房源的价格的相似度、价格相似度的权重因子以及两个房源的预定状态的相似度、预定状态相似度的权重因子,获得两个平台间的各房源之间的价格日历的相似度。其中,例如,价格相似度的权重因子为φb,预定状态相似度的权重因子φa,则两个房源之间的价格日历的相似度为:ω3=ωa·φa+ωb·φb,其中,价格相似度的权重因子为φb,预定状态相似度的权重因子φa的获得方法可根据参数修正获得,参数例如可以是根据经验设置的φa的值,具体方法在下文详细说明。
图6为本发明另一实施例提供的S102的流程图,如图6所示,在发布信息包括房源的图片集,在上述各实施例的基础上,本实施例的方法可以包括:
S2041、根据两个房源的图片集,确定两个房源中图片集的相似图片。
本实施例中,在平台A上找到房源H1的房源的图片集G1,在平台B上找到房源H2的房源的图片集G2,其中,图片集G1和图片集G2中图片的数量可以相等或不相等。根据图片分析技术,获取图片集G1和图片集G2中相似度非常高的图片,例如,可以采用“感知哈希算法”,识别出图片集G1和图片集G2中相似度非常高图片。
S2042、根据相似图片的张数以及两个房源中数量最多的图片集的图片数量,确定两个房源中的房源的图片的相似度。
本实施例中,例如,图片集G1有图片11、图片12、图片13,图片集G2中图片21、图片22、图片23、图片24,其中,根据“感知哈希算法”获知,图片11和图片22为同一张图片,图片12与图片24为同一张图片,则图片集G1中相同图片的占比为1/2,图片集G2中相同图片的占比为2/5,则将图片集中相同图片的占比值作为两个房源之间的图片的相似度,因此,房源H1和房源H2之间的图片的相似度为:ω4=0.5。
在一些可能的实施例中,房源的多项发布信息包括:房源的位置、房源的名称、房源的图片集和过去预设时间段内房源的价格日历,则两个房源之间的相似度可根据各项发布信息的相似度以及各项发布信息的相似度的权重因子获得。
例如,房源的位置的相似度的权重因子为φ1,房源的名称的相似度的权重因子为φ2,房源的价格日历的相似度的权重因子为φ3,房源的图片集的相似度的权重因子为φ4,则两个房源的相似度为:
其中,权重因子φ1、φ2、φ3和φ4可通过参数修正获得。当两个房源的相似度大于预设相似度时,说明两个房源同一房源。
下面,说明如何获得权重因子φ1、φ2、φ3、φ4、φa、φb以及预设相似度。
预先为各项发布信息的相似度的权重因子、预设相似度以及价格相似的权重因子度、预定状态相似度的权重因子分别设置一个值,其中,该预先设置的值例如是根据经验进行设置的,例如,房源的价格日历的相似度在判断同一房源时占据的比重较大,因此,其对应的权重因子的值也较大。在此基础上,在上述各实施例的基础上获得各项发布信息的相似度后,根据预先设置权重因子,计算两个房源之间的相似度,若计算获得的相似度大于预先设置的预设相似度,则认为该两个房源为同一房源。根据预先设置的各项发布信息的相似度的权重因子、预设相似度以及价格相似的权重因子度、预定状态相似度的权重因子,分别获得两个平台上的多个(例如,1000个)被认为是相同房源的房源。
由于上段中获得同一房源的方法的准确性低,并且房源数量有限,因此,可以进行人工筛查,确保分别位于平台A和平台B上的1000个房源是相同房源。然后,统计该1000个房源在平台A上的房源的位置与在平台B上的房源的位置相同的房源的个数,其中,两个房源的房源的位置的相似度ω1大于0.9时,认为该两个房源位置相同,为同一房源,例如,有900个房源在平台A上的房源的位置与在平台B上的房源的位置相同。
同理,统计该1000个房源在平台A上的房源的名称与在平台B上的房源的名称相同的房源的个数,其中,两个房源的房源的名称的相似度ω2大于0.9时,认为该两个房源为同一房源,例如,有600个房源在平台A上的房源的名称与在平台B上的房源的名称相同。
统计该1000个房源在平台A上的房源的图片集与在平台B上的房源的图片集相同的房源的个数,其中,两个房源的房源的图片集的相似度ω4大于0.9时,认为该两个房源为同一房源,例如,有800个房源在平台A上的房源的名称与在平台B上的房源的名称相同。
对于价格日历,首先获得价格相似度的权重因子φb、预定状态相似度的权重因子φa,则统计该1000个房源在平台A上的房源的价格与在平台B上的房源的价格相同的房源的个数,其中,两个房源的房源的价格的相似度ωb大于0.9时,认为该两个房源为同一房源,例如,有900个房源在平台A上的房源的名称与在平台B上的房源的价格相同,同理,可以获得有500个房源在平台A上的房源的预定状态与在平台B上的房源的预定状态相同,则价格与预定状态的房源数量的比值为:900:500,即9:5,则价格相似度的权重因子的计算公式为公式2,预定状态相似度的权重因子的计算公式为公式3:
则根据价格相似度、预定状态相似度以及价格相似度的权重因子、预定状态相似度的权重因子,获得价格日历的相似度ω3。然后,统计该1000个房源在平台A上的房源的价格日历与在平台B上的房源的价格日历相同的房源的个数,其中,两个房源的房源的价格日历的相似度ω1大于0.9时,认为该两个房源价格日历相同,为同一房源,例如,有950个房源在平台A上的房源的价格日历与在平台B上的房源的价格日历相同。
根据上述各项发布信息对应的两个平台上同一房源的数量,获得每个各项发布信息的比值,即位置:名称:图片:日历=900:600:800:950=9:6:8:9.5,则房源的位置的相似度的权重因子的计算公式为公式4,房源的名称的相似度的权重因子的计算公式为公式5,房源的价格日历的相似度的权重因子的计算公式为公式6,房源的图片集的相似度的权重因子的计算公式为公式7:
在获取权重因子φ1、φ2、φ3、φ4、φa、φb后,计算根据权重因子φ1、φ2、φ3、φ4、φa、φb确定的两个平台上的同一房源的数量,例如,获得的同一房源的数量为960,则根据实际的平台上的同一房源的数量(即1000),确定预设相似度,即预设相似度为0.96.
由于权重因子φ1、φ2、φ3、φ4、φa、φb以及预设相似度是根据参数修正获得的,可信度较高,根据权重因子φ1、φ2、φ3、φ4、φa、φb以及预设相似度获得的房源的相似度更准确,从而获得的同一房源的准确度更高。
需要说明的是,多项发布信息包含房源的位置、房源的名称、房源的图片集和过去预设时间段内房源的价格日历中的任意多项时,对应的相似度的权重因子的获取方法可参考上述描述,此处不再赘述。
图7为本发明一实施例提供的相同房源检测装置的结构示意图,如图7所示,本实施例的装置可以包括:获取模块71、计算模块72和处理模块73,其中,
获取模块71,用于获取N个平台上的房源的多项发布信息,N为大于或等于2的整数,所述多项发布信息包括:房源的位置、房源的名称、房源的图片集和过去预设时间段内房源的价格日历中的多项;
计算模块72,用于针对N个平台中任意两个平台,根据所述两个平台上的房源的发布信息,获取所述两个平台间的各房源之间的各项发布信息的相似度;
所述计算模块72,还用于针对所述两个平台间的任意两个房源,根据所述两个房源之间的各项发布信息的相似度,确定所述两个房源之间的相似度;
处理模块73,用于根据N个平台中所有两个平台间的各房源之间的相似度,确定所述N个平台中属于同一房源的房源。
在一些可能的实施例中,所述处理模块73在根据N个平台中所有两个平台间的各房源之间的相似度,确定所述N个平台中属于同一房源的房源时,具体用于:
若两个房源之间的相似度大于预设相似度,则确定所述两个房源为同一房源。
在一些可能的实施例中,所述计算模块72在根据所述两个平台上的房源的发布信息,获取所述两个平台间的各房源之间的各项发布信息的相似度时,具体用于:
若所述发布信息包括房源的位置,则根据两个房源的位置,分别确定所述两个房源的经纬度;
根据所述两个房源的经纬度,分别获得所述两个房源的二维空间向量,其中,二维空间向量的坐标包括经度和纬度;
根据所述两个房源的二维空间向量,确定所述两个房源之间的房源的位置的相似度。
在一些可能的实施例中,所述计算模块72在根据所述两个平台上的房源的发布信息,获取所述两个平台间的各房源之间的各项发布信息的相似度时,具体用于:
若所述发布信息包括房源的名称,则对每个房源的名称进行分词处理,获得至少一个词语;
获取所述两个房源的名称分词后的词语的并集,所述并集包括M个词语,所述M为大于等于1的整数;
获取所述并集中每个词语分别在两个房源的名称中出现的次数;
根据所述并集中M个词语分别在两个房源的名称中出现的次数,分别获得所述两个房源的M维空间向量,所述M维空间向量的坐标包括M个词语中各个词语在房源的名称中出现在的次数;
根据所述两个房源的M维空间向量,确定所述两个房源之间的房源的位置的相似度。
在一些可能的实施例中,所述价格日历包括:房源的价格和房源的预定状态,其中,预定状态包括可预定状态、不可预定状态;
所述计算模块72在根据所述两个平台上的房源的发布信息,获取所述两个平台间的各房源之间的各项发布信息的相似度时,具体用于:
若所述发布信息包括过去预设时间段内房源的价格日历,则根据过去预设时间段内两个房源的价格,获得所述两个房源的价格的相似度;
根据过去预设时间段内两个房源的预定状态,获得所述两个房源的预定状态的相似度;
根据所述两个房源的价格的相似度以及所述两个房源的预定状态的相似度,获得所述两个平台间的各房源之间的价格日历的相似度。
在一些可能的实施例中,所述计算模块72在根据所述两个房源的价格的相似度以及所述两个房源的预定状态的相似度,获得所述两个平台间的各房源之间的价格日历的相似度时,具体用于:
根据所述两个房源的价格的相似度、价格相似度的权重因子以及所述两个房源的预定状态的相似度、预定状态相似度的权重因子,获得所述两个平台间的各房源之间的价格日历的相似度。
在一些可能的实施例中,所述预设时间段为K天,所述K为大于等于2的整数,所述计算模块72在根据过去预设时间段内两个房源的价格,获得所述两个房源的价格的相似度时,具体用于:
根据K天内两个房源的价格,分别获得所述两个房源的K维空间向量,所述K维空间向量的坐标包括K天中每天房源的价格;
根据所述两个房源的K维空间向量,确定所述两个房源之间的房源的价格的相似度。
在一些可能的实施例中,所述预设时间段为K天,所述K为大于等于2的整数,所述计算模块72在根据过去预设时间段内两个房源的预定状态,获得所述两个房源的预定状态的相似度时,具体用于:
根据K天内两个房源的预定状态,分别获得所述两个房源的K维空间向量,所述K维空间向量的坐标包括K天中每天房源的预定状态数值,其中,可预定状态对应的预定状态数值与不可预定状态对应的预定状态数值不同;
根据所述两个房源的K维空间向量,确定所述两个房源之间的房源的预定状态的相似度。
在一些可能的实施例中,所述计算模块72在根据所述两个房源的空间向量,确定所述两个房源之间的发布信息的相似度时,具体用于:
根据所述两个房源的空间向量,确定所述两个房源的空间向量之间夹角的余弦值,并确定所述余弦值为所述两个房源之间的房源的位置的相似度。
在一些可能的实施例中,所述计算模块72字啊根据所述两个平台上的房源的发布信息,获取所述两个平台间的各房源之间的各项发布信息的相似度时,具体用于:
若所述发布信息包括房源的图片集,根据两个房源的图片集,确定两个房源中图片集的相似图片;
根据相似图片的张数以及两个房源中数量最多的图片集的图片数量,确定两个房源中的房源的图片的相似度。
本实施例以上所述的相同房源检测装置,可以用于执行上述各方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图8为本发明一实施例提供的电子设备的结构示意图,如图8所示,本实施例的电子设备可以包括:至少一个处理器81和存储器82。图8示出的是以一个处理器为例的电子设备,其中,
存储器82,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器82可能包含高速随机存取存储器(random access memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器81,用于执行所述存储器82存储的计算机执行指令,以实现上述实施例中所示的相同房源检测方法。
其中,处理器81可能是一个中央处理器(Central Processing Unit,CPU),或者是特定集成电路(Application Specific Integrated Circuit,ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
可选的,在具体实现上,如果存储器82和处理器81独立实现,则存储器82和处理器81可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器82和处理器81集成在一块芯片上实现,则存储器82和处理器81可以通过内部接口完成相同间的通信。
本实施例以上所述的电子设备,可以用于执行上述各方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:只读存储器(Read-Only Memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (13)
1.一种相同房源检测方法,其特征在于,包括:
获取N个平台上的房源的多项发布信息,N为大于或等于2的整数,所述多项发布信息包括:房源的位置、房源的名称、房源的图片集和过去预设时间段内房源的价格日历中的多项;
针对N个平台中任意两个平台,根据所述两个平台上的房源的发布信息,获取所述两个平台间的各房源之间的各项发布信息的相似度;
针对所述两个平台间的任意两个房源,根据所述两个房源之间的各项发布信息的相似度,确定所述两个房源之间的相似度;
根据N个平台中所有两个平台间的各房源之间的相似度,确定所述N个平台中属于同一房源的房源。
2.根据权利要求1所述的方法,其特征在于,所述根据N个平台中所有两个平台间的各房源之间的相似度,确定所述N个平台中属于同一房源的房源,包括:
若两个房源之间的相似度大于预设相似度,则确定所述两个房源为同一房源。
3.根据权利要求1所述的方法,其特征在于,所述根据所述两个平台上的房源的发布信息,获取所述两个平台间的各房源之间的各项发布信息的相似度,包括:
若所述发布信息包括房源的位置,则根据两个房源的位置,分别确定所述两个房源的经纬度;
根据所述两个房源的经纬度,分别获得所述两个房源的二维空间向量,其中,二维空间向量的坐标包括经度和纬度;
根据所述两个房源的二维空间向量,确定所述两个房源之间的房源的位置的相似度。
4.根据权利要求1所述的方法,其特征在于,所述根据所述两个平台上的房源的发布信息,获取所述两个平台间的各房源之间的各项发布信息的相似度,包括:
若所述发布信息包括房源的名称,则对每个房源的名称进行分词处理,获得至少一个词语;
获取所述两个房源的名称分词后的词语的并集,所述并集包括M个词语,所述M为大于等于1的整数;
获取所述并集中每个词语分别在两个房源的名称中出现的次数;
根据所述并集中M个词语分别在两个房源的名称中出现的次数,分别获得所述两个房源的M维空间向量,所述M维空间向量的坐标包括M个词语中各个词语在房源的名称中出现在的次数;
根据所述两个房源的M维空间向量,确定所述两个房源之间的房源的位置的相似度。
5.根据权利要求1所述的方法,其特征在于,所述价格日历包括:房源的价格和房源的预定状态,其中,预定状态包括可预定状态、不可预定状态;
所述根据所述两个平台上的房源的发布信息,获取所述两个平台间的各房源之间的各项发布信息的相似度,包括:
若所述发布信息包括过去预设时间段内房源的价格日历,则根据过去预设时间段内两个房源的价格,获得所述两个房源的价格的相似度;
根据过去预设时间段内两个房源的预定状态,获得所述两个房源的预定状态的相似度;
根据所述两个房源的价格的相似度以及所述两个房源的预定状态的相似度,获得所述两个平台间的各房源之间的价格日历的相似度。
6.根据权利要求5所述的方法,其特征在于,所述根据所述两个房源的价格的相似度以及所述两个房源的预定状态的相似度,获得所述两个平台间的各房源之间的价格日历的相似度,包括:
根据所述两个房源的价格的相似度、价格相似度的权重因子以及所述两个房源的预定状态的相似度、预定状态相似度的权重因子,获得所述两个平台间的各房源之间的价格日历的相似度。
7.根据权利要求5所述的方法,其特征在于,所述预设时间段为K天,所述K为大于等于2的整数,所述根据过去预设时间段内两个房源的价格,获得所述两个房源的价格的相似度,包括:
根据K天内两个房源的价格,分别获得所述两个房源的K维空间向量,所述K维空间向量的坐标包括K天中每天房源的价格;
根据所述两个房源的K维空间向量,确定所述两个房源之间的房源的价格的相似度。
8.根据权利要求5所述的方法,其特征在于,所述预设时间段为K天,所述K为大于等于2的整数,所述根据过去预设时间段内两个房源的预定状态,获得所述两个房源的预定状态的相似度,包括:
根据K天内两个房源的预定状态,分别获得所述两个房源的K维空间向量,所述K维空间向量的坐标包括K天中每天房源的预定状态数值,其中,可预定状态对应的预定状态数值与不可预定状态对应的预定状态数值不同;
根据所述两个房源的K维空间向量,确定所述两个房源之间的房源的预定状态的相似度。
9.根据权利要求3-4、7-8任一项所述的方法,其特征在于,根据所述两个房源的空间向量,确定所述两个房源之间的发布信息的相似度,包括:
根据所述两个房源的空间向量,确定所述两个房源的空间向量之间夹角的余弦值,并确定所述余弦值为所述两个房源之间的房源的位置的相似度。
10.根据权利要求1所述的方法,其特征在于,所述根据所述两个平台上的房源的发布信息,获取所述两个平台间的各房源之间的各项发布信息的相似度,包括:
若所述发布信息包括房源的图片集,根据两个房源的图片集,确定两个房源中图片集的相似图片;
根据相似图片的张数以及两个房源中数量最多的图片集的图片数量,确定两个房源中的房源的图片的相似度。
11.一种相同房源检测装置,其特征在于,包括:
获取模块,用于获取N个平台上的房源的多项发布信息,N为大于或等于2的整数,所述多项发布信息包括:房源的位置、房源的名称、房源的图片集和过去预设时间段内房源的价格日历中的多项;
计算模块,用于针对N个平台中任意两个平台,根据所述两个平台上的房源的发布信息,获取所述两个平台间的各房源之间的各项发布信息的相似度;
所述计算模块,还用于针对所述两个平台间的任意两个房源,根据所述两个房源之间的各项发布信息的相似度,确定所述两个房源之间的相似度;
处理模块,用于根据N个平台中所有两个平台间的各房源之间的相似度,确定所述N个平台中属于同一房源的房源。
12.一种电子设备,其特征在于,包括:存储器和处理器,存储器用于存储程序指令,处理器用于调用存储器中的程序指令执行如权利要求1-10任一项所述的相同房源检测方法。
13.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序;所述计算机程序被执行时,实现如权利要求1-10任一项所述的相同房源检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911047048.7A CN110807482B (zh) | 2019-10-30 | 2019-10-30 | 相同房源检测方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911047048.7A CN110807482B (zh) | 2019-10-30 | 2019-10-30 | 相同房源检测方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110807482A true CN110807482A (zh) | 2020-02-18 |
CN110807482B CN110807482B (zh) | 2023-03-24 |
Family
ID=69489705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911047048.7A Active CN110807482B (zh) | 2019-10-30 | 2019-10-30 | 相同房源检测方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110807482B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036981A (zh) * | 2020-09-02 | 2020-12-04 | 珠海随变科技有限公司 | 一种用于提供目标对比商品的方法、装置、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108427714A (zh) * | 2018-02-02 | 2018-08-21 | 北京邮电大学 | 基于机器学习的房源重复记录识别方法及系统 |
CN108763570A (zh) * | 2018-06-05 | 2018-11-06 | 北京拓世寰宇网络技术有限公司 | 一种识别相同房源的方法及装置 |
CN109948644A (zh) * | 2019-01-21 | 2019-06-28 | 深圳壹账通智能科技有限公司 | 一种相似房源数据检测方法、装置及终端设备 |
-
2019
- 2019-10-30 CN CN201911047048.7A patent/CN110807482B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108427714A (zh) * | 2018-02-02 | 2018-08-21 | 北京邮电大学 | 基于机器学习的房源重复记录识别方法及系统 |
CN108763570A (zh) * | 2018-06-05 | 2018-11-06 | 北京拓世寰宇网络技术有限公司 | 一种识别相同房源的方法及装置 |
CN109948644A (zh) * | 2019-01-21 | 2019-06-28 | 深圳壹账通智能科技有限公司 | 一种相似房源数据检测方法、装置及终端设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036981A (zh) * | 2020-09-02 | 2020-12-04 | 珠海随变科技有限公司 | 一种用于提供目标对比商品的方法、装置、设备及介质 |
CN112036981B (zh) * | 2020-09-02 | 2021-09-17 | 珠海必要工业科技股份有限公司 | 一种用于提供目标对比商品的方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110807482B (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109871909B (zh) | 图像识别方法及装置 | |
US20190035015A1 (en) | Method and apparatus for obtaining a stable credit score | |
WO2017215370A1 (zh) | 构建决策模型的方法、装置、计算机设备及存储设备 | |
CN108932456B (zh) | 人脸识别方法、装置和系统及存储介质 | |
CN110263821B (zh) | 交易特征生成模型的训练、交易特征的生成方法和装置 | |
CN110414550B (zh) | 人脸识别模型的训练方法、装置、系统和计算机可读介质 | |
CN110888866B (zh) | 数据扩充方法、装置、数据处理设备及存储介质 | |
CN109271611B (zh) | 一种数据校验方法、装置及电子设备 | |
CN109241888B (zh) | 神经网络训练与对象识别方法、装置和系统及存储介质 | |
CN109102324B (zh) | 模型训练方法、基于模型的红包物料铺设预测方法及装置 | |
CN111949550B (zh) | 自动生成测试数据的方法、装置、设备及存储介质 | |
CN110807482B (zh) | 相同房源检测方法、装置和存储介质 | |
CN111275071B (zh) | 预测模型训练、预测方法、装置及电子设备 | |
CN111429388B (zh) | 一种图像处理方法、装置和终端设备 | |
CN115795097A (zh) | 基于xml逻辑规则的数据处理方法及装置 | |
CN109543888B (zh) | 营业厅位置选择方法、装置及存储介质 | |
CN111966851B (zh) | 基于少量样本的图像识别方法和系统 | |
CN112967351A (zh) | 图像生成方法、装置、电子设备和存储介质 | |
CN112035749A (zh) | 用户行为特征分析方法、推荐方法及相应装置 | |
CN112651764A (zh) | 一种目标用户识别方法、装置、设备和存储介质 | |
CN113434574B (zh) | 基于小样本的数据可靠性分析方法、装置、设备及介质 | |
CN110717503A (zh) | 一种分类方法、装置、电子设备及计算机存储介质 | |
CN110765230A (zh) | 一种法律文本存储方法、装置、可读存储介质及终端设备 | |
CN110070438B (zh) | 一种信用分值计算方法、设备及存储介质 | |
CN112434198B (zh) | 图表组件推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |