CN110019531A - 一种获取相似对象集合的方法和装置 - Google Patents
一种获取相似对象集合的方法和装置 Download PDFInfo
- Publication number
- CN110019531A CN110019531A CN201711484743.0A CN201711484743A CN110019531A CN 110019531 A CN110019531 A CN 110019531A CN 201711484743 A CN201711484743 A CN 201711484743A CN 110019531 A CN110019531 A CN 110019531A
- Authority
- CN
- China
- Prior art keywords
- analogical
- object set
- target object
- analogical object
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2255—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Abstract
本发明公开了一种获取相似对象集合的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取目标对象集合、待相似对象集合;设置局部敏感对比步长r;采用局部敏感‑最小哈希值算法,根据目标对象对应的特征数据、待相似对象对应的特征数据、局部敏感对比步长r,从待相似对象集合中获取目标对象的相似对象集合。该实施方式采用局部敏感‑最小哈希值算法,从待相似对象集合中获取目标对象的相似对象集合,克服了Hive SQL分布式的方法只比较具有某一相同属性的对象而漏掉了大部分的其他相似对象的问题,同时减小了计算的复杂度,加快了计算速度,又提高了计算结果的准确率和相似对象的覆盖率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种获取相似对象集合的方法和装置。
背景技术
随着计算机技术的发展,很多情况下一个对象集合需要在大量数据中快速找到其相似集合。例如,在电商领域中,需要根据用户购买记录中的商品,在大规模商品中找到相似的商品推荐,实现个性化推荐。通常采用计算两两对象的相似度的办法来获取相似集合,但是对于包含多个对象的对象集合来说,两两计算会耗费巨大的时间和计算资源,难以满足需要。也可以使用分布式计算框架HiveSQL的平台分布式的计算对象间的相似度。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
1.使用Hive SQL分布式的方法,只比较具有某一相同属性的对象,漏掉了大部分的其他相似对象。
2.耗费巨大的时间和计算资源,难以有效的迭代更新。
3.数据特征分布不均匀,导致得到的相似对象集合的准确率降低。
发明内容
有鉴于此,本发明实施例提供一种获取相似对象集合的方法,采用局部敏感-最小哈希值算法,从待相似对象集合中获取目标对象的相似对象集合,克服了HiveSQL分布式的方法只比较具有某一相同属性的对象而漏掉了大部分的其他相似对象的问题,同时减小了计算的复杂度,加快了计算速度,又提高了计算结果的准确率和相似对象的覆盖率。
为实现上述目的,根据本发明实施例的一个方面,提供了一种获取相似对象集合的方法,包括:获取目标对象集合,所述目标对象集合中包括多个目标对象、目标对象对应的特征数据;获取待相似对象集合,所述待相似对象集合中包括多个待相似对象、待相似对象对应的特征数据;设置局部敏感对比步长r,r为正整数;采用局部敏感-最小哈希值算法,根据目标对象对应的特征数据、待相似对象对应的特征数据、局部敏感对比步长r,从待相似对象集合中获取目标对象的相似对象集合。
可选地,从待相似对象集合中获取目标对象的相似对象集合之后,还包括:对于每个目标对象,若该目标对象的相似对象集合中的待相似对象数量小于第一设定阈值,则将该目标对象及其对应的特征数据放入新的目标对象集合中;按照以下步骤重新计算:减小局部敏感对比步长r;采用局部敏感-最小哈希值算法,根据新目标对象集合中的目标对象对应的特征数据、待相似对象对应的特征数据、局部敏感对比步长r,从待相似对象集合中获取目标对象的相似对象集合;直至所有目标对象的相似对象集合中的待相似对象数量,皆大于或等于第一设定阈值。
可选地,从待相似对象集合中获取目标对象的相似对象集合之后,还包括:计算目标对象与该目标对象的相似对象集合中的待相似对象的相似度,从相似对象集合中删除相似度小于第二设定阈值的待相似对象。
可选地,对所述相似对象集合中的待相似对对象进行去重处理。
为实现上述目的,根据本发明实施例的再一方面,提供了一种获取相似对象集合的装置,包括:数据获取模块、参数设置模块、相似对象获取模块;所述数据获取模块,用于:获取目标对象集合,所述目标对象集合中包括多个目标对象、目标对象对应的特征数据;获取待相似对象集合,所述待相似对象集合中包括多个待相似对象、待相似对象对应的特征数据;所述参数设置模块,用于:设置局部敏感对比步长r,r为正整数;所述相似对象获取模块,用于:采用局部敏感-最小哈希值算法,根据目标对象对应的特征数据、待相似对象对应的特征数据、局部敏感对比步长r,从待相似对象集合中获取目标对象的相似对象集合。
可选地,所述相似对象获取模块,还用于:将相似对象集合中的待相似对象数量小于第一设定阈值的目标对象,及该目标对象对应的特征数据放入新的目标对象集合中;按照以下步骤重新计算:减小局部敏感对比步长r;采用局部敏感-最小哈希值算法,根据新目标对象集合中的目标对象对应的特征数据、待相似对象对应的特征数据、局部敏感对比步长r,从待相似对象集合中获取目标对象的相似对象集合;直至所有目标对象的相似对象集合中的待相似对象数量,皆大于或等于第一设定阈值。
可选地,所述相似对象获取模块,还用于:计算目标对象与该目标对象的相似对象集合中的待相似对象的相似度,从相似对象集合中删除相似度小于第二设定阈值的待相似对象。
可选地,所述相似对象获取模块,还用于:对所述相似对象集合中的待相似对对象进行去重处理。
为实现上述目的,根据本发明实施例的再一方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明所提供的获取相似对象集合的方法。
为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明所提供的获取相似对象集合的方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用局部敏感-最小哈希值算法,从待相似对象集合中获取目标对象的相似对象集合,克服了HiveSQL分布式的方法只比较具有某一相同属性的对象而漏掉了大部分的其他相似对象的问题,同时减小了计算复杂度,加快了计算速度,又提高了计算结果的准确率和相似对象的覆盖率。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的获取相似对象集合的方法的基本流程的示意图;
图2为碰撞概率、局部敏感对比步长、相似度的关系示意图;
图3是根据本发明实施例的获取相似对象集合的方法的优选流程的示意图;
图4是根据本发明实施例的获取相似对象集合的装置的基本模块的示意图;
图5是本发明实施例可以应用于其中的示例性系统架构图;
图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
最小哈希算法的基本介绍:设置4个对象,分别为对象S1、对象S2、对象S3、对象S4;其中,对象S1={a,d},对象S2={c},对象S3={b,d,e},对象S4={a,c,d},a、b、c、d、e皆为对象的特征。
那么这4个对象的特征矩阵如表1所示:
表1对象及其特征
S1 | S2 | S3 | S4 | |
a | 1 | 0 | 0 | 1 |
b | 0 | 0 | 1 | 0 |
c | 0 | 1 | 0 | 1 |
d | 1 | 0 | 1 | 1 |
e | 0 | 0 | 1 | 0 |
其中,1表示该对象具备此特征,0表示该对象不具备此特征。
为了计算最小哈希值,首先对特征矩阵的行进行打乱(也即随机调换行与行之间的位置),这个打乱是随机的。然后某一列的最小哈希值就等于打乱后的这一列第一个值为1的行所在的行号(不明白的直接看例子),行号从0开始。例如,定义一个最小哈希函数h,然后对上面的特征矩阵进行行打乱,原来第一列的顺序为abcde,打乱后为beadc,则新的特征矩阵如表2所示:
表2打乱顺序后的对象及其特征
S1 | S2 | S3 | S4 | |
b | 0 | 0 | 1 | 0 |
e | 0 | 0 | 1 | 0 |
a | 1 | 0 | 0 | 1 |
d | 1 | 0 | 1 | 1 |
c | 0 | 1 | 0 | 1 |
对于列S1,从这一列的第一行往下走,直到遇到第一个1,所在的行号则为这一列的最小哈希值。所以这4列的最小哈希值依次为h(S1)=2,h(S2)=4,h(S3)=0,h(S4)=2。
在经过行打乱后的计算两个对象得到的最小哈希值相等的概率等于这两个对象的杰卡德Jaccard相似度。简单推导如下:
假设只考虑对象S1和对象S2,那么这两列所在的行有下面三种类型:
(1)这一行的S1和S2的值都为1(即两列值都为1),记为X类;
(2)这一行只有一个值为1,另一个值为0,记为Y类;
(3)这一行两列的值都为0,记为Z类。
假设属于X类的行有x个,属于Y类的行有y个,所以S1和S2交集的元素个数为x,并集的元素个数为x+y,所以SIM(S1,S2)=x/(x+y)。其中,SIM(S1,S2)是对象S1和对象S2的Jaccard相似度。
接下来计算最小哈希h(S1)=h(S2)的概率。经过行打乱之后,对特征矩阵从上往下扫描,在碰到Y类行之前碰到X类行的概率是x/(x+y);又因为X类行中h(S1)=h(S2),所以h(S1)=h(S2)的概率为x/(x+y),也就是这两个对象的Jaccard相似度。
可以看出,进行一次哈希比较(即打乱一次顺序,将哈希值相同的对象选出作为候选相似对象,候选相似对象再两两进行Jaccard相似度计算)很难将相似对象完全筛选出来。
图1是根据本发明实施例的获取相似对象集合的方法的基本流程的示意图,如图1所示,本发明实施例提供了一种获取相似对象集合的方法,包括:
步骤S101.获取目标对象集合,所述目标对象集合中包括多个目标对象、目标对象对应的特征数据;获取待相似对象集合,所述待相似对象集合中包括多个待相似对象、待相似对象对应的特征数据;
步骤S102.设置局部敏感对比步长r,r为正整数;
步骤S103.采用局部敏感-最小哈希值算法,根据目标对象对应的特征数据、待相似对象对应的特征数据、局部敏感对比步长r,从待相似对象集合中获取目标对象的相似对象集合。
本发明实施例采用局部敏感-最小哈希值算法,从待相似对象集合中获取目标对象的相似对象集合,克服了HiveSQL分布式的方法只比较具有某一相同属性的对象而漏掉了大部分的其他相似对象的问题,同时减小了计算复杂度,加快了计算速度,又提高了计算结果的准确率和相似对象的覆盖率。
本发明实施例中的最小哈希算法也可以随机映射哈希算法代替,在哈希比较时可以通过提高哈希比较的次数s来增大相似对象集中的待相似对象的个数,即相似对象集合的覆盖率,同时也能提高准确率。例如,要达到90%以上的覆盖率,必须要进行100次的哈希比较。但是如果目标对象、待相似目标对象的特征维度较短话,过多的哈希比较可能会增加计算复杂度,所以本发明实施例还采用局部敏感-最小哈希值LSH-MinHash算法使用局部敏感查找,即对于100次的哈希比较后得到的100维的签名向量,放弃以一个哈希值相同即为相似对的标准,采用连续r个哈希值相同即为相似对的准则。相似的一个目标对象-一个待相似对象为一个相似对。其中,r越小覆盖率越高。可以得出相似度为dis的对象S1和对象S2的碰撞概率Pr(S1,S2)(即哈希值相同的概率)为:
Pr(S1,S2)=1-(1-disr)s/r。
图2为碰撞概率、局部敏感对比步长、相似度的关系示意图;如图2所示的单调性可以看出相似向量碰撞概率取决于对象本身的相似度dis和局部敏感对比步长,相似度dis越大碰撞概率越高,局部敏感对比步长r越小碰撞率越高。若少部分对象数量极大,其对应的特征数量也较多,针对这种不均匀分布的数据特征,意味着某类目标对象的数量越多,那么越容易计算出相似对,这就导致那些数量少的目标对象,难以找到对应的相似对象集合或相似对象集合不准确。
图3是根据本发明实施例的获取相似对象集合的方法的优选流程的示意图,如图3所示,本发明实施例的中,获取目标对象集合、待相似对象集合,所述待相似对象集合中包括多个待相似对象、待相似对象对应的特征数据;设置局部敏感对比步长r;采用局部敏感-最小哈希值算法,根据目标对象集合中的目标对象对应的特征数据、待相似对象对应的特征数据、局部敏感对比步长r,从待相似对象集合中获取目标对象的相似对象集合。针对每个目标对象,判断该目标对象的相似对象集合中的待相似对象数量,即目标对象的相似对象数量是否小于第一设定阈值,若是,则将该目标对象及该目标对象对应的特征数据放入新的目标对象集合中;即对于每个目标对象,若该目标对象的相似对象集合中的待相似对象数量小于第一设定阈值,则将该目标对象及其对应的特征数据放入新的目标对象集合中后,得到新的目标对象集合;减小局部敏感对比步长r,按照以下步骤重新计算:采用局部敏感-最小哈希值算法,根据新的目标对象集合中的目标对象对应的特征数据、待相似对象对应的特征数据、局部敏感对比步长r,从待相似对象集合中获取目标对象的相似对象集合;直至所有目标对象的相似对象数量皆大于或等于设定阈值。
因此本发明实施例减少局部敏感查找步长r进行迭代式计算,解决了由于数据特征分布不均匀而导致得到的随机映射哈希算法降低的问题,同时提高了覆盖率。
本发明实施例中,步骤S103还包括:计算目标对象与该目标对象的相似对象集合中的待相似对象的相似度,从相似对象集合中删除相似度小于第二设定阈值的待相似对象。其中,相似度的计算可以采用包括但不限于:Jaccard相似度、汉明距离、欧氏距离、曼哈顿距离等算法得到。本发明实施例可以提高相似对象集合的准确率。
本发明实施例中,对所述相似对象集合中的待相似对象进行去重处理,可以提高相似对象集合的准确率,避免相似对象集合中出现不必要的重复对象。
为实现上述目的,根据本发明实施例的再一方面,提供了一种获取相似对象集合的装置400,包括:数据获取模块401、参数设置模块402、相似对象获取模块403;所述数据获取模块401,用于:获取目标对象集合,所述目标对象集合中包括多个目标对象、目标对象对应的特征数据;获取待相似对象集合,所述待相似对象集合中包括多个待相似对象、待相似对象对应的特征数据;所述参数设置模块402,用于:设置局部敏感对比步长r,r为正整数;所述相似对象获取模块403,用于:采用局部敏感-最小哈希值算法,根据目标对象对应的特征数据、待相似对象对应的特征数据、局部敏感对比步长r,从待相似对象集合中获取目标对象的相似对象集合。
本发明实施例采用局部敏感-最小哈希值算法,从待相似对象集合中获取目标对象的相似对象集合,克服了HiveSQL分布式的方法只比较具有某一相同属性的对象而漏掉了大部分的其他相似对象的问题,同时减小了计算复杂度,加快了计算速度,又提高了计算结果的准确率和相似对象的覆盖率。
本发明实施例中,所述相似对象获取模块403,还用于:对于每个目标对象,若该目标对象的相似对象集合中的待相似对象数量小于第一设定阈值,则将该目标对象及其对应的特征数据放入新的目标对象集合中;按照以下步骤重新计算:减小局部敏感对比步长r;采用局部敏感-最小哈希值算法,根据新目标对象集合中的目标对象对应的特征数据、待相似对象对应的特征数据、局部敏感对比步长r,从待相似对象集合中获取目标对象的相似对象集合;直至所有目标对象的相似对象集合中的待相似对象数量,皆大于或等于第一设定阈值。
本发明实施例减少局部敏感查找步长r进行迭代式计算,解决了数据特征分布不均匀,导致得到的随机映射哈希算法降低的问题,同时提高了覆盖率。
本发明实施例中,所述相似对象获取模块403,还用于:计算目标对象与该目标对象的相似对象集合中的待相似对象的相似度,从相似对象集合中删除相似度小于第二设定阈值的待相似对象。其中,相似度的计算可以包括但不限于Jaccard相似度、汉明距离、欧氏距离、曼哈顿距离。本发明实施例可以提高相似对象集合的准确率。
本发明实施例中,所述相似对象获取模块403,还用于:对所述相似对象集合中的待相似对对象进行去重处理,可以提高相似对象集合的准确率,避免相似对象集合中出现不必要的重复对象。
图5示出了可以应用本发明实施例的获取相似对象集合的方法或获取相似对象集合的装置的示例性系统架构500。
如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本发明实施例所提供的获取相似对象集合的方法一般由服务器505执行,相应地,获取相似对象集合的装置一般设置于服务器505中。
应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
根据本发明的实施例,本发明还提供了一种电子设备和一种可读存储介质。
本发明实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明所提供的获取相似对象集合的方法。
本发明实施例的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明所提供的获取相似对象集合的方法。
下面参考图6,其示出了适于用来实现本发明实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括:数据获取模块、参数设置模块、相似对象获取模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,数据获取模块还可以被描述为“获取目标对象集合、待相似对象集合的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:步骤S101.获取目标对象集合,所述目标对象集合中包括多个目标对象、目标对象对应的特征数据;获取待相似对象集合,所述待相似对象集合中包括多个待相似对象、待相似对象对应的特征数据;步骤S102.设置局部敏感对比步长r,r为正整数;步骤S103.采用局部敏感-最小哈希值算法,根据目标对象对应的特征数据、待相似对象对应的特征数据、局部敏感对比步长r,从待相似对象集合中获取目标对象的相似对象集合。
本发明实施例采用局部敏感-最小哈希值算法,从待相似对象集合中获取目标对象的相似对象集合,克服了HiveSQL分布式的方法只比较具有某一相同属性的对象而漏掉了大部分的其他相似对象的问题,同时减小了计算的复杂度,加快了计算速度,又提高了计算结果的准确率和相似对象的覆盖率。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种获取相似对象集合的方法,其特征在于,包括:
获取目标对象集合,所述目标对象集合中包括多个目标对象、目标对象对应的特征数据;获取待相似对象集合,所述待相似对象集合中包括多个待相似对象、待相似对象对应的特征数据;
设置局部敏感对比步长r,r为正整数;
采用局部敏感-最小哈希值算法,根据目标对象对应的特征数据、待相似对象对应的特征数据、局部敏感对比步长r,从待相似对象集合中获取目标对象的相似对象集合。
2.根据权利要求1所述的方法,其特征在于,从待相似对象集合中获取目标对象的相似对象集合之后,还包括:
对于每个目标对象,若该目标对象的相似对象集合中的待相似对象数量小于第一设定阈值,则将该目标对象及其对应的特征数据放入新的目标对象集合中;
按照以下步骤重新计算:
减小局部敏感对比步长r;
采用局部敏感-最小哈希值算法,根据新目标对象集合中的目标对象对应的特征数据、待相似对象对应的特征数据、局部敏感对比步长r,从待相似对象集合中获取目标对象的相似对象集合;
直至所有目标对象的相似对象集合中的待相似对象数量,皆大于或等于第一设定阈值。
3.根据权利要求1或2所述的方法,其特征在于,从待相似对象集合中获取目标对象的相似对象集合之后,还包括:计算目标对象与该目标对象的相似对象集合中的待相似对象的相似度,从相似对象集合中删除相似度小于第二设定阈值的待相似对象。
4.根据权利要求3所述的方法,其特征在于,对所述相似对象集合中的待相似对对象进行去重处理。
5.一种获取相似对象集合的装置,其特征在于,包括:数据获取模块、参数设置模块、相似对象获取模块;
所述数据获取模块,用于:获取目标对象集合,所述目标对象集合中包括多个目标对象、目标对象对应的特征数据;获取待相似对象集合,所述待相似对象集合中包括多个待相似对象、待相似对象对应的特征数据;
所述参数设置模块,用于:设置局部敏感对比步长r,r为正整数;
所述相似对象获取模块,用于:采用局部敏感-最小哈希值算法,根据目标对象对应的特征数据、待相似对象对应的特征数据、局部敏感对比步长r,从待相似对象集合中获取目标对象的相似对象集合。
6.根据权利要求5所述的装置,其特征在于,所述相似对象获取模块,还用于:
对于每个目标对象,若该目标对象的相似对象集合中的待相似对象数量小于第一设定阈值,则将该目标对象及其对应的特征数据放入新的目标对象集合中;
按照以下步骤重新计算:
减小局部敏感对比步长r;
采用局部敏感-最小哈希值算法,根据新目标对象集合中的目标对象对应的特征数据、待相似对象对应的特征数据、局部敏感对比步长r,从待相似对象集合中获取目标对象的相似对象集合;
直至所有目标对象的相似对象集合中的待相似对象数量,皆大于或等于第一设定阈值。
7.根据权利要求5或6所述的装置,其特征在于,所述相似对象获取模块,还用于:
计算目标对象与该目标对象的相似对象集合中的待相似对象的相似度,从相似对象集合中删除相似度小于第二设定阈值的待相似对象。
8.根据权利要求7所述的装置,其特征在于,所述相似对象获取模块,还用于:对所述相似对象集合中的待相似对对象进行去重处理。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711484743.0A CN110019531B (zh) | 2017-12-29 | 2017-12-29 | 一种获取相似对象集合的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711484743.0A CN110019531B (zh) | 2017-12-29 | 2017-12-29 | 一种获取相似对象集合的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110019531A true CN110019531A (zh) | 2019-07-16 |
CN110019531B CN110019531B (zh) | 2021-11-02 |
Family
ID=67187159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711484743.0A Active CN110019531B (zh) | 2017-12-29 | 2017-12-29 | 一种获取相似对象集合的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019531B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699676A (zh) * | 2020-12-31 | 2021-04-23 | 中国农业银行股份有限公司 | 一种地址相似关系生成方法及装置 |
WO2021114830A1 (zh) * | 2020-05-13 | 2021-06-17 | 平安科技(深圳)有限公司 | 一种药品发现方法、设备、服务器及可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8970598B1 (en) * | 2012-12-04 | 2015-03-03 | Amazon Technologies, Inc. | Visualizing the similarity of resources in a distributed execution environment |
CN104424254A (zh) * | 2013-08-28 | 2015-03-18 | 阿里巴巴集团控股有限公司 | 获取相似对象集合、提供相似对象信息的方法及装置 |
CN105933978A (zh) * | 2016-04-12 | 2016-09-07 | 上海斐讯数据通信技术有限公司 | 一种Beacon发送周期的调整方法和装置 |
CN106294350A (zh) * | 2015-05-13 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种文本聚合方法及装置 |
CN106407311A (zh) * | 2016-08-30 | 2017-02-15 | 北京百度网讯科技有限公司 | 获取搜索结果的方法和装置 |
CN106681688A (zh) * | 2016-12-28 | 2017-05-17 | 北京酷云互动科技有限公司 | 一种基于minhash的集合相似度计算方法和系统 |
CN107315765A (zh) * | 2017-05-12 | 2017-11-03 | 南京邮电大学 | 一种大规模图片集分布式近似搜索的方法 |
CN107424181A (zh) * | 2017-04-12 | 2017-12-01 | 湖南源信光电科技股份有限公司 | 一种改进的图像拼接关键帧快速提取方法 |
-
2017
- 2017-12-29 CN CN201711484743.0A patent/CN110019531B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8970598B1 (en) * | 2012-12-04 | 2015-03-03 | Amazon Technologies, Inc. | Visualizing the similarity of resources in a distributed execution environment |
CN104424254A (zh) * | 2013-08-28 | 2015-03-18 | 阿里巴巴集团控股有限公司 | 获取相似对象集合、提供相似对象信息的方法及装置 |
CN106294350A (zh) * | 2015-05-13 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种文本聚合方法及装置 |
CN105933978A (zh) * | 2016-04-12 | 2016-09-07 | 上海斐讯数据通信技术有限公司 | 一种Beacon发送周期的调整方法和装置 |
CN106407311A (zh) * | 2016-08-30 | 2017-02-15 | 北京百度网讯科技有限公司 | 获取搜索结果的方法和装置 |
CN106681688A (zh) * | 2016-12-28 | 2017-05-17 | 北京酷云互动科技有限公司 | 一种基于minhash的集合相似度计算方法和系统 |
CN107424181A (zh) * | 2017-04-12 | 2017-12-01 | 湖南源信光电科技股份有限公司 | 一种改进的图像拼接关键帧快速提取方法 |
CN107315765A (zh) * | 2017-05-12 | 2017-11-03 | 南京邮电大学 | 一种大规模图片集分布式近似搜索的方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021114830A1 (zh) * | 2020-05-13 | 2021-06-17 | 平安科技(深圳)有限公司 | 一种药品发现方法、设备、服务器及可读存储介质 |
CN112699676A (zh) * | 2020-12-31 | 2021-04-23 | 中国农业银行股份有限公司 | 一种地址相似关系生成方法及装置 |
CN112699676B (zh) * | 2020-12-31 | 2024-04-12 | 中国农业银行股份有限公司 | 一种地址相似关系生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110019531B (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019211A (zh) | 关联索引的方法、装置和系统 | |
CN107609890A (zh) | 一种订单跟踪的方法和装置 | |
CN109697641A (zh) | 计算商品相似度的方法和装置 | |
CN111046237B (zh) | 用户行为数据处理方法、装置、电子设备及可读介质 | |
CN107908666A (zh) | 一种识别设备标识的方法和装置 | |
CN107729399A (zh) | 数据处理的方法和装置 | |
CN107229718A (zh) | 处理报表数据的方法和装置 | |
CN110371560A (zh) | 自动盘点的方法和装置 | |
CN110069579A (zh) | 电子围栏分块方法和装置 | |
CN109388654A (zh) | 一种查询数据表的方法和装置 | |
CN110198248A (zh) | 检测ip地址的方法和装置 | |
CN109901987A (zh) | 一种生成测试数据的方法和装置 | |
CN108776692A (zh) | 用于处理信息的方法和装置 | |
CN110400201A (zh) | 信息展示方法、装置、电子设备以及介质 | |
CN108595448A (zh) | 信息推送方法和装置 | |
CN109376277A (zh) | 确定设备指纹同源性的方法及装置 | |
CN107908662A (zh) | 搜索系统的实现方法和实现装置 | |
CN110019367A (zh) | 一种统计数据特征的方法和装置 | |
CN110443264A (zh) | 一种聚类的方法和装置 | |
CN110019242A (zh) | 用于数据表的处理方法、装置和系统 | |
CN110019531A (zh) | 一种获取相似对象集合的方法和装置 | |
CN107291835A (zh) | 一种搜索词的推荐方法和装置 | |
CN110895591A (zh) | 一种定位自提点的方法和装置 | |
CN107562941A (zh) | 数据处理方法及其系统 | |
CN109426998A (zh) | 信息推送方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |