CN106372659A - 相似对象确定方法及装置 - Google Patents

相似对象确定方法及装置 Download PDF

Info

Publication number
CN106372659A
CN106372659A CN201610767095.9A CN201610767095A CN106372659A CN 106372659 A CN106372659 A CN 106372659A CN 201610767095 A CN201610767095 A CN 201610767095A CN 106372659 A CN106372659 A CN 106372659A
Authority
CN
China
Prior art keywords
attribute information
pending
information set
eigenvalue
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610767095.9A
Other languages
English (en)
Inventor
李鹏
于洋
郭振强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing 58 Information Technology Co Ltd
Original Assignee
Beijing 58 Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing 58 Information Technology Co Ltd filed Critical Beijing 58 Information Technology Co Ltd
Priority to CN201610767095.9A priority Critical patent/CN106372659A/zh
Publication of CN106372659A publication Critical patent/CN106372659A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种相似对象确定方法及装置,该方法包括:确定待处理对象对应的多个待选对象,各待选对象的特征信息与待处理对象的特征信息相同;获取待处理对象的第一属性信息集合和各待选对象的第二属性信息集合;根据第一属性信息集合和各第二属性信息集合,确定各待选对象和待处理对象的相似度;根据各待选对象和待处理对象的相似度,在多个待选对象中确定待处理对象对应的相似对象。用于提高确定相似对象的精确性。

Description

相似对象确定方法及装置
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种相似对象确定方法及装置。
背景技术
随着互联网技术的发展,互联网中的对象(例如多媒体信息、帖子等)的数量及种类也越来越多。
在用户查看一个当前对象时,为了提高用户体验,通常可以向用户推荐当前对象的相似对象。在现有技术中,在向用户推荐当前对象的相似对象时,通常先获取当前对象的一个关键特征,并将和当前对象具备相同关键特征的对象确定为当前对象的相似对象,例如,将和当前对象的类型相同的对象确定为当前对象的相似对象,或者,将和当前对象价格一样的对象确定为当前对象的相似对象等。
然而,在现有技术中,仅仅根据当前对象的关键特征,并无法准确的获取与当前对象相似度最高的相似对象,导致确定的相似对象的精确度较差。
发明内容
本发明实施例提供一种相似对象确定方法及装置,用于提高确定相似对象的精确性。
第一方面,本发明实施例提供一种相似对象确定方法,包括:
确定待处理对象对应的多个待选对象,各所述待选对象的特征信息与所述待处理对象的特征信息相同;
获取所述待处理对象的第一属性信息集合和各所述待选对象的第二属性信息集合;
根据所述第一属性信息集合和各所述第二属性信息集合,确定各所述待选对象和所述待处理对象的相似度;
根据各所述待选对象和所述待处理对象的相似度,在所述多个待选对象中确定所述待处理对象对应的相似对象。
在一种可能的实施方式中,所述确定待处理对象对应的多个待选对象,包括:
获取所述待处理对象对应的特征信息类型;
根据所述特征信息类型,获取待处理对象的特征信息、及对象库中各对象的特征信息;
将与所述待处理对象的特征信息相同的对象确定为所述待选对象。
在另一种可能的实施方式中,针对任意一个待选对象,所述根据所述第一属性信息集合和各所述第二属性信息集合,确定各所述待选对象和所述待处理对象的相似度,包括:
获取第一属性信息集合和所述第二属性信息集合的杰卡德相似系数;
根据所述杰卡德相似系数,确定所述待选对象和所述待处理对象的相似度。
在另一种可能的实施方式中,所述获取第一属性信息集合和所述第二属性信息集合的杰卡德相似系数,包括:
对所述第一属性信息集合中的各属性信息进行离散化处理,得到第一特征向量,所述第一特征向量中的特征值为0或1;
对所述第二属性信息集合中的各属性信息进行离散化处理,得到第二特征向量,所述第一特征向量中的特征值为0或1;
根据所述第一特征向量和所述第二特征向量,确定所述杰卡德相似系数。
在另一种可能的实施方式中,所述对所述第一属性信息集合中的各属性信息进行离散化处理,得到第一特征向量,包括:
获取所述第一属性信息集合中各属性信息对应的M个区间范围,所述M为大于或等于1的正整数;
分别根据各所述属性信息、及各所述属性信息对应的M个区间范围,生成各所述属性信息的子特征向量,所述子特征向量中包括各所述区间范围对应的特征值,其中,包括所述属性信息的区间范围对应的特征值为1,不包括所述属性信息的区间范围对应的特征值为0;
根据所述第一属性信息中各属性信息的子特征向量,确定所述第一特征向量。
在另一种可能的实施方式中,所述对所述第二属性信息集合中的各属性信息进行离散化处理,得到第二特征向量,包括:
获取所述第二属性信息集合中各属性信息对应的K个区间范围,所述K为大于或等于1的正整数;
分别根据各所述属性信息、及各所述属性信息对应的K个区间范围,生成各所述属性信息的子特征向量,所述子特征向量中包括各所述区间范围对应的特征值,其中,包括所述属性信息的区间范围对应的特征值为1,不包括所述属性信息的区间范围对应的特征值为0;
根据所述第二属性信息中各属性信息的子特征向量,确定所述第二特征向量。
在另一种可能的实施方式中,根据所述第一特征向量和所述第二特征向量,确定所述杰卡德相似系数,包括:
根据如下公式一确定所述杰卡德相似系数J:
其中,所述P为所述第一特征向量和所述第二特征向量中对应位置的特征值均为1的特征个数,所述Q为所述第一特征向量和所述第二特征向量中对应位置的特征值中有一个为1的特征个数。
在另一种可能的实施方式中,所述根据各所述待选对象和所述待处理对象的相似度,在所述多个待选对象中确定所述待处理对象对应的相似对象,包括:
将所述待选对象中与所述待处理对象的相似度最高的N个对象确定为所述待处理对象对应的相似对象,所述N为大于或等于1的正整数;
或者,
将所述待选对象中与所述待处理对象的相似度大于预设阈值的对象确定为所述待处理对象对应的相似对象。
第二方面,本发明实施例提供一种相似对象确定装置,包括:
第一确定模块,用于确定待处理对象对应的多个待选对象,各所述待选对象的特征信息与所述待处理对象的特征信息相同;
获取模块,用于获取所述待处理对象的第一属性信息集合和各所述待选对象的第二属性信息集合;
第二确定模块,用于根据所述第一属性信息集合和各所述第二属性信息集合,确定各所述待选对象和所述待处理对象的相似度;
第三确定模块,用于根据各所述待选对象和所述待处理对象的相似度,在所述多个待选对象中确定所述待处理对象对应的相似对象。
在一种可能的实施方式中,所述第一确定模块具体用于:
获取所述待处理对象对应的特征信息类型;
根据所述特征信息类型,获取待处理对象的特征信息、及对象库中各对象的特征信息;
将与所述待处理对象的特征信息相同的对象确定为所述待选对象。
在另一种可能的实施方式中,所述第二确定模块包括获取单元和确定单元,其中,
所述获取单元用于,获取第一属性信息集合和所述第二属性信息集合的杰卡德相似系数;
所述确定单元用于,根据所述杰卡德相似系数,确定所述待选对象和所述待处理对象的相似度。
在另一种可能的实施方式中,所述获取单元具体用于:
对所述第一属性信息集合中的各属性信息进行离散化处理,得到第一特征向量,所述第一特征向量中的特征值为0或1;
对所述第二属性信息集合中的各属性信息进行离散化处理,得到第二特征向量,所述第一特征向量中的特征值为0或1;
根据所述第一特征向量和所述第二特征向量,获取所述杰卡德相似系数。
在另一种可能的实施方式中,所述获取单元具体用于:获取所述第一属性信息集合中各属性信息对应的M个区间范围,所述M为大于或等于1的正整数;
分别根据各所述属性信息、及各所述属性信息对应的M个区间范围,生成各所述属性信息的子特征向量,所述子特征向量中包括各所述区间范围对应的特征值,其中,包括所述属性信息的区间范围对应的特征值为1,不包括所述属性信息的区间范围对应的特征值为0;
根据所述第一属性信息中各属性信息的子特征向量,确定所述第一特征向量。
在另一种可能的实施方式中,所述获取单元具体用于:
获取所述第二属性信息集合中各属性信息对应的K个区间范围,所述K为大于或等于1的正整数;
分别根据各所述属性信息、及各所述属性信息对应的K个区间范围,生成各所述属性信息的子特征向量,所述子特征向量中包括各所述区间范围对应的特征值,其中,包括所述属性信息的区间范围对应的特征值为1,不包括所述属性信息的区间范围对应的特征值为0;
根据所述第二属性信息中各属性信息的子特征向量,确定所述第二特征向量。
在另一种可能的实施方式中,所述获取单元具体用于:
根据如下公式一确定所述杰卡德相似系数J:
其中,所述P为所述第一特征向量和所述第二特征向量中对应位置的特征值均为1的特征个数,所述Q为所述第一特征向量和所述第二特征向量中对应位置的特征值中有一个为1的特征个数。
在另一种可能的实施方式中,所述第三确定模块具体用于:
将所述待选对象中与所述待处理对象的相似度最高的N个对象确定为所述待处理对象对应的相似对象,所述N为大于或等于1的正整数;
或者,
将所述待选对象中与所述待处理对象的相似度大于预设阈值的对象确定为所述待处理对象对应的相似对象。
本发明实施例提供的相似对象确定方法及装置,当确定装置需要确定待处理对象的相似对象时,确定装置先根据待处理对象的多个特征信息,确定待处理对象对应的多个待选对象,并根据待处理对象的第一属性信息集合和各待选对象的第二属性信息集合,确定各待选对象和待处理对象的相似度,根据各待选对象和待处理对象的相似度,在多个待选对象中确定待处理对象对应的相似对象。在上述过程中,先确定待处理对象的待选对象,然后在待选对象中确定待处理对象的相似对象,进而提高确定相似对象的效率;进一步的,通过待选对象的特征信息和多个属性信息确定待选对象的相似对象,以使确定装置可以从多个角度确定待处理对象的相似对象,进而提高确定相似对象的精确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的相似对象确定方法的应用场景示意图;
图2为本发明提供的相似对象确定方法的流程示意图;
图3为本发明提供的确定待选对象方法的流程示意图;
图4为本发明提供的确定相似度方法的流程示意图;
图5为本发明提供的确定杰卡德相似系数方法的流程示意图;
图6为本发明提供的相似对象确定装置的结构示意图一;
图7为本发明提供的相似对象确定装置的结构示意图二。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的相似对象确定方法的应用场景示意图,请参见图1,包括对象库101和相似对象确定装置102。在对象库101中包括多个对象,待处理对象可以为对象库101中的任意一个对象,待处理对象也可以为对象库101之外的任意一个对象。当相似对象确定装置102需要确定待处理对象的相似对象时,相似对象确定装置102根据待处理对象的特征信息和属性信息、以及对象库101中对象的特征信息和属性信息,在对象库101中确定待处理对象的相似对象。在本申请中,相似对象确定装置102先根据待处理对象的特征信息和对象库中对象的特征信息,初步确定和待处理对象较为相似的待选对象,然后根据待处理对象的多个属性信息和各待选对象的多个属性信息,在待选对象中确定待处理对象的相似对象,在本申请中,可以从多个角度确定待处理对象的相似对象,进而提高确定相似对象的精确性。下面,通过具体实施例对本申请所示的技术方案进行详细说明。
需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
图2为本发明提供的相似对象确定方法的流程示意图,请参见图2,该方法可以包括:
S201、确定待处理对象对应的多个待选对象,各待选对象的特征信息与待处理对象的特征信息相同;
S202、获取待处理对象的第一属性信息集合和各待选对象的第二属性信息集合;
S203、根据第一属性信息集合和各第二属性信息集合,确定各待选对象和待处理对象的相似度;
S204、根据各待选对象和待处理对象的相似度,在多个待选对象中确定待处理对象对应的相似对象。
本发明实施例的执行主体可以为相似对象确定装置(下文简称确定装置),可选的,该确定装置可以通过软件和/或硬件实现。
在本发明实施例中,待处理对象可以为互联网中的网络信息,例如,用户在互联网中发布的招聘信息,用户在互联网中发布的商品售卖信息等;待处理对象还可以为多媒体信息,例如视频、音乐等。当然,待处理对象还可以为其它类型的对象,本发明对待处理对象的类型不做具体限定。
在实际应用过程中,当确定装置需要确定待处理对象的相似信息时,确定装置现在对象库中获取待处理对象对应的多个待选对象,其中,各待选对象的特征信息与待处理对象的特征信息相同。待处理对象的特征信息用于指示待处理对象的关键特性,待选对象的特征信息用不指示待选对象的关键特性。可选的,待处理对象和待选对象的特征信息可以为一个,也可以为多个;当待处理对象和待选对象的特征信息为多个时,待处理对象和待选对象的、同类型的特征信息对应相同。可选的,可以根据待处理对象的类型,确定待处理对象的特征信息,例如,当待处理对象为招聘信息时,则待处理对象的特征信息可以为招聘的行业和招聘的区域。在实际应用过程中,可以根据实际需要设置待处理对象和待选对象得到特征信息的类型。
在确定装置确定得到待处理对象对应的多个待选对象之后,确定装置获取待处理对象的第一属性信息集合和各待选对象的第二属性信息集合;其中,第一属性信息集合中的属性信息用于指示待处理对象的详细特性,第二属性信息集合中的属性信息用于指示待选对象的详细特性。
在确定装置获取得到待处理对象的第一属性信息集合和各待选对象的第二属性信息集合之后,确定装置根据第一属性信息集合和各第二属性信息集合,确定各待选对象和待处理对象的相似度。可选的,确定装置可以获取第一属性信息集合和第二属性信息集合中的相同类型的属性信息的相似度,并根据第一属性信息集合和第二属性信息集合中相同类型的属性信息的相似度,确定第一属性信息集合和第二属性信息集合的相似度,并根据第一属性信息集合和第二属性信息集合的相似度确定各待选对象和待处理对象的相似度。当然,确定装置还可以根据其他的实现方式根据第一属性信息集合和各第二属性信息集合,确定各待选对象和待处理对象的相似度,本发明对此不作具体限定。
在确定装置确定得到各待选对象和待处理对象的相似度之后,确定装置根据各待选对象和待处理对象的相似度,在多个待选对象中确定待处理对象对应的相似对象。可选的,确定装置可以将待选对象中与待处理对象的相似度最高的N个对象确定为待处理对象对应的相似对象,N为大于或等于1的正整数;或者,确定装置也可以将待选对象中与待处理对象的相似度大于预设阈值的对象确定为待处理对象对应的相似对象。
本发明实施例提供的相似对象确定方法,当确定装置需要确定待处理对象的相似对象时,确定装置先根据待处理对象的多个特征信息,确定待处理对象对应的多个待选对象,并根据待处理对象的第一属性信息集合和各待选对象的第二属性信息集合,确定各待选对象和待处理对象的相似度,根据各待选对象和待处理对象的相似度,在多个待选对象中确定待处理对象对应的相似对象。在上述过程中,先确定待处理对象的待选对象,然后在待选对象中确定待处理对象的相似对象,进而提高确定相似对象的效率;进一步的,通过待选对象的特征信息和多个属性信息确定待选对象的相似对象,以使确定装置可以从多个角度确定待处理对象的相似对象,进而提高确定相似对象的精确性。
在图2所示实施例的基础上,可选的,确定装置可以通过如下可行的实现方式确定待处理对象对应的多个待选对象(图2所示实施例中的S202),具体的,请参见图3所示的实施例。
图3为本发明提供的确定待选对象方法的流程示意图,请参见图3,该方法可以包括:
S301、获取待处理对象对应的特征信息类型;
S302、根据特征信息类型,获取待处理对象的特征信息、及对象库中各对象的特征信息;
S303、将与待处理对象的特征信息相同的对象确定为待选对象。
在图3所示的实施例中,当确定装置需要确定待处理对象对应的多个待选对象时,确定装置先获取待处理对象对应的特征信息类型。可选的,待处理对象对应的特征信息类型可以为用户预设的特征信息类型,也可以为确定装置根据待处理装置的类型确定得到的。
在确定装置获取得到待处理对象对应的特征信息类型之后,确定装置根据获取得到的特征信息类型,获取待处理对象的特征信息、及对象库中各对象的特征信息;确定装置分别将对象库中各对象的特征信息与待处理对象的特征信息进行比对,并将与待处理对象的特征信息相同的对象确定为待选对象。
在上述过程中,确定装置根据待处理对象的特征信息和对象库中各对象的特征信息,在对象库中的对象中确定得到待选对象,该待选对象为确定装置初步为待处理装置确定的相似对象。
在上述任意一个实施例的基础上,确定装置确定待处理对象与任意一个待选对象的相似度的过程相同,下面,以确定装置确定待处理对象与一个待选对象的相似度的过程为例,对图2所示实施例中的S203进行详细说明。具体的,请参见图4所示的实施例。
图4为本发明提供的确定相似度方法的流程示意图,请参见图4,该方法可以包括:
S401、获取第一属性信息集合和第二属性信息集合的杰卡德相似系数;
S402、根据杰卡德相似系数,确定待选对象和待处理对象的相似度。
在图4所示的实施例中,当确定装置需要确定待选对象和待处理对象的相似度时,确定装置先获取待处理对象的第一属性信息集合和待选对象的第二属性信息集合的杰卡德相似系数。可选的,第一属性信息集合和第二属性信息集合的杰卡德相似系数可以为第一属性信息集合和第二属性信息集合中相同属性信息的个数与总属性信息的个数的比值。当然,确定装置还可以根据其他方式确定第一属性信息集合和第二属性信息集合的杰卡德相似系数。
在确定装置确定得到第一属性信息集合和第二属性信息集合的杰卡德相似系数之后,确定装置可以根据第一属性信息集合和第二属性信息集合的杰卡德相似系数,确定待选对象和待处理对象的相似度。可选的,确定装置可以直接将第一属性信息集合和第二属性信息集合的杰卡德相似系数确定为待选对象和待处理对象的相似度。
在图4所示实施例的基础上,可选的,确定装置可以通过如下可行的实现方式获取第一属性信息集合和第二属性信息集合的杰卡德相似系数(图4所示实施例中的S401)。具体的,请参见图5所示的实施例。
图5为本发明提供的确定杰卡德相似系数方法的流程示意图,请参见图5,该方法可以包括:
S501、对第一属性信息集合中的各属性信息进行离散化处理,得到第一特征向量,第一特征向量中的特征值为0或1;
S502、对第二属性信息集合中的各属性信息进行离散化处理,得到第二特征向量,第一特征向量中的特征值为0或1;
S503、根据第一特征向量和第二特征向量,获取第一属性信息集合和第二属性信息集合的杰卡德相似系数。
在图5所示实施例的基础上,当确定装置需要确定第一属性信息集合和第二属性信息集合的杰拉德相似系数时,确定装置对第一属性信息集合中的各属性信息进行离散化处理,得到第一特征向量,对第二属性信息集合中的各属性信息进行离散化处理,得到第二特征向量。其中,第一特征向量中的特征值均通过0或1表示。
可选的,确定装置可以通过如下可行的实现方式对第一属性信息集合中的各属性信息进行离散化处理,得到第一特征向量:确定装置获取第一属性信息集合中各属性信息对应的M个区间范围;分别根据各属性信息、及各属性信息对应的M个区间范围,生成各属性信息的子特征向量,子特征向量中包括各区间范围对应的特征值,其中,包括属性信息的区间范围对应的特征值为1,不包括属性信息的区间范围对应的特征值为0;根据第一属性信息中各属性信息的子特征向量,确定第一特征向量。可选的,确定装置可以将多个子特征向量按照预设顺序进行组合得到第一特征向量。其中,M为大于或等于1的正整数。可选的,第一属性信息集合中不同属性信息对应的区间范围的个数M可以相同,也可以不相同。
需要说明的是,确定装置获取第二特征向量的过程,和确定装置获取第一特征向量的过程类似,此处不再进行赘述。
在确定装置获取得到第一特征向量和第二特征向量之后,确定装置根据第一特征向量和第二特征向量,确定杰卡德相似系数。可选的,确定装置可以根据如下公式一确定杰卡德相似系数J:
其中,P为第一特征向量和第二特征向量中对应位置的特征值均为1的特征个数,Q为第一特征向量和第二特征向量中对应位置的特征值中有一个为1的特征个数。
在上述过程中,在确定装置确定第一属性信息集合和第二属性信息集合的杰卡德相似系数时,确定装置对第一属性信息集合和第二属性信息集合中的各属性信息进行了离散化处理,使得一个属性信息可以对应一个子特征向量,且一个子特征向量中可能包括多个特征值,使得通过子特征向量对属性信息的描述更加精细。进一步的,第一属性信息集合和第二属性信息集合中各属性信息对应的特征向量中的特征值均为1或0,使得对确定装置可以对各属性信息进行统一化、及标准化的处理,进而提高确定装置确定第一属性信息集合和第二属性信息集合的杰卡德相似系数的精确度。
下面,通过具体示例,对上述方法实施例所示的技术方案进行详细说明。
示例性的,假设待处理对象为用户发布的招聘信息1,当确定装置需要获取招聘信息1的相似对象时,确定装置先确定招聘信息1对应的特征信息类型,假设招聘信息1对应的特征信息类型包括招聘行业和招聘区域,再假设招聘信息1的招聘行业为IT行业,招聘区域为北京。
确定装置还获取包括1000个对象的对象库中各对象的招聘行业和招聘类型,并将招聘行业为IT行业、招聘区域为北京的招聘信息确定为招聘信息1的待选对象,假设招聘信息1对应的待选对象为招聘信息2-招聘信息200。
确定装置还获取招聘信息1的第一属性信息集合和招聘信息2-招聘信息200的第二属性信息集合。假设第一属性信息集合中包括的属性信息1和属性信息2,属性信息1为招聘信息1的招聘人数15,属性信息2为招聘信息1的工资待遇7000。
确定装置根据如下方式获取第一属性信息集合对应的第一特征向量:
确定装置获取属性信息1(15)对应的3个区间范围:[1-9],[10-19],[20-30],由于属性信息1(15)属于第二个区间范围,则属性信息1对应的子特征向量为(0,1,0)。
确定装置获取属性信息2(5000)对应的4个区间范围:[2000-4000],[4001-6000],[6001-8000],[8001-10000],由于属性信息2属于第三个区间范围,则属性信息2对应的子特征向量为(0,0,1,0)。
确定装置根据属性信息1对应的子特征向量为(0,1,0)、和属性信息2对应的子特征向量为(0,0,1,0),确定第一属性信息集合对应的第一特征向量为:(0,1,0,0,0,1,0)。
确定装置通过相同的方法获取招聘信息2-招聘信息200的特征向量。假设招聘信息2的特征向量为(0,1,0,1,0,0,0),则确定第一属性信息集合和招聘信息2的第二属性信息集合的杰卡德系数J为:
J = P P + Q = 1 1 + 2 = 1 3 ;
其中,第一特征向量的第二个特征值和第二特征向量的第二个特征值相同,因此,P为1。第一特征向量中的第四个特征值为0、第二特征向量中的第四个特征值为1,且第一特征向量中的第六个特征值为1,第二特征向量中的第六个特征值为0,因此,Q为2。
确定装置可以将第一属性信息集合和招聘信息2的第二属性信息集合的杰卡德系数J确定为招聘信息1和招聘信息2的相似度。
确定装置通过上述方法分别确定招聘信息1与招聘信息2-招聘信息200的相似度,并将招聘信息2-招聘信息200中,与招聘信息1相似度最高的10个招聘信息确定为招聘信息1的相似招聘信息。
图6为本发明提供的相似对象确定装置的结构示意图一,请参见图6,该装置可以包括:
第一确定模块601,用于确定待处理对象对应的多个待选对象,各所述待选对象的特征信息与所述待处理对象的特征信息相同;
获取模块602,用于获取所述待处理对象的第一属性信息集合和各所述待选对象的第二属性信息集合;
第二确定模块603,用于根据所述第一属性信息集合和各所述第二属性信息集合,确定各所述待选对象和所述待处理对象的相似度;
第三确定模块604,用于根据各所述待选对象和所述待处理对象的相似度,在所述多个待选对象中确定所述待处理对象对应的相似对象。
本发明实施例所示的相似对象确定装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
在一种可能的实施方式中,所述第一确定模块601具体用于:
获取所述待处理对象对应的特征信息类型;
根据所述特征信息类型,获取待处理对象的特征信息、及对象库中各对象的特征信息;
将与所述待处理对象的特征信息相同的对象确定为所述待选对象。
图7为本发明提供的相似对象确定装置的结构示意图二,在图6所示实施例的基础上,请参见图7,所述第二确定模块603包括获取单元6031和确定单元6032,其中,
所述获取单元6031用于,获取第一属性信息集合和所述第二属性信息集合的杰卡德相似系数;
所述确定单元6032用于,根据所述杰卡德相似系数,确定所述待选对象和所述待处理对象的相似度。
在另一种可能的实施方式中,所述获取单元6031具体用于:
对所述第一属性信息集合中的各属性信息进行离散化处理,得到第一特征向量,所述第一特征向量中的特征值为0或1;
对所述第二属性信息集合中的各属性信息进行离散化处理,得到第二特征向量,所述第一特征向量中的特征值为0或1;
根据所述第一特征向量和所述第二特征向量,获取所述杰卡德相似系数。
在另一种可能的实施方式中,所述获取单元6031具体用于:获取所述第一属性信息集合中各属性信息对应的M个区间范围,所述M为大于或等于1的正整数;
分别根据各所述属性信息、及各所述属性信息对应的M个区间范围,生成各所述属性信息的子特征向量,所述子特征向量中包括各所述区间范围对应的特征值,其中,包括所述属性信息的区间范围对应的特征值为1,不包括所述属性信息的区间范围对应的特征值为0;
根据所述第一属性信息中各属性信息的子特征向量,确定所述第一特征向量。
在另一种可能的实施方式中,所述获取单元6031具体用于:
获取所述第二属性信息集合中各属性信息对应的K个区间范围,所述K为大于或等于1的正整数;
分别根据各所述属性信息、及各所述属性信息对应的K个区间范围,生成各所述属性信息的子特征向量,所述子特征向量中包括各所述区间范围对应的特征值,其中,包括所述属性信息的区间范围对应的特征值为1,不包括所述属性信息的区间范围对应的特征值为0;
根据所述第二属性信息中各属性信息的子特征向量,确定所述第二特征向量。
在另一种可能的实施方式中,所述获取单元6031具体用于:
根据如下公式一确定所述杰卡德相似系数J:
其中,所述P为所述第一特征向量和所述第二特征向量中对应位置的特征值均为1的特征个数,所述Q为所述第一特征向量和所述第二特征向量中对应位置的特征值中有一个为1的特征个数。
在另一种可能的实施方式中,所述第三确定模块604具体用于:
将所述待选对象中与所述待处理对象的相似度最高的N个对象确定为所述待处理对象对应的相似对象,所述N为大于或等于1的正整数;
或者,
将所述待选对象中与所述待处理对象的相似度大于预设阈值的对象确定为所述待处理对象对应的相似对象。
本发明实施例所示的相似对象确定装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (16)

1.一种相似对象确定方法,其特征在于,包括:
确定待处理对象对应的多个待选对象,各所述待选对象的特征信息与所述待处理对象的特征信息相同;
获取所述待处理对象的第一属性信息集合和各所述待选对象的第二属性信息集合;
根据所述第一属性信息集合和各所述第二属性信息集合,确定各所述待选对象和所述待处理对象的相似度;
根据各所述待选对象和所述待处理对象的相似度,在所述多个待选对象中确定所述待处理对象对应的相似对象。
2.根据权利要求1所述的方法,其特征在于,所述确定待处理对象对应的多个待选对象,包括:
获取所述待处理对象对应的特征信息类型;
根据所述特征信息类型,获取待处理对象的特征信息、及对象库中各对象的特征信息;
将与所述待处理对象的特征信息相同的对象确定为所述待选对象。
3.根据权利要求1或2所述的方法,其特征在于,针对任意一个待选对象,所述根据所述第一属性信息集合和各所述第二属性信息集合,确定各所述待选对象和所述待处理对象的相似度,包括:
获取第一属性信息集合和所述第二属性信息集合的杰卡德相似系数;
根据所述杰卡德相似系数,确定所述待选对象和所述待处理对象的相似度。
4.根据权利要求3所述的方法,其特征在于,所述获取第一属性信息集合和所述第二属性信息集合的杰卡德相似系数,包括:
对所述第一属性信息集合中的各属性信息进行离散化处理,得到第一特征向量,所述第一特征向量中的特征值为0或1;
对所述第二属性信息集合中的各属性信息进行离散化处理,得到第二特征向量,所述第一特征向量中的特征值为0或1;
根据所述第一特征向量和所述第二特征向量,确定所述杰卡德相似系数。
5.根据权利要求4所述的方法,其特征在于,所述对所述第一属性信息集合中的各属性信息进行离散化处理,得到第一特征向量,包括:
获取所述第一属性信息集合中各属性信息对应的M个区间范围,所述M为大于或等于1的正整数;
分别根据各所述属性信息、及各所述属性信息对应的M个区间范围,生成各所述属性信息的子特征向量,所述子特征向量中包括各所述区间范围对应的特征值,其中,包括所述属性信息的区间范围对应的特征值为1,不包括所述属性信息的区间范围对应的特征值为0;
根据所述第一属性信息中各属性信息的子特征向量,确定所述第一特征向量。
6.根据权利要求4所述的方法,其特征在于,所述对所述第二属性信息集合中的各属性信息进行离散化处理,得到第二特征向量,包括:
获取所述第二属性信息集合中各属性信息对应的K个区间范围,所述K为大于或等于1的正整数;
分别根据各所述属性信息、及各所述属性信息对应的K个区间范围,生成各所述属性信息的子特征向量,所述子特征向量中包括各所述区间范围对应的特征值,其中,包括所述属性信息的区间范围对应的特征值为1,不包括所述属性信息的区间范围对应的特征值为0;
根据所述第二属性信息中各属性信息的子特征向量,确定所述第二特征向量。
7.根据权利要求4-6任一项所述的方法,其特征在于,根据所述第一特征向量和所述第二特征向量,确定所述杰卡德相似系数,包括:
根据如下公式一确定所述杰卡德相似系数J:
其中,所述P为所述第一特征向量和所述第二特征向量中对应位置的特征值均为1的特征个数,所述Q为所述第一特征向量和所述第二特征向量中对应位置的特征值中有一个为1的特征个数。
8.根据权利要求1或2所述的方法,其特征在于,所述根据各所述待选对象和所述待处理对象的相似度,在所述多个待选对象中确定所述待处理对象对应的相似对象,包括:
将所述待选对象中与所述待处理对象的相似度最高的N个对象确定为所述待处理对象对应的相似对象,所述N为大于或等于1的正整数;
或者,
将所述待选对象中与所述待处理对象的相似度大于预设阈值的对象确定为所述待处理对象对应的相似对象。
9.一种相似对象确定装置,其特征在于,包括:
第一确定模块,用于确定待处理对象对应的多个待选对象,各所述待选对象的特征信息与所述待处理对象的特征信息相同;
获取模块,用于获取所述待处理对象的第一属性信息集合和各所述待选对象的第二属性信息集合;
第二确定模块,用于根据所述第一属性信息集合和各所述第二属性信息集合,确定各所述待选对象和所述待处理对象的相似度;
第三确定模块,用于根据各所述待选对象和所述待处理对象的相似度,在所述多个待选对象中确定所述待处理对象对应的相似对象。
10.根据权利要求9所述的装置,其特征在于,所述第一确定模块具体用于:
获取所述待处理对象对应的特征信息类型;
根据所述特征信息类型,获取待处理对象的特征信息、及对象库中各对象的特征信息;
将与所述待处理对象的特征信息相同的对象确定为所述待选对象。
11.根据权利要求9或10所述的装置,其特征在于,所述第二确定模块包括获取单元和确定单元,其中,
所述获取单元用于,获取第一属性信息集合和所述第二属性信息集合的杰卡德相似系数;
所述确定单元用于,根据所述杰卡德相似系数,确定所述待选对象和所述待处理对象的相似度。
12.根据权利要求11所述的装置,其特征在于,所述获取单元具体用于:
对所述第一属性信息集合中的各属性信息进行离散化处理,得到第一特征向量,所述第一特征向量中的特征值为0或1;
对所述第二属性信息集合中的各属性信息进行离散化处理,得到第二特征向量,所述第一特征向量中的特征值为0或1;
根据所述第一特征向量和所述第二特征向量,获取所述杰卡德相似系数。
13.根据权利要求12所述的装置,其特征在于,所述获取单元具体用于:获取所述第一属性信息集合中各属性信息对应的M个区间范围,所述M为大于或等于1的正整数;
分别根据各所述属性信息、及各所述属性信息对应的M个区间范围,生成各所述属性信息的子特征向量,所述子特征向量中包括各所述区间范围对应的特征值,其中,包括所述属性信息的区间范围对应的特征值为1,不包括所述属性信息的区间范围对应的特征值为0;
根据所述第一属性信息中各属性信息的子特征向量,确定所述第一特征向量。
14.根据权利要求12所述的装置,其特征在于,所述获取单元具体用于:
获取所述第二属性信息集合中各属性信息对应的K个区间范围,所述K为大于或等于1的正整数;
分别根据各所述属性信息、及各所述属性信息对应的K个区间范围,生成各所述属性信息的子特征向量,所述子特征向量中包括各所述区间范围对应的特征值,其中,包括所述属性信息的区间范围对应的特征值为1,不包括所述属性信息的区间范围对应的特征值为0;
根据所述第二属性信息中各属性信息的子特征向量,确定所述第二特征向量。
15.根据权利要求12-14任一项所述的装置,其特征在于,所述获取单元具体用于:
根据如下公式一确定所述杰卡德相似系数J:
其中,所述P为所述第一特征向量和所述第二特征向量中对应位置的特征值均为1的特征个数,所述Q为所述第一特征向量和所述第二特征向量中对应位置的特征值中有一个为1的特征个数。
16.根据权利要求9或10所述的装置,其特征在于,所述第三确定模块具体用于:
将所述待选对象中与所述待处理对象的相似度最高的N个对象确定为所述待处理对象对应的相似对象,所述N为大于或等于1的正整数;
或者,
将所述待选对象中与所述待处理对象的相似度大于预设阈值的对象确定为所述待处理对象对应的相似对象。
CN201610767095.9A 2016-08-30 2016-08-30 相似对象确定方法及装置 Pending CN106372659A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610767095.9A CN106372659A (zh) 2016-08-30 2016-08-30 相似对象确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610767095.9A CN106372659A (zh) 2016-08-30 2016-08-30 相似对象确定方法及装置

Publications (1)

Publication Number Publication Date
CN106372659A true CN106372659A (zh) 2017-02-01

Family

ID=57901697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610767095.9A Pending CN106372659A (zh) 2016-08-30 2016-08-30 相似对象确定方法及装置

Country Status (1)

Country Link
CN (1) CN106372659A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106911717A (zh) * 2017-04-13 2017-06-30 成都亚信网络安全产业技术研究院有限公司 一种域名检测方法及装置
CN107358251A (zh) * 2017-06-09 2017-11-17 阿里巴巴集团控股有限公司 一种对象筛选方法和装置
CN109190039A (zh) * 2018-08-29 2019-01-11 腾讯科技(深圳)有限公司 确定相似对象的方法、装置及计算机可读存储介质
CN109886787A (zh) * 2019-02-22 2019-06-14 清华大学 离散社交推荐方法及系统
CN110609905A (zh) * 2019-09-12 2019-12-24 深圳众赢维融科技有限公司 超点类型识别和图数据处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708525A (zh) * 2012-05-22 2012-10-03 华南理工大学 基于gpu加速的招聘职位智能推荐方法
CN105138664A (zh) * 2015-09-02 2015-12-09 中国地质大学(武汉) 一种隐私保护的大数据推荐方法及系统
CN105740480A (zh) * 2016-03-29 2016-07-06 上海携程商务有限公司 机票推荐方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708525A (zh) * 2012-05-22 2012-10-03 华南理工大学 基于gpu加速的招聘职位智能推荐方法
CN105138664A (zh) * 2015-09-02 2015-12-09 中国地质大学(武汉) 一种隐私保护的大数据推荐方法及系统
CN105740480A (zh) * 2016-03-29 2016-07-06 上海携程商务有限公司 机票推荐方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
(德)克劳斯•巴克豪斯等著: "《多元统计分析方法 用SPSS工具》", 30 April 2009, 格致出版社 *
(美)坎塔尔季奇著,王晓海等译: "《国外计算机科学经典教材 数据挖掘 概念、模型、方法和算法 第2版》", 31 January 2013, 清华大学出版社 *
徐锦阳等: "招聘网站职位与简历的双向匹配相似度算法", 《信息技术》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106911717A (zh) * 2017-04-13 2017-06-30 成都亚信网络安全产业技术研究院有限公司 一种域名检测方法及装置
CN107358251A (zh) * 2017-06-09 2017-11-17 阿里巴巴集团控股有限公司 一种对象筛选方法和装置
CN109190039A (zh) * 2018-08-29 2019-01-11 腾讯科技(深圳)有限公司 确定相似对象的方法、装置及计算机可读存储介质
CN109190039B (zh) * 2018-08-29 2021-12-14 腾讯科技(深圳)有限公司 确定相似对象的方法、装置及计算机可读存储介质
CN109886787A (zh) * 2019-02-22 2019-06-14 清华大学 离散社交推荐方法及系统
CN110609905A (zh) * 2019-09-12 2019-12-24 深圳众赢维融科技有限公司 超点类型识别和图数据处理方法及装置

Similar Documents

Publication Publication Date Title
CN106372659A (zh) 相似对象确定方法及装置
CN108305158B (zh) 一种训练风控模型和风控的方法、装置及设备
CN103473492B (zh) 权限识别方法和用户终端
CN106355391A (zh) 一种业务处理方法及装置
CN108833458B (zh) 一种应用推荐方法、装置、介质及设备
CN110163478A (zh) 一种合同条款的风险审查方法及装置
CN104281831B (zh) 一种笔迹验证的方法和装置
CN103309984B (zh) 数据处理的方法和装置
CN109784013A (zh) 一种信息识别的方法、装置以及设备
CN109784599A (zh) 一种模型训练、风险识别的方法、装置及设备
CN109308616B (zh) 一种交易记录的风险判定方法及装置
CN106295392A (zh) 数据脱敏处理方法和装置
CN106469192A (zh) 一种文本相关性的确定方法及装置
CN106980667B (zh) 一种给文章标注标签的方法和装置
US20200380524A1 (en) Transaction feature generation
CN108875404A (zh) 基于机器学习的数据脱敏方法、装置及存储介质
CN110490582A (zh) 一种信用卡交易异常检测方法及装置
CN109213978A (zh) 一种合并单元格的方法、装置、电子设备及可读存储介质
CN108805054A (zh) 一种人脸图像分类方法、系统、设备及计算机存储介质
CN110263255A (zh) 用户属性信息的获取方法、系统、服务器及存储介质
CN109739700A (zh) 一种接口测试方法和装置
CN108960645A (zh) 一种风险防控方法、系统及终端设备
CN106875185A (zh) 一种风控模型训练方法及装置
CN109345221A (zh) 资源流转的核对方法及装置
US20130013244A1 (en) Pattern based test prioritization using weight factors

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170201