CN107330672A

CN107330672A - 一种基于相似度的信息处理方法、装置及计算设备

Info

Publication number: CN107330672A
Application number: CN201710534016.4A
Authority: CN
Inventors: 张朝阳; 谢双宾; 郝妙
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2017-07-03
Filing date: 2017-07-03
Publication date: 2017-11-07
Anticipated expiration: 2037-07-03
Also published as: CN107330672B

Abstract

本发明公开了一种基于相似度的信息处理方法、装置及计算设备，该方法包括：获取多个用户中各用户的行为日志，从行为日志中提取用户行为信息；根据各用户的用户行为信息，确定各用户的一个或更多个行为对象；对每一个用户，将其行为对象两两组合形成相应的一个或更多个行为对象集；统计各行为对象集的出现次数，将出现次数作为该行为对象集所包括的两个行为对象之间的共现频度，并根据共现频度计算对应的相似度；对每一个行为对象，从一个或更多个与其属于同一行为对象集的另一个行为对象中，选出对应的相似度最高的前第一数量个行为对象，以形成与该行为对象对应的相似对象序列。

Description

一种基于相似度的信息处理方法、装置及计算设备

技术领域

本发明涉及互联网技术领域，特别涉及一种基于相似度的信息处理方法、装置及计算设备。

背景技术

随着互联网技术的快速发展，越来越多的人开始享受互联网为工作和生活带来的各种便利。以传统的招聘行业为例，现在人们可以通过招聘网站来搜索自己感兴趣的公司、职位等加以了解，进而选择是否投递简历或与用人单位联系。然而，当用户在搜索自己感兴趣的A公司时，对与A公司相似的B公司可能也有一定兴趣，或者当用户投递了C公司的C1职位时，对提供C1职位的C公司相似的D公司可能也有一定意向。基于这一考虑，可根据用户对招聘公司的搜索或投递情况，向该用户推荐与招聘公司相似的其他公司，从而为用户提供全面且定制化的招聘信息。

现有的相似公司的获取方法主要分为两类：一类是基于标签匹配，通过对公司的多种标签，例如公司行业、公司规模、公司融资阶段等，进行文本标签匹配，但文本标签只考虑了基本属性，但基本属性的参考存在准确性较低，而文本匹配本身就存在一定的准确率损失，此外有些公司之间的公司标签虽然相同，却不属于相似的公司；另一类是基于协同过滤，通过基于用户对公司的评分，利用同类的用户会选择同类的公司的原理来计算相似公司，但该方案中公司评分较难收集，评分准确性、客观性存在问题，而且计算复杂度较高。

发明内容

为此，本发明提供一种基于相似度的信息处理的技术方案，以力图解决或者至少缓解上面存在的问题。

根据本发明的一个方面，提供一种基于相似度的信息处理方法，适于在计算设备中执行，该方法包括如下步骤：首先获取多个用户中各用户的行为日志，从行为日志中提取用户行为信息；根据各用户的用户行为信息，确定各用户的一个或更多个行为对象；对每一个用户，将其行为对象两两组合形成相应的一个或更多个行为对象集；统计各行为对象集的出现次数，将出现次数作为该行为对象集所包括的两个行为对象之间的共现频度，并根据共现频度计算对应的相似度；对每一个行为对象，从一个或更多个与其属于同一行为对象集的另一个行为对象中，选出对应的相似度最高的前第一数量个行为对象，以形成与该行为对象对应的相似对象序列。

可选地，在根据本发明的基于相似度的信息处理方法中，行为日志包括搜索日志和投递日志，从行为日志中提取用户行为信息的步骤包括：从用户的搜索日志中提取用户标识、每次搜索时的搜索关键词和搜索时间作为用户搜索信息；从用户的投递日志中提取用户标识、每次投递时的投递目标和投递时间作为用户投递信息；将用户搜索信息和用户投递信息作为该用户的用户行为信息。

可选地，在根据本发明的基于相似度的信息处理方法中，根据各用户的用户行为信息，确定各用户的一个或更多个行为对象的步骤包括：根据各用户的用户搜索信息的搜索关键词，确定各用户的各搜索关键词对应的搜索对象；根据各用户的用户投递信息的投递目标，获取与各用户的各投递目标对应的投递对象；将各用户的搜索对象和投递对象作为其行为对象。

可选地，在根据本发明的基于相似度的信息处理方法中，根据共现频度计算对应的相似度的步骤包括：将共现频度作为对应的相似度。

可选地，在根据本发明的基于相似度的信息处理方法中，根据共现频度计算对应的相似度的步骤包括：获取共现频度关联的行为对象集的热度惩罚参数；根据共现频度和热度惩罚参数，计算与共现频度关联的行为对象集所包括的两个行为对象之间的相似度。

可选地，在根据本发明的基于相似度的信息处理方法中，当接收到用户的输入信息时，其中输入信息包括当前搜索词，该方法还包括：根据当前搜索词确定其对应的搜索对象；将搜索对象作为该用户的行为对象；根据行为对象获取与其对应的相似对象序列并推荐给该用户。

可选地，在根据本发明的基于相似度的信息处理方法中，输入信息包括当前投递目标，该方法还包括：根据当前投递目标获取其对应的投递对象；将投递对象作为该用户的行为对象；根据行为对象获取与其对应的相似对象序列并推荐给该用户。

根据本发明的又一个方面，提供一种基于相似度的信息处理装置，适于驻留在计算设备中，该装置包括提取模块、确定模块、组合模块、计算模块和形成模块。其中，提取模块适于获取多个用户中各用户的行为日志，从行为日志中提取用户行为信息；确定模块适于根据各用户的用户行为信息，确定各用户的一个或更多个行为对象；组合模块适于对每一个用户，将其行为对象两两组合形成相应的一个或更多个行为对象集；计算模块适于统计各行为对象集的出现次数，将出现次数作为该行为对象集所包括的两个行为对象之间的共现频度，并根据共现频度计算对应的相似度；形成模块适于对每一个行为对象，从一个或更多个与其属于同一行为对象集的另一个行为对象中，选出对应的相似度最高的前第一数量个行为对象以形成与该行为对象对应的相似对象序列。

可选地，在根据本发明的基于相似度的信息处理装置中，行为日志包括搜索日志和投递日志，提取模块进一步适于：从用户的搜索日志中提取用户标识、每次搜索时的搜索关键词和搜索时间作为用户搜索信息；从用户的投递日志中提取用户标识、每次投递时的投递目标和投递时间作为用户投递信息；将用户搜索信息和用户投递信息作为该用户的用户行为信息。

可选地，在根据本发明的基于相似度的信息处理装置中，确定模块进一步适于：根据各用户的用户搜索信息的搜索关键词，确定各用户的各搜索关键词对应的搜索对象；根据各用户的用户投递信息的投递目标，获取与各用户的各投递目标对应的投递对象；将各用户的搜索对象和投递对象作为其行为对象。

可选地，在根据本发明的基于相似度的信息处理装置中，计算模块进一步适于：将共现频度作为对应的相似度。

可选地，在根据本发明的基于相似度的信息处理装置中，计算模块进一步适于：获取共现频度关联的行为对象集的热度惩罚参数；根据共现频度和热度惩罚参数，计算与共现频度关联的行为对象集所包括的两个行为对象之间的相似度。

可选地，在根据本发明的基于相似度的信息处理装置中，还包括推荐模块，适于：当接收到用户的输入信息时，其中输入信息包括当前搜索词，根据当前搜索词确定其对应的搜索对象；将搜索对象作为该用户的行为对象；根据行为对象获取与其对应的相似对象序列并推荐给该用户。

可选地，在根据本发明的基于相似度的信息处理装置中，推荐模块还适于：当接收到用户的输入信息时，其中输入信息包括当前投递对象，根据当前投递目标获取其对应的投递对象；将投递对象作为该用户的行为对象；根据行为对象获取与其对应的相似对象序列并推荐给该用户。

根据本发明的又一个方面，提供一种计算设备，包括根据本发明的基于相似度的信息处理装置。

根据本发明的又一个方面，提供一种计算设备，包括一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行根据本发明的基于相似度的信息处理方法的指令。

根据本发明的又一个方面，还提供一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当由计算设备执行时，使得计算设备执行根据本发明的基于相似度的信息处理方法。

根据本发明的基于相似度的信息处理的技术方案，首先从用户的行为日志中提取用户行为信息，再基于用户行为信息确定相应的行为对象，对每一个用户，将其行为对象两两组合形成一个或更多个行为对象集，并统计各行为对象集的出现次数，将出现次数作为该行为对象集所包括的两个行为对象之间的共现频度，并根据该共现频度计算对应的相似度，最后，对每一个行为对象，从一个或更多个与其属于同一行为对象集的另一个行为对象中，选出对应的相似度最高的前第一数量个行为对象，以形成与该行为对象对应的相似对象序列。在上述技术方案中，行为日志包括搜索日志和投递日志，将用户的搜索行为和投递行为结合在一起获取用户的行为对象，此时行为对象既包括搜索对象也包括投递对象，其间接反应了用户搜索行为对应的搜索对象、用户投递行为对应的投递对象，均符合该用户当前预期属于同一水平的行为对象范围。而计算得到的共现频度，可以将共现理解为同一用户同时搜索或投递了多个行为对象，这些行为对象即属于共现的行为对象，对共现频度进一步处理获得相似度，则当用户量足够大时，通过以上方案所获取到各行为对象的相似对象序列的可信度也将变得足够高，解决了基于标签准确率低和协同过滤复杂度较高的问题。此外，当用户键入输入信息时，通过输入信息确定对应的行为对象，再将与其对应的相似对象序列推荐给该用户，有助于提升用户点击相似对象序列中的行为对象的点击率，为用户提供了全面且定制化的信息。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个实施例的计算设备100的结构框图；

图2示出了根据本发明的一个实施例的基于相似度的信息处理方法200的流程图；

图3示出了根据本发明的一个实施例的基于相似度的信息处理装置300的示意图；以及

图4示出了根据本发明的又一个实施例的基于相似度的信息处理装置400的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是示例计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上利用程序数据124进行操作。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备100可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中，计算设备100实现为服务器，该服务器被配置为执行根据本发明的基于相似度的信息处理方法200。应用122包括根据本发明的基于相似度的信息处理装置300。

图2示出了根据本发明一个实施例的基于相似度的信息处理方法200的流程图。基于相似度的信息处理方法200适于在实现为服务器的计算设备(例如图1所示的计算设备100)中执行。

如图2所示，方法200始于步骤S210。在步骤S210中，获取多个用户中各用户的行为日志，从行为日志中提取用户行为信息。根据本发明的一个实施例，行为日志包括搜索日志和投递日志，可通过以下方式从行为日志中提取用户行为信息。首先，从用户的搜索日志中提取用户标识、每次搜索时的搜索关键词和搜索时间作为用户搜索信息，并从用户的投递日志中提取用户标识、每次投递时的投递目标和投递时间作为用户投递信息，最后将用户搜索信息和用户投递信息作为该用户的用户行为信息。在该实施方式中，用户的行为日志的格式如下所示：

行为时间–事件类型–搜索关键词/投递目标–是否执行成功–用户标识

其中，行为时间为用户的搜索行为或投递行为发生的时间，事件类型用于表明当前行为是搜索行为或投递行为，用户标识用于唯一确定执行行为的用户。

对于行为日志中的搜索日志，上述行为时间为搜索时间，可得搜索日志的格式为：

搜索时间–事件类型–搜索关键词–是否执行成功–用户标识

对于行为日志中的投递日志，上述行为时间为投递时间，可得投递日志的格式为：

其格式如下：

投递时间–事件类型–投递目标–是否执行成功–用户标识

以下将以用户A的行为日志为例，对提取用户行为信息的过程进行说明。获取用户A的一条搜索日志如下：

2017-02-21 22:31:15–query–java腾讯–true–User123

其中，搜索时间为2017-02-21 23:49:46，事件类型为query，表明该日志为搜索日志，搜索关键词为java腾讯，是否执行成功对应的结果是true，表明执行成功，用户标识为User123。从用户A的上述搜索日志中提取用户标识、搜索时的搜索关键词和搜索时间，得到的用户搜索信息为“User123–java腾讯–2017-02-21 22:31:15”。

获取用户A的一条投递日志如下：

2017-02-21 23:49:46–order–214234–true–User123

其中，搜索时间为2017-02-21 23:49:46，事件类型为order，表明该日志为投递日志，投递目标为214234，是否执行成功对应的结果是true，表明执行成功，用户标识为User123。在这里，投递目标表示用户投递的职位的职位标识。从用户A的上述投递日志中提取用户标识、投递时的投递目标和投递时间，得到的用户投递信息为User123–214234–2017-02-21 23:49:46。在对用户A的投递日志和搜索日志进行信息提取处理后，最后将用户A的用户搜索信息和用户投递信息作为其用户行为信息。

随后，进入步骤S220，根据各用户的用户行为信息，确定各用户的一个或更多个行为对象。根据本发明的一个实施例，可通过下列方式确定各用户的一个或更多个行为对象。首先，根据各用户的用户搜索信息的搜索关键词，确定各用户的各搜索关键词对应的搜索对象，并根据各用户的用户投递信息的投递目标，获取与各用户的各投递目标对应的投递对象，再将各用户的搜索对象和投递对象作为其行为对象。在该实施方式中，对用户A而言，先根据用户A的用户搜索信息的搜索关键词，确定各搜索关键词对应的搜索对象，用户A的用户搜索信息为User123–java腾讯–2017-02-21 22:31:15，其中的搜索关键词为java腾讯，从搜索关键词“java腾讯”中可提取到“腾讯”这一公司名称，通过提取出的公司名称“腾讯”获取其对应的公司标识为S1，该公司标识即为搜索对象。而用户A的用户投递信息为User123–214234–2017-02-21 23:49:46，该用户投递信息的投递目标为214234，由于投递目标表示用户投递的职位的职位标识，则根据职位标识“214234”查询得到其对应的公司标识为S2，公司名称为阿里巴巴，该公司标识即为投递对象。此时，将用户A的搜索对象“S1”和投递对象“S2”作为其行为对象。

在执行完步骤S220后，对每一个用户，已经确定了该用户的一个或更多个行为对象，此后，在步骤S230中，对每一个用户，将其行为对象两两组合形成相应的一个或更多个行为对象集。根据本发明的一个实施例，最终得到用户A的行为对象为S1、S2和S3，对这3个行为对象两两组合可得到3个行为对象集，具体如下：

(S1、S2)，(S1、S3)，(S2、S3)

对用户B而言，其行为对象为S2、S3和S4，则用户B的行为对象集为：

(S2、S3)，(S2、S4)，(S3、S4)

对用户C而言，其行为对象为S1、S3、S4和S5，则用户B的行为对象集为：

(S1、S3)，(S1、S4)，(S1、S5)，(S3、S4)，(S3、S5)，(S4、S5)

按照上述组合方法，对所有用户的行为对象进行两两组合，以形成与各用户对应的一个或更多个行为对象集。对于行为对象集的形成过程，其相关代码如下所示：

int prevCid＝-1；

Map<Integer,Integer>countMap＝new HashMap<Integer,Integer>()；

for(Combine combine:combines){

int cid1＝combine.getP1()；

int cid2＝combine.getP2()；

if(cid1！＝prevCid){

if(countMap.size()>0){

Map<Integer,Double>scoreMap＝new HashMap<Integer,Double>()；

for(Entry<Integer,Integer>ele:countMap.entrySet()){

int neighborId＝ele.getKey()；

int cooccurCount＝ele.getValue()；

int deliverHot＝deliveryCountMap.get(ele.getKey())；

double score＝getScore(cooccurCount,deliverHot)；

scoreMap.put(neighborId,score)；

}

……

}

接下来，执行步骤S240，统计各行为对象集的出现次数，将出现次数作为该行为对象集所包括的两个行为对象之间的共现频度，并根据共现频度计算对应的相似度。根据本发明的一个实施例，基于步骤230中对用户A、B和C的行为对象的组合处理，得到了共计9个不同的行为对象集，统计这9个行为对象集的出现次数，并将出现次数作为该行为对象集所包括的两个行为对象之间的共现频度。表1示出了根据本发明一个实施例的行为对象集、行为对象和共现频度的关系示例，具体如下所示：

表1

在根据共现频度计算对应的相似度时，可将共现频度直接作为对应的相似度，即行为对象S1和S2、S1和S3、S1和S4、S1和S5、S2和S3、S2和S4、S3和S4、S3和S5、S4和S5之间的相似度依次为1、2、1、1、2、1、2、1、1。

根据本发明的又一个实施例，可通过以下方法根据共现频度计算对应的相似度。在该实施方式中，先获取共现频度关联的行为对象集的热度惩罚参数，再根据共现频度和热度惩罚参数，计算与该共现频度关联的行为对象集所包括的两个行为对象之间的相似度。关于热度惩罚参数的计算，可通过行为对象集中两个行为对象各自对应的行为所出现的累积次数来联合计算，而相似度的计算可采用如下公式：

log _r(共现频度)×共现频度/(log_r(3)×热度惩罚参数)

其中，底数r优选为10。基于以上对共现频率进行热度惩罚的处理，以避免某一行为对象因热度太高，比如某个公司被搜索或被投递太多次，导致该行为对象一直处于共现频度前几位的现象。对于一些热门公司而言，其被搜索和投递职位的次数肯定远远超于常规公司，这种情况对于新成立的公司或创业公司尤为不利，因此考虑热度惩罚参数来对热门公司进行惩罚，基于此再计算相似度则有利于提高结果的可参考性和准确性。关于热度惩罚参数的选用和计算，并不进行具体限制，所有这些对于了解本发明方案的技术人员来说是可以容易想到的，并且也在本发明的保护范围之内，此处不予以赘述。

最后，在步骤S250中，对每一个行为对象，从一个或更多个与其属于同一行为对象集的另一个行为对象中，选出对应的相似度最高的前第一数量个行为对象，以形成与该行为对象对应的相似对象序列。根据本发明的一个实施例，第一数量优选为10。当然，若与一个行为对象属于同一行为对象集的另一个行为对象的数量未达到第一数量，则按相似度从高到低的顺序，对所有与该行为对象属于同一行为对象集的另一个行为对象进行排序，将排序结果作为与该行为对象对应的相似对象序列。根据本发明的一个实施例，对行为对象S1而言，与其属于同一行为对象集的另一个行为对象包括行为对象S2、S3、S4和S5这4个行为对象，数量小于10，行为对象S1和S2、S1和S3、S1和S4、S1和S5之间的相似度依次为1、2、1、1，因此按相似度从高到低的顺序，对行为对象S2、S3、S4和S5进行排序，得到行为对象S1对应的相似对象序列为S3、S2、S4和S5。进而可得，行为对象S2对应的相似对象序列为S3、S1和S4，行为对象S3对应的相似对象序列为S1、S2、S4和S5，行为对象S4对应的相似对象序列为S3、S1、S2和S5，行为对象S5对应的相似对象序列为S1、S3和S5。关于相似对象序列的形成，其关键代码如下所示：

public List<Integer>getSimCompany(int companyID){

List<SimCompany>datas＝super.getDataByPage("*","companyid＝"+companyID,1,10)；

List<Integer>rect＝new ArrayList<Integer>()；

try{

if(datas＝＝null||datas.size()<1){

rect＝new ArrayList<Integer>()；

}else{

Collections.sort(datas,new Comparator<SimCompany>(){

public int compare(SimCompany o1,SimCompany o2){

if(o1.getScore()<o2.getScore()){

return 1；

}else if(o1.getScore()>o2.getScore()){

return-1；

}else{

return 0；}

}})；

for(SimCompany ele:datas){

rect.add(ele.getSimcompanyid())；}

}

}catch(Exception e){

logger.error("getSimCompany function,where companyId＝"+companyID+"failed.",e)；}

return rect；

}

在构建与行为对象对应的相似对象序列后，一般是将其存在数据库中以便随时查询，因此可以通过这一对应关系快速且准确地向用户推荐与其键入的输入信息相似的信息。根据本发明的又一个实施例，当接收到用户的输入信息时，其中输入信息包括当前搜索词，先根据当前搜索词确定其对应的搜索对象，比如当前搜索词为“阿里客服”，从该当前搜索词中提取到“阿里”这一公司名称，通过提取出的公司名称“阿里”获取其对应的公司标识为S2，该公司标识即为搜索对象。随后，将该搜索对象S2作为该用户的行为对象，根据行为对象S2获取与其对应的相似对象序列，此时从数据库中查找到行为对象S2对应的相似对象序列为S3、S1和S4，将该相似对象序列对应的显示内容，如公司名称等推荐给该用户，以便用户进行点击访问。

根据本发明的又一个实施例，当接收到用户的输入信息时，其中输入信息包括当前投递目标，先根据当前投递目标确定其对应的投递对象，比如当前投递目标为腾讯游戏架构师，先将该投递目标转换为职位标识的表现形式，可得当前投递目标为214235，根据当前投递目标“214235”查询得到其对应的公司标识为S1，该公司标识即为投递对象。随后，将该投递对象S1作为该用户的行为对象，根据行为对象S1获取与其对应的相似对象序列，此时从数据库中查找到行为对象S1对应的相似对象序列为S3、S2、S4和S5，将该相似对象序列对应的显示内容，如公司名称等推荐给该用户，以便用户进行点击访问。

图3示出了本发明一个实施例的基于相似度的信息处理装置300的示意图。如图3所示，基于相似度的信息处理装置300包括提取模块310、确定模块320、组合模块330、计算模块340和形成模块350。

提取模块310适于获取多个用户中各用户的行为日志，从行为日志中提取用户行为信息。行为日志包括搜索日志和投递日志，提取模块310进一步适于从用户的搜索日志中提取用户标识、每次搜索时的搜索关键词和搜索时间作为用户搜索信息；从用户的投递日志中提取用户标识、每次投递时的投递目标和投递时间作为用户投递信息；将用户搜索信息和用户投递信息作为该用户的用户行为信息。提取模块310执行上述操作的具体细节可参见方法200中的步骤S210，此处不予以赘述。

确定模块320与提取模块310相连，适于根据各用户的用户行为信息，确定各用户的一个或更多个行为对象。确定模块320进一步适于根据各用户的用户搜索信息的搜索关键词，确定各用户的各搜索关键词对应的搜索对象；根据各用户的用户投递信息的投递目标，获取与各用户的各投递目标对应的投递对象；将各用户的搜索对象和投递对象作为其行为对象。确定模块320执行上述操作的具体细节可参见方法200中的步骤S220，此处不予以赘述。

组合模块330与确定模块320相连，适于对每一个用户，将其行为对象两两组合形成相应的一个或更多个行为对象集。组合模块330执行上述操作的具体细节可参见方法200中的步骤S230，此处不予以赘述。

计算模块340与组合模块330相连，适于统计各行为对象集的出现次数，将出现次数作为该行为对象集所包括的两个行为对象之间的共现频度，并根据共现频度计算对应的相似度。计算模块340进一步适于将共现频度作为对应的相似度。计算模块340进一步获取共现频度关联的行为对象集的热度惩罚参数；根据共现频度和热度惩罚参数，计算与共现频度关联的行为对象集所包括的两个行为对象之间的相似度。计算模块340执行上述操作的具体细节可参见方法200中的步骤S240，此处不予以赘述。

形成模块350分别与组合模块330和计算模块340相连，适于对每一个行为对象，从一个或更多个与其属于同一行为对象集的另一个行为对象中，选出对应的相似度最高的前第一数量个行为对象以形成与该行为对象对应的相似对象序列。形成模块350执行上述操作的具体细节可参见方法200中的步骤S250，此处不予以赘述。

图4示出了本发明又一个实施例的基于相似度的信息处理装置400的示意图。如图4所示，基于相似度的信息处理装置400的提取模块410、确定模块420、组合模块430、计算模块440和形成模块450，分别与图3中基于相似度的信息处理装置300的提取模块310、确定模块320、组合模块330、计算模块340和形成模块350一一对应，是一致的，并新增了推荐模块460。

推荐模块460与形成模块450相连，适于当接收到用户的输入信息时，其中输入信息包括当前搜索词，根据当前搜索词确定其对应的搜索对象；将搜索对象作为该用户的行为对象；根据行为对象获取与其对应的相似对象序列并推荐给该用户。推荐模块460还适于当接收到用户的输入信息时，其中输入信息包括当前投递对象，根据当前投递目标获取其对应的投递对象；将投递对象作为该用户的行为对象；根据行为对象获取与其对应的相似对象序列并推荐给该用户。推荐模块460执行上述操作的具体细节可参见方法200中执行步骤S250之后，在接收到用户的输入信息时向该用户推荐与该输入信息相关的相似对象序列的处理过程，此处不予以赘述。

关于基于相似度的信息处理的具体步骤以及实施例，在基于图2的描述中已经详细公开，此处不再赘述。

现有的基于相似度的信息处理方法中，若采用基于标签匹配的方案，则存在准确率低下的问题，若采用基于协同过滤的方案，由于信息评分较难收集，评分准确性、客观性存在问题，且计算复杂度较高。根据本发明实施例的基于相似度的信息处理的技术方案，首先从用户的行为日志中提取用户行为信息，再基于用户行为信息确定相应的行为对象，对每一个用户，将其行为对象两两组合形成一个或更多个行为对象集，并统计各行为对象集的出现次数，将出现次数作为该行为对象集所包括的两个行为对象之间的共现频度，并根据该共现频度计算对应的相似度，最后，对每一个行为对象，从一个或更多个与其属于同一行为对象集的另一个行为对象中，选出对应的相似度最高的前第一数量个行为对象，以形成与该行为对象对应的相似对象序列。在上述技术方案中，行为日志包括搜索日志和投递日志，将用户的搜索行为和投递行为结合在一起获取用户的行为对象，此时行为对象既包括搜索对象也包括投递对象，其间接反应了用户搜索行为对应的搜索对象、用户投递行为对应的投递对象，均符合该用户当前预期属于同一水平的行为对象范围。而计算得到的共现频度，可以将共现理解为同一用户同时搜索或投递了多个行为对象，这些行为对象即属于共现的行为对象，对共现频度进一步处理获得相似度，则当用户量足够大时，通过以上方案所获取到各行为对象的相似对象序列的可信度也将变得足够高，解决了基于标签准确率低和协同过滤复杂度较高的问题。此外，当用户键入输入信息时，通过输入信息确定对应的行为对象，再将与其对应的相似对象序列推荐给该用户，有助于提升用户点击相似对象序列中的行为对象的点击率，为用户提供了全面且定制化的信息。

A7.如A6所述的方法，其中所述输入信息包括当前投递目标，所述方法还包括：

根据所述当前投递目标获取其对应的投递对象；

将所述投递对象作为该用户的行为对象；

根据所述行为对象获取与其对应的相似对象序列并推荐给该用户。

B9.如B8所述的装置，所述行为日志包括搜索日志和投递日志，所述提取模块进一步适于：

从用户的搜索日志中提取用户标识、每次搜索时的搜索关键词和搜索时间作为用户搜索信息；

从用户的投递日志中提取用户标识、每次投递时的投递目标和投递时间作为用户投递信息；

将所述用户搜索信息和用户投递信息作为该用户的用户行为信息。

B10.如B9所述的装置，所述确定模块进一步适于：

根据各用户的用户搜索信息的搜索关键词，确定各用户的各搜索关键词对应的搜索对象；

根据各用户的用户投递信息的投递目标，获取与各用户的各投递目标对应的投递对象；

将各用户的搜索对象和投递对象作为其行为对象。

B11.如B8-10中任一项所述的装置，所述计算模块进一步适于：

将所述共现频度作为对应的相似度。

B12.如B8-10中任一项所述的装置，所述计算模块进一步适于：

获取所述共现频度关联的行为对象集的热度惩罚参数；

根据所述共现频度和热度惩罚参数，计算与所述共现频度关联的行为对象集所包括的两个行为对象之间的相似度。

B13.如B8-12中任一项所述的装置，还包括推荐模块，适于：

当接收到用户的输入信息时，其中所述输入信息包括当前搜索词，根据所述当前搜索词确定其对应的搜索对象；

将所述搜索对象作为该用户的行为对象；

B14.如B13所述的装置，所述推荐模块还适于：

当接收到用户的输入信息时，其中所述输入信息包括当前投递对象，根据所述当前投递目标获取其对应的投递对象；

将所述投递对象作为该用户的行为对象；

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间，以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的基于相似度的信息处理方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种基于相似度的信息处理方法，适于在计算设备中执行，所述方法包括：

获取多个用户中各用户的行为日志，从所述行为日志中提取用户行为信息；

根据各用户的用户行为信息，确定各用户的一个或更多个行为对象；

对每一个用户，将其行为对象两两组合形成相应的一个或更多个行为对象集；

统计各行为对象集的出现次数，将所述出现次数作为该行为对象集所包括的两个行为对象之间的共现频度，并根据所述共现频度计算对应的相似度；

对每一个行为对象，从一个或更多个与其属于同一行为对象集的另一个行为对象中，选出对应的相似度最高的前第一数量个行为对象，以形成与该行为对象对应的相似对象序列。

2.如权利要求1所述的方法，所述行为日志包括搜索日志和投递日志，所述从所述行为日志中提取用户行为信息的步骤包括：

3.如权利要求2所述的方法，所述根据各用户的用户行为信息，确定各用户的一个或更多个行为对象的步骤包括：

将各用户的搜索对象和投递对象作为其行为对象。

4.如权利要求1-3中任一项所述的方法，所述根据所述共现频度计算对应的相似度的步骤包括：

将所述共现频度作为对应的相似度。

5.如权利要求1-3中任一项所述的方法，所述根据所述共现频度计算对应的相似度的步骤包括：

获取所述共现频度关联的行为对象集的热度惩罚参数；

6.如权利要求1-5中任一项所述的方法，当接收到用户的输入信息时，其中所述输入信息包括当前搜索词，所述方法还包括：

根据所述当前搜索词确定其对应的搜索对象；

将所述搜索对象作为该用户的行为对象；

7.一种基于相似度的信息处理装置，适于驻留在计算设备中，所述装置包括：

提取模块，适于获取多个用户中各用户的行为日志，从所述行为日志中提取用户行为信息；

确定模块，适于根据各用户的用户行为信息，确定各用户的一个或更多个行为对象；

组合模块，适于对每一个用户，将其行为对象两两组合形成相应的一个或更多个行为对象集；

计算模块，适于统计各行为对象集的出现次数，将所述出现次数作为该行为对象集所包括的两个行为对象之间的共现频度，并根据所述共现频度计算对应的相似度；

形成模块，适于对每一个行为对象，从一个或更多个与其属于同一行为对象集的另一个行为对象中，选出对应的相似度最高的前第一数量个行为对象以形成与该行为对象对应的相似对象序列。

8.一种计算设备，包括如权利要求7所述的基于相似度的信息处理装置。

9.一种计算设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至6所述的方法中的任一方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至6所述的方法中的任一方法。