CN105279155B

CN105279155B - 一种访问对象的数据处理方法及装置

Info

Publication number: CN105279155B
Application number: CN201410229507.4A
Authority: CN
Inventors: 郁其雨; 谢启明; 付运伟; 李永安; 王炫聪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2014-05-28
Filing date: 2014-05-28
Publication date: 2019-06-25
Anticipated expiration: 2034-05-28
Also published as: CN105279155A

Abstract

本发明公开了一种访问对象的数据处理方法及装置，所述方法包括:获取访问对象的标题名，将标题名划分为至少两个分词；获取至少两个分词对应的访问频率信息，并生成包含携带访问频率信息的至少两个分词的多元组；在两个访问对象的多元组中，提取共同包含的第一分词及其携带的访问频率信息，并对第一分词进行协同过滤分析生成协同过滤分值；根据第一分词的协同过滤分值和其携带的访问频率信息，生成两个访问对象相互之间的相关度；根据当前访问的访问对象及其对应的相关度将相应的访问对象进行推荐。本实施例中避免了由于访问对象的考虑不全面，尤其是对于新录入的访问对象，导致访问对象之间的相关度计算不准确的问题，提高了计算结果的准确性。

Description

一种访问对象的数据处理方法及装置

技术领域

本发明属于通信技术领域，尤其涉及一种访问对象的数据处理方法及装置。

背景技术

随着网络的不断推进，用户在访问网络时对网络各项功能的要求越来越高，譬如以网络购物为例，用户一般会希望网站推荐与其所需要商品的同类商品或相关商品，从而通过比较查询的方式可更方便地购买到需要的商品。

目前在网络购物中，协同过滤推荐(Collaborative Filtering recommendation)正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同，协同过滤通过分析用户兴趣，在用户群中找到指定用户的相似(兴趣)用户，综合这些相似用户对某一信息的评价，形成系统对该指定用户对此信息的喜好程度预测。

但是基于该方式，在商品到商品的协同过滤中，由于没有考虑到商品本身的特性而导致商品相关度的计算结果不准确，如对于一些新推出的商品，可能由于暂时无用户购买或收藏而导致不会马上被推荐出来，其需要经过一定时间的才可能被推荐出来，也就是说没有考虑到新推出的商品的相关性，从而导致商品相关度的计算结果和相关商品的推荐不全面，不够准确。

因此，需解决现有技术在协同过滤中，由于访问对象(如商品)的考虑不全面，尤其是对于一些新推出的商品，导致访问对象之间的相关度信息计算不准确的问题。

发明内容

本发明的目的在于提供一种访问对象的数据处理方法及装置，旨在解决现有技术中在协同过滤中，由于访问对象(如商品)的考虑不全面，尤其是对于新录入的访问对象，导致访问对象之间的相关度信息计算不准确的问题。

为解决上述技术问题，本发明实施例提供以下技术方案：

一种访问对象的数据处理方法，所述方法包括：

获取访问对象的标题名，将所述标题名划分为至少两个分词；

获取所述至少两个分词对应的访问频率信息，并生成与所述访问对象一一对应的多元组，所述多元组中包含携带访问频率信息的所述至少两个分词；

在两个访问对象对应的多元组中，提取共同包含的第一分词及所述第一分词携带的访问频率信息，并对所述第一分词进行协同过滤分析，生成所述第一分词的协同过滤分值，所述第一分词为所述至少两个分词中的至少一个；

根据所述第一分词的协同过滤分值和所述第一分词携带的访问频率信息，生成所述两个访问对象相互之间的相关度；以及

根据当前访问的访问对象，以及所述当前访问的访问对象对应的相关度将相应的访问对象进行推荐。

为解决上述技术问题，本发明实施例提供以下技术方案：

一种访问对象的数据处理装置，所述装置包括：

分词获取模块，用于获取访问对象的标题名，将所述标题名划分为至少两个分词；

多元组生成模块，用于获取所述至少两个分词对应的访问频率信息，并生成与所述访问对象一一对应的多元组，所述多元组中包含携带访问频率信息的所述至少两个分词；

协同过滤分值生成模块，用于在两个访问对象对应的多元组中，提取共同包含的第一分词及所述第一分词携带的访问频率信息，并对所述第一分词进行协同过滤分析，生成所述第一分词的协同过滤分值，所述第一分词为所述至少两个分词中的至少一个；以及

相关度生成模块，用于根据所述第一分词的协同过滤分值和所述第一分词携带的访问频率信息，生成所述两个访问对象相互之间的相关度；以及

推荐控制模块，用于根据当前访问的访问对象，以及所述当前访问的访问对象对应的相关度将相应的访问对象进行推荐。

相对于现有技术，本实施例将访问对象的标题名划分为至少两个分词，并根据所述至少两个分词访问频率信息，生成包含携带访问频率信息的至少两个分词的多元组；其次，针对两个访问对象的多元组，对共同包含的第一分词进行协同过滤分析并生成第一分词协同过滤分值；最后，根据第一分词的协同过滤分值和第一分词携带的访问频率信息，从而生成两个访问对象相互之间的相关度，将相关的访问对象进行推荐；本发明实施例中，由于利用了访问对象的标题名以及访问对象标题名分词的访问频率信息，对访问对象进行了全面的考虑，尤其是对新录入的访问对象，不仅可以客观地体现出了访问对象之间的相关性，而且提高访问对象之间的相关度信息计算的准确率。

附图说明

图1是本发明实施例提供的访问对象的数据处理系统的结构示意图；

图2是本发明第一实施例提供的访问对象的数据处理方法的流程示意图；

图3为本发明第二实施例提供的访问对象的数据处理方法的流程示意图；

图4a为本发明实施例提供的访问对象的数据处理方法具体应用流程示意图；

图4b为本发明实施例提供的具体应用中访问对象的示意图；

图5为本发明实施例提供的访问对象的数据处理装置的结构示意图；

图6为本发明实施例提供的访问对象的数据处理装置的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例，其不应被视为限制本发明未在此详述的其它具体实施例。

在以下的说明中，本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本发明原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本发明的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行操作。所熟知的适合用于本发明的运算系统、环境与组态的范例可包括(但不限于)手持电话、个人计算机、服务器、多处理器系统、微电脑为主的系统、主架构型计算机、及分布式运算环境，其中包括了任何的上述系统或装置。

本文所使用的术语「模块」可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法优选的以软件的方式进行实施，当然也可在硬件上进行实施，均在本发明保护范围之内。

请参阅图1，图1为本发明实施例提供的访问对象的数据处理系统的结构示意图，所述访问对象的数据处理系统包括客户端11以及服务器12。

其中所述客户端11是使用者为了利用网络服务而使用的通信终端装置，其可通过通信网路与所述服务器12连接。所述客户端11不仅可以由桌上型计算机构成，还可以由笔记型计算机、工作站、掌上型计算机、UMPC(Ultra Mobile Personal Computer：超移动个人计算机)、平板PC、个人数字助理(Personal Digital Assistant，PDA)、连网板(web pad)、可携式电话等具备储存单元并安装有微处理器而具有运算能力的终端机构成。

其中所述客户端11与所述服务器12之间的所述通信网路可以包括将局域网络(Local Area Network，LAN)、都会网络(Metropolitan Area Network，MAN)、广域网络(Wide Area Network，WAN)、因特网等包括在内的数据通信网络，还包括电话网络等，不分有线和无线，使用任何通信方式均无关。

而所述服务器12存储有多个访问对象以及对应的所述访问对象的信息，访问对象可以为商品或者为音视频或者业务数据等等，所述访问对象的信息可以包括：访问对象的标题名、标题名的分词信息、以及标题名分词的访问频率信息等。

本发明实施例中，所述服务器12获取访问对象，并利用现有的分词方法，对所述访问对象的标题名进行划分，得到标题分词；并根据所述分词的访问频率信息生成与所述访问对象唯一对应的多元组，其后根据访问对象的多元组之间的处理和计算，生成所述访问对象相互之间的相关度。当所述客户端11当前访问一访问对象，所述服务器12获取所述访问对象，并根据访问对象相互之间的相关度，获取了与其相关的访问对象并推荐至所述客户端11。由于利用了访问对象的标题名以及访问对象标题名分词的访问频率信息，对访问对象进行了全面的考虑，尤其是对于新录入的访问对象，不仅可以客观地体现出了访问对象之间的相关性，而且提高访问对象之间的相关度信息计算的准确率。

请参阅图2，图2是本发明第一实施例提供的访问对象的数据处理方法的流程示意图。

在步骤S201中，获取访问对象的标题名，将所述标题名划分为至少两个分词。

可以理解的是，所述访问对象可以为商品或者为音视频或者如ERP(EnterpriseResource Planning企业资源计划)系统中的个人资料等业务数据。另容易想到的是，本发明实施例中可以采用现有的分词方法，对所述标题名进行划分，得到至少两个分词，譬如，将一访问对象A的标题名拆分为a、b、c、d和e五个分词，可表示为A(a、b、c、d、e)，其中，一个访问对象的标题名唯一对应一个划分分词的结果。

优选的，将访问对象的标题名划分为至少两个分词之后，可以包括：判断所述至少两个分词是否有效，若有效，则执行所述获取所述至少两个分词对应的访问频率信息的步骤，即得到分词后需要先对分词进行有效判定，对于有效的分词才进行访问频率信息的获取并以此组成多元组，其中，所述判断所述至少两个分词是否有效可以具体包括：

将所述至少两个分词中的每个分词与预置的分词数据库一一进行对比；若在所述分词数据库中查询到所述分词，则判断出所述分词有效；以及若在所述分词数据库中没有查询到所述分词，则判断出所述分词无效。可以理解的是，所述分词数据库可以预先存储在所述服务器12中。

在步骤S202中，获取所述至少两个分词对应的访问频率信息，并生成与所述访问对象一一对应的多元组，所述多元组中包含携带访问频率信息的所述至少两个分词。

优选的，可以根据所有有效的分词以及分词的访问频率信息生成与所述访问对象唯一对应的多元组，假设访问对象A的标题名拆分为(a、b、c、d、e)，且所有所述分词判定为有效，则获取所有分词的访问频率信息，所述访问频率信息可以具体为一个分词词频统计比值，所述分词词频统计比值是在某一预设时间段内统计获得的，如a＝0.2，b＝0.5，c＝0.8，d＝0.2，e＝0.3，则生成访问对象A的唯一对应的多元组可以表示为A(a＝0.2，b＝0.5，c＝0.8，d＝0.2，e＝0.3)。

在步骤S203中，在两个访问对象对应的多元组中，提取共同包含的第一分词及所述第一分词携带的访问频率信息，并对所述第一分词进行协同过滤分析，生成所述第一分词的协同过滤分值，所述第一分词为所述至少两个分词中的至少一个。

可具体的，对于每个访问对象，在获取到携带有访问频率信息的多元组后，可以针对其中任意两个访问对象的多元组进行分析，以了解该两个访问对象之间的相关性。假设访问对象A唯一对应的多元组为A(a＝0.2，b＝0.5，c＝0.8，d＝0.2，e＝0.3)，访问对象B唯一对应的多元组为B(a＝0.2，c＝0.8，d＝0.2，e＝0.3，f＝0.4，g＝0.7)，对于访问对象A和访问对象B，其共同包含的第一分词包括a、c、d和e，则使用传统的协同过滤方法对所述第一分词进行协同过滤分析，生成所述第一分词的协同过滤分值。

可以理解的是，第一分词为所述多元组分词中的至少一个，所述第一分词的选取数量可以由用户预设定；假设用户需要以共同包含的第一分词d和e为主作为多元组之间的相关性衡量，则可以仅仅对d和e进行协同过滤分析，生成对应的协同过滤分值；在一些较为精准的场合，用户可以以所有的共同包含的第一分词a、c、d和e为主作为多元组之间的相关性衡量，对a、c、d和e均进行协同过滤分析，生成对应的协同过滤分值，本实施例对此不作具体限定。

在步骤S204中，根据所述第一分词的协同过滤分值和所述第一分词携带的访问频率信息，生成所述两个访问对象相互之间的相关度。

假设针对于所述访问对象A和访问对象B，对第一分词a、c、d和e均进行协同过滤分析，生成对应的协同过滤分值为Pa、Pc、Pd和Pe，其后根据Pa、Pc、Pd和Pe，以及a、c、d和e对应携带的访问频率信息，生成所述访问对象A和访问对象B相互之间的相关度。

在步骤S205中，根据当前访问的访问对象，以及所述当前访问的访问对象对应的相关度将相应的访问对象进行推荐。

在某些实施方式中，当服务器12获取到客户端11当前访问的访问对象时，基于所述步骤201至所述步骤204生成的访问对象相互之间的相关度，根据所述当前访问的访问对象，可以快速且准确地获取到与所述当前访问的访问对象相关的访问对象，并将所述相关的访问对象推荐至所述客户端11。

由上述可知，本实施例中，将访问对象的标题名划分为至少两个分词，并根据所述至少两个分词访问频率信息，生成包含携带访问频率信息的至少两个分词的多元组；其次，针对两个访问对象的多元组，对共同包含的第一分词进行协同过滤分析并生成第一分词协同过滤分值；最后，根据第一分词的协同过滤分值和第一分词携带的访问频率信息，从而生成两个访问对象相互之间的相关度，将相关的访问对象进行推荐；本发明实施例中，由于利用了访问对象的标题名以及访问对象标题名分词的访问频率信息，对访问对象进行了全面的考虑，尤其是对于新录入的访问对象，不仅可以客观地体现出了访问对象之间的相关性，而且提高访问对象之间的相关度信息计算的准确率。

请参阅图3，图3为本发明第二实施例提供的访问对象的处理方法的流程示意图。

在步骤S301中，对于每一个访问对象，获取访问对象的标题名，将所述标题名划分为至少两个分词。

可以理解的是，所述访问对象可以为商品或者为音视频或者如ERP企业资源计划系统中的个人资料等业务数据。本发明实施例中，对于每一个访问对象，在获取到所述访问对象及其标题名后，可以采用现有的分词方法，对所述标题名进行划分，得到至少两个分词；譬如，将一访问对象A的标题名拆分为a、b、c、d和e五个分词，可分词结果可以表示为A(a、b、c、d、e)，其中，一个访问对象的标题名唯一对应一个划分分词的结果。

另容易想到的是，由于所述访问对象的标题名对访问对象的特点和属性等有一定的表征意义，因此，根据所述访问对象的标题名在进行访问对象之间相关性的考虑上更加有代表性。

在步骤S302中，判断所述至少两个分词是否有效。

优选的，由于所述访问对象的标题名存在一些符号，如“()”等，因此对于每一个访问对象，需要对划分后的分词进行有效判定，对于有效的分词才进行分词访问频率信息的获取并以此组成多元组。本发明实施例中，有效判定的步骤可以具体包括：

将所述至少两个分词中的每个分词与预置的分词数据库一一进行对比；若在所述分词数据库中查询到所述分词，则判断出所述分词有效；以及若在所述分词数据库中没有查询到所述分词，则判断出所述分词无效。可以理解的是，所述分词数据库可以预先存储在所述服务器12中，所述分词数据库中的分词是经过大量统计后确定，按照分词统计数量的多少或者按照分词的词性(如名词、形容词)等规则进行预先存储，此处不作具体限定。

若判断出所述分词有效，则执行步骤S303a，若判断出所述分词无效，则执行步骤S303b：

在步骤S303a中，获取所述分词对应的访问频率信息。

优选的，所述分词对应的访问频率信息可以具体为一个分词词频统计比值，可以基于以下方式获得：

每个访问对象，对于所述至少两个分词中的每个分词，在预设时间段内统计包含所述分词的页面访问次数；其中，所述预设时间段可以是一个月或者三个月或者半年等；

在所述预设时间段内统计包含所述分词的标题的页面访问次数；以及

将所述包含所述分词的标题的页面访问次数与所述包含所述分词的页面访问次数的比值，作为所述分词的访问频率信息。

假设，所述访问对象A的标题名的分词a、b、c、d和e判定为全部有效，则访问对象A的标题名分词结果表示为A(a、b、c、d、e)，获取的分词的访问频率信息为a＝0.2，b＝0.5，c＝0.8，d＝0.2，e＝0.3。

在步骤S303b中，删除无效分词。

假设，所述访问对象A的标题名的分词a、b、c、d判定为有效，e判定为无效，则访问对象A的标题名分词结果表示为A(a、b、c、d)。

在步骤S304中，根据分词及所述分词对应的访问频率信息，生成与所述访问对象一一对应的多元组。

本实施例中，所述多元组中包含携带访问频率信息的至少两个分词，若访问对象A的标题名分词结果表示为A(a、b、c、d、e)，获取的分词的访问频率信息为a＝0.2，b＝0.5，c＝0.8，d＝0.2，e＝0.3，则生成访问对象A的唯一对应的多元组可以表示为A(a＝0.2，b＝0.5，c＝0.8，d＝0.2，e＝0.3)。

在步骤S305中，对于两个访问对象，提取对应多元组中共同包含的第一分词及所述第一分词携带的访问频率信息。

对于每个访问对象，所述服务器12在获取到携带有访问频率信息的多元组后，可以针对其中任意两个访问对象的多元组进行分析，以了解该两个访问对象之间的相关性；假设所述服务器12获取到的访问对象A唯一对应的多元组为A(a＝0.2，b＝0.5，c＝0.8，d＝0.2，e＝0.3)，获取到的访问对象B唯一对应的多元组为B(a＝0.2，c＝0.8，d＝0.2，e＝0.3，f＝0.4，g＝0.7)，提取所述访问对象A和访问对象B共同包含的第一分词及所述第一分词携带的访问频率信息。

在步骤S306中，对所述第一分词进行协同过滤分析，生成所述第一分词的协同过滤分值。

可以理解的是，第一分词为两个访问对象多元组共同包含的分词中的至少一个，具体的，所述第一分词的选取数量可以由用户进行预设定；假设用户需要以共同包含的第一分词d和e为主要参考，对多元组之间的相关性进行衡量，则可以仅仅对d和e进行协同过滤分析，并生成对应的协同过滤分值；在一些较为精准的场合，用户可以以所有的共同包含的第一分词a、c、d和e为主要参考，对多元组之间的相关性进行衡量，对a、c、d和e均进行协同过滤分析，生成对应的协同过滤分值，本实施例对此不作具体限定。

在步骤S307中，对于每个所述第一分词，对所述第一分词的协同过滤分值与所述第一分词携带的访问频率信息进行求积计算，生成分词相关值。

在步骤S308中，对每个所述第一分词的所述分词相关值进行求和计算，生成分词总和，以作为所述两个访问对象相互之间的相关度。

在所述步骤S307和所述步骤S308中，所述服务器12根据所述第一分词的协同过滤分值和所述第一分词携带的访问频率信息，生成所述两个访问对象相互之间的相关度。

假设针对于所述访问对象A和访问对象B，对第一分词a、c、d和e均进行协同过滤分析，并生成分词对应的协同过滤分值为Pa＝0.05、Pc＝0.03、Pd＝0.01和Pe＝0.04，其后对Pa和分词a携带的访问频率信息进行求积计算，生成分词a相关值，如此类推，对Pc和分词c携带的访问频率信息进行求积计算，生成分词c相关值，对Pd和分词d携带的访问频率信息进行求积计算，生成分词d相关值，对Pe和分词e携带的访问频率信息进行求积计算，生成分词e相关值。

其后，对分词a相关值、分词c相关值、分词c相关值和分词e相关值进行求和进行，生成分词总和，以作为访问对象A和访问对象B相互之间的相关度：P＝a*Pa+c*Pc+d*Pd+e*Pe＝0.2*0.05+0.8*0.03+0.2*0.01+0.3*0.04＝0.048。

在步骤S309中，根据当前访问的访问对象，以及所述当前访问的访问对象对应的相关度将相应的访问对象进行推荐。

可具体的，所述服务器12获取所述客户端11当前访问的访问对象，根据所述当前访问的访问对象，以及根据基于所述步骤301至所述步骤308生成的访问对象之间的相关度，获取到与所述当前访问的访问对象相关的访问对象并推荐至所述客户端11，其中所述相关的访问对象按照其与当前访问对象相互之间的相关度由大到小的顺序进行排列。

进一步的，所述服务器12在可以将与所述客户端11当前访问的访问对象相关度小于预设阈值的访问对象进行删除，将与所述客户端11当前访问的访问对象相关度大于或等于所述预设阈值的访问对象进行推荐。或者是，所述服务器12根据访问对象之间的相关度，向所述客户端11推荐与所述当前访问的访问对象相关度最大的访问对象；本发明对访问对象之间的相关度的应用不作具体限定。

本发明实施例中，若所述访问对象优选为商品，则基于所述步骤301至所述步骤308的数据处理方法可以获取商品之间的相关度，在网络购物时根据商品之间的相关度，可以向用户推荐相关度较高的商品；若所述访问对象优选为企业资源计划系统中的个人资料，基于所述步骤301至所述步骤308的数据处理方法可以获取人才之间的相关度，在安排任务或查询相关人才资料时，可以根据所述人才之间的相关度进行针对性的处理等等。

由上述可知，本实施例中，将访问对象的标题名划分为至少两个分词，并根据所述至少两个分词访问频率信息，生成包含携带访问频率信息的至少两个分词的多元组；其次，针对两个访问对象的多元组，对共同包含的第一分词进行协同过滤分析并生成第一分词协同过滤分值；最后，根据第一分词的协同过滤分值和第一分词携带的访问频率信息，从而生成两个访问对象相互之间的相关度，将相关的访问对象进行推荐；本发明实施例中，由于利用了访问对象的标题名以及访问对象标题名分词的访问频率信息，对访问对象进行了全面的考虑，尤其是对于新录入的访问对象，不仅可以客观地体现出了访问对象之间的相关性，而且提高访问对象之间的相关度信息计算的准确率。进一步的，可以根据访问对象相互之间的相关度，可以应用于商品的推荐、人才资料的统计、信息的针对性查询等，用途广泛，并且由于对访问对象进行了全面的考虑，提高了相关度计算的准确率，因此商品推荐、资料统计、信息查询的结果也更加准确，满足用户需求。

请参阅图4a，图4a为一本发明实施例的访问对象的数据处理方法的具体应用场景，在该场景中，所述访问对象优选为商品；所述方法包括：

在步骤S401中，获取商品的标题名，将所述标题名划分为至少两个分词。

对于所述服务器12存储的每一个访问对象(商品)，获取所述商品的标题名；可参考图4b，图4b为该应用场景中一商品的标题名示意。

在步骤S402中，判断出所述标题名中的有效分词。

将该商品的标题名进行有效判定，确定出标题名中的有效分词，其中，如图4b所示的商品标题名的划分分词结果可以表示为C(apple、苹果、iphone4、8G、GSM、WCDMA、手机、黑色)，其中，一个商品的标题名唯一对应一个划分分词的结果。

在步骤S403中，获取各个分词对应的分词词频统计比值，生成与所述商品一一对应的多元组。

以“手机”分词为例，假设在最近一个月内，购物网站A一共有100W次包含“手机”的页面访问量，其中，有90W次标题名包含“手机”的页面访问量，则“手机”分词对应的分词词频统计比值为900/1000＝0.9，同样地，对商品标题名其他分词做同样处理，可以得到携带分词词频统计比值的多元组，C(apple＝0.1、苹果＝0.2、iphone4＝0.4、8G＝0.5、GSM＝0.6、WCDMA＝0.7、手机＝0.9、黑色＝0.3)。

在步骤S404中，对于两个商品，提取对应多元组中共同包含的第一分词及其携带的访问频率信息，并对所述第一分词进行协同过滤分析，生成所述第一分词的协同过滤分值。

假设，对于商品1按步骤401至步骤403的方法生成的多元组为C1(a＝0.1、b＝0.1、c＝0.3、d＝0.4、e＝0.5)，对于商品2按步骤401至步骤403的方法生成的多元组为C2(a＝0.1、c＝0.3、d＝0.4、e＝0.5、f＝0.6)；

对于在商品1多元组C1和商品2多元组C2共同包含的第一分词a、c、d和e，采用传统的协同过滤分析方法做协同过滤分析，得到a、c、d、e四个第一分词的协同过滤分值为：(Pa＝0.02、Pc＝0.02、Pd＝0.03、Pe＝0.04)。

在步骤S405中，根据所述第一分词的协同过滤分值和所述第一分词携带的访问频率信息，生成商品相互之间的相关度。

基于以下公式计算商品1和商品2相互之间的相关度：

P＝a*Pa+c*Pc+d*Pd+e*Pe＝0.1*0.02+0.3*0.02+0.4*0.03+0.5*0.04＝0.04。

在步骤S406中，根据当前访问的商品，以及所述当前访问的商品对应的相关度将相应的访问对象进行推荐。

譬如，所述客户端11的用户有获取商品1相关商品的需求时，所述服务器12可以根据上述访问对象的数据处理方法，以及根据所述客户端11当前访问的商品1，获取到与所述当前访问的商品1相关的商品(如商品2)并向客户端11推荐，例如，可以按照相关商品与当前访问的商品1相互之间的相关度由大到小的顺序进行排列并向客户端11推荐；或者是，可以将与所述客户端11当前访问的商品1相关度小于预设阈值的商品进行删除，将与所述客户端11当前访问的访问对象相关度大于或等于所述预设阈值的商品进行推荐；或者是，向所述客户端11推荐与所述当前访问的商品1相关度最大的商品。

可以理解的是，所述步骤401至步骤406可以按照前述实施例相关描述进行具体实现，此处不再赘述。

由上述可知，本实施例中，由于利用了访问商品的标题名以及商品的标题名分词的访问频率信息，对商品进行了全面的考虑，即使是新推出的商品，最终也可以获取到商品之间的相关度，并将相关的商品进行推荐，不仅可以客观地体现出了商品之间的相关性，而且提高商品之间的相关度计算的准确率，进一步的，向客户端11进行商品推荐的结果也更加准确，满足用户需求。

为便于更好的实施本发明实施例提供的访问对象的数据处理方法，本发明实施例还提供一种基于上述访问对象的处理方法的装置。其中名词的含义与上述访问对象的处理的方法中相同，具体实现细节可以参考方法实施例中的说明。请参阅图5，图5为本发明实施例提供的访问对象的处理装置的结构示意图，其中所述访问对象的数据处理装置包括分词获取模块51、多元组生成模块52、协同过滤分值生成模块53、相关度生成模块54以及推荐控制模块55。

其中所述分词获取模块51获取访问对象的标题名，将所述标题名划分为至少两个分词。所述多元组生成模块52获取所述分词获取模块51获取的所述至少两个分词对应的访问频率信息，并生成与所述访问对象一一对应的多元组，所述多元组中包含携带访问频率信息的所述至少两个分词。

所述协同过滤分值生成模块53在两个访问对象的所述多元组中，提取共同包含的第一分词及所述第一分词携带的访问频率信息，并对所述第一分词进行协同过滤分析，生成所述第一分词的协同过滤分值，所述第一分词为所述至少两个分词中的至少一个。所述相关度生成模块54根据所述协同过滤分值生成模块53获取的第一分词的协同过滤分值和所述第一分词携带的访问频率信息，生成所述两个访问对象相互之间的相关度。所述推荐控制模块55根据当前访问的访问对象，以及所述当前访问的访问对象对应的相关度将相应的访问对象进行推荐。

可以理解的是，所述访问对象可以为商品或者为音视频或者如ERP系统中的个人资料等业务数据。本发明实施例中，所述分词获取模块51可以采用现有的分词方法，对所述标题名进行划分，得到至少两个分词。其中，一个访问对象的标题名唯一对应一个划分分词的结果。

对于每个访问对象，在获取到携带有访问频率信息的多元组后，所述协同过滤分值生成模块53可以针对其中任意两个访问对象的多元组进行分析，以了解该两个访问对象之间的相关性，其中，所述第一分词为所述多元组分词中的至少一个，所述第一分词的选取数量可以由用户预设定。

由上述可知，本实施例中，将访问对象的标题名划分为至少两个分词，并根据所述至少两个分词访问频率信息，生成包含携带访问频率信息的至少两个分词的多元组；其次，针对两个访问对象的多元组，对共同包含的第一分词进行协同过滤分析并生成第一分词协同过滤分值；最后，根据第一分词的协同过滤分值和第一分词携带的访问频率信息，从而生成两个访问对象相互之间的相关度，将相关的访问对象进行推荐；本发明实施例中，由于利用了访问对象的标题名以及访问对象标题名分词的访问频率信息，对访问对象进行了全面的考虑，尤其是对新录入的访问对象，不仅可以客观地体现出了访问对象之间的相关性，而且提高访问对象之间的相关度信息计算的准确率。

请参阅图6，图6为本发明实施例提供的访问对象的处理装置的另一结构示意图，所述处理装置包括分词获取模块61、判断模块65、多元组生成模块62、协同过滤分值生成模块63、相关度生成模块64和推荐控制模块66。

其中所述分词获取模块61获取访问对象的标题名，将所述标题名划分为至少两个分词。所述判断模块65判断所述至少两个分词是否有效，若有效，则所述多元组生成模块62执行获取所述至少两个分词对应的访问频率信息的步骤。

优选的，由于所述访问对象的标题名存在一些符号，如“()”等，因此对于每一个访问对象，需要对划分后的分词进行有效判定，对于有效的分词才进行分词访问频率信息的获取并以此组成多元组。

如图6所示，该实施例中，所述判断模块65可以包括：对比单元651将所述至少两个分词中的每个分词与预置的分词数据库一一进行对比；第一判断单元652若在所述分词数据库中查询到所述分词，则判断出所述分词有效；第二判断单元653若在所述分词数据库中没有查询到所述分词，则判断出所述分词无效。

进一步的，所述分词对应的访问频率信息可以具体为一个分词词频统计比值，所述多元组生成模块62可以包括：第一统计单元621对于所述至少两个分词中的每个分词，在预设时间段内统计包含所述分词的页面访问次数；第二统计单元622在所述预设时间段内统计包含所述分词的标题的页面访问次数；访问频率信息获取单元623将所述包含所述分词的标题的页面访问次数与所述包含所述分词的页面访问次数的比值，作为所述分词的访问频率信息；多元组生成单元624生成与所述访问对象一一对应的多元组。

可具体的，假设，所述访问对象A的标题名的分词a、b、c、d和e判定为全部有效，则访问对象A的标题名分词结果表示为A(a、b、c、d、e)，获取的分词的访问频率信息为a＝0.2，b＝0.5，c＝0.8，d＝0.2，e＝0.3，则所述多元组生成单元624生成访问对象A的唯一对应的多元组可以表示为A(a＝0.2，b＝0.5，c＝0.8，d＝0.2，e＝0.3)。

所述协同过滤分值生成模块63在两个访问对象对应的多元组中，提取共同包含的第一分词及所述第一分词携带的访问频率信息，并对所述第一分词进行协同过滤分析，生成所述第一分词的协同过滤分值，所述第一分词为所述至少两个分词中的至少一个。

可具体的，假设所述多元组生成单元624获取到的访问对象A唯一对应的多元组为A(a＝0.2，b＝0.5，c＝0.8，d＝0.2，e＝0.3)，获取到的访问对象B唯一对应的多元组为B(a＝0.2，c＝0.8，d＝0.2，e＝0.3，f＝0.4，g＝0.7)，提取所述访问对象A和访问对象B共同包含的第一分词及所述第一分词携带的访问频率信息。

更进一步的，所述相关度生成模块64可以包括：分词相关值生成单元641对于每个所述第一分词，对所述第一分词的协同过滤分值与所述第一分词携带的访问频率信息进行求积计算，生成分词相关值；相关度生成单元642对每个所述第一分词的所述分词相关值进行求和计算，生成分词总和，以作为所述两个访问对象相互之间的相关度。

可具体的，假设针对于所述访问对象A和访问对象B，对第一分词a、c、d和e均进行协同过滤分析，并生成分词对应的协同过滤分值为Pa＝0.05、Pc＝0.03、Pd＝0.01和Pe＝0.04，其后对Pa和分词a携带的访问频率信息进行求积计算，生成分词a相关值，如此类推，对Pc和分词c携带的访问频率信息进行求积计算，生成分词c相关值，对Pd和分词d携带的访问频率信息进行求积计算，生成分词d相关值，对Pe和分词e携带的访问频率信息进行求积计算，生成分词e相关值。其后，对分词a相关值、分词c相关值、分词c相关值和分词e相关值进行求和进行，生成分词总和，以作为访问对象A和访问对象B相互之间的相关度P＝a*Pa+c*Pc+d*Pd+e*Pe。

优选的，在本发明实施例中，所述推荐控制模块66可以包括访问对象获取单元661和推荐控制单元662，其中，所述访问对象获取单元661获取客户端当前访问的访问对象；所述推荐控制单元662根据所述当前访问的访问对象，获取与所述当前访问的访问对象相关的访问对象并推荐至所述客户端，其中，所述相关的访问对象按照其与当前访问对象相互之间的相关度由大到小的顺序进行排列；或者是，所述推荐控制单元662将与所述客户端当前访问的访问对象相关度小于预设阈值的访问对象进行删除，将与所述客户端当前访问的访问对象相关度大于或等于所述预设阈值的访问对象进行推荐；或者是，所述推荐控制单元662向所述客户端推荐与所述当前访问的访问对象相关度最大的访问对象。

本发明实施例中，若所述访问对象优选为商品，则基于所述步分词获取模块61、判断模块65、多元组生成模块62、协同过滤分值生成模块63以及相关度生成模块64，可以获取商品之间的相关度，在网络购物时根据商品之间的相关度，可以通过所述推荐控制模块66向客户端推荐相关度较高的商品；若所述访问对象优选为企业资源计划系统中的个人资料，基于所述分词获取模块61、判断模块65、多元组生成模块62、协同过滤分值生成模块63以及相关度生成模块64可以获取人才之间的相关度，在安排任务或查询相关人才资料时，可以通过所述推荐控制模块66根据所述人才之间的相关度进行针对性的推荐等等，此处对具体应用场景不作限定。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对访问对象的数据处理方法的详细描述，此处不再赘述。

本发明实施例提供的所述访问对象的数据处理装置，譬如为计算机、平板电脑、具有触摸功能的手机等等，所述访问对象的数据处理装置与上文实施例中的访问对象的数据处理方法属于同一构思，在所述访问对象的数据处理装置上可以运行所述访问对象的数据处理方法实施例中提供的任一方法，其具体实现过程详见所述访问对象的数据处理方法实施例，此处不再赘述。

需要说明的是，对本发明所述访问对象的数据处理方法而言，本领域普通测试人员可以理解实现本发明实施例所述访问对象的数据处理方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在终端的存储器中，并被该终端内的至少一个处理器执行，在执行过程中可包括如所述访问对象的数据处理方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。

对本发明实施例的所述访问对象的数据处理装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

综上所述，虽然本发明已以优选实施例揭露如上，但上述优选实施例并非用以限制本发明，本领域的普通测试人员，在不脱离本发明的精神和范围内，均可作各种更动与润饰，因此本发明的保护范围以权利要求界定的范围为准。

Claims

1.一种访问对象的数据处理方法，其特征在于，所述方法包括：

对于每个所述第一分词，对所述第一分词的协同过滤分值与所述第一分词携带的访问频率信息进行求积计算，生成分词相关值；

对每个所述第一分词的所述分词相关值进行求和计算，生成分词总和，以作为所述两个访问对象相互之间的相关度；以及

2.根据权利要求1所述的访问对象的数据处理方法，其特征在于，所述将所述访问对象的标题名划分为至少两个分词的步骤之后，还包括：

判断所述至少两个分词是否有效，若有效，则执行所述获取所述至少两个分词对应的访问频率信息的步骤。

3.根据权利要求2所述的访问对象的数据处理方法，其特征在于，所述判断所述至少两个分词是否有效的步骤，包括：

将所述至少两个分词中的每个分词与预置的分词数据库一一进行对比；

若在所述分词数据库中查询到所述分词，则判断出所述分词有效；以及

若在所述分词数据库中没有查询到所述分词，则判断出所述分词无效。

4.根据权利要求1所述的访问对象的数据处理方法，其特征在于，所述获取所述至少两个分词对应的访问频率信息的步骤，包括：

对于所述至少两个分词中的每个分词，在预设时间段内统计包含所述分词的页面访问次数；

5.根据权利要求1至4任一项所述的访问对象的数据处理方法，其特征在于，所述根据当前访问的访问对象，以及所述当前访问的访问对象对应的相关度将相应的访问对象进行推荐的步骤，包括：

获取客户端当前访问的访问对象；以及

根据所述当前访问的访问对象，获取与所述当前访问的访问对象相关的访问对象并推荐至所述客户端，所述相关的访问对象按照其与当前访问对象相互之间的相关度由大到小的顺序进行排列。

6.根据权利要求1至4任一项所述的访问对象的数据处理方法，其特征在于，所述根据当前访问的访问对象，以及所述当前访问的访问对象对应的相关度将相应的访问对象进行推荐的步骤，包括：

获取客户端当前访问的访问对象；以及

将与所述客户端当前访问的访问对象相关度小于预设阈值的访问对象进行删除，将与所述客户端当前访问的访问对象相关度大于或等于所述预设阈值的访问对象进行推荐。

7.根据权利要求1至4任一项所述的访问对象的数据处理方法，其特征在于，所述根据当前访问的访问对象，以及所述当前访问的访问对象对应的相关度将相应的访问对象进行推荐的步骤，包括：

获取客户端当前访问的访问对象；以及

向所述客户端推荐与所述当前访问的访问对象相关度最大的访问对象。

8.一种访问对象的数据处理装置，其特征在于，所述装置包括：

协同过滤分值生成模块，用于在两个访问对象对应的多元组中，提取共同包含的第一分词及所述第一分词携带的访问频率信息，并对所述第一分词进行协同过滤分析，生成所述第一分词的协同过滤分值，所述第一分词为所述至少两个分词中的至少一个；

相关度生成模块包括：分词相关值生成单元和相关度生成单元；

所述分词相关值生成单元，用于对于每个所述第一分词，对所述第一分词的协同过滤分值与所述第一分词携带的访问频率信息进行求积计算，生成分词相关值；

所述相关度生成单元，用于对每个所述第一分词的所述分词相关值进行求和计算，生成分词总和，以作为所述两个访问对象相互之间的相关度；

9.根据权利要求8所述的访问对象的数据处理装置，其特征在于，所述装置还包括：

判断模块，用于判断所述至少两个分词是否有效，若有效，则所述多元组生成模块执行所述获取所述至少两个分词对应的访问频率信息的步骤。

10.根据权利要求9所述的访问对象的数据处理装置，其特征在于，所述判断模块包括：

对比单元，用于将所述至少两个分词中的每个分词与预置的分词数据库一一进行对比；

第一判断单元，用于若在所述分词数据库中查询到所述分词，则判断出所述分词有效；以及

第二判断单元，用于若在所述分词数据库中没有查询到所述分词，则判断出所述分词无效。

11.根据权利要求8所述的访问对象的数据处理装置，其特征在于，所述多元组生成模块包括：

第一统计单元，用于对于所述至少两个分词中的每个分词，在预设时间段内统计包含所述分词的页面访问次数；

第二统计单元，用于在所述预设时间段内统计包含所述分词的标题的页面访问次数；

访问频率信息获取单元，用于将所述包含所述分词的标题的页面访问次数与所述包含所述分词的页面访问次数的比值，作为所述分词的访问频率信息；以及

多元组生成单元，用于生成与所述访问对象一一对应的多元组。

12.根据权利要求8至11任一项所述的访问对象的数据处理装置，其特征在于，所述推荐控制模块包括：

访问对象获取单元，用于获取客户端当前访问的访问对象；以及

推荐控制单元，用于根据所述当前访问的访问对象，获取与所述当前访问的访问对象相关的访问对象并推荐至所述客户端，其中，所述相关的访问对象按照其与当前访问对象相互之间的相关度由大到小的顺序进行排列。

13.根据权利要求12所述的访问对象的数据处理装置，其特征在于，所述推荐控制单元，还用于将与所述客户端当前访问的访问对象相关度小于预设阈值的访问对象进行删除，将与所述客户端当前访问的访问对象相关度大于或等于所述预设阈值的访问对象进行推荐。

14.根据权利要求13所述的访问对象的数据处理装置，其特征在于，所述推荐控制单元，还用于向所述客户端推荐与所述当前访问的访问对象相关度最大的访问对象。