CN103544188B

CN103544188B - 移动互联网内容的用户偏好推送方法与装置

Info

Publication number: CN103544188B
Application number: CN201210248221.1A
Authority: CN
Inventors: 张湛梅; 叶始新; 罗芸; 陈东明; 屈强
Original assignee: China Mobile Group Guangdong Co Ltd
Current assignee: China Mobile Group Guangdong Co Ltd
Priority date: 2012-07-17
Filing date: 2012-07-17
Publication date: 2017-03-29
Anticipated expiration: 2032-07-17
Also published as: CN103544188A

Abstract

本发明提供一种移动互联网内容的用户偏好推送方法与装置，用于根据用户的访问获取用户的互联网内容偏好信息，同时根据该偏好信息向用户进行有针对性的内容推送。该移动互联网内容的用户偏好推送方法包括：基于用户的访问行为获取所述用户访问的第一信息；对所述第一信息所涉及的网络内容进行分类处理，得到第二信息；针对所述第二信息对所述用户的偏好进行评分，得出所述用户的偏好信息，根据所述偏好信息向相应的用户推送与所述偏好信息相对应的网络内容。采用本发明的技术方案，通过网络获取用户的偏好信息，并根据该偏好信息可以定位出潜在客户，提高了网络业务推广的效率。

Description

移动互联网内容的用户偏好推送方法与装置

技术领域

本发明涉及移动互联网领域，更具体的，涉及一种移动互联网内容的用户偏好推送方法与装置。

背景技术

传统的电信系统以语音为主，基本不考虑阅读内容形式的处理，因此无法支撑互联网内容偏好的分析；而现有的内容分析技术以文本处理技术为主，需要深入到信息主体进行关键字匹配等文本识别处理，才能分析出用户的具体内容偏好。这种方案对于运营商上亿级用户量，无论是开发还是维护，都需要投入大量的资源。

根据当前互联网内容分析相关的学术论文和项目建设调研，总结现有的系统或方案，主要存在以下几个缺点：

首先是技术较为复杂，开发难度高。传统的方案是需要利用爬虫技术抓取一定量的文本内容，然后利用关键字匹配技术对文本进行分类。对于爬虫技术和文本分类技术，虽然在学术界已经是一个热门课题，但其技术大部分基于理论，对于移动互联网业务应用，其实际的开发难度较高、开发周期较长。

其次是资源要求较高，推广成本高。根据某省份的项目建设经验，为了实现全省的互联网内容分析，需要配置4台爬虫服务集群服务器，4台分析服务集群服务器，6台搜索服务器集群，还有至少28T的存储空间，而且这些服务器还和其现有的运营平台有直接的依赖，其推广成本很高，加上技术复杂，其推广可行性变得更低。

然后是分析层面单一，偏好识别的可信度和健壮性较低。由于互联网内容提供商经常会通过采用内容捆绑、弹出页面、自动跳转等各种手段来达到增加访问流量的目的，因此各种日志信息中包含了大量的噪声，用户阅读的内容中也会包含很多非用户真实偏好的具体内容。现有的分析主要建立在用户手机上网的阅读的网页内容上，其分析得到的用户内容偏好是包含噪声的内容偏好，其可信任程度较低。另外，网页分类精确度容易受到网页形式变化(如分类名称关键字的修改)的影响，而且其内容偏好标签的含义随着内容形式也会对应变化，现有技术依赖关键字识别等技术来对内容进行分类，分析出来的偏好相对狭义，其健壮性较低。实际上，更健壮的内容偏好应该是建立在多个不同性质，甚至是不同粒度的业务内容的分析之上的。

最后是应用范围较窄，业务拓展的实时效率较低。即使平台分析出的用户偏好是非常精确的，但对于不同性质或不同粒度的业务(如拓展到其他如手机游戏、全曲音乐等的内容业务时)，甚至是同一业务增加新的内容分类时(如手机上网增加新网站或新内容分类时)，现有技术需要积累一定量的用户之后，才能利用这些内容偏好标签分析存量用户的行为特征，进而开发专门的潜在用户挖掘模型，一方面应用范围较窄，而另一方面，对于内容发展如此迅速的互联网时代，现有技术的实时效率较低。在应用层面，更好的内容偏好分析系统设计，应该是能充分考虑并解决新增业务或内容时潜在用户的拓展问题。

根据上述分析，可以发现，现有技术中存在互联网内容用户的偏好信息获取及推送存在困难的问题。

发明内容

本发明提供一种移动互联网内容的用户偏好推送方法与装置，用于解决现有技术中存在互联网内容用户的偏好信息获取及推送存在困难的问题。

为实现上述目的，根据本发明的第一个方面，提供一种移动互联网内容的用户偏好推送方法，并采用以下技术方案：

移动互联网内容的用户偏好推送方法包括：基于用户的访问行为获取所述用户访问的第一信息；对所述第一信息中所述用户所涉及的网络内容进行分类处理，得到第二信息；根据所述第二信息对所述用户的偏好进行评分，得出所述用户的偏好信息；根据所述偏好信息向相应的用户推送与所述偏好信息相对应的网络内容。

进一步地，所述基于用户的访问行为获取所述用户访问的第一信息包括：根据所述用户的访问行为从移动互联网的服务器中得到所述用户访问的基础数据；根据所述基础数据获取所述用户访问的业务内容，并根据所述基础数据的增加，对所述业务内容进行扩展，生成所述第一信息。

进一步地，所述对所述第一信息中用户所所涉及的网络内容进行分类处理包括：基于用户的访问行为获取所述用户访问的第一信息；判断所述第一信息中每一业务内容是否具有预设的第一分类规则，并得一判断结果；对所述判断结果为具有所述第一分类规则的业务内容，按照所述第一分类规则对所述业务内容进行分类；对所述判断结果为不具有所述第一分类规则的业务内容，按照第二分类规则对所述业务内容进行分类；根据所述第二信息对所述用户的偏好进行评分，得出所述用户的偏好信息。

进一步地，所述第二分类规则为临时构建的分类规则，且所述构建的方法参照所述第一分类规则的构建方法。

进一步地，所述第一分类规则的构建方法采用URL匹配法或文本匹配法，并且对所述业务内容分类后所产生的网络内容的分类粒度控制在预定级别以内。

进一步地，所述根据所述第二信息对所述用户的偏好进行评分包括：获取所述第二信息所对应的用户的访问数据；按照预设的分类标准对所述访问数据进行分类处理，并得一处理结果；根据所述处理结果对所述网络内容进行用户偏好评分。

进一步地，所述按照预设的分类标准对所述访问数据进行分类处理包括：将所述访问数据按照频度、粘度以及额度三个维度进行分类；其中，所述频度是指用户投入的时间，所述粘度是指用户用去的流量，所述额度是指用户投入的费用。

进一步地，所述根据所述处理结果对所述网络内容进行用户偏好评分包括：计算所述三个维度的每一维度变量的权重系数；根据所述变量的权重系数得到所述每一维度的综合评分公式；计算所述三个维度的每一维度的权重系数；根据所述权重系数以及所述综合评分公式对所述第二信息所涉及的每一个网络内容进行评分。

进一步地，移动互联网内容的用户偏好推送方法还包括：根据关联算法对所述偏好信息进行关联计算，获取所述用户对同一网络业务的网络内容的关联偏好信息或不同网络业务的网络内容的关联偏好信息。

进一步地，所述根据关联算法对所述偏好信息进行关联计算，获取所述用户对同一网络业务的网络内容的关联偏好信息包括：根据所述偏好信息构建所述同一网络业务的网络内容的关联网络；计算所述关联网络的每一边的偏好关联强度；根据预设的检测标准对所述偏好关联强度进行检测，获取可信任度高的关联偏好信息。

进一步地，所述计算所述关联网络的每一边的偏好关联强度的计算方法为：通过公式：

计算出所述关联网络的每一边的偏好关联强度；其中，W_ij表示内容i与内容j的偏好关联强度：其中N_i，N_j表示阅读过内容分类i，j的用户数，而N_ij则表示同时阅读过内容分类i和j的用户数；S_ui和S_uj表示用户u对应内容分类i和j的偏好评分。

进一步地，所述根据预设的检测标准对所述偏好关联强度进行检测，获取可信任度高的关联偏好信息包括：将所述偏好关联强度带入不等式公式进行计算；判断所述计算的结果是否符合所述不等式公式，并得一判断结果；所述判断结果为符合所述不等式的偏好关联强度作为可信任度高的关联偏好信息；其中，W_ij表示内容i与内容j的偏好关联强度，而W_ik与W_kj为内容偏好k与内容偏好i,j的关联强度。

进一步地，所述根据关联算法对所述偏好信息进行关联计算，获取所述用户对不同网络业务的网络内容的关联偏好信息包括：根据所述偏好信息构建所述不同网络业务的网络内容的关联网络；计算所述关联网络的每一边的偏好关联强度；根据预设的检测标准对所述偏好关联强度进行检测，获取可信任度高的关联偏好信息。

进一步地，在所述不同网络业务中存在一新网络业务时，所述获取所述用户对不同网络业务的网络内容的关联偏好信息包括：对所述新网络业务的网络内容进行分类；根据预设虚关联标准为任一分类网络内容虚关联一已有网络业务内容；计算所述分类网络内容与任一已有网络业务的网络内容的关联强度。

根据本发明的第二个方面，提供一种移动互联网内容的用户偏好推送装置，并采用以下技术方案：

移动互联网内容的用户偏好推送装置包括：获取模块，用于基于用户的访问行为从移动互联网的服务器中获取所述用户访问的第一信息；分类模块，用于对所述第一信息中所述用户所涉及的网络内容进行分类处理，得到第二信息；评分模块，用于针对所述第二信息对所述用户的偏好进行评分，得出所述用户的偏好信息；推送模块，用于根据所述偏好信息向相应的用户推送与所述偏好信息相对应的网络内容。

进一步地，所述获取模块还用于：根据所述用户的访问行为从所述服务器中得到所述用户访问的基础数据；根据所述基础数据获取所述用户访问的业务内容，并根据所述基础数据的增加，对所述业务内容进行扩展，生成所述第一信息。

进一步地，所述分类模块包括：判断模块，用于判断所述第一信息中每一业务内容是否具有预设的第一分类规则，并得一判断结果；第一分类模块，用于对所述判断结果为具有所述第一分类规则的业务内容，按照所述第一分类规则对所述业务内容进行分类；分类模块，用于对所述判断结果为不具有所述第一分类规则的业务内容，按照第二分类规则对所述业务内容进行分类。

进一步地，移动互联网内容的用户偏好推送装置还包括：第一构建模块，用于临时构建所述第二分类规则，且所述构建的方法参照所述第一分类规则的构建方法。

进一步地，所述评分模块还用于：获取所述第二信息所对应的用户的访问数据；按照预设的分类标准对所述访问数据进行分类处理，并得一处理结果；根据所述处理结果对所述网络内容进行用户偏好评分。

进一步地，所述评分模块用于计算所述三个维度的每一维度变量的权重系数；根据所述变量的权重系数得到所述每一维度的综合评分公式；计算所述三个维度的每一维度的权重系数；根据所述权重系数以及所述综合评分公式对所述第二信息所涉及的每一个网络内容进行评分。

进一步地，移动互联网内容的用户偏好推送装置还包括：关联模块，用于根据关联算法对所述偏好信息进行关联计算，获取所述用户对同一网络业务的网络内容的关联偏好信息或不同网络业务的网络内容的关联偏好信息。

进一步地，所述关联模块包括：第二构建模块，用于根据所述偏好信息构建所述同一网络业务的网络内容的关联网络；计算模块，用于计算所述关联网络的每一边的偏好关联强度；检测模块，用于根据预设的检测标准对所述偏好关联强度进行检测，获取可信任度高的关联偏好信息。

进一步地，所述计算模块还用于：通过公式：

进一步地，所述检测模块还用于：将所述偏好关联强度带入不等式公式进行计算；判断所述计算的结果是否符合所述不等式公式，并得一判断结果；将所述判断结果为符合所述不等式的偏好关联强度作为可信任度高的关联偏好信息；其中，W_ij为内容偏好i与内容偏好j的关联强度，而W_ik与W_kj为内容偏好k与内容偏好i,j的关联强度。

进一步地，所述关联模块还用于：根据所述偏好信息构建所述不同网络业务的网络内容的关联网络；计算所述关联网络的每一边的偏好关联强度；根据预设的检测标准对所述偏好关联强度进行检测，获取可信任度高的关联偏好信息。

进一步地，在所述不同网络业务中存在一新网络业务时，所述关联模块还用于：对所述新网络业务的网络内容进行分类；根据预设虚关联标准为任一分类网络内容虚关联一已有网络业务内容；计算所述分类网络内容与任一已有网络业务的网络内容的关联强度。

本发明通过以上实施例中的技术方案，通过综合和关联不同性质业务的内容来定位用户的偏好，其对内容分类的准确度要求较低，因此其内容分类算法的复杂度也较低；在资源需求和推广可行性方面，本技术方案基于简单的系统架构，对硬件资源要求很低，容易在各地推广；在内容偏好识别的健壮性方面，本技术方案通过综合多个业务的内容偏好构建关联网络，定位用户的内容偏好，并通过信任评估来考核偏好关联强度的可靠程度，因此某一内容形式的变化只会对局部的关联网络造成一定的干扰，其负面作用相对较小；在跨类内容业务的拓展应用方面，本技术方案本身基于关联网络，容易通过网络直接利用这些内容偏好，通过最热门推荐或者协同过滤推荐来定位潜在用户，实时效率较高。

附图说明

附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1表示本发明实施例一所述的移动互联网内容的用户偏好推送方法流程图；

图2表示本发明实施例二所述的移动互联网内容的用户偏好推送方法流程图；

图3表示本发明实施例三所述的移动互联网内容的用户偏好推送方法流程图；

图4表示本发明实施例四所述的移动互联网内容的用户偏好推送方法流程图；

图5表示本发明实施例五所述的移动互联网内容的用户偏好推送方法流程图；

图6表示本发明实施例所述的移动互联网内容的用户偏好推送方法中的内容偏好评分体系；

图7表示本发明实施例六所述的移动互联网内容的用户偏好推送方法中的偏好关联示意图；

图8表示本发明实施例所述的偏好关联中一网络业务内的网络内容偏好关联计算样图；

图9表示本发明实施例所述的偏好关联中一网络业务内的可信任度好的网络内容的偏好关联计算样图；

图10表示本发明实施例所述的偏好关联中不同网络业务内的网络内容偏好关联计算样图；

图11表示图10的不同网络业务中有新增网络业务的网络内容偏好关联计算样图；

图12表示本发明实施例所述的移动互联网内容的用户偏好推送方法的具体流程图；

图13表示本发明实施例所述的移动互联网内容的用户偏好推送装置结构示意图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

图1表示本发明实施例所述的移动互联网内容的用户偏好推送方法流程图；

参见图1所示，移动互联网内容的用户偏好推送方法包括：

S101:基于用户的访问行为获取所述用户访问的第一信息；

S103:对所述第一信息中所述用户所涉及的网络内容进行分类处理，得到第二信息；

S105:根据所述第二信息对所述用户的偏好进行评分，得出所述用户的偏好信息；

S107：根据所述偏好信息向相应的用户推送与所述偏好信息相对应的网络内容。

在本实施例的上述技术方案中，用户在进行网络访问时，在WAP网关、WEB网关都会下访问数据，或者通过数据挖掘等方式也可以获得用户的访问数据，根据上述的访问数据可以得出用户所访问的业务网络，例如手机上网、手机报、移动梦网等，而步骤S101中的第一信息即为从访问数据中所获得的多个业务网络，并且随着访问数据的增多，对该用户所涉及的业务网络知道的就更多，这样对第一信息进行扩展，以对该用户的网络内容偏好了解的更加详尽。在步骤S103中，对所述第一信息中所述用户所涉及的网络内容进行分类处理，得到第二信息。具体而言，第一信息中的一网络业务为“手机阅读”，在“手机阅读”业务中，用户所涉及的内容为“中国足球”，而“中国足球”属于“体育”栏目，因此，在“手机阅读”业务中，用户所涉及的内容分类为“体育”，对第一信息中的各网络业务中用户涉及的内容均作此分类，分类后的信息称为第二信息。在步骤S105中，同样是根据用户访问的数据，对第二信息中的网络内容分别进行评分，该用户在“言情”栏目上浏览的时间是“5”个小时，而在“体育”栏目上浏览的时间是“0”分钟，以此，可以给“言情”栏目的评分要高于“体育”类栏目，以此可知该用户更加偏爱“言情”类网络内容。在步骤S107中，针对上述得到的偏好信息向相应的用户推送相应的内容。

通过本实施例的上述技术方案，从用户访问的业务内容及网络内容出发，对用户访问的网络内容给出客观的评分，以此得出该用户的网络内容偏好，对于拥有上亿用户的业务运营商来说，可以高效的获取用户互联网内容偏好，并有针对性的展开业务推广。

优选地，所述基于用户的访问行为获取所述用户访问的第一信息包括：根据所述用户的访问行为从移动互联网的服务器中得到所述用户访问的基础数据；根据所述基础数据获取所述用户访问的业务内容，并根据所述基础数据的增加，对所述业务内容进行扩展，生成所述第一信息。

图2表示本发明实施例所述的移动互联网内容的用户偏好推送方法中第一信息获取的流程图。

参见图2所示，本实施例中的基础数据来自步骤201中的WAP网关日志数据，WEB网关日志数据，数据挖掘仓库数据，手机阅读基地数据等基础数据源，所谓基础数据就是用户在访问网络时在WAP网关或WEB网关所留下的记录。但是这些基础数据源中包含大量的用户访问信息，例如，对于WAP日志数据，可能时间的基础数据包括时间、URL、流量、会话、协议、网关、状态等等，但是，本实施例需要的基础数据只要与用户的阅读相关的行为数据，一个数据样例如表1所示：

表1

在表1中，所谓与用户的阅读相关的行为数据是“URL”，因此“URL”就是本实施例中需要获取的用户访问的基础数据。

根据这些基础数据，可以知道用户具体访问了那些网络业务，如图2中的步骤202，例如用户访问了手机上网、手机阅读、手机报纸、移动梦网等等，并且随着基础数据的增加，可以知道用户访问的网络业务越多，在步骤202中也就拓展出更多的用户访问过的网络业务，例如手机团购，手机视频等等。

在本实施例的上述技术方案中，第一信息具体是指包含的网络业务，这些网络业务是根据用户访问移动网络后留下的“数据痕迹”，而通过这些“数据痕迹”反过来就可以知道用户访问过的网络业务，随着获取的“数据痕迹”的增多，用户访问过的网络业务也在拓展，第一信息的信息量越大，对于用户偏好信息的获取就会更加准确，客观。

优选地，所述对所述第一信息所涉及的网络内容进行分类处理包括：判断所述第一信息中每一业务内容是否具有预设的第一分类规则，并得一判断结果；对所述判断结果为具有所述第一分类规则的业务内容，按照所述第一分类规则对所述业务内容进行分类；对所述判断结果为不具有所述第一分类规则的业务内容，按照第二分类规则对所述业务内容进行分类。

图3表示本发明实施例三所述的移动互联网内容的用户偏好推送方法流程图。

参见图3所示，在图2的基础上增加了步骤303，步骤303是对第一信息中的各网络业务进行了其网络内容的分类，并将分类粒度控制在二级频道上，具体可参见表2：

表2

在表2中可以看到，针对一个网络业务，例如“新浪网”对其所被用户涉及的网络内容进行分类，例如用户涉及了“星座”频道的内容，当然，用户可以在“新浪网”涉及的内容不限于“星座”频道，例如还有“团购”、“体育”等等，都一一列出，其他网络业务的也做此分类。这种直接采用其具体内容的分类方法，并将粒度控制在阅读行为所能达到的最小层面，例如移动的手机阅读基地数据，粒度可以到达用户阅读每一本图书的具体信息，类似地，全曲音乐具体到某一首歌，手机游戏具体到某一游戏。这种分类规则是预先设定的一种分类规则，但是并不是每一网络业务均设计好了分类规则，随着网络业务的发展，很多全新的业务都没有设置的分类规则，这就需要先做一个判断，判断当前的网络业务是否具有预先设定的分类规则，即本实施例中的第一分类规则，在当前的网络业务没有被设置分类规则的情况下，可参照第一分类规则对该当前网络临时构建一分类规则，即本实施例中的第二分类规则。

采用本实施例的上述技术方案，对用户访问的网络业务所涉及的具体内容进行分类，并且预先设置分类规则，而这种预先设置的分类规则可对绝大多数的网络业务均适用，这样就可以覆盖80％的用户群体，而对于少数的网络业务，则参照预先设置的分类规则临时构建分类规则对其进行分类，通过这种分类方法，可以具体了解用户所偏爱的网络内容，为进一步的偏好评分做准备。

优选地，所述第二分类规则为临时构建的分类规则，且所述构建的方法参照所述第一分类规则的构建方法。

优选地，所述第一分类规则的构建方法采用URL匹配法或文本匹配法，并且对所述业务内容分类后所产生的网络内容的分类粒度控制在预定级别以内。

上述两实施例中的构建方法均指URL匹配法或文本匹配法，其中URL匹配法可参见表2，在表2中，采用URL匹配法，将分类粒度控制在二级(三级以内)，例如，通过“xuanhuan”进行URL匹配，则找出用户在“起点网”阅读内容“玄幻”，并将分类的粒度控制在了预定级别以内。而文本匹配法就是通过文本中的一些关键字进行匹配，以此对网络内容进行分类，例如要找出用户关注的“星座”栏目，则可以通过关键字“天蝎座”对网络内容的文本进行匹配，以此对网络内容进行分类，考虑到计算的复杂性以及实际的应用情况，系统对于内容的分类只细化到三级，例如对于腾讯网，内容分类细化到图书的栏目，具体可参见表3：

表3

通过上述两实施例的技术方案，完成了对网络业务的内容分类，通过预先设定分类规则，将用户所涉及的网络内容进行分类，并将分类的粒度控制在预定级别以内，使用得既能充分了解用户偏好的网络内容，又不至于对后续的计算带来复杂的计算，为用户偏好信息的获取提供了有效的手段。

优选地，所述针对所述第二信息对所述用户的偏好进行评分包括：获取所述第二信息所对应的用户的访问数据；按照预设的分类标准对所述访问数据进行分类处理，并得一处理结果；根据所述处理结果对所述网络内容进行用户偏好评分。

图4表示本发明实施例四所述的移动互联网内容的用户偏好推送方法流程图。

参见图4所述，根据图3中所能提供的信息，对网络内容从频度、粘度、额度三个维度进行划分。其中，所述频度是指用户投入的时间，所述粘度是指用户用去的流量，所述额度是指用户投入的费用。具体而言，对网络内容进行上述三个维度的划分仍然需要回到用户访问的基础数据，通过用户访问的基础数据，才能获取用户投入的时间，用去的流量以及投入的费用，同样用户访问的基础数据相当繁冗，要在大量的数据中获取用户投入的数据，例如表4：

表4

在表4中，流量设置在额度中，以便计算具体的费用，并且在粘度中，流量和时长也有体现，这是因为频度、粘度、额度的划分并不绝对，而是一种相对的划分。

图5表示本发明实施例五所述的移动互联网内容的用户偏好推送方法流程图。

在实施例四中的这种频度、额度、粘度的划分技术方案具体体现在图5中，参见图5所述，首先将用户在不同性质内容业务的阅读行为数据都进行标准化(即本实施例中归纳到频度、粘度、额度这三个维度)，然后综合这三个维度对用户的内容偏好程度进行量化评分。对于不同性质的内容业务，如手机报纸、手机阅读、手机上网等，一方面是业务性质层面，如内容形式、收费标准不一样，另一方面，更重要的是用户的阅读行为特征也会有较大的差异，如阅读的次数、阅读的时间、阅读的周期等。因此，需要在业务层面对数据进行标准化，才能使得不同性质、不同粒度的内容在最终的综合评分上具有公平的比较性。

本实施例通过上述技术方案，根据基础数据以及以上实施例对第一信息、第二信息的处理将用户的访问行为及所访问的具体内容进行标准量化，以便在之后对用户的偏好进行评分。

优选地，所述根据所述处理结果对所述网络内容进行用户偏好评分包括：计算所述三个维度的每一维度变量的权重系数；根据所述变量的权重系数得到所述每一维度的综合评分公式；计算所述三个维度的每一维度的权重系数；根据所述权重系数以及所述综合评分公式对所述第二信息所涉及的每一个网络内容进行评分。

参见图6所示，图6为一WAP内容偏好评分体系，该体系可通过以下方案获取：

通过以上实施例中的数据准备，本实施例对用户偏好进行评分，以频度为例，可通过熵值法直接求解得到阅读天数、阅读次数和平均每天阅读次数这三个三级变量的权重系数，得到频度的综合评分公式：频度＝0.25*阅读次数+0.65*阅读天数+0.10*平均每天阅读次数，类似地可以求解得到粘度、额度的权重系数；然后这三个评分再次输入熵值法模型，求解得到这三个维度的权重系数；最终得到WAP内容偏好程度评分公式为：内容偏好评分S＝0.63*频度+0.21*粘度+0.16*额度。其中，用S_ui表示用户u对于内容分类i的偏好评分。

通过本实施例的上述技术方案，采用熵值法模块具体获取每一维度的权重系数，再根据内容偏好评分公式求出该网络内容的最终得分，例如图5中所示，一用户在“言情”类内容的偏好评为“5”分，“都市”类内容的偏好评为“4”分，“娱乐”类内容的偏好评为“3”分，根据上述评分可知，该用户最喜欢“言情”类网络内容。

优选地，移动互联网内容的用户偏好推送方法还包括：根据关联算法对所述偏好信息进行关联计算，获取所述用户对同一网络业务的网络内容的关联偏好信息或不同网络业务的网络内容的关联偏好信息。

参见图7所示，通过本实施例的偏好关联技术，可将用户的偏好进行关联，如一用户喜欢“言情”类网络内容，通过偏好关联可知，该用户也喜欢“星座”类网络内容。具体而言，偏好关联是指构建和维护内容偏好的关联网络，例如，在上一个实施例中，获取了该用户最喜欢“言情”类网络内容，通过该信息，本实施例将通过包括网络中关联所对应的边权计算，以及边的增加、删除、更新以获取与该用户偏好信息关系紧密的另一偏好信息，具体是指偏好某一内容的用户同时偏好另外一种内容偏好的可能性大小。

优选地，所述根据关联算法对所述偏好信息进行关联计算，获取所述用户对所述网络内容的关联偏好信息包括：根据所述偏好信息构建所述网络内容的关联网络；计算所述关联网络的每一边的偏好关联强度；根据预设的检测标准对所述偏好关联强度进行检测，获取可信任度高的所述关联偏好信息。

图8表示本发明实施例所述的偏好关联中一网络业务内的网络内容关联计算样图。

参见图8所示，对于已经具备一定用户的内容业务A，如上例中的WAP手机上网业务，经过上述实施例中的技术方案，可以得到用户对于业务A的每个分类A1，A2，…，An的内容偏好(例如手机阅读，则A1＝玄幻、A2＝言情…等分类偏好，其中n为业务A的内容分类个数)。对于业务A，构建关联网络的步骤如下：

步骤一、对于每一个业务，构建业务内部所有内容偏好的关联子网络：用点代表内容分类，用点的连边代表内容之间的偏好关联，而边的权重则代表内容之间的偏好关联强度。例如，某业务A的内部关联网络的形状图8所示，其中，对于业务A的任意两个内容A_i与A_j，对应的偏好关联连边为AE_ij，而对应的关联强度则为连边的权重W_ij。

步骤二、计算关联网络每一条边的权重，即计算每一对内容的偏好关联强度，其中计算公式如下：

其中，W_ij表示内容i与内容j的偏好关联强度：其中N_i，N_j表示阅读过内容分类i，j的用户数，而N_ij则表示同时阅读过内容分类i和j的用户数；S_ui和S_uj表示用户u对应内容分类i和j的偏好评分；W_ij的值介于[-1,1]，值越大表示内容i与内容j的偏好关联强度越大。

步骤三、检验关联网络每一条边的可信任度，即评估两个内容之间的偏好关联是否可靠稳定。现有技术根据用户阅读信息(比如网页)来分析偏好，但由于这些信息存在噪音(如页面捆绑、跳转、弹出等)，包含不是用户真实偏好的分类内容，分析结果存在误差，不利于应用。本方案提供一种检验偏好可信任度的方法：对于任意一对内容偏好i与内容偏好j，如果存在另一个内容偏好k，使得，

则确定内容偏好i与内容偏好j的关联是可以信任的。其中，W_ij为内容偏好i与内容偏好j的关联强度，而W_ik与W_kj为内容偏好k与内容偏好i,j的关联强度。这一步将剔除不符合上述不等式的所有偏好关联。

例如，对于图8中A业务中的内容偏好A2与A4，假设其关联强度为W24＝0.9；参见图9所示，发现与A2和A4有关联的是A1，且假设关联强度分别为W21＝0.50，W14＝0.46，代入上述不等式进行检验，由于不等式0.45*0.45<＝0.50*0.46成立，因此内容偏好A2与A4的关联是可信任的。

通过本实施例的上述技术方案，通过定位用户的内容偏好，并通过信任评估来考核偏好关联强度的可靠程度，因此某一内容形式的变化只会对局部的关联网络造成一定的干扰，其负面作用相对较小，可信任度高。

优选地，所述根据关联算法对所述偏好信息进行关联计算，获取所述用户对不同网络业务的网络内容的关联偏好信息包括：根据所述偏好信息构建所述不同网络业务的网络内容的关联网络；计算所述关联网络的每一边的偏好关联强度；根据预设的检测标准对所述偏好关联强度进行检测，获取可信任度高的关联偏好信息。

图10表示本发明实施例所述的偏好关联中不同网络业务内的网络内容偏好关联计算样图。

参见图10所示，计算不同业务之间的关联的强度，并检验其可信任程度。根据上述实施例的计算，已经得到每一相同业务内部不同内容偏好之间的关联强度，在本实施例汇总，只需要计算不同业务之间内容偏好之间的关联强度，且关联强度的计算方法与上述实施例相同，具体可参见图10，是对于业务A3与C3的关联偏好信息获取。

在本实施例的上述技术方案中，对于在跨类内容业务(不同网络业务之间)的拓展应用，本技术方案基于关联网络，容易通过网络直接利用这些内容偏好，通过最热门推荐定位潜在用户，实时效率较高。

上一实施例是针对已有网络业务获取偏好关联，但是对于完全没有用户或者用户数量极少的新增内容业务也需要发一个专门针对新内容的潜在用户挖掘模型。

需要开发一个专门针对新内容的潜在用户挖掘模型，虽然准确度较高，但对于当前内容快速增长和变化的互联网来说时效性过低。本方案提出一种虚关联方法，充分利用前面已经构建好的偏好关联网络来拓展新内容业务的潜在用户。

优选地，在所述不同网络业务中存在一新网络业务时，所述获取所述用户对不同网络业务的网络内容的关联偏好信息包括：对所述新网络业务的网络内容进行分类；根据预设虚关联标准为任一分类网络内容虚关联一已有网络业务内容；计算所述分类网络内容与任一已有网络业务的网络内容的关联强度。

图11表示图10的不同网络业务中有新增网络业务的网络内容偏好关联计算样图。

参见图11所示，对于当前新增的内容分类，则依然可以按照上一实施例中步骤一至步骤三的处理，对新建网络业务进行数据建模，得到业务B的内容分类B1,B2,…,Bm(m为业务B的内容分类个数)。

由于新增的业务(或内容)的用户数较少，因此其与其他业务内容偏好的关联数量很少甚至为0。为了解决这个问题，对于任意一个新增的内容分类Bi，定位一个与其内容性质最相似的其他业务内容偏好X_j，建立一个虚关联，并初始化关联强度为WBX_ij，而对于任意一个其他业务的内容偏好Yk，其与X_j的关联强度WXY_jk可以通过上述步骤计算得到。则Bi与Yk的关联强度公式为：WBY_ik＝WXY_jk*WBX_ij。

例如，对于业务的内容分类B1，可以根据专家经验选择一个与其内容性质最相近的内容分类，如C4，则建立一个虚关联，如下图的点线连边BC14(点线)，并将其关联强度设置为WBC14＝0.8。而对于其他业务的所有内容分类，则通过间接的方式进行计算，减少专家的工作以提高效率，如对于业务A的A3，其与B1的连边为AB31(虚线)；假设其与C4的关联强度为WAC34＝0.5，则B1与A3的关联强度为WAC13＝WBC14*WAC34＝0.4。通过这种方式，可以计算得到业务B所有内容分类与现有业务偏好的关联强度，为下一步的内容推荐营销，特别是新增业务或者内容的潜在用户拓展做好准备。

优选地，根据所述偏好信息向相应的用户推送与所述偏好信息相对应的网络内容，具体可通过以下方式：

参见图12所示，图12的步骤1203即在前述获取偏好信息以及关联偏好信息的基础上向用户推送相应的网络内容，具体的推送方式可采用WAP推送或短信彩信推送。

在本实施例的技术方案中，获取的用户网络内容偏好信息以及偏好关联信息可以通过以下技术方案向相应的用户推送。

1)对用户已经阅读的同分类内容进行最热门推荐。方法是选择用户评分排名最靠前的TOP3内容偏好，推荐对应内容分类在当前阅读用户数量最多的内容；例如，样表5所示：

表5

2)对用户从未阅读过的分类内容进行协同过滤推荐。

本技术方案采用了经典的Item-Base算法，但做了一定的改进：用关联强度代表相似度，则对于用户未阅读过的任一内容Xx，其推荐预测评分公式定义为：

其中，E_i，F_j，G_k是用户评分最高的TOP3内容偏好，且偏好评分为S_Ei，S_Ej，S_Gj，而WXE_xi，WXF_xj，WXG_xk分别为内容X_x与内容E_i，F_j，G_k的偏好关联强度。最后，按照S_Xx的预测评分高低，可以得到每个用户的内容推荐优先级列表6：

表6

参见图13所示，移动互联网内容的用户偏好推送装置包括：获取模块120，用于基于用户的访问行为从移动互联网的服务器中获取所述用户访问的第一信息；分类模块122，用于对所述第一信息中所述用户所涉及的网络内容进行分类处理，得到第二信息；评分模块124，用于针对所述第二信息对所述用户的偏好进行评分，得出所述用户的偏好信息；推送模块126，根据所述偏好信息向相应的用户推送与所述偏好信息相对应的网络内容。

优选地，所述获取模块120还用于：根据所述用户的访问行为从所述服务器中得到所述用户访问的基础数据；根据所述基础数据获取所述用户访问的业务内容，并根据所述基础数据的增加，对所述业务内容进行扩展，生成所述第一信息。

优选地，所述分类模块122包括：判断模块(图中未示)，用于判断所述第一信息中每一业务内容是否具有预设的第一分类规则，并得一判断结果；第一分类模块(图中未示)，用于对所述判断结果为具有所述第一分类规则的业务内容，按照所述第一分类规则对所述业务内容进行分类；第二分类模块(图中未示)，用于对所述判断结果为不具有所述第一分类规则的业务内容，按照第二分类规则对所述业务内容进行分类。

优选地，移动互联网内容的用户偏好推送装置还包括：第一构建模块(图中未示)，用于临时构建所述第二分类规则，且所述构建的方法参照所述第一分类规则的构建方法。

优选地，所述评分模块还用于：获取所述第二信息所对应的用户的访问数据；按照预设的分类标准对所述访问数据进行分类处理，并得一处理结果；根据所述处理结果对所述网络内容进行用户偏好评分。

优选地，所述评分模块用于计算所述三个维度的每一维度变量的权重系数；

根据所述变量的权重系数得到所述每一维度的综合评分公式；计算所述三个维度的每一维度的权重系数；根据所述权重系数以及所述综合评分公式对所述第二信息所涉及的每一个网络内容进行评分。

优选地，移动互联网内容的用户偏好推送装置还包括：关联模块，用于根据关联算法对所述偏好信息进行关联计算，获取所述用户对同一网络业务的网络内容的关联偏好信息或不同网络业务的网络内容的关联偏好信息。

优选地，所述关联模块包括：第二构建模块(图中未示)，用于根据所述偏好信息构建所述同一网络业务的网络内容的关联网络；计算模块(图中未示)，用于计算所述关联网络的每一边的偏好关联强度；检测模块(图中未示)，用于根据预设的检测标准对所述偏好关联强度进行检测，获取可信任度高的关联偏好信息。

优选地，所述计算模块还用于：通过公式：

计算出所述关联网络的每一边的偏好关联强度；其中，W_ij表示内容i与内容j的偏好关联强度：其中N_i，N_j表示阅读过内容分类i，j的用户数，而N_ij则表示同时阅读过内容分类i和j的用户数；S_ui和S_uj表示用户u对应内容分类i和j的偏好评分；W_ij的值介于[-1,1]，值越大表示内容i与内容j的偏好关联强度越大。

优选地、所述检测模块还用于：将所述偏好关联强度带入不等式公式进行计算；判断所述计算的结果是否符合所述不等式公式，并得一判断结果；将所述判断结果为符合所述不等式的偏好关联强度作为可信任度高的关联偏好信息；其中，W_ij为内容偏好i与内容偏好j的关联强度，而W_ik与W_kj为内容偏好k与内容偏好i,j的关联强度。

优选地，所述关联模块还用于：根据所述偏好信息构建所述不同网络业务的网络内容的关联网络；计算所述关联网络的每一边的偏好关联强度；根据预设的检测标准对所述偏好关联强度进行检测，获取可信任度高的关联偏好信息。

优选地，在所述不同网络业务中存在一新网络业务时，所述关联模块还用于：对所述新网络业务的网络内容进行分类；根据预设虚关联标准为任一分类网络内容虚关联一已有网络业务内容；计算所述分类网络内容与任一已有网络业务的网络内容的关联强度。

优选地，所述关联模块还用于：通过公式WBY_ik＝WXY_jk*WBX_ij计算所述新网络业务的任一分类网络内容与所述已有网络业务的网络内容的关联强度；其中，任一分类网络内容为Bi，已有网络业务的网络内容为X_j，WBX_ij通过初始化方式获取，Yk为任一分类网络内容与所述已有网络业务的网络内容的偏好。

Claims

1.一种移动互联网内容的用户偏好推送方法，其特征在于，包括：

基于用户的访问行为获取所述用户访问的第一信息；

对所述第一信息中所述用户所涉及的网络内容进行分类处理，得到第二信息；

根据所述第二信息对所述用户的偏好进行评分，得出所述用户的偏好信息；

根据所述偏好信息向所述用户推送与所述偏好信息相对应的网络内容；

所述方法还包括：

根据关联算法对所述偏好信息进行关联计算，获取所述用户对同一网络业务的网络内容的关联偏好信息或不同网络业务的网络内容的关联偏好信息；

所述根据关联算法对所述偏好信息进行关联计算，获取所述用户对同一网络业务的网络内容的关联偏好信息包括：

根据所述偏好信息构建所述同一网络业务的网络内容的关联网络；

计算所述关联网络的每一边的偏好关联强度；

根据预设的检测标准对所述偏好关联强度进行检测，获取可信任度高的关联偏好信息；

所述根据预设的检测标准对所述偏好关联强度进行检测，获取可信任度高的关联偏好信息包括：

将所述偏好关联强度带入不等式公式进行计算；

判断所述计算的结果是否符合所述不等式公式，并得一判断结果；

将所述判断结果为符合所述不等式的偏好关联强度作为可信任度高的关联偏好信息；

其中，W_ij表示内容i与内容j的偏好关联强度，而W_ik与W_kj为内容k与内容i,j的偏好关联强度。

2.如权利要求1所述的用户偏好推送方法，其特征在于，所述基于用户的访问行为获取所述用户访问的第一信息包括：

根据所述用户的访问行为从移动互联网的服务器中得到所述用户访问的基础数据；

根据所述基础数据获取所述用户访问的业务内容，并根据所述基础数据的增加，对所述业务内容进行扩展，生成所述第一信息。

3.如权利要求1所述的用户偏好推送方法，其特征在于，所述对所述第一信息中用户所涉及的网络内容进行分类处理包括：

判断所述第一信息中每一业务内容是否具有预设的第一分类规则，并得一判断结果；

对所述判断结果为具有所述第一分类规则的业务内容，按照所述第一分类规则对所述业务内容进行分类；

对所述判断结果为不具有所述第一分类规则的业务内容，按照第二分类规则对所述业务内容进行分类。

4.如权利要求3所述的用户偏好推送方法，其特征在于，所述第二分类规则为临时构建的分类规则，且所述构建的方法参照所述第一分类规则的构建方法。

5.如权利要求4所述的用户偏好推送方法，其特征在于，所述第一分类规则的构建方法采用URL匹配法或文本匹配法，并且对所述业务内容分类后所产生的网络内容的分类粒度控制在预定级别以内。

6.如权利要求5所述的用户偏好推送方法，其特征在于，所述根据所述第二信息对所述用户的偏好进行评分包括：

获取所述第二信息所对应的用户的访问数据；

按照预设的分类标准对所述访问数据进行分类处理，并得一处理结果；

根据所述处理结果对所述网络内容进行用户偏好评分。

7.如权利要求6所述的用户偏好推送方法，其特征在于，所述按照预设的分类标准对所述访问数据进行分类处理包括：

将所述访问数据按照频度、粘度以及额度三个维度进行分类；

其中，所述频度是指用户投入的时间，所述粘度是指用户用去的流量，所述额度是指用户投入的费用。

8.如权利要求7所述的用户偏好推送方法，其特征在于，所述根据所述处理结果对所述网络内容进行用户偏好评分包括：

计算所述三个维度的每一维度变量的权重系数；

根据所述变量的权重系数得到所述每一维度的综合评分公式；

计算所述三个维度的每一维度的权重系数；

根据所述三个维度的每一维度的权重系数以及所述综合评分公式对所述第二信息所涉及的每一个网络内容进行评分。

9.如权利要求1所述的用户偏好推送方法，其特征在于，所述计算所述关联网络的每一边的偏好关联强度的计算方法为：

通过公式：

W_{i j} = \frac{{N_{i j}}^{2}}{N_{i} N_{j}} (1 - \frac{6 * Σ_{u = 1}^{N_{i j}} {(S_{u i} - S_{u j})}^{2}}{N_{i j} * ({N_{i j}}^{2} - 1)})

计算出所述关联网络的每一边的偏好关联强度；

其中，W_ij表示内容i与内容j的偏好关联强度：其中N_i，N_j表示阅读过内容i，j的用户数，而N_ij则表示同时阅读过内容i和j的用户数；S_ui和S_uj表示用户u对应内容i和j的偏好评分。

10.如权利要求1所述的用户偏好推送方法，其特征在于，所述根据关联算法对所述偏好信息进行关联计算，获取所述用户对不同网络业务的网络内容的关联偏好信息包括：

根据所述偏好信息构建所述不同网络业务的网络内容的关联网络；

计算所述关联网络的每一边的偏好关联强度；

根据预设的检测标准对所述偏好关联强度进行检测，获取可信任度高的关联偏好信息。

11.如权利要求10所述的用户偏好推送方法，其特征在于，在所述不同网络业务中存在一新网络业务时，所述获取所述用户对不同网络业务的网络内容的关联偏好信息包括：

对所述新网络业务的网络内容进行分类；

根据预设虚关联标准为任一分类网络内容虚关联一已有网络业务内容；

计算所述分类网络内容与任一已有网络业务的网络内容的关联强度。

12.一种移动互联网内容的用户偏好推送装置，其特征在于，包括：

获取模块，用于基于用户的访问行为从移动互联网的服务器中获取所述用户访问的第一信息；

分类模块，用于对所述第一信息中所述用户所涉及的网络内容进行分类处理，得到第二信息；

评分模块，用于针对所述第二信息对所述用户的偏好进行评分，得出所述用户的偏好信息；

推送模块，用于根据所述偏好信息向相应的用户推送与所述偏好信息相对应的网络内容；

所述装置还包括：

关联模块，用于根据关联算法对所述偏好信息进行关联计算，获取所述用户对同一网络业务的网络内容的关联偏好信息或不同网络业务的网络内容的关联偏好信息；

所述关联模块包括：

第二构建模块，用于根据所述偏好信息构建所述同一网络业务的网络内容的关联网络；

计算模块，用于计算所述关联网络的每一边的偏好关联强度；

检测模块，用于根据预设的检测标准对所述偏好关联强度进行检测，获取可信任度高的关联偏好信息；

所述检测模块还用于：

将所述偏好关联强度带入不等式公式进行计算；

其中，W_ij为内容i与内容j的偏好关联强度，而W_ik与W_kj为内容k与内容i,j的偏好关联强度。

13.如权利要求12所述的用户偏好推送装置，其特征在于，所述获取模块还用于：根据所述用户的访问行为从所述服务器中得到所述用户访问的基础数据；根据所述基础数据获取所述用户访问的业务内容，并根据所述基础数据的增加，对所述业务内容进行扩展，生成所述第一信息。

14.如权利要求12所述的用户偏好推送装置，其特征在于，所述分类模块包括：

判断模块，用于判断所述第一信息中每一业务内容是否具有预设的第一分类规则，并得一判断结果；

第一分类模块，用于对所述判断结果为具有所述第一分类规则的业务内容，按照所述第一分类规则对所述业务内容进行分类；

第二分类模块，用于对所述判断结果为不具有所述第一分类规则的业务内容，按照第二分类规则对所述业务内容进行分类。

15.如权利要求14所述的用户偏好推送装置，其特征在于，还包括：

第一构建模块，用于临时构建所述第二分类规则，且所述构建的方法参照所述第一分类规则的构建方法。

16.如权利要求15所述的用户偏好推送装置，其特征在于，所述评分模块还用于：

获取所述第二信息所对应的用户的访问数据；

根据所述处理结果对所述网络内容进行用户偏好评分。

17.如权利要求16所述的用户偏好推送装置，其特征在于，所述评分模块在按照预设的分类标准对所述访问数据进行分类处理的过程中，还用于：将所述访问数据按照频度、粘度以及额度三个维度进行分类；

18.如权利要求17所述的用户偏好推送装置，其特征在于，所述评分模块用于：

计算所述三个维度的每一维度变量的权重系数；

计算所述三个维度的每一维度的权重系数；

19.如权利要求12所述的用户偏好推送装置，其特征在于，所述计算模块还用于：通过公式：

W_{i j} = \frac{{N_{i j}}^{2}}{N_{i} N_{j}} (1 - \frac{6 * Σ_{u = 1}^{N_{i j}} {(S_{u i} - S_{u j})}^{2}}{N_{i j} * ({N_{i j}}^{2} - 1)})

计算出所述关联网络的每一边的偏好关联强度；

20.如权利要求12所述的用户偏好推送装置，其特征在于，所述关联模块还用于：

计算所述关联网络的每一边的偏好关联强度；

21.如权利要求20所述的用户偏好推送装置，其特征在于，在所述不同网络业务中存在一新网络业务时，所述关联模块还用于：

对所述新网络业务的网络内容进行分类；