CN103886090B

CN103886090B - 基于用户喜好的内容推荐方法及装置

Info

Publication number: CN103886090B
Application number: CN201410127455.XA
Authority: CN
Inventors: 李达; 郭奇
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2014-03-31
Filing date: 2014-03-31
Publication date: 2018-01-02
Anticipated expiration: 2034-03-31
Also published as: CN103886090A

Abstract

本发明公开了一种基于用户喜好的内容推荐方法及装置，其中的方法主要包括：针对采集的每一用户的行为数据进行特征词提取，将提取的特征词与预设的类别和/或实体词库分别进行匹配，构建该用户的行为数据对应的类别和/或实体词的喜好话题库；根据用户的行为数据对应的多维度属性信息，对该用户的喜好话题库中的类别和/或进行排序；在向用户展示之前，查询预设的推荐内容库，预取与喜好话题排序库中排序的类别和/或实体词相匹配的排序推荐内容；在用户提出访问请求时，提取用户当前访问网络场景，提取与用户当前访问网络场景相匹配的排序推荐内容供展示使用。本发明提供的上述技术方案可以进一步提升推荐效率。

Description

基于用户喜好的内容推荐方法及装置

技术类别

本发明涉及网络访问技术，具体涉及基于用户喜好的内容推荐方法及相应的基于用户喜好的内容推荐装置。

背景技术

随着互联网的发展，使用互联网的用户数急速增多，为用户提供内容服务的互联网网站数量也越来越多，为了更好地运营互联网网站以及服务互联网网站的用户，基于用户喜好的个性化信息（内容）推荐技术应运而生。具体来说，互联网网站运营者通过对大量的用户访问互联网网站的行为数据进行分析、统计，从而获取用户访问互联网网站的喜好信息，并基于用户访问互联网网站的喜好信息，在用户访问互联网网站时，向用户提供或推荐满足用户喜好的个性化信息，以提升用户的业务体验。其中，用户访问互联网网站的行为数据，即用户行为数据可以包括：用户浏览过的网页信息、用户搜索过的关键词信息、用户发表的微博信息、用户发表的博客（blog）信息以及用户购买的商品信息等。

由于基于用户喜好的个性化内容推荐技术能够使网络侧的互联网网站向用户下发符合用户喜好的信息，因此，可以有效提高互联网网站的点击量和阅读量，成为互联网网站运营者研发的热点技术。其中，如何准确、及时地获取用户喜好信息以提升推荐效率是基于用户喜好的个性化内容推荐技术中的一个非常重要的环节。

目前，基于用户喜好的个性化内容推荐的具体实现方式通常为：互联网网站通过写入格式统一的日志文件，用以记录各用户行为数据，然后，按照预先设置的记录时间周期，对写入的日志文件进行合并，分析合并的日志文件的脚本并进行相关加权计算，得到记录时间周期内的各用户行为数据统计结果，例如，在记录时间周期内，对用户浏览过的网页信息、用户搜索过的关键词信息以及用户购买的商品信息进行相关加权计算，并按照加权结果进行排序，得到排序的用户行为数据统计结果，在用户后续进行互联网访问时，截取一个或多个排序的用户行为数据统计结果对应的内容，例如网页信息，向用户推荐，这样，由于是基于用户喜好进行加权计算，推荐的用户行为数据统计结果（个性化信息）对应的内容是用户需要访问的信息的概率较大，从而使得用户可以直接从推荐的用户行为数据统计结果中进行选取，并点击相应链接进入访问，从而节约用户访问时间。

以下举一具体例子，对现有基于用户喜好的个性化内容推荐进行说明。假设在某一记录时间周期内，用户进行了一次或多次的网页A以及网页B浏览，多次的关键词C搜索，一次或多次购买商品D以及商品E，假设进行相关加权计算后，得到排序的用户行为数据统计结果为：网页A、关键词C、商品E、网页B以及商品D。则在用户进行互联网访问时，如果设置向用户推荐四条个性化信息，则向用户展示网页A、关键词C、商品E以及网页B，如果用户需要浏览网页B，则可以通过直接点击展示的网页B对应的链接，从而进行网页B访问。

发明人在实现本发明过程中发现，现有的基于用户喜好的个性化内容推荐的实现方式，易产生推荐效率较低现象，下面举具体的例子进行说明，例如，在用户进行互联网访问时，推荐的是基于记录时间周期内用户喜好生成的个性化推荐信息，而该基于历史的个性化推荐信息并不能最大限度适合用户当前的访问需求，如用户当前访问的网页为购买商品的网页，而基于历史的个性化推荐信息，由于商品信息对应的排序结果靠后，未能显示在弹窗中；再例如，用户当前访问的网页为搜索页面，而基于历史的个性化推荐信息，用户的搜索关键词未能显示在弹窗中。这样，使得向用户推荐的个性化信息的推荐效率较低，从而影响了用户的业务体验。

发明内容

本发明的目的在于，克服现有的用户兴趣发现方式所存在的技术问题，提供一种，所要解决的技术问题是，进一步提升推荐效率。

本发明的目的以及解决其技术问题可以采用以下的技术方案来实现。

依据本发明提出的一种基于用户喜好的内容推荐方法，其中，所述方法包括：

采集任一用户的行为数据，针对采集的用户的行为数据进行特征词提取，将提取的特征词与预先设置的类别实体词库分别进行匹配，构建该用户的行为数据所对应的类别和/或实体词所构成的喜好话题库，类别实体词库中存储预先设置的类别和实体词；

根据用户的行为数据对应的多维度属性信息，对该用户的喜好话题库中的类别和/或实体词进行排序，得到该用户的喜好话题排序库；

在向用户展示之前，查询预先设置的推荐内容库，预取与喜好话题排序库中排序的类别和/或实体词相匹配的排序推荐内容；

在用户提出访问请求时，提取用户当前访问网络场景，从排序推荐内容中，提取与用户当前访问网络场景相匹配的推荐内容供展示使用。

依据本发明实施例提供的一种基于用户喜好的内容推荐装置，其中，该装置包括：

喜好话题库构建模块、排序模块、推荐内容生成模块、推荐内容调整模块以及推荐内容展示模块，其中，

喜好话题库构建模块，用于采集任一用户的行为数据，针对采集的用户的行为数据进行特征词提取，将提取的特征词与预先设置的类别实体词库分别进行匹配，构建该用户的行为数据所对应的类别和/或实体词所构成的喜好话题库，类别实体词库中存储预先设置的类别和实体词；

排序模块，用于根据用户的行为数据对应的多维度属性信息，对该用户的喜好话题库中的类别和/或实体词进行排序；

推荐内容生成模块，用于在向用户展示之前，查询预先设置的推荐内容库，预取与喜好话题排序库中排序的类别和/或实体词相匹配的排序推荐内容；

推荐内容调整模块，用于对获取的排序推荐内容，按照预先设置的排序权重策略进行二次排序；

推荐内容展示模块，用于在用户提出访问请求时，提取用户当前访问网络场景，从二次排序的推荐内容中，提取与用户当前访问网络场景相匹配的推荐内容供展示使用。

借由上述技术方案，本发明提供的基于用户喜好的内容推荐方法及装置至少具有下列优点及有益效果：本发明实施例通过基于用户的历史行为数据获取用户喜好的类别以及实体词，根据用户喜好的类别以及实体词获取相匹配的推荐内容，并基于用户当前访问网络场景对推荐内容进行再次排序，使得展现的推荐内容与用户当前访问网络场景相适应，这样，可以使得向用户推荐的推荐内容符合用户当前浏览需求的概率高，从而提升了推荐效率，增强了用户的业务体验。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述以及其他目的、特征和优点能够更明显易懂，以下特举较佳的实施例，详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于用户喜好的内容推荐方法流程示意图；

图2是本发明实施例提供的基于用户喜好的内容推荐装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，说明书所描述的实施例仅仅是本发明部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员依次所获得的、而没有经过创造性劳动付出的其他实施例，都属于本发明保护的范围。

实施例一、基于用户喜好的内容推荐方法。

图1是本发明实施例提供的基于用户喜好的内容推荐方法流程示意图。参见图1，该流程包括：

步骤101，采集任一用户的行为数据，针对采集的用户的行为数据进行特征词提取，将提取的特征词与预先设置的类别实体词库分别进行匹配，构建该用户的行为数据所对应的类别和/或实体词所构成的喜好话题库，类别实体词库中存储预先设置的类别和实体词；

本步骤中，类别是指能够表达一个细领域的说明，例如，旅游、互联网、NBA等。实体词是指能够表达类别内某一概念或内容的词汇，其中，实体词通常是名词，一个类别可以包含一个或多个实体词，也可以不包括实体词，例如，对于类别NBA，科比、乔丹、詹姆斯是该类别中的实体词，对于类别足球，C罗、梅西、扎内蒂是该类别中的实体词。话题是指基于机器学习或人工标注方法产生的类别及其对应的实体词，例如，话题可以是互联网、旅游、乔丹等。

本发明实施例中，用户的行为数据包括：用户浏览的网页信息、用户搜索的关键词信息、用户发表的微博信息、用户发表的博客信息以及用户购买的商品信息等。

作为可选实施例，可以利用用户的终端设备中安装的浏览器和/或应用程序接口，从终端设备侧来采集用户的行为数据，并根据预先设置的网络设备地址，将自身的标识信息和采集到的行为数据传输给所述网络设备地址对应的网络设备，从而使相应的网络设备可以基于终端设备标识信息，方便地获取并区分各用户的行为数据。其中，终端设备标识信息可以是用户标识信息，也可以是用户登录网络时的用户标识信息，还可以是网卡标识信息，其中，网卡标识信息可以是网卡的媒体接入控制器（MAC，Media Access Control）地址信息等。

实际应用中，终端设备中安装的浏览器和/或应用程序接口既可以将采集的用户进行网络访问操作而产生的行为数据实时传输给预先设置的网络设备地址对应的网络设备，也可以将采集的行为数据定时或者不定时地传输给网络设备地址对应的网络设备。例如，对于定时传输的情形，浏览器在采集到用户的行为数据后，先存储在本地磁盘，在到预先设定的定时时间（例如，每到零点）后，浏览器将采集并存储在本地磁盘的行为数据传输给相应的网络设备，并在成功传输后，删除本地存储的已成功传输的行为数据以节约本地磁盘存储空间，当然，实际应用中，也可以是删除前第N个定时存储的行为数据，即在当前的定时时间，删除前第N个定时存储的行为数据，而在下一定时时间，删除前第（N-1）个定时存储的行为数据。对于不定时的情形，浏览器在采集到用户的行为数据后，先存储在本地磁盘，并统计行为数据的数据量，在统计的数据量达到预先设定的数据量阈值（例如，数据绝对量阈值或数据量相对存储空间的相对量阈值）后，浏览器将采集并存储在本地磁盘的行为数据传输给相应的网络设备，并在成功传输后，删除本地存储的已成功传输的行为数据。

实际应用中，对于由终端设备中安装的浏览器和/或应用程序接口采集用户的行为数据的情形，为了有效降低网络设备进行特征词提取所需的资源，本发明实施例中，也可以由终端设备将采集的行为数据进行特征词提取处理，并将提取的特征词传输至网络设备。

作为另一可选实施例，可以利用应用程序接口（API，Application ProgrammingInterface）从网络侧采集用户的行为数据。在利用API从网络侧来采集用户的行为数据的情况下，本发明实施例可以获取到用户更多的行为数据，如本实施例可以利用API获取到在终端设备中的浏览器开始向网络设备上报行为数据之前，用户执行网络访问所产生并存储在网络侧的行为数据。

所应说明的是，本发明实施例中，还可以采用除上述两种例举的利用终端设备中安装的浏览器采集方式以及API采集方式之外的其他方式来获取用户的行为数据。另外，本发明实施例中的终端设备可以是用户的计算机，或者智能移动电话，或者平板电脑，或者个人数字助理（PDA，Portable Digital Assistant）等可以进行网络访问的设备。

本发明实施例中，可以采用文档频率（DF，Document Frequency）、互信息（MI，Mutual Information）、期望交叉熵（ECE，Expected Cross Entropy）、信息增益（IG，Information Gain）、文本证据权（WET，the Weight of Evidence for Text）、几率比（OR，Odds Ratio）以及伽马函数概率统计等进行特征词提取。关于对采集的行为数据进行特征词提取的流程为公知技术，在此略去详述。

本发明实施例中，类别对应的实体词库可以通过对各用户的行为数据样本量统计分析、聚类分析以及结合机器学习的方法得到，即设置的类别可以是由一个或多个实体词构成的向量实体词库。例如，通过对大量用户的行为数据的统计分析、聚类分析以及结合机器学习的方法，得到的类别可以包括：旅游、互联网、NBA、足球等，对于NBA，可以由科比、乔丹、詹姆斯等实体词组成标识NBA类别的实体词库（向量实体词库），对于足球，可以由C罗、梅西、扎内蒂、贝克汉姆等实体词组成标识足球类别的实体词库。

用户的行为数据中，可以包含一个或多个特征词，在对行为数据提取出特征词后，网络设备可以将该行为数据对应的一个或多个特征词，通过预定算法计算出一向量，然后，通过预定的距离函数度量该计算出的向量与各类别对应的实体词库中由各实体词组成的实体词向量之间的向量距离之和，或者，通过预定的向量相似度计算方法度量该计算出的向量与各类别对应的实体词库中由各实体词组成的实体词向量之间的向量相似度之和；之后，根据度量出的各向量距离之和或向量相似度之和确定出上述行为数据所属的类别。例如，将向量距离之和最小对应的类别或向量相似度之和最高对应的类别确定为该行为数据所属的类别，相类似地，通过计算该行为数据对应的一个或多个特征词分别与确定的类别对应的实体词库中由各实体词组成的实体词向量之间的向量距离或向量相似度，可以确定该行为数据所属类别下的实体词，例如，将向量距离最小对应的实体词或向量相似度最高对应的实体词确定为该行为数据所属的实体词。当然，实际应用中，在通过预定算法对行为数据对应的一个或多个特征词进行向量计算之前，还可以先将行为数据对应的一个或多个特征词与各类别对应的实体词库分别进行匹配，如果能够与某一类别下的实体词库中的实体词完全匹配，则可以直接确定该行为数据所属的类别以及类别下所属的实体词；如果不能够与某一类别下的实体词库完全匹配，再执行向量计算的流程。

本发明实施例也可以采用除上述方式之外的其他方式来确定上述采集到的行为数据所属的类别及其类别下所属的实体词，在此不再一一例举说明。

本发明实施例中，在网络设备侧，每一用户对应构建有一喜好话题库，喜好话题库可以采用用户标识进行区分。在喜好话题库中，存储有用户的行为数据与类别以及所属实体词的映射关系。作为可选实施例，喜好话题库可以采用表格的结构方式，例如，如表1所示。

表1

行为数据	所属类别	所属类别下的实体词
			行为数据1	旅游	张家界
行为数据2	足球	C罗
			行为数据3	NBA	乔丹
行为数据4	足球	罗纳尔多
			行为数据5	观赏鱼	(无)

...

步骤102，根据用户的行为数据对应的多维度属性信息，对该用户的喜好话题库中的类别和/或实体词进行排序，得到该用户的喜好话题排序库；

本步骤中，基于用户的行为数据构建用户喜好话题库，对整体的喜好话题库中的各类别和/或实体词进行综合排序，得到该用户的喜好话题排序库。即在喜好话题排序库中，按照类别进行排序，然后，对于类别下存在实体词的情形，再对每一类别中包含的各实体词进行排序。

本发明实施例中，多维度属性信息可以包括：热度信息、搜索量信息、触达次数信息、更新时间信息以及更新来源信息等。其中，触达次数信息表示用户对该类别或实体词的触达次数，可以是用户访问各网站服务器的次数信息，也可以是用户访问每一网站服务器的次数信息，更新时间信息可以是网页更新的频率信息等，更新来源信息可以是行为数据所对应的内容资源，例如，访问网页的质量信息。其中，更新来源信息可通过高质量（hub）页面与权威页面来体现，一个hub页面指向一个或多个Web页面，即详情页，用于提供指向权威页面（Web页面）的链接集合，该hub页面可以是主页上的推荐链接列表，例如：关于搜索引擎的站点或关于视频点播的站点。如果多个hub页面指向同一个Web页面，则该Web页面为权威页面的概率就越高，而如果一个hub页面指向的权威页面越多，表示该hub页面的质量就越高。该hub页面与权威页面之间的相互作用关系，可以用于权威页面的获取和高质量Web页面结构和资源的自动获取，这样，更新来源信息的质量越高，可以预配置的权重系数也就越高。

本发明实施例中，由于多维度属性信息中的每一维度属性信息，对于表征用户的行为数据的重要程度不同。因而，可以预先为不同的维度属性信息分别设置相应的属性权重系数，如为主动访问设置的属性权重系数高于为被动访问设置的属性权重系数，再如为被高端用户访问的内容资源对应的信息质量设置的属性权重系数高于没有被高端用户访问的内容资源对应的信息质量设置的属性权重系数。这样，本发明实施例在确定出行为数据对应的多个维度属性信息后，可以利用各维度属性信息以及相对应的属性权重系数计算出行为数据的权重值。本实施例可以根据实际情况采用相应的计算方法来进行行为数据的权重值的计算，具体的计算方法在此不再一一详细举例说明。

本发明实施例中，根据每一维度属性信息，基于构建的用户喜好话题库，可以构建对应的喜好话题维度排序库。每一喜好话题维度排序库对应一预先设置的属性权重系数，喜好话题维度排序库可以根据用户的行为数据所属的类别以及类别下的所属实体词，基于时间轴信息，可以对用户的行为数据对应的维度属性信息进行统计。以触达次数信息为例，如果针对类别下的实体词在每一定时时间内进行统计，并按照触达次数进行排序，则可以得到该用户基于触达次数信息的喜好话题维度排序库，具体示意可参见表2。

表2

类别排序	实体词排序
		足球(50)	C罗(25)梅西(20)罗纳尔多(5)
NBA(30)	詹姆斯(20)科比(8)乔丹(2)
		旅游(10)	张家界(9)北京(1)
...	...

表2中，括号中的数字表示触达次数。例如，对于足球（50），表示在定时时间内，用户的行为数据对应足球类别的触达次数为50次，C罗（25）表示在50次的触达次数中，有25次的触达次数为C罗。

按照与基于触达次数信息的喜好话题维度排序库相类似的处理方式，可以分别得到基于热度信息的喜好话题维度排序库、基于搜索量信息的喜好话题维度排序库、基于更新时间信息的喜好话题维度排序库以及基于更新来源信息的喜好话题维度排序库，在此不再一一例举。其中，上述的各喜好话题维度排序库组成用户的喜好话题排序库。

在得到各基于多维度属性信息的喜好话题维度排序库后，按照预先分配的属性权重系数以及类别权重系数，分别计算各喜好话题维度排序库中类别的权重并进行求和，得到类别的总权重，并按照类别的总权重进行排序；而对于类别下的各实体词，按照预先分配的各实体词权重系数，分别计算各喜好话题维度排序库中该类别下各实体词的权重，并进行求和，得到实体词的总权重，按照实体词的总权重进行排序，最后，根据类别的总权重排序以及实体词的总权重排序，得到该用户的喜好话题排序库。其中，较佳地，各维度属性信息对应的属性权重系数之和为1，对于每一维度属性信息对应的喜好话题维度排序库，各类别的类别权重系数之和为1，对于每一类别下的实体词，各实体词的权重系数之和为1。例如，以基于触达次数信息的喜好话题维度排序库为例，假设该喜好话题维度排序库的属性权重系数为0.4，对于其中的类别足球，类别权重系数为0.6，则该喜好话题维度排序库中，类别足球的权重为：0.4x0.6x50/（50+30+10）=6/45，求取各喜好话题维度排序库中类别足球的权重之和，得到该用户的喜好话题排序库中类别足球的总权重。再例如，对于基于触达次数信息的喜好话题维度排序库中类别足球对应的各实体词，假设实体词C罗的权重系数为0.3，实体词梅西的权重系数为0.4，实体词罗纳尔多的权重系数为0.3，则该基于触达次数信息的喜好话题维度排序库中，实体词C罗的权重为：0.4x0.6x0.3x25/（25+20+5）=0.036。求取各喜好话题维度排序库中实体词C罗的权重之和，得到该用户的喜好话题排序库中类别足球中C罗的总权重。这样，假设在各喜好话题维度排序库中的同一类别下，对各实体词的总权重进行计算，并按照实体词的总权重进行排序后，实体词C罗与实体词梅西的排序位置发生变化（梅西的排序在C罗之前），见表3。表3为基于多维度属性信息进行排序后得到的某一用户的喜好话题排序库。

表3

类别排序	实体词排序
		足球	梅西C罗罗纳尔多
NBA	詹姆斯科比乔丹
		旅游	张家界北京
...	...

实际应用中，步骤102中的构建喜好话题库，并对该用户的喜好话题库中的类别进行排序也可以包括：

A11，根据用户的行为数据对应的多维度属性信息，计算所述用户的行为数据的权重值；

本步骤中，用户的行为数据对应有多个维度（这里的维度也可以称为统计维度），且在每一个维度上均对应有相应的属性信息，该属性信息并不表示行为数据在其对应的维度上所固有的属性，而是一种由于用户的访问行为而使其在维护上所具有的临时属性。一个具体的例子，本实施例中的行为数据对应的多维度属性信息可以包括：行为数据所属类别的触达次数、行为数据所属类别的访问频度、产生该行为数据的访问方式以及行为数据所对应的内容资源的信息质量。另一个具体的例子，本实施例中的行为数据对应的多维度属性信息可以包括：行为数据所属类别的触达次数、行为数据所属类别的访问间隔、产生该行为数据的访问方式以及行为数据所对应的内容资源的信息质量。

其中，行为数据所属类别的触达次数表示用户对该类别的触达次数，也就是说，在一个类别范围内，如果对该类别的所有行为数据的触达进行顺序计次的话，则该行为数据对应的顺序计次值即为该行为数据所属类别的触达次数。上述行为数据所属类别的触达次数可以由网络设备来设置。

其中，行为数据所属类别的访问频度表示用户对该类别的访问频度，也就是说，在一个类别范围内，如果将该类别中的每一条行为数据均作为用户对该类别的一次访问，则在将该行为数据实时纳入到对该类别的访问频度的计算时所获得的访问频度值可以作为该行为数据所属类别的访问频度。上述行为数据所属类别的访问频度可以由网络设备来计算并设置。触达次数和访问频度之间是存在关系的，如在一段时间内的触达次数越多，则访问频度会越高，一个具体的例子，如果用户经常看NBA新闻，则实体词科比的触达次数会很多，与此同时，实体词科比在时间维度上所表现出的访问频度也会越高。

其中，产生该行为数据的访问方式是指用户在进行相应的网络访问而产生该行为数据时所采用的具体的访问方式，如行为数据是用户由于主动访问而产生的（如主动打开浏览器客户端并在地址栏中输入相应的URL的网页浏览以及主动搜索关键词的网页浏览等），还是用户由于点击推送的弹窗或者网页中的内容而产生的。上述产生该行为数据的访问方式可以由浏览器客户端来设置，并随行为数据一起传输至网络设备。

其中，行为数据所对应的内容资源的信息质量可以在一定程度上表示出相应的内容资源的专业程度，内容资源的信息质量可以利用该内容资源所属类别中至少一个高端用户对该行为数据所对应的内容资源的访问情况来确定；这里的高端用户可以为已经被确定为对该类别（上述接收到的行为数据所属的类别）具有兴趣的用户（也可以称为该类别中的资深用户）。一个具体的例子，本实施例可以根据行为数据所对应的内容资源是否被相应类别中的一个或多个高端用户所访问和/或被相应类别中的所有高端用户所访问的次数等相关信息来决定该行为数据所对应的内容资源在信息质量上的具体取值。上述行为数据所对应的内容资源的信息质量可以由网络设备来设置。另外，上述高端用户也可以为不但被确定为对该类别具有兴趣且还应对该类别的兴趣达到发烧程度的用户，如在用户对内容资源所属类别的关注度不但达到相应的喜好阈值，而且还达到预定阈值的情况下，该用户被确定为该类别的高端用户，该预定阈值高于网络资源所属类别对应的喜好阈值；再如，在用户对内容资源所属类别的关注度不但达到相应的喜好阈值，而且该用户还对预定网站进行过访问，则可以将该用户确定为高端用户；上述预定网站通常为专业性较强的网站。

其中，行为数据所属类别的访问间隔表示用户对该类别的访问间隔；即在用户的多次上网过程中，对一类别的前一次访问和对该类别的下一次访问之间间隔的用户上网次数。

本实施例可以预先为所有维度或者部分维度上的不同属性信息分别设置相应的系数，如为主动访问设置的系数高于为被动访问设置的系数，再如为被高端用户访问的内容资源对应的信息质量设置的系数高于没有被高端用户访问的内容资源对应的信息质量设置的系数。这样，本实施例在确定出网络访问行为数据对应的多个维度上的属性信息后，可以利用各属性信息以及相对应的系数计算出行为数据的权重值。

用户的行为数据、行为数据对应的多维度属性信息以及计算出的权重值等可以一起存储在该用户的特征库中。

A12，根据所述用户的行为数据的权重值确定所述用户的行为数据所属类别的关注度；

本步骤中，可以实时的方式计算用户的行为数据所属类别的关注度，也就是说，网络设备每接收到一条行为数据或者网络设备同时接收到多条行为数据时，可以立即进行行为数据所属类别的关注度计算，并将实时计算的行为数据所属类别的关注度进行累加。

本实施例也可以采用非实时的方式（即离线方式）计算用户的行为数据所属类别的关注度，例如，在每天的凌晨对前一天接收到的该用户的行为数据所属类别进行关注度的计算处理，在计算处理完成后，将计算得到的行为数据所属类别的关注度进行累加。

本实施例可以采用多种方式利用用户的行为数据的权重值来计算用户的行为数据所属类别的关注度，具体的实现方式可以根据实际情况来设置，在此不再详细例举说明。

A13，根据所述用户的行为数据所属类别的关注度和预先设定的相应类别对应的喜好阈值识别所述用户喜好的类别，并按照喜好的类别的关注度进行排序，其中，所述类别对应的喜好阈值是根据网络中多个用户对该类别进行访问的行为数据设置的。

本步骤中，预先设定的相应类别对应的喜好阈值是根据网络中多个用户（如全网用户）对属于该类别中的内容资源进行访问所产生的行为数据而设置的。

由于多个用户（如全网用户）对一个类别的访问情况可以体现出该类别被不同用户所关注的程度的差异，因此，利用多个用户对一个类别的访问情况来设置该类别的喜好阈值可以较准确的体现出对该类别喜好的用户对该类别的实际访问情况，从而本发明实施例通过利用这样的喜好阈值来对用户是否对该类别有喜好进行判断，可以使判断的结果更加准确。

一个具体的例子，设定有两个类别，即第一类别和第二类别，第一类别是一个能够时常被大家接触到的类别（如NBA），而第二类别是一个不能够时常被大家接触到的类别（如观赏鱼），用户A对第一类别的访问次数往往会大大超出用户A对第二类别的访问次数，然而，这并不能准确的表示出第一类别是用户A的喜好所在，也就是说，如果通过将用户A对第一类别的访问次数和对第二类别的访问次数进行比较来确定用户A的喜好是第一类别，则很有可能确定出的喜好并不是用户A的喜好。从实际情况来看，由于多个用户（如全网用户）接触第一类别的机会都较多，而接触第二类别的机会都较少，因此，根据网络中多个用户对该第一类别和第二类别的访问情况来看，为第一类别设置的喜好阈值应高于为第二类别设置的喜好阈值。

本发明实施例可以在判断出用户的行为数据所属类别的关注度达到或者超过预先设定的该类别对应的喜好阈值时，将该类别作为用户的喜好，并按照喜好的类别的关注度进行排序。

在用户具有被动浏览习惯的情况下，用户通常习惯于浏览各种头条新闻以及实时弹窗推送的内容，正是基于这样的被动浏览习惯，会造成用户可能对多个类别都会有较多的网络访问现象；然而，由于这些访问是即兴且随意的，因此，用户对其访问涉及到的多个类别的关注度很可能并不会达到相应类别的喜好阈值，从而本发明实施例利用基于多个用户设置的各类别的喜好阈值，可以排除将用户即兴且随意的浏览的内容所属的类别确定为用户喜好的类别的现象。

利用本发明实施例提供的上述技术方案，可以较准确的确定出用户喜好的类别，进一步的，本实施例还可以更细致的确定出用户喜好的实体词，如本实施例中的行为数据对应的多维度属性信息还可以包括：行为数据所包含的实体词在行为数据所属类别中的触达次数、行为数据所包含的实体词在行为数据所属类别中的访问频度以及行为数据所包含的实体词在所述行为数据所属类别中的访问间隔，这三个属性信息均是针对类别中的行为数据所包含的实体词的，而不是针对行为数据所属类别的。

基于上述针对实体词的属性信息，本实施例在设置类别对应的喜好阈值时，还可以进一步设置类别中的各实体词的喜好阈值，这样，不仅可以根据类别中的各实体词的喜好阈值来判断用户所喜好的类别中的更具体细化的内容。

设置实体词的喜好阈值的方式与上述设置类别对应的喜好阈值的方式基本相同，在此不再详细说明。

这样，步骤102中的对每一类别对应的实体词进行排序也可以包括：

B11，根据用户的行为数据对应的多维度属性信息，计算所述用户的行为数据中的实体词的权重值；

B12，根据所述用户的行为数据中的实体词的权重值确定所述用户的行为数据所属类别中的实体词的关注度；

B13，根据所述用户的行为数据所属类别中的实体词的关注度和预先设定的相应类别中的实体词对应的喜好阈值识别所述用户喜好的实体词并按照喜好的实体词的关注度进行排序。

需要特别说明的是，在预先为实体词设置了喜好阈值的情况下，本实施例在为类别设置对应的喜好阈值时，不仅应考虑多个用户对类别的关注度，还可以将该类别中的各实体词对应的喜好阈值作为确定类别对应的喜好阈值的一个参考因素。另外，上述产生行为数据的访问方式以及行为数据所对应的内容资源的信息质量可以用于为实体词设置喜好阈值以及识别用户喜好的实体词的过程中，也就是说，产生行为数据的访问方式可以作为产生行为数据所包含的实体词的访问方式，行为数据所对应的内容资源的信息质量可以作为行为数据中所包含的实体词的访问方式。

步骤103，根据用户的行为数据对应的多维度属性信息，对用户的喜好话题排序库进行排序调整；

本步骤为可选步骤，本步骤中，用户的网络访问可能会表现出其浅度且暂时的喜好，而如果根据用户网络访问的这部分内容将用户浅度且暂时的喜好识别为用户真正的喜好，则会产生用户喜好的误判。因而，本发明实施例中，可以考虑大量用户的网络访问表现出的群体喜好，并基于群体喜好对用户喜好进行修正。

本发明实施例中，对于每一用户，可以设置相应的用户权重系数。较佳地，所有用户的用户权重系数之和为1。实际应用中，还可以为不同的用户设置不同的用户权重系数，从而依据与步骤102相类似的处理流程进行排序调整。具体来说，该步骤包括：

针对每一类别和/或实体词，在用户的喜好话题排序库中，分别计算该类别和/或实体词权重与用户权重系数的乘积并对所述乘积进行求和；

本步骤中，需要基于大量用户的喜好话题排序库，对每一用户的喜好话题排序库中各类别以及实体词排序位进行调整，以避免误判的情形并使得判断的结果更加准确。

具体计算公式可以是：

式中，A_j为求和的类别j权重；

n为用户数；

α_i为第i个用户的用户权重系数；

β_ij为第i个用户的类别j权重。

根据求和值与用户数，得到该类别权重的平均值；

针对用户的喜好话题排序库的各类别，计算类别权重与预先设置的用户优先权重系数的乘积以及该类别权重的平均值与预先设置的非用户优先权重系数的乘积的和，得到该类别调整权重；

本步骤中，类别调整权重计算公式为：

式中，Φ_j为类别j调整权重；

γ_i为用户优先权重系数；

δ为非用户优先权重系数。

较佳地，δ+γ_i＝1。

按照类别调整权重的大小，对用户的喜好话题排序库进行排序调整。

本步骤中，例如，根据各用户的行为数据对应的多维度属性信息进行排序调整后，某一用户经排序调整的喜好话题排序库如表4。

表4

类别排序	实体词排序
		足球	梅西C罗罗纳尔多
NBA	科比詹姆斯乔丹
		旅游	北京张家界
...	...

实际应用中，步骤103也可以为：

C11，根据用户的行为数据对应的多维度属性信息，计算所述用户的行为数据的权重值；

C12，根据所述用户的行为数据的权重值确定所述用户的行为数据所属类别的关注度；

本发明实施例中，计算行为数据的权重值以及确定行为数据所属类别的关注度，具体可参见前述描述，在此略去详述。

C13，根据所述用户的行为数据所属类别的关注度，对用户的喜好话题排序库中的相应类别的关注度进行调整，并依据调整的类别的关注度进行排序；

本步骤中，可以求取各用户的行为数据所属类别的关注度的平均值，为该平均值分配第一权重系数，再为每一用户的喜好话题排序库中的相应类别的关注度分配第二权重系数，分别计算平均值与第一权重系数的乘积，以及，相应类别的关注度与第二权重系数的乘积，将两个乘积之和作为调整的类别的关注度。

C14，根据用户的行为数据对应的多维度属性信息，计算所述用户的行为数据中的实体词的权重值；

C15，根据所述用户的行为数据中的实体词的权重值确定所述用户的行为数据所属类别中的实体词的关注度；

C16，根据所述用户的行为数据所属类别中的实体词的关注度，对用户的喜好话题排序库中的相应类别中的实体词的关注度进行调整，并依据调整的类别中的实体词的关注度进行排序。

步骤104，在向用户展示之前，查询预先设置的推荐内容库，预取与排序调整的喜好话题排序库中排序的类别和/或实体词相匹配的排序推荐内容；

本步骤中，基于经过排序调整的喜好话题排序库中的类别以及实体词，与预先设置的推荐内容库中的推荐内容进行相关匹配。例如，对于经过排序调整的喜好话题排序库中的类别足球，对应的实体词为三个，以实体词梅西为例，在推荐内容库中，查询包含有实体词梅西的推荐内容，并按照包含的实体词梅西次数进行排序，将排序前M位的推荐内容作为实体词梅西的推荐内容。然后，对应查询实体词C罗对应的推荐内容，并按照梅西、C罗的排序为依次排列推荐内容。

实际应用中，如果经过排序调整的喜好话题排序库中，类别对应的实体词为空，则在推荐内容库中，查询包含有类别的推荐内容，并按照包含的类别次数进行排序，将排序前M位的推荐内容作为该类别的推荐内容。其中，M为自然数。

步骤105，对获取的排序推荐内容，按照预先设置的排序权重策略进行二次排序；

本步骤为可选步骤，本步骤中，为了避免用户在浏览按照实体词排序展示的推荐内容时的交互视觉疲惫，可以对获取的推荐内容的排序进行再调整，使排序更为合理。进一步地，还可以根据推荐内容的属性，为推荐内容设置属性展示标签，以帮助用户进行更快速的筛选。例如，对于推荐内容的属性为视频的情形，设置属性展示标签为视频，以使用户获知该推荐内容为视频；再例如，对于推荐内容的属性为热点的情形，设置属性展示标签为热点。

本发明实施例中，预先设置的排序权重策略包括：多样性排序权重策略、和/或，多媒体指标排序权重策略。其中，

多样性排序权重策略用于对推荐内容进行多样性的处理，以避免用户在交互视觉上感到疲惫，从而提升用户的业务体验。具体来说，在排序调整的喜好话题排序库中，按照排序权重将类别以及类别下的各实体词分成一个或多个话题组，并针对每一话题组，对话题组中的各实体词对应的推荐内容进行多样性提取，再重新排序。例如，依序提取经排序调整的喜好话题排序库中各类别对应的排序第一位的实体词，组成第一话题组，依序提取经排序调整的喜好话题排序库中各类别对应的排序第二位的实体词，组成第二话题组等。设某一话题组中排序的话题分别为：范冰冰、科比、保健，则从获取的三个话题对应的推荐内容中，按照类别权重系数、实体词权重系数以及包含的实体词数量进行推荐内容权重计算，并按照计算得到的推荐内容权重大小进行排序，即对推荐内容权重进行线性混排处理，得出排序结果。

举例来说，以包含范冰冰和科比的话题为例，实体词范冰冰所属的类别权重系数为f1，实体词权重系数为f2，包含实体词范冰冰的推荐内容为三条，其中，第一条推荐内容D1至第三条推荐内容D3中出现实体词范冰冰的次数分别为n1、n2以及n3，设第一条推荐内容至第三条推荐内容分别对应的推荐内容权重为D1、D2、D3；科比实体词所属的类别权重系数为g1，实体词权重系数为g2，包含实体词科比的推荐内容为四条，其中，第一条推荐内容E1至第四条推荐内容E4中出现实体词科比的次数分别为m1、m2、m3以及m4，设第一条推荐内容至第四条推荐内容分别对应的推荐内容权重为E1、E2、E3、E4。则上述推荐内容权重分别为：

D1=f1x f2x n1；

D2=f1x f2x n2；

D3=f1x f2x n3；

E1=g1xgf2x m1；

E2=g1xgf2x m2；

E3=g1xgf2x m3；

E4=g1xgf2x m4。

按照D1、D2、D3、E1、E2、E3、E4的大小进行排序，得到对推荐内容权重进行线性混排的排序结果，例如，上述进行线性混排的排序结果为：E1、E2、D1、E3、D2、D3、E4。

多媒体指标排序权重策略用于对设置有属性展示标签的推荐内容进行加权处理。例如，对于包含有图片、多图、视频、音乐等属性展示标签的推荐内容，进行推荐内容权重系数上的加权处理，从而调整推荐内容的顺序位，且通过展示属性展示标签，可以方便用户快速识别。

步骤106，在用户提出访问请求时，提取用户当前访问网络场景，从二次排序的推荐内容中，提取与用户当前访问网络场景相匹配的推荐内容供展示使用。

本步骤中，在向用户展示之前，通过预取与喜好话题排序库中排序的类别和/或实体词相匹配的排序推荐内容，并存储到本地磁盘，这样，在在用户提出访问请求时，根据用户当前访问网络场景，从本地磁盘存储的排序推荐内容中，读取部分与用户当前访问网络场景相匹配的推荐内容，由于预取的推荐内容与用户当前访问网络场景相关，可以使得推荐内容被用户点击以及浏览的概率更高，从而提升推荐效率。即根据用户当前访问网络场景以及前述步骤得到的用户个性化信息（推荐内容），预取特定且符合用户当前访问网络场景下的推荐内容给用户。

本发明实施例中，用户当前访问网络场景包括：主场景以及特定内容场景，其中，

对于用户当前访问网络场景为主场景的情形，例如，用户当前访问网络场景为新标签、首页等无目的性质页面，从进行二次排序的推荐内容中，预取排序前L条作为推荐内容。其中，L为自然数，较佳地，L为3～20，即向用户推荐3～20条不等的推荐内容。

本步骤中，可以提取用户当前访问网络场景对应的网址，查询预先设置的网址与主场景的映射关系集和/或正则匹配，如果能够查询到，则获取提取的网址映射的主场景。举例来说，主场景可以是网页导航场景，也可以是提供公共信息的网站首页场景，还可以是通用的检索页面场景。用户在进入上述主场景后，无法判断用户的当前喜好，因而，可以从进行二次排序的推荐内容中，预取排序前L条作为向用户展示的推荐内容。进一步地，对于用户当前处于网页导航场景，还可以确定用户需要深度获取信息，这样，等待用户的下一次操作，如果用户在预定时间内没有执行任何操作，则按照主场景进行内容推荐。

对于用户当前访问网络场景为特定内容场景的情形，例如，NBA相关的博客，在进行推荐时，从进行二次排序的推荐内容中，优先根据当前NBA的特定内容场景，可以预取NBA话题（类别）下的推荐内容，以及，从推荐内容库中，预取少量NBA的精品信息向用户进行推荐。

其中，确定用户当前访问网络场景为特定内容场景的方式包括但不限于以下方法：

统计分析用户当前访问网络场景对应站点（或者模板）所属的类别，当用户访问该站点时，将该站点所属的类别作为用户当前喜好的类别；

统计分析用户当前访问网络场景对应页面的属性，如果是hub页面，确定用户处于寻找信息（入口）状态，可以等待用户的下一次操作来确定用户的喜好；如果是详情页面，确定用户处于消费信息（结果页）状态，分析页面包含的关键词，与用户排序调整的喜好话题排序库中排序的类别对应的实体词相匹配，从而获取页面包含的关键词匹配的实体词，将匹配的实体词作为用户当前喜好的实体词；

统计分析用户标识信息的上网时间和ip地址等情况，判断用户在家或者在公司进行网络访问，例如，如果上网时间处于上班时间段内，或通过ip地址解析获取ip地址为家庭ip地址，则可以判断用户在家进行网络访问，可以提取用户生活中喜好的实体词作为用户当前喜好的实体词。

本发明实施例中，在进行推荐内容展示时，可以是在确定用户当前访问网络场景后，主动将与用户当前访问网络场景相匹配的推荐内容进行展示，也可以是在用户当前访问网络场景中预先设置本发明实施例的推荐内容控件，用户在激活推荐内容控件后，终端设备将与用户当前访问网络场景相匹配的推荐内容进行展示。

实际应用中，为了提高推荐内容展示的效率，本发明实施例中，还可以将展示的推荐内容以分栏列表（例如，左筛选右浏览）的方式进行展示。例如，在分栏列表的左栏位，依序展示推荐内容的标题以及属性展示标签，所述推荐内容的标题链接缓存在本地的该推荐内容具体数据，并在用户点击展示的推荐内容标题后，在分栏列表的右栏位，展示所述推荐内容的标题链接缓存在本地的该推荐内容具体数据。这样，用户在浏览展示的各推荐内容时，可以在同一显示界面中进行相互切换，而无需在不同的显示界面中进行切换，可以有效降低在各显示界面切换所需的时间，提升用户业务体验。

本发明实施例中，进一步地，由于预取部分的推荐内容到本地（磁盘），无需去网站提取相应推荐内容，且在展现页面上采用左筛选右浏览的简易方式，使用户能够快速地切换喜欢的推荐内容，且不需要内容加载等待时间，大大地提升了访问效率，同时节省了访问成本。

实施例二、基于用户喜好的内容推荐装置。

图2是本发明实施例提供的基于用户喜好的内容推荐装置结构示意图。参见图2，该装置包括：喜好话题库构建模块、排序模块、推荐内容生成模块、推荐内容调整模块以及推荐内容展示模块，其中，

喜好话题库构建模块，用于采集用户的行为数据，针对采集的用户的行为数据进行特征词提取，将提取的特征词与预先设置的类别实体词库分别进行匹配，构建该用户的行为数据所对应的类别和/或实体词所构成的喜好话题库，类别实体词库中存储预先设置的类别和实体词；

作为可选实施例，终端设备中安装的浏览器和/或应用程序接口采集用户的行为数据，并根据预先设置的网络设备地址，即内容推荐装置地址，将自身的标识信息和采集到的行为数据传输给所述网络设备地址对应的内容推荐装置。其中，终端设备中安装的浏览器既可以将采集的用户进行网络访问操作而产生的行为数据实时传输给预先设置的网络设备地址对应的网络设备，也可以将采集的行为数据定时或者不定时地传输给网络设备地址对应的网络设备。

本发明实施例中，终端设备包括：计算机、智能移动电话、平板电脑、个人数字助理等。

本发明实施例中，喜好话题库构建模块包括：采集单元、特征词提取单元、匹配单元以及喜好话题库构建单元（图中未示出），其中，

采集单元，用于采集用户的行为数据，输出至特征词提取单元；

特征词提取单元，用于针对接收的用户的行为数据进行特征词提取，并将提取的特征词输出至匹配单元；

匹配单元，用于将接收的特征词与预先设置的类别实体词库进行匹配，获取所述接收的特征词匹配的类别和/或实体词；

本发明实施例中，作为可选实施例，匹配单元可以包括：特征词匹配子单元、向量计算子单元、向量距离计算子单元、第一类别确定子单元以及第一实体词确定子单元，其中，

特征词匹配子单元，用于将接收的行为数据对应的一个或多个特征词与各类别对应的实体词库分别进行匹配，如果能够与某一类别下的实体词库中的实体词完全匹配，则可以直接确定该行为数据所属的类别以及类别下所属的实体词；如果不能够与某一类别下的实体词库完全匹配，将接收的行为数据对应的一个或多个特征词输出至向量计算子单元；

向量计算子单元，用于将每一行为数据对应的一个或多个特征词，通过预定算法计算出一向量；

向量距离计算子单元，用于通过预定的距离函数，度量所述向量计算子单元计算出的向量与每一类别对应的实体词库中由各实体词组成的实体词向量之间的向量距离，得到该每一类别下的各实体词向量距离；将该每一类别下的各实体词向量距离进行求和，得到每一类别向量距离和；

第一类别确定子单元，用于将类别向量距离和最小对应的类别确定为该行为数据所属的类别；

第一实体词确定子单元，用于在类别向量距离和最小对应的各实体词向量距离中，选取实体词向量距离最小对应的实体词为该行为数据所属的实体词。

作为另一可选实施例，匹配单元可以包括：特征词匹配子单元、向量计算子单元、向量相似度计算子单元、第二类别确定子单元以及第二实体词确定子单元，其中，

向量距离计算子单元，用于通过预定的向量相似度计算方法，度量所述向量计算子单元计算出的向量与每一类别对应的实体词库中由各实体词组成的实体词向量之间的向量相似度，得到该每一类别下的各实体词向量相似度；将该每一类别下的各实体词向量相似度进行求和，得到每一类别向量相似度和；

第二类别确定子单元，用于将类别向量相似度和最小对应的类别确定为该行为数据所属的类别；

第二实体词确定子单元，用于在类别向量相似度和最小的各实体词向量相似度中，选取实体词向量相似度最小对应的实体词为该行为数据所属的实体词。

喜好话题库构建单元，用于根据匹配单元获取的类别及其对应的实体词，构建该用户的行为数据所属类别对应的实体词的喜好话题库。

排序模块，用于根据用户的行为数据对应的多维度属性信息，对该用户的喜好话题库中的类别和/或实体词进行排序，得到该用户的喜好话题排序库；

本发明实施例中，多维度属性信息可以包括：热度信息、搜索量信息、触达次数信息、更新时间信息以及更新来源信息等。

本发明实施例在确定出行为数据对应的多个维度属性信息后，可以利用各维度属性信息以及相对应的属性权重系数计算出行为数据的权重值。本实施例可以根据实际情况采用相应的计算方法来进行行为数据的权重值的计算。

本发明实施例中，排序模块包括：喜好话题维度排序库构建单元、类别排序单元、实体词排序单元以及喜好话题排序库构建单元，其中，

喜好话题维度排序库构建单元，用于根据用户的行为数据所属的类别以及类别下的所属实体词，基于时间轴信息，对用户的行为数据对应的维度属性信息进行统计，并对统计的各维度属性信息进行排序，得到喜好话题维度排序库；

类别排序单元，用于在得到各基于多维度属性信息的喜好话题维度排序库后，按照预先分配的属性权重系数以及类别权重系数，分别计算各喜好话题维度排序库中类别的权重并进行求和，得到类别的总权重，并按照类别的总权重进行排序；

本发明实施例中，各维度属性信息对应的属性权重系数之和为1，对于每一维度属性信息对应的喜好话题维度排序库，各类别的类别权重系数之和为1，对于每一类别下的实体词，各实体词的权重系数之和为1。

实体词排序单元，用于对于类别排序单元排序的类别下的各实体词，按照预先分配的各实体词权重系数，分别计算各喜好话题维度排序库中该类别下各实体词的权重，并进行求和，得到实体词的总权重，按照实体词的总权重进行排序；

喜好话题排序库构建单元，用于根据类别的总权重排序以及实体词的总权重排序，得到该用户的喜好话题排序库。

推荐内容生成模块，用于查询预先设置的推荐内容库，获取与喜好话题排序库中排序的类别对应的实体词相匹配的排序推荐内容；

本发明实施例中，推荐内容生成模块还可以进一步用于根据排序推荐内容的属性，为排序推荐内容设置属性展示标签。例如，对于推荐内容的属性为视频的情形，设置属性展示标签为视频，以使用户获知该推荐内容为视频；再例如，对于推荐内容的属性为热点的情形，设置属性展示标签为热点。

本发明实施例中，预先设置的排序权重策略包括：多样性排序权重策略、和/或，多媒体指标排序权重策略。

作为可选实施例，推荐内容调整模块可以包括：话题组构建单元、推荐内容权重计算单元以及推荐内容调整单元，其中，

话题组构建单元，用于依序提取经排序调整的喜好话题排序库中各类别对应的排序位相同的实体词，组成一个或多个话题组；

推荐内容权重计算单元，用于针对每一依序组成的话题组，获取该每一依序组成的话题组对应的推荐内容，按照推荐内容对应的类别权重系数、实体词权重系数以及包含的实体词数量进行推荐内容权重计算；

本发明实施例中，作为可选实施例，推荐内容权重为类别权重系数与实体词权重系数以及包含的实体词数量的乘积。

推荐内容调整单元，用于针对每一依序组成的话题组，按照计算得到的推荐内容权重大小进行排序，得出排序结果。

作为另一可选实施例，推荐内容调整模块还可以进一步包括：

类别权重加权单元，用于对设置有属性展示标签的推荐内容进行类别权重加权处理。

本发明实施例中，例如，对于包含有图片、多图、视频、音乐等属性展示标签的推荐内容，进行推荐内容权重系数上的加权处理，从而调整推荐内容的顺序位，且通过展示属性展示标签，可以方便用户快速识别。

本发明实施例中，作为可选实施例，推荐内容展示模块可以包括：场景提取单元、主场景确定单元以及第一预取单元，其中，

场景提取单元，用于提取用户当前访问网络场景，获取用户当前访问网络场景对应的网址信息；

主场景确定单元，用于根据场景提取单元获取的网址信息，查询预先设置的网址与主场景的映射关系集和/或正则匹配，如果能够查询到，确定为主场景；

第一预取单元，用于根据主场景确定单元确定的主场景，从进行二次排序的推荐内容中，预取排序前L条作为推荐内容，其中，L为自然数。

作为另一可选实施例，推荐内容展示模块可以包括：场景提取单元、特定内容场景确定单元以及第二预取单元，其中，

特定内容场景确定单元，用于根据场景提取单元获取的网址信息，确定用户当前访问网络场景为特定内容场景，通知第二预取单元；

第二预取单元，用于接收通知，从进行二次排序的推荐内容中，优先根据当前特定内容场景，预取预定第一数量的当前特定内容场景对应类别下的推荐内容，以及，从推荐内容库中，预取预定第二数量的当前特定内容场景对应类别下的精品信息向用户进行推荐。

本发明实施例中，确定用户当前访问网络场景为特定内容场景的方式包括但不限于以下方法：

本发明实施例中，还可以基于大量用户的喜好话题排序库，对每一用户的喜好话题排序库中各类别以及实体词排序位进行调整，以避免误判的情形并使得判断的结果更加准确。因而，该装置还可以进一步包括：

排序调整模块，用于根据用户的行为数据对应的多维度属性信息，对用户的喜好话题排序库进行排序调整，并将排序调整的喜好话题排序库输出至推荐内容生成模块。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或者系统的实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明所提供的用户兴趣发现方法和装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于用户喜好的内容推荐方法，其特征在于，包括：

根据用户的行为数据对应的多维度属性信息，对该用户的喜好话题库中的类别和/或实体词进行排序得到该用户的喜好话题排序库；

2.如权利要求1所述的方法，其特征在于，在所述预取与喜好话题排序库中排序的类别和/或实体词相匹配的排序推荐内容之后，提取用户当前访问网络场景之前，所述方法进一步包括：

按照预先设置的排序权重策略对获取的排序推荐内容进行二次排序。

3.如权利要求2所述的方法，其特征在于，所述排序权重策略包括：多样性排序权重策略，所述按照预先设置的排序权重策略对获取的排序推荐内容进行二次排序包括：

依序提取喜好话题排序库中各类别对应的排序位相同的实体词，组成一个或多个话题组；

针对每一依序组成的话题组，获取该每一依序组成的话题组对应的推荐内容，并按照推荐内容对应的类别权重系数、实体词权重系数以及包含的实体词数量进行推荐内容权重计算；

针对每一依序组成的话题组，按照计算得到的推荐内容权重大小进行排序，得出二次排序结果。

4.如权利要求3所述的方法，其特征在于，所述排序权重策略进一步包括：多媒体指标排序权重策略，所述方法进一步包括：

遍历推荐内容，获取设置有属性展示标签的推荐内容，并对所述设置有属性展示标签的推荐内容进行类别权重系数加权处理。

5.如权利要求1至4任一项所述的方法，其特征在于，所述用户当前访问网络场景为主场景，所述从排序推荐内容中，提取与用户当前访问网络场景相匹配的推荐内容包括：

从所述排序推荐内容中，预取排序前L条作为推荐内容，其中，L为自然数。

6.如权利要求5所述的方法，其特征在于，所述主场景确定方法包括：

提取用户当前访问网络场景，获取用户当前访问网络场景对应的网址信息；

根据获取的网址信息，查询预先设置的网址与主场景的映射关系集和/或正则匹配，如果能够查询到，确定为主场景。

7.如权利要求1至4任一项所述的方法，其特征在于，所述用户当前访问网络场景为特定内容场景，所述从排序推荐内容中，提取与用户当前访问网络场景相匹配的推荐内容包括：

从所述排序推荐内容中，预取预定第一数量的当前特定内容场景对应类别下的推荐内容，以及，从推荐内容库中，预取预定第二数量的当前特定内容场景对应类别下的精品信息。

8.如权利要求7所述的方法，其特征在于，确定所述用户当前访问网络场景为特定内容场景包括：

统计分析用户当前访问网络场景对应站点所属的类别，当用户访问该站点时，将该站点所属的类别作为用户当前喜好的类别。

9.如权利要求7所述的方法，其特征在于，确定所述用户当前访问网络场景为特定内容场景包括：

统计分析用户当前访问网络场景对应页面的属性，如果是高质量页面，确定用户处于寻找信息状态，等待用户的下一次操作来确定用户的喜好；如果是详情页面，确定用户处于消费信息状态，分析页面包含的关键词，与用户喜好话题排序库中排序的类别对应的实体词相匹配，从而获取页面包含的关键词匹配的实体词，将匹配的实体词作为用户当前喜好的实体词。

10.如权利要求7所述的方法，其特征在于，确定所述用户当前访问网络场景为特定内容场景包括：

统计分析用户标识信息的上网时间和因特网协议地址，判断用户在家或者在公司进行网络访问，如在家，提取用户生活中喜好的实体词作为用户当前喜好的实体词，如在公司，提取用户工作中喜好的实体词作为用户当前喜好的实体词。

11.如权利要求1至4任一项所述的方法，其特征在于，将推荐内容以分栏列表的方式进行所述展示。

12.如权利要求11所述的方法，其特征在于，

在所述分栏列表的左栏位，依序展示内容包括推荐内容的标题以及属性展示标签，并在用户点击展示的推荐内容标题后，在分栏列表的右栏位，展示所述推荐内容的标题链接缓存在本地的该推荐内容具体数据。

13.如权利要求1所述的方法，其特征在于，所述对该用户的喜好话题库中的类别进行排序包括：

根据用户的行为数据对应的多维度属性信息，计算所述用户的行为数据的权重值；

根据所述用户的行为数据的权重值确定所述用户的行为数据所属类别的关注度；

根据所述用户的行为数据所属类别的关注度和预先设定的相应类别对应的喜好阈值识别所述用户喜好的类别，并按照喜好的类别的关注度进行排序，其中，所述类别对应的喜好阈值是根据网络中多个用户对该类别进行访问的行为数据设置的。

14.如权利要求1所述的方法，其特征在于，所述对该用户的喜好话题库中的实体词进行排序包括：

根据用户的行为数据对应的多维度属性信息，计算所述用户的行为数据中的实体词的权重值；

根据所述用户的行为数据中的实体词的权重值确定所述用户的行为数据所属类别中的实体词的关注度；

根据所述用户的行为数据所属类别中的实体词的关注度和预先设定的相应类别中的实体词对应的喜好阈值识别所述用户喜好的实体词并按照喜好的实体词的关注度进行排序。

15.如权利要求1所述的方法，其特征在于，在所述得到该用户的喜好话题排序库之后，查询预先设置的推荐内容库之前，所述方法进一步包括：

根据用户的行为数据对应的多维度属性信息，对用户的喜好话题排序库进行排序调整。

16.如权利要求15所述的方法，其特征在于，所述对用户的喜好话题排序库进行排序调整包括：

根据求和值与用户数，得到该类别权重的平均值；

17.如权利要求15所述的方法，其特征在于，所述对用户的喜好话题排序库进行排序调整包括：

根据所述用户的行为数据所属类别的关注度，对用户的喜好话题排序库中的相应类别的关注度进行调整，并依据调整的类别的关注度进行排序；

根据所述用户的行为数据所属类别中的实体词的关注度，对用户的喜好话题排序库中的相应类别中的实体词的关注度进行调整，并依据调整的类别中的实体词的关注度进行排序。

18.如权利要求1所述的方法，其特征在于，所述用户的行为数据包括：用户浏览的网页信息、用户搜索的关键词信息、用户发表的微博信息、用户发表的博客信息以及用户购买的商品信息。

19.如权利要求1所述的方法，其特征在于，所述采集用户的行为数据包括：

利用用户的终端设备中安装的浏览器和/或应用程序接口采集用户的行为数据，并根据预先设置的网络设备地址，将自身的用户标识信息和采集到的行为数据传输给所述网络设备地址对应的网络设备，网络设备获取用户的行为数据。

20.如权利要求1所述的方法，其特征在于，所述进行特征词提取采用的方法包括：文档频率、互信息、期望交叉熵、信息增益、文本证据权、几率比或伽马函数概率统计。

21.如权利要求1所述的方法，其特征在于，所述将提取的特征词与预先设置的类别实体词库分别进行匹配包括：

将每一行为数据对应的一个或多个特征词，通过预定算法计算出一向量；

通过预定的距离函数，度量所述向量与每一类别对应的实体词库中由各实体词组成的实体词向量之间的向量距离，得到该每一类别下的各实体词向量距离；将该每一类别下的各实体词向量距离进行求和，得到每一类别向量距离和；

将类别向量距离和最小对应的类别确定为该行为数据所属的类别；

在类别向量距离和最小对应的各实体词向量距离中，选取实体词向量距离最小对应的实体词为该行为数据所属的实体词。

22.如权利要求1所述的方法，其特征在于，所述将提取的特征词与预先设置的类别实体词库分别进行匹配包括：

通过预定的向量相似度计算方法，度量向量计算子单元计算出的向量与每一类别对应的实体词库中由各实体词组成的实体词向量之间的向量相似度，得到该每一类别下的各实体词向量相似度；将该每一类别下的各实体词向量相似度进行求和，得到每一类别向量相似度和；

将类别向量相似度和最小对应的类别确定为该行为数据所属的类别；

在类别向量相似度和最小的各实体词向量相似度中，选取实体词向量相似度最小对应的实体词为该行为数据所属的实体词。

23.如权利要求21或22所述的方法，其特征在于，在所述将每一行为数据对应的一个或多个特征词，通过预定算法计算出一向量之前，所述方法进一步包括：

将接收的行为数据对应的一个或多个特征词与各类别对应的实体词库分别进行匹配，如果与某一类别下的实体词库中的实体词完全匹配，则直接确定该行为数据所属的类别以及类别下所属的实体词；如果不能够与某一类别下的实体词库完全匹配，执行所述将每一行为数据对应的一个或多个特征词，通过预定算法计算出一向量的流程。

24.一种基于用户喜好的内容推荐装置，其特征在于，该内容推荐装置包括：喜好话题库构建模块、排序模块、推荐内容生成模块、推荐内容调整模块以及推荐内容展示模块，其中，

25.如权利要求24所述的内容推荐装置，其特征在于，所述推荐内容调整模块包括：话题组构建单元、推荐内容权重计算单元以及推荐内容调整单元，其中，

26.如权利要求25所述的内容推荐装置，其特征在于，所述推荐内容调整模块进一步包括：

27.如权利要求24至26任一项所述的内容推荐装置，其特征在于，所述推荐内容展示模块包括：场景提取单元、主场景确定单元以及第一预取单元，其中，

28.如权利要求24至26任一项所述的内容推荐装置，其特征在于，所述推荐内容展示模块包括：场景提取单元、特定内容场景确定单元以及第二预取单元，其中，

29.如权利要求24至26任一项所述的内容推荐装置，其特征在于，进一步包括：

排序调整模块，用于根据各用户的行为数据对应的多维度属性信息，分别对每一用户的喜好话题排序库进行排序调整，并将排序调整的喜好话题排序库输出至推荐内容生成模块。