CN106897313B

CN106897313B - 一种海量用户业务偏好评估方法和装置

Info

Publication number: CN106897313B
Application number: CN201510962049.XA
Authority: CN
Inventors: 李珂; 苏飞; 张涛; 王振亚; 陆昕; 刘喜卿; 韩玉辉
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2015-12-21
Filing date: 2015-12-21
Publication date: 2020-10-27
Anticipated expiration: 2035-12-21
Also published as: CN106897313A

Abstract

本发明提供一种海量用户业务偏好评估方法和装置，涉及通信领域，用以高效、准确和全面的分析海量用户业务的时间偏好，对用户数据业务信息进行分析，建立数据业务信息库；将每个URL路径信息对应的数据业务流量通过所述URL路径信息与所述数据业务信息库相关联，生成用户数据业务详细表；根据所述用户数据业务详细表，在预设时间内，获取业务维度属性中每个子业务维度属性对应的维度最大值，分别计算每个已确定的维度值最大的子业务维度属性的业务维度属性偏好值；将每个所述业务维度属性偏好值最大的子业务维度属性确定为用户偏好，本发明实施例应用于评估用户业务偏好。

Description

一种海量用户业务偏好评估方法和装置

技术领域

本发明涉及通信领域，尤其涉及一种海量用户业务偏好评估方法和装置。

背景技术

近年来，随着互联网行业的迅猛发展，用户随时随地获取数据、产生数据的需求与日俱增，很大程度上促进了大数据时代的发展。目前企业通过网格营销、市场监控、经营决策等方式提升用户体验，推出个性化服务，从而保有市场份额。对于企业来说如何根据用户业务偏好针对不同的用户开展差异化的营销策略，提高用户管理水平，可以大大提高企业用户的忠诚度，势必对企业的发展大有益处。

现有技术中，对用户业务偏好的分析方法多为宏观的统计一下用户每个月各业务大类下流量的分布情况，通过用户在某一类业务中总体流量的偏好，为用户定义相应的业务属性标签。

但是，这种分析方法分析粒度存在一定的局限性，也没有对用户业务偏好进行深度的挖掘。首先，现有采集到的数据源对业务类型的划分缺乏实时性，对于日新月异的互联网环境而言，新产生的网站和应用很难保证分类的准确性；其次，现有技术中由于未对用户业务偏好进一步挖掘，从而缺乏对相应业务偏好的用户做出进一步个性化推送服务的有效数据支撑，分析仅停留在对用户偏好进行分类之上；另外，对于海量用户业务偏好分析，当前方法大多是运行在传统的Oracle或SQL Server服务器之上，分析效率相对较低，很难满足现阶段大数据分析的需求。

发明内容

本发明的实施例提供一种海量用户业务偏好评估方法和装置，用以高效、准确和全面的分析海量用户业务的时间偏好。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明实施例提供一种海量用户业务偏好评估方法，包括：

对用户数据业务信息进行分析，建立数据业务信息库；所述用户数据业务信息包含用户产生数据业务的URL路径信息、每个所述URL路径信息对应一个数据业务类型，所述数据业务信息库包括每个URL路径信息对应的数据内容类型及每个数据内容类型对应的子数据内容类型；

将每个URL路径信息对应的数据业务流量通过所述URL路径信息与所述数据业务信息库相关联，生成用户数据业务详细表；其中，所述用户数据业务详细表包括用户标识、每个数据业务开始的时间、每个数据业务对应的数据业务时长、每个数据业务的频次、每个数据业务的URL路径信息对应的数据业务流量；

根据所述用户数据业务详细表，在预设时间内，获取业务维度属性中每个子业务维度属性对应的维度最大值，其中，所述业务维度属性包括数据业务时间、数据业务类型以及数据业务内容，且所述数据业务时间、数据业务类型以及数据业务内容分别包括数据业务时长、数据业务的频次及数据业务流量，每个子业务维度属性对应一个维度最大值；

分别计算每个已确定的维度值最大的子业务维度属性的业务维度属性偏好值；

将每个所述业务维度属性偏好值最大的子业务维度属性确定为用户偏好。

结合第一方面，在第一方面的第一种可能的实现方式中，所述对用户数据业务信息进行分析，建立数据业务信息库，包括：

对所述用户数据业务信息进行解析，获取URL路径信息；

通过网络爬虫技术解析及分析每个所述URL路径信息对应的网页内容，获取每个所述URL路径信息所对应的数据内容类型及每个数据内容类型对应的子数据内容类型；

根据所述数据内容类型及子数据内容类型为每个所述URL路径信息划分属性标签，从而获得数据业务信息库。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述通过网络爬虫技术解析及分析每个所述URL路径信息对应的网页内容，获取每个所述URL路径信息所对应的数据内容类型包括：

以所述用户数据业务信息中的URL路径信息为种子URL，将所述种子URL添加至一级待抓取的URL队列中，所述一级待抓取的URL队列中包含预先设置的第一抓取规则，其中，所述预先设置的第一抓取规则包括第一预设特征及多线程抓取网页时的线程数；

若所述种子URL不存在于已抓取的URL队列中，按照预先设置的第一抓取规则的访问并存储所述种子URL对应的网页，并将所述种子URL对应的网页存储至在已下载网页库中；

将所述下载网页库中的每个种子URL对应的网页进行转换，获取包含所述第一预设特征的种子URL及与所述第一预设特征相似的种子URL，并对获取的种子URL对应的URL路径信息赋予一级属性标签；

将所述包含所述第一预设特征的种子URL及与所述第一预设特征相似的种子URL，重新添加至待抓取的二级待抓取的URL队列中，所述二级待抓取的URL队列中包含第二预设特征；

若所述包含第一预设特征的数据内容类型不存在于所述已抓取的URL队列中，则按照预先设置的第二预设特征，获取包含所述第二预设特征的种子URL；

按照通过预先定义好的分类训练集，对所述包含所述第二预设特征的种子URL进行分类，获取所述包含第二预设特征的种子URL对应的URL路径信息对应的内容属性标签。

结合第一方面，在第一方面的第三种可能的实现方式中，对于第一维度属性，所述第一维度属性为所述已确定的维度值最大的业务维度属性中的任意一个子业务维度属性，所述计算第一维度属性所对应的子业务维度属性偏好值，包括：

根据公式R＝η*μ+κ*δ+λ*ψ计算所述第一维度属性所对应的子业务维度属性偏好值；其中，R为第一维度属性所对应的子业务维度属性偏好值；η为第一维度属性中数据业务的频次维度最大值，κ为第一维度属性中数据业务时长维度最大值，λ为第一维度属性中数据业务流量维度最大值；μ为数据业务频次对应的权重；δ为数据业务时长对应的权重；ψ为数据业务流量对应的权重。

第二方面，本发明实施例提供了一种海量用户业务偏好评估装置，包括：

建立单元用于，对用户数据业务信息进行分析，建立数据业务信息库；所述用户数据业务信息包含用户产生数据业务的URL路径信息、每个所述URL路径信息对应一个数据业务类型，所述数据业务信息库包括每个URL路径信息对应的数据内容类型及每个数据内容类型对应的子数据内容类型；

生成单元用于，将每个URL路径信息对应的数据业务流量通过所述URL路径信息与所述数据业务信息库相关联，生成用户数据业务详细表；其中，所述用户数据业务详细表包括用户标识、每个数据业务开始的时间、每个数据业务对应的数据业务时长、每个数据业务的频次、每个数据业务的URL路径信息对应的数据业务流量；

获取单元用于，根据所述用户数据业务详细表，在预设时间内，获取业务维度属性中每个子业务维度属性对应的维度最大值，其中，所述业务维度属性包括数据业务时间、数据业务类型以及数据业务内容，且所述数据业务时间、数据业务类型以及数据业务内容分别包括数据业务时长、数据业务的频次及数据业务流量，每个子业务维度属性对应一个维度最大值；

计算单元用于，分别计算每个已确定的维度值最大的子业务维度属性的业务维度属性偏好值；

确定单元用于，将每个所述业务维度属性偏好值最大的子业务维度属性确定为用户偏好。

结合第二方面，在第二方面的第一种可能的实现方式中，建立单元，包括：

解析模块用于，对用户数据业务信息进行解析，获取URL路径信息；

生成模块用于，通过网络爬虫技术解析及分析每个所述URL路径信息对应的网页内容，生成每个所述URL路径信息所对应的数据内容类型及每个数据内容类型对应的子数据内容类型；

获取模块用于，根据所述数据内容类型及子数据内容类型，为每个所述URL路径信息划分属性标签，从而获得数据业务信息库。

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述生成模块具体用于：

结合第二方面，在第二方面的第三种可能的实现方式中对于第一维度属性，所述第一维度属性为所述已确定的维度值最大的业务维度属性中的任意一个业务维度属性，所述计算单元具体用于：

本发明实施例提供一种海量用户业务偏好评估方法，通过对用户数据业务信息进行分析，建立数据业务信息库，将每个URL路径信息对应的数据业务流量通过所述URL路径信息与所述数据业务信息库相关联，生成用户数据业务详细表；根据所述用户数据业务详细表，在预设时间内，获取业务维度属性中每个子业务维度属性对应的维度最大值，分别计算每个已确定的维度值最大的子业务维度属性的业务维度属性偏好值，将每个所述业务维度属性偏好值最大的子业务维度属性确定为用户偏好，在获取到用户偏好以后可以根据所述偏好为用户或网络开展进一步的个性化服务，且本发明实施例提供的方法，由于是将海量用户业务进行分析，对URL路径信息进行解析建立用户的用户数据业务详细表，从而解决目前分析方法效率低下、缺乏挖掘深度、实时性较差问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种海量用户业务偏好评估方法的流程示意图一；

图2为本发明实施例提供的一种海量用户业务偏好评估方法中URL路径信息与数据业务类型之间的对应关系示意图一；

图3为本发明实施例提供的一种海量用户业务偏好评估方法的流程示意图二；

图4为本发明实施例提供的一种海量用户业务偏好评估方法中的网络爬虫技术结构示意图；

图5为本发明实施例提供的一种海量用户业务偏好评估方法中URL路径信息与数据业务类型之间的对应关系示意图二；

图6为本发明实施例提供的一种海量用户业务偏好评估方法中根据用户偏好为用户赋予相应偏好标签的示意图；

图7为本发明实施例提供一种海量用户业务偏好评估装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种海量用户业务偏好评估方法，如图1所示，包括：

S101、对用户数据业务信息进行分析，建立数据业务信息库；所述用户数据业务信息包含用户产生数据业务的URL路径信息、每个所述URL路径信息对应一个数据业务类型，所述数据业务信息库包括每个URL路径信息对应的数据内容类型及每个数据内容类型对应的子数据内容类型；

S102、将每个URL路径信息对应的数据业务流量通过所述URL路径信息与所述数据业务信息库相关联，生成用户数据业务详细表；其中，所述用户数据业务详细表包括用户标识、每个数据业务开始的时间、每个数据业务对应的数据业务时长、每个数据业务的频次、每个数据业务的URL路径信息对应的数据业务流量；

S103、根据所述用户数据业务详细表，在预设时间内，获取业务维度属性中每个子业务维度属性对应的维度最大值，其中，所述业务维度属性包括数据业务时间、数据业务类型以及数据业务内容，且所述数据业务时间、数据业务类型以及数据业务内容分别包括数据业务时长、数据业务的频次及数据业务流量，每个子业务维度属性对应一个维度最大值；

S104、分别计算每个已确定的维度值最大的子业务维度属性的业务维度属性偏好值；

S105、将每个所述业务维度属性偏好值最大的业务维度属性确定为用户偏好。

本发明实施例提供一种海量用户业务偏好评估方法，通过对用户数据业务信息进行分析，建立数据业务信息库，将每个URL路径信息对应的数据业务流量通过所述URL路径信息与所述数据业务信息库相关联，生成用户数据业务详细表；根据所述用户数据业务详细表，在预设时间内，获取业务维度属性中维度值最大的子业务维度属性，分别计算每个已确定的维度值最大的子业务维度属性的业务维度属性偏好值，将每个所述业务维度属性偏好值最大的业务维度属性确定为用户偏好，在获取到用户业务类型偏好、业务时间偏好及数据业务流量偏好以后可以根据所述用户业务类型偏好、业务时间偏好及数据业务流量偏好为用户或网络开展进一步的个性化服务，且本发明实施例提供的方法，由于是将海量用户业务进行分析，对URL路径信息进行解析建立用户的用户数据业务详细表，从而解决目前分析方法效率低下、缺乏挖掘深度、实时性较差问题。

其中，本发明实施例对用户数据业务信息的具体形式不进行限定，可以是用户产生数据业务产生时的任何一个数据业务对应的URL路径信息，该用户数据业务信息可以从Gn口采集数据或Iu-PS数据等数据源中获取，为了对每个用户的数据业务信息进行分析，该数据源还包括每个用户的IMSI，以及每个用户的IMSI对应的若干条URL路径信息，本发明实施例对此不进行限定。

其中，每个URL路径信息均对应一个数据业务类型，例如，流媒体类、下载类、即时通信类、浏览和其他类)该数据业务类型的名称可以根据自己需要进行设置，如图2所示：

其中，业务维度属性包括三个子业务维度属性，分别为数据业务时间、数据业务类型以及数据业务内容，且所述数据业务时间、数据业务类型以及数据业务内容分别包括数据业务时长、数据业务频次及数据业务流量，其中，数据业务频次通过用户点击子数据内容的次数获得。

对于步骤S101，需要将每个URL路径信息转换成相应的数据业务类型，例如，图2中所示URL2、URL3、URL6及URL9的URL路径信息对应的数据业务类型为浏览类，URL1、URL5及URL8的路径信息对应的数据业务类型为流媒体类，其中，本发明实施例对将所述URL路径信息对应的数据业务类型的划分方式不进行限定，可以通过现有数据源中直接获得，例如，将每个URL路径信息进行解析，若所述路径信息中包含流媒体类预设特征，则所述URL路径信息属于流媒体类。

在获取到每个URL路径信息时，可以获取每个URL路径信息对应产生的时间，结束时间，每个ULR路径信息产生业务时的流量开始时间和结束时间，并建立每个URL路径信息和所对应的流量开始时间、结束时间、产生时间、结束时间的对应关系，并将所述对应关系进行存储，本发明实施例对所述对应关系的存储方式不进行限定，可以根据需要进行选择。

将可以通过多种方式获取每个URL路径信息中对应的数据内容类型及每个数据内容类型对应的子数据内容类型，本发明实施例对此不进行限定，示例性的，本发明实施例通过网络爬虫技术获取每个URL路径信息对应的数据内容和子数据内容类型。

示例性的，如图3所示，步骤S101可以通过以下方式实现：

S1011、对所述用户数据业务信息进行解析，获取URL路径信息；

S1012、通过网络爬虫技术解析及分析每个所述URL路径信息对应的网页内容，获取每个所述URL路径信息所对应的数据内容类型及每个数据内容类型对应的子数据内容类型；

参见图4所示，本发明实施例给出了一种Impala分布式网络爬虫系统架构图，Impala分布式网络爬虫系统架构如4所示，是运行于Impala集群之上的，Impala集群中每个Impala子节点(例如，Impala子节点1、Impala子节点2…Impala子节点n)，其中，每个Impala子节点都包含解析URL的网页抓取模块、网页处理模块、网页分类模块，每个Impala子节点都是一个传统的集中式爬虫，这些爬虫由一个Impala主节点控制来协同工作。每个Impala子节点通过从Impala主节点处获取Impala主节点为每个Impala子节点分配的存储在Impala主节点中的待抓取URL队列及已抓取URL列表，其中，为了保证集群中每个Impala子节点的负载均衡，Impala主节点为每个Impala子节点分配的URL队列数一致，每个Impala子节点中的网页抓取模块通过从Impala主节点处获取到待抓取的URL队列，访问每个URL路径信息与对端服务器建立链接，并从所述对端服务器中下载所述URL路径信息对应的网页，并按照URL-网页的形式存储在Impala主节点中的已下载网页库中，获取每个URL路径信息对应的HTML网页；网页处理模块通过将下载网页库中保存的每个HTML网页转换为XML文件，并从所述XML文件中筛选出包含第一预设特征的URL路径信息，将其添加至待抓取的URL队列，并按照URL-XML文件的形式提交至网页分类模块；最后网页分类模块通过预先定义好的分类训练集(例如，图5所示的，新闻、生活、娱乐、及时通信等)按照设定好的特征分类算法对XML文档加以分类，从而为URL路径信息定义内容属性标签，并将处理过的URL添加到已抓取URL列表中；检查待抓取URL队列，直至处理完队列中的所有URL为止。

在执行网页抓取模块之前本发明实施例还包括为所述Impala分布式网络爬虫系统制定抓取规则，例如，抓取深度以及多线程抓取网页时的线程数，其中所述抓取线程即每个Impala子节点需要抓取的URL种子的数量，本发明实施例对此不进行限定，可以根据实际需要进行设置。

其中，对于步骤S1012可以通过以下具体方式实现：

S10121、以所述用户数据业务信息中的URL路径信息为种子URL，将所述种子URL添加至一级待抓取的URL队列中，所述一级待抓取的URL队列中包含预先设置的第一抓取规则，其中，所述预先设置的第一抓取规则包括第一预设特征及多线程抓取网页时的线程数；

S10122、若所述种子URL不存在于已抓取的URL队列中，按照预先设置的第一抓取规则的访问并存储所述种子URL对应的网页，并将所述种子URL对应的网页存储至在已下载网页库中；

S10123、将所述下载网页库中的每个种子URL对应的网页进行转换，获取包含所述第一预设特征的种子URL及与所述第一预设特征相似的种子URL，并对获取的种子URL对应的URL路径信息赋予一级属性标签；

其中，本发明实施例一级属性标签的具体内容不进行限定，可以根据需要进行设置，例如，可以根据每个URL路径信息对应的具体网页内容将其设置为新闻、生活、娱乐、即时通信、教育、购物；对于包含一级属性标签的URL路径信息，可以将其归为一类URL路径信息，例如，图5所示，URL2、URL3和URL9对应的路径信息属于浏览类，在进行一级抓取后，将所述URL2和URL3、URL9对应的路径信息分别划分为新闻、生活和生活，从图4可知，URL3、URL9在进行一级抓取后属于同一类属性标签，即生活。

S10124、将所述包含所述第一预设特征的种子URL及与所述第一预设特征相似的种子URL，重新添加至待抓取的二级待抓取的URL队列中，所述二级待抓取的URL队列中包含第二预设特征；

其中，本发明实施例对所述第二预设特征的具体形式不进行限定，

S10125、若所述包含第一预设特征的数据内容类型不存在于所述已抓取的URL队列中，则按照预先设置的第二预设特征，获取包含所述第二预设特征的种子URL；

S10126、按照通过预先定义好的分类训练集，对所述包含所述第二预设特征的种子URL进行分类，获取所述包含第二预设特征的种子URL对应的URL路径信息对应的内容属性标签。

S1013、根据所述数据内容类型及子数据内容类型为每个所述URL路径信息划分属性标签，从而获得数据业务信息库。

其中，本发明实施例对所述属性标签的具体内容不进行限定，示例性的，如图5所示，可以根据需要进行设置，例如，新闻大类下有财经新闻、社会新闻、体育新闻、娱乐新闻等，生活大类有旅游出行、餐饮咨询、房屋中介等，娱乐大类下有华语音乐、日韩音乐、体育视频、娱乐视频等，本发明实施例对此不进行限定，包含第二预设特征的不同URL路径信息属于同一子数据内容类型。

本发明实施例还包括：若确定所述一级待抓取的URL队列或所述二级待抓取的URL队列中存在未处理完的URL路径信息，则继续抓取。

其中，对于步骤S102，在获取到数据业务信息库之后，根据从数据源处获取的每个用户的IMSI，每个IMSI对应的若干条URL路径信息以及每个URL路径信息产生的数据流量信息，通过URL路径信息将所述每个URL对应的数据流量信息与数据业务信息库进行关联，即可获得用户数据业务详细表，所述用户数据业务详细表包括用户标识、每个数据业务类型开始的时间、每个数据业务类型结束的时间，每个数据业务类型产生的时长(通过每个数据业务类型结束的时间和每个数据业务类型开始的时间之差即可获得数据业务类型产生的时长)、每个子数据内容类型出现的频次、每个数据业务的URL路径信息对应的数据业务流量，例如，表1所示：

其中，表1中未示出每个URL路径信息产生的时间，以及数据流量产的时间以及结束时间，其中，每个URL路径信息产生的时间，以及数据流量产的时间以及结束时间均与相应的URL路径信息一一对应，本发明实施例在此不再赘述。

在获取到如表1所示的用户数据业务详细表以后，可以根据预设时间内，每个IMSI对应的用户的子数据内容类型的点击次数，即数据业务流量以及用户在该预设时间内产生数据业务的时间，筛选出用户在预设时间内时长最长、频次最多和流量最高的业务在各维度的分布情况，本发明实施例对所述预设时间不进行限定，可以设置为24小时，也可以设置为1个月，优选的，本发明实施例的预设时间为24小时。

需要说明的是，对于计算数据业务类型、数据业务内容的偏好的方式与所述业务时间的方式相同，本发明实施例在此不再赘述。例如，数据业务类型中的每个子类型分别对应数据业务时长、数据业务频次、数据业务流量的维度最大值，例如，如上所述数据业务类型包括流媒体类，即时通信类，浏览类，只需要计算该数据业务类型中维度值最大的是流媒体类或即时通信类或浏览类，即可得知用户数据业务类型偏好。本发明实施例仅以数据业务时间偏好为例进行说明：

例如，如表2所示，在24小时内用户产生了3个数据业务，分别对应3条URL路径信息，用户4600××××9817在14时，产生的数据业务时长最长，为34分钟，产生的数据业务流量最多为120M，由于在14时产生的数据业务频次不是最高，故在计算14时的业务时间偏好时，将14时的子数据内容类型频次记为0。用户在18时，对应的子数据内容类型频次最多为28次，故计算18时的业务时间偏好时，18时对应的时长及数据业务流量均为0。

表2 用户数据业务详细表

其中，数据业务频次可以通过子数据内容的点击次数获得。

由于在预设时间内产生时长最长、频次最多、流量最高的业务所对应的时间可能不一致，所以，每张结果表至少有一行、至多有三行数据。当所述时长最长、频次最高及数据业务流量最大的时间属于同一时间时，则表包含一行数据，当所述时长最长、频次最高及数据业务流量最大分别对应不同的时间时，则表包含三行数据。

进一步的，由于对于每个业务类型计算其具体的业务时间偏好值、数据业务类型偏好值及数据业务内容偏好值的方式和原理均相同，本发明实施例仅以第一维度属性为例进行说明，所述第一维度属性为所述已确定的维度值最大的业务维度属性中的任意一个子业务维度属性，并不具有任何指示性含义，所述计算第一维度属性所对应的子业务维度属性偏好值，包括：

示例性的，结合表2，从表2中获取每个时间段的数据业务时长TOP1、子数据内容类型频次TOP1和数据业务流量TOP1的数值，根据指标预先定义的权重区间表，得出各自所占权重系数，按照TOP1值乘以权重系数的公式求出维度各个偏好值，选出偏好值最大的维度属性即为该用户的偏好属性。

例如，表2中，18时业务时间偏好为R＝28*μ+0*δ+0*ψ；14时的业务时间偏好为R＝0*μ+34*δ+120*ψ，由于20时数据业务时长、数据业务流量及数据业务频次均未出现最大值，故20时的业务时间偏好值为0。

需要说明的是，在计算业务时间偏好值时，若对于某一时刻，该数据业务时长、数据业务频次及数据业务流量均不是最大值，则在计算业务时间偏好值时，该时刻对应的数据业务时长、数据业务频次及数据业务流量，全部记为0，如20时的业务时间偏好为R＝0*μ+0*δ+0*ψ。

其中，本发明实施例对μ，δ及ψ的具体数值不进行限定，用户可以根据需要进行设置，示例性的，μ＝0.5，δ＝0.6，ψ＝0.3，则14时用户的偏好值为56.4，18时的用户偏好值为14，则对于用户4600××××9817其在24小时内的业务时间偏好为14时。

进一步的，本发明实施例还包括：

S11、根据获得的用户偏好，为所述用户偏好赋予相应的偏好标签；或，

S12、根据获得的用户偏好，为所述用户制定相应的现网优化方案或向所述用户推送相应的业务。

在获取用户偏好(业务时间偏好、数据业务类型偏好、数据业务内容偏好)之后，可以为用户定义相应的偏好标签。本发明实施例对所述偏好标签的具体内容不进行限定，用户可以根据需要进行设置。

例如，如图6所示，若用户业务时间偏好在凌晨，可以贴上“夜猫子”标签；用户数据业务类型偏好为即时通信类业务，可以贴上“社交达人”标签；用户数据业务内容偏好为购物-服装类，可以贴上“服装购物狂”标签等。根据分析人员关心的用户偏好为其自定义上述三种标签，最终得出每个用户的数据业务偏好标签，生成数据业务偏好标签结果表。

其中“IMSI”为用户IMSI信息，“service_24hr_pref”表示数据业务时间偏好，“service_type_pref”表示数据业务类型偏好，“service_content_pref”表示子数据内容类型偏好，“service_24hr_tag”表示数据业务时间标签，“service_type_tag”表示数据业务类型标签，“service_content_tag”表示数据业务内容标签。其中，数据业务类型标签、子数据内容类型偏好可以通过设置相应的权重来获得。

如图7所示，本发明实施例提供了一种海量用户业务偏好评估装置，如图7所示，包括：本发明实施例提供一种海量用户业务偏好评估装置中的各个功能单元与上述实施例中提供的一种海量用户业务偏好评估方法相对应，具体可以参考本发明的上述实施例中的描述，本发明实施例在此不再赘述。如图7所示，该一种海量用户业务偏好评估装置70，包括：

建立单元701用于，对用户数据业务信息进行分析，建立数据业务信息库；所述用户数据业务信息包含用户产生数据业务的URL路径信息、每个所述URL路径信息对应一个数据业务类型，所述数据业务信息库包括每个URL路径信息对应的数据内容类型及每个数据内容类型对应的子数据内容类型；

生成单元702用于，将每个URL路径信息对应的数据业务流量通过所述URL路径信息与所述数据业务信息库相关联，生成用户数据业务详细表；其中，所述用户数据业务详细表包括用户标识、每个数据业务开始的时间、每个数据业务类型产生的时长、每个数据业务频次、每个数据业务的URL路径信息对应的数据业务流量；

获取单元703用于根据所述用户数据业务详细表，在预设时间内，获取业务维度属性中每个子业务维度属性对应的维度最大值，其中，所述业务维度属性包括数据业务时间、数据业务类型以及数据业务内容，且所述数据业务时间、数据业务类型以及数据业务内容分别包括数据业务时长、子数据内容类型频次及数据业务流量，每个子业务维度属性对应一个维度最大值；

计算单元704用于，分别计算每个已确定的维度值最大的子业务维度属性的业务维度属性偏好值；

确定单元705用于，将每个所述业务维度属性偏好值最大的业务维度属性确定为用户偏好。

进一步的，所述建立单元701，包括：

进一步的，所述生成模块702具体用于：

进一步的，所述生成模块7012还具体用于：

若确定所述一级待抓取的URL队列或所述二级待抓取的URL队列中存在未处理完的URL路径信息，则继续抓取。

进一步的，对于第一维度属性，所述第一维度属性为所述已确定的维度值最大的业务维度属性中的任意一个子业务维度属性，所述计算单元704具体用于：

进一步的，所述海量用户业务偏好评估装置70还包括赋予单元和/或执行单元：

所述赋予单元用于，根据获得的用户偏好，为所述用户偏好赋予相应的偏好标签；

所述执行单元用于，根据获得的用户偏好，为所述用户制定相应的现网优化方案或向所述用户推送相应的业务。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种海量用户业务偏好评估方法，其特征在于，包括：

将每个所述业务维度属性偏好值最大的子业务维度属性确定为用户偏好；

对所述用户数据业务信息进行解析，获取URL路径信息；

根据所述数据内容类型及子数据内容类型为每个所述URL路径信息划分属性标签，从而获得数据业务信息库；

将所述已下载网页库中的每个种子URL对应的网页进行转换，获取包含所述第一预设特征的种子URL及与所述第一预设特征相似的种子URL，并对获取的种子URL对应的URL路径信息赋予一级属性标签；

若包含所述第一预设特征的数据内容类型不存在于所述已抓取的URL队列中，则按照预先设置的第二预设特征，获取包含所述第二预设特征的种子URL；

按照通过预先定义好的分类训练集，对所述包含所述第二预设特征的种子URL进行分类，获取包含所述第二预设特征的种子URL对应的URL路径信息对应的内容属性标签。

2.根据权利要求1所述的方法，其特征在于，所述获取所述包含第二预设特征的种子URL对应的URL路径信息对应的内容属性标签之后，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，对于第一维度属性，所述第一维度属性为已确定的维度值最大的业务维度属性中的任意一个子业务维度属性，计算第一维度属性所对应的子业务维度属性偏好值，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据获得的用户偏好，为所述用户偏好赋予相应的偏好标签；或，

根据获得的用户偏好，向所述用户推送相应的业务。

5.一种海量用户业务偏好评估装置，其特征在于，包括：

确定单元用于，将每个所述业务维度属性偏好值最大的子业务维度属性确定为用户偏好；

所述建立单元，包括：

获取模块用于，根据所述数据内容类型及子数据内容类型，为每个所述URL路径信息划分属性标签，从而获得数据业务信息库；

所述生成模块具体用于：

6.根据权利要求5所述的装置，其特征在于，所述生成模块还具体用于：

7.根据权利要求5所述的装置，其特征在于，对于第一维度属性，所述第一维度属性为已确定的维度值最大的业务维度属性中的任意一个业务维度属性，所述计算单元具体用于：

8.根据权利要求6所述的装置，其特征在于，所述装置还包括赋予单元和/或执行单元：

所述执行单元用于，根据获得的用户偏好时间，向所述用户推送相应的业务。