CN110134878B

CN110134878B - 基于用户偏好与服务变化双向感知的移动服务推荐方法

Info

Publication number: CN110134878B
Application number: CN201910407619.7A
Authority: CN
Inventors: 涂志莹; 段兵华; 刘星焜; 王忠杰; 徐晓飞
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2022-12-16
Anticipated expiration: 2039-05-16
Also published as: CN110134878A

Abstract

本发明公开了一种基于用户偏好与服务变化双向感知的移动服务推荐方法，所述方法如下步骤：部署数据采集系统，定时采集移动服务的前端数据并处理，生成服务的新增与退出、服务的受欢迎度以及服务的更新功能集合信息；收集用户的移动服务使用记录，计算各个移动服务的活跃度，形成用户的移动服务轨道数据；构建TRACK_DATA与UDATEFUNCTION_HISTORY之间的关系模型；根据CURRENT用户的移动服务轨道数据，预测用户期望的更新功能更集合，并从CURRENT时间段内监控的移动服务中选择契合用户期望的移动服务推荐给用户。该方法能实现用户偏好与服务变化的双向感知，并根据感知结果进行精准的移动服务推荐。

Description

基于用户偏好与服务变化双向感知的移动服务推荐方法

技术领域

本发明属于移动服务技术领域，涉及一种移动服务推荐方法，具体涉及一种基于用户偏好与服务变化双向感知的移动服务推荐方法。

背景技术

近年来，随着移动互联网的飞速发展，移动服务的数量也呈现高速增长。用户寻找自己感兴趣的移动服务开始变得越来越困难，出现了严重的信息过载问题。因此，针对用户的移动服务推荐显得尤为重要。移动服务推荐可以帮助用户过滤无用的信息，从而使用户发现感兴趣的服务。

目前较为普遍的服务推荐方法主要有基于协同过滤与基于内容的推荐，基于协同过滤算法认为具有相似行为兴趣的用户喜欢相同的服务，而基于内容的推荐则将与用户曾经喜欢的服务相类似的其他服务推荐给用户，这些方法存在以下两个缺陷，一是不能准确感知用户真正的喜好，忽略用户自身喜好所带来的需求；二是认为用户的兴趣偏好和服务本身都是静态的，没有考虑两者的变化因素，而实际上，用户的兴趣会随着时间不断地变化，服务本身也在持续地改变。

所以，如何在考虑用户兴趣和服务变化的基础上，较为精准地为用户推荐所需的移动服务是服务推荐领域的难点与重点。

发明内容

为了解决现有技术中存在的以上问题，本发明提供了一种基于用户偏好与服务变化双向感知的移动服务推荐方法。该方法能实现用户偏好与服务变化的双向感知，并根据感知结果进行精准的移动服务推荐。

本发明的目的是通过以下技术方案实现的：

一种基于用户偏好与服务变化双向感知的移动服务推荐方法，包括如下步骤：

步骤一、部署数据采集系统，监控应用市场里六种类型下的所有移动服务，每天定时采集这些移动服务的前端数据，并对采集的数据进行处理，生成服务的新增与退出、服务的受欢迎度以及服务的更新功能集合信息；

步骤二、收集用户的移动服务使用记录，计算各个移动服务的活跃度，形成用户的移动服务轨道数据；

步骤三、选择某个历史时间段HISTORY，获取在HISTORY时间段内P个用户，总计V个移动服务的轨道数据TRACK_DATA以及HISTORY时间内这V个移动服务的更新功能集合UDATEFUNCTION_HISTORY，构建TRACK_DATA与UDATEFUNCTION_HISTORY之间的关系模型；

步骤四、使用步骤三建立好的关系模型，根据当前时间段CURRENT用户的移动服务轨道数据，预测用户期望的更新功能更集合，并从数据采集系统在CURRENT时间段内监控的移动服务中选择契合用户期望的移动服务推荐给用户。

相比于现有技术，本发明具有如下优点：

本发明充分考虑了用户真实兴趣偏好和服务两者的动态变化，并根据历史数据建立起了用户兴趣偏好变化与服务功能变化之间的关系模型，通过关系模型可以较为精确地预测用户期望的更新功能集合，根据预测的结果推荐给用户的移动服务能够最大程度契合用户的期望。

附图说明

图1是本发明移动服务推荐方法的工作流程示意图；

图2是本发明功能抽取器的工作流程示意图；

图3是本发明GBRT模型的构建示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

本发明提供了一种基于用户偏好与服务变化双向感知的移动服务推荐方法，如图1所示，所述方法具体包括如下步骤：

步骤一、部署数据采集系统，监控应用市场里六种类型下的所有移动服务，每天定时采集这些移动服务的前端数据，并对采集的数据进行一系列处理，生成服务的新增与退出、服务的受欢迎度以及服务的更新功能集合等信息。

本步骤中，数据采集系统监控的移动服务所属的六种类型分别是便捷生活、影音播放、社交网络、新闻资讯、学习办公以及网购支付。

本步骤中，移动服务的前端数据包括六种类型下所有移动服务的统一资源定位符URL、移动服务的下载量DOWNLOAD、好评率LIKERATE以及最新版本更新内容UPDATECONTENT。

本步骤中，服务的新增与退出信息是通过对比相邻两次采集的所有移动服务的统一资源定位符集合来获取的,假设前一次采集的统一资源定位符的集合为LASTURLS，本次采集的统一资源定位符集合为NOWURLS，则新增的服务为NOWURLS和LASTURLS的差集NOWURLS\LASTURLS,退出的服务为LASTURLS与NOWURLS的差集LASTURLS\NOWURLS。

本步骤中，服务的受欢迎度POPULARITY定义为移动服务的下载量DOWNLOAD与移动服务的好评率LIKERATE乘积：

POPULARITY＝DOWNLOAD×LIKERATE。

本步骤中，服务的更新功能集合UPDAFUNCTION是指通过功能抽取器从最新版本更新内容UPDATECONTENT中抽取的功能短语，其工作流程如图2所示，功能抽取器先对最新版本的更新内容UPDATECONTENT进行分词，然后进行词性标注，再进行依存语法分析，最后从分析结果中抽取出名词加动词的主谓短语。

步骤二、收集用户的移动服务使用记录，计算各个移动服务的活跃度，形成用户的移动服务轨道数据。

本步骤中，假设用户的相关移动服务有S₁,S₂,…S_n，移动服务的活跃度指的是一段时间内用户花费在该移动服务的总时长，其中一段时间可以为一周。假设该段时间内活跃度最高的是移动服务S_i，活跃度值为LT,活跃度最低的是移动服务S_j，活跃度值为ST，则将区间[LT，ST]划分成10个更小的等长区间[LT₁，ST₁],…,[LT₁₀,ST₁₀]，每个区间称之为一个轨道，区间的编号i为轨道的值，轨道值越小，代表该移动服务越频繁被使用，每个移动服务根据其使用时长划分到相应的轨道，例如，S_i的活跃度值在[LT_i，ST_i]之间，则S_i的轨道为i。用户使用的所有移动服务及其轨道(S₁,TRACK₁),(S₂,TRACK₂),…,(S_n,TRACK_n)汇集起来便形成了本步骤所述的用户的移动服务轨道数据。

步骤三、选择某个历史时间段HISTORY，获取在HISTORY时间段内P个用户，总计V个移动服务的轨道数据TRACK_DATA以及HISTORY时间内这V个移动服务的更新功能集合UDATEFUNCTION_HISTORY，构建TRACK_DATA与UDATEFUNCTION_HISTORY之间的关系模型。

本步骤中，历史时间段HISTORY是一段长为m周的时间，移动服务轨道数据来自于P个用户，总共涵盖V个移动服务，平均每个用户包含大约V/P个移动服务，最终得到的移动服务轨道数据TRACK_DATA如下所示：

其中，S_i表示第i移动服务，[TRACK_i1,…TRACK_im]表示第i个移动服务1至m周的轨道值。

m周内V个移动服务的更新功能集合

UPDATEFUNCTION_HISTORY如下所示：

其中，UF_i表示第i移动服务在1至m周的更新功能集合。

本步骤中，TRACK_DATA与UPDATEFUNCTION_HISTORY之间关系的构建主要采用集成学习方法中的梯度上升回归树(GBRT)模型，具体包括以下分步骤：

①对于TRACK_DATA中每个移动服务S_i的轨道序列[TRACK_i1,…TRACK_im]，提取其统计特征x_i1、熵特征x_i2以及分段特征x_i3，其中：统计特征x_i1包括最小(MIN)、最大值(MAX)、均值(MEAN)、方差(VAR)，熵特征x_i2包括BINNED ENTROPY、APPROXIMATE ENTROPY，分段特征x_i3包括分段聚合逼近(PAA)，将这三类特征连接成一维的特征向量X_i＝[x_i1,x_i2,x_i3]。所述的BINNED ENTROPY、APPROXIMATEENTROPY、PAA的计算方法分别如下：

a、BINNEDENTROPY：

从熵的定义出发，考虑把序列T的取值进行分桶操作，将[MIN(T),MAX(T)]等分为MAXBIN个桶，T的取值就会分散在这MAXBIN个桶中，根据等距分桶的情况，计算出这个概率分布的熵：

其中，P_k表示序列T的取值落在第k个桶的概率，MAXBIN表示桶的个数，LEN(T)表示序列T的长度。

如果序列T的BINNEDENTROPY的取值较大，说明序列T的取值是较为均匀的分布在[MIN(T),MAX(T)]之间的，相反，如果取值较小，说明取值是集中在某一段的。

b、APPROXIMATEENTROPY：

假设序列T:{t₁,…t_N}的长度为N，同时APPROXIMATEENTROPY拥有两个参数q和r，计算APPROXIMATEENTROPY的步骤如下：

Step1：固定两个参数，正整数q和整数r，q是为了对序列进行一个片段的提取，r是表示两个序列之间距离的参数，需要构造新的q维向量如下：

Step2：通过新的向量T₁(q),…T_N-q+1(q)，计算哪些向量与T_i较为相似：

在这里，距离d通常选择L²范数；

Step3：考虑函数

Step4：APPROXIMATEENTROPY的值为：

APPROXIMATE ENTROPY(q,r)＝Φ^m(r)-Φ^m+1(r)；

如果序列X具有某种趋势或重复片段，那么它的APPROXIMATE ENTROPY就会很小，反之，如果序列X几乎是随机出现的，那么它的APPROXIMATEENTROPY就会很大。

c、PAA：

假设原始序列是T:{t₁,…t_N}，产生的PAA序列为

其中，

式中，N表示原始序列的长度，w表示产生的PAA序列的长度，w取值越小，PAA对原始序列的抽象程度越低，在这里，w通常取3～5，i＝{1,2,…,w}。

②使用LDA主题模型对UPDATEFUNCTION_HISTORY的每一个移动服务S_i的更新功能集合UF_i进一步抽象表示，形成主题分布向量TS_i，将该向量作为目标变量Y_i的值。

③将上述两个步骤中得到的移动服务S_i的特征向量X_i以及其对应的目标变量Y_i作为第i条训练样例，V个移动服务总共构成大小为V条训练样例的训练集，输入GBRT模型进行训练，并将训练结束后的模型持久化到磁盘。

步骤四、使用建立好的关系模型，根据当前时间段CURRENT用户的移动服务轨道数据，预测用户期望的更新功能更集合，并从数据采集系统在CURRENT时间段内监控的移动服务中选择契合用户期望的移动服务推荐给用户。若CURRENT时间段内用户的移动服务轨道数据为TRACK_DATA_USER，预测的用户期望的更新功能集合的主题分布向量为TU'，则步骤一CURRENT时间段内监控的所有移动服务的更新功能集合为UPDATEFUNCTION_CURRENT，将其中每一个移动服务的更新功能集合通过主题模型表示成主题分布向量TS_i'，计算TS_i'与用户期望的主题分布向量TU'之间的相似度，并将相似度最大的移动服务推荐给用户。

本步骤中，选择的当前时间段CURRENT是最近u周，用户移动服务轨道数据为TRACK_DATA_USER，数据采集系统监控下的最近u周所有移动服务的更新功能集合为UPDATEFUNCTION_CURRENT，加载训练好的GBRT模型，预测用户期望的更新功能集合的主题分布向量TU'，然后再将UPDATEFUNCTION_CURRENT中的每一个移动服务S_i'的更新功能集合UF_i'通过主题模型表示成主题分布向量TS_i'，计算其与TU'的相似度，最后将相似度最大的移动服务推荐给用户。

本步骤中，TS_i'和TU'相似度的度量采用余弦相似度计算方法，余弦相似度计算方法的公式为：

Claims

1.一种基于用户偏好与服务变化双向感知的移动服务推荐方法，其特征在于所述方法包括如下步骤：

步骤一、部署数据采集系统，监控应用市场里六种类型下的所有移动服务，每天定时采集这些移动服务的前端数据，并对采集的数据进行处理，生成服务的新增与退出、服务的受欢迎度以及服务的更新功能集合信息，其中：

数据采集系统监控的移动服务所属的六种类型分别是便捷生活、影音播放、社交网络、新闻资讯、学习办公以及网购支付；

移动服务的前端数据包括六种类型下所有移动服务的统一资源定位符URL、移动服务的下载量DOWNLOAD、好评率LIKERATE以及最新版本更新内容UPDATECONTENT；

步骤二、收集用户的移动服务使用记录，计算各个移动服务的活跃度，形成用户的移动服务轨道数据，具体步骤如下：

假设用户的相关移动服务有S₁,S₂,…S_n，移动服务的活跃度指的是一段时间内用户花费在该移动服务的总时长，假设该段时间内活跃度最高的是移动服务S_i，活跃度值为LT，活跃度最低的是移动服务S_j，活跃度值为ST，则将区间[LT，ST]划分成10个等长区间[LT₁，ST₁],…,[LT₁₀,ST₁₀]，每个区间称之为一个轨道，每个移动服务根据其使用时长划分到相应的轨道，用户使用的所有移动服务及其轨道(S₁,TRACK₁),(S₂,TRACK₂),…,(S_n,TRACK_n)汇集起来形成用户的移动服务轨道数据；

步骤三、选择某个历史时间段HISTORY，获取在HISTORY时间段内P个用户，总计V个移动服务的轨道数据TRACK_DATA以及HISTORY时间内这V个移动服务的更新功能集合UDATEFUNCTION_HISTORY，构建TRACK_DATA与UDATEFUNCTION_HISTORY之间的关系模型，其中：

TRACK_DATA与UPDATEFUNCTION_HISTORY之间关系的构建主要采用集成学习方法中的梯度上升回归树模型，具体包括以下分步骤：

①对于TRACK_DATA中每个移动服务S_i的轨道序列[TRACK_i1,…TRACK_im]，提取其统计特征x_i1、熵特征x_i2以及分段特征x_i3，将这三类特征连接成一维的特征向量X_i＝[x_i1,x_i2,x_i3]；

所述统计特征x_i1包括最小值MIN、最大值MAX、均值MEAN、方差VAR，熵特征x_i2包括BINNEDENTROPY、APPROXIMATE ENTROPY，分段特征x_i3包括分段聚合逼近PAA；

所述BINNED ENTROPY、APPROXIMATE ENTROPY、PAA的计算方法分别如下：

a、BINNED ENTROPY：

从熵的定义出发，把序列T的取值进行分桶操作，将[MIN(T),MAX(T)]等分为MAXBIN个桶，根据等距分桶的情况，计算出概率分布的熵：

其中，P_k表示序列T的取值落在第k个桶的概率，MAXBIN表示桶的个数，LEN(T)表示序列T的长度；

b、APPROXIMATE ENTROPY：

假设序列T:{t₁,…t_N}的长度为N，同时APPROXIMATE ENTROPY拥有两个参数q和r，计算APPROXIMATE ENTROPY的步骤如下：

Step1：固定两个参数，正整数q和整数r，r是表示两个序列之间距离的参数，为了对序列进行一个片段的提取，构造新的q维向量如下：

Step2：通过新的向量T₁(q),…T_N-q+1(q)，计算哪些向量与T_i相似：

C_i ^q＝(number of T_j(q)such that d(T_i(q),T_j(q)≤r))/(N-q+1)；

在这里，距离d选择L²范数；

Step3：考虑函数

Step4：APPROXIMATE ENTROPY的值为：

APPROXIMATE ENTROPY(q,r)＝Φ^m(r)-Φ^m+1(r)；

c、PAA：

假设序列T:{t₁,…t_N}是原始序列，产生的PAA序列为

其中，

式中，N表示原始序列的长度，w表示产生的PAA序列的长度；

②使用LDA主题模型对UPDATEFUNCTION_HISTORY的每一个移动服务S_i的更新功能集合UF_i抽象表示，形成主题分布向量TS_i，将该向量作为目标变量Y_i的值；

③将上述①、②两个步骤中得到的移动服务S_i的特征向量X_i以及其对应的目标变量Y_i作为第i条训练样例，V个移动服务总共构成大小为V条训练样例的训练集，输入GBRT模型进行训练，并将训练结束后的模型持久化到磁盘；

步骤四、使用步骤三建立的关系模型，根据当前时间段CURRENT用户的移动服务轨道数据，预测用户期望的更新功能集合，并从数据采集系统在CURRENT时间段内监控的移动服务中选择契合用户期望的移动服务推荐给用户。

2.根据权利要求1所述的基于用户偏好与服务变化双向感知的移动服务推荐方法，其特征在于所述步骤一中，服务的新增与退出信息是通过对比相邻两次采集的所有移动服务的统一资源定位符集合来获取的，假设前一次采集的统一资源定位符的集合为LASTURLS，本次采集的统一资源定位符集合为NOWURLS，则新增的服务为NOWURLS和LASTURLS的差集NOWURLS\LASTURLS,退出的服务为LASTURLS与NOWURLS的差集LASTURLS\NOWURLS；服务的受欢迎度POPULARITY定义为移动服务的下载量DOWNLOAD与移动服务的好评率LIKERATE乘积：POPULARITY＝DOWNLOAD×LIKERATE；服务的更新功能集合UPDAFUNCTION是指通过功能抽取器从最新版本更新内容UPDATECONTENT中抽取的功能短语，功能抽取器先对最新版本的更新内容UPDATECONTENT进行分词，然后进行词性标注，再进行依存语法分析，最后从分析结果中抽取出名词加动词的主谓短语。

3.根据权利要求1所述的基于用户偏好与服务变化双向感知的移动服务推荐方法，其特征在于所述步骤三中，历史时间段HISTORY是一段长为m周的时间，移动服务轨道数据来自于P个用户，总共涵盖V个移动服务，平均每个用户包含V/P个移动服务，最终得到的移动服务轨道数据TRACK_DATA如下所示：

其中，S_i表示第i移动服务，[TRACK_i1,…TRACK_im]表示第i个移动服务1至m周的轨道值；

更新功能集合UDATEFUNCTION_HISTORY如下所示：

其中，UF_i表示第i移动服务在1至m周的更新功能集合。

4.根据权利要求1所述的基于用户偏好与服务变化双向感知的移动服务推荐方法，其特征在于所述步骤四中，选择的当前时间段CURRENT是最近u周，用户移动服务轨道数据为TRACK_DATA_USER，数据采集系统监控下的最近u周所有移动服务的更新功能集合为UPDATEFUNCTION_CURRENT，加载训练好的GBRT模型，预测用户期望的更新功能集合的主题分布向量TU'，然后再将UPDATEFUNCTION_CURRENT中的每一个移动服务S_i'的更新功能集合UF_i'通过主题模型表示成主题分布向量TS_i'，计算TS_i'与TU'的相似度，最后将相似度最大的移动服务推荐给用户。

5.根据权利要求4所述的基于用户偏好与服务变化双向感知的移动服务推荐方法，其特征在于所述TS_i'和TU'相似度的度量采用余弦相似度计算方法，余弦相似度计算公式为：