CN107885852B

CN107885852B - 一种基于app使用记录的app推荐方法及系统

Info

Publication number: CN107885852B
Application number: CN201711117106.XA
Authority: CN
Inventors: 徐亚南; 朱燕民
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2017-11-13
Filing date: 2017-11-13
Publication date: 2021-09-10
Anticipated expiration: 2037-11-13
Also published as: CN107885852A

Abstract

本发明公开了一种基于APP使用记录的APP推荐方法及系统，所述方法包括如下步骤：步骤一，获取用户的APP使用记录；步骤二，对获取的APP使用记录进行预处理，处理成所需要的格式；步骤三，根据APP使用记录的预处理结果生成用户和APP的向量表示，并利用基于向量表示的联合排序推荐算法对每个用户推荐K个APP，本发明可解决智能终端APP评分较少的数据稀疏性问题，提高APP推荐的准确性。

Description

一种基于APP使用记录的APP推荐方法及系统

技术领域

本发明涉及一种APP(APPlication，应用程序)推荐方法及系统，特别是涉及一种基于APP使用记录的APP推荐方法及系统。

背景技术

随着智能终端例如智能手机的大规模普及，智能终端，以智能手机为例，手机APP为人们的生活提供越来越多的便利。同时手机APP的数量也越来越庞大。比如在2016年，谷歌应用商店已经拥有260万APP；苹果的应用商店在2017年拥有220万APP。数量众多的APP也让人们越来越难找到适合自己需求的APP，而且探索有趣的APP也会花费人们很多的时间。这使得推荐方法成为这些应用商店必备的一个基本功能。推荐功能能够帮助人们快速找到符合他们需求的APP，同时也能够推荐一些用户可能感兴趣的APP。

近些年来，很多科研工作已经致力于推荐方法的研究。但这些工作大多基于用户对商品的打分，例如电影评分等。这些评分直接反应了用户对商品的偏好程度。但是这些用户的评分比较难获取，特别手机APP的使用，用户很少会主动去打分，将使得这种推荐变得不够精准。

由于手机APP的使用记录包含一些特殊的信息，比如用户使用APP的记录反应了用户对APP的偏好，因此，本发明基于用户使用记录提出一种有效的APP推荐方法。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种基于APP使用记录的APP推荐方法及系统，以解决智能终端APP评分较少的数据稀疏性问题，提高推荐的准确性。

为达上述及其它目的，本发明提出一种基于APP使用记录的APP推荐方法，包括如下步骤：

步骤一，获取用户的APP使用记录；

步骤二，对获取的APP使用记录进行预处理，处理成所需要的格式；

步骤三，根据APP使用记录的预处理结果生成用户和APP的向量表示，并利用基于向量表示的联合排序推荐算法对每个用户推荐K个APP。

进一步地，步骤二包括：

基于获取的APP使用记录删除异常记录；

根据用户的使用记录，对每个用户生成APP的序列R^u，对每个APP生成用户的序列R^a；

统计每个APP的流行程度P_a；

生成APP的安装矩阵I。

进一步地，于所述基于获取的APP使用记录删除异常记录步骤中，根据使用记录中的使用时长删除持续时间小于阈值的记录。

进一步地，于序列生成步骤后还包括如下步骤：

若序列中相邻两个元素之间的时间间隔如果很大，则于该处将一个序列分割成两个序列，并忽略掉序列中的时间维度。

进一步地，于所述统计每个APP的流行程度P_a步骤中，对每个APP统计安装用户数，用户数目越多代表该APP越流行。

进一步地，于所述生成APP的安装矩阵I的步骤中，所述安装矩阵I的每一行表示一个用户，每一列表示一个APP，若用户安装了一个APP，则对应位置为1，否则为0。

进一步地，步骤三进一步包括：

利用数据预处理步骤得到的序列，为用户和APP分别生成向量表示；

根据用户和APP的向量表示，结合APP的流行程度，针对每个用户，对所有的APP进行排序，推荐前K个APP。

进一步地，于所述利用数据预处理步骤得到的序列，为用户和APP分别生成向量表示步骤中，

根据当前的APP使用记录计算上下文中记录出现的概率；

根据上下文出现概率得到似然函数；

通过最大化似然函数分别得到用户和APP的向量表示。

进一步地，所述根据用户和APP的向量表示，结合APP的流行程度，针对每个用户，对所有的APP进行排序，推荐前K个APP的步骤进一步包括：

根据APP的向量表示V^A计算APP之间的距离，结合APP的流行程度Pa计算得到第一推荐指数Ar_ua；

根据用户的向量表示V^U计算用户之间的距离，找到相似的用户集合；

根据该些用户已经安装的APP，对当前用户未安装的APP进行投票，计算得到第二推荐指数Ur_ua；

将第一推荐指数与第二推荐指数结合，推荐指数最小的K个APP给该用户

为达到上述目的，本发明还提供一种基于APP使用记录的APP推荐系统，包括：

数据获取单元，用于获取用户的APP使用记录；

预处理单元，用于对获取的APP使用记录进行预处理，处理成所需要的格式；

推荐单元，用于根据APP使用记录的预处理结果生成用户和APP的向量表示，并利用基于向量表示的联合排序推荐算法对每个用户推荐K个APP。

与现有技术相比，本发明一种基于APP使用记录的APP推荐方法及系统通过利用用户使用APP的序列来生成用户和APP的向量表示，并利用基于向量表示的联合排序推荐算法对每个用户推荐K个APP，解决了智能终端APP评分较少的数据稀疏性问题，提高了APP推荐的准确性。

附图说明

图1为本发明一种基于APP使用记录的APP推荐方法的步骤流程图；

图2为本发明一种基于APP使用记录的APP推荐系统的系统架构图；

图3为本发明具体实施例中预处理单元的细部结构图；

图4为本发明具体实施例中推荐单元的细部结构图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

一般来说，用户的手机使用记录，即用户在何时使用了何种APP，都包含了丰富的信息，如用户对APP的偏好、用户之间的相似性、APP之间的相似性、APP之间的关联性等。首先用户对APP的偏好，如果用户偏好某些APP，则这些APP的使用记录会特别多；用户之间的相似性体现在用户在使用APP的习惯上有一些规律，比如年轻的用户会在晚上的时候使用APP比较频繁，而年龄比较大的用户则偏好在白天使用APP，他们对APP的偏好也是有明显差别的；APP之间的相似性，有些APP属于同种类型，会拥有类似的用户群体；APP之间的关联性，有些APP的使用存在关联，如用户用“美颜相机”拍照之后，会使用“微博”等社交软件分享给朋友。

用户的APP使用记录包含上述丰富的信息，可以找到与用户已经安装的APP相似的，推荐给该用户，或者找到与该用户类似的用户，把他们在使用的APP推荐给该用户。如何根据APP使用记录来衡量APP之间的相似度(相似的类别和用户群体)，用户之间的相似度(相似的偏好或者使用习惯)就成为了一个非常关键的问题。

因此，本发明考虑利用用户使用APP的序列来生成用户和APP的向量表示，将用户投影到一个空间中去，用户之间距离的远近表示了用户之间的相似性，距离越近说明越相似。同理可以将APP投影到一个空间中，APP之间的距离表示了它们之间的相似性。这里借鉴了自然语言处理中的Word2Vec模型来生成用户和APP的向量表示。

Wor2Vec模型使用语料库，为词库中的每个单词生成词向量。语料库是很多句子的集合，语句是由单词组成的序列。由该模型生成的词向量表示了单词之间的相似程度，即两个向量的距离越近，则对应的单词之间相似度越高。而用户的APP使用记录与语料库很相似，每个用户的APP使用序列可以类比句子的单词序列。APP就相当于句子中的单词。同理，如果对每个APP来说，使用该APP的用户也构成了一个序列，这时用户相当于句子中的单词。因此利用该模型，根据用户使用记录可以为用户和APP分别生成向量表示，而且向量之间的距离表示了它们之间的相似程度。

在生成用户和APP的向量表示之后，则可以通过综合的排序算法给每个用户推荐K个APP。

在具体介绍本发明之前，首先定义APP推荐的相关问题：用户集合U＝{u₁，...，u_M}，以及APP集合A＝{a₁，...，a_N}。APP的安装矩阵I,其中当用户u安装了a时，I_ua＝1，否则I_ua＝0。用户u安装的APP集合为I^u＝{a|I_ua＝1，a∈A}。一个APP的流行程度记为P_a＝∑_u∈UI_ua。APP的使用记录集合R＝{r₁，...，r_|R|}。其中r_i＝(u，a，t)表示用户u在时刻t使用了a。对单个用户u的使用记录序列为

其中

表示用户u在时刻t使用了a。对某个APP的记录序列为

其中

表示a在时刻t被用户u使用了。R、R^u和R^a都根据时间戳进行了排序。

图1为本发明一种基于APP使用记录的APP推荐方法的步骤流程图。如图1所示，本发明一种基于APP使用记录的APP推荐方法，包括如下步骤：

步骤101，获取用户的APP使用记录，并予以存储。这里的APP使用记录包括使用时间、使用时长及APP的相关信息，例如APP名称、版本、发布日期等，这里为了保护用户隐私，不涉及用户具体使用的细节，如访问的网站、具体操作、流量等，获取用户的APP使用记录后，将使用记录存储到服务器的数据库中。

步骤102，对获取的APP使用记录进行预处理，处理成所需要的格式。即将数据(使用记录)进行清洗，处理成推荐算法需要的格式。

具体地，步骤102进一步包括：

删除异常记录。即根据使用记录中的使用时长删除持续时间特别短的记录，因为这些记录可能是因为用户的误操作触发的；

序列生成。根据用户的使用记录，对每个用户生成APP的序列R^u，对每个APP生成用户的序列R^a；

序列分割，相邻两个元素之间的时间间隔如果很大，则于此处(时间间隔很大处)将一个序列分割成两个序列，并忽略掉序列中的时间维度。

统计每个APP的流行程度P_a，即对每个APP统计安装用户数，用户数目越多代表该APP越流行；

生成APP的安装矩阵I，是用一个矩阵来存储用户安装APP的情况，每一行表示一个用户，每一列表示一个APP。如果用户安装了一个APP，则对应位置为1，否则为0。

步骤103，根据APP使用记录的预处理结果生成用户和APP的向量表示，并利用基于向量表示的联合排序推荐算法对对每个用户推荐K个APP。

具体地，步骤103进一步包括：

步骤S1，利用数据预处理步骤得到的APP使用序列，为用户和APP分别生成向量表示。

在自然语言处理领域，有很多词嵌入模型。这些词嵌入模型使用语料数据，为每个单词生成低维的向量表达。这些向量的距离表示了单词之间的相似程度和关联性。Word2Vec模型是一种比较流行的词向量生成模型。该模型包括两种实现，即Skip-gram和CBOW。本发明采用了Skip-gram模型根据用户使用APP的记录为用户和APP生成向量表示。例如给定一个APP使用记录序列{A，B，A，D，C}，其中每个字母表示一种APP。给定一个记录，如中间位置的A，计算该记录的上下文{A，B，*，D，C}产生的概率。由于APP的使用序列可以特别长，所以有一个上下文的窗口大小c，在前面的例子中窗口大小为2。不断移动该窗口的位置，就可以得到多个上下文。根据上下文出现概率可以得到如下的似然函数。

在上述似然函数中，已知当前的APP记录计算上下文出现的条件概率p(w_t+j|w_t)公式如下。其中v_w和

都是表示记录中APP对应的向量表示。分母是归一化因子。

对上述模型使用梯度上升法，极大化似然函数L，则可以学习到向量表达v，对该模型输入数据预处理步骤得到的APP使用序列，可以得到每个APP的向量表示。同理，把每个APP的用户序列输入该模型，经过学习可以得到每个用户的向量表示。

步骤S2，根据用户和APP的向量表示，结合APP的流行程度，针对每个用户，对所有的APP进行排序，推荐前K个APP。

在APP的推荐过程中，最简单的推荐方法是直接把最流行的APP推荐给所有用户。因为这些APP的用户基数很大，因此推荐正确的概率会很高。但是这种方法对每个用户都推荐相同的APP，达不到个性化推荐的目的。因此本发明在推荐过程中加入用户偏好的因素。具体地，步骤S2进一步包括如下步骤：

步骤S21，根据APP的向量表示V^A计算APP之间的距离，结合APP的流行程度P_a计算得到第一推荐指数Ar_ua。具体地说，根据每个用户已经安装的APP，可以找到与该APP相似的推荐给该用户，APP的相似程度可以根据前面学习到的向量表达，计算欧拉距离得到。该第一推荐指数Ar_ua具体计算公式如下：

其中，Ar_ua是针对用户u，对应用a计算的一个推荐指数，其中

是根据两个应用a和a′所对应的APP向量计算得到的欧拉距离，对用户没有安装的APP，计算与已经安装的APP的距离，选择最小的距离作为该APP的推荐指数。

步骤S22，根据用户的向量表示V^U计算用户之间的距离，找到相似的用户集合。具体地说，根据常识，相似的用户往往具有类似的需求和偏好，用户的向量表示可以用来找到相似的用户群体，对每一个用户，可以根据如下公式找到最相似的K个用户，其中

是用户u对应的向量表示，相似的用户集合如下：

步骤S23，根据该些用户已经安装的APP，对当前用户未安装的APP进行投票，计算得到第二推荐指数

也就是说，在找到相似用户之后，可以把这些用户安装的APP推荐给当前用户，下面的公式根据相似用户的APP安装情况，对这些APP进行投票，计算得到第二推荐指数Ur_ua：

步骤S24，将第一推荐指数与第二推荐指数结合，推荐指数最小的K个APP给该用户。即加入参数λ结合这两个指数，对每个APP选择两种推荐指数最小的一个作为最终的推荐指数min(Ar_ua，λ·Ur_ua，再选择推荐指数最小的K个APP，推荐给当前用户u，推荐结果如下：

图2为本发明一种基于APP使用记录的APP推荐系统的系统架构图。如图2所示，本发明一种基于APP使用记录的APP推荐系统，包括：

数据获取单元201，用于获取用户的APP使用记录，并予以存储。这里的APP使用记录包括使用时间、使用时长及APP的相关信息，例如APP名称、版本、发布日期等，这里为了保护用户隐私，不涉及用户具体使用的细节，如访问的网站、具体操作、流量等，获取用户的APP使用记录后，将使用记录存储到服务器的数据库中。

预处理单元202，用于对获取的APP使用记录进行预处理，处理成所需要的格式。即将数据(使用记录)进行清洗，处理成推荐算法需要的格式。

具体地，如图3所示，预处理单元202进一步包括：

异常记录删除单元2021，用于删除异常记录。即根据使用记录中的使用时长删除持续时间特别短的记录，因为这些记录可能是因为用户的误操作触发的；

使用序列生成单元2022，用于根据使用记录生成使用序列，即根据用户的使用记录，对每个用户生成APP的序列R^u，对每个APP生成用户的序列R^a，也就是说，这里的使用序列包括用户序列和APP序列。

序列分割单元2023，用于对生成的使用序列进行分割。若序列中相邻两个元素之间的时间间隔如果很大，则由序列分割单元2023于此处(时间间隔很大处)将一个序列分割成两个序列，并忽略掉序列中的时间维度。

流行程度统计单元2024，用于统计每个APP的流行程度P_a，即对每个APP统计安装用户数，用户数目越多代表该APP越流行；

安装矩阵生成单元2025，用于生成APP的安装矩阵I，是用一个矩阵来存储用户安装APP的情况，每一行表示一个用户，每一列表示一个APP。如果用户安装了一个APP，则对应位置为1，否则为0。

推荐单元203，用于根据APP使用记录的预处理结果生成用户和APP的向量表示，并利用基于向量表示的联合排序推荐算法对每个用户推荐K个APP。

具体地，如图4所示，推荐单元203进一步包括：

向量表示生成单元2031，用于利用预处理单元202得到的APP使用序列，为用户和APP分别生成向量表示。

具体地，本发明主要利用用户使用APP的序列来生成用户和APP的向量表示，将用户投影到一个空间中去，用户之间距离的远近表示了用户之间的相似性，距离越近说明越相似。同理可以将APP投影到一个空间中，APP之间的距离表示了它们之间的相似性，这里借鉴了自然语言处理中的Word2Vec模型来生成用户和APP的向量表示。

在自然语言处理领域，有很多词嵌入模型。这些词嵌入模型使用语料数据，为每个单词生成低维的向量表达。这些向量的距离表示了单词之间的相似程度和关联性。Word2Vec模型是一种比较流行的词向量生成模型。该模型包括两种实现，即Skip-gram和CBOW。本发明采用了Skip-gram模型根据用户使用APP的记录为用户和APP生成向量表示。例如给定一个APP使用记录序列{A，B，A，D，C}，其中每个字母表示一种APP。给定一个记录，如中间位置的A，计算该记录的上下文{A，B，*，D，C}产生的概率。由于APP的使用序列可以特别长，所以有一个上下文的窗口大小c，在前面的例子中窗口大小为2。不断移动该窗口的位置，就可以得到多个上下文的概率。根据上下文出现概率可以得到如下的似然函数。

都是表示记录中APP对应的向量表示。分母是归一化因子。

对上述模型使用梯度上升法，极大化似然函数L，可以学习到向量表达v。对该模型输入数据预处理步骤得到的APP使用序列，可以得到每个APP的向量表示。同理，把每个APP的用户序列输入该模型，经过学习可以得到每个用户的向量表示。

APP推荐单元2032，用于根据APP的流行程度、APP向量表示以及用户向量表示，针对每个用户，对所有的APP进行排序，推荐前K个APP。

在APP的推荐过程中，最简单的推荐方法是直接把最流行的APP推荐给所有用户。因为这些APP的用户基数很大，因此推荐正确的概率会很高。但是这种方法对每个用户都推荐相同的APP，达不到个性化推荐的目的。因此，本发明在推荐过程中加入用户偏好的因素，APP推荐单元2032具体用于：

根据APP的向量表示V^A计算APP之间的距离，结合APP的流行程度P_a计算得到第一推荐指数Ar_ua。具体地说，根据每个用户已经安装的APP，可以找到与该APP相似的推荐给该用户，APP的相似程度可以根据前面学习到的向量表达，计算欧拉距离得到。该第一推荐指数Ar_ua具体计算公式如下：

其中，Ar_ua是针对用户u，对应用a计算的一个推荐指数，其中

根据用户的向量表示V^U计算用户之间的距离，找到相似的用户集合。具体地说，根据常识，相似的用户往往具有类似的需求和偏好，用户的向量表示可以用来找到相似的用户群体，对每一个用户，可以根据如下公式找到最相似的K个用户，其中

是用户u对应的向量表示，相似的用户集合如下：

根据该些用户已经安装的APP，对当前用户未安装的APP进行投票，计算得到第二推荐指数Ur_ua。也就是说，在找到相似用户之后，可以把这些用户安装的APP推荐给当前用户，下面的公式根据相似用户的APP安装情况，对这些APP进行投票，计算得到第二推荐指数Ur_ua：

将第一推荐指数与第二推荐指数结合，推荐指数最小的K个APP给该用户。即加入参数λ结合这两个指数，对每个APP选择两种推荐指数最小的一个作为最终的推荐指数min(Ar_ua，λ·Ur_ua)，再选择推荐指数最小的K个APP，推荐给当前用户u，推荐结果如下：

综上所述，本发明一种基于APP使用记录的APP推荐方法及系统通过利用用户使用APP的序列来生成用户和APP的向量表示，并利用基于向量表示的联合排序推荐算法对每个用户推荐K个APP，解决了智能终端APP评分较少的数据稀疏性问题，提高了APP推荐的准确性。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种基于APP使用记录的APP推荐方法，包括如下步骤：

步骤一，获取用户的APP使用记录；

步骤三，利用数据预处理步骤得到的序列，为用户和APP分别生成向量表示，根据APP的向量表示V^A计算APP之间的距离，结合APP的流行程度P_a计算得到第一推荐指数Ar_ua，根据用户的向量表示V^U计算用户之间的距离，找到相似的用户集合，根据该些用户已经安装的APP，对当前用户未安装的APP进行投票，计算得到第二推荐指数Ur_ua，将第一推荐指数与第二推荐指数结合，推荐指数最小的K个APP给该用户。

2.如权利要求1所述的一种基于APP使用记录的APP推荐方法，其特征在于，步骤二进一步包括：

基于获取的APP使用记录删除异常记录；

统计每个APP的流行程度P_a；

生成APP的安装矩阵I。

3.如权利要求2所述的一种基于APP使用记录的APP推荐方法，其特征在于：于所述基于获取的APP使用记录删除异常记录步骤中，根据使用记录中的使用时长删除持续时间小于阈值的记录。

4.如权利要求2所述的一种基于APP使用记录的APP推荐方法，其特征在于，于序列生成步骤后还包括如下步骤：

5.如权利要求2所述的一种基于APP使用记录的APP推荐方法，其特征在于：于所述统计每个APP的流行程度P_a步骤中，对每个APP统计安装用户数，用户数目越多代表该APP越流行。

6.如权利要求2所述的一种基于APP使用记录的APP推荐方法，其特征在于：于所述生成APP的安装矩阵I的步骤中，所述安装矩阵I的每一行表示一个用户，每一列表示一个APP，若用户安装了一个APP，则对应位置为1，否则为0。

7.如权利要求1所述的一种基于APP使用记录的APP推荐方法，其特征在于，于所述利用数据预处理步骤得到的序列，为用户和APP分别生成向量表示步骤中，

根据当前的APP使用记录计算上下文中记录出现的概率；

根据上下文出现概率得到似然函数；

通过最大化似然函数分别得到用户和APP的向量表示。

8.一种基于APP使用记录的APP推荐系统，其特征在于，包括：

数据获取单元，用于获取用户的APP使用记录；

推荐单元，用于利用数据预处理步骤得到的序列，为用户和APP分别生成向量表示，根据APP的向量表示V^A计算APP之间的距离，结合APP的流行程度P_a计算得到第一推荐指数Ar_ua，根据用户的向量表示V^U计算用户之间的距离，找到相似的用户集合，根据该些用户已经安装的APP，对当前用户未安装的APP进行投票，计算得到第二推荐指数Ur_ua，将第一推荐指数与第二推荐指数结合，推荐指数最小的K个APP给该用户。