CN108710911A

CN108710911A - 一种基于半监督的应用市场刷榜应用检测方法

Info

Publication number: CN108710911A
Application number: CN201810487147.6A
Authority: CN
Inventors: 何道敬; 唐宗力; 洪凯
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2018-10-26

Abstract

本发明公开了一种基于半监督的应用市场刷榜应用检测方法，将半监督学习算法使用于应用市场的刷榜应用检测。实施步骤包括：获取应用特征存储到数据库，将数据库中特征进行少量标注得到带标注和无标注的混合样本集，使用半监督学习算法在混合样本集上训练得到分类器，最后将分类器用于应用检测。本发明将半监督学习应用到大量无标注的应用市场数据中，采用半监督学习算法中成熟的协同训练算法，降低误报率的同时，提高了检测的效率，实现了少量数据标注下应用市场中的刷榜应用检测。

Description

一种基于半监督的应用市场刷榜应用检测方法

技术领域

本发明涉及一种应用市场刷榜检测方法，具体的来说，涉及的是一种基于半监督的应用市场刷榜应用的检测方法。

背景技术

随着智能手机和平板电脑的快速发展，应用市场(例如AppleAppStore和GooglePlay)已经发展为一个巨大的市场。应用市场承担着向用户分发应用的关键作用，为了帮助用户查找应用和开发商推广应用，应用市场提供了有关应用程序的各种信息，例如应用简介、屏幕截图以及用户评论评分等。而且，应用市场会在首页上显示各种排行榜，排名较高的应用会吸引更多的关注和下载。开发商为了可以让自己的应用在排行榜上吸引用户下载，很多开发商会选择非法推广他们的应用。根据新闻报道，更有一部分的恶意开发者在应用市场中通过推广恶意应用导致大量下载用户隐私泄露以及金钱损失。因此，为了应用市场生态系统的健康以及避免对用户造成经济损失、甚至人身伤害，可以准确并且快速检测出刷榜应用是一项重要的任务。

当前，应用市场刷榜检测大致分为两类：基于规则和模式匹配和基于全监督机器学习的检测方法。基于规则和模式匹配的检测方法，规则集无法检测新出现的规则，每次更新规则需要人工参与，并且规则集过多后会导致系统冗余，很难提升精确度。基于全监督机器学习的检测方法，利用应用的特征作为输入，训练模型后利用训练好的模型对新的数据进行预测，精确率高，是当前主流的方法。但是模型训练需要大量带有标注的样本，然而这类样本是需要人工进行标注的，人工成本太高。现有对应用市场中的大量数据信息进行分类大多利用监督学习算法，该算法都是基于人工标注的数据建立分类模型，但是由于应用市场中的应用信息过于庞大，人工标注数据所需成本巨大，并且没有特别好的方法解决数据标注问题。

发明内容

本发明的目的是：针对现有应用市场刷榜应用检测在全监督机器学习技术的不足之处，提出一种基于半监督的应用市场刷榜应用检测方法，该方法利用协同训练，将多分类器运用到大量无标注数据的应用市场中，降低人工成本的同时，提高检测效率。

本发明的目的是这样实现的：

一种基于半监督的应用市场刷榜应用检测方法，该方法包括以下步骤：

步骤1：从应用市场中获取多个应用的特征F，包括每个应用的应用特征和评论特征，并将这些特征存储到数据库；

步骤2：从步骤1所述数据库中取应用的特征，并对其进行少量标注，得到有标注样本和无标注样本共同组成的混合样本集；

步骤3：使用半监督学习算法在步骤2中的混合样本集上进行训练，得到分类器C；

步骤4：使用步骤3中得到的分类器C对应用进行检测，输出检测结果。

所述应用特征和评论特征具体包括但不仅限：应用名称、应用版本号、应用类别、应用价格、开发者名称、应用的排名、下载量、评论数量、平均评分、每一条评论的评论者名称、评分、评论字数个数、评论平均字数个数。

所述步骤3中半监督学习算法具体步骤为：

步骤A1：建立样本集，L代表少量已标注样本集，U代表未标注样本集；通过有放回抽样的方法在已标注的样本集L上随机选取n组不同的训练样本集Dn；

步骤A2：初始化n个分类器，将应用的特征F作为n个分类器的特征输入，用n组不同的训练样本集Dn分别训练，得到n个分类器Cn；

步骤A3：对第i个分类器Ci(1≤i≤n)，利用步骤A2中得到的n个分类器Cn，采用协同训练的方式对高可信度未标注的数据进行标注，并和已标注数据作为新的训练样本集更新Ci，以此循环更新n个分类器Cn，得到最优的一组集成分类器C；其中，所述n至少等于2。

步骤A3中所述对高可信度未标注的数据进行标注，具体包括：

步骤B1：预先定义可信度θ，具体指判断未标注数据类别一致的分类器的数量；

步骤B2：当n个分类器Cn中超过θ个一致判断未标注数据属于刷榜或未刷榜，则该未标注数据为高可信度未标注数据。

本发明的半监督学习算法包括但不仅限于Co-Forest算法、Co-Training算法、Tri-Training算法。

本发明使用半监督学习算法运用到应用市场刷榜应用检测中，结合少量的有标注样本和大量的无标注数据建立机器学习模型，有效利用大量无标注数据进行检测，带来更少人工成本的同时，仍然拥有很高的精确率。

附图说明

图1是本发明检测应用市场刷榜应用的流程图。

具体实施方式

下面结合具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

实施例

本发明以基于协同训练的Co-Forest半监督学习算法为例，对基于半监督学习的应用市场刷榜应用检测方法具体说明：

步骤1：从应用市场中获取应用的特征F，包括每个应用的应用特征和评论特征，并将这些特征存储到数据库。

步骤2：从步骤1所述数据库中取应用的特征，并对其进行少量标注，得到已标注样本集L，剩余的未标注特征作为未标注样本集U，L和U共同作为混合样本集；

步骤3：通过有放回抽样的方法在已标注的样本集L上随机选取n组不同的训练样本集Dn；

步骤4：初始化n棵随机Cart树的随机森林，将步骤2中的已标注样本集L作为协同训练算法Co-Forest中Cart树的特征输入，用n组不同的训练样本集Dn分别训练得到n棵Cart树Cn；

步骤5：对第i棵Cart树Ci(1≤i≤n)，利用步骤4中的得到的n棵Cart树Cn，采用协同训练的方式对高可信度未标注的数据进行标注，并和已标注数据作为新的训练样本集更新Ci，以此循环更新n棵Cart树，得到最优的Cart树集成随机森林；

步骤6：利用步骤5中最优的Cart树集成的随机森林对应用进行检测。

具体地，所述步骤1中所述应用特征和评论特征具体包括：应用名称、应用版本号、应用类别、应用价格、开发者名称、应用的排名、下载量、评论数量、平均评分、每一条评论的评论者名称、评分、评论字数个数、评论平均字数个数。

具体地，步骤4中所述初始化Cart树采用Gini指数衡量特征的好坏程度以决定Cart树在数据集上的分裂点；

具体地，所述步骤5中所述未标注数据的可信度指随机森林中的Cart树对未标注数据的标注一致度，高可信度的计算方法为：

步骤A1：预先定义可信度θ，具体指判断未标注数据类别一致的Cart树的数量；

步骤A2：当n棵Cart树中超过θ棵一致判断未标注数据属于刷榜或未刷榜，则该未标注数据为高可信度未标注数据。

具体地，所述步骤4中所述训练Cart树中计算Gini指数的具体方法为：

训练样本集为Dn，|Dn|表示其训练集样本的个数；M表示正常应用，M₂表示刷榜应用；于是Gini指数的计算公式可以表示为：

其中，P(M_i)表示全部应用中M_i应用所占比例，|M_i|表示应用的个数，其中i＝1，2；

具体地，所述步骤4中协同算法Co-Forest具体如下：

步骤B1：令Hi为除第i棵Cart树外的所有Cart树的集合，令Li为高可信度未标注数据的集合；

步骤B2：使用Cart树Ci遍历每一个未标注的数据，用Hi对其进行投票，对可信度高的未标注数据，标注完放入Li中；

步骤B3：使用L加Li的数据集对该Cart树Ci进行优化训练；

步骤B4：对每一颗Cart树循环步骤B2、B3，以此，得到最优n棵Cart的随机森林。

显然，上述实施例对本发明的内容进行了详细的介绍，仅仅是为了清楚的说明所作的举例。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出多种其他不同形式的修改和替代。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于半监督的应用市场刷榜应用检测方法，该方法包括以下步骤：

2.根据权利要求1所述的基于半监督的应用市场刷榜应用检测方法，其特征在于，所述应用特征和评论特征具体包括但不仅限：应用名称、应用版本号、应用类别、应用价格、开发者名称、应用的排名、下载量、评论数量、平均评分、每一条评论的评论者名称、评分、评论字数个数、评论平均字数个数。

3.根据权利要求1所述的基于半监督的应用市场刷榜应用检测方法，其特征在于，所述步骤3中半监督学习算法具体步骤为：

步骤A3：对第i个分类器Ci(1≤i≤n)，利用步骤A2中得到的n个分类器Cn，采用协同训练的方式对高可信度未标注的数据进行标注，并和已标注数据作为新的训练样本集更新Ci，以此循环更新n个分类器Cn，得到最优的一组集成分类器C。

4.根据权利要求3所述的基于半监督的应用市场刷榜应用检测方法，其特征在于，步骤A3中所述对高可信度未标注的数据进行标注，具体包括：

5.根据权利要求3所述的基于半监督的应用市场刷榜应用检测方法，其特征在于，所述n至少等于2。