CN108710911A - 一种基于半监督的应用市场刷榜应用检测方法 - Google Patents
一种基于半监督的应用市场刷榜应用检测方法 Download PDFInfo
- Publication number
- CN108710911A CN108710911A CN201810487147.6A CN201810487147A CN108710911A CN 108710911 A CN108710911 A CN 108710911A CN 201810487147 A CN201810487147 A CN 201810487147A CN 108710911 A CN108710911 A CN 108710911A
- Authority
- CN
- China
- Prior art keywords
- application
- semi
- grader
- feature
- supervised
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于半监督的应用市场刷榜应用检测方法,将半监督学习算法使用于应用市场的刷榜应用检测。实施步骤包括:获取应用特征存储到数据库,将数据库中特征进行少量标注得到带标注和无标注的混合样本集,使用半监督学习算法在混合样本集上训练得到分类器,最后将分类器用于应用检测。本发明将半监督学习应用到大量无标注的应用市场数据中,采用半监督学习算法中成熟的协同训练算法,降低误报率的同时,提高了检测的效率,实现了少量数据标注下应用市场中的刷榜应用检测。
Description
技术领域
本发明涉及一种应用市场刷榜检测方法,具体的来说,涉及的是一种基于半监督的应用市场刷榜应用的检测方法。
背景技术
随着智能手机和平板电脑的快速发展,应用市场(例如AppleAppStore和GooglePlay)已经发展为一个巨大的市场。应用市场承担着向用户分发应用的关键作用,为了帮助用户查找应用和开发商推广应用,应用市场提供了有关应用程序的各种信息,例如应用简介、屏幕截图以及用户评论评分等。而且,应用市场会在首页上显示各种排行榜,排名较高的应用会吸引更多的关注和下载。开发商为了可以让自己的应用在排行榜上吸引用户下载,很多开发商会选择非法推广他们的应用。根据新闻报道,更有一部分的恶意开发者在应用市场中通过推广恶意应用导致大量下载用户隐私泄露以及金钱损失。因此,为了应用市场生态系统的健康以及避免对用户造成经济损失、甚至人身伤害,可以准确并且快速检测出刷榜应用是一项重要的任务。
当前,应用市场刷榜检测大致分为两类:基于规则和模式匹配和基于全监督机器学习的检测方法。基于规则和模式匹配的检测方法,规则集无法检测新出现的规则,每次更新规则需要人工参与,并且规则集过多后会导致系统冗余,很难提升精确度。基于全监督机器学习的检测方法,利用应用的特征作为输入,训练模型后利用训练好的模型对新的数据进行预测,精确率高,是当前主流的方法。但是模型训练需要大量带有标注的样本,然而这类样本是需要人工进行标注的,人工成本太高。现有对应用市场中的大量数据信息进行分类大多利用监督学习算法,该算法都是基于人工标注的数据建立分类模型,但是由于应用市场中的应用信息过于庞大,人工标注数据所需成本巨大,并且没有特别好的方法解决数据标注问题。
发明内容
本发明的目的是:针对现有应用市场刷榜应用检测在全监督机器学习技术的不足之处,提出一种基于半监督的应用市场刷榜应用检测方法,该方法利用协同训练,将多分类器运用到大量无标注数据的应用市场中,降低人工成本的同时,提高检测效率。
本发明的目的是这样实现的:
一种基于半监督的应用市场刷榜应用检测方法,该方法包括以下步骤:
步骤1:从应用市场中获取多个应用的特征F,包括每个应用的应用特征和评论特征,并将这些特征存储到数据库;
步骤2:从步骤1所述数据库中取应用的特征,并对其进行少量标注,得到有标注样本和无标注样本共同组成的混合样本集;
步骤3:使用半监督学习算法在步骤2中的混合样本集上进行训练,得到分类器C;
步骤4:使用步骤3中得到的分类器C对应用进行检测,输出检测结果。
所述应用特征和评论特征具体包括但不仅限:应用名称、应用版本号、应用类别、应用价格、开发者名称、应用的排名、下载量、评论数量、平均评分、每一条评论的评论者名称、评分、评论字数个数、评论平均字数个数。
所述步骤3中半监督学习算法具体步骤为:
步骤A1:建立样本集,L代表少量已标注样本集,U代表未标注样本集;通过有放回抽样的方法在已标注的样本集L上随机选取n组不同的训练样本集Dn;
步骤A2:初始化n个分类器,将应用的特征F作为n个分类器的特征输入,用n组不同的训练样本集Dn分别训练,得到n个分类器Cn;
步骤A3:对第i个分类器Ci(1≤i≤n),利用步骤A2中得到的n个分类器Cn,采用协同训练的方式对高可信度未标注的数据进行标注,并和已标注数据作为新的训练样本集更新Ci,以此循环更新n个分类器Cn,得到最优的一组集成分类器C;其中,所述n至少等于2。
步骤A3中所述对高可信度未标注的数据进行标注,具体包括:
步骤B1:预先定义可信度θ,具体指判断未标注数据类别一致的分类器的数量;
步骤B2:当n个分类器Cn中超过θ个一致判断未标注数据属于刷榜或未刷榜,则该未标注数据为高可信度未标注数据。
本发明的半监督学习算法包括但不仅限于Co-Forest算法、Co-Training算法、Tri-Training算法。
本发明使用半监督学习算法运用到应用市场刷榜应用检测中,结合少量的有标注样本和大量的无标注数据建立机器学习模型,有效利用大量无标注数据进行检测,带来更少人工成本的同时,仍然拥有很高的精确率。
附图说明
图1是本发明检测应用市场刷榜应用的流程图。
具体实施方式
下面结合具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
实施例
本发明以基于协同训练的Co-Forest半监督学习算法为例,对基于半监督学习的应用市场刷榜应用检测方法具体说明:
步骤1:从应用市场中获取应用的特征F,包括每个应用的应用特征和评论特征,并将这些特征存储到数据库。
步骤2:从步骤1所述数据库中取应用的特征,并对其进行少量标注,得到已标注样本集L,剩余的未标注特征作为未标注样本集U,L和U共同作为混合样本集;
步骤3:通过有放回抽样的方法在已标注的样本集L上随机选取n组不同的训练样本集Dn;
步骤4:初始化n棵随机Cart树的随机森林,将步骤2中的已标注样本集L作为协同训练算法Co-Forest中Cart树的特征输入,用n组不同的训练样本集Dn分别训练得到n棵Cart树Cn;
步骤5:对第i棵Cart树Ci(1≤i≤n),利用步骤4中的得到的n棵Cart树Cn,采用协同训练的方式对高可信度未标注的数据进行标注,并和已标注数据作为新的训练样本集更新Ci,以此循环更新n棵Cart树,得到最优的Cart树集成随机森林;
步骤6:利用步骤5中最优的Cart树集成的随机森林对应用进行检测。
具体地,所述步骤1中所述应用特征和评论特征具体包括:应用名称、应用版本号、应用类别、应用价格、开发者名称、应用的排名、下载量、评论数量、平均评分、每一条评论的评论者名称、评分、评论字数个数、评论平均字数个数。
具体地,步骤4中所述初始化Cart树采用Gini指数衡量特征的好坏程度以决定Cart树在数据集上的分裂点;
具体地,所述步骤5中所述未标注数据的可信度指随机森林中的Cart树对未标注数据的标注一致度,高可信度的计算方法为:
步骤A1:预先定义可信度θ,具体指判断未标注数据类别一致的Cart树的数量;
步骤A2:当n棵Cart树中超过θ棵一致判断未标注数据属于刷榜或未刷榜,则该未标注数据为高可信度未标注数据。
具体地,所述步骤4中所述训练Cart树中计算Gini指数的具体方法为:
训练样本集为Dn,|Dn|表示其训练集样本的个数;M表示正常应用,M2表示刷榜应用;于是Gini指数的计算公式可以表示为:
其中,P(Mi)表示全部应用中Mi应用所占比例,|Mi|表示应用的个数,其中i=1,2;
具体地,所述步骤4中协同算法Co-Forest具体如下:
步骤B1:令Hi为除第i棵Cart树外的所有Cart树的集合,令Li为高可信度未标注数据的集合;
步骤B2:使用Cart树Ci遍历每一个未标注的数据,用Hi对其进行投票,对可信度高的未标注数据,标注完放入Li中;
步骤B3:使用L加Li的数据集对该Cart树Ci进行优化训练;
步骤B4:对每一颗Cart树循环步骤B2、B3,以此,得到最优n棵Cart的随机森林。
显然,上述实施例对本发明的内容进行了详细的介绍,仅仅是为了清楚的说明所作的举例。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出多种其他不同形式的修改和替代。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (5)
1.一种基于半监督的应用市场刷榜应用检测方法,该方法包括以下步骤:
步骤1:从应用市场中获取多个应用的特征F,包括每个应用的应用特征和评论特征,并将这些特征存储到数据库;
步骤2:从步骤1所述数据库中取应用的特征,并对其进行少量标注,得到有标注样本和无标注样本共同组成的混合样本集;
步骤3:使用半监督学习算法在步骤2中的混合样本集上进行训练,得到分类器C;
步骤4:使用步骤3中得到的分类器C对应用进行检测,输出检测结果。
2.根据权利要求1所述的基于半监督的应用市场刷榜应用检测方法,其特征在于,所述应用特征和评论特征具体包括但不仅限:应用名称、应用版本号、应用类别、应用价格、开发者名称、应用的排名、下载量、评论数量、平均评分、每一条评论的评论者名称、评分、评论字数个数、评论平均字数个数。
3.根据权利要求1所述的基于半监督的应用市场刷榜应用检测方法,其特征在于,所述步骤3中半监督学习算法具体步骤为:
步骤A1:建立样本集,L代表少量已标注样本集,U代表未标注样本集;通过有放回抽样的方法在已标注的样本集L上随机选取n组不同的训练样本集Dn;
步骤A2:初始化n个分类器,将应用的特征F作为n个分类器的特征输入,用n组不同的训练样本集Dn分别训练,得到n个分类器Cn;
步骤A3:对第i个分类器Ci(1≤i≤n),利用步骤A2中得到的n个分类器Cn,采用协同训练的方式对高可信度未标注的数据进行标注,并和已标注数据作为新的训练样本集更新Ci,以此循环更新n个分类器Cn,得到最优的一组集成分类器C。
4.根据权利要求3所述的基于半监督的应用市场刷榜应用检测方法,其特征在于,步骤A3中所述对高可信度未标注的数据进行标注,具体包括:
步骤B1:预先定义可信度θ,具体指判断未标注数据类别一致的分类器的数量;
步骤B2:当n个分类器Cn中超过θ个一致判断未标注数据属于刷榜或未刷榜,则该未标注数据为高可信度未标注数据。
5.根据权利要求3所述的基于半监督的应用市场刷榜应用检测方法,其特征在于,所述n至少等于2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810487147.6A CN108710911A (zh) | 2018-05-21 | 2018-05-21 | 一种基于半监督的应用市场刷榜应用检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810487147.6A CN108710911A (zh) | 2018-05-21 | 2018-05-21 | 一种基于半监督的应用市场刷榜应用检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108710911A true CN108710911A (zh) | 2018-10-26 |
Family
ID=63868361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810487147.6A Pending CN108710911A (zh) | 2018-05-21 | 2018-05-21 | 一种基于半监督的应用市场刷榜应用检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108710911A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110096632A (zh) * | 2019-04-16 | 2019-08-06 | 华东师范大学 | 一种基于稀疏自编码器的刷榜者检测方法 |
CN110796179A (zh) * | 2019-10-12 | 2020-02-14 | 上海上湖信息技术有限公司 | 用于模型训练的样本数据处理方法及装置、存储介质、终端 |
CN111523675A (zh) * | 2019-02-01 | 2020-08-11 | 阿里巴巴集团控股有限公司 | 模型训练方法、装置及系统 |
CN112084489A (zh) * | 2020-09-11 | 2020-12-15 | 北京天融信网络安全技术有限公司 | 可疑应用检测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102404249A (zh) * | 2011-11-18 | 2012-04-04 | 北京语言大学 | 一种基于协同训练的垃圾邮件过滤方法和装置 |
US9311386B1 (en) * | 2013-04-03 | 2016-04-12 | Narus, Inc. | Categorizing network resources and extracting user interests from network activity |
CN106294590A (zh) * | 2016-07-29 | 2017-01-04 | 重庆邮电大学 | 一种基于半监督学习的社交网络垃圾用户过滤方法 |
US20170109680A1 (en) * | 2015-10-17 | 2017-04-20 | Tata Consultancy Services Limited | System for standardization of goal setting in performance appraisal process |
-
2018
- 2018-05-21 CN CN201810487147.6A patent/CN108710911A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102404249A (zh) * | 2011-11-18 | 2012-04-04 | 北京语言大学 | 一种基于协同训练的垃圾邮件过滤方法和装置 |
US9311386B1 (en) * | 2013-04-03 | 2016-04-12 | Narus, Inc. | Categorizing network resources and extracting user interests from network activity |
US20170109680A1 (en) * | 2015-10-17 | 2017-04-20 | Tata Consultancy Services Limited | System for standardization of goal setting in performance appraisal process |
CN106294590A (zh) * | 2016-07-29 | 2017-01-04 | 重庆邮电大学 | 一种基于半监督学习的社交网络垃圾用户过滤方法 |
Non-Patent Citations (2)
Title |
---|
HENGSHU ZHU 等: "Ranking Fraud Detection for Mobile Apps: A Holistic View", 《ACM》 * |
闫耀辉 等: "基于协同训练的Co_Forest算法在入侵检测中的应用", 《2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(下册)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523675A (zh) * | 2019-02-01 | 2020-08-11 | 阿里巴巴集团控股有限公司 | 模型训练方法、装置及系统 |
CN111523675B (zh) * | 2019-02-01 | 2023-08-04 | 创新先进技术有限公司 | 模型训练方法、装置及系统 |
CN110096632A (zh) * | 2019-04-16 | 2019-08-06 | 华东师范大学 | 一种基于稀疏自编码器的刷榜者检测方法 |
CN110796179A (zh) * | 2019-10-12 | 2020-02-14 | 上海上湖信息技术有限公司 | 用于模型训练的样本数据处理方法及装置、存储介质、终端 |
CN112084489A (zh) * | 2020-09-11 | 2020-12-15 | 北京天融信网络安全技术有限公司 | 可疑应用检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108710911A (zh) | 一种基于半监督的应用市场刷榜应用检测方法 | |
Lou et al. | TFDroid: Android malware detection by topics and sensitive data flows using machine learning techniques | |
CN104765874B (zh) | 用于检测点击作弊的方法及装置 | |
CN112860841B (zh) | 一种文本情感分析方法、装置、设备及存储介质 | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
CN107835113A (zh) | 一种基于网络映射的社交网络中异常用户检测方法 | |
TW201939400A (zh) | 目標用戶群體的確定方法和裝置 | |
CN108256537A (zh) | 一种用户性别预测方法和系统 | |
CN105956469B (zh) | 文件安全性识别方法和装置 | |
CN109872162A (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN103064987A (zh) | 一种虚假交易信息识别方法 | |
CN108376164B (zh) | 一种潜力主播的展示方法及装置 | |
CN110163204A (zh) | 基于图像识别的商家监管方法、装置及存储介质 | |
CN104598825A (zh) | 一种基于改进贝叶斯算法的安卓恶意软件检测方法 | |
CN102867038A (zh) | 文件类型的确定方法和装置 | |
WO2021213123A1 (zh) | 用户欺诈行为检测方法、装置、设备及存储介质 | |
CN111510368B (zh) | 家庭群组识别方法、装置、设备及计算机可读存储介质 | |
CN108647800A (zh) | 一种基于节点嵌入的在线社交网络用户缺失属性预测方法 | |
CN108229170A (zh) | 利用大数据和神经网络的软件分析方法和装置 | |
CN106910135A (zh) | 用户推荐方法及装置 | |
CN113961764A (zh) | 诈骗电话的识别方法、装置、设备及存储介质 | |
CN106301979B (zh) | 检测异常渠道的方法和系统 | |
CN113538070A (zh) | 用户生命价值周期检测方法、装置和计算机设备 | |
CN109522692A (zh) | 网页机器行为检测方法及系统 | |
CN115292674A (zh) | 一种基于用户评论数据的欺诈应用检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181026 |