CN106485507B

CN106485507B - 一种软件推广作弊的检测方法、装置及系统

Info

Publication number: CN106485507B
Application number: CN201510555824.XA
Authority: CN
Inventors: 胡于响
Original assignee: 阿里巴巴集团控股有限公司
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2015-09-01
Filing date: 2015-09-01
Publication date: 2019-10-18
Anticipated expiration: 2035-09-01
Also published as: EP3345154A4; US20170063913A1; JP6874950B2; WO2017040574A1; JP2018528517A; EP3345154A1; CN106485507A; TW201710993A; US10243967B2

Abstract

本申请提供了一种软件推广作弊的检测方法、装置及系统，本申请分别从“刷好评作弊”、“刷量作弊”角度提出了用于检测软件是否有作弊行为的技术方案，该技术方案是基于概率统计分布原理分析同一类别的软件的评论信息的分布情况，基于概率统计分布中小概率事件原理，根据同一类软件的评论信息的概率统计分布参数设置判定阈值范围，当待检测软件的评论信息的平均相似度或平均信息熵落入该待检测软件所属类别的软件对应的判定阈值范围时，则判定该待检测软件是刷好评推广作弊软件。通过本申请，可以实现对软件推广作弊的自动检测，帮助用户甄别软件，能够加强软件下载安全防范。

Description

一种软件推广作弊的检测方法、装置及系统

技术领域

本申请涉及互联网技术领域，特别是涉及一种软件推广作弊的检测方法、装置及系统。

背景技术

近年来随着互联网的发展，人们对于软件的需求不断扩大，软件下载网站快速发展，比较知名的有太平洋下载中心，腾讯应用宝，360手机助手网，淘宝手机助手、pp助手等。这些网站的功能均是提供丰富的PC端或移动无线端软件，方便用户下载，安装，升级及卸载。在这些网站上，用户选择软件时一般会参考软件的下载量及口碑，下载量高、好评多的软件往往会被用户优先下载，因此这两个指标能够极大影响用户的选择。部分软件推广者就利用这一点，通过一定非法手段进行刷好评操作和刷量操作，从而误导更多人下载其推广的软件，造成较为恶劣的影响。目前尚无专门检测软件推广作弊问题的技术方案。

发明内容

为了解决上述技术问题，本申请实施例提供了一种软件推广作弊的检测方法、装置及系统，以实现对软件推广作弊的自动检测，帮助用户甄别软件，能够加强软件下载安全防范。

根据本申请的第一方面，本申请提供一种软件推广作弊的检测方法，该方法包括：

获取平台上软件的评论信息；

根据软件的评论信息的相似度或信息增益，计算软件的评论信息的平均相似度或平均信息熵；

根据同一类别的每个软件各自对应的平均相似度或平均信息熵，计算得到该同一类别的软件对应的概率统计分布参数；

根据该同一类别的软件对应的概率统计分布参数设置同一类别的软件对应的判定阈值范围，该判定阈值范围是用于判定小概率事件的阈值范围；

当待检测软件的评论信息的平均相似度或平均信息熵落入该待检测软件所属类别的软件对应的判定阈值范围时，则判定该待检测软件是刷好评推广作弊软件。

根据本申请的第二方面，本申请提供另一种软件推广作弊的检测方法，该方法包括：

获取平台上软件的评论信息和下载量；

计算软件的评论下载比，该评论下载比等于评论信息总个数与下载量的比值；

根据同一类别的软件各自对应的评论下载比，计算得到该同一类别的软件对应的概率统计分布参数；

根据同一类别的软件对应的概率统计分布参数设置同一类别的软件对应的判定阈值范围；该判定阈值范围是用于判定小概率事件的阈值范围；

当待检测软件的评论下载比落入该待检测软件所属类别的软件对应的判定阈值范围时，则判定该待检测软件是刷量推广作弊软件。

根据本申请的第三方面，本申请提供了一种软件推广作弊的检测装置，该装置包括：

获取单元，用于获取平台上软件的评论信息；

第一计算单元，用于根据软件的评论信息的相似度或信息增益，计算软件的评论信息的平均相似度或平均信息熵；

第二计算单元，用于根据同一类别的每个软件各自对应的平均相似度或平均信息熵，计算得到该同一类别的软件对应的概率统计分布参数；

设置单元，用于根据该同一类别的软件对应的概率统计分布参数设置同一类别的软件对应的判定阈值范围，该判定阈值范围是用于判定小概率事件的阈值范围；

判定单元，用于当待检测软件的评论信息的平均相似度或平均信息熵落入该待检测软件所属类别的软件对应的判定阈值范围时，则判定该待检测软件是刷好评推广作弊软件。

根据本申请的第四方面，本申请提供了另一种软件推广作弊的检测装置，该装置包括：

获取单元，用于获取平台上软件的评论信息和下载量；

第一计算单元，用于计算软件的评论下载比，该评论下载比等于评论信息总个数与下载量的比值；

第二计算单元，用于根据同一类别的软件各自对应的评论下载比，计算得到该同一类别的软件对应的概率统计分布参数；

设置单元，用于根据同一类别的软件对应的概率统计分布参数设置同一类别的软件对应的判定阈值范围；该判定阈值范围是用于判定小概率事件的阈值范围；

判定单元，用于当待检测软件的评论下载比落入该待检测软件所属类别的软件对应的判定阈值范围时，判定该待检测软件是刷量推广作弊软件。

根据本申请的第五方面，本申请提供了一种软件推广作弊的检测系统，该系统包括：

数据抓取装置、数据存储装置、反作弊分析平台，

所述反作弊分析平台包括：上述两种软件推广作弊检测装置；

所述数据抓取装置，用于从平台上抓取软件的评论信息和下载量；

所述数据存储装置，用于存储软件的评论信息和下载量；

所述数据抓取装置通过数据接口层与所述数据存储装置进行数据交互；

所述数据存储装置通过数据接口层与所述反作弊分析平台进行数据交互。

由上述实施例可以看出，与现有技术相比，本申请的优点在于：

本申请分别从“刷好评作弊”和“刷量作弊”的角度提出了用于检测软件是否有作弊行为的技术方案。一方面从“刷好评作弊”的角度出发，基于概率统计分布原理分析同一类别的软件的评论信息的分布情况，主要是以软件评论信息的平均相似度或平均信息熵作为概率统计分析的数据基础，分析得到同一类软件的评论信息的概率统计分布参数，然后基于概率统计分布中小概率事件原理来设定该判定阈值范围，使得该判定阈值范围是用于判定小概率事件的阈值范围，因此，当待检测软件的平均相似度或平均信息熵落入该待检测软件所属类别的软件对应的判定阈值范围时，表明该待检测软件具有这些评论信息的事件属于小概率事件，判定该待检测软件是刷好评推广作弊软件。

另一方面从“刷量作弊”的角度出发，基于概率统计分布原理分析同一类别的软件的评论信息的分布情况，主要是以评论下载比作为概率统计分布的数据基础，分析得到同一类软件的评论下载比的概率统计分布参数，然后根据该概率统计分布参数设置判定阈值范围，主要是基于概率统计分布中小概率事件原理来设定该判定阈值范围，使得该判定阈值范围是用于判定小概率事件的阈值范围，因此，当待检测软件的评论下载比落入该判定阈值范围时，表明该待检测软件具有这样的评论下载比的事件属于小概率事件，判定该待检测软件是刷量推广作弊软件。

本申请的技术方案，基于概率统计分布和小概率事件的数学原理，以软件的评论信息、下载量这些实际数据为统计分析的数据基础，能够自适应性的设置判定阈值范围，能够实现对软件推广作弊的自动检测，帮助用户甄别软件，能够加强软件下载安全防范。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的一种软件推广作弊的检测方法的流程图；

图2是本申请提供的另一种软件推广作弊的检测方法的流程图；

图3是本申请提供的一种软件推广作弊的检测装置的结构图；

图4是本申请提供的另一种软件推广作弊的检测装置的结构图；

图5是本申请提供的一种软件推广作弊的检测系统的结构图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例进行详细描述。

方法实施例

请参阅图1，图1示意性地示出了本申请提供的一种软件推广作弊的检测方法的流程图，该方法可以由用户机器执行，用户机器可以是个人的PC机，也可以是各种类型的网站服务器，例如Web服务器，或者APP服务器。该方法例如可以包括以下步骤：

步骤101：获取平台上软件的评论信息。

在本申请实施例中，平台是指各个软件推广平台或网站，可以利用爬虫爬取平台上软件的下载页面，具体的可以利用“Jsoup”定点爬取技术，将下载页面上的特定信息爬取出来，在本申请实施例中，主要用于爬取评论信息，也被称之为评语；由于网站上记录用户的评语是按照发表时间先后排序的，因此，爬取到评论信息后，可以按照发表时间先后排序将其保存在数据库中。

在实际应用中可以利用开源的mysql数据库或postgresql数据库，也可以利用其它数据库。

步骤102：根据软件的评论信息的相似度或信息增益，计算软件的评论信息的平均相似度或平均信息熵。

下面对“根据软件的评论信息的相似度，计算软件的评论信息的平均相似度”的实现过程作解释说明。具体的，可以包括以下三个步骤：

对软件的评论信息进行分词得到分词向量，每个评论信息对应有一个分词向量；

根据分词向量和向量相似度的计算方法，计算软件的第N条评论信息相比在其前面的一条或者多条评论信息的相似度，将最大相似度作为第N条评论信息的相似度；所述N大于或等于1；以及

按照求取均值的方式，根据评论信息的相似度计算得到软件的评论信息的平均相似度。

关于上述步骤“根据分词向量和向量相似度的计算方法，计算软件的第N条评论信息相比在其前面的一条或者多条评论信息的相似度，将最大相似度作为第N条评论信息的相似度”，具体的可以有一种几种实现方式：

第一种实现方式是，根据分词向量和向量相似度的计算方法，计算软件的第N条评论信息相比在其前面的N－1条评论信息的相似度，将最大相似度作为第N条评论信息的相似度。

可以看出：第一种实现方式是将每条评论信息与其前面所有的评论信息作对比计算相似度，遍历性的处理，保证相似度的可靠性。

第二种实现方式是，根据分词向量和向量相似度的计算方法，计算软件的第N条评论信息相比在其前面的抽样评论信息的相似度，将最大相似度作为第N条评论信息的相似度，其中，抽样评论信息是指相似度小于预设阈值的评论信息。

可以看出：第二种实现方式是针对相似度大小情况，抽样出满足代表性要求的评论信息，仅需要将每条评论信息与其前面的被抽样的评论信息作对比计算相似度，减小了计算量，无需全部遍历性对比，由于这些被抽样的评论信息具有典型性和代表性，因此，这种方式是在保证相似度的可靠性的基础上，减小计算量，以提高计算效率。

对于评论信息个数较多的软件，为了更快更高效的计算平均相似度，可以采用第二种实现方式，以评论抽样的方法，抽样的原则是取出有代表性的评论信息，即相对于前面的所有评论，取出相似度较小的评论信息，当评论信息的相似度小于一定阈值时，可以抽取该评论信息，而计算当前评论信息的信息熵时，仅需要和其前面被抽取的评论信息作比较，计算对应的相似度。这样通过抽样的方式，减少了相似度的计算量，提高了平均相似度的计算效率。

为了进一步说明上述实现方式，下面以通过具体示例来说明。

第一种实现方式的示例，第一条评论信息相似度为0(因为它前面没有评论了)，第二条评论信息相对第一条评论信息的相似度为0.8，第三条评论信息相对第一条评论信息的相似度为0.5，相对第二条评论信息的相似度为0.9，则取二者中最大的，即0.9。因此这三条评论的平均相似度为(0+0.8+0.9)/3＝0.57，以此类推计算一个软件下的所有评论的平均相似度，作为该软件的评论信息对应的平均相似度。

关于“计算相似度”的实现过程，可以采用IK Analyzer、盘古分词、Paoding等分词工具，也可以采用基于语义依存的方法、基于词典的方法等，将一条评论信息分解为多个有意义的词汇；即，对评论信息作分词处理得到分词向量，一个评论信息对应有一个分词向量；在分词的过程中，还可以对近义词作一定的处理。分词处理之后，再采用word2vec算法，计算评论信息中各词汇的最大相似度，将计算得到的最大相似度作为该评论信息的相似度。

第二种实现方式的示例，假设预设阈值为a＝0.6，第一条评论信息的相似度为0，0＜a，因此抽取出第一条评论信息。第二条评论信息相对于第一条评论信息的相似度为0.8，0.8＞a，因此，第二条评论信息就不被抽样。在计算第三条评论信息相对于前面的评论信息的相似度时，仅需要和被抽样的评论信息进行对比，在这里，也就仅需要和第一条评论信息进行对比。假设第三条评论信息对于第一条评论信息的相似度为0.3，0.3＜a，因此，第三条评论信息也被抽样，这样，前三条评论信息被抽样出两条，即第一条和第三条，以此类推，可以抽样出满足条件的评论信息。这样通过抽样的方式，减少了信息增益的计算量，提高了平均相似度的计算效率。

下面对步骤“所述根据软件的评论信息的信息熵，计算软件的评论信息的平均信息熵”的实现过程作解释说明。具体的，可以包括以下两个步骤：

按照香农定理计算第N条评论信息相比在其前面的一条或多条评论信息的信息增益，选取最小的信息增益作为第N条评论信息的信息增益；所述N大于或等于1；以及，

按照求取均值的方式，根据评论信息的信息增益计算得到软件的评论信息的平均信息熵。

关于步骤“按照香农定理计算第N条评论信息相比在其前面的一条或多条评论信息的信息增益，选取最小的信息增益作为第N条评论信息的信息增益”，具体可以有以下两种实现方式：

第一种实现方式是，按照香农定理计算第N条评论信息相比在其前面的N－1条评论信息的信息增益，选取最小的信息增益作为第N条评论信息的信息增益。

第二种实现方式是，按照香农定理计算第N条评论信息相比在其前面的抽样评论信息的信息增益，选取最小的信息增益作为第N条评论信息的信息增益，其中，抽样评论信息是指信息增益大于预设阈值的评论信息。

对第二种实现方式进行举例说明，假设预设阈值为b＝0.2，第一条评论信息的信息增益为1，1＞b，因此抽取出第一条评论信息。第二条评论信息相对于第一条评论信息的信息增益为0.1，0.1＜b，因此，第二条评论信息就不被抽样。在计算第三条评论信息相对于前面的评论信息的信息熵或相似度时，仅需要和被抽样的评论信息进行对比，在这里，也就仅需要和第一条评论信息进行对比。假设第三条评论信息对于第一条评论信息的信息增益为0.3，0.3＞b，因此，第三条评论信息也被抽样，这样，前三条评论信息被抽样出两条，即第一条和第三条，以此类推，可以抽样出满足条件的评论信息。这样通过抽样的方式，减少了信息增益的计算量，提高了平均信息熵的计算效率。

步骤103：根据同一类别的每个软件各自对应的平均相似度或平均信息熵，计算得到该同一类别的软件对应的概率统计分布参数。

这个步骤主要是基于概率统计学的方法，分析同一类软件的评论信息中关于有效信息的数据分布情况。

软件类别主要是根据软件属性的进行分类，如银行应用类软件、游戏类软件、购物类软件、工具类软件、即时通讯类软件等等，当然，也可以从其他角度来对软件进行分类。在本申请中对如何分类并不作具体限制，而是从用户使用角度出发，关注同一类别的软件的评论信息的概率统计分布情况。

该步骤主要是以平均相似度或平均信息熵作为概率统计分布的数据基础，使得统计得到的分布参数具有高度的自适应性，能够很好地适应于同一类别的软件检测环境中，使得检测的可靠性较高。

该步骤在具体实现时，可以利用以下任意一种方式实现：

第一种方式是，将同一类别的每个软件各自对应的平均相似度或平均信息熵作为样本，计算该样本的期望和方差，将该样本的期望和方差作为该同一类别的软件对应的概率统计分布参数。

第二种方式是，根据同一类别的软件各自对应的平均相似度或平均信息熵的数据分布情况，选择一种概率统计分布类型；以及，针对该概率统计分布类型拟合分布得到该同一类别的软件对应的概率统计分布参数。

发明人发现：在样本数据量较大的情况下，第二种方式的计算量相比第一种方式的计算量较大，因此，在这种情况下，为了节省计算量可以选择第一种方式；如果在某些场景下，对分布参数的精准性和可靠性有着严格要求，那么在这些场景下，可以选择第二种方式。

关于第二种方式中的“概率统计分布类型”，可以通过分析样本数据得到样本数据分布图，根据分布图选择对应的概率统计分布类型。例如，从数据分布图可以看出数据分布接近指数分布，则可以选择指数分布类型；再例如，从数据分布图可以看出数据分布接近泊松分布，则可以选择泊松分布类型。在实际应用中对概率分布类型不作限定，具体情况根据实际的样本数据而定。

但，发明人通过研究发现，很多类别的软件的评论信息和评论下载比的分布接近于正态分布。因此，在选择概率分布类型时，可以直接选择正态分布，则针对正态分布拟合分布得到该同一类别的软件对应的分布参数，该分布参数包括均值和标准差。

步骤104：根据该同一类别的软件对应的概率统计分布参数设置同一类别的软件对应的判定阈值范围，该判定阈值范围是用于判定小概率事件的阈值范围。

步骤105：当待检测软件的评论信息的平均相似度或平均信息熵落入该待检测软件所属类别的软件对应的判定阈值范围时，则判定该待检测软件是刷好评推广作弊软件。

这里需要说明的是，如果判定阈值是根据同一类别的每个软件各自对应的平均相似度计算得到该同一类别的软件对应的概率统计分布参数来设置的，则在实现步骤105时，就需要将待检测软件的评论信息的平均相似度作为判断因素，实现条件式判断。

如果判定阈值是根据同一类别的每个软件各自对应的平均信息熵计算得到该同一类别的软件对应的概率统计分布参数来设置的，则在实现步骤105时，就需要将待检测软件的评论信息的平均信息熵作为判断因素，实现条件式判断。在概率统计学中，将概率很接近于0(概率很小)的事件称之为小概率事件，但是具体概率小到何种程度才算是小概率，在本申请中对其不作具体规定，而是在不同的场合有不同的标准。例如，当步骤103选择的是正态分布，以每个软件各自对应的平均信息熵为数据基础，计算得到的分布参数包括均值和标准差，基于这些分布参数可以设置对应的判断阈值范围。由于软件的评论信息的平均信息熵越小，说明软件评论信息中的有效信息量越小，其越有刷好评的嫌疑，因此，结合正态分布小概率事件的特征，可以根据经验值设置判定阈值范围为(－∞，μ－1.96σ)其中μ是均值，σ是标准差。当然，也可以设置判定阈值范围为(－∞，μ－σ)、(－∞，μ－2σ)、(－∞，μ－2.58σ)等；然后通过该判断阈值范围和软件的评论信息的平均信息熵来判断软件是否为刷好评作弊软件；当软件的评论信息的平均信息熵落入该范围时，则判定该软件为刷好评作弊软件。

当步骤103选择的是正态分布，以每个软件各自对应的平均相似度为数据基础，计算的到的分布参数包括均值和标准差。由于软件的评论信息的平均相似度越大，说明软件的评论信息表达内容都类似，而正常软件的评论信息表达内容都差异较大，没有规律，五花八门；这种情况，说明该软件越有刷好评的嫌疑，因此，结合正态分布小概率事件的特征，可以根据经验值设置判定阈值范围为(μ+1.96σ，+∞)，其中μ是均值，σ是标准差。当然，也可以设置判定阈值范围为(μ+σ，+∞)、(μ+1.96σ，+∞)、(μ+2σ，+∞)或(μ+2.58σ，+∞)(μ+3σ，+∞)等，然后通过该判断阈值范围和软件的评论信息的平均相似度来判断软件是否为刷好评作弊软件；当软件的评论信息的平均相似度落入该范围时，则判定该软件为刷好评作弊软件。

上述判定阈值范围的设置主要取决于判定的严谨程度，具体范围大小可以根据需求而定并不局限于上述几个阈值范围。

例如，当依据平均信息熵计算得到概率统计分布参数，基于该概率统计分布参数设置的该类别的软件对应的判定阈值范围为(－∞，μ－1.96σ)，则当某个属于该类别的软件的评论信息的平均信息熵落入该范围时，可以判定出这个软件是“刷好评”推广作弊软件。

从上述本申请实施例可以看出，本申请从“刷好评作弊”的角度出发，基于概率统计分布原理分析同一类别的软件的评论信息的分布情况，主要是以软件评论信息的平均相似度或平均信息熵作为概率统计分析的数据基础，分析得到同一类软件的评论信息的概率统计分布参数，然后根据该概率统计分布参数设置判定阈值范围，主要是基于概率统计分布中小概率事件原理来设定该判定阈值范围，使得该判定阈值范围是用于判定小概率事件的阈值范围，因此，当待检测软件的平均相似度或者平均信息熵落入该待测软件所属类别的软件对应的判定阈值范围时，表明该待检测软件具有评论信息的事件属于小概率事件，就能够判定该待检测软件是刷好评推广作弊软件。

另外，本申请还提供了一种软件推广作弊的检测方法，该方法是从“刷量”推广作弊的角度出发进行检测。

请参阅图2，图2示意性地示出了本申请提供的一种软件推广作弊的检测方法的流程图，该方法可以由用户机器执行，用户机器可以是个人的PC机，也可以是各种类型的网站服务器，例如Web服务器，或者APP服务器。该方法例如可以包括以下步骤：

步骤201：获取平台上软件的评论信息和下载量。

对于一般的网站，其推广的软件爬取点在HTML页面中的标签位置是固定的，因此，可以通过Jsoup工具分析HTML页面标签，提取下载量、评论信息、评论量等。

在具体实现时，可以预先将软件的评论信息以数据表的形式、将软件的下载量以数据表的形式分别存储在数据库中。本申请实施例在具体实现时，可以去数据库中查找软件对应的数据表，以获取对应的评论信息和下载量。这样，避免对网站产生过多的访问压力。

步骤202：计算软件的评论下载比，该评论下载比等于评论信息总个数与下载量的比值。

发明人发现，单纯的查看软件的下载量大小，无法体现其真实性，容易发生误判，且发明人发现对于软件推广者往往使用工具自动下载其推广的软件，短时间内会积累大量的下载量，但是评论信息相对较少，这主要是因为一般的刷量软件都不具备刷好评功能，都不会去撰写评论信息，因此导致评论下载比就会很小，基于这一基础，发明人提出从评论下载比的角度来衡量下载量的真实性，去检测软件是否有刷量作弊行为。

步骤203：根据同一类别的软件各自对应的评论下载比，计算得到该同一类别的软件对应的概率统计分布参数。

关于步骤203可以有以下几种实现方式：

第一种实现方式是，将同一类别的每个软件各自对应的评论下载比作为样本，计算该样本的期望和方差，将该样本的期望和方差作为该同一类别的软件对应的概率统计分布参数。

第二种实现方式是，根据同一类别的软件各自对应的评论下载比的数据分布情况，选择一种概率统计分布类型；以及，

针对该概率统计分布类型拟合分布得到该同一类别的软件对应的概率统计分布参数。

步骤204：根据同一类别的软件对应的概率统计分布参数设置同一类别的软件对应的判定阈值范围；该判定阈值范围是用于判定小概率事件的阈值范围。

关于判定阈值范围设定部分可以参照上述实施例中的描述，两者类似，此处不再赘述。

步骤205：当待检测软件的评论下载比落入该待检测软件所属类别的软件对应的判定阈值范围时，则判定该待检测软件是刷量推广作弊软件。

另外，发明人还提出，在检测出软件为刷量推广作弊软件之后，可以将检测结果生成结果表，存储在数据库中，这样，在用户浏览软件界面时，可以从结果表中查询该软件的检测结果，以快速为用户展示结果，帮助用户甄别软件是否为推广作弊软件。

从上述本申请实施例可以看出，本申请从“刷量作弊”的角度出发，基于概率统计分布原理分析同一类别的软件的评论信息的分布情况，主要是以评论下载比作为概率统计分布的数据基础，分析得到同一类软件的评论下载比的概率统计分布参数，然后根据该概率统计分布参数设置判定阈值范围，主要是基于概率统计分布中小概率事件原理来设定该判定阈值范围，使得该判定阈值范围是用于判定小概率事件的阈值范围，因此，当待检测软件的评论下载比落入该判定阈值范围时，表明该待检测软件具有这样的评论下载比的事件属于小概率事件，判定该待检测软件是刷量推广作弊软件。

装置实施例

与上述软件推广作弊的检测方法相对应，本申请实施例还提供了软件推广作弊的检测装置。请参阅图3，图3示意性地示出了本申请提供的一种软件推广作弊的检测装置的结构图，该装置用于检测“刷好评”推广作弊的软件，该装置可以包括获取单元301、第一计算单元302、第二计算单元303、设置单元304和判定单元305。下面结合该装置的工作原理进一步介绍其内部结构以及连接关系。

获取单元301，用于获取平台上软件的评论信息；

第一计算单元302，用于根据软件的评论信息的相似度或信息增益，计算软件的评论信息的平均相似度或平均信息熵；

第二计算单元303，用于根据同一类别的每个软件各自对应的平均相似度或平均信息熵，计算得到该同一类别的软件对应的概率统计分布参数；

设置单元304，用于根据该同一类别的软件对应的概率统计分布参数设置同一类别的软件对应的判定阈值范围，该判定阈值范围是用于判定小概率事件的阈值范围；

判定单元305，用于当待检测软件的评论信息的平均相似度或平均信息熵落入该待检测软件所属类别的软件对应的判定阈值范围时，则判定该待检测软件是刷好评推广作弊软件。

可选的，所述第一计算单元，包括：

分词子单元，用于对软件的评论信息进行分词得到分词向量，每个评论信息对应有一个分词向量；

相似度计算子单元，用于根据分词向量和向量相似度的计算方法，计算软件的第N条评论信息相比在其前面的一条或者多条评论信息的相似度，将最大相似度作为第N条评论信息的相似度；所述N大于或等于1；

平均相似度计算子单元，用于按照求取均值的方式，根据评论信息的相似度计算得到软件的评论信息的平均相似度。

可选的，所述第一计算单元，包括：

信息增益计算子单元，用于按照香农定理计算第N条评论信息相比在其前面的一条或多条评论信息的信息增益，选取最小的信息增益作为第N条评论信息的信息增益；所述N大于或等于1；

平均信息熵计算子单元，用于按照求取均值的方式，根据评论信息的信息增益计算得到软件的评论信息的平均信息熵。

可选的，所述第二计算单元，具体用于：

将同一类别的每个软件各自对应的平均相似度或平均信息熵作为样本，计算该样本的期望和方差，将该样本的期望和方差作为该同一类别的软件对应的概率统计分布参数。

可选的，所述第二计算单元，包括：

选择子单元，用于根据同一类别的软件各自对应的平均相似度或平均信息熵的数据分布情况，选择一种概率统计分布类型；

拟合子单元，用于针对该概率统计分布类型拟合分布得到该同一类别的软件对应的概率统计分布参数。

可选的，所述选择子单元，具体用于根据同一类别的软件各自对应的平均相似度或平均信息熵的数据分布情况，选择正态分布类型；

则拟合子单元，具体用于针对正态分布拟合分布得到该同一类别的软件对应的分布参数，该分布参数包括均值和标准差；

则所述设置单元，具体用于根据同一类别的软件对应的概率统计分布参数设置同一类别的软件对应的判定阈值范围为(－∞，μ－σ)、(－∞，μ－1.96σ)、(－∞，μ－2σ)、(－∞，μ－2.58σ)、(μ+σ，+∞)、(μ+1.96σ，+∞)、(μ+2σ，+∞)或(μ+2.58σ，+∞)，其中μ是均值，σ是标准差。

另外，本申请提供了另一种软件推广作弊的检测装置，请参阅图4，图4示意性地示出了本申请提供的一种软件推广作弊的检测装置的结构图，用于检测“刷量”推广作弊的软件，该装置可以包括获取单元401、第一计算单元402、第二计算单元403、设置单元404和判定单元405。下面结合该装置的工作原理进一步介绍其内部结构以及连接关系。

获取单元401，用于获取平台上软件的评论信息和下载量；

第一计算单元402，用于计算软件的评论下载比，该评论下载比等于评论信息总个数与下载量的比值；

第二计算单元403，用于根据同一类别的软件各自对应的评论下载比，计算得到该同一类别的软件对应的概率统计分布参数；

设置单元404，用于根据同一类别的软件对应的概率统计分布参数设置同一类别的软件对应的判定阈值范围；该判定阈值范围是用于判定小概率事件的阈值范围；

判定单元405，用于当待检测软件的评论下载比落入该待检测软件所属类别的软件对应的判定阈值范围时，判定该待检测软件是刷量推广作弊软件。

可选的，所述第二计算单元，具体用于：

将同一类别的每个软件各自对应的评论下载比作为样本，计算该样本的期望和方差，将该样本的期望和方差作为该同一类别的软件对应的概率统计分布参数。

可选的，所述第二计算单元，包括：

选择子单元，用于根据同一类别的软件各自对应的评论下载比的数据分布情况，选择一种概率统计分布类型；

分布子单元，用于针对该概率统计分布类型拟合分布得到该同一类别的软件对应的概率统计分布参数。

从上述本申请实施例可以看出，本申请提供的装置基于概率统计分布和小概率事件的数学原理，以软件的评论信息、下载量这些实际数据为统计分析的数据基础，能够自适应性的设置判定阈值范围，能够实现对软件推广作弊的自动检测，帮助用户甄别软件，能够加强软件下载安全防范。

另外，需要说明的是，在实际应用中，为了全面的检测软件是否为推广作弊软件，可以通过使用上述用于检测“刷好评”和“刷量”推广作弊的方法或装置。

系统实施例

最后，本申请还提供了一种软件推广作弊的检测系统，参见图5，该系统包括：

数据抓取装置501、数据存储装置502、反作弊分析平台503，

数据抓取装置、数据存储装置、反作弊分析平台，

所述反作弊分析平台包括：上述两个装置实施例中的装置，一个是用于检测“刷好评”推广作弊的检测装置5031和上述用于检测“刷量”推广作弊的检测装置5032；

所述数据存储装置，用于存储软件的评论信息和下载量；

在数据存储系统中，下载量、评论信息可以以数据表的形式进行存储。

其中，上述用于检测“刷好评”推广作弊的检测装置5031可以参见图3所示的装置结构以及上文对应的描述；上述用于检测“刷量”推广作弊的检测装置5032可以参见图4所示的装置结构以及上文对应的描述。

可选的，数据接口层可以采用HIBERNAT ORM框架，可以屏蔽底层数据库操作，直接存储含有数据的对象即可。

所述数据抓取装置，可以包括：

抓取引擎模块、抓取引擎管理模块、抓取点管理模块以及URL管理模块；

其中，URL管理模块，用于配置待抓取的网站前缀；通过网站前缀能够映射待爬取的全站软件。

抓取点管理模块，用于配置软件推广的爬取点。一般对于网站而已，其推广的软件爬取点在HTML页面中的标签位置是固定的，这样，就可以通过Joup工具或者其他爬取工具，获取软件详情页面的基本信息，如下载量、评论信息等。

抓取引擎管理模块，用于配置引擎状态，如配置全量抓取所有软件，或者配置分层抓取部分软件，还可以配置抓取频率等。

抓取引擎模块，用于根据抓取引擎管理模块的配置情况，抓取软件的下载量、评论信息。

另外，当用于检测“刷好评”推广作弊软件的装置5031、上述用于检测“刷量”推广作弊软件的装置5032，得到检测结果之后，可以通过数据接口层将检测结果存储于数据存储系统中，例如，可以将检测结果存储在结果表中。这样，当用户浏览软件时，可以直接从数据存储系统中查找对应的检测结果，以帮助用甄别软件是否为推广作弊软件。

在该系统工作时，数据抓取装置抓取软件的评论信息和下载量，存储在数据存储装置中，而反作弊分析平台从数据存储装置中获取相应的数据，如可以按照网站类型、软件类型来获取一个网站下同一类别的软件各自对应的下载量、评论信息等，基于获取的信息，反作弊分析平台检测出软件是否为推广作弊软件；反作弊分析平台还可以通过数据接口层将检测结果存储于数据存储装置中，例如在数据存储装置中建立一个结果表，专门用于存储检测结果，该检测结果能够表征软件是否为推广作弊软件。

所述领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述到的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，可以采用软件功能单元的形式实现。

需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read－Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上对本申请所提供的软件推广作弊的检测方法、装置及系统进行了详细介绍，本文中应用了具体实施例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种软件推广作弊的检测方法，其特征在于，该方法包括：

获取平台上软件的评论信息；

2.根据权利要求1所述的方法，其特征在于，所述根据软件的评论信息的相似度，计算软件的评论信息的平均相似度，包括：

根据分词向量和向量相似度的计算方法，计算软件的第N条评论信息相比在其前面的一条或者多条评论信息的相似度，将最大相似度作为第N条评论信息的相似度；所述N大于或等于1；

3.根据权利要求1所述的方法，其特征在于，所述根据软件的评论信息的信息熵，计算软件的评论信息的平均信息熵，包括：

按照香农定理计算第N条评论信息相比在其前面的一条或多条评论信息的信息增益，选取最小的信息增益作为第N条评论信息的信息增益；所述N大于或等于1；

4.根据权利要求1所述的方法，其特征在于，所述根据同一类别的每个软件各自对应的平均相似度或平均信息熵，计算得到该同一类别的软件对应的概率统计分布参数，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据同一类别的每个软件各自对应的平均相似度或平均信息熵，计算得到该同一类别的软件对应的概率统计分布参数，包括：

根据同一类别的软件各自对应的平均相似度或平均信息熵的数据分布情况，选择一种概率统计分布类型；

6.根据权利要求5所述的方法，其特征在于，

根据同一类别的软件各自对应的平均相似度或平均信息熵的数据分布情况，选择正态分布类型；

则针对正态分布拟合分布得到该同一类别的软件对应的分布参数，该分布参数包括均值和标准差；

则根据该同一类别的软件对应的概率统计分布参数设置同一类别的软件对应的判定阈值范围，该判定阈值范围是用于判定小概率事件的阈值范围，具体是：

则根据同一类别的软件对应的概率统计分布参数设置同一类别的软件对应的判定阈值范围为(－∞，μ－σ)、(－∞，μ－1.96σ)、(－∞，μ－2σ)、(－∞，μ－2.58σ)、(μ+σ，+∞)、(μ+1.96σ，+∞)、(μ+2σ，+∞)或(μ+2.58σ，+∞)，其中μ是均值，σ是标准差。

7.一种软件推广作弊的检测方法，其特征在于，该方法包括：

获取平台上软件的评论信息和下载量；

8.根据权利要求7所述的方法，其特征在于，所述根据同一类别的软件各自对应的评论下载比，计算得到该同一类别的软件对应的概率统计分布参数，包括：

9.根据权利要求7所述的方法，其特征在于，所述根据同一类别的软件各自对应的评论下载比，计算得到该同一类别的软件对应的概率统计分布参数，包括：

根据同一类别的软件各自对应的评论下载比的数据分布情况，选择一种概率统计分布类型；

10.一种软件推广作弊的检测装置，其特征在于，该装置包括：

获取单元，用于获取平台上软件的评论信息；

11.根据权利要求10所述的装置，其特征在于，所述第一计算单元，包括：

12.根据权利要求10所述的装置，其特征在于，所述第一计算单元，包括：

13.根据权利要求10所述的装置，其特征在于，所述第二计算单元，具体用于：

14.根据权利要求10所述的装置，其特征在于，所述第二计算单元，包括：

15.根据权利要求14所述的装置，其特征在于，

所述选择子单元，具体用于根据同一类别的软件各自对应的平均相似度或平均信息熵的数据分布情况，选择正态分布类型；

16.一种软件推广作弊的检测装置，其特征在于，该装置包括：

获取单元，用于获取平台上软件的评论信息和下载量；

17.根据权利要求16所述的装置，其特征在于，所述第二计算单元，具体用于：

18.根据权利要求16所述的装置，其特征在于，所述第二计算单元，包括：

19.一种软件推广作弊的检测系统，其特征在于，该系统包括：

数据抓取装置、数据存储装置、反作弊分析平台，

所述反作弊分析平台包括：权利要求10－15任一项所述的软件推广作弊检测装置和权利要求16－18任一项所述的软件推广作弊检测装置；

所述数据存储装置，用于存储软件的评论信息和下载量；