CN103577542A

CN103577542A - 应用程序的排名欺诈检测方法和排名欺诈检测系统

Info

Publication number: CN103577542A
Application number: CN201310469931.1A
Authority: CN
Inventors: 祝恒书; 于魁飞
Original assignee: Beijing Zhigu Ruituo Technology Services Co Ltd
Current assignee: Beijing Zhigu Ruituo Technology Services Co Ltd
Priority date: 2013-10-10
Filing date: 2013-10-10
Publication date: 2014-02-12
Anticipated expiration: 2033-10-10
Also published as: CN103577542B

Abstract

本发明提供了一种应用程序的排名欺诈检测方法和排名欺诈检测系统。所述方法包括：活跃期检测步骤，基于历史排名信息检测所述应用程序的活跃期；排名欺诈检测步骤，基于至少一个与用户评论相关的证据对所述活跃期进行检测，得到排名欺诈检测结果。本发明的方法及系统能够自动地识别出与应用程序有关的排名欺诈行为，从而使应用程序用户获得真实的应用程序排名信息。

Description

应用程序的排名欺诈检测方法和排名欺诈检测系统

技术领域

本发明涉及网络领域，尤其涉及一种应用程序的排名欺诈检测方法和排名欺诈检测系统。

背景技术

用户应用程序，尤其是安装并运行于移动终端的移动应用程序近年来发展迅速。为了方便用户选择并安装应用程序，很多应用程序网站或应用程序商店会集中地提供应用程序的查询、下载、评论等服务，同时还会定期地，例如每日，发布应用程序排行榜（ApplicationLeaderboard）以体现一些当前受用户欢迎的应用程序。事实上，该排行榜是促销应用程序的最重要手段之一，应用程序在排行榜上很高的排名通常会刺激用户大量下载该应用程序，并为应用程序开发者带来巨大的经济收益。因此，应用程序开发者非常希望其应用程序在排行榜上占据更高的排名。

应用程序的排名欺诈（Ranking Fraud）是指目的在于提高应用程序在应用程序排行榜上的排名而进行的欺骗行为。事实上，不同于依赖传统的市场手段来提高应用程序排名，应用程序开发者通过夸大其产品销量或发布虚假的产品评价来实施排名欺诈的行为已经越来越普遍，例如雇佣“水军（human water armies）”来在短时间内提升应用程序的下载量和评价次数等。

业界已经意识到防止排名欺诈以使应用程序用户获得真实的应用程序排名信息的重要性。为了防止应用程序的排名欺诈，现有的办法是根据一天内应用程序排名上升的程度来推断排名欺诈行为的存在，并在判断出现排名欺诈的时候直接锁定整个应用程序的排名，这种方式过于简单粗暴，难以准确判断排名欺诈行为而且伤害了正常应用程序的排名上升。可见，本领域对于应用程序的排名欺诈检测问题的理解和研究还非常有限，至今还不存在有效检测应用程序的排名欺诈的相关技术。

发明内容

本发明的目的在于提供一种应用程序的排名欺诈的检测技术，从而自动地有效识别出与应用程序有关的排名欺诈行为，以使应用程序用户获得真实的应用程序排名信息。

为解决上述技术问题，根据本发明的一个方面，提供一种应用程序的排名欺诈检测方法，所述方法包括：

活跃期检测步骤，基于历史排名信息检测所述应用程序的活跃期；

排名欺诈检测步骤，基于至少一个与用户评论相关的证据对所述活跃期进行验证，得到排名欺诈验证结果。

根据本发明的另一个方面，还提供一种应用程序的排名欺诈检测系统，所述系统包括：

活跃期检测单元，用于基于历史排名信息检测所述应用程序的活跃期；

排名欺诈检测单元，用于基于至少一个与用户评论相关的证据对所述活跃期进行验证，得到排名欺诈验证结果。

根据本发明的另一个方面，还提供一种应用程序的排名欺诈检测方法，所述方法包括：

基于至少一个与用户评论相关的证据对应用程序的活跃期进行验证，得到排名欺诈验证结果。

排名欺诈检测单元，用于基于至少一个与用户评论相关的证据对应用程序的活跃期进行验证，得到排名欺诈验证结果。

本发明的方法及设备能够自动地有效识别出与应用程序有关的排名欺诈行为，从而使应用程序用户获得真实的应用程序排名信息。

附图说明

图1是本发明具体实施方式中应用程序的活跃期检测方法的流程图；

图2a是在应用程序排行榜中活跃事件的一个示例；

图2b是在应用程序排行榜中活跃期的一个示例；

图3是本发明具体实施方式中应用程序的排名欺诈检测系统的系统结构图；

图4是本发明另一实施例中应用程序的排名欺诈检测系统的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明针对与应用程序排名相关的技术问题进行研究，因此本领域技术人员对本发明中的“应用程序”应做广义理解，其包括可发布于互联网并可供用户下载、评论、执行的各种程序或文件，即包括运行于个人电脑中的传统应用程序、运行于移动终端的移动应用程序，也包括可下载并播放的图片、音频、视频等多媒体文件等。

在检测应用程序的排名欺诈时，有几个需要解决的重要问题。首先，在应用程序的整个生命周期中并不会总出现排名欺诈，因此首先需要检测可能出现排名欺诈的时间；第二，由于应用程序数量巨大，很难手工地为每个出现排名欺诈的应用程序进行标定，因此需要提供一种自动检测排名欺诈的技术；第三，现有技术中并不确定可基于何种依据来检测排名欺诈的存在。

本发明的一个具体实施方式对应用程序的排名欺诈行为进行了整体性的分析和研究，提供了一种可检测应用程序的排名欺诈的技术，其可通过对应用程序的历史排名信息的分析来检测应用程序的“活跃期”，针对活跃期中应用程序的用户评论特征，基于与用户评论相关的证据来进行排名欺诈的检测。

根据发明人的分析发现，存在排名欺诈的应用程序并不会长期在排名榜上占据很高的排名，排名较高的情况仅是作为一些独立事件集中发生在一段相对较短的时期内，这表明排名欺诈行为正是发生在这段时期内。在本发明中，可将应用程序持续排名较高的时期称为应用程序的“活跃事件（Leading Event）”，可将频繁发生活跃事件的时期称为应用程序的“活跃期（Leading Session）”。因此，对于排名欺诈的检测首先需要检测每个应用程序有可能存在排名欺诈的该活跃事件和该活跃期。

应用程序商店运营商处拥有应用程序的历史排名信息，从应用程序商店运营商处直接获取，或通过对应用程序商店运营商在一段较长历史时期内持续发布的应用程序排行榜信息进行分析和处理，也可以获得应用程序的历史排名信息。由于应用程序的该历史排名信息记载了有关应用程序排名的历史信息和相关的用户评论信息，因此在本发明具体实施方式中，可以基于该历史排名信息来进行每个应用程序的活跃事件和活跃期的检测，并进而实现对排名欺诈的检测。通过分析应用程序的用户评论行为发现，相比于正常的应用程序而言，存在排名欺诈的应用程序在活跃事件和活跃期内会呈现成不同的用户评论特征。因此，有可能从应用程序的历史排名信息中抽取出一些与用户评论相关的用于判定排名欺诈的证据，并获取这些证据，从而实现对排名欺诈的检测。

如图1所示，本发明的一个具体实施方式中提供了一种应用程序的排名欺诈检测方法，所述方法包括：

活跃期检测步骤S10，基于历史排名信息检测所述应用程序的活跃期；排名欺诈检测步骤S20，基于至少一个与用户评论相关的证据来对所述活跃期进行检测，得到排名欺诈检测结果。

下面，结合附图来说明本发明具体实施方式中上述排名欺诈检测方法的各步骤流程和功能。

由于历史排名信息是本发明中检测应用程序的排名欺诈的数据基础，因此作为本发明的一个优选实施方式，该排名欺诈检测方法还可包括一历史排名信息获取步骤，获取所述应用程序在应用程序排行榜上的历史排名信息。

在一个应用程序被发布后，任何用户都可以对其进行文字性的评论。实际上，用户评论对于应用程序推广而言是最重要的特征之一。具有越积极评论的应用程序就会吸引越多的用户来购买或下载它，并导致该应用程序在排行榜上的更高排名。因而在历史排名信息中，可以包括历史评论信息，即历史各时间段中应用程序的用户对该应用程序做出的评论信息。

应用程序排行榜通常可显示受欢迎的排名前K位的应用程序，例如前1000位等。而且，应用程序排行榜通常会定期更新，例如每日进行更新。因此，对于每个应用程序a而言都有其历史排名信息，该历史排名信息可以包括表示为一个与离散时间序列对应的排名序列R_a＝{r₁ ^a,...,r_i ^a,...,r_n ^a}，该离散时间序列中的时间点之间的间隔固定，即应用程序排行榜的更新周期。其中，r_i ^a是该应用程序a在时间t_i时的排名，r_i ^a∈{1,...,K...,+∞}，+∞表示应用程序a不在排行榜排名前K位之列；n表示所有历史排名信息所对应的时间点总数。例如，在排行榜每天更新的情况下，t_i就表示该段历史中的第i天，n就是历史排名信息所对应的总天数。可以看出，r_i ^a的值越小，说明应用程序a第i天在排行榜上的排名越高。

在该历史排名信息获取步骤中，可以多种方式来获取该历史排名信息。例如，可从应用程序商店运营商处直接获取该历史排名信息，也可以从应用程序商店在一段较长历史时期内持续发布的数据中抽取该历史排名信息等。

S10：活跃期检测步骤，基于历史排名信息检测所述应用程序的活跃期。

活跃期表示一应用程序在应用程序排行榜上排名较高，也就是用户关注度比较高的一段时期，因此对应用程序市场会造成较大影响的排名欺诈行为只会出现在这些活跃期内。所以在本发明具体实施方式中，对于排名欺诈的检测首先要从应用程序的历史排名信息中检测出应用程序的活跃期。

在本发明一个优选实施方式中，在该活跃期检测步骤中可进一步包括一活跃事件检测步骤，基于该历史排名信息检测所述应用程序的活跃事件。

由于应用程序开发者均希望其应用程序在排行榜上占据较高的排名，因此应用程序开发者有可能利用排名欺诈的手段使其应用程序跻身排行榜前列。通过分析发现，应用程序并不会总是在排名榜上占据很高的排名，发生持续排名较高的时期即为“活跃事件”，图2a中示出了应用程序的活跃事件的例子，图中横轴表示历史排名信息对应的时间序列（Date Index），纵轴表示应用程序的排名（Ranking），图中的事件1（Event1）和事件2（Event2）表示该应用程序排名历史中所出现的两个活跃事件，其轮廓分别由活跃事件期间的排名点连接而成。

在本发明具体实施方式中，应用程序在应用程序排行榜上排名较高的标准是该应用程序的排名不大于一排名阈值K*。由于应用程序的排名在排行榜前K*位之列被认为是排名较高，因而应用程序的排名持续在前K*位之列的时间段即可被认为是一个活跃事件，该活跃事件应从该应用程序开始进入排行榜前K*位之列开始，持续到该应用程序跌出排行榜前K*位之列结束。

优选地，本发明实施方式中的方法还可包括一设置该排名阈值K*的步骤，从而确定应用程序在应用程序排行榜上排名较高的标准。由于排行榜上的应用程序总数量K通常很大，例如为1000等，因此上述排名阈值K*通常小于K值。根据应用程序排行榜中应用程序的总数量K和本领域技术人员的分析需求等因素，该排名阈值K*可在例如1～500之间的整数间取值。本领域技术人员可以理解，K*的取值越小，应用程序被认为排名较高的标准就越高。在图2a中，该K*的取值为300。

根据上述对于活跃事件的文字表述，应用程序a的活跃事件e可以如下公式化表述：

给定一排名阈值K*作为排名较高的标准，其中K*∈[1,K]；应用程序a的活跃事件e包括从一开始时间到一结束时间的一时间范围对应的应用程序a的排名满足

且

r_{end}^{a} \leq K * < r_{end + 1}^{a},

而且

{&ForAll; t}_{k} &Element; (t_{start}^{e}, t_{end}^{e})

均满足r_k ^a≤K*。

根据上述表述可以看出，对于活跃事件的检测重要的在于检测应用程序的排名持续在前K*位之列的一段时间的开始时间和结束时间，并将一对开始时间和结束时间之间的时期确定为活跃事件。因此，在本发明具体实施方式中，该活跃事件检测步骤可进一步包括如下步骤：

开始时间识别步骤S101：在该步骤中，从历史排名信息中识别出活跃事件的开始时间。具体地，在该开始时间识别步骤中，可顺序搜索历史排名信息中每个时间点上的应用程序排名，当当前时间点的排名不大于排名阈值K*且上一时间点的排名大于排名阈值K*时，识别当前时间点为活跃事件的开始时间。本领域技术人员可以理解，由于在应用程序排名历史中可能包括多个活跃事件，因此在该开始时间识别步骤中可能识别出多个开始时间点。

结束时间识别步骤S102：在该步骤中，从历史排名信息中识别出活跃时间的结束时间。具体地，在该结束时间识别步骤中，可顺序搜索历史排名信息中每个时间点上的应用程序排名，当当前时间点的排名大于排名阈值K*且上一时间点的排名不大于排名阈值K*时，识别上一时间点为活跃事件的结束时间。本领域技术人员可以理解，由于在应用程序排名历史中可能包括多个活跃事件，因此在该结束时间识别步骤中可能识别出多个结束时间点。

活跃事件识别步骤S103：在该步骤中将每个开始时间与其之后相邻的结束时间之间的时间段识别为活跃事件，这样就检测出了应用程序在排名历史中的所有活跃事件。

值得说明的是，作为一种特殊情况，如果在所分析和处理的历史时期的第一个时间点上，例如在历史记录中的第一天，应用程序的排名就在排行榜前K*位之列，此时在所述开始时间识别步骤S101中，将该第一个时间点定义为一个开始时间。类似地，如果在所分析和处理的历史时期的最后一个时间点上，例如今天，应用程序的排名仍在排行榜前K*位之列，此时在所述结束时间识别步骤S102中将该最后一个时间点定义为一个结束时间。

上面介绍了检测应用程序中活跃事件的方式，在此基础上，在本发明一个优选实施方式中，可在该活跃期检测步骤中合并相邻近的活跃事件以构成所述活跃期。

通过进一步研究发现，一些应用程序会在一段时期内连续出现多次彼此相邻近的活跃事件，这段时期就是本发明中应用程序的“活跃期”。可见，将相邻近的活跃事件合并起来就构成了活跃期。具体地，可将相邻两个活跃事件的时间间隔小于一间隔阈值φ作为将两个活跃事件合并在同一活跃期内的标准，而相邻两个活跃事件的时间间隔则是指相邻两个活跃事件中前一活跃事件的结束时间和后一活跃事件的开始时间之间的间隔。

优选地，本发明实施方式中的方法还可包括一设置该间隔阈值φ的步骤，从而确定将两个活跃事件合并在同一活跃期内的标准。根据本领域技术人员的分析需求等因素，该间隔阈值φ的取值可以是应用程序排行榜的更新周期的2～10倍中的整数值。本领域技术人员可以理解，间隔阈值φ的取值越小，将两个活跃事件合并在同一活跃期内的标准就越高。

图2b中示出了应用程序的活跃期的例子，图中横轴表示历史排名信息对应的时间序列（Date Index），纵轴表示应用程序的排名（Ranking），图中的期间1（Session1）和期间2（Session2）代表该应用程序排名历史中所出现的两个活跃期，每个活跃期由多个活跃事件构成。

根据上述对于活跃期的文字表述，应用程序a的活跃期s可以如下公式化表述：

应用程序a的活跃期s包括一时间范围

和n个相邻的活跃事件{e₁,...,e_n}，其满足

且不存在其它活跃期s*使得

此外，

都有其中φ是预设的活跃事件间隔阈值，是用于判断活跃事件之间相邻程度以将它们纳入同一活跃期的判断标准。

根据上述表述可以看出，对于活跃期的检测重要的在于基于间隔阈值φ将应用程序排名历史中相邻近的活跃事件合并以形成活跃期。具体地，在本发明具体实施方式的活跃期检测步骤中，从历史排名信息中的初始时间点开始顺序搜索每个检测出的活跃事件，当当前活跃事件与上一活跃事件的时间间隔小于该间隔阈值φ时，将这两个活跃事件合并在同一活跃期内，直至搜索完所有检测出的活跃事件以检测出该应用程序在排名历史中的所有活跃期。

值得说明的是，作为一种特殊情况，如果一个活跃事件并不与任何其他活跃事件相邻近，该活跃事件自身也可被认为构成一活跃期。在这种情况下，在该活跃期检测步骤中，当一活跃事件与上一活跃事件的时间间隔不小于所述间隔阈值φ，且该活跃事件与下一活跃事件的时间间隔不小于所述间隔阈值φ时，检测该活跃事件自身为一活跃期。

正如前文所述，所检测出的上述活跃期表示一应用程序在应用程序排行榜上排名较高，也就是受到用户欢迎的一段时期，所检测出的该活跃期可作为包括检测排名欺诈在内的各种应用程序服务的数据基础。因此，在检测出应用程序的活跃期之后，作为本发明一个优选实施方式，还可以将所检测出的应用程序的活跃期信息发送给应用程序开发者、应用程序商店运营商或应用程序的终端用户。

对于应用程序开发者而言，其可以根据该活跃期信息分析相关技术领域的发展趋势或应用程序用户的需求，从而指导应用程序的开发和运营；对于应用程序商店运营商而言，其可以根据该活跃期信息进一步分析出利用欺诈手段获取排行榜上虚假高排名的排名欺诈行为等，从而改进应用程序商店的运营；而对于应用程序终端用户而言，他们可以根据该活跃期信息来自行判断应用程序存在排名欺诈的可能性或者选择符合自身需求的应用程序等。

此外，作为检测应用程序的活跃事件和活跃期的一种具体实现方式，如下的算法1示出了在给定应用程序a的历史排名信息中检测活跃期的一个程序代码的实例。

在上述算法1中，将每个活跃事件e定义为

将活跃期s定义为

其中E_s是在活跃期s内活跃事件的集合。特别地，首先从历史排名信息的开始时间起抽取应用程序a的各个活跃事件e（算法1中的步骤2-5）。对于每个抽取出的活跃事件e，检测e与前一个活跃事件e*之间的时间间隔以判断它们是否属于同一个活跃期。具体地，如果

活跃事件e则被认为属于一个新的活跃期（算法1中的步骤7-13）。这样，上述算法1可以通过对应用程序a的历史排名信息的一次扫描来识别活跃事件和活跃期。

排名欺诈检测步骤S20，基于至少一个与用户评论相关的证据来对所述活跃期进行检测，得到排名欺诈检测结果。

正如上文中对历史排名信息的介绍，其包括历史评论信息，即历史各时间段中应用程序的用户对该应用程序做出的用户评论。同时，活跃期是应用程序有可能发生排名欺诈的时期。因此，可对应用程序活跃期中历史排名信息的用户评论特征进行分析，抽取出一些与用户评论相关的信息作为用于检测排名欺诈的证据。

具体地，在一个应用程序被发布后，绝大多数的应用程序网站或者应用程序商店允许用户针对应用程序写出文本格式的用户评论。这些用户评论可以反映出用户对特定应用程序的个人观点或者使用体验。实际上，用户评论对于应用程序推广而言是最重要的特征之一，同时伪造的用户评论也是排名欺诈最重要的方面之一。在下载或购买新的应用程序之前，用户通常会先浏览一下历史评论信息中的用户评论来帮助他们做决定，具有越多积极评论的应用程序就会吸引越多的用户来购买或下载它，并导致该应用程序在排行榜上的更高排名。因此，排名造假者通常会针对特定应用程序发布虚假的用户评论以刺激该应用程序的购买量或下载量，从而迅速提升该应用程序在排行榜上的排名。如果应用程序的活跃期s中存在排名欺诈，在活跃期s的时间段内的用户评论将具有与其他历史阶段的用户评论不同的异常特征，该特征可用于构建用于检测排名欺诈的与用户评论相关的证据。

作为本发明的一个优选实施方式，该排名欺诈检测步骤可进一步包括一证据验证步骤，基于至少一个与用户评论相关的证据对所述活跃期进行验证并得到一欺诈参数。这样，在抽取出与用户评论有关的证据之后，可计算与该证据对应的欺诈参数，该欺诈参数本身可作为本实施方式中的排名欺诈检测方法的排名欺诈检测结果。由于影响应用程序的用户评论特征的因素较为复杂，仅依靠一个或多个与用户评论相关的证据可能无法完全准确地判断一个应用程序是否存在排名欺诈而是仅得到一个供参考的检测值（欺诈参数），但是本领域技术人员完全可以根据该欺诈参数来判断应用程序存在排名欺诈的可能性。

事实上，由于人力成本太高，绝大多数的虚假用户评论都是由预先设定的机器实施的。因此，用户评论造假者通常频繁发布大量相同或者相似的用户评论以提升该应用程序的排名。相反，由于不同用户具有不同的个人观点和使用体验，正常的应用程序通常会具有多样性的用户评论。作为本发明的一个优选实施方式，与用户评论相关的证据可基于活跃期内用户评论间的相似程度来构成，并基于所构成的该证据计算出一证据值作为用于判断排名欺诈的欺诈参数。

例如，可计算在活跃期s内用户评论间的平均相似度Sim(s)作为该欺诈参数。具体地，可以如下步骤来计算该欺诈参数Sim(s)：

首先，对在活跃期s内的每一条用户评论c进行标准化处理。例如，对于中文用户评论而言，可将“的”、“这个”等虚词删除，对于英文用户评论而言，可将“of”、“the”等词删除，并将动词、形容词的变形去除等（例如将plays变为play，将better变为good等）。

然后，为每一条用户评论c构建标准化词汇向量

其中n是活跃期s内所有用户评论中所有不同的标准化词汇的总数量。具体地，可以有

其中freq_i,c是第i个词汇在用户评论c中的出现频率。

最后，可通过余弦相似度

来计算用户评论c_i与用户评论c_j之间的相似度。因此，可以通过例如如下公式来计算欺诈参数Sim(s)：

Sim (s) = \frac{2 \times Σ_{1 \leq i \leq j \leq N_{s}} Cos (\overset{&RightArrow;}{ω_{c_{i}}}, \overset{&RightArrow;}{ω_{c_{j}}})}{N_{s} \times (N_{s} - 1)} - - - (1)

其中N_s是活跃期s内用户评论的总数目。

可见，Sim(s)值越大就说明活跃期s内包含更多相同或相似的用户评论。因此，相比于排行榜上其他应用程序的活跃期，如果一个应用程序的活跃期s包含明显较大的Sim(s)值，该应用程序就有很大可能性存在排名欺诈。

通过对应用程序的用户评论进行分析发现，每一条用户评论c都会与一个特定的潜在主题z相关。例如，有的用户评论与潜在主题“值得下载”相关，有的用户评论与签在主题“非常无聊”相关。同时，由于不同用户会对应用程序有不同的个人偏好，每个应用程序a在其用户评论历史记录中应具有不同的主题分布。对于一个正常的应用程序a而言，其活跃期s内的用户评论的主题分布p(z|s)应当和该应用程序a在整个历史记录中用户评论的主题分布p(z|a)相一致。相反，如果一个应用程序在其活跃期s内存在虚假用户评论，上述两种主题分布将会出现明显差异，例如在活跃期内会出现更多的积极用户评论，如“值得下载”、“受欢迎”等。作为本发明的一个优选实施方式，与用户评论相关的证据可基于应用程序在活跃期内用户评论的主题分布和历史评论信息中用户评论的主题分布构成，并基于所构成的该证据计算出一证据值作为用于判断排名欺诈的欺诈参数。

例如，可计算应用程序在活跃期内用户评论的主题分布和历史评论信息中用户评论的主题分布之间的差值，作为该欺诈参数。

在现有技术中存在各种用于抽取潜在主题的主题建模技术。在本发明具体实施方式中，可采用现有技术中广泛采用的潜在狄利柯雷分配模型（Latent Dirichlet Allocation Model）来抽取用户评论中的所有潜在主题（D.M.Blei,A.Y.Ng,and M.I.Jordan.Latent dirichletallocation.Journal of Machine Learning Research,Pages993-1022,2003）。之后，可基于所抽取出的用户评论中的所有潜在主题来计算应用程序在活跃期内用户评论的主题分布和历史评论信息中用户评论的主题分布之间的差值。

具体地，首先可以通过

来计算p(z_i|s)的值，其中

是在活跃期s内用户评论的主题为zi的用户评论数目，

是在活跃期s内总的用户评论数目；同时可以使用类似的方式来计算p(z_i|a)；然后计算应用程序在活跃期内用户评论的主题分布和历史评论信息中用户评论的主题分布之间的差值。作为一种具体实现方式，可以使用p(z_i|s)与p(z_i|a)之间的余弦距离D(s)来估计它们之间的差值。通过公式化描述，该欺诈参数D(s)如下：

D (s) = \frac{Σ_{i = 1}^{M} p (z_{i} | s) \times p (z_{i} | a)}{\sqrt{Σ_{i = 1}^{M} p {(z_{i} | s)}^{2} \times \sqrt{Σ_{i = 1}^{M} p {(z_{i} | a)}^{2}}}} - - - (2)

其中，M是所抽取出的用户评论的主题的总数量。可见，相比于排行榜上其他应用程序的活跃期，如果一个应用程序的活跃期s包含明显较大的D(s)值，该应用程序就有很大可能性存在排名欺诈。

上面介绍了多种与用户评论相关的证据，除了在上述各优选实施方式中单独使用它们中的一个来进行排名欺诈检测之外，在证据验证步骤的一个优选实施方式中，还可以综合考虑上述与用户评论相关的证据中的多个，将基于这些证据验证得到的对应欺诈参数进行加权计算，从而得到一个最终欺诈参数。考虑到上述多种证据有可能具有不同量纲，本领域技术人员可以根据实际分析需求中对于各证据的重视程度，基于现有技术中公知的归一化方法和权重确定方法来确定各欺诈参数的权重值，在此不再赘述。

以上介绍了在排名欺诈检测步骤中的证据验证步骤，其可基于至少一个与用户评论相关的证据对所述活跃期进行验证并得到一欺诈参数，该欺诈参数本身就可以作为排名欺诈检测方法的排名欺诈检测结果。但是为了使本领域技术人员更加方便地进行排名欺诈检测，在一个优选实施方式中，排名欺诈检测步骤还可以进一步包括一欺诈参数判断步骤，将根据证据所计算得到的欺诈参数与一阈值进行比较，从而直观地判断出判断应用程序是否存在排名欺诈。

本领域技术人员可以理解，基于上文中所介绍的多种与用户评论相关的证据，本领域技术人员可以根据证据的不同性质和检测需求分别设置相应的阈值，根据所设置的阈值来进行应用程序是否存在排名欺诈的判断，并将判断的最终结果作为本发明具体实施方式中排名欺诈检测方法的排名欺诈检测结果。例如，对于上文中所介绍的多种与用户评论相关的证据而言，当计算出的欺诈参数超过所设置的阈值时，判断出该应用程序存在排名欺诈现象。

在排名欺诈检测步骤中得到排名欺诈检测结果后，在本发明一个优选实施方式中，还可以将所得到的排名欺诈检测结果发送给应用程序商店运营商或应用程序的终端用户。对于应用程序商店运营商而言，其可以根据该排名欺诈检测结果改进应用程序商店的运营；而对于应用程序终端用户而言，他们可以根据该排名欺诈检测结果来选择符合自身需求的应用程序等。

如图3所示，本发明具体实施方式中还提供了一种应用程序的排名欺诈检测系统100，所述系统100包括：

活跃期检测单元110，用于基于历史排名信息检测所述应用程序的活跃期；排名欺诈检测单元120，用于基于至少一个与用户评论相关的证据对所述活跃期进行检测，得到排名欺诈检测结果。

下面，结合附图来说明上述检测系统的各单元功能。

由于历史排名信息是本发明中检测应用程序的排名欺诈的数据基础，因此作为本发明的一个优选实施方式，该排名欺诈检测系统100还可包括一历史排名信息获取单元，用于获取所述应用程序在应用程序排行榜上的历史排名信息。

该历史排名信息获取单元可以多种方式来获取该历史排名信息。例如，可从应用程序商店运营商处直接获取该历史排名信息，也可以从应用程序商店在一段较长历史时期内持续发布的数据中抽取该历史排名信息等。

活跃期检测单元110，用于基于历史排名信息检测所述应用程序的活跃期。

在本发明一个优选实施方式中，该活跃期检测单元110可进一步包括一活跃事件检测模块，用于基于该历史排名信息检测所述应用程序的活跃事件。

优选地，本发明实施方式中的系统还可包括一排名阈值设置单元，用于设置排名阈值K*的值，从而确定应用程序在应用程序排行榜上排名较高的标准。该排名阈值K*的取值可以是1～500之间的整数。

在本发明具体实施方式中，该活跃事件检测模块进一步包括：

开始时间识别模块111，用于从历史排名信息中识别出活跃事件的开始时间。具体地，该开始时间识别模块可顺序搜索历史排名信息中每个时间点上的应用程序排名，当当前时间点的排名不大于排名阈值K*且上一时间点的排名大于排名阈值K*时，识别当前时间点为活跃事件的开始时间。

结束时间识别模块112，用于从历史排名信息中识别出活跃时间的结束时间。具体地，该结束时间识别模块可顺序搜索历史排名信息中每个时间点上的应用程序排名，当当前时间点的排名大于排名阈值K*且上一时间点的排名不大于排名阈值K*时，识别上一时间点为活跃事件的结束时间。

活跃事件识别模块113，用于将每个开始时间与其之后相邻的结束时间之间的时间段识别为活跃事件，这样就检测出了应用程序在排名历史中的所有活跃事件。

值得说明的是，作为一种特殊情况，如果在所分析和处理的历史时期的第一个时间点上，例如在历史记录中的第一天，应用程序的排名就在排行榜前K*位之列，此时该开始时间识别模块111将该第一个时间点定义为一个开始时间。类似地，如果在所分析和处理的历史时期的最后一个时间点上，例如今天，应用程序的排名仍在排行榜前K*位之列，此时该结束时间识别模块112将该最后一个时间点定义为一个结束时间。

在本发明一个优选实施方式中，该活跃期检测单元110用于合并相邻近的活跃事件以构成所述应用程序的所述活跃期。

优选地，本发明实施方式中的排名欺诈检测系统100还可包括一间隔阈值设置单元，用于设置该间隔阈值φ的值，从而确定将两个活跃事件合并在同一活跃期内的标准。该间隔阈值φ的取值可以是应用程序排行榜的更新周期的2～10倍中的一整数值。

在本发明具体实施方式中，活跃期检测单元110从历史排名信息中的初始时间点开始顺序搜索每个检测出的活跃事件，当当前活跃事件与上一活跃事件的时间间隔小于该间隔阈值φ时，将这两个活跃事件合并在同一活跃期内，直至搜索完所有检测出的活跃事件以检测出该应用程序在排名历史中的所有活跃期。

值得说明的是，作为一种特殊情况，如果一个活跃事件并不与任何其他活跃事件相邻近，该活跃事件自身也可被认为构成一活跃期。在这种情况下，该活跃期检测单元110用于当一活跃事件与上一活跃事件的时间间隔不小于所述间隔阈值φ，且该活跃事件与下一活跃事件的时间间隔不小于所述间隔阈值φ时，检测该活跃事件自身为一活跃期。

作为本发明一个优选实施方式，排名欺诈检测系统100还可以包括一活跃期发送单元，将所检测出的应用程序的活跃期信息发送给应用程序开发者、应用程序商店运营商或应用程序用户。

排名欺诈检测单元120，用于基于至少一个与用户评论相关的证据来对所述活跃期进行检测，得到排名欺诈检测结果。

作为本发明的一个优选实施方式，该排名欺诈检测单元120可进一步包括一证据验证模块，用于基于至少一个与用户评论相关的证据对所述活跃期进行验证并得到一欺诈参数。

在一个优选实施方式中，与用户评论相关的证据可基于活跃期内用户评论间的相似程度来构成，并基于所构成的该证据计算出一证据值作为用于判断排名欺诈的欺诈参数。在另一个优选实施方式中，与用户评论相关的证据可基于应用程序在活跃期内用户评论的主题分布和历史评论信息中用户评论的主题分布构成，并基于所构成的该证据计算出一证据值作为用于判断排名欺诈的欺诈参数。

除了在上述各优选实施方式中单独使用它们中的一个来进行排名欺诈检测之外，证据验证模块还可以综合考虑上述与用户评论相关的证据中的多个，将基于这些证据验证得到的对应欺诈参数进行加权计算，从而得到一个最终欺诈参数。

为了使本领域技术人员更加方便地进行排名欺诈检测，在一个优选实施方式中，排名欺诈检测单元120还可以进一步包括一欺诈参数判断模块，将根据证据所计算得到的欺诈参数与一阈值进行比较，从而直观地判断出判断应用程序是否存在排名欺诈。

在排名欺诈检测步骤中得到排名欺诈检测结果后，在本发明一个优选实施方式中，排名欺诈检测系统100还包括一排名欺诈检测结果发送单元，将所得到的排名欺诈检测结果发送给应用程序商店运营商或应用程序的终端用户。

本领域技术人员可以理解，当应用程序的活跃事件和活跃期信息已知的情况下，本领域技术人员可以直接根据上述活跃事件和活跃期信息来实施上述排名欺诈检测步骤，从而实现应用程序排名欺诈的检测。因此，在本发明的另一个具体实施方式中还提供了一种应用程序的排名欺诈检测方法，所述方法包括：基于至少一个与用户评论相关的证据来对应用程序的活跃期进行检测，得到排名欺诈检测结果。在该具体实施方式的应用程序排名欺诈检测方法中，所实施的技术内容与之前具体实施方式中排名欺诈检测步骤相同，此处不再赘述。

同时对应地，本发明另一个具体实施方式中还提供了一种应用程序的排名欺诈检测系统，所述系统包括：排名欺诈检测单元，用于基于至少一个与用户评论相关的证据对所述活跃期进行检测，得到排名欺诈检测结果。在该具体实施方式的应用程序排名欺诈检测系统中，所实施的技术内容与之前具体实施方式中排名欺诈检测单元相同，此处不再赘述。

图4为本发明实施例提供的一种应用程序的排名欺诈检测系统400的结构示意图，本发明具体实施例并不对排名欺诈检测系统400的具体实现做限定。如图4所示，该排名欺诈检测系统400可以包括：

处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430、以及通信总线440。其中：

处理器410、通信接口420、以及存储器430通过通信总线440完成相互间的通信。

通信接口420，用于与比如客户端等的网元通信。

处理器410，用于执行程序432，具体可以实现上述图3所述实施例中排名欺诈检测系统的相关功能。

具体地，程序432可以包括程序代码，所述程序代码包括计算机操作指令。

处理器410可能是一个中央处理器CPU，或者是特定集成电路ASIC（Application Specific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器430，用于存放程序432。存储器430可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。程序432具体可以包括：

排名欺诈检测单元，用于基于至少一个与用户评论相关的证据对所述活跃期进行检测，得到排名欺诈检测结果。

程序432具体也可以包括：

排名欺诈检测单元，用于基于至少一个与用户评论相关的证据对活跃期进行检测，得到排名欺诈检测结果。

程序432中各单元的具体实现可以参见上文实施例中的相应单元，在此不赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述装置实施例中的对应描述，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对原有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种应用程序的排名欺诈检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述排名欺诈检测步骤进一步包括：

证据验证步骤，基于至少一个与用户评论相关的证据对所述活跃期进行验证并得到一欺诈参数。

3.根据权利要求2所述的方法，其特征在于，所述与用户评论相关的证据基于所述活跃期内用户评论间的相似程度构成。

4.根据权利要求3所述的方法，其特征在于，

所述欺诈参数是所述活跃期内用户评论间的平均相似度。

5.根据权利要求4所述的方法，其特征在于，

所述证据验证步骤进一步包括：

对所述活跃期内的所有用户评论进行标准化处理；

为所述活跃期内的每一条用户评论构建标准化词汇向量；

基于所述标准化词汇向量计算所述活跃期内用户评论间的平均相似度。

6.根据权利要求2所述的方法，其特征在于，

所述与用户评论相关的证据基于应用程序在所述活跃期内用户评论的主题分布和历史评论信息中用户评论的主题分布构成。

7.根据权利要求6所述的方法，其特征在于，

所述欺诈参数是应用程序在所述活跃期内用户评论的主题分布和历史评论信息中用户评论的主题分布之间的差值。

8.根据权利要求7所述的方法，其特征在于，通过计算应用程序在所述活跃期内用户评论的主题分布和历史评论信息中用户评论的主题分布之间的余弦距离来计算它们之间的差值。

9.根据权利要求2所述的方法，其特征在于，在所述证据验证步骤中，综合考虑所述至少一个与用户评论相关的证据，将基于所述至少一个与用户评论相关的证据验证得到的对应欺诈参数进行加权计算，从而得到所述欺诈参数。

10.根据权利要求2-9中任一项所述的方法，其特征在于，所述排名欺诈检测步骤进一步包括：

欺诈参数判断步骤，将所述欺诈参数与一阈值进行比较，从而判断所述应用程序是否存在排名欺诈。

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

历史排名信息获取步骤，获取所述应用程序在应用程序排行榜上的所述历史排名信息。

12.根据权利要求11所述的方法，其特征在于，在所述历史排名信息获取步骤中，从应用程序商店运营商获取所述历史排名信息，或从应用程序商店发布的数据中抽取所述历史排名信息。

13.根据权利要求1所述的方法，其特征在于，所述历史排名信息包括历史各时间段中所述应用程序的用户对所述应用程序做出的用户评论。

14.根据权利要求1所述的方法，其特征在于，所述方法还包括：将所检测出的所述应用程序的所述活跃期发送给应用程序开发者、应用程序商店运营商、应用程序用户中的至少一个。

15.根据权利要求1所述的方法，其特征在于，所述方法还包括：将所检测出的所述排名欺诈检测结果发送给应用程序商店运营商、应用程序用户中的至少一个。

16.一种应用程序的排名欺诈检测系统，其特征在于，所述系统包括：

17.根据权利要求16所述的系统，其特征在于，所述排名欺诈检测单元进一步包括：

证据验证模块，用于基于至少一个与用户评论相关的证据对所述活跃期进行验证并得到一欺诈参数。

18.根据权利要求17所述的系统，其特征在于，所述与用户评论相关的证据基于所述活跃期内用户评论间的相似程度构成。

19.根据权利要求17所述的系统，其特征在于，所述与用户评论相关的证据基于应用程序在所述活跃期内用户评论的主题分布和历史评论信息中用户评论的主题分布构成。

20.根据权利要求17所述的系统，其特征在于，所述证据验证模块，用于综合考虑所述至少一个与用户评论相关的证据，将基于所述至少一个与用户评论相关的证据验证得到的对应欺诈参数进行加权计算，从而得到所述欺诈参数。

21.根据权利要求17-20中任一项所述的系统，其特征在于，所述排名欺诈检测单元进一步包括：

欺诈参数判断模块，用于将所述欺诈参数与一阈值进行比较，从而判断所述应用程序是否存在排名欺诈。

22.根据权利要求16所述的系统，其特征在于，所述系统还包括：

历史排名信息获取单元，用于获取所述应用程序在应用程序排行榜上的所述历史排名信息。

23.根据权利要求22所述的系统，其特征在于，所述历史排名信息获取单元，用于从应用程序商店运营商获取所述历史排名信息，或从应用程序商店发布的数据中抽取所述历史排名信息。

24.根据权利要求16所述的系统，其特征在于，所述系统还包括一活跃期发送单元，用于将所检测出的所述应用程序的所述活跃期发送给应用程序开发者、应用程序商店运营商、应用程序用户中的至少一个。

25.根据权利要求16所述的系统，其特征在于，所述系统还包括一排名欺诈检测结果发送单元，用于将所检测出的所述排名欺诈检测结果发送给应用程序商店运营商、应用程序用户中的至少一个。

26.一种应用程序的排名欺诈检测方法，其特征在于，所述方法包括：

27.根据权利要求26所述的方法，其特征在于，所述方法进一步包括：

28.根据权利要求27所述的方法，其特征在于，所述与用户评论相关的证据基于所述活跃期内用户评论间的相似程度构成。

29.根据权利要求28所述的方法，其特征在于，

所述欺诈参数是所述活跃期内用户评论间的平均相似度。

30.根据权利要求29所述的方法，其特征在于，

所述证据验证步骤进一步包括：

对所述活跃期内的所有用户评论进行标准化处理；

为所述活跃期内的每一条用户评论构建标准化词汇向量；

31.根据权利要求27所述的方法，其特征在于，

32.根据权利要求31所述的方法，其特征在于，

33.根据权利要求32所述的方法，其特征在于，通过计算应用程序在所述活跃期内用户评论的主题分布和历史评论信息中用户评论的主题分布之间的余弦距离来计算它们之间的差值。

34.根据权利要求27所述的方法，其特征在于，在所述证据验证步骤中，综合考虑所述至少一个与用户评论相关的证据，将基于所述至少一个与用户评论相关的证据验证得到的对应欺诈参数进行加权计算，从而得到所述欺诈参数。

35.根据权利要求27-34中任一项所述的方法，其特征在于，所述方法进一步包括：

36.根据权利要求26所述的方法，其特征在于，所述方法还包括：将所检测出的所述排名欺诈检测结果发送给应用程序商店运营商、应用程序用户中的至少一个。

37.一种应用程序的排名欺诈检测系统，其特征在于，所述系统包括：

38.根据权利要求37所述的系统，其特征在于，所述排名欺诈检测单元进一步包括：

39.根据权利要求38所述的系统，其特征在于，所述与用户评论相关的证据基于所述活跃期内用户评论间的相似程度构成。

40.根据权利要求38所述的系统，其特征在于，所述与用户评论相关的证据基于应用程序在所述活跃期内用户评论的主题分布和历史评论信息中用户评论的主题分布构成。

41.根据权利要求38所述的系统，其特征在于，所述证据验证模块，用于综合考虑所述至少一个与用户评论相关的证据，将基于所述至少一个与用户评论相关的证据验证得到的对应欺诈参数进行加权计算，从而得到所述欺诈参数。

42.根据权利要求38-41中任一项所述的系统，其特征在于，所述排名欺诈检测单元进一步包括：

43.根据权利要求27所述的系统，其特征在于，所述系统还包括一排名欺诈检测结果发送单元，用于将所检测出的所述排名欺诈检测结果发送给应用程序商店运营商、应用程序用户中的至少一个。