CN110189165B

CN110189165B - 渠道异常用户和异常渠道识别方法及装置

Info

Publication number: CN110189165B
Application number: CN201910398508.4A
Authority: CN
Inventors: 张景鹏; 郭佳; 徐路; 美惠; 李油
Original assignee: Weibo Internet Technology China Co Ltd
Current assignee: Weibo Internet Technology China Co Ltd
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2021-07-23
Anticipated expiration: 2039-05-14
Also published as: CN110189165A

Abstract

本申请公开了一种渠道异常用户和一种异常渠道识别方法及装置，涉及互联网技术领域。所述方法包括：根据预设规则从渠道中确定疑似异常用户组，所述疑似异常用户组中包括多个疑似异常的用户；根据所述疑似异常用户组中的用户在目标行为属性上的行为数据，确定所述疑似异常用户组中的用户在所述目标行为属性上的信息熵，再根据所述目标行为属性上的信息熵确定所述疑似异常用户组中的用户是否为异常用户；进一步根据渠道下异常用户的占比来判断所述渠道是否为异常渠道。通过确定异常用户进而确定异常渠道，结果更为准确。

Description

渠道异常用户和异常渠道识别方法及装置

技术领域

本申请涉及互联网技术领域，尤其涉及渠道异常用户和异常渠道识别方法及装置。

背景技术

目前APP(Application，应用程序)上线之后，一般会借助渠道进行APP的线上推广以扩大该APP的用户群，在实际应用中能够用于APP线上推广的渠道可以包括APP应用商店、网络媒介广告等推广平台。但是有些渠道的运营商会采用作弊的方式虚假扩大渠道下的用户数量以骗取推广费，例如，通过机器模拟用户下载APP、刷留存等，致使渠道下异常用户数量众多，进而造成渠道的价值转换率低和推广费的浪费，所以渠道中的异常用户的识别对于有效推广APP具有重要意义。

发明内容

本发明实施例提供一种渠道异常用户和一种异常渠道识别方法及装置，以解决渠道下异常用户数量众多造成渠道推广费用浪费的问题。

第一方面，本发明实施例提供了一种渠道异常用户识别方法，所述方法包括：

根据预设规则从渠道中确定疑似异常用户组，所述疑似异常用户组中包括多个疑似异常的用户；

根据所述疑似异常用户组中的用户在目标行为属性上的行为数据，确定所述疑似异常用户组中的用户在所述目标行为属性上的信息熵，其中，所述信息熵用于表征用户在行为属性上的集中程度；

根据所述目标行为属性上的信息熵确定所述疑似异常用户组中的用户是否为异常用户。

第二方面，本发明实施例提供了一种基于本发明提供的渠道异常用户识别方法的异常渠道识别方法，所述方法包括：

确定待识别渠道中的异常用户在待识别渠道总用户中的占比；

当所述占比大于预设占比阈值时，将所述待识别渠道确定为异常渠道。

第三方面，本发明实施例提供了一种渠道异常用户识别装置，所述装置包括：

疑似异常用户确定单元，用于根据预设规则从渠道中确定疑似异常用户组，所述疑似异常用户组中包括多个疑似异常的用户；

信息熵计算单元，用于根据所述疑似异常用户组中的用户在目标行为属性上的行为数据，确定所述疑似异常用户组中的用户在所述目标行为属性上的信息熵，其中，所述信息熵用于表征用户在行为属性上的集中程度；

异常用户确定单元，用于根据所述目标行为属性上的信息熵确定所述疑似异常用户组中的用户是否为异常用户。

第四方面，本发明实施例提供了一种基于本发明提供的渠道异常用户识别方法的异常渠道识别装置，所述装置包括：

异常用户占比确定单元，用于确定待识别渠道中的异常用户在待识别渠道总用户中的占比；

异常渠道确定单元，用于当所述占比大于预设占比阈值时，将所述待识别渠道确定为异常渠道。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

采用本申请实施例提供的方案，根据各种预设的规则筛选出疑似异常用户组，并根据所述疑似异常用户组中的用户在各目标行为属性上的信息熵，确定所述疑似异常用户组中的用户是否为异常用户，由得到的异常用户，进一步根据渠道下异常用户的占比数量判断渠道是否异常。通过本身请提供的方案，可以准确识别异常用户以及异常渠道，能够有效提高APP线上推广的精度，进而减少异常渠道的投放费用。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种渠道异常用户识别方法的流程示意图；

图2为本申请实施例提供的一种异常渠道识别方法的具体实施案例示意图；

图3为本申请实施例提供的一种渠道异常用户识别装置结构示意图；

图4为本申请实施例提供的一种异常渠道识别装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

实施例1

如上所述，目前线上推广APP时，一般会借助渠道扩大用户群，但不同渠道下用户的质量，消费能力，活跃强度存在差异，特别是异常用户注册激活转化率低，留存时间短等，导致渠道价值转换率低，浪费渠道的推广投放费用。

为解决上述技术问题，本申请实施例1提供了一种渠道异常用户识别方法。通过对渠道的用户进行识别确定异常用户，进而可以由异常用户确定异常渠道。

如图1所示，该方法包括下述步骤：

步骤S11：根据预设规则从渠道中确定疑似异常用户组，所述疑似异常用户组中包括多个疑似异常的用户。

在实际的推广过程中，APP的开发者通常通过各种线上推广渠道发布APP，使得更多用户得以获取APP，开发者一般基于渠道下APP下载数量、注册激活数量、用户留存率等付费给渠道运营商，基于此种原因，渠道运营商可能制造虚假用户以骗取推广费用，导致渠道中存在着大量异常用户。渠道运营商一般会使用刷机软件产生批量用户，通过这种方式产生的批量用户大多具有相同的行为或设备数据，例如，多个用户使用同一设备，则使用此设备的用户群体极大概率为异常用户组，即使用此设备的用户群体为疑似异常用户组，疑似异常用户组中包括多个疑似异常用户。因此，可以根据批量用户的各种特征设定规则来确定疑似异常用户组。

本申请实施例中，在一种实施方式中，根据预设规则从渠道中确定疑似异常用户组，具体包括：当渠道中使用同一设备的用户数量大于预设数量阈值时，将使用所述设备的全部用户确定为疑似异常用户组。

本申请实施例中，如果存在多个用户使用同一设备进行对APP进行下载、注册激活等行为，那么使用此设备的用户极大概率为异常用户。根据这个特点，可以设定设备规则来筛选疑似异常用户，即当渠道中使用同一设备的用户数量大于预设数量阈值时，将使用所述设备的全部用户确定为疑似异常用户组，例如，设备规则具体可以为：

同一渠道下，使用相同设备ID和ua(机型__客户端__客户端版本__操作系统__操作系统版本)的用户数量大于预设数量20时，则使用此设备的用户为疑似异常用户组，具体实现过程为：

当然，在具体的实现过程中，实际操作过程中，用户预设数量可以根据实际需要进行调整。

本申请实施例中，在一种实施方式中，根据预设规则从渠道中确定疑似异常用户组，具体包括：

当渠道中网络操作行为先后顺序相同的用户的数量大于预设数量时，将网络操作行为先后顺序相同的全部用户中在线阅读时长低于预设时长的用户确定为疑似异常用户组。

一般来说，用户的属性众多，包括和用户具体网络操作行为相关的动态属性，例如点赞、评论、转发、分享、关注、发博、收藏、搜索等网络操作行为，还包括和用户设备、地理、IP等相关的静态属性，例如设备系统、设备ID、用户生日、省份、性别、年龄、IP信息等。在实际应用中，可以从用户众多属性中挑选出需要的属性，进一步对挑选出的属性进行组合排序，根据挑选出的或进一步组合排序后的属性来确定疑似异常用户，例如，将用户的点赞、评论、转发、发博网络操作行为从多种网络操作行为中挑选出来，再将挑选出的网络操作行为设置一定先后顺序，则具有所述先后顺序网络操作行为的用户为疑似异常用户。此外，可以有多种方法从众多属性中挑选出需要属性，这里并不作限制，例如SVD降维方法等。

当多个用户具有相同的网络操作行为，且操作的先后顺序相同，并且这些用户在线阅读时长较短时，则这些用户很有可能是异常用户，根据这个特点，可以设定行为序列规则来确定疑似异常用户组，即当网络操作行为先后顺序相同的用户的数量大于预设数量时，将各所述用户中在线阅读时长低于预设时长的用户确定为疑似异常用户组，例如，行为序列规则具体可以为：

当网络操作行为以及顺序为转发、评论、点赞、分享、关注、发博，且ua(屏幕尺寸、浏览器版本相同)数据相同、在线阅读时长为空的用户数量大于预设数量30时，则这些用户为疑似异常用户组，具体实现过程为：

在具体的实现过程中，具体的网络操作行为以及顺序可以根据需要进行设置，用户预设数量以及预设在线阅读时长也可以根据实际需要进行调整，例如，行为序列规则还可以是，当网络操作行为以及顺序为转发、点赞、发博、关注、且阅读时长小于1分钟的用户数量大于20时，则这些用户为疑似异常用户组。

本申请实施例中，在一种实施方式中，根据预设规则从渠道中确定疑似异常用户组，具体包括：将渠道中使用预设IP地址黑名单中的IP地址的用户确定为疑似异常用户组。

本申请实施例中，可以根据预设的IP地址黑名单中的IP地址来确定疑似异常用户，即使用预设黑名单中IP地址的用户为疑似异常用户组，其中预设的IP黑名单可以由历史数据得到。具体实现过程可以为：

步骤12：根据所述疑似异常用户组中的用户在目标行为属性上的行为数据，确定所述疑似异常用户组中的用户在所述目标行为属性上的信息熵，其中，所述信息熵用于表征用户在行为属性上的集中程度。

所述目标行为属性反映了用户使用APP时具体的操作以及持续状态，例如在线时长等。所述行为数据为用户具体操作以及持续状态对应产生的数据，根据所述行为数据可以得到用户对应行为属性的具体状态。

所述信息熵反映了用户在行为属性上的分布情况，一般来说，信息熵值越大，说明用户在行为属性上的分布越均衡，集中程度越弱；信息熵越小，说明用户在行为属性上的分布越不均衡，集中程度较高。因此，可以根据疑似异常用户组中的用户在目标行为属性上的信息熵，得到疑似异常用户组中用户的集中程度，进而判断疑似异常用户组中的用户是否为异常用户，即信息熵值越大说明疑似异常用户组中的用户分布越均衡，集中程度越弱，则所述疑似异常用户组中的用户为异常用户的可能性较小，相反，信息熵值越小，说明疑似异常用户组中的用户分布集中度越高，越有可能为批量行为，则所述疑似异常用户组中的用户为异常用户的可能性较大。

本申请实施例中，在一种实施方式中，根据所述疑似异常用户组中的用户在目标行为属性上的行为数据，确定所述疑似异常用户组中的用户在所述目标行为属性上的信息熵，具体包括：

确定所述疑似异常用户组中的用户在所述目标行为属性上的行为数据；

将所述行为数据作为参数代入与所述目标行为属性对应的信息熵计算方程，并将方程的计算结果作为所述信息熵。

本申请实施例中，在确定了目标行为属性对应的行为数据后，将行为数据带入对应的信息熵计算方程，可以得到对应行为属性上疑似异常用户组中用户的分布情况。

根据所述疑似异常用户组中的用户在多个目标行为属性上的行为数据，分别确定所述疑似异常用户组中的用户在各目标行为属性上所对应的信息熵；则，

根据所述目标行为属性上的信息熵确定所述疑似异常用户组中的用户是否为异常用户，具体包括：根据各目标行为属性所对应的信息熵，确定所述疑似异常用户组中的用户是否为异常用户。

本申请实施例中，分别根据所述疑似异常用户组中的用户在多个目标行为属性上的行为数据，确定所述疑似异常用户组中的用户在各所述目标行为属性上分别所对应的信息熵，进而判断所述疑似异常用户组中的用户是否为异常用户，更为准确。例如，多个目标行为属性可以是在线时长、在线阅读时长或在线阅读量等，计算根据某个预设规则确定出的疑似异常用户组中的用户分别在在线时长、在线阅读时长或在线阅读量上对应的信息熵，根据所述多个信息熵判断根据所述预设规则确定的疑似异常用户组中的用户是否为异常用户，更为准确。

本申请实施例中，可以进一步结合设备规则、行为序列规则以及IP规则筛选出的对应疑似异常用户组，计算疑似异常用户组中的用户在多个目标行为属性，例如在线时长、在线阅读时长和/或在线阅读量上的信息熵，具体实现过程可以为：

计算设备规则筛选的疑似异常用户组中的用户(下文称设备规则疑似异常用户)分别在在线时长、在线阅读时长以及在线阅读量上的信息熵，

设备规则疑似异常用户在在线时长上的信息熵计算公式：

H(ot/dr)＝-∑_ip(ot_i/dr)*log(p(ot_i/dr))

将在线时长进行分段，统计各分段上疑似异常用户的数量，其中，ot_i代表在线时段i上疑似异常用户的数量，dr代表设备规则筛选的疑似异常用户组中所有用户的数量，p(ot_i/dr)表示设备规则疑似异常用户在在线时长分段i的概率，即该时段上的疑似异常用户组中的用户占全部时段疑似异常用户的比例。

设备规则疑似异常用户在在线阅读时长上的信息熵计算公式：

H(or/dr)＝-∑_ip(or_i/dr)*log(p(or_i/dr))

将在线阅读时长进行分段，统计各分段上疑似异常用户的数量，其中，or_i代表在线阅读时长分段i上疑似异常用户的数量，p(or_i/dr)表示设备规则疑似异常用户在在线阅读时长分段i的概率，即该时段上的疑似异常用户组中的用户占全部时段疑似异常用户的比例。

设备规则疑似异常用户在在线阅读量上的信息熵计算公式：

H(oc/dr)＝-∑_ip(oc_i/dr)*log(p(oc_i/dr))

将在线阅读量的数量进行分段，统计各分段上疑似异常用户的数量，其中，oc_i代表在线阅读量分段i上疑似异常用户的数量，p(oc_i/dr)表示设备规则疑似异常用户在在线阅读量分段i下的概率，即该阅读量分段上疑似异常用户组中的用户占全部分段疑似异常用户的比例。

本申请实施例中，通过设备规则疑似异常用户在在线时长、在线阅读时长和/或在线阅读量上的信息熵，得到在线时长、在线阅读时长和/或在线阅读量上疑似异常用户组中用户的分布情况，结合三个目标行为属性判断设备规则筛选的疑似异常用户组中的用户是否为异常用户，判断结果更为准确。

计算行为序列规则筛选的疑似异常用户组中的用户(下文称行为序列规则疑似异常用户)分别在在线时长、在线阅读时长以及在线阅读量上的信息熵，

行为序列规则疑似异常用户在线时长信息熵计算公式：

H(ot/br)＝-∑_ip(ot_i/br)*log(p(ot_i/br))

将在线时长进行分段，统计各分段上疑似异常用户的数量，其中，ot_i代表在线时段i上疑似异常用户的数量，br代表行为序列规则筛选的疑似异常用户组中的所有用户的数量，p(ot_i/br)表示行为序列规则疑似异常用户在在线时长分段i的概率，即该时段上的疑似异常用户组中的用户占全部时段疑似异常用户的比例。

行为序列规则疑似异常用户在线阅读时长上信息熵计算公式：

H(or/br)＝-∑_ip(or_i/br)*log(p(or_i/br))

将在线阅读时长进行分段，统计各分段上疑似异常用户的数量，其中，or_i代表在线阅读时长分段i上疑似异常用户的数量，p(or_i/br)表示行为序列规则疑似异常用户在在线阅读时长分段i的概率，即该时段上的疑似异常用户组中的用户占全部时段疑似异常用户的比例。

行为序列规则疑似异常用户在线阅读量信息熵计算公式：

H(oc/br)＝-∑_ip(oc_i/br)*log(p(oc_i/br))

将在线阅读量的数量进行分段，统计各分段上疑似异常用户的数量，其中，oc_i代表在线阅读量分段i上疑似异常用户的数量，p(oc_i/br)表示行为序列规则疑似异常用户在在线阅读量分段i下的概率，即该阅读量分段上疑似异常用户组中的用户占全部分段疑似异常用户的比例。

本申请实施例中，通过行为序列规则疑似异常用户在在线时长、在线阅读时长和/或在线阅读量上的信息熵，得到在线时长、在线阅读时长和/或在线阅读量上疑似异常用户组中用户的分布情况，结合三个目标行为属性判断行为序列规则筛选的疑似异常用户组中的用户是否为异常用户，判断结果更为准确。

计算IP规则筛选的疑似异常用户(下文称IP规则疑似异常用户)分别在在线时长、在线阅读时长以及在线阅读量上的信息熵，

IP规则疑似异常用户在线时长信息熵计算公式：

H(ot/pr)＝-∑_ip(ot_i/pr)*log(p(ot_i/pr))

将在线时长进行分段，统计各分段上疑似异常用户的数量，其中，ot_i代表在线时段i上疑似异常用户的数量，pr代表IP规则筛选的疑似异常用户组中所有用户的数量，p(oc_i/pr)表示IP规则疑似异常用户在在线时段i的概率，即该时段上的疑似异常用户组中的用户占全部时段疑似异常用户的比例。

IP规则疑似异常用户在线阅读时长上信息熵计算公式：

H(or/pr)＝-∑_ip(or_i/pr)*log(p(or_i/pr))

将在线阅读时长进行分段，统计各分段上疑似异常用户的数量，其中，or_i代表在线阅读时长分段i上疑似异常用户的数量，p(oc_i/pr)表示IP规则疑似异常用户在在线阅读时长分段i的概率，即该时段上的疑似异常用户组中的用户占全部时段疑似异常用户的比例。

IP规则疑似异常用户在线阅读量维度上信息熵计算公式：

H(oc/pr)＝-∑_ip(oc_i/pr)*log(p(oc_i/pr))

将在线阅读量的数量进行分段，统计各分段上疑似异常用户的数量，其中，oc_i代表在线阅读量分段i上疑似异常用户的数量，p(oc_i/pr)表示IP规则疑似异常用户在在线阅读量分段i下的概率，即该阅读量分段上疑似异常用户组中的用户占全部分段疑似异常用户的比例。

本申请实施例中，通过IP规则疑似异常用户在在线时长、在线阅读时长和/或在线阅读量上的信息熵，得到在线时长、在线阅读时长和/或在线阅读量上疑似异常用户组中用户的分布情况，结合三个目标行为属性判断IP规则筛选的疑似异常用户组中的用户是否为异常用户，判断结果更为准确。

步骤S13：根据所述目标行为属性上的信息熵确定所述疑似异常用户组中的用户是否为异常用户。

本申请实施例中，信息熵值越大说明疑似异常用户组中的用户分布越均衡，集中程度越弱，则所述疑似异常用户组中的用户为异常用户的可能性较小，相反熵越小说明疑似异常用户组中的用户分布集中度越高，越有可能为批量行为，则所述疑似异常用户组中的用户为异常用户的可能性较大。

本申请实施例中，在一种实施方式中，所述根据各目标行为属性所对应的信息熵，确定所述疑似异常用户组中的用户是否为异常用户，具体包括：

确定各目标行为属性所对应的信息熵的平均值或加权平均值；

根据所述平均值或加权平均值计算所述疑似异常用户组中的用户为异常用户的概率；

当所述概率大于预设概率阈值时，则确定所述疑似异常用户组中的用户为异常用户。

本申请实施例中，通过疑似异常用户组中的用户在各目标行为属性上的信息熵确定所述疑似异常用户组中用户为异常用户的概率，可以根据一个行为属性上的信息熵，也可以根据多个属性上对应的信息熵，在实际情况中，根据多个目标行为属性对应的信息熵的平均值或加权平均值，计算所述疑似异常用户组中的用户为异常用户的概率会更准确。

以设备规则、行为序列规则以及IP规则筛选出的疑似异常用户组中的用户的在线时长、在线阅读时长以及在线阅读量的信息熵加权平均值计算所述疑似异常用户组中的用户为异常用户的概率为例：

在实际计算过程中，由于在线时长、在线阅读时长以及在线阅读量的信息熵代表的含义不同，所以不能直接对所述信息熵进行线性比较，需要对信息熵进行统一方法的归一化，然后再通过归一化熵值计算权重，例如对H(ot/dr)进行归一化，在实际应用中，可以对一个渠道中的H(ot/dr)进行归一化，也可以统计各个渠道的H(ot/dr)，再进行归一化，一般来说，结合多个渠道的数据计算疑似异常用户组中的用户为异常用户的概率更为准确。以结合多个渠道的H(ot/dr)为例：

首先，统计H(ot/dr)在各个渠道的值，并用entropy_list存储各个渠道下的H(ot/dr)值，且按照从小到大进行排序；然后，按照公式对熵值进行归一化，并把归一化的值记为w(ot/dr)，具体计算公式如下，

Threshold＝length(entropy_list)*0.8

entropy_index＝entropy_list.index(entropy)

其中，length(entropy_list)表示有H(ot/dr)值的渠道个数，entropy表示某个渠道下的H(ot/dr)值，entropy_index表示entropy在entropy_list数组中的位置。

同样的，按照上述方法，依次对以设备规则、行为序列规则以及IP规则筛选出的疑似异常用户组中的用户的在线时长、在线阅读时长以及在线阅读量的信息熵进行归一化，得到w(or/dr)，w(oc/dr)，w(ot/br)，w(or/br)，w(oc/br)，w(ot/pr)，w(oc/pr)，w(or/pr)，然后计算上述归一化信息熵的加权平均值，具体过程如下：

将设备规则疑似异常用户分别在在线时长、在线阅读时长和在线阅读量上的归一化信息熵进行加权求和，将行为序列规则疑似异常用户分别在在线时长、在线阅读时长和在线阅读量上的归一化信息熵进行加权求和，以及将IP规则疑似异常用户分别在在线时长、在线阅读时长和在线阅读量上的归一化信息熵进行加权求和，计算公式如下，

W(dr)＝w(ot/dr)+w(or/dr)+w(oc/dr)

W(br)＝w(ot/br)+w(or/br)+w(oc/br)

W(pr)＝w(ot/pr)+w(or/pr)+w(oc/pr)

进一步地，为计算疑似异常用户组中的用户为异常用户的概率更为准确，在得到上述信息熵加权平均值之后，可以结合所述疑似异常用户组中用户的其他行为计算疑似异常用户组中的用户为异常用户的概率。

本申请实施例中，在一种实施方式中，根据所述平均值或加权平均值计算各所述疑似异常用户组中的用户为异常用户的概率，具体包括：根据所述平均值或加权平均值、所述疑似异常用户组中的用户七天内活跃天数以及触犯所述预设规则天数，计算所述疑似异常用户组中的用户为异常用户的概率。

本申请实施例中，若所述疑似异常用户组中的用户七天内活跃天数较少，触犯所述预设规则天数越多，则所述疑似异常用户组中的用户为异常用户的概率越大，可以结合下述公式进行所述疑似异常用户组中的用户为异常用户概率的计算，

P(spam_user)＝(∑_days∑_rulesw(dr|br|pr)/days)*(1+(rules_days-1)*α)

其中，days表示用户近7天活跃天数，rules表示触犯的所述各种规则，rules_days表示触犯所述预设规则的天数，α表示调整系数0.5。

若P(spam_user)大于0，则各所述疑似异常用户为异常用户。

在确定了所述疑似异常用户组中的用户为异常用户后，还可以标记识别出的异常用户，以供其他用途，例如，根据待识别渠道中异常用户的数量进一步确定待识别的渠道是否为异常渠道，基于此，本实施例还提供了一种基于本发明提供的渠道异常用户识别方法的异常渠道的识别方法，具体为：

其中，所述预设占比阈值可以根据实际情况进行设定，例如当预设占比阈值为0.8时，将所述待识别渠道确定为异常渠道。

本申请实施例中，在一种实施方式中，确定待识别渠道中的异常用户在待识别渠道总用户中的占比，具体包括：

从所述待识别渠道中随机抽取多个用户样本；

确定所述的多个用户样本中异常用户的占比，并将多个用户样本中异常用户的占比作为待识别渠道中的异常用户在待识别渠道总用户中的占比。

本申请实施例中，可以在待识别渠道中随机抽取具有一定数量用户的样本，其中，样本中的用户数量可以结合渠道中用户总数量以及实际需要进行设定，例如，样本中用户的数量可以是渠道中用户总数量的十分之一等；进一步对样本中的用户进行识别，确定样本中异常用户的占比，并将样本中异常用户的占比作为待识别渠道中异常用户的占比，通过抽样的方式确定渠道中异常用户的占比，在渠道用户数量较多的场景下，可以有效减少用户识别时间进而快速确定异常渠道。

实施例2

为解决渠道下异常用户数量众多造成渠道推广费用浪费的问题。本申请实施例2提供了一种异常渠道识别方法具体实施案例之一，如图2所示，具体如下：

首先，通过SVD降维方法在渠道下从用户的各种属性中挑选出需要属性，并对挑选出的属性进行组合生成设备信息属性、行为序列属性以及IP地址属性，然后通过预设的设备规则、行为序列规则以及IP规则筛选出对应的疑似异常用户组；其次，计算渠道下设备规则疑似异常用户、行为序列规则疑似异常用户以及IP规则疑似异常用户分别在在线时长、在线阅读时长、在线阅读量上的信息熵，并过滤信息熵为空的属性，其中，信息熵为空对应预设规则筛选的疑似异常用户数量为零的情况；再根据各预设规则疑似异常用户在各目标行为属性的信息熵，计算权重；通过用户7天内的活跃天数，触犯预设规则天数和权重值计算疑似异常用户组中的用户属于异常用户的概率；最后，通过统计渠道下异常用户的占比，如果占比大于阈值，则判定该渠道为异常渠道。

实施例3

为解决现有技术中渠道下异常用户数量众多造成渠道推广费用浪费的问题，基于与本申请实施例1相同的发明构思，本申请实施例3提供了一种渠道异常用户识别装置30，以及一种异常渠道识别装置40。对于该实施例3中的装置30以及装置40若有不清楚之处，可以参考实施例1中的相应内容。如图3所示，所述装置30具体包括：疑似异常用户确定单元301、信息熵计算单元302以及异常用户确定单元303，其中：

疑似异常用户确定单元301，用于根据预设规则从渠道中确定疑似异常用户组，所述疑似异常用户组中包括多个疑似异常的用户；

信息熵计算单元302，用于根据所述疑似异常用户组中的用户在目标行为属性上的行为数据，确定所述疑似异常用户组中的用户在所述目标行为属性上的信息熵，其中，所述信息熵用于表征用户在行为属性上的集中程度；

异常用户确定单元303，用于根据所述目标行为属性上的信息熵确定所述疑似异常用户组中的用户是否为异常用户。

由于该装置30采用与本申请实施例1相同的发明构思，因此也能够解决现有技术中的问题，这里就不再赘述。

在本申请实施例中，在一种实施方式中，疑似异常用户确定单元301根据预设规则从渠道中确定疑似异常用户组，具体包括如下任意一种：

当渠道中使用同一设备的用户数量大于预设数量阈值时，将使用所述设备的全部用户确定为疑似异常用户组；

当渠道中网络操作行为先后顺序相同的用户的数量大于预设数量时，将网络操作行为先后顺序相同的全部用户中在线阅读时长低于预设时长的用户确定为疑似异常用户组；

将渠道中使用预设IP地址黑名单中的IP地址的用户确定为疑似异常用户组。

在本申请实施例中，在一种实施方式中，信息熵计算单元302根据所述疑似异常用户组中的用户在目标行为属性上的行为数据，确定所述疑似异常用户组中的用户在所述目标行为属性上的信息熵，具体包括：

根据所述疑似异常用户组中的用户在多个目标行为属性上的行为数据，分别确定所述疑似异常用户组中的用户在各目标行为属性上分别所对应的信息熵；则，

在本申请实施例中，在一种实施方式中，所述异常用户确定单元303还包括信息熵权重计算单元、异常用户概率计算单元以及异常用户确定子单元，其中：

信息熵权重计算单元，用于确定各目标行为属性所对应的信息熵的平均值或加权平均值；

异常用户概率计算单元，用于根据所述平均值或加权平均值计算所述疑似异常用户组中的用户为异常用户的概率；

异常用户确定子单元，用于当所述概率大于预设概率阈值时，则确定所述疑似异常用户组中的用户为异常用户。

在本申请实施例中，在一种实施方式中，所述异常用户概率计算单元，具体用于根据所述平均值或加权平均值、所述疑似异常用户组中的用户七天内活跃天数以及触犯所述预设规则天数，计算所述疑似异常用户组中的用户为异常用户的概率。

在本申请实施例中，在一种实施方式中，所述信息熵计算单元302，具体用于：

一种基于本发明提供的渠道异常用户识别方法的异常渠道识别装置40，如图4所示，所述装置40具体包括：异常用户占比确定单元401以及异常渠道确定单元402，其中：

异常用户占比确定单元401，用于确定待识别渠道中的异常用户在待识别渠道总用户中的占比；

异常渠道确定单元402，用于当所述占比大于预设占比阈值时，将所述待识别渠道确定为异常渠道。

由于该装置40采用与本申请实施例1相同的发明构思，因此也能够解决现有技术中的问题，这里就不再赘述。

在本申请实施例中，在一种实施方式中，所述异常用户占比确定单元401，具体用于：

从所述待识别渠道中随机抽取多个用户样本；

确定所述多个用户样本中异常用户的占比，并将多个用户样本中异常用户的占比作为待识别渠道中的异常用户在待识别渠道总用户中的占比。

采用本申请实施例提供的装置30和装置40，根据各种预设的规则筛选出疑似异常用户组，并根据所述疑似异常用户组中的用户在各目标行为属性上的分布情况，确定所述疑似异常用户组中的用户是否为异常用户，由得到的异常用户，进一步根据各渠道下异常用户的占比情况判断渠道是否异常。通过本申请提供的方案，可以准确识别异常用户以及异常渠道，能够有效提高APP线上推广的精度，进而减少异常渠道的投放费用。

需要说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

另外，本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的电子设备执行时，能够使该电子设备执行图1所示实施例中数据存储装置执行的方法，并具体用于执行：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种渠道异常用户识别方法，其特征在于，所述方法包括：

根据所述目标行为属性上的信息熵确定所述疑似异常用户组中的用户是否为异常用户；

其中，所述目标行为属性包括在线时长，在线阅读时长和在线阅读量，所述疑似异常用户组中的用户在所述目标行为属性上的信息熵的计算公式，包括：

疑似异常用户在在线时长上的信息熵计算公式：

；

将在线时长进行分段，统计各分段上疑似异常用户的数量，ot _i表示在线时段i上疑似异常用户的数量，dr表示根据预设规则筛选的疑似异常用户组中所有用户的数量，p(ot _i /dr)表示根据预设规则筛选的疑似异常用户在在线时长分段i的概率，即该时段上的疑似异常用户组中的用户占全部时段疑似异常用户的比例；

疑似异常用户在在线阅读时长上的信息熵计算公式；