CN106998336B

CN106998336B - 渠道中的用户检测方法和装置

Info

Publication number: CN106998336B
Application number: CN201610044510.8A
Authority: CN
Inventors: 孔蓓蓓; 熊健; 杨剑鸣
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-01-22
Filing date: 2016-01-22
Publication date: 2020-07-31
Anticipated expiration: 2036-01-22
Also published as: CN106998336A

Abstract

本发明提供了一种渠道中的用户检测方法，包括：获取渠道分发的应用中用户触发进行访问所上报的多种属性，该应用是渠道分发的任意应用，所述用户是应用所新增的用户，多种属性是用在应用中多个方面的属性；所述用户之间根据所述多种属性进行层次聚类得到预设数目的用户类，所述用户归属于得到的用户类；根据各用户类中用户的行为属性去除绝对真实用户归属的用户类；对所余下用户类中的用户进行模糊判别，以从中判别得到可疑虚假用户。此外，还提供了一种渠道中的用户检测装置。上述渠道中的用户检测方装置法和装置能够准确识别渠道下刷量工具的使用，并且准确识别渠道中掺杂的部分虚假用户。

Description

渠道中的用户检测方法和装置

技术领域

本发明涉及互联网应用技术领域，特别涉及一种渠道中的用户检测方法和装置。

背景技术

渠道中刷量工具的使用时有发生，以通过刷量工具生成应用的虚假用户，以造成该应用由此渠道得到大量用户的虚假现象。

现有的刷量工具可以利用模拟器随意伪造机器参数，也可以通过编写程序脚本来模拟真实用户行为，修改真机参数，驱动趁机运行，这些行为已经与真实的用户行为没有差别。

针对此情况，现有的解决方案是对渠道效果进行评估，用以实现评估的数据可以是留存率、终端分布情况、IP地址聚集情况等。例如，真实用户的留存曲线是一条平滑的指数衰减曲线，如若某一应用的留存曲线存在陡升或者陡降的异常波动，则可判定当前渠道下使用了刷量工具。同理，如果当前渠道下终端分布与大盘的终端分布不一致，则也可判定当前渠道下使用了刷量工具。

但是，随着刷量工具的迭代更新，其也会基于各种数据的整体特点来进行真实用户行为的模拟，依赖于某些数据的整体表现的现有的解决方案将无法准确地识别渠道下是否使用刷量工具，更无法对掺杂了部分虚假用户的渠道进行识别。

发明内容

基于此，有必要提供一种渠道中的用户检测方法，所述方法能够准确识别渠道下刷量工具的使用，并且准确识别渠道中掺杂的部分虚假用户。

此外，还有必要提供一种渠道中的用户检测装置，所述装置能够准确识别渠道下刷量工具的使用，并且准确识别渠道中掺杂的部分虚假用户。

为解决上述技术问题，将采用如下技术方案：

一种渠道中的用户检测方法，包括：

获取渠道分发的应用中用户触发进行访问所上报的多种属性，所述应用是所述渠道分发的任意应用，所述用户是所述应用所新增的用户，所述多种属性是所述用户在应用中多个方面的属性；

所述用户之间根据所述多种属性进行层次聚类得到预设数目的用户类，所述用户归属于得到的所述用户类；

根据各用户类中用户的行为属性去除绝对真实用户归属的用户类；

对所余下用户类中的用户进行模糊判别，以从中判别得到可疑虚假用户。

一种渠道中的用户检测装置，包括：

属性获取模块，用于获取渠道分发的应用中用户触发进行访问所上报的多种属性，所述应用是所述渠道分发的任意应用，所述用户是所述应用所新增的用户，所述多种属性是所述用户在应用中多个方面的属性；

层次聚类模块，用于所述用户之间根据所述多种属性进行层次聚类得到预设数目的用户类，所述用户归属于得到的所述用户类；

真实用户去除模块，用于根据各用户类中用户的行为属性去除绝对真实用户归属的用户类；

模糊判别模块，用于对所余下用户类中的用户进行模糊判别，以从中判别得到可疑虚假用户。

由上述技术方案可知，下载自一渠道的应用触发运行时对于该种应用而言，将随着应用运行中用户触发进行访问的各种行为上报多种属性，此时，对于渠道而言，针对其所分发的任意一种应用，都能够得到此种应用新增的用户所上报的多种属性，在新增的用户之间，根据多种属性进行新增的用户的层次聚类得到预设数目的用户类，根据各用户类中用户的行为属性去除绝对真实用户归属的用户类，并对余下的用户类进行用户的模糊判别，以得到可疑虚假用户，此过程是基于用户粒度而实现的，不仅能够准确识别渠道下刷量工具的使用，也能够准确识别渠道中掺杂的部分虚假用户，由此减少了对渠道的误伤和漏报。

附图说明

图1是一个实施例中渠道中的用户检测方法的流程图；

图2是另一个实施例中渠道中的用户检测方法的流程图；

图3是图1中用户之间根据多种属性进行层次聚类得到预设数目的用户类的方法流程图；

图4是图1中根据各用户类中用户的行为属性去除绝对真实用户归属的用户类的方法流程图；

图5是对用户类中的用户进行模糊判别，以判别得到可疑虚假用户的方法流程图；

图6是一个实施例中渠道中的用户检测装置的结构示意图；

图7是另一个实施例中渠道中的用户检测装置的结构示意图；

图8是图6中层次聚类模块的结构示意图；

图9是图6中真实用户去除模块的结构示意图；

图10是图6中模糊判别模块的结构示意图；

图11是本发明实施例中的运行环境示意框图。

具体实施方式

体现本发明特征与优点的典型实施方式将在以下的说明中详细叙述。应理解的是本发明能够在不同的实施方式上具有各种的变化，其皆不脱离本发明的范围，且其中的说明及图示在本质上是当作说明之用，而非用以限制本发明。

如前所述的，随着互联网应用的发展，种类繁多的应用通过渠道发布并推广，用户可通过任一渠道下载得到所需要的应用，任意一种应用在渠道中的发布和推广均需要支付一定的费用，例如，对于渠道提供的应用，每新增一个用户，开发者将付给渠道一个费用。由此便有了刷量工具的存在，该刷量工具用于为渠道中某些应用制造虚假用户，由此来骗取费用。

因此，对于渠道和应用的开发者而言，刷量工具使用的检测就显得尤为重要。但是，由于现有的刷量工具越来越能够逼真地模拟真实用户，渠道所获取到的各种统计数据在整体上与未使用刷量工具的情况下一致，进而渠道中准确检测是否使用了刷量工具将变得越来越困难。

为避免渠道中使用刷量工具的漏报和误伤，以准确识别得到渠道中所存在的虚假用户，将提供了一种渠道中的用户检测方法。该方法依赖于计算机程序，该计算机程序将运行于计算机系统之上，计算机系统可以运行于智能手机、平板电脑、个人电脑和笔记本电脑等终端中。

在一个实施例中，具体的，该渠道中的用户检测方法如图1所示，包括：

步骤110，获取渠道分发的应用中用户触发进行访问所上报的多种属性，该应用是渠道分发的任意应用，用户是该应用所新增的用户，多种属性是用户在应用中多个方面的。

渠道拥有各种应用和用户，其能够进行应用分发，例如，各种为用户提供应用的平台即可称之为渠道。对于开发的应用，都将按照其即将使用的渠道预设设置不同的版本，即每一即将使用的渠道都有对应的版本，并通过相应的渠道版本进行标识。

需要首先说明的是，本发明所指的用户以及新增的用户均是渠道以及应用中的身份标识，其将作为渠道中任一应用的下载者和使用者，并以身份标识的数据形式存在。

该身份标识将是基于渠道所提供的帐号体系而得到的，因此，同一用户在此渠道所下载和使用的多种应用都将对应于一相同的身份标识，以便于对此用户进行检测，进而衡量渠道当前的状况。

对于渠道分发的任意一种应用，终端在运行此应用并进行此应用的访问时，将在此应用中触发用户的各种行为，例如，通过一设定的网络接入方式与后台的服务器进行网络交互的行为。此应用将对应得到多种属性，并上报。

与之相对应的，在对一渠道所进行的用户检测中，针对分发的各种应用，都能够为每一种应用获取得到各用户上报的多种属性，并由此提取该种应用的新增的用户所上报的多种属性。

应用中用户触发进行访问所上报的多种属性包括用户在应用中的行为属性、软件环境属性、硬件环境属性和网络环境属性等多个方面的属性，其可根据实际运营的需要进行设定。

需要说明的是，由于渠道中相同用户在各种应用中均以相同身份标识的形式存在，因此，对于一种应用而言为新增的用户，相对其它某些应用而言，将是早已经存在的用户。

步骤130，用户之间根据多种属性进行层次聚类得到预设数目的用户类，用户归属于得到的用户类。

针对渠道中任意一种应用，将获取得到该种应用中新增的用户上报的多种属性，此新增的用户中，以多种属性为输入，进行用户之间的层次聚类，得到预设数目的用户类，其中，预设数目即为用户之间层次聚类的目标。

层次聚类所得到的用户类包括了一个或者多个用户，其中，用户类所包括的多个用户将是相互之间匹配的用户，并且在多种属性上具备相似性。

步骤150，根据各用户类中用户的行为属性去除绝对真实用户归属的用户类。

获取各用户类中用户的行为属性，该行为属性并不仅限于用户在当前应用中触发各种行为所对应的行为属性，还包括了该用户在渠道分发的其它应用中的行为属性。

可根据用户在当前应用以及渠道分发的其它应用中的行为属性，来识别绝对真实用户，所识别得到的绝对真实用户归属的用户类即为绝对真实用户的集合。

具体的，用于识别绝对真实用户的行为属性可以是用户的消费行为属性、在新增当前应用之前在其它应用中的使用行为属性、用户的收益行为属性等的任意一种或者任意组合。

例如，如果用户是有消费行为的用户，且消费较高，则可将此用户视为绝对真实用户；如果用户在新增当前应用之前在其它应用也有使用行为，也可将此用户视为绝对真实用户。

在识别出绝对真实用户之后，将去除绝对真实用户所归属的用户类，即由于用户之间进行层次聚类的相似性，此用户类将是绝对真实用户聚类所形成的，因此，在渠道的虚假用户检测中，将绝对真实用户聚类所形成的用户类去除。

步骤170，对所余下用户类中的用户进行模糊判别，以从中判别得到可疑虚假用户。

去除了绝对真实用户所归属的用户类而余下的用户类中，包含了可疑用户，即无法绝对地识别出其是真实用户还是虚假用户，因此，需要进行模糊判别。

通过模糊判别来判别出用户中的可疑虚假用户，即判别出用户中作为虚假用户的可能性较高的用户。

通过如上所述的过程，使得渠道中刷量工具的识别精确到用户粒度的识别，进而为应用在渠道的分发精准识别出绝对真实用户和可疑虚假用户，由此即便是存在着少量的虚假用户，即刷量工具的少量使用，也能够准确识别出来，进而减少了对渠道的误伤和漏报。

如上所述的方法是基于各用户上报的多种属性来为渠道分发的某一应用实现虚假用户的检测，不再基于统计指标的整体表现，有效地解决了刷量工具能够逼真模拟真实用户而无法检测出来的问题，即便刷量工具不断迭代更新来更真切地模拟真实用户，也能够成功实现检测，避免了检测的延迟性问题。

在一个实施例中，如上所述的步骤130之前，该方法如图2所示，还包括：

步骤210，根据预置的绝对虚假用户强属性，在进行多种属性上报的用户中识别与绝对虚假用户强属性相符的用户。

根据虚假用户的行为预置了绝对虚假用户强属性，绝对虚假用户强属性作为识别绝对虚假用户的强规则，是根据虚假用户的历史行为所得出的，例如，其可包括用户模拟器识别规则、是否使用修改器规则、安装时间一致规则和身份信息重复规则等，在此不一一进行列举。

进行了多种属性上报的新增的用户中，对于任一新增的用户而言，如果其上报的多种属性与预置的绝对虚假用户强属性相符，则说明此用户为绝对虚假用户。

步骤230，去除与绝对虚假用户强属性相符的用户。

针对渠道分发的一应用，在进行多种属性上报的新增用户中，去除与绝对虚假用户强属性相符的用户，所余下的用户再进行后续的层次聚类和模糊判别，进而能够有效地降低后续处理过程的时间消耗。

通过此过程，将使得渠道中用户的检测能够精准识别出绝对虚假用户、绝对真实用户和可疑虚假用户，进而最大限度地完成虚假用户的识别，尽可能地提高了准确性。

需要说明的是，用户所上报的多种属性在一个实施例中以矩阵的形式存在，以便于进行处理。

进一步的，在一个实施例中，如图3所示，该步骤130包括：

步骤131，将每一用户归为一用户类。

如前所述的，相对渠道分发的一应用，都得到了新增的用户以及该用户上报的多种属性。首先将每一用户归为一类，例如，M个新增的用户便归为M个用户类，每一用户类仅包含一个用户。

步骤133，两两匹配用户类，并将最为匹配的两个用户类合并，直至用户类的数目达到预设数目。

在多个用户类中，以多种属性为依据，两两匹配用户类，即任一用户类都与其它用户类两两进行匹配，此时将得到最为匹配的一用户类，合并此用户类即可得到一个新的用户类。

依照此过程重复进行用户类的匹配和合并，直至用户类的数目达到预设数目。其中，用户类之间的匹配程度可通过距离值或者相似值进行衡量，例如，相互之间距离值最小的两个用户类即为最为匹配的用户类。

通过如上所述的层次聚类的过程，将以多种属性为基础实现了新增的用户之间的聚类过程，由此所实现的聚类过程将覆盖了所有的属性，因此对于用户的归类而言，精确度高，为后续通过绝对真实用户识别而去除其所归属的用户类奠定了基础。

在另一个实施例中，如图4所示，该步骤150包括：

步骤151，获取用户的行为属性，行为属性是通过该用户在渠道分发所有应用中触发的行为得到的。

如前所述的，所获取的用户的行为属性包括用户在当前应用以及渠道分发的其它应用中的行为属性。因此，需要针对渠道分发的所有应用为用户获取行为属性。

步骤153，根据行为属性中绝对真实用户行为属性识别绝对真实用户归属的用户类，并去除绝对真实用户归属的用户类。

层次聚类所得到的多个用户类中，每一用户类都包含了相应的用户，该用户有对应的行为属性。对于每一用户对应的行为属性，如果与绝对真实用户行为属性相符，则将这一用户视为绝对真实用户，进而去除绝对真实用户归属的用户类。

由此后续的用户检测将不再需要对此用户类进行处理，也提高了后续用户检测的效率。

进一步的，在一个实施例中，该步骤170如图5所示，包括：

步骤171，根据预置的虚假用户弱规则对所余下用户类进行模糊判别，以得到用户类相对虚假用户的隶属度。

渠道分发的应用中使用刷量工具的不同，对应了不同的作弊特点。例如，对于电脑模拟器，其是构建虚假的手机环境，并通过虚假用户行为来进行模拟，网络接入方式较为集中，或者使用代理IP；对于手机刷量工具，其运行于真实的手机中，以使得单个真实手机上有一批硬件环境属性、软件环境属性和行为属性相似的用户，对应的网络接入方式较集中，或者使用代理IP，并且在此手机中必须获取到root权限；对于刷机ROM后门方式的刷量工具，其运行于真实手机中，较难伪造出真实的用户行为，因此大都只激活应用而没有使用，或者对应用的使用较少。

根据刷量工具的不同特点，可预置对应的虚假用户弱规则，以用于进行虚假用户的模糊判别。

例如，对于电脑模拟器而言，其所对应的虚假用户弱规则包括大盘网民行为规则、网络接入方式规则和使用深度规则；对于手机刷量工具，其所对应的虚假用户规则包括大盘网民行为规则、网络接入方式规则和通用访问深度规则；对于刷机ROM后门方式的刷量工具，所对应的虚假用户弱规则可以是通用访问深度规则。

其中，大盘网民行为规则主要是指互联网中网民访问互联网的整体规律，例如，每天有90％以上的用户都会使用即时通信工具，每天50％的用户会浏览新闻等。

网络接入方式之正常的上网方式是多种多样的，如2G、3G、4G和WiFi等，但是作弊用户由于是虚拟出的众多用户，会出现与正常的上网方式不同的情况，由此根据网络接入方式之正常的上网方式构建网络接入方式规则。

在一个应用的使用路径，正常的一批用户，其使用的应用的路径长度是不一样的，而作弊用户的使用路径比较浅，且有的功能是不会使用的，因此，可根据此构建使用深度规则。

这些预置的虚假用户弱规则将用于对相对绝对真实用户和绝对虚假用户概念模糊的用户类，在此模糊判别中摆脱了非此即彼的精确性，找出可疑程度较高的用户。具体的，其可疑程度通过隶属度的取值来进行衡量，隶属度的取值在[0，1]之间，则反应了由于差异的中间过渡性所引起的划分上的不确定程度。

步骤173，根据隶属度得到用户类包含的用户为可疑虚假用户的判别结果。

如前所述的，根据所得到的隶属度来判定余下的用户类中，哪些用户为可疑虚假用户，进而可知此用户所归属的用户类中其它用户也为可疑虚假用户。

通过如上所述的过程，较好地对非确定性的用户进行评估，以做出有依据且相对准确的总体评价，即对非确定性的用户类进行可疑虚假用户的判别，提高了渠道中用户检测的完整性，在用户粒度上实现渠道分发的应用中刷量工具的检测。

在一个实施例中，还相应地提供了一种渠道中的用户检测装置，如图6所示，包括属性获取模块310、层次聚类模块330、真实用户去除模块350和模糊判别模块370，其中：

属性获取模块310，用于获取渠道分发的应用中用户触发进行访问所上报的多种属性，该应用是渠道分发的任意应用，该用户是该应用所新增的用户，多种属性是用户在应用中多个方面的属性。

层次聚类模块330，用于用户之间根据多种属性进行层次聚类得到预设数目的用户类，用户归属于得到的用户类。

真实用户去除模块350，用于根据各用户类中用户的行为属性去除绝对真实用户归属的用户类。

模糊判别模块370，用于对所余下用户类中的用户进行模糊判别，以从中判别得到可疑虚假用户。

在另一个实施例中，如图7所示，如上所述的装置还包括绝对虚假识别模块410和虚假去除模块430，其中：

绝对虚假识别模块410，用于根据预置的绝对虚假用户强属性，在进行多种属性上报的用户中识别与绝对虚假用户强属性相符的用户。

虚假去除模块430，用于去除与绝对虚假用户强属性相符的用户。

进一步的，在本实施例中，层次聚类模块330如图8所示，包括归置单元331和匹配单元333，其中：

归置单元331，用于将每一用户归为一用户类。

匹配单元333，用于两两匹配用户类，并将最为匹配的两个用户类合并，直至用户类的数目达到预设数目。

进一步的，在本实施例中，真实用户去除模块350如图9所示，包括行为属性获取单元351和真实用户处理单元353，其中：

行为属性获取单元351，用于获取用户的行为属性，行为属性是通过用户在渠道分发所有应用中触发的行为得到的。

真实用户处理单元353，用于根据行为属性中绝对真实用户行为属性识别绝对真实用户归属的用户类，并去除绝对真实用户归属的用户类。

进一步的，在本实施例中，模糊判别模块370如图10所示，包括模糊处理单元371和判别结果输出单元373，其中：

模糊处理单元371，用于根据预置的虚假用户弱规则对所余下用户类进行模糊判别，以得到用户类相对虚假用户的隶属度。

判别结果输出单元373，用于根据隶属度得到用户类包含的用户为虚假用户的判别结果。

图11是本发明实施例提供的一种服务器结构示意图。该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序531或数据533的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器510可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。服务器500还可以包括一个或一个以上电源550，一个或一个以上有线或无线网络接口570，一个或一个以上输入输出接口580，和/或，一个或一个以上操作系统535，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。上述图1至图5所示实施例中所述的由服务器所执行的步骤可以基于该图11所示的服务器结构。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

虽然已参照几个典型实施方式描述了本发明，但应当理解，所用的术语是说明和示例性、而非限制性的术语。由于本发明能够以多种形式具体实施而不脱离发明的精神或实质，所以应当理解，上述实施方式不限于任何前述的细节，而应在随附权利要求所限定的精神和范围内广泛地解释，因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。

Claims

1.一种渠道中的用户检测方法，其特征在于，包括：

获取渠道分发的应用中用户触发进行访问所上报的多种属性，所述用户是所述渠道分发的任意应用所新增的用户；

将每一用户归为一用户类，以所述多种属性为依据两两匹配所述用户类，并将最为匹配的两个用户类合并，直至用户类的数目达到预设数目；

对所述用户类中的用户进行模糊判别，以判别得到可疑虚假用户。

2.根据权利要求1所述的方法，其特征在于，所述将每一用户归为一用户类，以所述多种属性为依据两两匹配所述用户类，并将最为匹配的两个用户类合并，直至用户类的数目达到预设数目的步骤之前，所述方法还包括：

根据预置的绝对虚假用户强属性，在进行多种属性上报的用户中识别与所述绝对虚假用户强属性相符的用户；

去除所述与绝对虚假用户强属性相符的用户。

3.根据权利要求1所述的方法，其特征在于，所述根据各用户类中用户的行为属性去除绝对真实用户归属的用户类的步骤包括：

获取所述用户的行为属性，所述行为属性是通过所述渠道分发所有应用中所述用户触发的行为得到的；

根据所述行为属性中绝对真实用户行为属性识别绝对真实用户归属的用户类，并去除所述绝对真实用户归属的用户类。

4.根据权利要求1所述的方法，其特征在于，所述对所述用户类中的用户进行模糊判别，以判别得到可疑虚假用户的步骤包括：

根据预置的虚假用户弱规则对所述用户类进行模糊判别，以得到所述用户类相对虚假用户的隶属度；

根据所述隶属度得到所述用户类包含的用户为可疑虚假用户的判别结果。

5.一种渠道中的用户检测装置，其特征在于，包括：

属性获取模块，用于获取渠道分发的应用中用户触发进行访问所上报的多种属性，所述用户是所述渠道分发的任意应用所新增的用户；

层次聚类模块，用于将每一用户归为一用户类，以所述多种属性为依据两两匹配所述用户类，并将最为匹配的两个用户类合并，直至用户类的数目达到预设数目；

模糊判别模块，用于对所述用户类中的用户进行模糊判别，以判别得到可疑虚假用户。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

绝对虚假识别模块，用于根据预置的绝对虚假用户强属性，在进行多种属性上报的用户中识别与所述绝对虚假用户强属性相符的用户；

虚假去除模块，用于去除所述与绝对虚假用户强属性相符的用户。

7.根据权利要求5所述的装置，其特征在于，所述真实用户去除模块包括：

行为属性获取单元，用于获取所述用户的行为属性，所述行为属性是通过所述渠道分发所有应用中所述用户触发的行为得到的；

真实用户处理单元，用于根据所述行为属性中绝对真实用户行为属性识别绝对真实用户归属的用户类，并去除所述绝对真实用户归属的用户类。

8.根据权利要求5所述的装置，其特征在于，所述模糊判别模块包括：

模糊处理单元，用于根据预置的虚假用户弱规则对所述用户类进行模糊判别，以得到所述用户类相对虚假用户的隶属度；

判别结果输出单元，用于根据所述隶属度得到所述用户类包含的用户为可疑虚假用户的判别结果。

9.一种服务器，其特征在于，包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如权利要求1至4中任一项所述的方法。