CN106301979B - 检测异常渠道的方法和系统 - Google Patents

检测异常渠道的方法和系统 Download PDF

Info

Publication number
CN106301979B
CN106301979B CN201510280642.6A CN201510280642A CN106301979B CN 106301979 B CN106301979 B CN 106301979B CN 201510280642 A CN201510280642 A CN 201510280642A CN 106301979 B CN106301979 B CN 106301979B
Authority
CN
China
Prior art keywords
user
channel
application access
users
geographic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510280642.6A
Other languages
English (en)
Other versions
CN106301979A (zh
Inventor
贺海军
孔蓓蓓
熊健
熊焰
杨剑鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201510280642.6A priority Critical patent/CN106301979B/zh
Publication of CN106301979A publication Critical patent/CN106301979A/zh
Application granted granted Critical
Publication of CN106301979B publication Critical patent/CN106301979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic

Abstract

本发明提供了一种检测异常渠道的方法,包括:提取渠道版本下应用访问用户的网络接入地址;将所述网络接入地址存在关联的多个应用访问用户形成所述渠道版本对应的多个用户集合;统计所述用户集合的属性;根据统计得到的所述属性进行异常渠道的识别。此外,还提供了一种检测异常渠道的系统。上述检测异常渠道的方法和系统能所进行的异常渠道检测准确性高,且能够适用于各种渠道。

Description

检测异常渠道的方法和系统
技术领域
本发明涉及互联网应用技术领域,特别涉及一种检测异常渠道的方法和系统。
背景技术
随着互联网应用的发展,各种应用被开发,相应的,用于实现应用推广的渠道也随之日益增多,开发者可通过任一渠道进行应用的发布,以便得用户得以通过该渠道下载得到所需要的应用。
进行应用发布和推广的渠道中,开发者是基于用户由该渠道下载应用并注册或者联网激活的数量而付给费用。例如,对于渠道提供的游戏应用或者其它应用,每有一个用户注册了游戏账号或者应用账号之后,开发者将付给渠道一个费用;或者每有一个用户联网登录了游戏应用或者其它应用,开发者将付给渠道一个费用。
基于此,渠道制造虚假用户而骗取开发者费用的情况时有发生,即存在着刷量工具的使用,以通过刷量工具生成应用的虚假新用户,以使得渠道中存在着大量用户。
为检测渠道中是否存在虚假新用户,以获知该渠道是否为异常渠道,一方面,将基于硬件接入环境属性的分布来进行虚假新用户以及异常渠道的检测,具体的,鉴于当前的刷量工具是自动生成各种硬件环境接入参数,如MAC地址,每一新增的硬件环境接入参数均代表一个新用户,因此,现有的方案中常常是通过检测当前渠道下的硬件环境接入参数的分布与应用在所有渠道下的硬件环境接入参数的分布是否一致实现的。然而,不断改进的刷量工具可基于各硬件环境接入参数在真实情况下的分布来生成,进而使得由此所进行的异常渠道的检测犹为不准确。
另一方面,将基于留存率进行异常渠道的检测。各种类型的渠道均有存在,其中不乏质量并不高的渠道,在这些渠道中,留存的用户很少,因此,异常渠道的检测并不适用于各种类型的渠道。
发明内容
基于此,有必要提供一种准确性高且能够适用于各种渠道的检测异常渠道的方法。
此外,还有必要提供一种准确性高且能够适用于各种渠道的检测异常渠道的系统。
为解决上述技术问题,将采用如下技术方案:
一种检测异常渠道的方法,包括:
提取渠道版本下应用访问用户的网络接入地址;
将所述网络接入地址存在关联的多个应用访问用户形成所述渠道版本对应的多个用户集合;
统计所述用户集合的属性;
根据统计得到的所述属性进行异常渠道的识别。
一种检测异常渠道的系统,包括:
提取装置,用于提取渠道版本下应用访问用户的网络接入地址;
用户关联装置,用于将所述网络接入地址存在关联的多个应用访问用户形成所述渠道版本对应的多个用户集合;
统计装置,用于统计所述用户集合的属性;
识别装置,用于根据统计得到的所述属性进行异常渠道的识别。
由上述技术方案可知,下载自各渠道的应用触发运行并进行网络访问时,对于该种应用而言,各渠道版本的应用都将进行网络访问,因此,将提取渠道版本下应用访问用户的网络接入地址,以网络接入地址为依据得到多个关联的应用访问用户,相互之间存在关系的应用访问用户将形成渠道版本对应的多个用户集合,统计每一用户集合的属性,以根据该属性进识别提供应用下载的各渠道是否存在异常渠道,同一渠道版本中应用访问用户的网络接入地址将作为形成用户集合的依据,通过渠道中每一用户集合的属性识别其所在的渠道是否异常,应用访问用户的网络接入地址无法篡改,为渠道作弊提供最为直接的证据,并且由于是基于应用访问用户的,对于渠道而言,即便该渠道不是优质渠道也不会对异常渠道的准确识别造成影响,进而使得异常渠道的识别准确性高,且能够适用于各种渠道。
附图说明
图1是一个实施例中检测异常渠道的方法的流程图;
图2是图1中将网络接入地址存在关联的多个应用访问用户形成渠道版本对应的多个用户集合的方法流程图;
图3是图2中由网络接入地址得到应用访问用户的地理特征的方法流程图;
图4是图3中处理提取的IP2段得到应用访问用户的地理特征的方法流程图;
图5是图2中根据地理特征进行聚类得到相似的多个应用访问用户,相似的应用访问用户形成用户集合的方法流程图;
图6是图1中统计用户集合的属性的方法流程图;
图7是图1中根据统计得到的属性进行异常渠道的识别的方法流程图;
图8是一个实施例中检测异常渠道的系统的结构框图;
图9是图8中用户关联装置的结构框图;
图10是图9中特征生成模块的结构框图;
图11是图10中IP2段处理单元的结构框图;
图12是图9中聚类模块的结构框图;
图13图8中统计装置的结构框图;
图14是图8中识别模块的结构框图;
图15是一个实施例中多方推荐源的聚合方法的运行环境示意框图。
具体实施方式
体现本发明特征与优点的典型实施方式将在以下的说明中详细叙述。应理解的是本发明能够在不同的实施方式上具有各种的变化,其皆不脱离本发明的范围,且其中的说明及图示在本质上是当作说明之用,而非用以限制本发明。
如前所述,种类繁多的应用通过各种渠道发布并推广,使用各种便携终端的用户可通过任一渠道下载得到所需要的应用。任一应用在渠道中的发布和推广均需要付费,因此,为骗取费用,渠道制造虚假用户的可能性非常高。
对于与应用进行交互的服务器而言,需要对渠道中与应用相关的行为进行监控。渠道制造虚假用户的方式大都是通过刷量工具的生成不同的硬件接入环境参数实现的,因此,对于渠道中与应用相关的行为进行的监控将受到检测依据被恶意篡改和渠道本身属性,例如,质量不高的渠道的影响,仍然需要不断进行优化。
为屏蔽异常渠道检测的依据被恶意篡改和渠道本身的影响,特提出了一种检测异常渠道的方法。该方法可依赖于计算机程序,该计算机程序将运行于计算机系统之上,计算机系统可以运行于智能手机、平板电脑、个人电脑和笔记本电脑等便携终端中。
在一个实施例中,具体的,该检测异常渠道的方法如图1所示,包括:
步骤10,提取渠道版本下应用访问用户的网络接入地址。
渠道拥有各种应用和用户,其能够进行应用分发,例如,各种为用户提供应用的平台即可称为渠道。对于开发的应用,都将按照其即将使用的发布渠道预先设置了不同的版本,即每一即将使用的发布渠道都有对应版本的应用,并通过相应的渠道版本进行标识。
需要说明的是,本发明所指的用户以及应用访问用户均是渠道以及应用中的虚拟对象标识,其将作为渠道中任一应用的下载者和应用的使用者,并以用户标识的数据形式存在。
应用访问用户的网络接入地址是应用触发运行时与后台的服务器进行网络交互所采用的IP(Internet Protocol,网际协议)地址。随着应用与后台的服务器所进行的交互,服务器将进行应用访问用户的网络接入地址和该应用的渠道版本的记录,也就是说,将以应用的渠道版本、应用访问用户为依据进行网络接入地址的记录,由此,对于应用的多个渠道版本而言,每一渠道版本都有对应的多个应用访问用户,每一应用访问用户都有对应的一个或者多个网络接入地址。
在优选的实施例中,该渠道版本、应用访问用户和网络接入地址将随着应用所进行的访问而写入服务器中的日志,以供随时提取。
与之对应的,对于与应用交互的后台的服务器而言,服务器需对多个渠道进行异常渠道的检测,以防止任一渠道随时出现的作弊行为。具体的,服务器将在日志中以渠道版本和应用访问用户为依据进行网络接入地址的有序提取,从而得到一渠道版本下每一应用访问用户的一个或者多个网络接入地址。
步骤30,将网络接入地址存在关联的多个应用访问用户形成渠道版本对应的多个用户集合。
由于通过网络接入地址可以获知应用访问用户所在的大致地理位置,例如,应用访问用户所在的省份、地级市等。因此,对于同一这一大致地理位置的应用访问用户而言,其网络接入地址是存在一定关联的。
因此,在一渠道版本下,以应用访问用户对应的一个或者多个网络接入地址为依据,找寻在网络接入地址上存在关联的应用访问用户,这些应用访问用户便形成了该渠道版本下的一个用户集合。
以此类推,将得到该渠道版本下的多个用户集合,同一用户集合中的应用访问用户彼此相似,并与其它用户集合中的应用访问用户相异。
步骤50,统计用户集合的属性。
对每一用户集合,根据该用户集合中多个应用访问用户所对应的大量网络接入地址中存在的特征进行统计,以得到该用户集合的属性。其中,用户集合的属性将是对用户集合中应用访问用户所对应的大量网络接入地址之间存在的共同特征进行统计得到的。
具体的,如上所述,由网络接入地址即可获知应用访问用户所在的大致地理位置,因此,可对网络接入地址提供的大致地理位置进行统计,以得到用户集合中所有应用访问用户均在同一地理位置的属性、所有应用访问用户虽然分布于多个地理位置,但是这些地理位置均在同一省份的属性或者所有应用访问用户分布于多个地理位置且这此地理位置未在同一省份的属性等,在此不一一进行列举。
步骤70,根据统计得到的属性进行异常渠道的识别。
若渠道的应用访问用户中存在着由刷量工具制造的虚假用户,该虚假用户大都为具有相同属性的用户,因此,将以属性为依据进行异常渠道的准确识别。
例如,渠道的应用访问用户中,若大都处于同一省份,并大量存在,则这些用户为虚假用户的可能性将非常高,可将其所在的渠道判定为异常渠道。
由于用户集合的属性是基于应用访问用户的网络接入地址进行统计得到的,该网络接入地址与应用访问用户进行应用访问的行为相一致,无论是应用的激活还是应用的访问均会在服务器的日志中留下其网络接入地址,因此直接由服务器的日志提取得到相应的网络接入地址将有效地提高了异常渠道识别的准确性,有效屏蔽各种因素的干扰。
进一步的,在本实施例中,如图2所示,步骤30包括:
步骤310,由网络接入地址得到应用访问用户的地理特征。
地理特征将是根据网络接入地址中的IP2段进行处理得到的,其可由一个或者多个IP2段所构成的。具体的,如图3所示,步骤310的具体过程为:
步骤311,从渠道版本下应用访问用户的网络接入地址提取IP2段。
对于一渠道版本下每一应用访问用户对应的一个或者多个网络接入地址,逐一对每一网络接入地址进行IP2段的提取,以得到每一应用访问用户对应的一个或者多个IP2段。
步骤313,处理提取的IP2段得到应用访问用户的地理特征。
IP2段指的是网络接入地址的前两段,前两段相同的网络接入地址一般属于同一地域,例如,同一省份或者地级市。应用访问用户的地理特征将包含了该应用访问用户对应的网络接入地址中的IP2段,因此,通过该地理特征即可获知应用访问用户进行应用激活和访问时所在的地理位置。
在每一应用访问用户提取得到的一个或者多个IP2段中,对该应用访问用户对应的一个或者多个IP2段进行去重和排序处理,即可得到该应用访问用户的地理特征,在消除重复信息的同时,也保证了地理特征中信息的有序性。
步骤330,根据地理特征进行聚类得到相似的多个应用访问用户,相似的应用访问用户形成用户集合。
以地理特征为依据,进行应用访问用户的聚类,以形成由相似应用访问用户组成的多个用户集合。
进一步的,在本实施例中,如图4所示,步骤313的具体过程为:
步骤3131,去重处理应用访问用户的IP2段,消除重复的IP2段。
步骤3133,对去重处理后的IP2段进行排序得到应用访问用户的地理特征。
去重处理并排序得到的地理特征将形成一字符串,该字符串即为地理特征。
例如,一应用访问用户对应的网络接入地址包括:129.138.2.1、129.138.2.155、186.132.5.13和172.15.120.11,提取得到IP2段分别为:129.138、129.138、186.132和172.15,经进去重处理和排序,形成的有序列表为:
129.138
172.15
186.132
最后将其拼接起来以形成字符串,形式如:129.138 172.15 186.132,该字符串即为地理特征。
进一步的,在本实施例中,如图5所示,步骤330包括:
步骤331,分别对每一应用访问用户的地理特征进行哈希计算得到相应的指纹。
通过哈希计算使得地理特征相似的应用访问用户具有相同的指纹,这样就可以对拥有相似地理特征的应用访问用户进行聚类。
具体的,对地理特征所进行的哈希计算可以是Simhash计算,相应的,所得到的指纹即为由此计算得到的Simhash值。
其中,对地理特征所进行的Simhash计算过程可以是:将一f维的向量V初始化为0,对应的二进制数S初始化为0;对每一个地理特征,通过hash算法产生一个f位的指纹b,对指纹b中的if位,其中,i为1,若指纹b的第i位为1,则向量V的第i个元素加上该特征的权重即为向量V的第i个元素所对应的数值,否则向量V的第i个元素减去该特征的权重即为向量V的第i个元素所对应的数值。该权重可设置为1。
若向量V的第i个元素大于0,则指纹S的第i位为1,否则为0,以此类推即可得到指纹S所对应的数值。
步骤333,按照指纹对应用访问用户进行排序,在排序的应用访问用户中将指纹相同的应用访问用户归类为同一用户集合。
针对哈希计算结果,基于指纹进行排序,具有相同指纹的应用访问用户将形成一个用户集合。
在一个实施例中,如图6所示,上述步骤50包括:
步骤510,统计用户集合中各应用访问用户的地理特征包含的地理位置种类。
在聚类所得到的用户集合中,由于每一用户均有对应的地理特征,即一个或者多个IP2段形成的字符串,并且经由IP2段即可得到大致的地理位置,如省份或者地级市等,因此,在一个用户集合中,对各应用访问用户的地理特征进行统计得到该地理特征对应了哪一个省份、哪一个地级市,以得到用户集合所对应的各省份、地级市种类,因此,通过统计得到的地理位置种类即可得到所在的用户集合中的地理特征对应了多少个不同的省份。
步骤520,判断用户集合中统计得到的地理位置种类是否为多个,若为否,则进入步骤530,若为是,则进入步骤540。
步骤530,将用户集合的属性标记为单一地理位置属性。
在判断得到用户集合中统计得到的地理位置种类为一个,则将这一用户集合标记为单一地理位置属性,以便后续识别中对该用户集合按照单一地理位置进行。对于属性标记为单一地理位置属性的用户集合而言,该用户集合中各应用访问用户的地理特征均为一个相同的IP2段。
步骤540,进一步判断多个地理位置是否跨省,若为是,则进入步骤550,若为否,则进入步骤560。
步骤550,将用户集合的属性标记为多地理位置且跨省属性。
步骤560,将用户集合的属性标记为多地理位置且未跨省属性。
在判断到用户集合中统计得到的地理位置种类为多个的前提条件下,将进一步判断该用户集合中包含的地理位置是否跨省,即判断用户集合中地理位置的多个IP2段是否为同一省份,若为是,则将该用户集合的属性标记为多地理位置且未跨省属性,若为否,则将该用户集合的属性标记为多地理位置且跨省属性。
在一个实施例中,如图7所示,上述步骤70包括:
步骤710,获取应用在渠道中的新增用户总量。
按照预设时间周期获取渠道中应用在这一预设时间周期的新增用户总量,该预设时间周期可以是单天或者数天,相应的,获取得到的新增用户总量可为单天的新增用户总量或多天的新增用户总量。
步骤730,按照预设的特征值种类根据渠道中属性相同的用户集合和/或新增用户总量得到特征值。
根据标记的属性,即单一地理位置属性、多地理位置且跨省属性和多地理位置且未跨省属性,在该渠道的所有用户集合中,得到属性相同的用户集合,即同为单一地理位置的用户集合、同为多地理位置且跨省的用户集合以及同为多地理位置且未跨省的用户集合。
根据属性相同的用户集合按照预设的特征值种类进行特征值的计算,其中,根据特征值种类的计算需要,也需要将新增用户总量加入特征值的计算中。
具体的,预设的特征值种类包括相同属性的用户集合中应用访问用户总数量、相同属性的用户集合中的应用访问用户比例、相同属性的用户集合中最大用户集合的应用访问用户总数量以及相同属性的用户集合中最大用户集合的应用访问用户比例。
其中,相同属性的用户集合中应用访问用户总数量是对属性相同的所有用户集合进行应用访问用户数量的统计得到的;相同属性的用户集合可以是单一地理位置属性,即单IP2聚类的用户集合中应用访问用户总数量,也可以是多地理位置且跨省属性,即多IP2且跨省的用户集合中应用访问用户总数量,还可以是多地理位置且未跨省属性,即多IP2且未跨省的用户集合中应用访问用户总数量。
相同属性的用户集合中的应用访问用户比例是在属性相同的用户集合中计算这些用户集合中应用访问用户总数量和渠道中新增用户总数量之间的比例;相同属性的用户集合中的应用访问用户比例可以是单一地理位置属性,即单IP2聚类的用户集合中的应用访问用户比例,也可以是多地理位置且跨省属性,即多IP2且跨省的用户集合中应用访问用户比例,还可以是多地理位置且未跨省属性,即多IP2且未跨省的用户集合中应用访问用户比例。
相同属性的用户集合中最大用户集合的应用访问用户总数量是对属性相同的多个用户集合中的应用访问用户数量最多的用户集合进行统计的。
相同属性的用户集合中最大用户集合的应用访问用户比例是在属性相同的多个用户集合中的应用访问用户数量最多的用户集合中计算应用访问用户总数量和渠道中新增用户总数量之间的比例。
步骤750,判断特征值是否大于属性和特征值种类对应的限值,若为是,则进入步骤770,若否是,则进入步骤790。
由于存在着多种属性,且特征值也存在着多种,因此,需要根据特征值所对应的属性以及该特征值种类选取对应的限值,以使得用于进行异常渠道判断的限值能够在多种特征值的使用中准确适应当前进行判断的特征值,进而保证了异常渠道判断的精准性。
进一步的,如前所述,由于特征值可以是任一属性和任一特征值种类所对应的,该特征值可以是单一地理位置属性的用户集合中应用访问用户总数量、多地理位置且跨省属性的用户集合中应用访问用户总数量、多地理位置且未跨省属性的用户集合中应用访问用户总数量、单一地理位置属性的用户集合中的应用访问用户比例、多地理位置且跨省属性的用户集合中应用访问用户比例、多地理位置且未跨省属性的用户集合中应用访问用户比例、单一地理位置属性的用户集合中最大用户集合的应用访问用户总数量、多地理位置且跨省属性的用户集合中最大用户集合的应用访问用户总数量、多地理位置且未跨省属性的用户集合中最大用户集合的应用访问用户总数量、单一地理位置属性的用户集合中最大用户集合的应用访问用户比例、多地理位置且跨省属性的用户集合中最大用户集合的应用访问用户比例和多地理位置且未跨省属性的用户集合中最大用户集合的应用访问用户比例中的任意一种。
其中,若相同属性下的应用访问用户过多,则说明这些应用访问用户可能为虚假用户,相应的,该渠道为异常渠道,该渠道中使用了刷量工具,因此,可判断相同属性的用户集合中应用访问用户总数量是否大于该属性和特征值种类对应的限值,若为是,则生成渠道为异常渠道的识别结果。
若一个渠道下有很高比例的应用访问用户均来自于某一相同属性的用户集合,则该渠道可能使用了刷量工具。因此,可判断相同属性的用户集合中的应用访问用户比例是否大于对应的限值,若为是,则生成渠道为异常渠道的识别结果。
若相同属性的多个用户集合中,最大用户集合的应用访问用户总数量很多,则该渠道使用了刷量工具的可能性也极高。因此,可判断相同属性的用户集合中最大用户集合的应用访问用户总数量是否大于对应的限值,若为是,则生成渠道为异常渠道的识别结果。
若一个渠道下相同属性的用户集合中最大用户集合的应用访问用户总数量占新增用户总数量的比例很高,则说明该渠道使用刷量工具的可能性极高。因此,判断相同属性的用户集合中最大用户集合的应用访问用户比例是否大于对应的限值,若为是,则生成渠道为异常渠道的识别结果。
如上所述的多个特征值的逐一判断过程可根据实际运营的需要选取使用某一种或几种特征值,也可选用所有种类的特征值,而具体一的判断顺序也可根据实际运营的情况而确定。
步骤770,生成渠道为异常渠道的识别结果。
通过如上所述的特征值的判断,将精准识别异常渠道,从而使得应用的开发者得以获知应用的实际运营情况,并且避免了异常渠道向应用的开发者骗取应用的推广费用,屏蔽了渠道中存在的各种恶意手段,有助于安全性的提高。
步骤790,生成渠道为正常渠道的识别结果。
通过如此所述的检测异常渠道的方法,可通过应用的服务器直接监控进行应用分发的多个渠道,识别出其中的异常渠道,进而为应用提供安全的生态环境。
在一个实施例中,还相应地提供了一种检测异常渠道的系统,如图8所示,包括:提取装置810、用户关联装置830、统计装置850和识别装置870,其中:
提取装置810,用于提取渠道版本下应用访问用户的网络接入地址。
用户关联装置830,用于将网络接入地址存在关联的多个应用访问用户形成该渠道版本对应的多个用户集合。
统计装置850,用于统计用户集合的属性。
识别装置870,用于根据统计得到的属性进行异常渠道的识别。
进一步的,在本实施例中,如图9所示,该用户关联装置830包括:特征生成模块831和聚类模块833,其中:
特征生成模块831,用于由网络接入地址得到应用访问用户的地理特征。
聚类模块833,用于根据地理特征进行聚类得到相似的多个应用访问用户,相似的应用访问用户形成用户集合。
进一步的,在本实施例中,如图10所示,该特征生成模块831包括IP2段提取单元8311和IP2段处理单元8313。
IP2段提取单元8311,用于从渠道版本下应用访问用户的网络接入地址提取IP2段。
IP2段处理单元8313,用于处理提取的IP2段得到应用访问用户的地理特征。
具体的,如图11所示,上述IP2段处理单元8313包括去重子单元83131和排序子单元83133,其中:
去重子单元在83131,用于去重处理应用访问用户的IP2段,消除重复的IP2段。
排序子单元83133,用于对去重处理后的IP2段进行排序得到应用访问用户的地理特征。
在另一个实施例中,如图12所示,聚类模块833包括哈希计算单元8331和指纹排序单元8333。
哈希计算单元8331,用于分别对每一应用访问用户的地理特征进行哈希计算得到相应的指纹。
指纹排序单元,用于按照指纹对应用访问用户进行排序,在排序的应用访问用户中将指纹相同的应用访问用户归类为同一用户集合。
在另一个实施例中,如图13所示,上述统计装置850包括:种类统计模块851、判断模块852、单一属性标记模块853、跨省位置判断模块854和跨省属性标记模块855和未跨省属性标记模块857,其中:
种类统计模块851,用于统计用户集合中各应用访问用户的地理特征包含的地理位置种类。
判断模块852,用于判断用户集合中统计得到的地理位置是否为多个,若为否,则通知单一属性标记模块853,若为是,则通知跨省位置判断模块854。
单一属性标记模块853,用于将用户集合的属性标记为单一地理位置属性。
跨省位置判断模块854,用于进一步判断多个地理位置是否跨省,若为是,则通知跨省属性标记模块855,若为否,则通知未跨省属性标记模块857。
跨省属性标记模块855,用于将用户集合的属性为多地理位置且跨省属性。
未跨省属性标记模块857,用于将用户集合的属性标记为多地理位置且未跨省属性。
在另一个实施例中,如图14所示,上述识别模块870包括:新增总量获取模块871、特征值运算模块873和超限判断模块875,其中:
新增总量获取模块871,用于获取应用在渠道中的新增用户总量。
特征值运算模块873,用于按照预设的特征值种类根据渠道中属性相同的用户集合和/或新增用户总量得到特征值。
超限判断模块875,用于判断特征值是否大于属性和特征值种类对应的限值,若为是,则生成渠道为异常渠道的识别结果,若为否,则生成渠道为正常渠道的识别结果。
图15是本发明实施例提供的一种服务器结构示意图。该服务器2000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)2010(例如,一个或一个以上处理器)和存储器2020,一个或一个以上存储应用程序2031或数据2033的存储介质2030(例如一个或一个以上海量存储设备)。其中,存储器2020和存储介质2030可以是短暂存储或持久存储。存储在存储介质2030的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器2010可以设置为与存储介质2030通信,在服务器2000上执行存储介质2030中的一系列指令操作。服务器2000还可以包括一个或一个以上电源2050,一个或一个以上有线或无线网络接口2070,一个或一个以上输入输出接口2080,和/或,一个或一个以上操作系统2035,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。上述图1至图7所示实施例中所述的由服务器所执行的步骤可以基于该图15所示的服务器结构。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
虽然已参照几个典型实施方式描述了本发明,但应当理解,所用的术语是说明和示例性、而非限制性的术语。由于本发明能够以多种形式具体实施而不脱离发明的精神或实质,所以应当理解,上述实施方式不限于任何前述的细节,而应在随附权利要求所限定的精神和范围内广泛地解释,因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。

Claims (10)

1.一种检测异常渠道的方法,其特征在于,包括:
提取渠道版本下应用访问用户的网络接入地址;
将所述网络接入地址存在关联的多个应用访问用户形成所述渠道版本对应的多个用户集合,包括:
由所述网络接入地址得到应用访问用户的地理特征,包括:从所述渠道版本下应用访问用户的网络接入地址提取IP2段;处理提取的所述IP2段得到所述应用访问用户的地理特征,包括:去重处理所述应用访问用户的IP2段,消除重复的IP2段;对所述去重处理后的IP2段进行排序得到所述应用访问用户的地理特征;
根据地理特征进行聚类得到相似的多个应用访问用户,所述相似的应用访问用户形成用户集合;
统计所述用户集合的属性;
根据统计得到的所述属性进行异常渠道的识别,包括:获取所述应用在渠道中的新增用户总量;按照预设的特征值种类根据所述渠道中属性相同的用户集合和/或所述新增用户总量得到特征值;判断所述特征值是否大于所述属性和特征值种类对应的限值,若为是,则生成所述渠道为异常渠道的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据地理特征进行聚类得到相似的多个应用访问用户,所述相似的应用访问用户形成用户集合的步骤包括:
分别对每一应用访问用户的地理特征进行哈希计算得到相应的指纹;
按照所述指纹对所述应用访问用户进行排序,在排序的应用访问用户中将指纹相同的应用访问用户归类为同一用户集合。
3.根据权利要求1所述的方法,其特征在于,所述统计所述用户集合的属性的步骤包括:
统计所述用户集合中各应用访问用户的地理特征包含的地理位置种类;
判断所述用户集合中统计得到的地理位置种类是否为多个,若为否,则将所述用户集合的属性标记为单一地理位置属性。
4.根据权利要求3所述的方法,其特征在于,所述统计所述用户集合的属性的步骤还包括:
若判断到所述用户集合中统计得到的地理位置种类为多个,则进一步判断多个所述地理位置种类是否跨省,若为是,则将所述用户集合的属性标记为多地理位置且跨省属性,若为否,则
将所述用户集合的属性标记为多地理位置且未跨省属性。
5.一种检测异常渠道的系统,其特征在于,包括:
提取装置,用于提取渠道版本下应用访问用户的网络接入地址;
用户关联装置,用于将所述网络接入地址存在关联的多个应用访问用户形成所述渠道版本对应的多个用户集合,包括:特征生成模块,用于由所述网络接入地址得到应用访问用户的地理特征,包括:IP2段提取单元,用于从所述渠道版本下应用访问用户的网络接入地址提取IP2段;IP2段处理单元,用于处理提取的所述IP2段得到所述应用访问用户的地理特征,所述IP2段处理单元包括:去重子单元,用于去重处理所述应用访问用户的IP2段,消除重复的IP2段;排序子单元,用于对所述去重处理后的IP2段进行排序得到所述应用访问用户的地理特征;
聚类模块,用于根据地理特征进行聚类得到相似的多个应用访问用户,所述相似的应用访问用户形成用户集合;
统计装置,用于统计所述用户集合的属性;
识别装置,用于根据统计得到的所述属性进行异常渠道的识别,包括:新增总量获取模块,用于获取所述应用在渠道中的新增用户总量;特征值运算模块,用于按照预设的特征值种类根据所述渠道中属性相同的用户集合和/或所述新增用户总量得到特征值;超限判断模块,用于判断所述特征值是否大于所述属性和特征值种类对应的限值,若为是,则生成所述渠道为异常渠道的识别结果。
6.根据权利要求5所述的系统,其特征在于,所述聚类模块包括:
哈希计算单元,用于分别对每一应用访问用户的地理特征进行哈希计算得到相应的指纹;
指纹排序单元,用于按照所述指纹对所述应用访问用户进行排序,在排序的应用访问用户中将指纹相同的应用访问用户归类为同一用户集合。
7.根据权利要求5所述的系统,其特征在于,所述统计装置包括:
种类统计模块,用于统计所述用户集合中各应用访问用户的地理特征包含的地理位置种类;
判断模块,用于判断所述用户集合中统计得到的地理位置是否为多个,若为否,则通知单一属性标记模块;
所述单一属性标记模块用于将所述用户集合的属性标记为单一地理位置属性。
8.根据权利要求7所述的系统,其特征在于,所述统计装置还包括:
跨省位置判断模块,用于若所述判断模块判断到所述用户集合中统计得到的地理位置为多个,则进一步判断多个所述地理位置是否跨省,若为是,则通知跨省属性标记模块,若为否,则通知未跨省属性标记模块;
所述跨省属性标记模块用于将所述用户集合的属性标记为多地理位置且跨省属性;
所述未跨省属性标记模块用于将所述用户集合的属性标记为多地理位置且未跨省属性。
9.一种检测异常渠道的服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至4中任一项所述的检测异常渠道的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至4中任一项所述的检测异常渠道的方法。
CN201510280642.6A 2015-05-27 2015-05-27 检测异常渠道的方法和系统 Active CN106301979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510280642.6A CN106301979B (zh) 2015-05-27 2015-05-27 检测异常渠道的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510280642.6A CN106301979B (zh) 2015-05-27 2015-05-27 检测异常渠道的方法和系统

Publications (2)

Publication Number Publication Date
CN106301979A CN106301979A (zh) 2017-01-04
CN106301979B true CN106301979B (zh) 2020-04-28

Family

ID=57635553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510280642.6A Active CN106301979B (zh) 2015-05-27 2015-05-27 检测异常渠道的方法和系统

Country Status (1)

Country Link
CN (1) CN106301979B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109729054B (zh) * 2017-10-31 2021-08-13 阿里巴巴集团控股有限公司 访问数据监测方法及相关设备
CN110210886B (zh) * 2018-05-31 2023-08-22 腾讯科技(深圳)有限公司 识别虚假操作方法、装置、服务器、可读存储介质、系统
CN110378112A (zh) * 2019-07-08 2019-10-25 北京达佳互联信息技术有限公司 一种用户识别方法及装置
CN110647913B (zh) * 2019-08-15 2024-04-05 中国平安财产保险股份有限公司 基于聚类算法的异常数据检测方法及装置
CN116743501B (zh) * 2023-08-10 2023-10-20 杭银消费金融股份有限公司 一种异常流量控制方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982047A (zh) * 2011-09-07 2013-03-20 百度在线网络技术(北京)有限公司 一种对互动平台中的互动信息进行作弊检测的方法与设备
CN103605714A (zh) * 2013-11-14 2014-02-26 北京国双科技有限公司 网站异常数据的识别方法及装置
CN103812961A (zh) * 2013-11-01 2014-05-21 北京奇虎科技有限公司 识别指定类别ip地址的方法及设备、防御方法及系统
CN103853839A (zh) * 2014-03-18 2014-06-11 北京博雅立方科技有限公司 一种评测广告页面恶意点击疑似度的方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2008202532A1 (en) * 2007-06-18 2009-01-08 Pc Tools Technology Pty Ltd Method of detecting and blocking malicious activity
CN104424433B (zh) * 2013-08-22 2018-12-11 腾讯科技(深圳)有限公司 一种应用程序的反作弊方法和相关系统
CN103593465A (zh) * 2013-11-26 2014-02-19 北京网秦天下科技有限公司 用于诊断应用推广渠道异常的方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982047A (zh) * 2011-09-07 2013-03-20 百度在线网络技术(北京)有限公司 一种对互动平台中的互动信息进行作弊检测的方法与设备
CN103812961A (zh) * 2013-11-01 2014-05-21 北京奇虎科技有限公司 识别指定类别ip地址的方法及设备、防御方法及系统
CN103605714A (zh) * 2013-11-14 2014-02-26 北京国双科技有限公司 网站异常数据的识别方法及装置
CN103853839A (zh) * 2014-03-18 2014-06-11 北京博雅立方科技有限公司 一种评测广告页面恶意点击疑似度的方法及装置

Also Published As

Publication number Publication date
CN106301979A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN108989150B (zh) 一种登录异常检测方法及装置
CN105808988B (zh) 一种识别异常账户的方法及装置
CN106301979B (zh) 检测异常渠道的方法和系统
CN110830986B (zh) 一种物联网卡异常行为检测方法、装置、设备及存储介质
CN110442712B (zh) 风险的确定方法、装置、服务器和文本审理系统
CN109933984B (zh) 一种最佳聚类结果筛选方法、装置和电子设备
US20170063913A1 (en) Method, apparatus and system for detecting fraudulant software promotion
CN105809035A (zh) 基于安卓应用实时行为的恶意软件检测方法和系统
CN113328994B (zh) 一种恶意域名处理方法、装置、设备及机器可读存储介质
CN106998336B (zh) 渠道中的用户检测方法和装置
CN111090807A (zh) 一种基于知识图谱的用户识别方法及装置
CN106033574B (zh) 一种作弊行为的识别方法及装置
CN112148305A (zh) 一种应用检测方法、装置、计算机设备和可读存储介质
CN112839014A (zh) 建立识别异常访问者模型的方法、系统、设备及介质
CN106294406B (zh) 一种用于处理应用访问数据的方法与设备
CN106778277A (zh) 恶意程序检测方法及装置
CN111931047A (zh) 基于人工智能的黑产账号检测方法及相关装置
CN111988327B (zh) 威胁行为检测和模型建立方法、装置、电子设备及存储介质
CN109670153A (zh) 一种相似帖子的确定方法、装置、存储介质及终端
CN110619211A (zh) 一种基于动态特征的恶意软件识别方法、系统及相关装置
CN112016317A (zh) 基于人工智能的敏感词识别方法、装置及计算机设备
CN112085588A (zh) 规则模型的安全性的确定方法、装置和数据处理方法
CN106776623B (zh) 一种用户行为分析方法和设备
US11232202B2 (en) System and method for identifying activity in a computer system
CN114595765A (zh) 数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant