CN111782735A

CN111782735A - 羊毛党流量识别方法及装置

Info

Publication number: CN111782735A
Application number: CN202010621836.9A
Authority: CN
Inventors: 徐龙翔; 欧阳辰
Original assignee: Beijing Shenyan Intelligent Technology Co ltd
Current assignee: Beijing Shenyan Intelligent Technology Co ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2020-10-16

Abstract

本发明公开了一种羊毛党流量识别方法及装置。该方法包括：根据识别模型确定待识别流量能够命中的风险标签，其中，识别模型为规则模型，根据待识别流量的历史用户行为特征，得到该流量的风险标签；根据待识别流量命中的风险标签以及判定模型，确定流量的羊毛系数，其中，判定模型为机器学习模型，判定模型由多组训练数据训练得到，每组训练数据包括流量命中的风险标签，以及流量的羊毛党系数；在羊毛党系数超过第一预设风险阈值的情况下，确定待识别流量为羊毛党的流量。本发明解决了相关技术中无法识别羊毛党流量，导致资源浪费的技术问题。

Description

羊毛党流量识别方法及装置

技术领域

本发明涉及流量识别领域，具体而言，涉及一种羊毛党流量识别方法及装置。

背景技术

近年来随着电商、社交、互联网金融的兴起，各种补贴促销活动层出不穷。平台为了达到拉新和促活等目的，推出各种补贴、红包、抽奖、返利等营销活动，以吸引用户。这些营销活动除了吸引正常的用户之外，还催生了一条特殊的产业链——“羊毛党”。“羊毛党”，是指专门选择各互联网渠道的优惠促销活动，以相对较低成本甚至零成本换取物质上实惠的人群。他们通过大批量式的注册领取各种补贴，“薅完羊毛就跑”。一方面抢占原本属于正常用户的福利，另一方面消耗了大量的平台营销预算。因此识别出“羊毛党”人群对降低营销成本，提高营销效率具有重大意义。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种羊毛党流量识别方法及装置，以至少解决相关技术中无法识别羊毛党流量，导致资源浪费的技术问题。

根据本发明实施例的一个方面，提供了一种羊毛党流量识别方法，包括：根据识别模型确定待识别流量能够命中的风险标签，其中，所述识别模型为规则模型，根据待识别流量的历史用户行为特征，得到该流量的风险标签；根据待识别流量命中的所述风险标签以及判定模型，确定所述流量的羊毛系数，其中，所述判定模型为机器学习模型，判定模型由多组训练数据训练得到，每组训练数据包括流量命中的风险标签，以及所述流量的羊毛党系数；在所述羊毛党系数超过第一预设风险阈值的情况下，确定所述待识别流量为羊毛党的流量。

可选的，根据待识别流量命中的所述风险标签以及判定模型，确定所述流量的羊毛党系数之前，包括：将命中的风险标签的数量超过预设数量阈值的流量，作为正样本；将命中的风险标签的数量未超过预设数量阈值的流量，作为负样本；根据所述正样本和所述负样本对所述判定模型进行训练。

可选的，根据待识别流量命中的所述风险标签以及判定模型，确定所述流量的羊毛党系数包括：通过逻辑回归算法，确定所述流量能够命中的风险标签的权重；将所述待识别流量命中的标签及其对应的权重，输入所述判定模型，由所述判定模型输出所述待识别流量对应的羊毛党系数。

可选的，还包括：在所述羊毛党系数在所述第一预设风险阈值和第二预设风险阈值之间的情况下，确定所述待识别流量为疑似羊毛党的流量，其中，所述第一预设风险阈值大于所述第二预设风险阈值；在所述羊毛党系数不超过所述第二预设风险阈值的情况下，确定所述待识别流量为正常流量。

可选的，所述风险标签包括下列至少之一：IP地址异常，GPS异常，用户信息异常，设备异常。

可选的，所述用户信息异常包括用户为抱团用户，其中，多个所述抱团用户的账号绑定同一手机号，且多个所述抱团用户的IP地址的重合度超过预设重合度阈值。

可选的，根据识别模型确定待识别流量能够命中的风险标签包括：根据羊毛党的流量构建灰名单库；通过识别模型统计所述灰名单库中的羊毛党流量的参数的共同点；将所述共同点作为所述风险标签。

根据本发明实施例的另一方面，还提供了一种羊毛党流量识别装置，包括：识别模块，用于根据识别模型确定待识别流量命中的风险标签，其中，所述识别模型为用于构建风险标签规则的规则模型，根据待识别流量的历史用户行为特征，得到该流量的风险标签；判定模块，用于根据待识别流量命中的所述风险标签以及判定模型，计算所述流量的羊毛系数，其中，所述判定模型为机器学习模型，判定模型由多组训练数据训练得到，每组训练数据包括流量以及流量命中的风险标签，根据风险标签的权重和待识别流量命中的风险标签，计算流量的羊毛系数；在所述羊毛党系数超过第一预设风险阈值的情况下，确定所述待识别流量为羊毛党的流量。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述的羊毛党流量识别方法。

根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述中任意一项所述的羊毛党流量识别方法。

在本发明实施例中，采用根据识别模型确定待识别流量能够命中的风险标签，其中，识别模型为规则模型，根据待识别流量的历史用户行为特征，得到该流量的风险标签；根据待识别流量命中的风险标签以及判定模型，确定流量的羊毛系数，其中，判定模型为机器学习模型，判定模型由多组训练数据训练得到，每组训练数据包括流量命中的风险标签，以及流量的羊毛党系数；在羊毛党系数超过第一预设风险阈值的情况下，确定待识别流量为羊毛党的流量的方式，通过识别模型识别待识别流量可能命中的风险标签，通过待识别流量命中的风险标签的权重，以及判定模型，确定流量的羊毛系数，在羊毛党系数超过第一预设风险阈值的情况下，确定待识别流量为羊毛党的流量，达到了准确识别待识别流量是否为羊毛党流量的目的，从而实现了将资源针对非羊毛党流量，避免了资源浪费的技术效果，进而解决了相关技术中无法识别羊毛党流量，导致资源浪费的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种羊毛党流量识别方法的流程图；

图2是根据本发明实施例的一种羊毛党流量识别装置的示意图；

图3是根据本发明实施方式的羊毛党流量的识别方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种羊毛党流量识别方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种羊毛党流量识别方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，根据识别模型确定待识别流量能够命中的风险标签，其中，识别模型为规则模型，根据待识别流量的历史用户行为特征，得到该流量的风险标签；

步骤S104，根据待识别流量命中的风险标签以及判定模型，确定流量的羊毛系数，其中，判定模型为机器学习模型，判定模型由多组训练数据训练得到，每组训练数据包括流量命中的风险标签，以及流量的羊毛党系数；在羊毛党系数超过第一预设风险阈值的情况下，确定待识别流量为羊毛党的流量。

通过上述步骤，采用根据识别模型确定待识别流量能够命中的风险标签，其中，识别模型为规则模型，根据待识别流量的历史用户行为特征，得到该流量的风险标签；根据待识别流量命中的风险标签以及判定模型，确定流量的羊毛系数，其中，判定模型为机器学习模型，判定模型由多组训练数据训练得到，每组训练数据包括流量命中的风险标签，以及流量的羊毛党系数；在羊毛党系数超过第一预设风险阈值的情况下，确定待识别流量为羊毛党的流量的方式，通过识别模型识别待识别流量可能命中的风险标签，通过待识别流量命中的风险标签的权重，以及判定模型，确定流量的羊毛系数，在羊毛党系数超过第一预设风险阈值的情况下，确定待识别流量为羊毛党的流量，达到了准确识别待识别流量是否为羊毛党流量的目的，从而实现了将资源针对非羊毛党流量，避免了资源浪费的技术效果，进而解决了相关技术中无法识别羊毛党流量，导致资源浪费的技术问题。

上述判定模型可以为机器学习模型，可以包括机器学习网络，深度学习网络，卷积神经网络等，上述机器学习模型可以包括输入层，中间层，输出层，上述中间层可为多个。通过多组训练数据对上述机器学习模型进行训练，每组训练数据流量以及流量命中的风险标签，上述流量为历史流量，上述流量命中的风险标签可以是人工评定，也可以是识别模型识别的风险标签。

上述识别模型可以为规则模型，上述规则模型可以为统计规则模型，构建多组经验规则，对待识别流量可能命中的风险标签进行确定。

在上述根据识别模型确定待识别流量命中的风险标签之前，可以先对上述风险标签进行确定，上述风险标签可以包括流量的多种数据的风险范围，例如流量的IP地址异常，流量的设备的GPS异常，流量账户异常，流量的设备异常等，在上述风险标签的情况下，可能会导致流量为羊毛党流量。

上述多个风险标签标示羊毛党流量的重要性不同，例如，待识别流量的账户登录的城市过多，有可能存在经常出差的合理情况，对待识别流量为羊毛党流量的标志能力较小，待识别流量的IP地址为虚假IP地址，则待识别流量很有可能为羊毛党流量，也即是对待识别流量为羊毛党流量的标示能力较强。因此确定多个风险标签的权重，根据风险标签的权重和待识别流量命中的风险标签，从而准确判定流量是否为羊毛党的流量，实现了将资源针对非羊毛党流量，避免了资源浪费的技术效果，进而解决了相关技术中无法识别羊毛党流量，导致资源浪费的技术问题。

可选的，根据识别模型识别待识别流量命中的风险标签之前，包括：将命中的风险标签的数量超过预设数量阈值的流量，作为正样本；将命中的风险标签的数量未超过预设数量阈值的流量，作为负样本；根据正样本和负样本对识别模型进行训练。

在对上述判定模型进行训练之前，需要确定多组训练数据，本申请中从数据库中调取预设数量的历史流量和历史流量命中的风险标签，将命中的风险标签的数量超过预设数量阈值的流量，作为正样本；将命中的风险标签的数量未超过预设数量阈值的流量，作为负样本，通过正样本和负样本对识别模型进行训练，提高识别模型的识别能力，进而提高待识别流量命中的风险标签的准确度，提高判定流量是否为羊毛党的流量的准确度。

可选的，根据风险标签的权重和待识别流量命中的风险标签，判定流量是否为羊毛党的流量包括：通过逻辑回归算法，确定流量能够命中的风险标签的权重；根据权重，对流量命中的风险标签进行加权求和，确定流量的风险指数；在风险指数超过第一预设风险阈值的情况下，确定流量为羊毛党的流量。

在本实施例中，通过逻辑回归算法，确定多个风险标签的权重，从而根据多个风险标签的权重确定待识别流量的风险指数，在风险指数超过第一预设风险阈值的情况下，确定流量为羊毛党的流量，从而达到了准确识别待识别流量是否为羊毛党流量的目的，实现了将资源针对非羊毛党流量，避免了资源浪费。

可选的，还包括：在风险指数在第一预设风险阈值和第二预设风险阈值之间的情况下，确定流量为疑似羊毛党的流量，其中，第一预设风险阈值大于第二预设风险阈值；在风险指数不超过第二预设风险阈值的情况下，确定流量为正常流量。

上述确定待识别流量为羊毛党流量，也即是通过待识别流量的风险程度，确定是否为羊毛党流量，可以将待识别流量的风险程度进行多级划分，确定待识别流量为羊毛党流量的可能性。使待识别流量的识别结果更细化，更准确。

可选的，根据识别模型识别待识别流量命中的风险标签之前，还包括：根据羊毛党的流量，确定风险标签，其中，风险标签包括下列至少之一：IP地址异常，GPS异常，用户信息异常，设备异常。

可选的，用户信息异常包括用户为抱团用户，其中，多个抱团用户的账号绑定同一手机号，且多个抱团用户的IP地址的重合度超过预设重合度阈值。

图2是根据本发明实施例的一种羊毛党流量识别装置的示意图，如图2所示，根据本发明实施例的另一方面，还提供了一种羊毛党流量识别装置，包括：识别模块22和判定模块24，下面对该装置进行详细说明。

识别模块22，用于根据识别模型确定待识别流量命中的风险标签，其中，识别模型为用于构建风险标签规则的规则模型，根据待识别流量的历史用户行为特征，得到该流量的风险标签；判定模块24，与上述识别模块22相连，用于根据待识别流量命中的风险标签以及判定模型，计算流量的羊毛系数，其中，判定模型为机器学习模型，判定模型由多组训练数据训练得到，每组训练数据包括流量以及流量命中的风险标签，根据风险标签的权重和待识别流量命中的风险标签，计算流量的羊毛系数；在羊毛党系数超过第一预设风险阈值的情况下，确定待识别流量为羊毛党的流量。

通过上述装置，采用识别模块22根据识别模型确定待识别流量命中的风险标签，其中，识别模型为用于构建风险标签规则的规则模型，根据待识别流量的历史用户行为特征，得到该流量的风险标签；判定模块24根据待识别流量命中的风险标签以及判定模型，计算流量的羊毛系数，其中，判定模型为机器学习模型，判定模型由多组训练数据训练得到，每组训练数据包括流量以及流量命中的风险标签，根据风险标签的权重和待识别流量命中的风险标签，计算流量的羊毛系数；在羊毛党系数超过第一预设风险阈值的情况下，确定待识别流量为羊毛党的流量的方式，通过识别模型识别待识别流量可能命中的风险标签，通过待识别流量命中的风险标签的权重，以及判定模型，确定流量的羊毛系数，在羊毛党系数超过第一预设风险阈值的情况下，确定待识别流量为羊毛党的流量，达到了准确识别待识别流量是否为羊毛党流量的目的，从而实现了将资源针对非羊毛党流量，避免了资源浪费的技术效果，进而解决了相关技术中无法识别羊毛党流量，导致资源浪费的技术问题。

需要说明的是，待识别流量为抱团用户的情况下，可以直接确定该待识别流量为羊毛党流量。

上述确定风险标签可以根据羊毛党的流量，确定风险标签包括：根据羊毛党的流量构建灰名单库；统计灰名单库中的羊毛党流量的参数的共同点；将共同点作为风险标签。

需要说明的是，本实施例还提供了一种可选的实施方式，下面对该实施方式进行详细说明。

本实施方式提出了一种基于用户历史访问行为的羊毛党识别方法。通过分析IP/GPS/手机号/设备类型/用户行为等维度，挖掘“羊毛党”人群。图3是根据本发明实施方式的羊毛党流量的识别方法的流程图，如图3所示，该方法的具体技术方案如下：

离线训练部分：

主要负责读取历史用户数据，制定规则模型，获取用户特征，并判定正负样本。根据规则模型生成的用户标签和正负样本离线训练羊毛党评分模型。

在线应用部分：

接收线上的流量请求，通过识别模块生成用户特征，通过判定模块计算用户的羊毛系数。其中，识别模块调用离线生成好的规则模型，判定模块调用离线训练好的机器学习模型。

具体流程如下：

离线部分：

一、生成规则模型，具体规则如下：

1、将用户历史访问过的IP列表转化成城市列表，统计上述城市列表的个数；若用户访问过的城市个数超过预设阈值，则该用户为异常用户

2、将用户历史访问过的GPS列表转化成城市列表，统计上述城市列表的个数；若用户访问过的城市个数超过预设阈值，则该用户为异常用户

3、判断用户是否为抱团用户；

4、判断用户是否异地登陆；

5、判断用户手机号是否为非三大运营商；

6、判断当前流量的IP地址和GPS地址、手机号对应的城市是否一致；

7、判断当前流量的IP地址是否为异常IP地址；

异常IP地址存在下列至少之一：该IP地址为代理IP地址；该IP地址为服务器IP地址；该IP地址为国外IP地址；

8、判断当前流量的IP地址对应城市的风险系数是否超过预测阈值；

IP地址对应城市的风险系数定义如下：

IP城市风险系数＝该IP对应城市的历史总访问流量/该城市人口

9、判断当前流量的GPS对应城市的风险系数是否超过预测阈值；

GPS地址对应城市的风险系数定义如下：

GPS城市风险系数＝该GPS对应城市的历史总访问流量/该城市人口

10、判断当前流量的设备型号和系统、屏幕分辨率是否匹配；

若某条流量命中的规则数大于5条，则判定为高置信度正样本；若某条流量命中的规则数小于2条，则判定为高置信度负样本；

进一步生成更丰富用户特征：包括设备特征、行为特征、场景特征等，与上述的10条规则融合。

二、利用生成的正负样本，训练羊毛党模型：

训练分类模型，用逻辑回归训练全部样本，将训练好的模型保存并推送到线上，供线上实时调用。

在线部分包括：识别模块，该模块接收线上流量请求，调用规则模型，生成该流量的特征；

判定模块，该模块调用机器学习模型，获取识别模块传递过来的用户特征，计算该流量的羊毛党系数。

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述中任意一项的羊毛党流量识别方法。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述中任意一项的羊毛党流量识别方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种羊毛党流量识别方法，其特征在于，包括：

根据识别模型确定待识别流量能够命中的风险标签，其中，所述识别模型为规则模型，根据待识别流量的历史用户行为特征，得到该流量的风险标签；

根据待识别流量命中的所述风险标签以及判定模型，确定所述流量的羊毛系数，其中，所述判定模型为机器学习模型，判定模型由多组训练数据训练得到，每组训练数据包括流量命中的风险标签，以及所述流量的羊毛党系数；在所述羊毛党系数超过第一预设风险阈值的情况下，确定所述待识别流量为羊毛党的流量。

2.根据权利要求1所述的方法，其特征在于，根据待识别流量命中的所述风险标签以及判定模型，确定所述流量的羊毛党系数之前，包括：

将命中的风险标签的数量超过预设数量阈值的流量，作为正样本；将命中的风险标签的数量未超过预设数量阈值的流量，作为负样本；

根据所述正样本和所述负样本对所述判定模型进行训练。

3.根据权利要求2所述的方法，其特征在于，根据待识别流量命中的所述风险标签以及判定模型，确定所述流量的羊毛党系数包括：

通过逻辑回归算法，确定所述流量能够命中的风险标签的权重；

将所述待识别流量命中的标签及其对应的权重，输入所述判定模型，由所述判定模型输出所述待识别流量对应的羊毛党系数。

4.根据权利要求3所述的方法，其特征在于，还包括：

在所述羊毛党系数在所述第一预设风险阈值和第二预设风险阈值之间的情况下，确定所述待识别流量为疑似羊毛党的流量，其中，所述第一预设风险阈值大于所述第二预设风险阈值；

在所述羊毛党系数不超过所述第二预设风险阈值的情况下，确定所述待识别流量为正常流量。

5.根据权利要求1所述的方法，其特征在于，所述风险标签包括下列至少之一：IP地址异常，GPS异常，用户信息异常，设备异常。

6.根据权利要求5所述的方法，其特征在于，所述用户信息异常包括用户为抱团用户，其中，多个所述抱团用户的账号绑定同一手机号，且多个所述抱团用户的IP地址的重合度超过预设重合度阈值。

7.根据权利要求5所述的方法，其特征在于，根据识别模型确定待识别流量能够命中的风险标签包括：

根据羊毛党的流量构建灰名单库；

通过识别模型统计所述灰名单库中的羊毛党流量的参数的共同点；

将所述共同点作为所述风险标签。

8.一种羊毛党流量识别装置，其特征在于，包括：

识别模块，用于根据识别模型确定待识别流量命中的风险标签，其中，所述识别模型为用于构建风险标签规则的规则模型，根据待识别流量的历史用户行为特征，得到该流量的风险标签；

判定模块，用于根据待识别流量命中的所述风险标签以及判定模型，计算所述流量的羊毛系数，其中，所述判定模型为机器学习模型，判定模型由多组训练数据训练得到，每组训练数据包括流量以及流量命中的风险标签，根据风险标签的权重和待识别流量命中的风险标签，计算流量的羊毛系数；在所述羊毛党系数超过第一预设风险阈值的情况下，确定所述待识别流量为羊毛党的流量。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的羊毛党流量识别方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至7中任意一项所述的羊毛党流量识别方法。