CN114398638A - 网络黑产的识别方法、装置、设备及介质 - Google Patents
网络黑产的识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN114398638A CN114398638A CN202210061738.3A CN202210061738A CN114398638A CN 114398638 A CN114398638 A CN 114398638A CN 202210061738 A CN202210061738 A CN 202210061738A CN 114398638 A CN114398638 A CN 114398638A
- Authority
- CN
- China
- Prior art keywords
- effective
- data
- characteristic variable
- black product
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/552—Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及智能决策技术,揭露了一种网络黑产的识别方法,包括:对预构建的网络行为样本集进行异常值处理,得到有效样本集;根据预设策略将所述有效样本集分组为训练集及测试集,通过决策树最优分组方法量化所述训练集及测试集,得到标准训练集及标准测试集,根据特征变量数据的信息机制,挑选有效测试集及有效训练集;根据所述有效样本集及所述有效测试集,训练预构建的黑产用户识别模型,获取目标用户关于各个入参类型的用户数据,并将所述用户数据导入训练完成的所述黑产用户识别模型中,得到所述目标用户的违规识别结果。本申请还提出一种网络黑产的识别装置、电子设备以及存储介质。本申请可以提高网络黑产识别的准确性及效率。
Description
技术领域
本申请涉及智能决策技术领域,尤其涉及一种网络黑产的识别方法、装置、电子设备及计算机可读存储介质。
背景技术
互联网给我们各种便利的同时,也伴随着一些新的威胁和风险,例如,网络黑产。其中,所述网络黑产,指以互联网为媒介,以网络技术为主要手段,破坏计算机信息系统安全和网络空间管理秩序。
目前行业内对网络黑产的防护手段主要是根据手机号码、ip、GPS等聚集度,结合专家经验,归纳成规则策略来识别和打击网络黑产。但是,随着网络黑产日趋专业化,作弊工具层出不穷,防欺诈难度越来越大,现有的防护手段耗费时间较长,且效率越来越低,很难实现实时地对抗网络黑产,因此,目前急需一种更加快速、准确的网络黑产智能检测方法。
发明内容
本申请提供一种网络黑产的识别方法、装置及计算机可读存储介质,其主要目的在于解决网络黑产识别过程中,识别时间长、准确率低的问题。
为实现上述目的,本申请提供的一种网络黑产的识别方法,包括:
获取预构建的网络行为样本集,并对所述网络行为样本集进行异常值处理,得到有效样本集;
根据预设的样本划分策略,将所述有效样本集划分为训练集及测试集;
提取所述训练集及测试集中的特征变量数据,并利用决策树最优分组方法,对所述训练集中特征变量数据进行量化操作,得到标准训练集,并根据所述标准训练集中特征变量数据对应的离散度,对所述测试集中的特征变量数据进行量化,得到标准测试集;
获取所述特征变量数据的信息价值,并根据预设的变量挑选条件及所述信息价值,从所述标准训练集进行有效变量挑选,得到有效训练集,以及从所述标准测试集中进行有效变量挑选,得到有效测试集;
根据所述有效训练集及所述有效测试集,训练预构建的黑产用户识别模型;
识别所述有效训练集中特征变量数据对应的入参类型,获取目标用户关于各个所述入参类型的用户数据,并将所述用户数据导入训练完成的所述黑产用户识别模型中,得到所述目标用户的违规识别结果。
可选的,所述对所述网络行为样本集进行异常值处理,得到有效样本集,包括:
对所述网络行为样本集进行去重操作,得到去重样本集;
查询所述去重样本集中的缺失值,并利用knn回归方法对所述缺失值进行补充,得到有效样本集。
可选的,所述获取所述特征变量数据的信息价值,包括:
依次从所述有效样本集中提取一个类别的特征变量数据作为目标特征变量;
提取所述目标特征变量的各个分组数据,并对所述各个分组数据进行证据权重变换,得到所述各个分组数据对应的证据权重值;
利用信息价值计算方法,根据所述各个分组数据对应的证据权重值,计算所述各个分组数据对应的信息量;
将所述各个分组数据对应的信息量进行求和,得到所述目标特征变量的信息价值。
可选的,所述根据预设的变量挑选条件及所述信息价值,从所述标准训练集进行有效变量挑选,得到有效训练集,包括:
根据所述特征变量数据的信息价值,将所述特征变量数据进行排序,得到特征变量列表;
在所述特征变量列表中提取前预设数值的特征变量,得到初级有效特征变量集;
查询所述初级有效特征变量集中特征变量数据的缺失率;
根据预设的变量挑选条件,提取所述初级有效特征变量集中信息价值大于预设的有效阈值,且缺失率小于预设的警戒阈值的特征变量,得到有效训练集。
可选的,所述根据所述有效训练集及所述有效测试集,训练预构建的黑产用户识别模型,包括:
获取预构建的黑产用户识别模型,并利用所述有效训练集对所述黑产用户识别模型进行模型参数赋值,得到更新后的黑产用户识别模型;
利用所述更新后的黑产用户识别模型对所述有效测试集进行黑产识别,得到所述有效测试集的预测结果;
将所述预测结果与所述有效测试集中预构建的真实标签进行对比,得到所述黑产用户识别模型的查准率及KS值;
根据预设的模型判断标准、所述查准率及所述KS值,判断所述黑产用户识别模型是否合格;
当所述黑产用户识别模型不合格时,返回上述利用所述有效训练集对所述黑产用户识别模型进行模型参数赋值的步骤;
当所述黑产用户识别模型合格时,判定所述黑产用户识别模型训练完成。
可选的,所述识别所述有效训练集中特征变量数据对应的入参类型,包括:
获取预构建的特征工程变化列表,查询所述有效训练集中各个特征变量对应的初始参数类型,得到参数类型集合;
将所述参数类型集合进行去重操作,得到各个特征变量对应的入参类型。
可选的,所述获取目标用户关于各个所述入参类型的用户数据,包括:
利用预设埋点,获取所述目标用户在预构建的程序界面中的请求响应数据;
解析所述请求响应数据,得到所述目标用户在所述程序界面中的操作行为记录;
查询所述操作行为记录中关于所述入参类型的操作行为,得到用户数据。
为了解决上述问题,本申请还提供一种网络黑产的识别装置,所述装置包括:
异常值处理模块,用于获取预构建的网络行为样本集,并对所述网络行为样本集进行异常值处理,得到有效样本集;
数据量化模块,用于根据预设的样本划分策略,将所述有效样本集划分为训练集及测试集,及提取所述训练集及测试集中的特征变量数据,并利用决策树最优分组方法,对所述训练集中特征变量数据进行量化操作,得到标准训练集,并根据所述标准训练集中特征变量数据对应的离散度,对所述测试集中的特征变量数据进行量化,得到标准测试集;
有效样本获取模块,用于获取所述特征变量数据的信息价值,并根据预设的变量挑选条件及所述信息价值,从所述标准训练集进行有效变量挑选,得到有效训练集,以及从所述标准测试集中进行有效变量挑选,得到有效测试集;
模型构建模块,用于根据所述有效训练集及所述有效测试集,训练预构建的黑产用户识别模型;
黑产用户识别模块,用于识别所述有效训练集中特征变量数据对应的入参类型,获取目标用户关于各个所述入参类型的用户数据,并将所述用户数据导入训练完成的所述黑产用户识别模型中,得到所述目标用户的违规识别结果。
为了解决上述问题,本申请还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的网络黑产的识别方法。
为了解决上述问题,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的网络黑产的识别方法。
本申请实施例对网络行为样本集进行异常值处理,可以降低异常数据对模型的影响,同时增加模型的稳定性,且在建模过程前先通过量化操作将连续的特征变量数据离散化,能够归纳、压缩数据参数,增加模型构建的准确性;此外,本申请构建的黑产用户识别模型为逻辑回归模型,实现将非线性问题转化为线性,增加黑产识别的预测准确率。因此本申请提出的网络黑产的识别方法、装置、电子设备及计算机可读存储介质,可以解决网络黑产识别过程中,识别时间长、准确率低的问题。
附图说明
图1为本申请一实施例提供的网络黑产的识别方法的流程示意图;
图2为本申请一实施例提供的网络黑产的识别方法中一个步骤的流程示意图;
图3为本申请一实施例提供的网络黑产的识别方法中一个步骤的流程示意图;
图4为本申请一实施例提供的网络黑产的识别装置的功能模块图;
图5为本申请一实施例提供的实现所述网络黑产的识别方法的电子设备的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种网络黑产的识别方法。所述网络黑产的识别方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述网络黑产的识别方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本申请一实施例提供的网络黑产的识别方法的流程示意图。在本实施例中,所述网络黑产的识别方法包括:
S1、获取预构建的网络行为样本集,并对所述网络行为样本集进行异常值处理,得到有效样本集。
众所周知,网络黑产主要通过群控软件、模拟器、虚假设备等手段恶意攻击营销活动,从而获取活动奖品的行为,例如一些软件应用中,推出了的通过邀请好友进行点赞、参加助力等活动,就很容易遭受攻击。
本申请实施例中,所述网络行为样本集中包括目标用户邀请的新人用户数、高风险账号占比、邀请的白名单占比、邀请的用户命中策略情况、邀请完成所花的时间等等的目标用户在预构建的活动界面中的操作行为数据。但应当知道,所述网络行为样本集中的各个特征变量是无法直接获取,而是从app端采集到的网络环境、设备参数、行为数据等基本特征进行特征工程得到的。其中,所述特征工程是将原始数据转化成更好的表达问题本质的特征的过程。
进一步的,所述异常值处理的过程是指将所述特征变量样本集中重复的、缺失的、异常突变的数值对应进行相关操作,使得所述特征变量样本集的整体数据更加合理的方法。
详细的,本申请实施例中,所述对所述网络行为样本集进行异常值处理,得到有效样本集,包括:
对所述网络行为样本集进行去重操作,得到去重样本集;
查询所述去重样本集中的缺失值,并利用knn回归方法对所述缺失值进行补充,得到有效样本集。
其中,所述去重操作为将网络行为样本集中由于用户操作、数据传输、重复分组等过程中的重复部分进行删除,例如,目标用户对一个目标ID账户重复的发送了邀请,则只保留一次邀请操作的行为数据。
进一步地,所述缺失值是指所述网络行为样本集中由于缺少某个信息而造成的数据的聚类、分组、删失或截断。其中,数据存储过程的失败,存储器损坏,机械故障导致某段时间数据未能收集都会造成数据的缺失。
本申请实施例中,采用knn回归方法对各个所述缺失值进行填充,其中,所述knn回归实际上就是取离目标缺失值最近的k个点的数值,并取平均即得到所述缺失值中的数值,所述knn回归方法有利于增加特征变量样本中数据的合理性,减少突变数据。
本申请实施例通过上述的异常值处理方法将所述网络行为样本集中的异常值进行清除,得到有效样本集。
S2、根据预设的样本划分策略,将所述有效样本集划分为训练集及测试集。
本申请实施例中,所述样本划分策略可以基于随机种子抽样或企业处理经验而制定的划分策略,将所述有效样本集分为训练集和测试集,具体地,本申请实施例将所述训练集与所述测试集的样本数之比为4:1。
其中,训练集及测试集中的每一个有效样本均包含特征变量数据与对应的真实值。其中,所述特征变量数据是指一个用户的历史行为数据,以及所述真实值是指所述用户是否为一个黑产用户。
S3、提取所述训练集及测试集中的特征变量数据,并利用决策树最优分组方法,对所述训练集中特征变量数据进行量化操作,得到标准训练集,并根据所述标准训练集中特征变量数据对应的离散度,对所述测试集中的特征变量数据进行量化,得到标准测试集。
众所周知,所述训练集中特征变量数据的值为连续性的,各个变量能够表达的特征含义不强,不利于模型的构建,例如,若用户注册使用时间可能为【23h、567h、1086h……】连续变量,为增加各个变量的特征性,需要进行归纳为用户注册使用时间【一周内、二周内、一个月内……】。
具体的,本申请实施例通过决策树最优分组方法,对所述训练集中特征变量数据进行量化操作,其中,所述决策树最优分组方法是指基于信息增益比选择最优分组的方法。
其中,所述信息增益比越大说明该类特征变量更优,所述信息增益比gR(D,A)的表达方式如下:
式中,所述g(D,A)为信息增益,表示得知了特征类型A的信息后,使得类别结果D的判断过程的不确定性减少的程度,所述HA(D)表示所述类别结果D的特征熵。
具体的,本申请实施例以针对用户邀请的新人用户数的特征变量为例,假设特征变量的取值范围为[1,500],经过决策树最优分组算法找到最优分组点为20,100,320,则分组为(-∞,20],(20,100],(100,320],(320,+∞)。
进一步的,为确保所述测试集具有测试效果、保证所述测试集与所述训练集相似,本申请实施例中,所述测试集中的特征变量数据,根据所述标准训练集中特征变量数据的离散度进行对应划分,得到标准测试集。
本申请实施例通过所述决策树最优分组方法,能够更为准确地将所述训练集及所述测试集中的各个特征变量进行量化,确保数据离散更为合理,能够增加模型的训练效率。
进一步地,由于所述标准测试集与所述标准训练集的分组大小一致,即标准训练集中量化后的特征变量数据与所述标准测试集中量化后的特征变量数据相同,因此,后续用到所述量化后的特征变量数据时,不再赘述所述特征变量数据的出处。
S4、获取所述特征变量数据的信息价值,并根据预设的变量挑选条件及所述信息价值,从所述标准训练集进行有效变量挑选,得到有效训练集,以及从所述标准测试集中进行有效变量挑选,得到有效测试集。
所述信息价值(Information Value),是指某类特征变量对于预测结果的影响程度的大小。本申请实施例根据特征变量数据的信息价值的大小来选择合适的特征变量类别作为后续中导入模型中进行计算的参数,可以增加模型入参的特征值,提高模型训练效率。
详细的,参考图2所示,本申请实施例中,所述获取所述特征变量数据的信息价值,包括:
S401、依次从所述有效样本集中提取一个类别的特征变量数据作为目标特征变量;
S402、提取所述目标特征变量的各个分组数据,并对所述各个分组数据进行证据权重变换,得到所述各个分组数据对应的证据权重值;
S403、利用信息价值计算方法,根据所述各个分组数据对应的证据权重值,计算所述各个分组数据对应的信息量;
S404、将所述各个分组数据对应的信息量进行求和,得到所述目标特征变量的信息价值。
例如,以“某一用户向客户发送链接,客户是否点击链接进行响应”为例,所述证据权重值表示的是当前组中响应的客户和未响应客户的比值,及所有样本中客户和未响应客户的比值的差异。所述证据权重值越大,所述分组里的样本响应的可能性就越大,所述证据权重值越小,所述分组里的样本响应的可能性就越小。
其中,本申请其中一个实施例可以通过下述证据权重变换公式对各个分组数据进行证据权重计算:
以某一特征变量为例,式中,所述woei为所述某一特征变量的第i组的证据权重值,pyi是所述某一特征变量的第i组中网络黑产占所有样本中所有网络黑产的比例,pni是i组中非网络黑产占样本中所有非网络黑产的比例,yi是i组中网络黑产的用户数量,ni是i组中非网络黑产的用户数量,yt是样本中所有网络黑产的用户数量,nt是样本中所有非网络黑产的用户数量。
由此,本申请实施例得到所述某一特征变量中各个组对应的woei,根据所述信息价值与所述woei的计算关系,得到所述目标特征变量的信息价值IV:
VIi=(pyi-pni)*woei
其中,所述VIi为所述第i组的信息价值,而所述特征变量的信息价值IV为所述特征变量中各个组的信息价值,m为所述特征变量中组的总个数。
进一步地,参考图3所示,本申请实施例中,所述根据预设的变量挑选条件及所述信息价值,从所述标准训练集进行有效变量挑选,得到有效训练集,包括:
S411、根据所述特征变量数据的信息价值,将所述特征变量数据进行排序,得到特征变量列表;
S412、在所述特征变量列表中提取前预设数值的特征变量,得到初级有效特征变量集;
S413、查询所述初级有效特征变量集中特征变量数据的缺失率;
S414、根据预设的变量挑选条件,提取所述初级有效特征变量集中信息价值大于预设的有效阈值,且缺失率小于预设的警戒阈值的特征变量,得到有效训练集。
本申请实施例根据各个特征变量的信息价值进行排序,保留前N个特征变量,其中N可以为10,再将前N个特征变量的信息价值与预设的有效阈值,如0.02进行对比,保留信息价值大于0.02的特征变量,此外,若所述初级有效特征变量集中某一类特征变量具有较大的缺失率,表明数据大多为后续补充的,不适合作为模型的入参,因此,需要通过一个预设的警戒阈值,如0.75,来进行数据可靠性的判断,得到最终的有效训练集。
同理,可以根据所述变量挑选条件及所述信息价值,从所述标准测试集进行有效变量挑选,得到有效测试集。
S5、根据所述有效训练集及所述有效测试集,训练预构建的黑产用户识别模型。
本申请实施例中,所述黑产用户识别模型为一种逻辑回归模型。
详细的,本申请实施例中,所述根据所述有效训练集及所述有效测试集,训练预构建的黑产用户识别模型,包括:
获取预构建的黑产用户识别模型,并利用所述有效训练集对所述黑产用户识别模型进行模型参数赋值,得到更新后的黑产用户识别模型;
利用所述更新后的黑产用户识别模型对所述有效测试集进行黑产识别,得到所述有效测试集的预测结果;
将所述预测结果与所述有效测试集中预构建的真实标签进行对比,得到所述黑产用户识别模型的查准率及KS值;
根据预设的模型判断标准、所述查准率及所述KS值,判断所述黑产用户识别模型是否合格;
当所述黑产用户识别模型不合格时,返回上述利用所述有效训练集对所述黑产用户识别模型进行模型参数赋值的步骤;
当所述黑产用户识别模型合格时,判定所述黑产用户识别模型训练完成。
本发明其中一个实施例中可以根据逻辑回归公式构建下述黑产用户识别模型:
Logit(X)=β0+β1X1+β2X2+β3X3+β4X4......
式中,所述Logit(X)为所述黑产用户识别模型的模型函数,参数β、Xn为模型参数,其中,所述β为回归参数,可通过极大自然法计算,所述Xn为特征变量数据,且各个特征变量数据均为上述S4过程中挑选出来的。其中,所述极大自然法是在参数Xn的可能取值范围内,选取使Logit(X)达到最大的值作为参数Xn的估计值的方法。
进一步的,本申请实施例通过所述有效测试集对所述黑产用户识别模型进行测试,得到所述有效测试集中的各个有效样本对应的预测值,并根据预设的模型判断标准、所述查准率及所述KS值,判断所述黑产用户识别模型是否合格。
其中,本申请实施例通过对比所述有效测试集中预构建的真实标签与预测结果,能够得到:
【真正例TP:有效测试样本本身为正常用户,预测结果为正常用户,预测正确;假正例FP:有效测试样本本身为黑产用户,预测结果为正常用户,预测错误;真反例TN:有效测试样本本身为黑产用户,预测结果也为黑产用户,预测正确;假反例FN:有效测试样本本身为正常用户,预测结果却为黑产用户,预测错误】。其中,所述FP将黑产用户预测成正常用户了,而所述FN却将正常用户预测成了黑产用户。
本申请实施例中,所述查准率P表示预测结果中有多少正例是预测正确的,可表示为:
此外,所述KS值是在模型中用于区分预测正负样本分隔程度的评价指标,本申请实施例,以黑产用户为正例,非黑产用户为负例,通过下述公式进行计算:
KS=max{TPR-FPR}
其中,所述TPR为所有正例中,成功辨别出的正例的概率,所述FPR为所述负例中误判为正例的概率。
进一步的,本申请实施例中,根据根据预设的模型判断标准,可以判断所述查准率是否大于预设的第一阈值,并判断所述KS值是否大于预设的第二阈值,当所述查准率不大于预设的第一阈值或所述KS值不大于预设的第二阈值时,则判定所述更新的黑产用户识别模型不合格,并返回所述利用所述有效样本集对所述黑产用户识别模型进行模型参数赋值的步骤进行重新训练;当所述查准率大于预设的第一阈值且所述KS值大于预设的第二阈值时,则判定所述黑产用户识别模型合格。
S6、识别所述有效训练集中特征变量数据对应的入参类型,获取目标用户关于各个所述入参类型的用户数据,并将所述用户数据导入训练完成的所述黑产用户识别模型中,得到所述目标用户的违规识别结果。
详细的,本申请实施例中,所述识别所述有效训练集中特征变量数据对应的入参类型,包括:
获取预构建的特征工程变化列表,查询所述有效训练集中各个特征变量对应的初始参数类型,得到参数类型集合;
将所述参数类型集合进行去重操作,得到各个特征变量对应的入参类型。
具体的,所述特征工程变化列表可以从所述特征工程中获取,本申请实施例通过预构建的特征工程变化列表,查看各个特征变量是如何得到的,由此确定获取需要接收何种类型的数据。其中,为避免数据接收重复,本申请通过去重操作,保留需要接收的唯一参数类型,得到参数类型集合。
详细的,本申请实施例中,所述获取目标用户关于各个所述入参类型的用户数据,包括:
利用预设埋点,获取所述目标用户在预构建的程序界面中的请求响应数据;
解析所述请求响应数据,得到所述目标用户在所述程序界面中的操作行为记录;
查询所述操作行为记录中关于所述入参类型的操作行为,得到用户数据。
本申请实施例可以根据预设埋点获取用户访问程序界面的统一资源定位(URL),所述URL为用户的客户端发出的,能够获取所述产品界面调取后台的数据内容的请求链接,其中,所述URL包括协议模式、请求地址、参数值、标签等等,通过解析所述URL能够获取用户点击内容,从而得到用户的操作行为。当所述用户数据获取后,再将所述用户数据导入所述黑产用户识别模型中,得到所述用户是否为网络黑产的识别结果。
本申请实施例对网络行为样本集进行异常值处理,可以降低异常数据对模型的影响,同时增加模型的稳定性,且在建模过程前先通过量化操作将连续的特征变量数据离散化,能够归纳、压缩数据参数,增加模型构建的准确性;此外,本申请构建的黑产用户识别模型为逻辑回归模型,实现将非线性问题转化为线性,增加黑产识别的预测准确率。因此本申请提出的网络黑产的识别方法,可以解决网络黑产识别过程中,识别时间长、准确率低的问题。
如图4所示,是本申请一实施例提供的网络黑产的识别装置的功能模块图。
本申请所述网络黑产的识别装置100可以安装于电子设备中。根据实现的功能,所述网络黑产的识别装置100可以包括异常值处理模块101、数据量化模块102、有效样本获取模块103、模型构建模块104以及黑产用户识别模块105。本申请所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述异常值处理模块101,用于获取预构建的网络行为样本集,并对所述网络行为样本集进行异常值处理,得到有效样本集;
所述数据量化模块102,用于根据预设的样本划分策略,将所述有效样本集划分为训练集及测试集,及提取所述训练集及测试集中的特征变量数据,并利用决策树最优分组方法,对所述训练集中特征变量数据进行量化操作,得到标准训练集,并根据所述标准训练集中特征变量数据对应的离散度,对所述测试集中的特征变量数据进行量化,得到标准测试集;
所述有效样本获取模块103,用于获取所述特征变量数据的信息价值,并根据预设的变量挑选条件及所述信息价值,从所述标准训练集进行有效变量挑选,得到有效训练集,以及从所述标准测试集中进行有效变量挑选,得到有效测试集;
所述模型构建模块104,用于根据所述有效训练集及所述有效测试集,训练预构建的黑产用户识别模型;
所述黑产用户识别模块105,用于识别所述有效训练集中特征变量数据对应的入参类型,获取目标用户关于各个所述入参类型的用户数据,并将所述用户数据导入训练完成的所述黑产用户识别模型中,得到所述目标用户的违规识别结果。
详细地,本申请实施例中所述网络黑产的识别装置100中所述的各模块在使用时采用与上述图1至图3中所述的网络黑产的识别方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图5所示,是本申请一实施例提供的实现网络黑产的识别方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如网络黑产的识别程序。
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行网络黑产的识别程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如网络黑产的识别程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线12可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的网络黑产的识别程序是多个指令的组合,在所述处理器10中运行时,可以实现:
获取预构建的网络行为样本集,并对所述网络行为样本集进行异常值处理,得到有效样本集;
根据预设的样本划分策略,将所述有效样本集划分为训练集及测试集;
提取所述训练集及测试集中的特征变量数据,并利用决策树最优分组方法,对所述训练集中特征变量数据进行量化操作,得到标准训练集,并根据所述标准训练集中特征变量数据对应的离散度,对所述测试集中的特征变量数据进行量化,得到标准测试集;
获取所述特征变量数据的信息价值,并根据预设的变量挑选条件及所述信息价值,从所述标准训练集进行有效变量挑选,得到有效训练集,以及从所述标准测试集中进行有效变量挑选,得到有效测试集;
根据所述有效训练集及所述有效测试集,训练预构建的黑产用户识别模型;
识别所述有效训练集中特征变量数据对应的入参类型,获取目标用户关于各个所述入参类型的用户数据,并将所述用户数据导入训练完成的所述黑产用户识别模型中,得到所述目标用户的违规识别结果。
具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本申请还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取预构建的网络行为样本集,并对所述网络行为样本集进行异常值处理,得到有效样本集;
根据预设的样本划分策略,将所述有效样本集划分为训练集及测试集;
提取所述训练集及测试集中的特征变量数据,并利用决策树最优分组方法,对所述训练集中特征变量数据进行量化操作,得到标准训练集,并根据所述标准训练集中特征变量数据对应的离散度,对所述测试集中的特征变量数据进行量化,得到标准测试集;
获取所述特征变量数据的信息价值,并根据预设的变量挑选条件及所述信息价值,从所述标准训练集进行有效变量挑选,得到有效训练集,以及从所述标准测试集中进行有效变量挑选,得到有效测试集;
根据所述有效训练集及所述有效测试集,训练预构建的黑产用户识别模型;
识别所述有效训练集中特征变量数据对应的入参类型,获取目标用户关于各个所述入参类型的用户数据,并将所述用户数据导入训练完成的所述黑产用户识别模型中,得到所述目标用户的违规识别结果。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。
Claims (10)
1.一种网络黑产的识别方法,其特征在于,所述方法包括:
获取预构建的网络行为样本集,并对所述网络行为样本集进行异常值处理,得到有效样本集;
根据预设的样本划分策略,将所述有效样本集划分为训练集及测试集;
提取所述训练集及测试集中的特征变量数据,并利用决策树最优分组方法,对所述训练集中特征变量数据进行量化操作,得到标准训练集,并根据所述标准训练集中特征变量数据对应的离散度,对所述测试集中的特征变量数据进行量化,得到标准测试集;
获取所述特征变量数据的信息价值,并根据预设的变量挑选条件及所述信息价值,从所述标准训练集进行有效变量挑选,得到有效训练集,以及从所述标准测试集中进行有效变量挑选,得到有效测试集;
根据所述有效训练集及所述有效测试集,训练预构建的黑产用户识别模型;
识别所述有效训练集中特征变量数据对应的入参类型,获取目标用户关于各个所述入参类型的用户数据,并将所述用户数据导入训练完成的所述黑产用户识别模型中,得到所述目标用户的违规识别结果。
2.如权利要求1所述的网络黑产的识别方法,其特征在于,所述对所述网络行为样本集进行异常值处理,得到有效样本集,包括:
对所述网络行为样本集进行去重操作,得到去重样本集;
查询所述去重样本集中的缺失值,并利用knn回归方法对所述缺失值进行补充,得到有效样本集。
3.如权利要求1所述的网络黑产的识别方法,其特征在于,所述获取所述特征变量数据的信息价值,包括:
依次从所述有效样本集中提取一个类别的特征变量数据作为目标特征变量;
提取所述目标特征变量的各个分组数据,并对所述各个分组数据进行证据权重变换,得到所述各个分组数据对应的证据权重值;
利用信息价值计算方法,根据所述各个分组数据对应的证据权重值,计算所述各个分组数据对应的信息量;
将所述各个分组数据对应的信息量进行求和,得到所述目标特征变量的信息价值。
4.如权利要求1所述的网络黑产的识别方法,其特征在于,所述根据预设的变量挑选条件及所述信息价值,从所述标准训练集进行有效变量挑选,得到有效训练集,包括:
根据所述特征变量数据的信息价值,将所述特征变量数据进行排序,得到特征变量列表;
在所述特征变量列表中提取前预设数值的特征变量,得到初级有效特征变量集;
查询所述初级有效特征变量集中特征变量数据的缺失率;
根据预设的变量挑选条件,提取所述初级有效特征变量集中信息价值大于预设的有效阈值,且缺失率小于预设的警戒阈值的特征变量,得到有效训练集。
5.如权利要求1所述的网络黑产的识别方法,其特征在于,所述根据所述有效训练集及所述有效测试集,训练预构建的黑产用户识别模型,包括:
获取预构建的黑产用户识别模型,并利用所述有效训练集对所述黑产用户识别模型进行模型参数赋值,得到更新后的黑产用户识别模型;
利用所述更新后的黑产用户识别模型对所述有效测试集进行黑产识别,得到所述有效测试集的预测结果;
将所述预测结果与所述有效测试集中预构建的真实标签进行对比,得到所述黑产用户识别模型的查准率及KS值;
根据预设的模型判断标准、所述查准率及所述KS值,判断所述黑产用户识别模型是否合格;
当所述黑产用户识别模型不合格时,返回上述利用所述有效训练集对所述黑产用户识别模型进行模型参数赋值的步骤;
当所述黑产用户识别模型合格时,判定所述黑产用户识别模型训练完成。
6.如权利要求1至5中任意一项所述的网络黑产的识别方法,其特征在于,所述识别所述有效训练集中特征变量数据对应的入参类型,包括:
获取预构建的特征工程变化列表,查询所述有效训练集中各个特征变量对应的初始参数类型,得到参数类型集合;
将所述参数类型集合进行去重操作,得到各个特征变量对应的入参类型。
7.如权利要求1所述的网络黑产的识别方法,其特征在于,所述获取目标用户关于各个所述入参类型的用户数据,包括:
利用预设埋点,获取所述目标用户在预构建的程序界面中的请求响应数据;
解析所述请求响应数据,得到所述目标用户在所述程序界面中的操作行为记录;
查询所述操作行为记录中关于所述入参类型的操作行为,得到用户数据。
8.一种网络黑产的识别装置,其特征在于,所述装置包括:
异常值处理模块,用于获取预构建的网络行为样本集,并对所述网络行为样本集进行异常值处理,得到有效样本集;
数据量化模块,用于根据预设的样本划分策略,将所述有效样本集划分为训练集及测试集,及提取所述训练集及测试集中的特征变量数据,并利用决策树最优分组方法,对所述训练集中特征变量数据进行量化操作,得到标准训练集,并根据所述标准训练集中特征变量数据对应的离散度,对所述测试集中的特征变量数据进行量化,得到标准测试集;
有效样本获取模块,用于获取所述特征变量数据的信息价值,并根据预设的变量挑选条件及所述信息价值,从所述标准训练集进行有效变量挑选,得到有效训练集,以及从所述标准测试集中进行有效变量挑选,得到有效测试集;
模型构建模块,用于根据所述有效训练集及所述有效测试集,训练预构建的黑产用户识别模型;
黑产用户识别模块,用于识别所述有效训练集中特征变量数据对应的入参类型,获取目标用户关于各个所述入参类型的用户数据,并将所述用户数据导入训练完成的所述黑产用户识别模型中,得到所述目标用户的违规识别结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的网络黑产的识别方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的网络黑产的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210061738.3A CN114398638A (zh) | 2022-01-19 | 2022-01-19 | 网络黑产的识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210061738.3A CN114398638A (zh) | 2022-01-19 | 2022-01-19 | 网络黑产的识别方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114398638A true CN114398638A (zh) | 2022-04-26 |
Family
ID=81231302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210061738.3A Pending CN114398638A (zh) | 2022-01-19 | 2022-01-19 | 网络黑产的识别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114398638A (zh) |
-
2022
- 2022-01-19 CN CN202210061738.3A patent/CN114398638A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112446025A (zh) | 联邦学习防御方法、装置、电子设备及存储介质 | |
CN112016905B (zh) | 基于审批流程的信息展示方法、装置、电子设备及介质 | |
CN113592019A (zh) | 基于多模型融合的故障检测方法、装置、设备及介质 | |
CN114519524A (zh) | 基于知识图谱的企业风险预警方法、装置及存储介质 | |
CN111652279A (zh) | 基于时序数据的行为评价方法、装置及可读存储介质 | |
CN113688923A (zh) | 订单异常智能检测方法、装置、电子设备及存储介质 | |
CN113516417A (zh) | 基于智能建模的业务评估方法、装置、电子设备及介质 | |
CN111950625A (zh) | 基于人工智能的风险识别方法、装置、计算机设备及介质 | |
CN114399212A (zh) | 生态环境质量评估方法、装置、电子设备及存储介质 | |
CN117155771A (zh) | 一种基于工业物联网的设备集群故障溯源方法及装置 | |
CN112883380A (zh) | 智慧教育平台的大数据组件安全风险分析方法及系统 | |
CN112052310A (zh) | 基于大数据的信息获取方法、装置、设备及存储介质 | |
CN116562894A (zh) | 车险理赔欺诈风险识别方法、装置、电子设备及存储介质 | |
CN111652282A (zh) | 基于大数据的用户偏好分析方法、装置及电子设备 | |
CN114398638A (zh) | 网络黑产的识别方法、装置、设备及介质 | |
CN115099339A (zh) | 欺诈行为识别方法、装置、电子设备及存储介质 | |
CN113657546B (zh) | 信息分类方法、装置、电子设备及可读存储介质 | |
CN115034812A (zh) | 基于大数据的钢铁行业销售量预测方法及装置 | |
CN111651652B (zh) | 基于人工智能的情感倾向识别方法、装置、设备及介质 | |
CN114662095A (zh) | 基于操作数据的安全监测方法、装置、设备及存储介质 | |
CN113657499A (zh) | 基于特征选择的权益分配方法、装置、电子设备及介质 | |
CN113537806A (zh) | 异常用户识别方法、装置、电子设备及可读存储介质 | |
CN113704407A (zh) | 基于类别分析的投诉量分析方法、装置、设备及存储介质 | |
CN111582679A (zh) | 应用服务分区的处理方法、装置、设备及存储介质 | |
CN113360945B (zh) | 基于差分隐私的噪声添加方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |