CN113486243A - 一种社交网络假流量黑灰产自动挖掘方法和系统 - Google Patents
一种社交网络假流量黑灰产自动挖掘方法和系统 Download PDFInfo
- Publication number
- CN113486243A CN113486243A CN202110791106.8A CN202110791106A CN113486243A CN 113486243 A CN113486243 A CN 113486243A CN 202110791106 A CN202110791106 A CN 202110791106A CN 113486243 A CN113486243 A CN 113486243A
- Authority
- CN
- China
- Prior art keywords
- user
- social network
- microblog
- users
- false
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000005065 mining Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000010801 machine learning Methods 0.000 claims abstract description 4
- 238000012216 screening Methods 0.000 claims abstract description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 19
- 238000012795 verification Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 claims description 2
- 238000009877 rendering Methods 0.000 claims description 2
- 230000006399 behavior Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种社交网络假流量黑灰产自动挖掘方法和系统,包括:(1)创建“蜜罐”用户,在社交网络中对参与假流量攻击的恶意用户进行诱捕;(2)提取恶意用户的微博内容层面的特征;(3)提取恶意用户的个人信息层面的特征;(4)在社交网络中随机选取正常用户并分别提取微博内容层面和个人信息层面的特征;(5)运用机器学习算法,根据提取的特征训练分类器;(6)分别提取目标用户的微博内容层面和个人信息层面的特征,并运用训练好的分类器进行识别;(7)对于被识别为恶意用户的目标用户,基于规则对该用户所发的微博进行筛选,挖掘出涉及假流量黑灰产的微博。本发明的方法和系统可及时发现、预警和治理社交网络流量作弊事件。
Description
技术领域
本发明涉及网络黑灰产中的安全技术领域,尤其涉及一种社交网络假流量黑灰产自动挖掘方法和系统。
背景技术
社交网络黑灰产是危害互联网生态安全的重大问题之一。传统技术能够对虚假评论、传统虚假用户等作弊行为进行检测,但随着作弊行为不断变化和转移,现有的模型和方法很快就失去适用性。
蜜罐技术本质上是一种对攻击方进行欺骗的技术,通过布置一些作为诱饵的主机、网络服务或者信息,诱使攻击方对其实施攻击,从而可以对攻击行为进行捕获和分析,了解攻击方所使用的工具与方法,推测攻击意图和动机,能够让防御方清晰地了解他们所面对的安全威胁,并通过技术和管理手段来增强实际系统的安全防护能力。因此利用蜜罐捕捉虚假用户账号,对社交网络黑灰产进行实时的分析和监控,有利于从源头上发现和打击社交网络黑灰产。
不同于传统的社交网络黑灰产,社交网络假流量黑灰产是最近5年才兴起的一种新型黑灰产,通常是指通过虚假转发含有特定话题的微博将特定话题推送上社交网络中的实施热榜等违反社交网络平台相关规范的作弊行为。从虚假账号的创建到虚假账号的运维,再到执行具体的攻击,社交网络假流量黑灰产已经形成完整的产业链,且随着社交网络领域反作弊机制的完善,社交网络流量作弊行为也趋向于专业化,然而企业内部对黑灰产的分布和现状大部分靠人工分析,无法应对日益扩大的黑灰产规模。
公开号为CN111917601A的中国专利文献公开了一种虚假流量识别方法及用户品牌价值的量化计算方法,涉及互联网技术领域。其中虚假流量识别方法定义了社交网络中用户的影响力和易被影响特性,通过爬取整个社交网络中一时间段内用户间的交互数据,根据该时间段内用户间的交互数据计算用户的影响力和易被影响特性,据此标记出虚假用户,识别出虚假流量。
公开号为CN110913396A的中国专利文献公开了一种虚假流量识别方法、装置、服务器及可读存储介质,涉及数据处理技术领域。该虚假流量识别方法通过预先建立的白名单对获取到的每个移动终端中各应用软件网络通信时的流量数据进行第一标识,通过预先建立的黑名单对获取到的每个移动终端中各应用软件网络通信时的流量数据进行第二标识,根据各流量数据是否具有所述第一标识和第二标识,判断各流量数据是否为虚假流量。
发明内容
本发明提供了一种社交网络假流量黑灰产自动挖掘方法和系统,可及时发现、预警和治理社交网络流量作弊事件,实现对社交网络假流量黑灰产进行实时多维度监控。
本发明的技术方案如下:
一种社交网络假流量黑灰产自动挖掘方法,包括以下步骤:
(1)创建“蜜罐”用户,在社交网络中对参与假流量攻击的恶意用户进行诱捕;
(2)采用自然语言处理技术对诱捕得到的恶意用户的微博内容进行数据分析,获得恶意用户的微博内容层面的特征;
(3)对诱捕得到的恶意用户的个人信息进行分析,获得恶意用户的个人信息层面的特征;
(4)在社交网络中随机选取正常用户,根据步骤(2)和(3)的方法分别提取正常用户的微博内容层面和个人信息层面的特征;
(5)运用机器学习算法,根据步骤(2)~(4)中提取的特征,训练分类器使之能区分正常用户与恶意用户;
(6)对于任意的社交网络中的微博用户,根据步骤(2)和(3)的方法分别提取用户的微博内容层面和个人信息层面的特征,并运用步骤(5)中训练好的分类器进行识别;
(7)对于步骤(6)中被识别为恶意用户的微博用户,基于规则对该微博用户所发的微博进行筛选,挖掘出涉及假流量黑灰产的微博。
所述的社交网络可以为新浪微博、大众点评、Twitter、Tuenti等,所述的微博是指社交网络用户在社交网络上所发表的博客。
步骤(2)中,运用自然语言处理技术提取用户的微博内容层面的特征,包括:
(2-ⅰ)对于诱捕得到的参与假流量攻击的恶意用户,选取其所有不包含任何话题的微博,标记为正样本;
在社交网络中随机采集正常用户所发的微博,标记为负样本;
将所有样本打乱后分割成训练样本、验证样本和测试样本;
(2-ⅱ)将训练样本输入双向自编码表示变形器(BERT)中进行向量计算,得到其输出层第一个变形器(Transformer)的输出向量;
(2-ⅲ)将输出向量作为多层感知机(MLP)的输入,将多层感知机输出结果作为Softmax层的输入,计算每条微博属于恶意用户所发的概率或正常用户所发的概率;
(2-ⅳ)使用随机梯度下降算法更新双向自编码表示变形器和多层感知机的网络参数;
(2-ⅴ)采用验证集测试双向自编码表示变形器和多层感知机的精确率,若所述精确率达到要求,则结束训练,否则继续训练;
(2-ⅵ)对于一个用户来说,采用双向自编码表示变形器和多层感知机对该用户所发的所有微博进行预测,计算该用户所发的所有微博中被识别为恶意用户用于伪装自身的微博的比例,将该比例作为该用户在微博内容层面的特征。
双向自编码表示变形器(BERT,Bidirectional Encoder Representations fromTransformers)是一个语言表示模型。BERT将Transformer模型中的Encoder部分进行双向链接。BERT模型是一个预训练模型,其预训练任务由Masked Language Model(MLM)和NextSentence Prediction(NSP)任务组成,而本发明需要的任务是句子分类任务,识别出一个句子是否属于虚假账户发送的用于隐藏自己的微博。因此,不能直接运用BERT模型来达成本申请的任务,需要对BERT模型进行一些定制化的操作与微调。具体来说是:将BERT模型作为特征提取器,选取BERT模型最后一层的第一个单元作为输入一个句子的句子向量,之后再把这个句子向量输入进添加前馈式神经网络与softmax层进行分类,最终判断这个句子的类型。
优选的,所述的训练样本、验证样本和测试样本的数量比为6:3:1。
优选的,步骤(2-ⅳ)中,使用随机梯度下降(Stochastic Gradient Descent,SGD)更新双向自编码表示变形器和多层感知机的网络参数,学习率(learning rate)初始时为0.00002,每次在数据集上训练一轮后通过验证集计算一下模型的损失,并存储检查点,训练若在验证集上模型预测准确率下降则停止训练。
步骤(3)中,所述的用户的个人信息层面的特征包括:
(a)该用户是否认证;
(b)该用户的粉丝数量;
(c)该用户的关注数量;
(d)该用户的微博数量;
(e)该用户的账号等级。
步骤(5)包括:
(5-i)将参与假流量攻击的恶意用户标记为正样本,将正常用户标记为负样本,构建训练集和验证集;
(5-ii)提取训练样本的微博内容层面的特征和个人信息层面的特征;
(5-iii)将提取的训练样本的特征值归一化后作为XGBoost模型的输入,对XGBoost模型进行训练;通过训练好的XGBoost模型对可疑微博用户进行预测,识别获取参与假流量攻击的恶意用户。
步骤(7)中,所述的规则为:对于一条微博,若其中含有话题,则将该微博分类为涉及假流量黑灰产的微博。
可通过分析涉及假流量黑灰产的微博和执行假流量攻击的恶意用户,设计相应的反作弊测量;可将相关涉及假流量的话题反馈给相关部门进行处理。
本发明同时还提供了一种社交网络假流量黑灰产自动挖掘系统,包括系统显示组件、数据采集组件和模型决策组件;
所述的系统显示组件负责整个系统与使用者的交互;使用者通过系统显示组件输入目标用户的ID号码,由系统显示组件将ID号码发送给数据采集组件;
所述的数据采集组件负责对目标用户的数据进行采集;数据采集组件在收到系统显示组件发送来的ID号码之后执行数据采集程序,采集模型决策组件所需要的目标用户的数据,对采集到的数据处理后以合适的格式发送给模型决策组件;
所述的模型决策组件负责对目标用户以及目标用户所发的微博进行预测;所述的模型决策组件包括训练好的双向自编码表示变形器和XGBoost模型;模型决策组件收到数据采集组件发送来的用户数据后,首先调用训练好的双向自编码表示变形器对目标用户所发的微博进行预测,其次调用XGBoost模型对目标用户进行预测,最后将所有的预测结果传回给系统显示组件进行渲染显示。
所述的社交网络假流量黑灰产自动挖掘系统根据上述方法对社交网络假流量黑灰产进行自动挖掘。
与现有技术相比,本发明的有益效果为:
(1)能够实时获取多渠道的外部信息,构建社交网络假流量黑灰产纵深防御体系;
(2)能够识别执行假流量攻击的恶意用户和涉及假流量,有利于后续对假流量作弊行为的检测和对黑灰产的根治;
(3)能够实现对社交网络假流量黑灰产的自动挖掘,节约了人工分析成本,有利于大规模部署和实施。
附图说明
图1为社交网络假流量黑灰产自动挖掘系统的架构示意图;
图2为社交网络假流量黑灰产自动挖掘方法的流程示意图;
图3为基于BERT模型的识别伪装微博的模型结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
社交网络假流量黑灰产自动挖掘的架构如图1所示,主要包括系统显示组件、数据采集组件和模型决策组件。
系统显示组件负责整个系统与用户的交互,用户可以通过在系统显示组件内输入想要检测用户的ID号码,由系统显示组件将ID号码发送给数据采集组件;
数据采集组件负责对目标用户数据的采集,数据采集组件在收到系统显示组件发送来的用户ID之后会执行数据采集程序,采集供模型决策组件需要的目标用户数据,最后处理用户数据并将其以合适的格式发送给模型决策组件;
模型决策组件负责对目标用户以及目标用户的所有微博进行模型预测。模型决策组件会在收到数据采集组件发送来的用户特征数据后进行模型预测,首先调用BERT模型对输入的每一条微博进行预测,之后算出被BERT模型预测为疑似虚假用户发送的微博百分比这个特征,其次调用XGBoost模型进行用户层面的特征预测,最后将所有的预测界面传回给系统显示组件进行渲染显示。
基于社交网络假流量黑灰产自动挖掘系统的社交网络假流量黑灰产舆情自动挖掘方法,包括以下步骤,如图2所示:
(1)设立一个蜜罐账户去捕捉虚假账户,爬取虚假账户的个人信息与微博信息;
与犯罪分子沟通诱导其攻击我们的蜜罐账户,犯罪分子操纵被它们控制的虚假账户,虚假账户的攻击被蜜罐账户捕捉到,采集足够用于机器学习模型分类的数据;
(2)使用BERT模型对微博进行分类,具体操作如下:
对诱捕得到的参与假流量攻击的恶意用户中选取其所有不包含任何话题的微博(用于伪装自身的微博),标记为正样本,并在社交网络中随机采集正常用户所发的微博,标记为负样本。将所有样本打乱后按照6:3:1的顺序分割成训练样本、验证样本和测试样本。其中训练样本有29727条句子,验证样本有14863条句子,测试样本有4955条句子。
如图3所示,将BERT模型作为特征提取器,选取BERT模型最后一层的第一个单元作为输入一个句子的句子向量,之后再把这个句子向量输入进添加前馈式神经网络与softmax层进行分类,最终判断这个句子的类型。
将训练样本输入双向自编码表示变形器(BERT,Bidirectional EncoderRepresentations from Transformers)中进行向量计算,得到输出层第一个变形器(Transformer)的输出向量。将输出向量作为多层感知机(MLP)的输入,将输出结果作为Softmax层的输入,计算每条微博属于恶意用户伪装自身的微博的概率和社交网络中正常用户所发的微博的概率。使用随机梯度下降算法更新双向自编码表示变形器和多层感知机的网络参数。采用验证集测试双向自编码表示变形器和多层感知机的精确率,若所述精确率达到要求,则结束训练,否则继续训练;对于一个用户来说,采用双向自编码表示变形器和多层感知机对每一条微博进行预测,给出对应的预测标签。之后计算预测标签为“伪装微博”,占所有标签的比例作为微博内容层面的特征。
(3)个人信息层面的特征包括以下几种:
(a)该用户是否认证;
(b)该用户的粉丝数量;
(c)该用户的关注数量;
(d)该用户的微博数量;
(e)该用户账号的等级;
(4)将参与假流量攻击的恶意用户标记为正样本,将正常用户标记为负样本,按照7:3的比例构建训练集和验证集,其中训练集中有2793个用户,测试集中有1197个用户;
(4-1)提取训练样本的微博内容层面的特征和个人信息层面的特征;
(4-2)将训练样本特征值归一化后作为XGBoost模型的输入,对XGBoost模型进行训练;
(4-3)通过训练好的XGBoost模型对可疑微博用户进行预测,识别获取参与假流量攻击的恶意用户。
步骤(4-2)中,所述的微博内容层面的特征为一个用户中所有微博中被BERT模型预测出标签为“伪装微博”的比例;所述的个人信息层面的特征包括该用户是否认证、该用户的粉丝数量、该用户的关注数量、该用户的微博数量和该用户账号的等级。
(5)采用的基于规则筛选其中涉及假流量黑灰产的微博中的规则为:对于一条微博若其中含有话题则将该微博分类为涉及假流量黑灰产的微博。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种社交网络假流量黑灰产自动挖掘方法,其特征在于,包括以下步骤:
(1)创建“蜜罐”用户,在社交网络中对参与假流量攻击的恶意用户进行诱捕;
(2)采用自然语言处理技术对诱捕得到的恶意用户的微博内容进行数据分析,获得恶意用户的微博内容层面的特征;
(3)对诱捕得到的恶意用户的个人信息进行分析,获得恶意用户的个人信息层面的特征;
(4)在社交网络中随机选取正常用户,根据步骤(2)和(3)的方法分别提取正常用户的微博内容层面和个人信息层面的特征;
(5)运用机器学习算法,根据步骤(2)~(4)中提取的特征,训练分类器使之能区分正常用户与恶意用户;
(6)对于任意的社交网络中的微博用户,根据步骤(2)和(3)的方法分别提取用户的微博内容层面和个人信息层面的特征,并运用步骤(5)中训练好的分类器进行识别;
(7)对于步骤(6)中被识别为恶意用户的微博用户,基于规则对该微博用户所发的微博进行筛选,挖掘出涉及假流量黑灰产的微博。
2.根据权利要求1所述的社交网络假流量黑灰产自动挖掘方法,其特征在于,步骤(2)中,运用自然语言处理技术提取用户的微博内容层面的特征,包括:
(2-ⅰ)对于诱捕得到的参与假流量攻击的恶意用户,选取其所有不包含任何话题的微博,标记为正样本;
在社交网络中随机采集正常用户所发的微博,标记为负样本;
将所有样本打乱后分割成训练样本、验证样本和测试样本;
(2-ⅱ)将训练样本输入双向自编码表示变形器中进行向量计算,得到其输出层第一个变形器的输出向量;
(2-ⅲ)将输出向量作为多层感知机的输入,将多层感知机输出结果作为Softmax层的输入,计算每条微博属于恶意用户所发的概率或正常用户所发的概率;
(2-ⅳ)使用随机梯度下降算法更新双向自编码表示变形器和多层感知机的网络参数;
(2-ⅴ)采用验证集测试双向自编码表示变形器和多层感知机的精确率,若所述精确率达到要求,则结束训练,否则继续训练;
(2-ⅵ)对于一个用户来说,采用双向自编码表示变形器和多层感知机对该用户所发的所有微博进行预测,计算该用户所发的所有微博中被识别为恶意用户用于伪装自身的微博的比例,将该比例作为该用户在微博内容层面的特征。
3.根据权利要求2所述的社交网络假流量黑灰产自动挖掘方法,其特征在于,所述的训练样本、验证样本和测试样本的数量比为6:3:1。
4.根据权利要求2所述的社交网络假流量黑灰产自动挖掘方法,其特征在于,步骤(2-ⅳ)中,使用随机梯度下降更新双向自编码表示变形器和多层感知机的网络参数;学习率初始时为0.00002,每次在数据集上训练一轮后通过验证集计算一下模型的损失,并存储检查点,训练若在验证集上模型预测准确率下降则停止训练。
5.根据权利要求1所述的社交网络假流量黑灰产自动挖掘方法,其特征在于,步骤(3)中,所述的用户的个人信息层面的特征包括:
(a)该用户是否认证;
(b)该用户的粉丝数量;
(c)该用户的关注数量;
(d)该用户的微博数量;
(e)该用户的账号等级。
6.根据权利要求1所述的社交网络假流量黑灰产自动挖掘方法,其特征在于,步骤(5)包括:
(5-i)将参与假流量攻击的恶意用户标记为正样本,将正常用户标记为负样本,构建训练集和验证集;
(5-ii)提取训练样本的微博内容层面的特征和个人信息层面的特征;
(5-iii)将提取的训练样本的特征值归一化后作为XGBoost模型的输入,对XGBoost模型进行训练;通过训练好的XGBoost模型对可疑微博用户进行预测,识别获取参与假流量攻击的恶意用户。
7.根据权利要求1所述的社交网络假流量黑灰产自动挖掘方法,其特征在于,步骤(7)中,所述的规则为:对于一条微博,若其中含有话题,则将该微博分类为涉及假流量黑灰产的微博。
8.一种社交网络假流量黑灰产自动挖掘系统,其特征在于,包括系统显示组件、数据采集组件和模型决策组件;
所述的系统显示组件负责整个系统与使用者的交互;使用者通过系统显示组件输入目标用户的ID号码,由系统显示组件将ID号码发送给数据采集组件;
所述的数据采集组件负责对目标用户的数据进行采集;数据采集组件在收到系统显示组件发送来的ID号码之后执行数据采集程序,采集模型决策组件所需要的目标用户的数据,对采集到的数据处理后以合适的格式发送给模型决策组件;
所述的模型决策组件负责对目标用户以及目标用户所发的微博进行预测;所述的模型决策组件包括训练好的双向自编码表示变形器和XGBoost模型;模型决策组件收到数据采集组件发送来的用户数据后,首先调用训练好的双向自编码表示变形器对目标用户所发的微博进行预测,其次调用XGBoost模型对目标用户进行预测,最后将所有的预测结果传回给系统显示组件进行渲染显示;
所述的自动挖掘系统根据权利要求1-7任一项所述的自动挖掘方法对社交网络假流量黑灰产进行自动挖掘。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110791106.8A CN113486243B (zh) | 2021-07-13 | 2021-07-13 | 一种社交网络假流量黑灰产自动挖掘方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110791106.8A CN113486243B (zh) | 2021-07-13 | 2021-07-13 | 一种社交网络假流量黑灰产自动挖掘方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113486243A true CN113486243A (zh) | 2021-10-08 |
CN113486243B CN113486243B (zh) | 2023-09-05 |
Family
ID=77939184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110791106.8A Active CN113486243B (zh) | 2021-07-13 | 2021-07-13 | 一种社交网络假流量黑灰产自动挖掘方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486243B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103458042A (zh) * | 2013-09-10 | 2013-12-18 | 上海交通大学 | 一种微博广告用户检测方法 |
WO2015043075A1 (zh) * | 2013-09-29 | 2015-04-02 | 广东工业大学 | 面向微博的情感实体搜索系统 |
US20170177972A1 (en) * | 2015-12-21 | 2017-06-22 | Nokia Technologies Oy | Method for analysing media content |
CN109918477A (zh) * | 2019-02-18 | 2019-06-21 | 华南理工大学 | 一种基于变分自编码器的分布式检索资源库选择方法 |
CN112738039A (zh) * | 2020-12-18 | 2021-04-30 | 北京中科研究院 | 一种基于流量行为的恶意加密流量检测方法、系统及设备 |
CN113051916A (zh) * | 2021-04-23 | 2021-06-29 | 东南大学 | 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 |
-
2021
- 2021-07-13 CN CN202110791106.8A patent/CN113486243B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103458042A (zh) * | 2013-09-10 | 2013-12-18 | 上海交通大学 | 一种微博广告用户检测方法 |
WO2015043075A1 (zh) * | 2013-09-29 | 2015-04-02 | 广东工业大学 | 面向微博的情感实体搜索系统 |
US20170177972A1 (en) * | 2015-12-21 | 2017-06-22 | Nokia Technologies Oy | Method for analysing media content |
CN109918477A (zh) * | 2019-02-18 | 2019-06-21 | 华南理工大学 | 一种基于变分自编码器的分布式检索资源库选择方法 |
CN112738039A (zh) * | 2020-12-18 | 2021-04-30 | 北京中科研究院 | 一种基于流量行为的恶意加密流量检测方法、系统及设备 |
CN113051916A (zh) * | 2021-04-23 | 2021-06-29 | 东南大学 | 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 |
Non-Patent Citations (1)
Title |
---|
钱亚冠;卢红波;纪守领;周武杰;吴淑慧;雷景生;陶祥兴: "一种针对基于SVM入侵检测系统的毒性攻击方法", 电子学报, no. 001 * |
Also Published As
Publication number | Publication date |
---|---|
CN113486243B (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110399925B (zh) | 账号的风险识别方法、装置及存储介质 | |
Henman | Improving public services using artificial intelligence: possibilities, pitfalls, governance | |
CN111310814A (zh) | 利用不平衡正负样本对业务预测模型训练的方法及装置 | |
Almarashdeh et al. | An overview of technology evolution: Investigating the factors influencing non-bitcoins users to adopt bitcoins as online payment transaction method | |
US20170026390A1 (en) | Identifying Malware Communications with DGA Generated Domains by Discriminative Learning | |
CN107566358A (zh) | 一种风险预警提示方法、装置、介质及设备 | |
CN110163242B (zh) | 风险识别方法、装置及服务器 | |
CN109063456B (zh) | 图像型验证码的安全性检测方法及系统 | |
CN105072214A (zh) | 基于域名特征的c&c域名识别方法 | |
CN110162958B (zh) | 用于计算设备的综合信用分的方法、装置和记录介质 | |
CN111079184A (zh) | 防护数据泄漏的方法、系统、设备以及存储介质 | |
Kaushik et al. | Deep Learning Multi-Agent Model for Phishing Cyber-attack Detection | |
Abualigah et al. | Fake news detection using recurrent neural network based on bidirectional LSTM and GloVe | |
CN114627330A (zh) | 时序流量预测方法及装置、存储介质及电子设备 | |
CN113918936A (zh) | Sql注入攻击检测的方法以及装置 | |
CN117272113B (zh) | 基于虚拟社交网络的违规行为检测方法及系统 | |
Mittal et al. | Detection of phishing domain using logistic regression technique and feature extraction using bert classification model | |
CN117692242A (zh) | 一种基于图谱分析的网络攻击路径分析方法 | |
CN113486243A (zh) | 一种社交网络假流量黑灰产自动挖掘方法和系统 | |
Kumar et al. | A recurrent neural network model for spam message detection | |
Khan | An optimized neural network for prediction of security threats on software testing | |
CN114422168A (zh) | 一种恶意机器流量识别方法及系统 | |
Shah et al. | Chrome Extension for Detecting Phishing Websites | |
CN110852854B (zh) | 一种量化收益模型的生成方法和风险控制策略的评价方法 | |
CN116318929B (zh) | 一种基于安全告警数据的攻击策略抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |