CN112468523B - 异常流量检测方法、装置、设备及存储介质 - Google Patents
异常流量检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112468523B CN112468523B CN202110139319.2A CN202110139319A CN112468523B CN 112468523 B CN112468523 B CN 112468523B CN 202110139319 A CN202110139319 A CN 202110139319A CN 112468523 B CN112468523 B CN 112468523B
- Authority
- CN
- China
- Prior art keywords
- account
- abnormal
- target
- network model
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 163
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000012216 screening Methods 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 32
- 230000015654 memory Effects 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 230000002547 anomalous effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 2
- 239000000969 carrier Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Security & Cryptography (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请实施例提供一种异常流量检测方法、装置、设备及存储介质,所述异常流量检测方法包括:获取待检测流量数据;根据预设规则,从所述待检测流量数据中筛选出初始异常账户;构建所述初始异常账户的关系网络模型;基于所述关系网络模型,分别生成对应于每个所述初始异常账户的局部社区;对所述局部社区进行合并聚类,得到不超过第一预设数量的目标社区;根据所述关系网络模型,于所述目标社区中,查找符合预设条件的目标异常账户。本申请实现了提高异常流量检测的识别率和准确率。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种异常流量检测方法、装置、设备及存储介质。
背景技术
随着智能手机、平板电脑等移动终端设备的普及,APP(Application,第三方应用程序)客户端逐渐成为人们上网的主要方式,广告主越来越多地利用这些APP为载体进行广告投放,以达到产品宣传、提高收益的目的。与此同时,流量造假、恶意点击等广告异常流量应运而生。目前,对于异常流量的监测,主要是以人工以及相关的规则为主导进行的,其中,人工异常数据流量检测极度依赖相关人员专业知识,且效率低下,而相关的规则是对人工经验的标准化定义,规则多而繁琐,只能发现极少一部分异常数据流量,识别准确率低,且非常容易失效。
发明内容
本申请实施例的目的在于提供一种异常流量检测方法、装置、设备及存储介质,用以实现提高异常流量检测的识别率和准确率。
本申请实施例第一方面提供了一种异常流量检测方法,包括:获取待检测流量数据;根据预设规则,从所述待检测流量数据中筛选出初始异常账户;构建所述初始异常账户的关系网络模型;基于所述关系网络模型,分别生成对应于每个所述初始异常账户的局部社区;对所述局部社区进行合并聚类,得到不超过第一预设数量的目标社区;根据所述关系网络模型,于所述目标社区中,查找符合预设条件的目标异常账户。
于一实施例中,所述构建所述初始异常账户的关系网络模型,包括:获取所述初始异常账户的属性信息;基于所述属性信息,查找所述初始异常账户的关联账户;构建以所述初始异常账户和所述关联账户为节点的关系网络模型。
于一实施例中,所述基于所述关系网络模型,分别生成对应于每个所述初始异常账户的局部社区,包括:分别以每个所述初始异常账户为中心,生成多个节点集合;分别计算每个所述节点集合的电导率;选取所述电导率最低的所述节点集合为对应于所述初始异常账户的所述局部社区。
于一实施例中,所述对所述局部社区进行合并聚类,得到不超过第一预设数量的目标社区,包括:将存在相同节点的所述局部社区进行合并去重;判断所述局部社区的当前数量是否超过所述第一预设数量;若所述局部社区的当前数量不超过所述第一预设数量,则当前的所述局部社区为所述目标社区;若所述局部社区的当前数量超过所述第一预设数量,则对所述局部社区进行层次聚类,得到所述目标社区。
于一实施例中,所述对所述局部社区进行层次聚类,得到所述目标社区,包括:计算所述关系网络模型的邻接矩阵;基于所述邻接矩阵和所述关系网络模型中的节点总数,计算所述关系网络模型中所有节点的相似度向量;根据所述相似度向量,得到当前的每个所述局部社区的相似度矩阵;根据所述相似度矩阵的特征向量,对所述局部社区进行聚类合并。
于一实施例中,在所述根据所述相似度矩阵的特征向量,对所述局部社区进行聚类合并之后,还包括:判断所述局部社区的当前数量是否超过所述第一预设数量;若所述局部社区的当前数量超过所述第一预设数量,则继续执行根据所述相似度向量,得到当前的每个所述局部社区的相似度矩阵;根据所述相似度矩阵的特征向量,对所述局部社区进行聚类合并,直至所述局部社区的当前数量不超过所述第一预设数量,则当前的所述局部社区为所述目标社区。
于一实施例中,所述根据所述关系网络模型,于所述目标社区中,查找符合预设条件的目标异常账户,包括:根据目标账号在所述关系网络模型中关联的所述初始异常账户的数量,以及所述目标账号与所述初始异常账户的关联距离,计算所述目标账号的异常分值;判断所述异常分值是否超过预设阈值;当所述异常分值超过所述预设阈值时,所述目标账号为所述目标异常账户。
本申请实施例第二方面提供了一种异常流量检测装置,包括:获取模块,用于获取待检测流量数据;筛选模块,用于根据预设规则,从所述待检测流量数据中筛选出初始异常账户;构建模块,用于构建所述初始异常账户的关系网络模型;生成模块,用于基于所述关系网络模型,分别生成对应于每个所述初始异常账户的局部社区;合并模块,用于对所述局部社区进行合并聚类,得到不超过第一预设数量的目标社区;查找模块,用于根据所述关系网络模型,于所述目标社区中,查找符合预设条件的目标异常账户。
于一实施例中,所述构建模块用于:获取所述初始异常账户的属性信息;基于所述属性信息,查找所述初始异常账户的关联账户;构建以所述初始异常账户和所述关联账户为节点的关系网络模型。
于一实施例中,所述生成模块用于:分别以每个所述初始异常账户为中心,生成多个节点集合;分别计算每个所述节点集合的电导率;选取所述电导率最低的所述节点集合为对应于所述初始异常账户的所述局部社区。
于一实施例中,所述合并模块用于:将存在相同节点的所述局部社区进行合并去重;判断所述局部社区的当前数量是否超过所述第一预设数量;若所述局部社区的当前数量不超过所述第一预设数量,则当前的所述局部社区为所述目标社区;若所述局部社区的当前数量超过所述第一预设数量,则对所述局部社区进行层次聚类,得到所述目标社区。
于一实施例中,所述合并模块具体用于:计算所述关系网络模型的邻接矩阵;基于所述邻接矩阵和所述关系网络模型中的节点总数,计算所述关系网络模型中所有节点的相似度向量;根据所述相似度向量,得到当前的每个所述局部社区的相似度矩阵;根据所述相似度矩阵的特征向量,对所述局部社区进行聚类合并。
于一实施例中,所述合并模块具体还用于:判断所述局部社区的当前数量是否超过所述第一预设数量;若所述局部社区的当前数量超过所述第一预设数量,则继续执行根据所述相似度向量,得到当前的每个所述局部社区的相似度矩阵;根据所述相似度矩阵的特征向量,对所述局部社区进行聚类合并,直至所述局部社区的当前数量不超过所述第一预设数量,则当前的所述局部社区为所述目标社区。
于一实施例中,所述查找模块用于:根据目标账号在所述关系网络模型中关联的所述初始异常账户的数量,以及所述目标账号与所述初始异常账户的关联距离,计算所述目标账号的异常分值;判断所述异常分值是否超过预设阈值;当所述异常分值超过所述预设阈值时,所述目标账号为所述目标异常账户。
本申请实施例第三方面提供了一种电子设备,包括:存储器,用以存储计算机程序;处理器,用以执行本申请实施例第一方面及其任一实施例的方法。
本申请实施例第四方面提供了一种非暂态电子设备可读存储介质,包括:程序,当其藉由电子设备运行时,使得所述电子设备执行本申请实施例第一方面及其任一实施例的方法。
本申请实施例提供的异常流量检测方法、装置、设备及存储介质,通过预设规则筛选出异常流量账户,然后通过账户之间的关系网络构建局部社区,查找出潜在的异常流量账户,一方面降低了人力成本,提高了检测效率,另一方面可以检测出现有规则无法检测到的异常流量账户,提高了异常流量的识别率和准确率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请一实施例的电子设备的结构示意图;
图2为本申请一实施例的异常流量检测方法的流程示意图;
图3为本申请另一实施例的异常流量检测方法的流程示意图;
图4为本申请一实施例中步骤310的子步骤的流程示意图;
图5为本申请一实施例的异常流量检测装置的结构示意图。
附图标记:
100-电子设备,110-总线,120-处理器,130-存储器,500-异常流量检测装置,510-获取模块,520-筛选模块,530-构建模块,540-生成模块,550-合并模块,560-查找模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,并不表示排列序号,也不能理解为指示或暗示相对重要性。
在本申请的描述中,术语“包括”、“包含”等表示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、步骤、操作、元素、组件和/或其集合的存在或添加。
在本申请的描述中,除非另有明确的规定和限定,术语“安装”、“设置”、“设有”、“连接”、“配置为”应做广义理解。例如,可以是固定连接,也可以是可拆卸连接,或整体式构造;可以是机械连接,也可以是电连接;可以是直接相连,也可以是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
请参看图1,其为本申请一实施例的电子设备100的结构示意图,包括至少一个处理器120和存储器130,图1中以一个处理器为例。处理器120和存储器130通过总线110连接,存储器130存储有可被至少一个处理器120执行的指令,指令被至少一个处理器120执行,以使至少一个处理器120执行如下述实施例中的异常流量检测方法。
于一实施例中,处理器120可以是通用处理器,包括但不限于中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)等,还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器120是电子设备100的控制中心,利用各种接口和线路连接整个电子设备100的各个部分。处理器120可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。
于一实施例中,存储器130可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,包括但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),静态随机存取存储器(Static Random Access Memory,简称SRAM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(ElectricErasable Programmable Read-Only Memory,EEPROM)等。
图1所示的电子设备100的结构仅为示意,电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1 所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
如图2所示,其为本申请一实施例的异常流量检测方法的流程示意图,该方法可由图1所示的电子设备100来执行,以实现提高异常流量检测的识别率和准确率。该方法包括如下步骤:
步骤201:获取待检测流量数据。
在上述步骤中,可以从待检测的APP、网页中获取待检测流量数据,待检测流量数据可以是待检测的APP、网页的流量日志,流量日志记录了用户在APP、网页中进行的操作(访问、点击等),主要可以包括但不限于用户信息和对应的操作信息。
步骤202:根据预设规则,从待检测流量数据中筛选出初始异常账户。
在上述步骤中,预设规则可以根据实际应用场景确定,例如,在广告异常流量检测场景中,预设规则可以但不限于是账户在预设时间段内对某一广告位的访问次数和/或点击次数大于预设阈值,则该账户为初始异常账户。根据预设规则,可以筛选出一批产生异常流量的初始异常账户,由于某些作弊者会通过增大时间宽度等方式绕过规则来生成异常流量,因此这部分异常流量的账户无法根据预设规则筛选得到。
步骤203:构建初始异常账户的关系网络模型。
于一实施例中,构建初始异常账户的关系网络模型,包括:获取初始异常账户的属性信息;基于属性信息,查找初始异常账户的关联账户;构建以初始异常账户和关联账户为节点的关系网络模型。
在上述步骤中,账户的属性信息可以包括账号、设备唯一标识、手机号、IP地址等。初始异常账户的关联账户不仅包括与初始异常账户的属性信息全部或部分相同的第一关联账户,还包括与第一关联账户的属性信息全部或部分相同的第二关联账户,与第二关联账户的属性信息全部或部分相同的第三关联账户,以此类推,例如,第一关联账户与初始异常账户具有相同的IP地址,第二关联账户与第一关联账户具有相同的设备唯一标识,则第一关联账户和第二关联账户都是该初始异常账户的关联账户。一个初始异常账户可以有一个或多个关联账户,不同初始异常账户也可以具有同一关联账户。
关系网络模型可以为无向图结构,以所有初始异常账户和初始异常账户的关联账户为节点,若两个节点的账户存在相同的属性信息,则这两个节点具有相连的边。
步骤204:基于关系网络模型,分别生成对应于每个初始异常账户的局部社区。
在上述步骤中,以初始异常账户为中心,并采用基于pagerank向量的局部图划分中的ACL算法(Andersen, R., Chung, F. and Lang, K.)来生成局部社区。
步骤205:对局部社区进行合并聚类,得到不超过第一预设数量的目标社区。
在上述步骤中,对局部社区进行去重和聚类,可以得到多个相互独立的目标社区,目标社区的数量不超过第一预设数量。
步骤206:根据关系网络模型,于目标社区中,查找符合预设条件的目标异常账户。
在上述步骤中,目标异常账户产生的访问、浏览、点击流量即为异常流量。目标社区中的初始异常账户均为目标异常账户,除此之外,目标社区中与初始异常账户的关联度高于预设阈值的账户也可以是目标异常账户。
于一实施例中,根据关系网络模型,于目标社区中,查找符合预设条件的目标异常账户,可以包括:根据目标账号在关系网络模型中关联的初始异常账户的数量,以及目标账号与初始异常账户的关联距离,计算目标账号的异常分值;判断异常分值是否超过预设阈值;当异常分值超过预设阈值时,目标账号为目标异常账户。
在上述步骤中,目标账户是指目标社区中除初始异常账户以外的账户,可以令初始异常账户的异常分值为100分,则预设阈值也可以为100分,目标账号与初始异常账户的关联距离是指目标账号与初始异常账户的关联链路上存在的中间节点数量,关联链路上存在的中间节点数量越多,关联距离越长,则对应的关联度分值越低,一个目标账户的异常分值等于该目标账户与关联的每个初始异常账户的关联度分值之和。
例如,目标社区中存在关联链路A-B-C和关联链路D-C,即初始异常账户A与账户B直接关联,账户B与账户C直接关联,初始异常账户D与账户C直接关联。初始异常账户A和D的异常分值均为100分,与A直接关联的B的异常分值为90分,未超过预设阈值,每增加一个中间节点,关联度分值在直接关联的基础上再减10分,则C的异常分值=80+90=170分,超过预设阈值。A、C、D均为产生异常流量的目标异常账户。
如图3所示,其为本申请一实施例的异常流量检测方法的流程示意图,该方法可由图1所示的电子设备100来执行,以实现提高异常流量检测的识别率和准确率。该方法包括如下步骤:
步骤301:获取待检测流量数据。详细内容参见上述实施例中步骤201的描述。
步骤302:根据预设规则,从待检测流量数据中筛选出初始异常账户。详细内容参见上述实施例中步骤202的描述。
步骤303:构建初始异常账户的关系网络模型。详细内容参见上述实施例中步骤203的描述。
步骤304:分别以每个初始异常账户为中心,生成多个节点集合。
在上述步骤中,节点集合可以包括初始异常账户和初始异常账户的部分关联账户,每个初始异常账户的多个节点集合以该初始异常账户为中心,逐层向外扩展,节点集合的数量可以根据实际需要确定,以生成三个节点集合为例,以某一初始异常账户为中心,生成第一节点集合、第二节点集合和第三节点集合,第一节点集合包括该初始异常账户和该初始异常账户的第一关联账户,第二节点集合包括该初始异常账户和该初始异常账户的第一关联账户、第二关联账户,第三节点集合包括该初始异常账户和该初始异常账户的第一关联账户、第二关联账户、第三关联账户。
若节点集合的数量大于三个,则以此类推。于一实施例中,生成节点集合的个数可以为五个,分别以每个初始异常账户为中心,生成五个节点集合。
步骤305:分别计算每个节点集合的电导率。
在上述步骤中,节点集合的电导率可以采用以下公式计算:
步骤306:选取电导率最低的节点集合为对应于初始异常账户的局部社区。
在上述步骤中,将以初始异常账户为中心的多个节点集合中,电导率最低的节点集合作为该初始异常账户的局部社区,从而确定每个初始异常账户的局部社区。
步骤307:将存在相同节点的局部社区进行合并去重。
在上述步骤中,相同节点是指同一账户,若两个局部社区均存在账户A,即这两个局部社区存在相同节点,则将这两个局部社区进行合并。经过合并去重后的局部社区之间没有重叠,相互独立。
步骤308:判断局部社区的当前数量是否超过第一预设数量。
在上述步骤中,判断局部社区的当前数量是否超过第一预设数量,若局部社区的当前数量不超过第一预设数量,则执行步骤309,若局部社区的当前数量超过第一预设数量,则执行步骤310。
步骤309:当前的局部社区为目标社区。
步骤310:对局部社区进行层次聚类,得到目标社区。
在上述步骤中,可以采用层次聚类法,对局部社区进行合并,令局部社区的数量不超过第一预设数量,从而得到目标社区。
步骤311:根据关系网络模型,于目标社区中,查找符合预设条件的目标异常账户。详细内容参见上述实施例中步骤206的描述。
如图4所示,其为本申请一实施例中步骤310的子步骤的流程示意图,步骤310:对局部社区进行层次聚类,得到目标社区,可以包括一下步骤:
步骤401:计算关系网络模型的邻接矩阵。
在上述步骤中,关系网络模型为无向图结构。
步骤402:基于邻接矩阵和关系网络模型中的节点总数,计算关系网络模型中所有节点的相似度向量。
在上述步骤中,可以基于个性化PageRank算法计算相似度向量,节点的相似度向量可以通过以下公式计算:
其中,r表示节点的相似度向量,该相似度向量可以表示该节点与其他节点的相似度,c为重启游走的概率,可以表示两个节点间存在隐性连接关系的概率,M为归一化的邻接矩阵,v为重启游走时该节点被选中的概率。节点的相似度向量可以通过迭代计算得到,迭代的初始值r0为,其中,n表示关系网络模型中的节点总数。于一实施例中,c可以为一个预设小于1的固定值,例如0.01或0.001,v可以为,即节点总数的倒数。
步骤403:根据相似度向量,得到当前的每个局部社区的相似度矩阵。
在上述步骤中,将局部社区内每个节点的相似度向量组合在一起,可以得到该局部社区的相似度矩阵。
步骤404:根据相似度矩阵的特征向量,对局部社区进行聚类合并。
在上述步骤中,可以计算每个局部社区的相似度矩阵的特征向量,将特征向量数量相同的局部社区聚类合并。
步骤405:判断局部社区的当前数量是否超过第一预设数量。
在上述步骤中,判断局部社区的当前数量是否超过第一预设数量,若局部社区的当前数量超过第一预设数量,则执行步骤403,若局部社区的当前数量不超过第一预设数量,则执行步骤406。
步骤406:当前的局部社区为目标社区。
如图5所示,其为本申请一实施例的异常流量检测装置500的结构示意图,该装置可应用于图1所示的电子设备100,包括:获取模块510、筛选模块520、构建模块530、生成模块540、合并模块550和查找模块560。各个模块的原理关系如下:
获取模块510,用于获取待检测流量数据。
筛选模块520,用于根据预设规则,从待检测流量数据中筛选出初始异常账户。
构建模块530,用于构建初始异常账户的关系网络模型。
生成模块540,用于基于关系网络模型,分别生成对应于每个初始异常账户的局部社区。
合并模块550,用于对局部社区进行合并聚类,得到不超过第一预设数量的目标社区。
查找模块560,用于根据关系网络模型,于目标社区中,查找符合预设条件的目标异常账户。
于一实施例中,构建模块530用于:获取初始异常账户的属性信息;基于属性信息,查找初始异常账户的关联账户;构建以初始异常账户和关联账户为节点的关系网络模型。
于一实施例中,生成模块540用于:分别以每个初始异常账户为中心,生成多个节点集合;分别计算每个节点集合的电导率;选取电导率最低的节点集合为对应于初始异常账户的局部社区。
于一实施例中,合并模块550用于:将存在相同节点的局部社区进行合并去重;判断局部社区的当前数量是否超过第一预设数量;若局部社区的当前数量不超过第一预设数量,则当前的局部社区为目标社区;若局部社区的当前数量超过第一预设数量,则对局部社区进行层次聚类,得到目标社区。
于一实施例中,合并模块550具体用于:计算关系网络模型的邻接矩阵;基于邻接矩阵和关系网络模型中的节点总数,计算关系网络模型中所有节点的相似度向量;根据相似度向量,得到当前的每个局部社区的相似度矩阵;根据相似度矩阵的特征向量,对局部社区进行聚类合并。
于一实施例中,合并模块550具体还用于:判断局部社区的当前数量是否超过第一预设数量;若局部社区的当前数量超过第一预设数量,则继续执行根据相似度向量,得到当前的每个局部社区的相似度矩阵;根据相似度矩阵的特征向量,对局部社区进行聚类合并,直至局部社区的当前数量不超过第一预设数量,则当前的局部社区为目标社区。
于一实施例中,查找模块560用于:根据关联账户在关系网络模型中关联的初始异常账户的数量,以及关联账户与初始异常账户的关联距离,计算关联账户的异常分值;判断异常分值是否超过预设阈值;当异常分值超过预设阈值时,关联账户为目标异常账户。
上述异常流量检测装置500的详细描述,请参见上述实施例中相关方法步骤的描述。
本发明实施例还提供了一种电子设备可读存储介质,包括:程序,当其在电子设备上运行时,使得电子设备可执行上述实施例中方法的全部或部分流程。其中,存储介质可为磁盘、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等。存储介质还可以包括上述种类的存储器的组合。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。
在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。以上仅为本申请的优选实施例而已,仅用于说明本申请的技术方案,并不用于限制本申请。对于本技术领域的普通技术人员而言,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种异常流量检测方法,其特征在于,包括:
获取待检测流量数据;
根据预设规则,从所述待检测流量数据中筛选出初始异常账户;
构建所述初始异常账户的关系网络模型;
基于所述关系网络模型,分别生成对应于每个所述初始异常账户的局部社区;
对所述局部社区进行合并聚类,得到不超过第一预设数量的目标社区;
根据所述关系网络模型,于所述目标社区中,查找符合预设条件的目标异常账户;
所述构建所述初始异常账户的关系网络模型,包括:
获取所述初始异常账户的属性信息;
基于所述属性信息,查找所述初始异常账户的关联账户;
构建以所述初始异常账户和所述关联账户为节点的关系网络模型;其中,
所述关系网络模型为无向图结构,以所有所述初始异常账户和所述初始异常账户的关联账户为节点,两个存在相同属性信息的节点具有相连的边;
所述基于所述关系网络模型,分别生成对应于每个所述初始异常账户的局部社区,包括:
分别以每个所述初始异常账户为中心,生成多个节点集合;
分别计算每个所述节点集合的电导率;
选取所述电导率最低的所述节点集合为对应于所述初始异常账户的所述局部社区。
2.根据权利要求1所述的方法,其特征在于,所述对所述局部社区进行合并聚类,得到不超过第一预设数量的目标社区,包括:
将存在相同节点的所述局部社区进行合并去重;
判断所述局部社区的当前数量是否超过所述第一预设数量;
若所述局部社区的当前数量不超过所述第一预设数量,则当前的所述局部社区为所述目标社区;
若所述局部社区的当前数量超过所述第一预设数量,则对所述局部社区进行层次聚类,得到所述目标社区。
3.根据权利要求2所述的方法,其特征在于,所述对所述局部社区进行层次聚类,得到所述目标社区,包括:
计算所述关系网络模型的邻接矩阵;
基于所述邻接矩阵和所述关系网络模型中的节点总数,计算所述关系网络模型中所有节点的相似度向量;
根据所述相似度向量,得到当前的每个所述局部社区的相似度矩阵;
根据所述相似度矩阵的特征向量,对所述局部社区进行聚类合并。
4.根据权利要求3所述的方法,其特征在于,在所述根据所述相似度矩阵的特征向量,对所述局部社区进行聚类合并之后,还包括:
判断所述局部社区的当前数量是否超过所述第一预设数量;
若所述局部社区的当前数量超过所述第一预设数量,则继续执行根据所述相似度向量,得到当前的每个所述局部社区的相似度矩阵;
根据所述相似度矩阵的特征向量,对所述局部社区进行聚类合并,直至所述局部社区的当前数量不超过所述第一预设数量,则当前的所述局部社区为所述目标社区。
5.根据权利要求1所述的方法,其特征在于,所述根据所述关系网络模型,于所述目标社区中,查找符合预设条件的目标异常账户,包括:
根据目标账户在所述关系网络模型中关联的所述初始异常账户的数量,以及所述目标账户与所述初始异常账户的关联距离,计算所述目标账户的异常分值;
判断所述异常分值是否超过预设阈值;
当所述异常分值超过所述预设阈值时,所述目标账户为所述目标异常账户。
6.一种异常流量检测装置,其特征在于,包括:
获取模块,用于获取待检测流量数据;
筛选模块,用于根据预设规则,从所述待检测流量数据中筛选出初始异常账户;
构建模块,用于构建所述初始异常账户的关系网络模型;
生成模块,用于基于所述关系网络模型,分别生成对应于每个所述初始异常账户的局部社区;
合并模块,用于对所述局部社区进行合并聚类,得到不超过第一预设数量的目标社区;
查找模块,用于根据所述关系网络模型,于所述目标社区中,查找符合预设条件的目标异常账户;
所述构建模块用于:获取所述初始异常账户的属性信息;基于所述属性信息,查找所述初始异常账户的关联账户;构建以所述初始异常账户和所述关联账户为节点的关系网络模型;
所述生成模块用于:分别以每个所述初始异常账户为中心,生成多个节点集合;分别计算每个所述节点集合的电导率;选取所述电导率最低的所述节点集合为对应于所述初始异常账户的所述局部社区。
7.一种电子设备,其特征在于,包括:
存储器,用以存储计算机程序;
处理器,用以执行如权利要求1至5中任一项所述的方法。
8.一种非暂态电子设备可读存储介质,其特征在于,包括:程序,当其藉由电子设备运行时,使得所述电子设备执行权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110139319.2A CN112468523B (zh) | 2021-02-02 | 2021-02-02 | 异常流量检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110139319.2A CN112468523B (zh) | 2021-02-02 | 2021-02-02 | 异常流量检测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112468523A CN112468523A (zh) | 2021-03-09 |
CN112468523B true CN112468523B (zh) | 2021-07-06 |
Family
ID=74802428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110139319.2A Active CN112468523B (zh) | 2021-02-02 | 2021-02-02 | 异常流量检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112468523B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297840B (zh) * | 2021-04-28 | 2024-05-24 | 百果园技术(新加坡)有限公司 | 恶意流量账号检测方法、装置、设备和存储介质 |
CN113222738A (zh) * | 2021-05-25 | 2021-08-06 | 山东小葱数字科技有限公司 | 套现卡识别方法、装置、电子设备和计算机可读存储介质 |
CN113572679B (zh) * | 2021-06-30 | 2023-04-07 | 北京百度网讯科技有限公司 | 账户亲密度的生成方法、装置、电子设备和存储介质 |
CN113486211B (zh) * | 2021-06-30 | 2024-09-24 | 北京达佳互联信息技术有限公司 | 账号识别方法、装置、电子设备、存储介质及程序产品 |
CN113704237B (zh) * | 2021-08-13 | 2024-09-13 | 杭州数梦工场科技有限公司 | 异常数据检测方法及装置、电子设备 |
CN114650167B (zh) * | 2022-02-08 | 2023-06-27 | 联想(北京)有限公司 | 一种异常检测方法、装置、设备及计算机可读存储介质 |
CN116644372B (zh) * | 2023-07-24 | 2023-11-03 | 北京芯盾时代科技有限公司 | 一种账户类型的确定方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111654482A (zh) * | 2020-05-25 | 2020-09-11 | 泰康保险集团股份有限公司 | 一种异常流量的检测方法、装置、设备及介质 |
CN111049818B (zh) * | 2019-12-03 | 2020-10-09 | 北京赋乐科技有限公司 | 一种基于网络流量大数据的异常信息发现方法 |
CN111832647A (zh) * | 2020-07-10 | 2020-10-27 | 上海交通大学 | 异常流量检测系统及方法 |
CN111935170A (zh) * | 2020-08-20 | 2020-11-13 | 杭州安恒信息技术股份有限公司 | 一种网络异常流量检测方法、装置及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10318886B2 (en) * | 2015-10-30 | 2019-06-11 | Citrix Systems, Inc. | Anomaly detection with K-means clustering and artificial outlier injection |
-
2021
- 2021-02-02 CN CN202110139319.2A patent/CN112468523B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111049818B (zh) * | 2019-12-03 | 2020-10-09 | 北京赋乐科技有限公司 | 一种基于网络流量大数据的异常信息发现方法 |
CN111654482A (zh) * | 2020-05-25 | 2020-09-11 | 泰康保险集团股份有限公司 | 一种异常流量的检测方法、装置、设备及介质 |
CN111832647A (zh) * | 2020-07-10 | 2020-10-27 | 上海交通大学 | 异常流量检测系统及方法 |
CN111935170A (zh) * | 2020-08-20 | 2020-11-13 | 杭州安恒信息技术股份有限公司 | 一种网络异常流量检测方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112468523A (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112468523B (zh) | 异常流量检测方法、装置、设备及存储介质 | |
JP7441582B2 (ja) | データ侵害を検出するための方法、装置、コンピュータ可読な記録媒体及びプログラム | |
US9785989B2 (en) | Determining a characteristic group | |
CN111222976B (zh) | 一种基于双方网络图数据的风险预测方法、装置和电子设备 | |
US11809455B2 (en) | Automatically generating user segments | |
CN109190014B (zh) | 一种正则表达式生成方法、装置及电子设备 | |
US10810458B2 (en) | Incremental automatic update of ranked neighbor lists based on k-th nearest neighbors | |
CN113326173B (zh) | 一种告警消息的处理方法、装置及设备 | |
US20170169096A1 (en) | Methods and systems for analyzing reading logs and documents thereof | |
EP3361704A1 (en) | User data sharing method and device | |
CN109376287B (zh) | 房产图谱构建方法、装置、计算机设备及存储介质 | |
US20220229854A1 (en) | Constructing ground truth when classifying data | |
WO2016188334A1 (zh) | 一种用于处理应用访问数据的方法与设备 | |
US10637878B2 (en) | Multi-dimensional data samples representing anomalous entities | |
US11361195B2 (en) | Incremental update of a neighbor graph via an orthogonal transform based indexing | |
CN117061254B (zh) | 异常流量检测方法、装置和计算机设备 | |
CN113495886A (zh) | 用于模型训练的污染样本数据的检测方法及装置 | |
CN116663505B (zh) | 一种基于互联网的评论区管理方法及系统 | |
CN113326064A (zh) | 划分业务逻辑模块的方法、电子设备及存储介质 | |
CN110489416B (zh) | 一种基于数据处理的信息存储方法及相关设备 | |
CN112347477A (zh) | 家族变种恶意文件挖掘方法和装置 | |
CN113254672B (zh) | 异常账号的识别方法、系统、设备及可读存储介质 | |
CN115879819A (zh) | 企业信用评估方法及装置 | |
US10803053B2 (en) | Automatic selection of neighbor lists to be incrementally updated | |
CN112308694A (zh) | 一种欺诈团伙的发现方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |