CN109284307B - 一种流量数据的聚类处理方法、装置及电子设备 - Google Patents

一种流量数据的聚类处理方法、装置及电子设备 Download PDF

Info

Publication number
CN109284307B
CN109284307B CN201811128269.2A CN201811128269A CN109284307B CN 109284307 B CN109284307 B CN 109284307B CN 201811128269 A CN201811128269 A CN 201811128269A CN 109284307 B CN109284307 B CN 109284307B
Authority
CN
China
Prior art keywords
data
cluster
feature
clusters
flow data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811128269.2A
Other languages
English (en)
Other versions
CN109284307A (zh
Inventor
孙家棣
马宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811128269.2A priority Critical patent/CN109284307B/zh
Priority to PCT/CN2018/125246 priority patent/WO2020062689A1/zh
Publication of CN109284307A publication Critical patent/CN109284307A/zh
Application granted granted Critical
Publication of CN109284307B publication Critical patent/CN109284307B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Abstract

本发明主要涉及大数据技术领域,揭示了一种流量数据的聚类处理方法、装置及电子设备,包括:在预置特征库中选取N个特征;基于流量数据的所选取的特征对应的特征值,得到流量数据的特征向量;根据流量数据的特征向量,将所有流量数据聚类成M个簇;确定在各种M和N取值的组合下流量数据分成的簇的簇错误数总和,簇错误数总和是分成的每个簇的错误数相加的结果,每个簇的错误数是指该簇中白数据的数量和黑数据的数量中较少的一个数量;将最小的簇错误数总和所对应的特征个数和簇个数,作为流量数据聚类时选取的目标特征数和目标簇个数,从而利用聚类算法对大量流量数据进行聚类处理,得以满足对于群体的流量数据整体分析的需求。

Description

一种流量数据的聚类处理方法、装置及电子设备
技术领域
本发明涉及大数据技术领域,特别涉及一种流量数据的聚类处理方法、装置及电子设备。
背景技术
目前,随着互联网用户的日益增多,互联网领域正面临着大流量数据的挑战。大流量数据中难免会出现异常流量,这些异常流量会给互联网带来巨大的冲击与损失,例如,黑色产业形成的木马播种、流量交易和虚拟财产套现等诸多黑色产业链都会产生大量的异常流量。
在现有技术的实现中,流量异常的识别一般是通过采集用户行为埋点和sdk数据来确定路径重复度、设备前后端登录埋点占比、ip访问账号数、ip访问次数、周期内手机号段用户登录均值和方差等特征,根据每一条流量数据的这些特征,确定该流量数据异常的概率。
现有技术的缺陷在于,黑色产业往往表现为群体的流量数据出现异常,而现有技术对于流量异常的识别是针对每一条流量数据孤立确定的,无法满足对于群体的流量数据整体分析的需求。
发明内容
为了解决相关技术中存在的无法满足对于群体的流量数据整体分析的需求,本发明提供了一种流量数据的聚类处理方法、装置及电子设备。
一种流量数据的聚类处理方法,所述流量数据包括白数据和黑数据,所述白数据是从确定为白用户的用户的数据流量中抽取的流量数据,所述黑数据是从确定为黑用户的用户的数据流量中抽取的流量数据,所述白用户是确定为不会发出异常流量数据的用户,所述黑用户是确定为会发出异常流量数据的用户,所述方法包括:
在预置特征库中选取N个特征,N为正整数;
基于流量数据的所选取的特征对应的特征值,得到所述流量数据的特征向量;所述特征向量包括所述流量数据的所述N个特征各自对应的特征值;其中,一个所述特征对应一个所述特征值;
根据所述流量数据的特征向量,将所有所述流量数据聚类成M个簇,M为大于等于2的正整数;
确定在各种M和N取值的组合下所述流量数据分成的簇的簇错误数总和,所述簇错误数总和是分成的每个簇的错误数相加的结果,每个簇的错误数是指该簇中白数据的数量和黑数据的数量中较少的一个数量;
将最小的簇错误数总和所对应的特征个数和簇个数,作为流量数据聚类时选取的目标特征数和目标簇个数。
一种流量数据的聚类处理装置,所述流量数据包括白数据和黑数据,所述白数据是从确定为白用户的用户的数据流量中抽取的流量数据,所述黑数据是从确定为黑用户的用户的数据流量中抽取的流量数据,所述白用户是确定为不会发出异常流量数据的用户,所述黑用户是确定为会发出异常流量数据的用户,所述装置包括:
选取单元,用于在预置特征库中选取N个特征,N为正整数;
获取单元,用于基于流量数据的所选取的特征对应的特征值,得到所述流量数据的特征向量;所述特征向量包括所述流量数据的所述N个特征各自对应的特征值;其中,一个所述特征对应一个所述特征值;
聚类单元,用于根据所述流量数据的特征向量,将所有所述流量数据聚类成M个簇,M为大于等于2的正整数;
确定单元,用于确定在各种M和N取值的组合下所述流量数据分成的簇的簇错误数总和,所述簇错误数总和是分成的每个簇的错误数相加的结果,每个簇的错误数是指该簇中白数据的数量和黑数据的数量中较少的一个数量;
设置单元,用于将最小的簇错误数总和所对应的特征个数和簇个数,作为流量数据聚类时选取的目标特征数和目标簇个数。
一种计算机可读存储介质,其特征在于,其存储计算机程序,所述计算机程序使得计算机执行如前所述的方法。
一种电子设备,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如前所述的方法。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明所提供的图像控制方法包括如下步骤,在预置特征库中选取N个特征,N为正整数;基于流量数据的所选取的特征对应的特征值,得到所述流量数据的特征向量;所述特征向量包括所述流量数据的所述N个特征各自对应的特征值;其中,一个所述特征对应一个所述特征值;根据所述流量数据的特征向量,将所有所述流量数据聚类成M个簇,M为大于等于2的正整数;确定在各种M和N取值的组合下所述流量数据分成的簇的簇错误数总和,所述簇错误数总和是分成的每个簇的错误数相加的结果,每个簇的错误数是指该簇中白数据的数量和黑数据的数量中较少的一个数量;将最小的簇错误数总和所对应的特征个数和簇个数,作为流量数据聚类时选取的目标特征数和目标簇个数。
此方法下,对于流量异常的识别不是孤立确定的,而是将流量数据划分为若干个簇,结合若干个簇能够反映流量数据在一个群体、或在一个区域、或在一类人中呈现出的特点,有利于分析黑产业链的行为。综上,对于群体的流量数据整体分析的需求得以满足。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种流量数据的聚类处理装置的示意图;
图2是根据一示例性实施例示出的一种流量数据的聚类处理方法的流程图;
图3是根据图2对应实施例示出的步骤230的细节的流程图;
图4是根据另一示例性实施例示出的一种流量数据的聚类处理方法的流程图;
图5是根据一示例性实施例示出的一种流量数据的聚类处理装置的框图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
本发明的实施环境可以是便携移动设备,例如智能手机、平板电脑、台式电脑。本发明实施例所公开的流量数据的聚类处理方法可以适用于运行于便携移动设备上的任意应用程序。
图1是根据一示例性实施例示出的一种流量数据的聚类处理装置的示意图。装置100可以是上述便携移动设备。如图1所示,装置100可以包括以下一个或多个组件:处理组件102,存储器104,电源组件106,多媒体组件108,音频组件110,传感器组件114以及通信组件116。
处理组件102通常控制装置100的整体操作,诸如与显示,电话呼叫,数据通信,相机操作以及记录操作相关联的操作等。处理组件102可以包括一个或多个处理器118来执行指令,以完成下述的方法的全部或部分步骤。此外,处理组件102可以包括一个或多个模块,用于便于处理组件102和其他组件之间的交互。例如,处理组件102可以包括多媒体模块,用于以方便多媒体组件108和处理组件102之间的交互。
存储器104被配置为存储各种类型的数据以支持在装置100的操作。这些数据的示例包括用于在装置100上操作的任何应用程序或方法的指令。存储器104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static RandomAccess Memory,简称SRAM),电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。存储器104中还存储有一个或多个模块,用于该一个或多个模块被配置成由该一个或多个处理器118执行,以完成如下所示方法中的全部或者部分步骤。
电源组件106为装置100的各种组件提供电力。电源组件106可以包括电源管理系统,一个或多个电源,及其他与为装置100生成、管理和分配电力相关联的组件。
多媒体组件108包括在所述装置100和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(Liquid Crystal Display,简称LCD)和触摸面板。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。屏幕还可以包括有机电致发光显示器(Organic Light Emitting Display,简称OLED)。
音频组件110被配置为输出和/或输入音频信号。例如,音频组件110包括一个麦克风(Microphone,简称MIC),当装置100处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器104或经由通信组件116发送。在一些实施例中,音频组件110还包括一个扬声器,用于输出音频信号。
传感器组件114包括一个或多个传感器,用于为装置100提供各个方面的状态评估。例如,传感器组件114可以检测到装置100的打开/关闭状态,组件的相对定位,传感器组件114还可以检测装置100或装置100一个组件的位置改变以及装置100的温度变化。在一些实施例中,该传感器组件114还可以包括磁传感器,压力传感器或温度传感器。
通信组件116被配置为便于装置100和其他设备之间有线或无线方式的通信。装置100可以接入基于通信标准的无线网络,如WiFi(Wireless-Fidelity,无线保真)。在一个示例性实施例中,通信组件116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件116还包括近场通信(Near FieldCommunication,简称NFC)模块,用于以促进短程通信。例如,在NFC模块可基于射频识别(Radio Frequency Identification,简称RFID)技术,红外数据协会(Infrared DataAssociation,简称IrDA)技术,超宽带(Ultra Wideband,简称UWB)技术,蓝牙技术和其他技术来实现。
在示例性实施例中,装置100可以被一个或多个应用专用集成电路(ApplicationSpecific Integrated Circuit,简称ASIC)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现,用于执行下述方法。
图2是根据一示例性实施例示出的一种流量数据的聚类处理方法的流程图。如图2所示,此方法包括以下步骤。
步骤210,在预置特征库中选取N个特征,N为正整数。
本发明实施例中,每个用户的流量数据事先被规定若干个特征,例如,这些特征可以包括路径重复度、设备前后端登录埋点占比、ip访问账号数、ip访问次数、周期内手机号段用户登录均值和方差等,预置数据库中包括但不限于上述若干个特征,从预置特征库包括的若干个特征中选取N个特征,其中,N可以为小于等于预置特征库中所有特征的数量的正整数。其中,特征可以由用户指定选取,也可以随机选取,也可以采用其他选取方式,本发明实施例中不做限定。
作为一种可选的实施方式,在预置特征库中选取N个特征可以包括:
在预置特征库中选取卡方值从高到低前N个特征。
本发明实施例中,假设预置特征库中包含14个特征,这时选取特征共有
Figure BDA0001813007210000061
种情况,若聚成簇的类数在2-20之间取值,有19种取值,因此选取的特征和类数的组合有
Figure BDA0001813007210000062
种。如果每种组合都去遍历,计算量非常大。此时可以按照每一特征对应的卡方值大小来选取目标特征。例如,如果N为1,则选取预置特征库中卡方值最高的特征作为目标特征,如果N为2,则选取预置特征库中卡方值最高和次高的特征作为目标特征,由于卡方值越大,该卡方值对应的特征对于良好的聚类越重要,因此可以选取聚类效果最好的特征,提升聚类效果。
步骤220,基于流量数据的所选取的特征对应的特征值,得到流量数据的特征向量。
本发明实施例中,特征向量包括流量数据的N个特征各自对应的特征值;其中,一个特征对应一个特征值。例如,a1,a2,……,an分别是第1,2,……,N个特征的特征值,得到的流量数据的特征向量即为(a1,a2,……,an)构成的集合。
本发明实施例中,流量数据包括白数据和黑数据,白数据是从确定为白用户的用户的数据流量中抽取的流量数据,黑数据是从确定为黑用户的用户的数据流量中抽取的流量数据,白用户是确定为不会发出异常流量数据的用户,黑用户是确定为会发出异常流量数据的用户。可选的,流量数据中白数据和黑数据的比为预设比例且预设比例为1:1,预设比例也可以为其他比例,本发明实施例中不做限定。通过实施这种可选的实施方式,减少了因白数据与黑数据选取比例失衡导致局部最优的情况出现的概率。
步骤230,根据流量数据的特征向量,将所有流量数据聚类成M个簇。
本发明实施例中,M为大于等于2的正整数。
步骤240,确定在各种M和N取值的组合下流量数据分成的簇的簇错误数总和。
本发明实施例中,簇错误数总和是分成的每个簇的错误数相加的结果,每个簇的错误数是指该簇中白数据的数量和黑数据的数量中较少的一个数量。具体的,簇中如果只包括白数据或者只包括黑数据,认为此时聚类效果最佳。因此,将M个簇中白数据的数量大于黑数据的数量的簇确定为白簇,将M个簇中黑数据的数量大于白数据的数量的簇确定为黑簇,白簇的簇错误数为白簇中黑数据的数量,黑簇的簇错误数为黑簇中白流量数据的数量,M个簇的簇错误数总和即为所有白簇的簇错误数总和与所有黑簇的错误数总和累加得到的簇错误数总和。并且,各种M和N取值的组合为遍历N值取值范围的所有值与M值取值范围的所有值的组合。
步骤250,将最小的簇错误数总和所对应的特征个数和簇个数,作为流量数据聚类时选取的目标特征数和目标簇个数。
作为一种可选的实施方式,在将最小的簇错误数总和所对应的特征个数和簇个数,作为流量数据聚类时选取的目标特征数和目标簇个数之后,还可以执行以下步骤:
确定在按照选取的目标特征数和目标簇个数聚类之后,聚成的每个簇的簇风险评分,该簇风险评分的公式如下:
Figure BDA0001813007210000081
其中,N0、N1分别表示该簇中白样本个数和黑样本个数,score为簇风险评分。
其中,白样本个数即为该簇中白数据个数,黑样本个数即为该簇中黑数据个数。簇风险评分的取值范围为[0,1],簇风险评分越大(簇风险评分越靠近1),表示该簇黑样本比例越大,该簇存在流量异常的风险也就越大。且将该簇的簇编号与该簇对应的簇风险评分对应存储,管理人员可以查看每一簇的簇风险评分,从而使得簇风险情况的呈现更加直观。可选的,当簇风险评分大于0.5时,确定该簇为流量异常的簇,其中,也可以在簇风险评分大于0.6或者0.7时确定该簇为流量异常的簇,具体的簇风险评分大于的某一数值本发明实施例中不做限定。
作为另一种可选的实施方式,在执行完步骤250之后,还可以执行以下步骤:
判断聚成的簇的数量是否大于预设数量;
当判断出大于预设数量时,确定出每一聚成的簇的中心点;
根据每一聚成的簇的中心点,将所有聚成的簇划分至预设簇中,其中,预设簇包括黑簇、白簇以及混合簇,黑簇为黑数据占主导的簇,白簇为白数据占主导的簇,混合簇为黑数据与白数据均不做主导的簇。
通过实施这种可选的实施方式,当聚成的簇的数量过多时,可以进一步将聚成的簇划分得到三个簇,有利于后续根据划分得到的簇分析黑产业链的行为。
上述方法下,对于流量异常的识别不是孤立确定的,而是依据目标特征数和目标簇个数将流量数据划分为若干个簇,结合若干个簇能够反映流量数据在一个群体、或在一个区域、或在一类人中呈现出的特点,有利于分析黑产业链的行为。综上,对于群体的流量数据整体分析的需求得以满足。
图3是根据图2对应实施例示出的步骤230的细节的流程图。如图3所示,步骤230包括:
步骤231,对流量数据的特征向量所包括的各特征值进行归一化处理,得到归一化特征向量。
本发明实施例中,归一化处理是用流量数据的特征向量所包括的一个特征的特征值除以所有流量数据的特征向量所包括的该特征的最大特征值的结果。
步骤232,将归一化特征向量聚类成M个簇。
图4是根据另一示例性实施例示出的一种流量数据的聚类处理方法的流程图。如图4所示,此方法包括以下步骤。
步骤401,在预置特征库中选取N个特征,N为正整数。
作为一种可选的实施方式,在预置特征库中选取N个特征可以包括:
在预置特征库中选取卡方值从高到低前N个特征。
步骤402,基于流量数据的所选取的特征对应的特征值,得到流量数据的特征向量。
本发明实施例中,特征向量包括流量数据的N个特征各自对应的特征值;其中,一个特征对应一个特征值。
本发明实施例中,流量数据包括白数据和黑数据,白数据是从确定为白用户的用户的数据流量中抽取的流量数据,黑数据是从确定为黑用户的用户的数据流量中抽取的流量数据,白用户是确定为不会发出异常流量数据的用户,黑用户是确定为会发出异常流量数据的用户。可选的,流量数据中白数据和黑数据的比为预设比例且预设比例为1:1。
步骤403,根据流量数据的特征向量,将一部分流量数据聚类成M个簇,M为大于等于2的正整数。
步骤404,确定在各种M和N取值的组合下流量数据分成的簇的簇错误数总和,簇错误数总和是分成的每个簇的错误数相加的结果。
本发明实施例中,每个簇的错误数是指该簇中白数据的数量和黑数据的数量中较少的一个数量。
步骤405,将从小到大前预定名次的簇错误数总和所对应的M和N的组合,作为候选特征数M和N的组合。
步骤406,根据流量数据的特征向量,将所有流量数据聚类成M个簇。
本发明实施例中,M为大于等于2的正整数。
步骤407,确定在各种候选M和N取值的组合下流量数据分成的簇的簇错误数总和。
本发明实施例中,簇错误数总和是分成的每个簇的错误数相加的结果,每个簇的错误数是指该簇中白数据的数量和黑数据的数量中较少的一个数量。
步骤408,将最小的簇错误数总和所对应的特征个数和簇个数,作为流量数据聚类时选取的目标特征数和目标簇个数。
作为一种可选的实施方式,在将最小的簇错误数总和所对应的特征个数和簇个数,作为流量数据聚类时选取的目标特征数和目标簇个数之后,还可以执行以下步骤:
确定在按照选取的目标特征数和目标簇个数聚类之后,聚成的每个簇的簇风险评分,该簇风险评分的公式如下:
Figure BDA0001813007210000101
其中,N0、N1分别表示该簇中白样本个数和黑样本个数,score为簇风险评分。
上述方法下,能够在对预设数量的流量数据聚类成初始簇时,从中选取较优的候选M和N取值的组合,并在该选取较优的候选M和N取值的组合下针对所有流量数据进行聚类,从中选取簇错误数总和取值最小的簇错误数总和。这一过程的第一次聚类过程对部分流量数据聚类获取较优的候选M和N取值的组合,第二次聚类过程按照第一次聚类选取的较优的较优的候选M和N取值的组合,对全部流量数据聚类,可以同时兼顾处理效率与聚类的准确性。
以下是本发明的装置实施例。
图5是根据一示例性实施例示出的一种流量数据的聚类处理装置的框图。如图5所示,该装置包括:
选取单元501,用于在预置特征库中选取N个特征,N为正整数。
作为一种可选的实施方式,选取单元501在预置特征库中选取N个特征,N为正整数可以包括:
选取单元501在预置特征库中选取卡方值从高到低前N个特征。
获取单元502,用于基于流量数据的所选取的特征对应的特征值,得到流量数据的特征向量;特征向量包括流量数据的N个特征各自对应的特征值;其中,一个特征对应一个特征值。
本发明实施例中,流量数据中白数据和黑数据的比为预设比例,预设比例可以为1:1。
聚类单元503,用于根据流量数据的特征向量,将所有流量数据聚类成M个簇,M为大于等于2的正整数。
作为一种可选的实施方式,聚类单元503根据流量数据的特征向量,将所有流量数据聚类成M个簇可以包括:
聚类单元503对流量数据的特征向量所包括的各特征值进行归一化处理,得到归一化特征向量,其中归一化处理是用流量数据的特征向量所包括的一个特征的特征值除以所有流量数据的特征向量所包括的该特征的最大特征值的结果;
聚类单元503将归一化特征向量聚类成M个簇。
确定单元504,用于确定在各种M和N取值的组合下流量数据分成的簇的簇错误数总和,簇错误数总和是分成的每个簇的错误数相加的结果,每个簇的错误数是指该簇中白数据的数量和黑数据的数量中较少的一个数量。
作为另一种可选的实施方式,在聚类单元503根据流量数据的特征向量,将所有流量数据聚类成M个簇之前,聚类单元503还可以用于:
根据流量数据的特征向量,将一部分流量数据聚类成M个簇,M为大于等于2的正整数;
确定在各种M和N取值的组合下流量数据分成的簇的簇错误数总和,簇错误数总和是分成的每个簇的错误数相加的结果,每个簇的错误数是指该簇中白数据的数量和黑数据的数量中较少的一个数量;
将从小到大前预定名次的簇错误数总和所对应的M和N的组合,作为候选特征数M和N的组合。
确定单元504确定在各种M和N取值的组合下流量数据分成的簇的簇错误数总和可以包括:确定单元504确定在各种候选M和N取值的组合下流量数据分成的簇的簇错误数总和。
设置单元505,用于将最小的簇错误数总和所对应的特征个数和簇个数,作为流量数据聚类时选取的目标特征数和目标簇个数。
作为一种可选的实施方式,在设置单元505将最小的簇错误数总和所对应的特征个数和簇个数,作为流量数据聚类时选取的目标特征数和目标簇个数之后,设置单元505还可以用于:
确定在按照选取的目标特征数和目标簇个数聚类之后,聚成的每个簇的簇风险评分,该簇风险评分的公式如下:
Figure BDA0001813007210000111
其中,N0、N1分别表示该簇中白样本个数和黑样本个数,score为簇风险评分。
作为另一种可选的实施方式,在设置单元505将最小的簇错误数总和所对应的特征个数和簇个数,作为流量数据聚类时选取的目标特征数和目标簇个数之后,设置单元505还可以用于:
判断聚成的簇的数量是否大于预设数量;
当判断出大于预设数量时,确定出每一聚成的簇的中心点;
根据每一聚成的簇的中心点,将所有聚成的簇划分至预设簇中,其中,预设簇包括黑簇、白簇以及混合簇,黑簇为黑数据占主导的簇,白簇为白数据占主导的簇,混合簇为黑数据与白数据均不做主导的簇。
通过实施这种可选的实施方式,当聚成的簇的数量过多时,可以进一步将聚成的簇划分得到三个簇,有利于后续根据划分得到的簇分析黑产业链的行为。
本发明还提供一种电子设备,该电子设备包括:
处理器;
存储器,该存储器上存储有计算机可读指令,该计算机可读指令被处理器执行时,实现如前所示的流量数据的聚类处理方法。
该电子设备可以是图1所示流量数据聚类处理装置100。
在一示例性实施例中,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如前所示的流量数据的聚类处理方法。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种流量数据的聚类处理方法,其特征在于,所述流量数据包括白数据和黑数据,所述白数据是从确定为白用户的用户的数据流量中抽取的流量数据,所述黑数据是从确定为黑用户的用户的数据流量中抽取的流量数据,所述白用户是确定为不会发出异常流量数据的用户,所述黑用户是确定为会发出异常流量数据的用户,所述方法包括:
在预置特征库中选取N个特征,N为正整数;
基于流量数据的所选取的特征对应的特征值,得到所述流量数据的特征向量;所述特征向量包括所述流量数据的所述N个特征各自对应的特征值;其中,一个所述特征对应一个所述特征值;
根据所述流量数据的特征向量,将所有所述流量数据聚类成M个簇,M为大于等于2的正整数;
确定在各种M和N取值的组合下所述流量数据分成的簇的簇错误数总和,所述簇错误数总和是分成的每个簇的错误数相加的结果,每个簇的错误数是指该簇中白数据的数量和黑数据的数量中较少的一个数量;
将最小的簇错误数总和所对应的特征个数和簇个数,作为流量数据聚类时选取的目标特征数和目标簇个数。
2.根据权利要求1所述的方法,其特征在于,所述在预置特征库中选取N个特征包括:在预置特征库中选取卡方值从高到低前N个特征。
3.根据权利要求1所述的方法,其特征在于,流量数据中白数据和黑数据的比为预设比例。
4.根据权利要求3所述的方法,其特征在于,所述预设比例为1:1。
5.根据权利要求1所述的方法,其特征在于,所述根据所述流量数据的特征向量,将所有所述流量数据聚类成M个簇,包括:
对所述流量数据的特征向量所包括的各特征值进行归一化处理,得到归一化特征向量,其中归一化处理是用所述流量数据的特征向量所包括的一个特征的特征值除以所有所述流量数据的特征向量所包括的所述一个特征的最大特征值的结果;
将所述归一化特征向量聚类成M个簇。
6.根据权利要求1所述的方法,其特征在于,在根据所述流量数据的特征向量,将所有所述流量数据聚类成M个簇之前,所述方法还包括:
根据所述流量数据的特征向量,将一部分所述流量数据聚类成M个簇,M为大于等于2的正整数;
确定在各种M和N取值的组合下所述流量数据分成的簇的簇错误数总和,所述簇错误数总和是分成的每个簇的错误数相加的结果,每个簇的错误数是指该簇中白数据的数量和黑数据的数量中较少的一个数量;
将从小到大前预定名次的簇错误数总和所对应的M和N的组合,作为候选特征数M和N的组合,
且所述确定在各种M和N取值的组合下所述流量数据分成的簇的簇错误数总和包括:确定在各种候选M和N取值的组合下所述流量数据分成的簇的簇错误数总和。
7.根据权利要求1所述的方法,其特征在于,在将最小的簇错误数总和所对应的特征个数和簇个数,作为流量数据聚类时选取的目标特征数和目标簇个数之后,所述方法还包括:确定在按照选取的目标特征数和目标簇个数聚类之后,聚成的每个簇的簇风险评分,该簇风险评分的公式如下:
Figure FDA0002996062410000021
其中,N0、N1分别表示该簇中白样本个数和黑样本个数,score为簇风险评分。
8.一种流量数据的聚类处理装置,其特征在于,所述流量数据包括白数据和黑数据,所述白数据是从确定为白用户的用户的数据流量中抽取的流量数据,所述黑数据是从确定为黑用户的用户的数据流量中抽取的流量数据,所述白用户是确定为不会发出异常流量数据的用户,所述黑用户是确定为会发出异常流量数据的用户,所述装置包括:
选取单元,用于在预置特征库中选取N个特征,N为正整数;
获取单元,用于基于流量数据的所选取的特征对应的特征值,得到所述流量数据的特征向量;所述特征向量包括所述流量数据的所述N个特征各自对应的特征值;其中,一个所述特征对应一个所述特征值;
聚类单元,用于根据所述流量数据的特征向量,将所有所述流量数据聚类成M个簇,M为大于等于2的正整数;
确定单元,用于确定在各种M和N取值的组合下所述流量数据分成的簇的簇错误数总和,所述簇错误数总和是分成的每个簇的错误数相加的结果,每个簇的错误数是指该簇中白数据的数量和黑数据的数量中较少的一个数量;
设置单元,用于将最小的簇错误数总和所对应的特征个数和簇个数,作为流量数据聚类时选取的目标特征数和目标簇个数。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其存储计算机程序,所述计算机程序使得计算机执行权利要求1~7任一项所述的方法。
CN201811128269.2A 2018-09-27 2018-09-27 一种流量数据的聚类处理方法、装置及电子设备 Active CN109284307B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811128269.2A CN109284307B (zh) 2018-09-27 2018-09-27 一种流量数据的聚类处理方法、装置及电子设备
PCT/CN2018/125246 WO2020062689A1 (zh) 2018-09-27 2018-12-29 流量数据的聚类处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811128269.2A CN109284307B (zh) 2018-09-27 2018-09-27 一种流量数据的聚类处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN109284307A CN109284307A (zh) 2019-01-29
CN109284307B true CN109284307B (zh) 2021-06-08

Family

ID=65181859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811128269.2A Active CN109284307B (zh) 2018-09-27 2018-09-27 一种流量数据的聚类处理方法、装置及电子设备

Country Status (2)

Country Link
CN (1) CN109284307B (zh)
WO (1) WO2020062689A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209260B (zh) * 2019-04-26 2024-02-23 平安科技(深圳)有限公司 耗电量异常检测方法、装置、设备及计算机可读存储介质
US20210035025A1 (en) * 2019-07-29 2021-02-04 Oracle International Corporation Systems and methods for optimizing machine learning models by summarizing list characteristics based on multi-dimensional feature vectors

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103001825B (zh) * 2012-11-15 2016-03-02 中国科学院计算机网络信息中心 Dns流量异常的检测方法和系统
CN105141604B (zh) * 2015-08-19 2019-03-08 国家电网公司 一种基于可信业务流的网络安全威胁检测方法及系统
US10200382B2 (en) * 2015-11-05 2019-02-05 Radware, Ltd. System and method for detecting abnormal traffic behavior using infinite decaying clusters
CN107592323A (zh) * 2017-11-02 2018-01-16 江苏物联网研究发展中心 一种DDoS检测方法及检测装置

Also Published As

Publication number Publication date
WO2020062689A1 (zh) 2020-04-02
CN109284307A (zh) 2019-01-29

Similar Documents

Publication Publication Date Title
Lo et al. Why significant variables aren’t automatically good predictors
CN107102746B (zh) 候选词生成方法、装置以及用于候选词生成的装置
CN110460583B (zh) 一种敏感信息记录方法及装置、电子设备
CN111339436A (zh) 一种数据识别方法、装置、设备以及可读存储介质
CN109951512B (zh) 用户偏好确定方法、系统、电子设备及存储介质
CN110134593B (zh) 软件测试方法、装置、电子设备及存储介质
CN110348471B (zh) 异常对象识别方法、装置、介质及电子设备
CN105528403B (zh) 目标数据识别方法及装置
CN109284307B (zh) 一种流量数据的聚类处理方法、装置及电子设备
CN111428032B (zh) 内容质量评价方法及装置、电子设备、存储介质
CN111324408A (zh) 应用程序的功能模块智能显示方法、装置、设备和介质
CN108985048B (zh) 模拟器识别方法及相关装置
US20190332621A1 (en) Personnel selecting device, personnel selecting system, personnel selecting method, and recording medium
CN109670313B (zh) 系统运行中进行风险评估的方法、装置和可读存储介质
CN110717509B (zh) 基于树分裂算法的数据样本分析方法及装置
CN107291774B (zh) 错误样本识别方法和装置
CN110334008B (zh) 一种数据自动化处理方法、装置、电子设备及存储介质
CN110288468B (zh) 数据特征挖掘方法、装置、电子设备及存储介质
CN110852761B (zh) 制定反作弊策略的方法、装置及电子设备
CN109257354B (zh) 基于模型树算法的异常流量分析方法及装置、电子设备
CN105162931B (zh) 一种通信号码的分类方法及装置
US10403277B2 (en) Method and apparatus for information search using voice recognition
US20220276067A1 (en) Method and apparatus for guiding voice-packet recording function, device and computer storage medium
CN110019813A (zh) 寿险案例检索方法、检索装置、服务器及可读存储介质
CN112162762A (zh) 灰度发布方法、灰度发布装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant