CN109257354B - 基于模型树算法的异常流量分析方法及装置、电子设备 - Google Patents

基于模型树算法的异常流量分析方法及装置、电子设备 Download PDF

Info

Publication number
CN109257354B
CN109257354B CN201811120226.XA CN201811120226A CN109257354B CN 109257354 B CN109257354 B CN 109257354B CN 201811120226 A CN201811120226 A CN 201811120226A CN 109257354 B CN109257354 B CN 109257354B
Authority
CN
China
Prior art keywords
processed
value
flow data
target
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811120226.XA
Other languages
English (en)
Other versions
CN109257354A (zh
Inventor
孙家棣
马宁
于洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811120226.XA priority Critical patent/CN109257354B/zh
Publication of CN109257354A publication Critical patent/CN109257354A/zh
Priority to PCT/CN2019/079034 priority patent/WO2020062803A1/zh
Application granted granted Critical
Publication of CN109257354B publication Critical patent/CN109257354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明揭示了一种基于模型树算法的异常流量分析方法及装置、电子设备。本发明涉及数据处理技术领域。所述方法包括:获取黑白名单中待处理流量数据的至少一个特征值;黑白名单包括至少一个待处理流量数据;对特征值进行归一化处理,获得归一化特征值;根据初始权重值,利用迭代算法遍历所有归一化特征值,获得待处理流量数据对应的权重值;当权重值大于参考权重阈值时,确定待处理流量数据为异常流量数据;能够通过对大数据的分析,基于模型树算法甄别伪装成白名单用户的黑色产业用户,进而提高白名单用户发出的流量数据的纯净程度。综上,实现了对流量数据中包含的异常流量数据的区分,提高了白名单用户发出的流量数据的纯净程度。

Description

基于模型树算法的异常流量分析方法及装置、电子设备
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于模型树算法的异常流量分析方法及装置、电子设备。
背景技术
在互联网领域中,经常会出现导致异常流量的行为。例如,某应用程序发放一个优惠券,并且规定每个账号只能领取一个优惠券,此时,一些用户就会利用不正常手段在手机上重复注册多个账号,领取多个优惠券。此外,目前的以上述为例的黑色产业链已经形成了完整的产业链条,该产业链条中包括大量的例如木马播种、流量交易以及虚拟财产套现的会导致异常流量的行为。
在现有技术的实现中,为了区别用户发出流量的异常表现,将用户分为黑名单用户、白名单用户和不确定用户,以通过白名单用户发出的流量数据作为依据,检测流量数据中存在的异常流量数据;其中,黑名单用户的流量数据是事先已知该用户从事黑色产业或曾有过导致异常流量的行为的用户发出的流量数据,白名单用户的流量数据是寿险内勤、正式业务员、保单用户、购买生活助手和基金用户等用户发出的流量数据,不确定用户的流量数据是指黑名单用户和白名单用户之外的用户发出的流量数据。
现有技术的缺陷在于,白名单用户中存在伪装成白名单用户的黑色产业用户,导致检测到的白名单用户发出的流量数据中包含了异常流量数据。
发明内容
为了解决相关技术中存在的白名单用户发出的流量数据中包含了异常流量数据,本发明提供了一种基于模型树算法的异常流量分析方法及装置、电子设备。
本发明实施例第一方面公开了一种基于模型树算法的异常流量分析方法,所述方法包括:
获取黑白名单中待处理流量数据的至少一个特征值;所述黑白名单包括至少一个待处理流量数据;
对所述特征值进行归一化处理,获得归一化特征值;
根据初始权重值,利用迭代算法遍历所有所述归一化特征值,获得所述待处理流量数据对应的权重值;其中,所述权重值用于指示所述待处理流量数据的异常程度;
当所述权重值大于参考权重阈值时,确定所述待处理流量数据为异常流量数据。
作为一种可选的实施方式,在本发明实施例第一方面中,所述黑白名单由黑名单和白名单组成,所述黑名单包括至少一个所述待处理流量数据,所述白名单包括至少一个所述待处理流量数据;
所述的确定所述待处理流量数据为异常流量数据之后,所述方法还包括:
判断所述待处理流量数据属于所述白名单还是属于所述黑名单;
如果所述待处理流量数据属于所述白名单,则将所述待处理流量数据从所述白名单中删除并且将所述待处理流量数据加入所述黑名单;
所述方法还包括:
当所述权重值不大于所述参考权重阈值时,确定所述待处理流量数据为正常流量数据;
判断所述待处理流量数据属于所述白名单还是属于所述黑名单;
如果所述待处理流量数据属于所述黑名单,则将所述待处理流量数据从所述黑名单中删除并且将所述待处理流量数据加入所述白名单。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的当所述权重值大于参考权重阈值时,确定所述待处理流量数据为异常流量数据之前,所述方法还包括:
以所有所述待处理流量数据为纵轴以及以所述待处理流量数据对应的权重值为横轴,获得流量数据分布图;
确定所述流量数据分布图中每个原始流量数据点的代价值,每个所述原始流量数据点的代价值用于表示所述流量数据分布图中每个原始流量数据点与拟合后的所述流量数据分布图中每个流量数据点的相似程度;
将所有所述原始流量数据的代价值中最小的代价值对应的原始流量数据点确定为目标拐点,并将所述目标拐点的纵坐标确定为参考权重阈值。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的确定所述流量数据分布图中每个原始流量数据点的代价值,包括:
分别将所述流量数据分布图中每个原始流量数据点确定为拐点,并将所述拐点左侧的所有点和右侧的所有点拟合为直线,计算所述流量数据分布图中除所述拐点之外的每个剩余原始流量数据点纵坐标分别与对应的所述直线上的每个目标流量数据点纵坐标的纵坐标差值,得到每个所述剩余原始流量数据点对应的纵坐标差值,并计算每个所述剩余原始流量数据点对应的纵坐标差值的平方和,得到每个所述原始流量数据的代价值。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的根据初始权重值,利用迭代算法遍历所有所述归一化特征值,获得所述待处理流量数据对应的权重值,包括:
确定多个阈值,并根据每个所述阈值对每个所述待处理流量数据中的每个特征值分别进行判定,得到多个判定结果;
根据初始权重值以及每个所述判定结果,确定每个所述判定结果对应的权重误差,并确定所有所述权重误差中最小的目标权重误差以及所述目标权重误差对应的目标阈值和目标特征值;以及根据所述目标阈值和所述目标特征,确定所述待处理流量数据的目标归属名单;如果所述目标归属名单与所述待处理流量数据的初始归属名单一致时,减少将所述待处理流量数据的初始权重值;如果所述目标归属名单与所述初始归属名单不一致时,增加将所述待处理流量数据的初始权重值;
执行所述的根据初始权重值以及每个所述判定结果,确定每个所述判定结果对应的权重误差,并确定所有所述权重误差中最小的目标权重误差以及所述目标权重误差对应的目标阈值和目标特征值;以及根据所述目标阈值和所述目标特征,确定所述待处理流量数据的目标归属名单;如果所述目标归属名单与所述待处理流量数据的初始归属名单一致时,减少将所述待处理流量数据的初始权重值;如果所述目标归属名单与所述初始归属名单不一致时,增加将所述待处理流量数据的初始权重值,直至所述初始权重值的变化次数达到预设次数阈值;
当所述初始权重值的变化次数达到所述预设次数阈值时,根据当前的初始权重值、当前的目标阈值和当前的目标特征值,确定所述待处理流量数据对应的权重值。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的根据每个所述阈值对每个所述待处理流量数据中的每个特征值分别进行判定,得到多个判定结果,包括:
根据多个所述阈值中的任一阈值对所述待处理流量数据中的任一特征值进行判定,得到判定结果;
如果所述任一阈值大于所述任一特征值且所述任一待处理流量数据的初始归属名单为所述白名单,则将所述判定结果确定为正确判定;如果所述任一阈值小于所述任一特征值且所述任一待处理流量数据的所述初始归属名单为所述白名单,则将所述判定结果确定为错误判定;如果所述任一阈值大于所述任一特征值且所述任一待处理流量数据的所述初始属性为所述黑名单,则将所述判定结果确定为错误判定;如果所述任一阈值小于所述任一特征值且所述任一待处理流量数据的所述初始属性为所述黑名单,则将所述判定结果确定为正确判定。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的确定多个阈值,包括:
在预设数值范围内确定初始数值,并计算预设步长的正整数倍与所述初始数值的和,得到多个目标数值;
将所述初始数值以及所有所述目标数值确定为多个阈值,其中,任一所述目标数值均处于所述预设数值范围内。
本发明实施例第二方面公开了一种基于模型树算法的异常流量分析装置,所述装置包括:
获取模块,用于获取黑白名单中待处理流量数据的至少一个特征值;所述黑白名单包括至少一个待处理流量数据;
计算模块,用于对所述特征值进行归一化处理,获得归一化特征值;
所述计算模块,还用于根据初始权重值,利用迭代算法遍历所有所述归一化特征值,获得所述待处理流量数据对应的权重值;其中,所述权重值用于指示所述待处理流量数据的异常程度;
第一确定模块,用于当所述权重值大于参考权重阈值时,确定所述待处理流量数据为异常流量数据。
本发明实施例第三方面公开了一种电子设备,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现本发明实施例第一方面公开的基于模型树算法的异常流量分析方法。
本发明实施例第四方面公开了一种计算机可读存储介质,其存储计算机程序,所述计算机程序使得计算机执行本发明实施例第一方面公开的基于模型树算法的异常流量分析方法。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明所提供的基于模型树算法的异常流量分析方法包括如下步骤:获取黑白名单中待处理流量数据的至少一个特征值;黑白名单包括至少一个待处理流量数据;对特征值进行归一化处理,获得归一化特征值;根据初始权重值,利用迭代算法遍历所有归一化特征值,获得待处理流量数据对应的权重值;其中,权重值用于指示待处理流量数据的异常程度;当权重值大于参考权重阈值时,确定待处理流量数据为异常流量数据。
此方法下,能够通过对检测到的流量数据中的异常流量数据进行区分,以甄别伪装成白名单用户的黑色产业用户,进而提高白名单用户发出的流量数据的纯净程度。综上,实现了对流量数据中包含的异常流量数据的区分,提高了白名单用户发出的流量数据的纯净程度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是本发明实施例公开的一种装置的结构示意图;
图2是本发明实施例公开的一种基于模型树算法的异常流量分析方法的流程图;
图3是本发明实施例公开的另一种基于模型树算法的异常流量分析方法的流程图;
图4是本发明实施例公开的又一种基于模型树算法的异常流量分析方法的流程图;
图5是本发明实施例公开的一种基于模型树算法的异常流量分析装置的结构示意图;
图6是本发明实施例公开的另一种基于模型树算法的异常流量分析装置的结构示意图;
图7是本发明实施例公开的又一种基于模型树算法的异常流量分析装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
实施例一
本发明的实施环境可以是便携移动设备,例如智能手机、平板电脑、台式电脑。便携移动设备中所存储的图像可以是:从互联网下载的图像;通过无线连接或有线连接接收的图像;通过自身所内置摄像头拍摄得到的图像。
图1是本发明实施例公开的一种装置的结构示意图。装置100可以是上述便携移动设备。如图1所示,装置100可以包括以下一个或多个组件:处理组件102,存储器104,电源组件106,多媒体组件108,音频组件110,传感器组件114以及通信组件116。
处理组件102通常控制装置100的整体操作,诸如与显示,电话呼叫,数据通信,相机操作以及记录操作相关联的操作等。处理组件102可以包括一个或多个处理器118来执行指令,以完成下述的方法的全部或部分步骤。此外,处理组件102可以包括一个或多个模块,用于便于处理组件102和其他组件之间的交互。例如,处理组件102可以包括多媒体模块,用于以方便多媒体组件108和处理组件102之间的交互。
存储器104被配置为存储各种类型的数据以支持在装置100的操作。这些数据的示例包括用于在装置100上操作的任何应用程序或方法的指令。存储器104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static RandomAccess Memory,简称SRAM),电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。存储器104中还存储有一个或多个模块,用于该一个或多个模块被配置成由该一个或多个处理器118执行,以完成如下所示方法中的全部或者部分步骤。
电源组件106为装置100的各种组件提供电力。电源组件106可以包括电源管理系统,一个或多个电源,及其他与为装置100生成、管理和分配电力相关联的组件。
多媒体组件108包括在装置100和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(Liquid Crystal Display,简称LCD)和触摸面板。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。屏幕还可以包括有机电致发光显示器(Organic Light Emitting Display,简称OLED)。
音频组件110被配置为输出和/或输入音频信号。例如,音频组件110包括一个麦克风(Microphone,简称MIC),当装置100处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器104或经由通信组件116发送。在一些实施例中,音频组件110还包括一个扬声器,用于输出音频信号。
传感器组件114包括一个或多个传感器,用于为装置100提供各个方面的状态评估。例如,传感器组件114可以检测到装置100的打开/关闭状态,组件的相对定位,传感器组件114还可以检测装置100或装置100一个组件的位置改变以及装置100的温度变化。在一些实施例中,该传感器组件114还可以包括磁传感器,压力传感器或温度传感器。
通信组件116被配置为便于装置100和其他设备之间有线或无线方式的通信。装置100可以接入基于通信标准的无线网络,如WiFi(Wireless-Fidelity,无线保真)。在本发明实施例中,通信组件116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在本发明实施例中,通信组件116还包括近场通信(Near Field Communication,简称NFC)模块,用于以促进短程通信。例如,在NFC模块可基于射频识别(Radio FrequencyIdentification,简称RFID)技术,红外数据协会(Infrared Data Association,简称IrDA)技术,超宽带(Ultra Wideband,简称UWB)技术,蓝牙技术和其他技术来实现。
在示例性实施例中,装置100可以被一个或多个应用专用集成电路(ApplicationSpecific Integrated Circuit,简称ASIC)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现,用于执行下述方法。
实施例二
请参阅图2,图2是本发明实施例公开的一种基于模型树算法的异常流量分析方法的流程示意图。如图2所示该基于模型树算法的异常流量分析方法可以包括以下步骤:
201、获取黑白名单中待处理流量数据的至少一个特征值;黑白名单包括至少一个待处理流量数据。
本发明实施例中,可选的,获取黑白名单中待处理流量数据的至少一个特征值的方式具体可以为:
根据预设特征库中的至少一个特征,从黑白名单的待处理流量数据中获取与至少一个特征相对应的至少一个特征值。
其中,特征是操作人员预先设置的用于识别一条流量数据的异常程度的参数,即某条流量数据的某个特征对应的特征值越大,则某条流量数据的异常程度越高。此外,特征可以为路径重复度排名、用户风控参数异常率、后端埋点比重、风控ip发散率、风控ip访问账号数、风控ip访问次数、风控ip_wifi名个数、风控ip累计风险得分、风控ip周期内用户数均值、风控ip周期内用户方差、风控ip周期内访问次数均值、风控ip周期内访问次数方差、周期内手机号段用户登录均值和周期内手机号段用户登录方差中至少一种。
本发明实施例中,黑白名单包括黑名单和白名单;其中,黑名单和白名单中均包括多个待处理流量数据。
本发明实施例中,在步骤201执行完毕之后,触发执行步骤202。
202、对特征值进行归一化处理,获得归一化特征值。
本发明实施例中,可选的,对特征值进行归一化处理,获得归一化特征值的方式具体可以为:
对所有特征值进行加和,获得总数值;
通过总数值分别除每个特征值,获得归一化特征值。
本发明实施例中,另一种可选的,对特征值进行归一化处理,获得归一化特征值的方式可以为:通过以下公式确定多个阈值,
Figure BDA0001810860890000091
其中,x是要需要归一化的特征值,xmin和xmax为在所有待处理流量数据中的特征值对应的该特征的最小值和99%中位值,
Figure BDA0001810860890000092
是归一化后获得的归一化特征值。
其中,99%中位值是指如下:在所有的待处理流量数据中,有99%的待处理流量数据的该特征值小于99%中位值,只有1%的待处理流量数据的该特征值大于99%中位值。设置成99%中位值是为了避免偶然出现的大特征值样本的影响,以提高区分异常流量数据的区分准确性。
本发明实施例中,在步骤202执行完毕之后,触发执行步骤203。
203、根据初始权重值,利用迭代算法遍历所有归一化特征值,获得待处理流量数据对应的权重值;其中,权重值用于指示待处理流量数据的异常程度。
本发明实施例中,在步骤203执行完毕之后,触发执行步骤204。
204、当权重值大于参考权重阈值时,确定待处理流量数据为异常流量数据。
作为一种可选的实施方式,根据初始权重值,利用迭代算法遍历所有归一化特征值,获得待处理流量数据对应的权重值,可以包括以下步骤:
确定多个阈值,并根据每个阈值对每个待处理流量数据中的每个特征值分别进行判定,得到多个判定结果;
根据初始权重值以及每个判定结果,确定每个判定结果对应的权重误差,并确定所有权重误差中最小的目标权重误差以及目标权重误差对应的目标阈值和目标特征值;以及根据目标阈值和目标特征,确定待处理流量数据的目标归属名单;如果目标归属名单与待处理流量数据的初始归属名单一致时,减少将待处理流量数据的初始权重值;如果目标归属名单与初始归属名单不一致时,增加将待处理流量数据的初始权重值;
执行上述的根据初始权重值以及每个判定结果,确定每个判定结果对应的权重误差,并确定所有权重误差中最小的目标权重误差以及目标权重误差对应的目标阈值和目标特征;以及根据目标阈值和目标特征,确定待处理流量数据的目标归属名单;如果目标归属名单与待处理流量数据的初始归属名单一致时,减少将待处理流量数据的初始权重值;如果目标归属名单与初始归属名单不一致时,增加将待处理流量数据的初始权重值,直至初始权重值的变化次数达到预设次数阈值;
当初始权重值的变化次数达到预设次数阈值时,根据当前的初始权重值、当前的目标阈值和当前的目标特征值,确定待处理流量数据对应的权重值。
进一步地,根据每个阈值对每个待处理流量数据中的每个特征值分别进行判定,得到多个判定结果,可以包括以下步骤:
根据多个阈值中的任一阈值对待处理流量数据中的任一特征值进行判定,得到判定结果;
如果任一阈值大于任一特征值且任一待处理流量数据的初始归属名单为白名单,则将判定结果确定为正确判定;如果任一阈值小于任一特征值且任一待处理流量数据的初始归属名单为白名单,则将判定结果确定为错误判定;如果任一阈值大于任一特征值且任一待处理流量数据的初始属性为黑名单,则将判定结果确定为错误判定;如果任一阈值小于任一特征值且任一待处理流量数据的初始属性为黑名单,则将判定结果确定为正确判定。
更进一步地,确定多个阈值,可以包括以下步骤:
在预设数值范围内确定初始数值,并计算预设步长的正整数倍与初始数值的和,得到多个目标数值。
将初始数值以及所有目标数值确定为多个阈值,其中,任一目标数值均处于预设数值范围内。
可见,实施该可选的实施方式,能够实现对流量数据中包含的异常流量数据的区分,并提高白名单用户发出的流量数据的纯净程度。
针对上述可选的实施方式,进行如下具体地说明:
首先,可以通过等步长法(即每次增加一个相等的步长)在【0,1】的区间内确定多个阈值,例如,第一个阈值确定为0.1,第二个阈值在第一个阈值的基础上增加0.1变成0.2,第三个阈值在第二个阈值的基础上增加0.1变成0.3,以此类推,即可在【0,1】的区间内确定多个阈值。
进一步地,如果在确定出的多个阈值中任意取一个阈值,并且任意确定一个目标特征。那么,黑白名单中所有的待处理流量数据均对应一个与目标特征匹配的特征值,大于阈值的特征值可以被判定为白流量数据,小于阈值的特征值可以被判定为黑流量数据。在此之前,待处理流量数据的初始归属名单(例如,黑名单、白名单)已知。因此,如果特征值被判定为白流量数据但是该特征值对应的待处理流量数据的初始归属名单为黑名单,那么此次判定则为一次错误判定;如果特征值被判定为黑流量数据但是该特征值对应的待处理流量数据的初始归属名单为黑名单,那么此次判定则为一次正确判定。
更进一步地,基于上述的正确判定和错误判定并根据权重误差的定义可以获得最小权重误差;其中,权重误差的定义为:
Figure BDA0001810860890000111
n为待处理流量数据的个数,ωi为第i个样本数据的权重值(或初始权重值),error(Xi)是样本Xi的错误判定误差,如果Xi被错误判定,则error(Xi)为1,否则为0。此外,初始权重值为1/n。通过上述方法获得的error为权重误差。进而,可以在确定出的多个阈值中再任意取一个阈值,并且按照上述同样的方法得到权重误差。以此类推,遍历所有确定出的阈值,进而,再任意确定一个目标特征,遍历所有确定出的阈值,直到遍历完所有的特征。这样,针对每个遍历的特征和遍历的阈值的组合均对应一个权重误差,其中,最小的权重误差对应的特征和阈值即为目标阈值和目标特征。
更进一步地,如果Xi在目标阈值和目标特征下被正确判定,则减少ωi,如果Xi在目标阈值和目标特征下被错误判定,则增加ωi。进而,再将增加/减少后的ωi遍历上述所有的特征和阈值的组合,直到获得增加/减少ωi后的最小的权重误差对应的特征和阈值。进而再通过正确/错误判定对ωi减少/增加。执行上述操作,直到ωi的变化次数(增加/减少)达到预设次数阈值(例如,40次),此时获得的ωi为对应的待处理流量数据的权重值。
更进一步地,为了降低进行异常流量数据区分时将黑流量数据区分为白流量数据的概率,可以对
Figure BDA0001810860890000121
中的ωi进行代价补充,即ωi=ωi*(1+λ),其中,λ为代价参数。可见,通过对ωi进行代价补充,提高了对异常流量数据的区分准确率。
更进一步地,确定代价参数λ的方式可以为:用若干白用户流量数据样本和黑用户流量数据样本组成的样本集合训练多个分类器。其中,预设的λ取值的集合可以为{0.1,0.2,0.3,0.4……1}。首先可以取集合中任一值作为λ的值,再使得分类器分别根据该λ的值确定每个待处理流量数据的权重值,并基于权重值与参考权重阈值的比较,将超过参考权重阈值的待处理流量数据从所有的待处理流量数据中删除,剩下的即为净化后的白名单流量数据。但是,由于进行异常流量数据的区分的过程中会存在区分错误,即,将白名单流量数据识别为黑名单流量数据,或者将黑名单流量数据识别为白名单流量数据。其中,将黑名单流量数据识别为白名单流量数据会导致严重后果,因此,需要执行以下操作以降低上述严重后果发生的可能性:首先,需要根据区分异常流量数据准确的个数除以流量数据的总数获得准确率;并根据黑名单流量数据中识别错误的数据除以黑名单流量数据的总数以获得召回率;进而得到每个分类器的准确率和召回率;再将各分类器的准确率和召回率分别取平均值;进而得到在λ的值为上述的任一值时的平均召回率和平均准确率;遍历集合中的所有值作为λ的值并计算获得每个λ对应的平均召回率和平均准确率,进而根据平均召回率和平均准确率选取最优的λ值(例如,0.3或0.4)。其中,根据平均召回率和平均准确率选取最优的λ值的方法具体可以为:确定平均准确率和平均召回率的加权平均值,作为λ的值;其中,平均召回率的权值大于平均准确率。另外,根据平均召回率和平均准确率选取最优的λ值的方法还可以为:如果平均召回率和平均准确率均处于目标区间,则将平均召回率和平均准确率进行加权和,得到加权和值,作为λ的值。
更进一步地,如果目标归属名单与待处理流量数据的初始归属名单一致时,减少将待处理流量数据的初始权重值;如果目标归属名单与初始归属名单不一致时,增加将待处理流量数据的初始权重值,可以包括以下步骤:
如果目标归属名单与待处理流量数据的初始归属名单一致时,通过
Figure BDA0001810860890000131
更新将待处理流量数据的初始权重值;如果目标归属名单与初始归属名单不一致时,通过
Figure BDA0001810860890000132
更新将待处理流量数据的初始权重值。其中,ωi (t+1)表示本次更新之后的初始权重值,sum(ωi (t))为本次更新之前的每次更新后的初始权重值之和,α为依据本次更新的误判定率计算出的中间数,其中,若用ε表示本次更新的误判定率,中间数α的计算公式可以表示为:
Figure BDA0001810860890000133
可见,按照第一预设规则更新初始权重值使得初始权重值越来越小,按照第二预设规则更新初始权重值反而使得初始权重值越来越大。需要说明的是,α≤0(即ε≥0.5)时,说明误判定率过高,丢弃,这样可以保证α>0(即ε<0.5),由于指数函数的特点是一开始的几次更新中按照指数函数上升或下降得慢,后来的更新中上升或下降的快,因此,这使得只有很多次更新中都上升或下降的流量数据权重才能达到一个很高的权重值,减少了由于初始选取特征和阈值不理想等原因造成的阈值上升或下降带来的影响,可见,上述公式有利于判定结果的正确率。
可见,实施图2所描述的方法,能够通过对检测到的流量数据中的异常流量数据进行区分,以甄别伪装成白名单用户的黑色产业用户,进而提高白名单用户发出的流量数据的纯净程度。
实施例三
请参阅图3,图3是本发明实施例公开的另一种基于模型树算法的异常流量分析方法的流程示意图。其中,黑白名单由黑名单和白名单组成,黑名单包括至少一个待处理流量数据,白名单包括至少一个待处理流量数据。如图3所示,该基于模型树算法的异常流量分析方法可以包括以下步骤:
步骤301和步骤302,针对步骤301和步骤302的描述,请参照实施例二中针对步骤201和步骤202的详细描述,本发明实施例不再赘述。
303、根据初始权重值,利用迭代算法遍历所有归一化特征值,获得待处理流量数据对应的权重值;其中,权重值用于指示待处理流量数据的异常程度。
304、当权重值大于参考权重阈值时,确定待处理流量数据为异常流量数据。
305、判断待处理流量数据属于白名单还是属于黑名单,如果属于白名单,则执行步骤306,如果属于黑名单,则结束本次流程。
本发明实施例中,如果待处理流量数据属于白名单,那么则说明待处理流量数据为黑色产业用户伪装成白名单用户所产生的流量。
306、将待处理流量数据从白名单中删除并且将待处理流量数据加入黑名单。
307、当权重值不大于参考权重阈值时,确定待处理流量数据为正常流量数据。
308、判断待处理流量数据属于白名单还是属于黑名单,如果属于白名单,则执行步骤309,如果属于黑名单,则结束本次流程。
本发明实施例中,如果待处理流量数据属于黑名单,那么则说明待处理流量数据为误操作导致将白名单用户区分为黑名单用户所产生的流量。
309、将待处理流量数据从黑名单中删除并且将待处理流量数据加入所白名单。
可见,实施图3所描述的方法,能够通过对检测到的流量数据中的异常流量数据进行区分,以甄别伪装成白名单用户的黑色产业用户,进而提高白名单用户发出的流量数据的纯净程度。
实施例四
请参阅图4,图4是本发明实施例公开的又一种基于模型树算法的异常流量分析方法的流程示意图。其中,黑白名单由黑名单和白名单组成,黑名单包括至少一个待处理流量数据,白名单包括至少一个待处理流量数据。如图4所示该基于模型树算法的异常流量分析方法可以包括以下步骤:
步骤401~步骤403,针对步骤401~步骤403的描述,请参照实施例三中针对301~步骤303的详细描述,本发明实施例不再赘述。
404、以所有待处理流量数据为纵轴以及以待处理流量数据对应的权重值为横轴,获得流量数据分布图。
405、确定流量数据分布图中每个原始流量数据点的代价值,每个原始流量数据点的代价值用于表示流量数据分布图中每个原始流量数据点与拟合后的流量数据分布图中每个流量数据点的相似程度。
406、将所有原始流量数据的代价值中最小的代价值对应的原始流量数据点确定为目标拐点,并将目标拐点的纵坐标确定为参考权重阈值。
如图4所示该基于模型树算法的异常流量分析方法可以包括以下步骤:步骤407~步骤412。针对步骤407~步骤412的描述,请参照实施例三中针对步骤304~步骤309的详细描述,本发明实施例不再赘述。
作为一种可选的实施方式,确定流量数据分布图中每个原始流量数据点的代价值,可以包括以下步骤:
分别将流量数据分布图中每个原始流量数据点确定为拐点,并将拐点左侧的所有点和右侧的所有点拟合为直线,计算流量数据分布图中除拐点之外的每个剩余原始流量数据点纵坐标分别与对应的直线上的每个目标流量数据点纵坐标的纵坐标差值,得到每个剩余原始流量数据点对应的纵坐标差值,并计算每个剩余原始流量数据点对应的纵坐标差值的平方和,得到每个原始流量数据的代价值。
可见,实施图4所描述的方法,能够通过对检测到的流量数据中的异常流量数据进行区分,以甄别伪装成白名单用户的黑色产业用户,进而提高白名单用户发出的流量数据的纯净程度。
实施例五
请参阅图5,图5是本发明实施例公开的一种基于模型树算法的异常流量分析装置的结构示意图。如图5所示,该基于模型树算法的异常流量分析装置可以包括:获取模块501、计算模块502以及确定模块503,其中,
获取模块501,用于获取黑白名单中待处理流量数据的至少一个特征值;黑白名单包括至少一个待处理流量数据。
本发明实施例中,可选的,获取模块501获取黑白名单中待处理流量数据的至少一个特征值的方式具体可以为:
根据预设特征库中的至少一个特征,从黑白名单的待处理流量数据中获取与至少一个特征相对应的至少一个特征值。
其中,特征是操作人员预先设置的用于识别一条流量数据的异常程度的参数,即某条流量数据的某个特征对应的特征值越大,则某条流量数据的异常程度越高。此外,特征可以为路径重复度排名、用户风控参数异常率、后端埋点比重、风控ip发散率、风控ip访问账号数、风控ip访问次数、风控ip_wifi名个数、风控ip累计风险得分、风控ip周期内用户数均值、风控ip周期内用户方差、风控ip周期内访问次数均值、风控ip周期内访问次数方差、周期内手机号段用户登录均值和周期内手机号段用户登录方差中至少一种。
本发明实施例中,黑白名单包括黑名单和白名单;其中,黑名单和白名单中均包括多个待处理流量数据。
本发明实施例中,在获取模块501获取黑白名单中待处理流量数据的至少一个特征值之后,触发计算模块502启动。
计算模块502,用于对特征值进行归一化处理,获得归一化特征值。
本发明实施例中,可选的,计算模块502对特征值进行归一化处理,获得归一化特征值的方式具体可以为:
对所有特征值进行加和,获得总数值;
通过总数值分别除每个特征值,获得归一化特征值。
本发明实施例中,另一种可选的,计算模块502对特征值进行归一化处理,获得归一化特征值的方式可以为:通过以下公式确定多个阈值,
Figure BDA0001810860890000161
其中,x是要需要归一化的特征值,xmin和xmax为在所有待处理流量数据中的特征值对应的该特征的最小值和99%中位值,
Figure BDA0001810860890000162
是归一化后获得的归一化特征值。
其中,99%中位值是指如下:在所有的待处理流量数据中,有99%的待处理流量数据的该特征值小于99%中位值,只有1%的待处理流量数据的该特征值大于99%中位值。设置成99%中位值是为了避免偶然出现的大特征值样本的影响,以提高区分异常流量数据的区分准确性。
计算模块502,还用于根据初始权重值,利用迭代算法遍历所有归一化特征值,获得待处理流量数据对应的权重值;其中,权重值用于指示待处理流量数据的异常程度。
第一确定模块503,用于当权重值大于参考权重阈值时,确定待处理流量数据为异常流量数据。
作为一种可选的实施方式,计算模块502根据初始权重值,利用迭代算法遍历所有归一化特征值,获得待处理流量数据对应的权重值的方式具体可以为:
确定多个阈值,并根据每个阈值对每个待处理流量数据中的每个特征值分别进行判定,得到多个判定结果;
根据初始权重值以及每个判定结果,确定每个判定结果对应的权重误差,并确定所有权重误差中最小的目标权重误差以及目标权重误差对应的目标阈值和目标特征;以及根据目标阈值和目标特征,确定待处理流量数据的目标归属名单;如果目标归属名单与待处理流量数据的初始归属名单一致时,减少将待处理流量数据的初始权重值;如果目标归属名单与初始归属名单不一致时,增加将待处理流量数据的初始权重值;
执行上述的根据初始权重值以及每个判定结果,确定每个判定结果对应的权重误差,并确定所有权重误差中最小的目标权重误差以及目标权重误差对应的目标阈值和目标特征;以及根据目标阈值和目标特征,确定待处理流量数据的目标归属名单;如果目标归属名单与待处理流量数据的初始归属名单一致时,减少将待处理流量数据的初始权重值;如果目标归属名单与初始归属名单不一致时,增加将待处理流量数据的初始权重值,直至初始权重值的变化次数达到预设次数阈值;
当初始权重值的变化次数达到预设次数阈值时,根据当前的初始权重值、当前的目标阈值和当前的目标特征值,确定待处理流量数据对应的权重值。
进一步地,计算模块502根据每个阈值对每个待处理流量数据中的每个特征值分别进行判定,得到多个判定结果的方式具体可以为:
根据多个阈值中的任一阈值对待处理流量数据中的任一特征值进行判定,得到判定结果;
如果任一阈值大于任一特征值且任一待处理流量数据的初始归属名单为白名单,则将判定结果确定为正确判定;如果任一阈值小于任一特征值且任一待处理流量数据的初始归属名单为白名单,则将判定结果确定为错误判定;如果任一阈值大于任一特征值且任一待处理流量数据的初始属性为黑名单,则将判定结果确定为错误判定;如果任一阈值小于任一特征值且任一待处理流量数据的初始属性为黑名单,则将判定结果确定为正确判定。
更进一步地,计算模块502确定多个阈值的方式具体可以为:
在预设数值范围内确定初始数值,并计算预设步长的正整数倍与初始数值的和,得到多个目标数值。
将初始数值以及所有目标数值确定为多个阈值,其中,任一目标数值均处于预设数值范围内。
可见,实施该可选的实施方式能够实现对流量数据中包含的异常流量数据的区分,并提高白名单用户发出的流量数据的纯净程度。
针对上述可选的实施方式,进行如下具体地说明:
首先,计算模块502可以通过等步长法(即每次增加一个相等的步长)在【0,1】的区间内确定多个阈值,例如,第一个阈值确定为0.1,第二个阈值在第一个阈值的基础上增加0.1变成0.2,第三个阈值在第二个阈值的基础上增加0.1变成0.3,以此类推,即可在【0,1】的区间内确定多个阈值。
进一步地,如果在确定出的多个阈值中任意取一个阈值,并且任意确定一个目标特征。那么,黑白名单中所有的待处理流量数据均对应一个与目标特征匹配的特征值,大于阈值的特征值可以被判定为白流量数据,小于阈值的特征值可以被判定为黑流量数据。在此之前,待处理流量数据的初始归属名单(例如,黑名单、白名单)已知。因此,如果特征值被判定为白流量数据但是该特征值对应的待处理流量数据的初始归属名单为黑名单,那么此次判定则为一次错误判定;如果特征值被判定为黑流量数据但是该特征值对应的待处理流量数据的初始归属名单为黑名单,那么此次判定则为一次正确判定。
更进一步地,基于上述的正确判定和错误判定并根据权重误差的定义可以获得最小权重误差;其中,权重误差的定义为:
Figure BDA0001810860890000181
n为待处理流量数据的个数,ωi为第i个样本数据的权重值(或初始权重值),error(Xi)是样本Xi的错误判定误差,如果Xi被错误判定,则error(Xi)为1,否则为0。此外,初始权重值为1/n。通过上述方法获得的error为权重误差。进而,可以在确定出的多个阈值中再任意取一个阈值,并且按照上述同样的方法得到权重误差。以此类推,遍历所有确定出的阈值,进而,再任意确定一个目标特征,遍历所有确定出的阈值,直到遍历完所有的特征。这样,针对每个遍历的特征和遍历的阈值的组合均对应一个权重误差,其中,最小的权重误差对应的特征和阈值即为目标阈值和目标特征。
更进一步地,如果Xi在目标阈值和目标特征下被正确判定,则减少ωi,如果Xi在目标阈值和目标特征下被错误判定,则增加ωi。进而,再将增加/减少后的ωi遍历上述所有的特征和阈值的组合,直到获得增加/减少ωi后的最小的权重误差对应的特征和阈值。进而再通过正确/错误判定对ωi减少/增加。执行上述操作,直到ωi的变化次数(增加/减少)达到预设次数阈值(例如,40次),此时获得的ωi为对应的待处理流量数据的权重值。
更进一步地,为了降低进行异常流量数据区分时将黑流量数据区分为白流量数据的概率,可以对
Figure BDA0001810860890000191
中的ωi进行代价补充,即ωi=ωi*(1+λ),其中,λ为代价参数。可见,通过对ωi进行代价补充,提高了对异常流量数据的区分准确率。
更进一步地,确定代价参数λ的方式可以为:计算模块502用若干白用户流量数据样本和黑用户流量数据样本组成的样本集合训练多个分类器。其中,预设的λ取值的集合可以为{0.1,0.2,0.3,0.4……1}。首先可以取集合中任一值作为λ的值,再使得分类器分别根据该λ的值确定每个待处理流量数据的权重值,并基于权重值与参考权重阈值的比较,将超过参考权重阈值的待处理流量数据从所有的待处理流量数据中删除,剩下的即为净化后的白名单流量数据。但是,由于进行异常流量数据的区分的过程中会存在区分错误,即,将白名单流量数据识别为黑名单流量数据,或者将黑名单流量数据识别为白名单流量数据。其中,将黑名单流量数据识别为白名单流量数据会导致严重后果,因此,需要执行以下操作以降低上述严重后果发生的可能性:首先,需要根据区分异常流量数据准确的个数除以流量数据的总数获得准确率;并根据黑名单流量数据中识别错误的数据除以黑名单流量数据的总数以获得召回率;进而得到每个分类器的准确率和召回率;再将各分类器的准确率和召回率分别取平均值;进而得到在λ的值为上述的任一值时的平均召回率和平均准确率;遍历集合中的所有值作为λ的值并计算获得每个λ对应的平均召回率和平均准确率,进而根据平均召回率和平均准确率选取最优的λ值(例如,0.3或0.4)。其中,根据平均召回率和平均准确率选取最优的λ值的方法具体可以为:确定平均准确率和平均召回率的加权平均值,作为λ的值;其中,平均召回率的权值大于平均准确率。另外,根据平均召回率和平均准确率选取最优的λ值的方法还可以为:如果平均召回率和平均准确率均处于目标区间,则将平均召回率和平均准确率进行加权和,得到加权和值,作为λ的值。
更进一步地,如果目标归属名单与待处理流量数据的初始归属名单一致时,减少将待处理流量数据的初始权重值;如果目标归属名单与初始归属名单不一致时,增加将待处理流量数据的初始权重值,可以包括以下步骤:
如果目标归属名单与待处理流量数据的初始归属名单一致时,计算模块502通过
Figure BDA0001810860890000201
更新将待处理流量数据的初始权重值;如果目标归属名单与初始归属名单不一致时,计算模块502通过
Figure BDA0001810860890000202
更新将待处理流量数据的初始权重值。其中,ωi (t+1)表示本次更新之后的初始权重值,sum(ωi (t))为本次更新之前的每次更新后的初始权重值之和,α为依据本次更新的误判定率计算出的中间数,其中,若用ε表示本次更新的误判定率,中间数α的计算公式可以表示为:
Figure BDA0001810860890000203
可见,按照第一预设规则更新初始权重值使得初始权重值越来越小,按照第二预设规则更新初始权重值反而使得初始权重值越来越大。需要说明的是,α≤0(即ε≥0.5)时,说明误判定率过高,丢弃,这样可以保证α>0(即ε<0.5),由于指数函数的特点是一开始的几次更新中按照指数函数上升或下降得慢,后来的更新中上升或下降的快,因此,这使得只有很多次更新中都上升或下降的流量数据权重才能达到一个很高的权重值,减少了由于初始选取特征和阈值不理想等原因造成的阈值上升或下降带来的影响,可见,上述公式有利于判定结果的正确率。
可见,实施图5所描述的基于模型树算法的异常流量分析装置,能够通过对检测到的流量数据中的异常流量数据进行区分,以甄别伪装成白名单用户的黑色产业用户,进而提高白名单用户发出的流量数据的纯净程度。
实施例六
请参阅图6,图6是本发明实施例公开的另一种基于模型树算法的异常流量分析装置的结构示意图。其中,黑白名单由黑名单和白名单组成,黑名单包括至少一个待处理流量数据,白名单包括至少一个待处理流量数据。图6所示的基于模型树算法的异常流量分析装置是由图5所示的基于模型树算法的异常流量分析装置进行优化得到的。与图5所示的基于模型树算法的异常流量分析装置相比较,图6所示的基于模型树算法的异常流量分析装置还可以包括:判断模块504、删除模块505以及第二确定模块506,其中,
判断模块504,用于在第一确定模块503确定待处理流量数据为异常流量数据之后,判断待处理流量数据属于白名单还是属于黑名单。
本发明实施例中,如果待处理流量数据属于白名单,那么则说明待处理流量数据为黑色产业用户伪装成白名单用户所产生的流量。
删除模块505,用于在判断模块504判断出待处理流量数据属于白名单之后,将待处理流量数据从白名单中删除并且将待处理流量数据加入黑名单。
第二确定模块506,用于当权重值不大于参考权重阈值时,确定待处理流量数据为正常流量数据。
判断模块504,还用于在第二确定模块506确定待处理流量数据为正常流量数据之后,判断待处理流量数据属于白名单还是属于黑名单。
本发明实施例中,如果待处理流量数据属于黑名单,那么则说明待处理流量数据为误操作导致将白名单用户区分为黑名单用户所产生的流量。
删除模块505,还用于在判断模块504判断出待处理流量数据属于黑名单之后,将待处理流量数据从黑名单中删除并且将待处理流量数据加入白名单。
可见,实施图6所描述的基于模型树算法的异常流量分析装置能够通过对检测到的流量数据中的异常流量数据进行区分,以甄别伪装成白名单用户的黑色产业用户,进而提高白名单用户发出的流量数据的纯净程度。
实施例七
请参阅图7,图7是本发明实施例公开的又一种基于模型树算法的异常流量分析装置的结构示意图。其中,黑白名单由黑名单和白名单组成,黑名单包括至少一个待处理流量数据,白名单包括至少一个待处理流量数据。图7所示的基于模型树算法的异常流量分析装置是由图6所示的基于模型树算法的异常流量分析装置进行优化得到的。与图6所示的基于模型树算法的异常流量分析装置相比较,图7所示的基于模型树算法的异常流量分析装置还可以包括:第三确定模块508和第四确定模块509,其中,
获取模块501,还用于在第一确定模块503确定待处理流量数据为异常流量数据之前,以所有待处理流量数据为纵轴以及以待处理流量数据对应的权重值为横轴,获得流量数据分布图。
第三确定模块508,用于确定流量数据分布图中每个原始流量数据点的代价值,每个原始流量数据点的代价值用于表示流量数据分布图中每个原始流量数据点与拟合后的流量数据分布图中每个流量数据点的相似程度。
第四确定模块509,用于将所有原始流量数据的代价值中最小的代价值对应的原始流量数据点确定为目标拐点,并将目标拐点的纵坐标确定为参考权重阈值。
作为一种可选的实施方式,第三确定模块508确定流量数据分布图中每个原始流量数据点的代价值的方式具体可以为:
分别将流量数据分布图中每个原始流量数据点确定为拐点,并将拐点左侧的所有点和右侧的所有点拟合为直线,计算流量数据分布图中除拐点之外的每个剩余原始流量数据点纵坐标分别与对应的直线上的每个目标流量数据点纵坐标的纵坐标差值,得到每个剩余原始流量数据点对应的纵坐标差值,并计算每个剩余原始流量数据点对应的纵坐标差值的平方和,得到每个原始流量数据的代价值。
可见,执行该可选的实施方式能够实现对流量数据中包含的异常流量数据的区分,并提高白名单用户发出的流量数据的纯净程度。
可见,实施图7所描述的基于模型树算法的异常流量分析装置能够通过对检测到的流量数据中的异常流量数据进行区分,以甄别伪装成白名单用户的黑色产业用户,进而提高白名单用户发出的流量数据的纯净程度。
本发明还提供一种电子设备,该电子设备包括:
处理器;
存储器,该存储器上存储有计算机可读指令,该计算机可读指令被处理器执行时,实现如前所示的基于模型树算法的异常流量分析方法。
该电子设备可以是图1所示装置100。
在一示例性实施例中,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如前所示的基于模型树算法的异常流量分析方法。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (9)

1.一种基于模型树算法的异常流量分析方法,其特征在于,所述方法包括:
获取黑白名单中待处理流量数据的至少一个特征值;所述黑白名单包括至少一个待处理流量数据;
对所述特征值进行归一化处理,获得归一化特征值;
根据初始权重值,利用迭代算法遍历所有所述归一化特征值,获得所述待处理流量数据对应的权重值;其中,所述权重值用于指示所述待处理流量数据的异常程度,所述的根据初始权重值,利用迭代算法遍历所有所述归一化特征值,获得所述待处理流量数据对应的权重值,包括:确定多个阈值,并根据每个所述阈值对每个所述待处理流量数据中的每个特征值分别进行判定,得到多个判定结果;根据初始权重值以及每个所述判定结果,确定每个所述判定结果对应的权重误差,并确定所有所述权重误差中最小的目标权重误差以及所述目标权重误差对应的目标阈值和目标特征值;以及根据所述目标阈值和所述目标特征,确定所述待处理流量数据的目标归属名单;如果所述目标归属名单与所述待处理流量数据的初始归属名单一致时,减少将所述待处理流量数据的初始权重值;如果所述目标归属名单与所述初始归属名单不一致时,增加将所述待处理流量数据的初始权重值;执行所述的根据初始权重值以及每个所述判定结果,确定每个所述判定结果对应的权重误差,并确定所有所述权重误差中最小的目标权重误差以及所述目标权重误差对应的目标阈值和目标特征值;以及根据所述目标阈值和所述目标特征,确定所述待处理流量数据的目标归属名单;如果所述目标归属名单与所述待处理流量数据的初始归属名单一致时,减少将所述待处理流量数据的初始权重值;如果所述目标归属名单与所述初始归属名单不一致时,增加将所述待处理流量数据的初始权重值,直至所述初始权重值的变化次数达到预设次数阈值;当所述初始权重值的变化次数达到所述预设次数阈值时,根据当前的初始权重值、当前的目标阈值和当前的目标特征值,确定所述待处理流量数据对应的权重值;
当所述权重值大于参考权重阈值时,确定所述待处理流量数据为异常流量数据。
2.根据权利要求1所述的方法,其特征在于,所述黑白名单由黑名单和白名单组成,所述黑名单包括至少一个所述待处理流量数据,所述白名单包括至少一个所述待处理流量数据;
所述的确定所述待处理流量数据为异常流量数据之后,所述方法还包括:
判断所述待处理流量数据属于所述白名单还是属于所述黑名单;
如果所述待处理流量数据属于所述白名单,则将所述待处理流量数据从所述白名单中删除并且将所述待处理流量数据加入所述黑名单;
所述方法还包括:
当所述权重值不大于所述参考权重阈值时,确定所述待处理流量数据为正常流量数据;
判断所述待处理流量数据属于所述白名单还是属于所述黑名单;
如果所述待处理流量数据属于所述黑名单,则将所述待处理流量数据从所述黑名单中删除并且将所述待处理流量数据加入所述白名单。
3.根据权利要求1或2所述的方法,其特征在于,所述的当所述权重值大于参考权重阈值时,确定所述待处理流量数据为异常流量数据之前,所述方法还包括:
以所有所述待处理流量数据为纵轴以及以所述待处理流量数据对应的权重值为横轴,获得流量数据分布图;
确定所述流量数据分布图中每个原始流量数据点的代价值,每个所述原始流量数据点的代价值用于表示所述流量数据分布图中每个原始流量数据点与拟合后的所述流量数据分布图中每个流量数据点的相似程度;
将所有所述原始流量数据的代价值中最小的代价值对应的原始流量数据点确定为目标拐点,并将所述目标拐点的纵坐标确定为参考权重阈值。
4.根据权利要求3所述的方法,其特征在于,所述的确定所述流量数据分布图中每个原始流量数据点的代价值,包括:
分别将所述流量数据分布图中每个原始流量数据点确定为拐点,并将所述拐点左侧的所有点和右侧的所有点拟合为直线,计算所述流量数据分布图中除所述拐点之外的每个剩余原始流量数据点纵坐标分别与对应的所述直线上的每个目标流量数据点纵坐标的纵坐标差值,得到每个所述剩余原始流量数据点对应的纵坐标差值,并计算每个所述剩余原始流量数据点对应的纵坐标差值的平方和,得到每个所述原始流量数据的代价值。
5.根据权利要求1所述的方法,其特征在于,所述的根据每个所述阈值对每个所述待处理流量数据中的每个特征值分别进行判定,得到多个判定结果,包括:
根据多个所述阈值中的任一阈值对所述待处理流量数据中的任一特征值进行判定,得到判定结果;
如果所述任一阈值大于所述任一特征值且所述任一待处理流量数据的初始归属名单为所述白名单,则将所述判定结果确定为正确判定;如果所述任一阈值小于所述任一特征值且所述任一待处理流量数据的所述初始归属名单为所述白名单,则将所述判定结果确定为错误判定;如果所述任一阈值大于所述任一特征值且所述任一待处理流量数据的所述初始属性为所述黑名单,则将所述判定结果确定为错误判定;如果所述任一阈值小于所述任一特征值且所述任一待处理流量数据的所述初始属性为所述黑名单,则将所述判定结果确定为正确判定。
6.根据权利要求1所述的方法,其特征在于,所述的确定多个阈值,包括:
在预设数值范围内确定初始数值,并计算预设步长的正整数倍与所述初始数值的和,得到多个目标数值;
将所述初始数值以及所有所述目标数值确定为多个阈值,其中,任一所述目标数值均处于所述预设数值范围内。
7.一种基于模型树算法的异常流量分析装置,其特征在于,所述装置包括:
获取模块,用于获取黑白名单中待处理流量数据的至少一个特征值;所述黑白名单包括至少一个待处理流量数据;
计算模块,用于对所述特征值进行归一化处理,获得归一化特征值;
所述计算模块,还用于根据初始权重值,利用迭代算法遍历所有所述归一化特征值,获得所述待处理流量数据对应的权重值;其中,所述权重值用于指示所述待处理流量数据的异常程度,所述的根据初始权重值,利用迭代算法遍历所有所述归一化特征值,获得所述待处理流量数据对应的权重值,包括:确定多个阈值,并根据每个所述阈值对每个所述待处理流量数据中的每个特征值分别进行判定,得到多个判定结果;根据初始权重值以及每个所述判定结果,确定每个所述判定结果对应的权重误差,并确定所有所述权重误差中最小的目标权重误差以及所述目标权重误差对应的目标阈值和目标特征值;以及根据所述目标阈值和所述目标特征,确定所述待处理流量数据的目标归属名单;如果所述目标归属名单与所述待处理流量数据的初始归属名单一致时,减少将所述待处理流量数据的初始权重值;如果所述目标归属名单与所述初始归属名单不一致时,增加将所述待处理流量数据的初始权重值;执行所述的根据初始权重值以及每个所述判定结果,确定每个所述判定结果对应的权重误差,并确定所有所述权重误差中最小的目标权重误差以及所述目标权重误差对应的目标阈值和目标特征值;以及根据所述目标阈值和所述目标特征,确定所述待处理流量数据的目标归属名单;如果所述目标归属名单与所述待处理流量数据的初始归属名单一致时,减少将所述待处理流量数据的初始权重值;如果所述目标归属名单与所述初始归属名单不一致时,增加将所述待处理流量数据的初始权重值,直至所述初始权重值的变化次数达到预设次数阈值;当所述初始权重值的变化次数达到所述预设次数阈值时,根据当前的初始权重值、当前的目标阈值和当前的目标特征值,确定所述待处理流量数据对应的权重值;
第一确定模块,用于当所述权重值大于参考权重阈值时,确定所述待处理流量数据为异常流量数据。
8.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,其存储计算机程序,所述计算机程序使得计算机执行权利要求1~6任一项所述的基于模型树算法的异常流量分析方法。
CN201811120226.XA 2018-09-25 2018-09-25 基于模型树算法的异常流量分析方法及装置、电子设备 Active CN109257354B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811120226.XA CN109257354B (zh) 2018-09-25 2018-09-25 基于模型树算法的异常流量分析方法及装置、电子设备
PCT/CN2019/079034 WO2020062803A1 (zh) 2018-09-25 2019-03-21 基于模型树算法的异常流量分析方法、装置、电子设备及非易失性可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811120226.XA CN109257354B (zh) 2018-09-25 2018-09-25 基于模型树算法的异常流量分析方法及装置、电子设备

Publications (2)

Publication Number Publication Date
CN109257354A CN109257354A (zh) 2019-01-22
CN109257354B true CN109257354B (zh) 2021-11-12

Family

ID=65048085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811120226.XA Active CN109257354B (zh) 2018-09-25 2018-09-25 基于模型树算法的异常流量分析方法及装置、电子设备

Country Status (2)

Country Link
CN (1) CN109257354B (zh)
WO (1) WO2020062803A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109257354B (zh) * 2018-09-25 2021-11-12 平安科技(深圳)有限公司 基于模型树算法的异常流量分析方法及装置、电子设备
CN113220741B (zh) * 2021-04-29 2024-04-05 北京华艺世嘉网络有限公司 互联网广告虚假流量识别方法、系统、设备及存储介质
CN113837318A (zh) * 2021-10-20 2021-12-24 北京明略软件系统有限公司 流量判定方案的确定方法和装置、电子设备和存储介质
CN115795482B (zh) * 2023-01-06 2023-05-05 杭州中电安科现代科技有限公司 一种工控设备安全的管理方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106713324A (zh) * 2016-12-28 2017-05-24 北京奇艺世纪科技有限公司 一种流量检测方法及装置
WO2017167097A1 (zh) * 2016-03-31 2017-10-05 阿里巴巴集团控股有限公司 一种基于随机森林的模型训练方法和装置
CN108243271A (zh) * 2016-12-23 2018-07-03 北京安云世纪科技有限公司 一种进行流量控制的方法、装置以及移动设备
CN108269012A (zh) * 2018-01-12 2018-07-10 中国平安人寿保险股份有限公司 风险评分模型的构建方法、装置、存储介质及终端
CN108287996A (zh) * 2018-01-08 2018-07-17 北京工业大学 一种恶意代码混淆特征清洗方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120090027A1 (en) * 2010-10-12 2012-04-12 Electronics And Telecommunications Research Institute Apparatus and method for detecting abnormal host based on session monitoring
CN103117903B (zh) * 2013-02-07 2016-01-06 中国联合网络通信集团有限公司 上网流量异常检测方法及装置
CN109257354B (zh) * 2018-09-25 2021-11-12 平安科技(深圳)有限公司 基于模型树算法的异常流量分析方法及装置、电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017167097A1 (zh) * 2016-03-31 2017-10-05 阿里巴巴集团控股有限公司 一种基于随机森林的模型训练方法和装置
CN108243271A (zh) * 2016-12-23 2018-07-03 北京安云世纪科技有限公司 一种进行流量控制的方法、装置以及移动设备
CN106713324A (zh) * 2016-12-28 2017-05-24 北京奇艺世纪科技有限公司 一种流量检测方法及装置
CN108287996A (zh) * 2018-01-08 2018-07-17 北京工业大学 一种恶意代码混淆特征清洗方法
CN108269012A (zh) * 2018-01-12 2018-07-10 中国平安人寿保险股份有限公司 风险评分模型的构建方法、装置、存储介质及终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"R-Tree Node-Splitting Algorithm Using Combined Quality Factors and Weights";Esam Al-Nsour、Azzam Sleit、Mohammad Alshraideh;《2017 International Conference on Computational Science and Computational Intelligence (CSCI)》;20171216;全文 *
"基于DNS流量和威胁情报的APT检测";李骏韬、施勇、薛质;《信息安全与通信保密》;20160710;第84-88页 *

Also Published As

Publication number Publication date
WO2020062803A1 (zh) 2020-04-02
CN109257354A (zh) 2019-01-22

Similar Documents

Publication Publication Date Title
CN109257354B (zh) 基于模型树算法的异常流量分析方法及装置、电子设备
US10728761B2 (en) Method, device, and system of detecting a lie of a user who inputs data
AU2018212470B2 (en) Continuous learning for intrusion detection
EP2960823B1 (en) Method, device and system for managing authority
US20200167792A1 (en) Method, apparatus and electronic device for identifying risks pertaining to transactions to be processed
CN110069401B (zh) 基于数据建模的系统测试异常定位方法及系统
CN110717509B (zh) 基于树分裂算法的数据样本分析方法及装置
CN108256555A (zh) 图像内容识别方法、装置及终端
CN111428032B (zh) 内容质量评价方法及装置、电子设备、存储介质
CN110460583B (zh) 一种敏感信息记录方法及装置、电子设备
US11915311B2 (en) User score model training and calculation
CN110162939B (zh) 人机识别方法、设备和介质
CN110059548B (zh) 目标检测方法及装置
CN112884040B (zh) 训练样本数据的优化方法、系统、存储介质及电子设备
CN113554049A (zh) 异网宽带用户识别的方法、装置、设备及存储介质
US20240086736A1 (en) Fault detection and mitigation for aggregate models using artificial intelligence
WO2022160675A1 (zh) 根因确定方法及装置
CN109525548B (zh) 一种基于代价函数的白名单更新方法、装置及电子设备
CN109413063B (zh) 一种基于大数据的白名单更新方法、装置及电子设备
CN113468541B (zh) 识别方法、装置、电子设备和存储介质
CN110288272B (zh) 数据处理方法、装置、电子设备及存储介质
WO2020202327A1 (ja) 学習システム、学習方法、及びプログラム
CN115225702B (zh) 信息推送方法、装置、电子设备及存储介质
CN111291272A (zh) 文件识别方法和装置以及电子设备
CN110765303A (zh) 一种更新数据库的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant