CN116668138A - 一种异常检测方法、装置及存储介质 - Google Patents
一种异常检测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN116668138A CN116668138A CN202310672219.5A CN202310672219A CN116668138A CN 116668138 A CN116668138 A CN 116668138A CN 202310672219 A CN202310672219 A CN 202310672219A CN 116668138 A CN116668138 A CN 116668138A
- Authority
- CN
- China
- Prior art keywords
- terminal
- detected
- internet
- data
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 115
- 230000005856 abnormality Effects 0.000 title claims description 85
- 230000002159 abnormal effect Effects 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 11
- 206010000117 Abnormal behaviour Diseases 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 abstract description 31
- 230000006870 function Effects 0.000 description 24
- 230000008901 benefit Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请提供一种异常检测方法、装置及存储介质,涉及通信技术领域,用于解决如何准确识别恶意使用动态IP的终端的问题。该方法包括:获取待检测终端的上网特征数据。其中,上网特征数据包括:目标动态IP集合,以及与目标动态IP集合中,每个动态IP对应的目标流量数据。然后,将待检测终端的上网特征数据输入组合模型中,得到待检测终端的异常概率值。其中,组合模型可以包括根据多个样本终端的上网特征数据预先训练好的多个预测模型。当异常概率值大于异常阈值时,确定待检测终端为异常终端。
Description
技术领域
本申请涉及通信技术领域,尤其涉及一种异常检测方法、装置及存储介质。
背景技术
动态互联网协议(internet protocol,IP)是用户在每次上网时,服务端为终端分配的一个临时IP。由于动态分配的IP无需用户付费,因此与静态IP相比,动态IP的使用成本更低。同时,动态IP还具有灵活性高、难追踪的特点。
然而,一些用户恶意利用动态IP的特点,进行秒级切换IP服务,即“秒拨”,为各类网络违法犯罪活动提供虚假身份隐蔽上网、规避调查等技术支持。因此,如何准确识别恶意使用动态IP的终端,是目前亟需解决的问题。
发明内容
本申请提供一种异常检测方法、装置及存储介质,用于解决如何准确识别恶意使用动态IP的终端的问题。
为达到上述目的,本申请采用如下技术方案:
第一方面,提供一种异常检测方法,该方法包括:获取待检测终端的上网特征数据。其中,上网特征数据包括:目标动态IP集合,以及与目标动态IP集合中,每个动态IP对应的目标流量数据。然后,将待检测终端的上网特征数据输入组合模型中,得到待检测终端的异常概率值。其中,组合模型可以包括根据多个样本终端的上网特征数据预先训练好的多个预测模型。当异常概率值大于异常阈值时,确定待检测终端为异常终端。
可选的,将待检测终端的上网特征数据输入组合模型中,得到待检测终端的异常行为的异常概率值的方法,包括:将待检测终端的上网特征数据输入第一预测模型,得到待检测终端异常上网的第一概率值;将待检测终端的上网特征数据输入第二预测模型,得到待检测终端正常上网的第二概率值;根据第一概率值和第二概率值,确定异常概率值。
可选的,该异常检测方法,还包括:获取多个样本终端的原始日志数据;原始日志数据包括:原始动态IP集合和原始流量数据;对原始日志数据执行数据处理,得到多个样本终端的上网特征数据;数据处理包括:缺失值的填充和数据转换中的至少一种;根据多个样本终端的上网特征数据分别训练多个预测模型的初始模型,得到组合模型。
可选的,当数据处理包括缺失值的填充时,对原始日志数据执行数据处理,得到多个样本终端的上网特征数据的方法,包括:当缺失值为动态IP时,在缺失值中,填充除原始动态IP集合以外的任意动态IP;当缺失值为流量数据时,在缺失值中,填充原始流量数据的平均值。
可选的,当数据处理包括数据转换时,对原始日志数据执行数据处理,得到多个样本终端的上网特征数据的方法,包括:针对原始动态IP集合,执行独热编码;针对原始流量数据,执行进行无量纲化处理。
可选的,该异常检测方法,还包括:针对待检测终端为异常终端,执行预设的安全上网策略;安全上网策略包括:更新待检测终端的上网权限、发送告警消息、记录待检测终端的异常行为中的至少一种。
第二方面,提供一种异常检测装置,包括:获取单元、模型应用单元和确定单元;获取单元,用于获取待检测终端的上网特征数据;上网特征数据包括:目标动态IP集合,以及与目标动态IP集合中,每个动态IP对应的目标流量数据;模型应用单元,用于将待检测终端的上网特征数据输入组合模型中,得到待检测终端的异常概率值;组合模型包括根据多个样本终端的上网特征数据,预先训练好的多个预测模型;确定单元,用于当异常概率值大于异常阈值时,确定待检测终端为异常终端。
可选的,模型应用单元,具体用于:将待检测终端的上网特征数据输入第一预测模型,得到待检测终端异常上网的第一概率值;将待检测终端的上网特征数据输入第二预测模型,得到待检测终端正常上网的第二概率值;根据第一概率值和第二概率值,确定异常概率值。
可选的,该异常检测装置,还包括:模型训练单元;获取单元,还用于获取多个样本终端的原始日志数据;原始日志数据包括:原始动态IP集合和原始流量数据;获取单元,还用于对原始日志数据执行数据处理,得到多个样本终端的上网特征数据;数据处理包括:缺失值的填充和数据转换中的至少一种;模型训练单元,用于根据多个样本终端的上网特征数据分别训练多个预测模型的初始模型,得到组合模型。
可选的,获取单元,具体用于:当缺失值为动态IP时,在缺失值中,填充除原始动态IP集合以外的任意动态IP;当缺失值为流量数据时,在缺失值中,填充原始流量数据的平均值。
可选的,获取单元,具体用于:针对原始动态IP集合,执行独热编码;针对原始流量数据,执行进行无量纲化处理。
可选的,该异常检测装置,还包括:处理单元;处理单元,用于针对待检测终端为异常终端,执行预设的安全上网策略;安全上网策略包括:更新待检测终端的上网权限、发送告警消息、记录待检测终端的异常行为中的至少一种。
第三方面,提供一种异常检测装置,包括存储器和处理器;存储器用于存储计算机执行指令,处理器与存储器通过总线连接;当异常检测装置运行时,处理器执行存储器存储的计算机执行指令,以使异常检测装置执行第一方面所述的异常检测方法。
该异常检测装置可以是网络设备,也可以是网络设备中的一部分装置,例如网络设备中的芯片系统。该芯片系统用于支持网络设备实现第一方面及其任意一种可能的实现方式中所涉及的功能,例如,获取、确定、发送上述异常检测方法中所涉及的数据和/或信息。该芯片系统包括芯片,也可以包括其他分立器件或电路结构。
第四方面,提供一种计算机可读存储介质,计算机可读存储介质包括计算机执行指令,当计算机执行指令在计算机上运行时,使得该计算机执行第一方面所述的异常检测方法。
第五方面,还提供一种计算机程序产品,该计算机程序产品包括计算机指令,当计算机指令在异常检测装置上运行时,使得异常检测装置执行如上述第一方面所述的异常检测方法。
需要说明的是,上述计算机指令可以全部或者部分存储在第一计算机可读存储介质上。其中,第一计算机可读存储介质可以与异常检测装置的处理器封装在一起的,也可以与异常检测装置的处理器单独封装,本申请实施例对此不作限定。
本申请中第二方面、第三方面、第四方面以及第五方面的描述,可以参考第一方面的详细描述;并且,第二方面、第三方面、第四方面以及第五方面的有益效果,可以参考第一方面的有益效果分析,此处不再赘述。
在本申请实施例中,上述异常检测装置的名字对设备或功能模块本身不构成限定,在实际实现中,这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本申请类似,属于本申请权利要求及其等同技术的范围之内。
本申请的这些方面或其他方面在以下的描述中会更加简明易懂。
本申请提供的技术方案至少带来以下有益效果:
基于上述任一方面,本申请提供了一种异常检测方法,可以获取待检测终端的上网特征数据。其中,上网特征数据包括:目标动态IP集合,以及与目标动态IP集合中,每个动态IP对应的目标流量数据。然后,可以将待检测终端的上网特征数据输入组合模型中,得到待检测终端的异常概率值。当异常概率值大于异常阈值时,可以确定待检测终端为异常终端。
本申请中的组合模型可以包括根据多个样本终端的上网特征数据预先训练好的多个预测模型。由于不同的预测模型可能存在预测误差,组合模型可以通过结合多个预测模型的预测结果,减少预测误差。此外,因为不同的预测模型可能对数据的不同方面有不同的预测能力,组合模型可以综合利用多个预测模型的优点,提高预测稳定性。
附图说明
图1为本申请实施例提供的一种异常检测系统的结构示意图;
图2为本申请实施例提供的一种通信装置的硬件结构示意图;
图3为本申请实施例提供的又一种通信装置的硬件结构示意图;
图4为本申请实施例提供的一种异常检测方法的流程示意图一;
图5为本申请实施例提供的一种异常检测方法的流程示意图二;
图6为本申请实施例提供的一种预测模型的结构示意图;
图7为本申请实施例提供的一种异常检测方法的流程示意图三;
图8为本申请实施例提供的一种异常检测方法的流程示意图四;
图9为本申请实施例提供的一种异常检测装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
为了便于清楚描述本申请实施例的技术方案,在本申请实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。
如背景技术所示,一些用户恶意利用动态IP的特点,进行秒级切换IP服务,即“秒拨”,为各类网络违法犯罪活动提供虚假身份隐蔽上网、规避调查等技术支持。因此,如何准确识别恶意使用动态IP的终端,是目前亟需解决的问题。
本申请实施例提供了一种异常检测方法,可以获取待检测终端的上网特征数据。其中,上网特征数据包括:目标动态IP集合,以及与目标动态IP集合中,每个动态IP对应的目标流量数据。然后,可以将待检测终端的上网特征数据输入组合模型中,得到待检测终端的异常概率值。当异常概率值大于异常阈值时,可以确定待检测终端为异常终端。
本申请中的组合模型可以包括根据多个样本终端的上网特征数据预先训练好的多个预测模型。由于不同的预测模型可能存在预测误差,组合模型可以通过结合多个预测模型的预测结果,减少预测误差。此外,因为不同的预测模型可能对数据的不同方面有不同的预测能力,组合模型可以综合利用多个预测模型的优点,提高预测稳定性。
该异常检测方法适用于异常检测系统。如图1所示,该异常检测系统包括:异常检测设备11和终端12。
其中,异常检测设备11与终端12之间连接。
可选的,异常检测设备11可以分别与网络中的多个终端进行连接,为了便于理解,图1以“异常检测设备11与一个终端12之间连接”为例进行说明。
图1中,异常检测设备11可以通过获取网络中的任意一个终端12的上网特征数据,对终端12使用动态IP的上网行为进行检测,判断终端12的上网行为是否异常。
在一种实施例中,终端12可以用于存储终端12上网的原始日志数据。
在另一种实施例中,异常检测系统还可以包括网络中的管理设备。其中,管理设备可以用于存储终端12上网的原始日志数据。
在此情况下,异常检测设备11与管理设备可以是同一个实体设备,也可以是两个相互独立设置的实体设备。
容易理解的是,当异常检测设备11与管理设备是同一个实体设备时,异常检测设备11与管理设备之间的交互方式为实体设备内部模块之间的交互。这种情况下,二者之间的交互流程与“异常检测设备11与管理设备是两个相互独立设置的实体设备的情况下,二者之间的交互流程”相同。
当异常检测设备11与管理设备是两个相互独立设置的实体设备时,异常检测设备11可以直接与终端12连接,也可以通过管理设备与终端12连接。
为了便于理解,图1以“异常检测设备11与管理设备是同一个实体设备”为例进行说明。
在一种实施例中,异常检测设备11可以是服务器集群(由多个服务器组成)中的一个服务器,也可以是该服务器中的芯片,还可以是该服务器中的片上系统,还可以通过部署在物理机上的虚拟机实现,本申请实施例对此不作限定。
在一种实施例中,终端12是用于实现用户上网的终端设备,可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品。例如,手机、个人计算机(personal computer,PC)、台式计算机、平板电脑、笔记本电脑、上网本、个人数字助理(personal digital assistant,PDA)等智能设备,本申请实施例对此不作限定。
结合图1,异常检测设备11和终端12均包括图2或图3所示通信装置所包括的元件。下面以图2和图3所示的通信装置为例,介绍异常检测设备11和终端12的硬件结构。
如图2所示,为本申请实施例提供的通信装置的一种硬件结构示意图。该通信装置包括处理器21,存储器22、通信接口23、总线24。处理器21,存储器22以及通信接口23之间可以通过总线24连接。
处理器21是通信装置的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器21可以是一个通用中央处理单元(central processing unit,CPU),也可以是其他通用处理器等。其中,通用处理器可以是微处理器或者是任何常规的处理器等。
作为一种实施例,处理器21可以包括一个或多个CPU,例如图2中所示的CPU 0和CPU 1。
存储器22可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
一种可能的实现方式中,存储器22可以独立于处理器21存在,存储器22可以通过总线24与处理器21相连接,用于存储指令或者程序代码。处理器21调用并执行存储器22中存储的指令或程序代码时,能够实现本发明下述实施例提供的异常检测方法。
另一种可能的实现方式中,存储器22也可以和处理器21集成在一起。
通信接口23,用于通信装置与其他设备通过通信网络连接,所述通信网络可以是以太网,无线接入网,无线局域网(wireless local area networks,WLAN)等。通信接口23可以包括用于接收数据的接收单元,以及用于发送数据的发送单元。
总线24,可以是工业标准体系结构(industry standard architecture,ISA)总线、外部设备互连(peripheral component interconnect,PCI)总线或扩展工业标准体系结构(extended industry standard architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
图3示出了本发明实施例中通信装置的另一种硬件结构。如图3所示,通信装置可以包括处理器31以及通信接口32。处理器31与通信接口32耦合。
处理器31的功能可以参考上述处理器21的描述。此外,处理器31还具备存储功能,可以起上述存储器22的功能。
通信接口32用于为处理器31提供数据。该通信接口32可以是通信装置的内部接口,也可以是通信装置对外的接口(相当于通信接口23)。
需要指出的是,图2(或图3)中示出的结构并不构成对通信装置的限定,除图2(或图3)所示部件之外,该通信装置可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合附图对本申请实施例提供的异常检测方法进行详细介绍。
结合图1,如图4所示,本申请实施例提供的异常检测方法可以应用于异常检测设备11。该异常检测方法包括:
S401、异常检测设备获取待检测终端的上网特征数据。
上网特征数据可以包括:目标动态IP集合,以及与目标动态IP集合中,每个动态IP对应的目标流量数据。
可选的,上网特征数据还可以包括:待检测终端的用户标识、数据采集的记录时间。
可选的,用户标识可以为用户注册的用户名、用户账号等可以唯一标识用户的标识信息。
可选的,目标流量数据可以包括:互联网通信协议第四版(internet protocolversion 4,IPv4)上行流量、IPv4下行流量、互联网通信协议第六版(internet protocolversion 6,IPv6)上行流量、IPv6下行流量等。
在一种可以实现的方式中,异常检测设备获取待检测终端的上网特征数据的方法可以包括:异常检测设备可以获取待检测终端的上网日志文件,并从上网日志文件中读取待检测终端的目标流量数据。
在一种可以实现的方式中,异常检测设备可以直接向待检测终端请求获取上网日志文件。待检测终端响应与上述请求,向异常检测设备上报上网日志文件。
在另一种可以实现的方式中,异常检测设备可以向管理设备请求获取待检测终端的上网日志文件。管理设备从预先存储的多个终端的上网日志文件中,查找并向异常检测设备发送待检测终端的上网日志文件。
在一种可以实现的方式中,异常检测设备还可以对待检测终端的上网特征数据执行数据处理操作。
S402、异常检测设备将待检测终端的上网特征数据输入组合模型中,得到待检测终端的异常概率值。
组合模型包括根据多个样本终端的上网特征数据,预先训练好的多个预测模型。
可选的,组合模型中可以包括:模型算法相同的多个预测模型,或者模型算法不同的多个预测模型。
又一可选的,多个预测模型的预测结果可以基于同一个预测指标,也可以基于不同的预测指标。其中,预测指标例如:终端正常上网的概率,或者终端异常上网的概率。
其中,为了有效减少预测误差,提高预测稳定性,组合模型可以为模型算法不同、且预测指标不同的多个预测模型。
S403、当异常概率值大于异常阈值时,异常检测设备确定待检测终端为异常终端。
上述实施例提供的技术方案至少带来以下有益效果:由S401-S403可知,可以获取待检测终端的上网特征数据。其中,上网特征数据包括:目标动态IP集合,以及与目标动态IP集合中,每个动态IP对应的目标流量数据。然后,可以将待检测终端的上网特征数据输入组合模型中,得到待检测终端的异常概率值。当异常概率值大于异常阈值时,可以确定待检测终端为异常终端。
本申请中的组合模型可以包括预先训练好的多个预测模型,且多个预测模型是根据多个样本终端的上网特征数据训练得到的。由于不同的预测模型可能存在预测误差,组合模型可以通过结合多个预测模型的预测结果,减少预测误差。此外,因为不同的预测模型可能对数据的不同方面有不同的预测能力,组合模型可以综合利用多个预测模型的优点,提高预测稳定性。
在一种实施例中,为了有效减少预测误差,提高预测稳定性,本申请还提供了一种组合模型的预测方法。如图5所示,S402中,异常检测设备将待检测终端的上网特征数据输入组合模型中,得到待检测终端的异常概率值的方法,具体包括:
S501、异常检测设备将待检测终端的上网特征数据输入第一预测模型,得到待检测终端异常上网的第一概率值。
S502、异常检测设备将待检测终端的上网特征数据输入第二预测模型,得到待检测终端正常上网的第二概率值。
S503、异常检测设备根据第一概率值和第二概率值,确定异常概率值。
可选的,概率值可以是由数值或者分值等任意形式表示的取值,本申请对此不做限定。
具体的,依据用户获取动态IP的方式可将用户上网情景分为两种。
第一种是用户多次建立网络连接获取动态IP,每次使用完后断开连接返还动态IP,由于动态IP的资源池分配规则,用户每次获取到不同的动态IP,将这种场景命名为共性场景,即终端正常上网的普遍场景。
第二种是借助非法工具多次获取动态IP并保留,在同一用户同一时间段内同时占有多个动态IP,将这种场景命名为特性场景,即少数终端异常上网的个性场景。
需要说明的是,这两种情景可能同时出现,即同一用户同时占有多个动态IP进行使用,在每个动态IP的分别使用过程中通过返还该动态IP获取新的动态IP分配。
针对以上情况,可以分别将待检测终端的上网特征数据输入用于预测终端异常上网的概率的第一预测模型,和用于预测终端正常上网的概率的第二预测模型。然后,可以通过将两种模型的预测结果进行综合,得出最终的检测结果。
在一种可以实现的方式中,由于个性场景相对于共性场景,同一用户在同一时间段内可以同时占有多个动态IP,对无法限定同一用户上网行为的时间顺序。因此,针对个性场景,可以使用无法捕获输入数据的顺序信息的,基于多层感知机(multi layerperceptron,MLP)的代理(Agent)模型作为第一预测模型。相对应的,针对共性场景可以使用能够捕获顺序信息的循环神经网络(recurrent neural network,RNN)模型作为第二预测模型。
在一种可以实现的方式中,Agent模型和RNN模型均可以通过归一化指数函数(softmax函数)确定概率值。
具体的,概率值为区间[0,D]中的任意一个整数d。d通过从多项式分布πD{d|h}中采样获得。如图6所示,多项式如下所示:
P=softmax(MLP(h))
其中,当d=i时,[d=i]为1,否则为0。MLP表示2层感知机,通过对输入的待检测终端的上网特征数据h计算得到维度为D的向量。softmax函数生成概率分布P,Pi是P中第i个元素。
在此情况下,第一预测模型可以输出第一概率值d1,第二预测模型可以输出第二概率值d2。
然后,异常检测设备根据第一概率值d1和第二概率值d2,确定异常概率值d。其中,d=d1-d2,d的取值范围为[0,2D],值越大,表示个性场景存在的可能性越高,共性场景存在的可能性越低,终端异常上网的概率越大。
上述实施例提供的技术方案至少带来以下有益效果:由S501-S503可知,异常检测设备可以分别将待检测终端的上网特征数据输入第一预测模型和第二预测模型,得到待检测终端正常上网的第一概率值和异常上网的第二概率值,然后根据第一概率值和第二概率值,确定异常概率值。本申请中的组合模型可以基于不同的预测指标,确定预测结果,可以进一步减少预测误差,提高预测稳定性。
在一种实施例中,为了训练得到组合模型,本申请还提供了一种组合模型的训练方法。如图7所示,该异常检测方法,还包括:
S701、异常检测设备获取多个样本终端的原始日志数据。
原始日志数据包括:原始动态IP集合和原始流量数据。
在一种可以实现的方式中,异常检测设备获取多个样本终端的原始日志数据的方法可以包括:异常检测设备可以获取网络中预设时间内(例如每日)全量终端的上网日志文件。其中,上网日志文件可以包括认证成功、认证失败、计费开始、计费中间、计费结束的数据包。然后,异常检测设备可以采用文本格式化命令读取上网日志文件,通过正则表达式将计费开始、计费中间和计费结束的数据包过滤取出,并提取用户标识、记录时间、动态IP、IPv4上行流量、IPv4下行流量、IPv6上行流量、IPv6下行流量的字段,作为原始日志数据。
在一种可以实现的方式中,一个用户可以发生多个上网行为,异常检测设备可以将原始日志数据按照用户标识进行划分,并按照记录时间的先后进行排序。
示例性的,异常检测设备可以按照表1存储用户标识为“053100000001”在2022年9月20日全天的上网行为对应的原始日志数据。
表1原始日志数据
S702、异常检测设备对原始日志数据执行数据处理,得到多个样本终端的上网特征数据。
可选的,数据处理包括:缺失值的填充和数据转换中的至少一种。
在一种可以实现的方式中,当数据处理包括:缺失值的填充时,S602具体包括:
S1、当缺失值为动态IP时,异常检测设备在缺失值中,填充除原始动态IP集合以外的任意动态IP。
示例性的,预设用户标识为“053100000001”的终端的原始日志数据中,存在IPv4流量、但对应的动态IP缺失。异常检测设备可以随机生成一个不同于原始日志数据中“053100000001”已知的所有动态IP(即原始动态IP集合)的IPv4地址作为动态IP填入。
S2、当缺失值为流量数据时,异常检测设备在缺失值中,填充原始流量数据的平均值。
具体的,对于流量数据采用统计插值法补齐,即对同一终端对应的原始流量数据的平均值。
示例性的,预设用户标识为“053100000001”的终端的原始日志数据中,存在IPv4上行流量的缺失。异常检测设备可以将“053100000001”已知的所有IPv4上行流量计算平均值填入对应缺失处。
由S1-S2可知,由于缺失值会对数据的准确性和完整性造成影响,并且在进行模型训练时会导致模型精度降低或计算错误。因此,本申请提供了一种处理缺失值的方法,可以有效保证数据的质量和可靠性,进而提高模型预测的准确。
在一种可以实现的方式中,当数据处理包括:数据转换时,S602具体包括:
S3、针对原始动态IP集合,异常检测设备执行独热编码。
在实际应用中,动态IP的取值是无序且离散的,不同动态IP之间没有数量上的关联。
独热编码可以将每个无序变量扩展到一组新特征上,使得每个新特征都代表原特征的一个无序变量的取值。
因此,经过独热编码后,每个样本数据的特征向量长度增加,可以在一定程度上起到拓展特征的作用。此外,还可以解决模型不好处理非数值型数据的问题,可以有效提高模型精度。
S4、针对原始流量数据,异常检测设备执行进行无量纲化处理。
无量纲化的目的就是简化方程,加强数据之间的可对比性。
在一种可以实现的方式中,异常检测设备可以对原始流量数据应用区间缩放法将其无量纲化处理,将流量数据缩放到区间[0,1]。
区间缩放法的公式如下:
其中,x为原始流量数据,Min为原始流量数据中的最小值,Max为原始流量数据中的最大值,x’为无量纲化处理后的数据。
由S3-S4可知,本申请可以对非数值型数据进行数字化和对数值型数据进行无量纲化处理,便于后续模型对输入的数据进行分析学习,进而提高模型预测的准确。
S703、异常检测设备根据多个样本终端的上网特征数据分别训练多个预测模型的初始模型,得到组合模型。
上述实施例提供的技术方案至少带来以下有益效果:由S701-S703可知,异常检测设备获取到多个样本终端的原始日志数据之后,可以对原始日志数据执行数据处理,得到多个样本终端的上网特征数据,然后根据多个样本终端的上网特征数据分别训练多个预测模型的初始模型,得到组合模型。本申请提供了一种训练组合模型的方法,以实现通过训练好的组合模型准确识别终端。
在一种实施例中,结合图4,如图8所示,S403之后,该异常检测方法,还包括:
S801、针对待检测终端为异常终端,异常检测设备执行预设的安全上网策略。
可选的,安全上网策略包括:更新待检测终端的上网权限、发送告警消息、记录待检测终端的异常行为中的至少一种。
在一种可以实现的方式中,设定异常阈值r,当异常概率值d>r时,在网络的宽带认证系统中为其上锁,限制异常终端的上网权限,使其无法再次发起认证,直至收到计费结束包。
此外,异常检测设备可以向异常终端发送告警消息,通过网页弹窗警告用户。
异常检测设备还可以记录异常终端的异常行为发送网络相关负责人。
上述实施例提供的技术方案至少带来以下有益效果:由S801可知,针对待检测终端为异常终端,异常检测设备可以执行预设的安全上网策略。本申请可以促进安全网络环境的创建,有效减少异常上网行为的产生。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对异常检测装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。可选的,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
如图9所示,为本申请实施例提供的一种异常检测装置的结构示意图。该异常检测装置可以用于执行上述所示的异常检测的方法。图9所示异常检测装置包括:获取单元01、模型应用单元02和确定单元03。
获取单元01,用于获取待检测终端的上网特征数据;上网特征数据包括:目标动态IP集合,以及与目标动态IP集合中,每个动态IP对应的目标流量数据。
模型应用单元02,用于将待检测终端的上网特征数据输入组合模型中,得到待检测终端的异常概率值;组合模型包括根据多个样本终端的上网特征数据,预先训练好的多个预测模型。
确定单元03,用于当异常概率值大于异常阈值时,确定待检测终端为异常终端。
可选的,模型应用单元02,具体用于:将待检测终端的上网特征数据输入第一预测模型,得到待检测终端异常上网的第一概率值;将待检测终端的上网特征数据输入第二预测模型,得到待检测终端正常上网的第二概率值;根据第一概率值和第二概率值,确定异常概率值。
可选的,该异常检测装置,还包括:模型训练单元04。
获取单元01,还用于获取多个样本终端的原始日志数据;原始日志数据包括:原始动态IP集合和原始流量数据;获取单元01,还用于对原始日志数据执行数据处理,得到多个样本终端的上网特征数据;数据处理包括:缺失值的填充和数据转换中的至少一种;模型训练单元04,用于根据多个样本终端的上网特征数据分别训练多个预测模型的初始模型,得到组合模型。
可选的,获取单元01,具体用于:当缺失值为动态IP时,在缺失值中,填充除原始动态IP集合以外的任意动态IP;当缺失值为流量数据时,在缺失值中,填充原始流量数据的平均值。
可选的,获取单元01,具体用于:针对原始动态IP集合,执行独热编码;针对原始流量数据,执行进行无量纲化处理。
可选的,该异常检测装置,还包括:处理单元05。
处理单元05,用于针对待检测终端为异常终端,执行预设的安全上网策略;安全上网策略包括:更新待检测终端的上网权限、发送告警消息、记录待检测终端的异常行为中的至少一种。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质包括计算机执行指令,当计算机执行指令在计算机上运行时,使得计算机执行如上述实施例提供的异常检测方法。
本申请实施例还提供一种计算机程序,该计算机程序可直接加载到存储器中,并含有软件代码,该计算机程序经由计算机载入并执行后能够实现上述实施例提供的异常检测方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机可读存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对通常技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种异常检测方法,其特征在于,包括:
获取待检测终端的上网特征数据;所述上网特征数据包括:目标动态互联网协议IP集合,以及与所述目标动态IP集合中,每个动态IP对应的目标流量数据;
将所述待检测终端的上网特征数据输入组合模型中,得到所述待检测终端的异常概率值;所述组合模型包括根据多个样本终端的上网特征数据,预先训练好的多个预测模型;
当所述异常概率值大于异常阈值时,确定所述待检测终端为异常终端。
2.根据权利要求1所述的方法,其特征在于,所述将所述待检测终端的上网特征数据输入组合模型中,得到所述待检测终端的异常行为的异常概率值,包括:
将所述待检测终端的上网特征数据输入第一预测模型,得到所述待检测终端异常上网的第一概率值;
将所述待检测终端的上网特征数据输入第二预测模型,得到所述待检测终端正常上网的第二概率值;
根据所述第一概率值和所述第二概率值,确定所述异常概率值。
3.根据权利要求1所述的方法,其特征在于,还包括:
获取所述多个样本终端的原始日志数据;所述原始日志数据包括:原始动态IP集合和原始流量数据;
对所述原始日志数据执行数据处理,得到所述多个样本终端的上网特征数据;所述数据处理包括:缺失值的填充和数据转换中的至少一种;
根据所述多个样本终端的上网特征数据分别训练所述多个预测模型的初始模型,得到所述组合模型。
4.根据权利要求3所述的方法,其特征在于,当所述数据处理包括所述缺失值的填充时,所述对所述原始日志数据执行数据处理,得到所述多个样本终端的上网特征数据,包括:
当所述缺失值为动态IP时,在所述缺失值中,填充除所述原始动态IP集合以外的任意动态IP;
当所述缺失值为流量数据时,在所述缺失值中,填充所述原始流量数据的平均值。
5.根据权利要求3所述的方法,其特征在于,当所述数据处理包括所述数据转换时,所述对所述原始日志数据执行数据处理,得到所述多个样本终端的上网特征数据,包括:
针对所述原始动态IP集合,执行独热编码;
针对所述原始流量数据,执行进行无量纲化处理。
6.根据权利要求1-5任一项所述的方法,其特征在于,还包括:
针对所述待检测终端为所述异常终端,执行预设的安全上网策略;所述安全上网策略包括:更新所述待检测终端的上网权限、发送告警消息、记录所述待检测终端的异常行为中的至少一种。
7.一种异常检测装置,其特征在于,包括:获取单元、模型应用单元和确定单元;
所述获取单元,用于获取待检测终端的上网特征数据;所述上网特征数据包括:目标动态IP集合,以及与所述目标动态IP集合中,每个动态IP对应的目标流量数据;
所述模型应用单元,用于将所述待检测终端的上网特征数据输入组合模型中,得到所述待检测终端的异常概率值;所述组合模型包括根据多个样本终端的上网特征数据,预先训练好的多个预测模型;
所述确定单元,用于当所述异常概率值大于异常阈值时,确定所述待检测终端为异常终端。
8.根据权利要求7所述的装置,其特征在于,所述模型应用单元,具体用于:
将所述待检测终端的上网特征数据输入第一预测模型,得到所述待检测终端异常上网的第一概率值;
将所述待检测终端的上网特征数据输入第二预测模型,得到所述待检测终端正常上网的第二概率值;
根据所述第一概率值和所述第二概率值,确定所述异常概率值。
9.一种异常检测装置,其特征在于,包括存储器和处理器;所述存储器用于存储计算机执行指令,所述处理器与所述存储器通过总线连接;当所述异常检测装置运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述异常检测装置执行如权利要求1-6任一项所述的异常检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机执行指令,当所述计算机执行指令在计算机上运行时,使得所述计算机执行如权利要求1-6任一项所述的异常检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310672219.5A CN116668138A (zh) | 2023-06-07 | 2023-06-07 | 一种异常检测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310672219.5A CN116668138A (zh) | 2023-06-07 | 2023-06-07 | 一种异常检测方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116668138A true CN116668138A (zh) | 2023-08-29 |
Family
ID=87709422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310672219.5A Pending CN116668138A (zh) | 2023-06-07 | 2023-06-07 | 一种异常检测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116668138A (zh) |
-
2023
- 2023-06-07 CN CN202310672219.5A patent/CN116668138A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112235264B (zh) | 一种基于深度迁移学习的网络流量识别方法及装置 | |
CN112003870A (zh) | 一种基于深度学习的网络加密流量识别方法及装置 | |
EP3178011B1 (en) | Method and system for facilitating terminal identifiers | |
CN110442712B (zh) | 风险的确定方法、装置、服务器和文本审理系统 | |
CN104615760A (zh) | 钓鱼网站识别方法和系统 | |
CN112165484B (zh) | 基于深度学习与侧信道分析的网络加密流量识别方法装置 | |
CN111866024A (zh) | 一种网络加密流量识别方法及装置 | |
CN110830445A (zh) | 一种异常访问对象的识别方法及设备 | |
CN112533209A (zh) | 黑产识别方法及黑产识别装置 | |
CN107231383B (zh) | Cc攻击的检测方法及装置 | |
CN110619022B (zh) | 基于区块链网络的节点检测方法、装置、设备及存储介质 | |
CN108810947A (zh) | 基于ip地址的鉴别真实流量的服务器 | |
WO2024169388A1 (zh) | 基于stride模型的安全需求生成方法、装置、电子设备及介质 | |
CN114153696A (zh) | 云原生应用健康检测方法、装置、计算机设备及存储介质 | |
CN112085588B (zh) | 规则模型的安全性的确定方法、装置和数据处理方法 | |
CN113326064A (zh) | 划分业务逻辑模块的方法、电子设备及存储介质 | |
CN112100604B (zh) | 终端设备信息处理方法、装置 | |
CN116127230B (zh) | 网页的防护规则的生成方法、装置、设备和介质 | |
CN109922083B (zh) | 一种网络协议流量控制系统 | |
CN109544165A (zh) | 资源转移处理方法、装置、计算机设备和存储介质 | |
CN116668138A (zh) | 一种异常检测方法、装置及存储介质 | |
CN117391214A (zh) | 模型训练方法、装置及相关设备 | |
US20170208018A1 (en) | Methods and apparatuses for using exhaustible network resources | |
CN113220949B (zh) | 一种隐私数据识别系统的构建方法及装置 | |
CN107305610B (zh) | 访问路径处理的方法和装置、自动机识别的方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |