CN114422168A

CN114422168A - 一种恶意机器流量识别方法及系统

Info

Publication number: CN114422168A
Application number: CN202111486004.1A
Authority: CN
Inventors: 沈文; 郭骞; 于鹏飞
Original assignee: Guowang Xiongan Finance Technology Group Co ltd; State Grid Jiangxi Electric Power Co ltd; State Grid Corp of China SGCC; Global Energy Interconnection Research Institute
Current assignee: Guowang Xiongan Finance Technology Group Co ltd; State Grid Jiangxi Electric Power Co ltd; State Grid Corp of China SGCC; Global Energy Interconnection Research Institute
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-04-29

Abstract

本发明设计了一种恶意机器流量识别方法及系统，针对国网等互联网侧APP可能出现的用户访问次数和频率大幅增加，带来恶意流量识别困难的问题，采用深度学习技术动态划分可疑流量，并对流量使用隐性马尔可夫链预测用户访问行为，达到了有针对性地分析并识别恶意机器流量、为恶意流量的处理提供准确的定位的效果。

Description

一种恶意机器流量识别方法及系统

技术领域

本发明涉及电力数据安全领域，更具体地涉及一种恶意机器流量识别方法及系统。

背景技术

恶意机器流量识别是通过对业务系统流量进行实时监测，精准找出其中恶意爬虫、自动机、模拟器等伪造真实用户发起的业务请求，这些流量通过在应用层攻击业务系统的网站、App或是API，对企业造成经济上的巨大损失。本申请通过一种识别方法分析并识别恶意机器流量，从而可以对这些并非由真实用户发出的业务请求进行限制，降低电力金融业务开展过程中的数据安全风险。恶意流量识别方法通过在流量中提取特征信息，根据预设的特征条件判断流量是否为恶意的。

电力作为一种特殊的商品，其市场的供求变化远较其他商品市场频繁，价格的波动性远超过其他的商品市场。对电力金融风险的研究是目前国内外研究电力市场的热点。

对于如何判断恶意还是合理的用户访问，我们把对网络资源的访问当成一个离散事件。网络bot请求资源时，时间间隔上存在不同：人是依据主观需求对目标资源进行点击触发，而bot是程序设定好的，例如间隔多久，或者伪造随机时间触发等。形象化描述就是比如一个购物网站，用户访问的路径可能为先登录，或者不登录直接进入主页搜索商品，或者逛街一样的浏览首页上的商品，查看类似商品选择购买或者不购买，最后退出。这就是一个合理的访问。假如一个访问一直在访问某类商品的价格，它是一个不合理的访问。

深度学习是Hinton在2006年提出一个一种新的机器学习模型，这种模型是一种通过多层神经网络对样本进行训练的新的机器学习方法。这种方法通过模拟人类大脑对事物进行学习分析的方式来构建一个神经网络，主要用来对历史数据之间的关系进行描述和解释，适用于本项目基于电力大数据的信用风险模型的构建。近年来，深度学习成为机器学习、人工智能领域新兴研究方法，在语音、图像、文本、金融等大数据分析领域被广泛应用，并取得了令人瞩目的成绩。相比于传统神经网络模型，如果传统神经网络模型具有2层及以上的网络结构，则在训练过程中非常容易出现局部最优化的缺点，但是同样网络结构的深度学习模型则不会出现这样的问题。与传统神经网络相比，深度学习模型更适合于处理具有非线性的特征数据，通过多层的特征映射从图片、声音、文本、数据库等输入数据中提取有助于理解数据本身所代表含义的有效数据特征表示。深度学习模型的每一层提取数据的一个或者多个不同方面的特征，并且将提取的特征作为下一层的输入数据，通过不断组合这些低层的数据特征从而形成更加高层的数据抽象特征。深度学习模型的优势还在与可以更好地表示复杂的高维函数，寻找历史数据内部的真正关系，对他们进行描述和解释。目前国内外研究中常用的深度学习模型主要有受限玻尔兹曼机模型(Restricted BoltzmannMachine，RBM)、卷积神经网络(Convolutional Neural Networks，CNNs)、循环神经网络模型(Recurrent Neural Networks，RNNs)、对抗神经网络(Generative AdversarialNetworks，GANs)、长短时记忆网络等。

现有技术中，往往通过静态特征分类和动态签名分类两种方式对恶意机器流量进行判别，以在判断出结果的基础上阻拦恶意流量进入自身。其中，静态特征分类的方式只是简单的是否拥有完全相同的特征来作为分类标准，只需简单的加壳或混淆就达到目标效果，已逐渐被淘汰；动态签名则利用管理人员人工提取得到的恶意流量特征进行聚类分析，并旨在利用聚类分析结果实现对同一类恶意流量的分类，但由于严重依赖于人工提取得到的特征，且聚类分析准确率较低的问题，导致检测和分类结果十分不稳定。并且，恶意机器流量识别方法还存在以下问题：识别手段较为单一，只能在运营活动过程奖品数量、流量等角度去识别；识别规则依赖专家经验，寻找合适的专家资源是挑战。

因此，如何针对现有技术存在的各项技术缺陷，提供一种无需依赖人工、数据流量特征分析更准确、方法更科学的恶意流量检测机制是本领域技术人员亟待解决的问题。

发明内容

为克服上述现有技术的不足，本发明提供了一种恶意机器流量识别方法，包括以下步骤:

步骤1，采集全量的历史流量数据，分解流量数据，形成训练样本；

步骤2，基于训练样本进行数据训练，得到流量行为模型；

步骤3，基于用户访问行为特征进行深度学习，利用所述流量行为模型对实时网络流量进行检测,识别出异常用户；

步骤4，对所述异常用户访问操作流量进行持续追踪；

步骤5，对恶意机器流量进行识别。

另一方面，本发明还提供了一种恶意机器流量识别系统，包括:

采集单元，用于采集全量的历史流量数据，分解流量数据，形成训练样本；

训练单元，用于基于训练样本进行数据训练，得到流量行为模型；

学习单元，用于基于用户访问行为特征进行深度学习，利用所述流量行为模型对实时网络流量进行检测,识别出异常用户；

追踪单元，用于对所述异常用户访问操作流量进行持续追踪；

识别单元，用于对恶意机器流量进行识别。

本发明的有益效果在于，本申请发明了一种恶意机器流量识别方法及系统，并针对国网等互联网侧APP可能出现的用户访问次数和频率大幅增加，带来恶意流量识别困难的问题，采用深度学习技术动态划分可疑流量，并对少量流量使用隐性马尔可夫链预测用户访问行为，可以有针对性地分析并识别恶意机器流量，为恶意流量的处理提供准确的定位。

附图说明

图1：是本发明提供的方法框架图；

图2：是本发明提供的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明的具体实施方式做进一步的详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明提供了一种恶意机器流量识别方法，包括以下步骤:

实际应用中，可以通过上网行为管理如网络探针捕捉当前网络中的网络流量数据，并将捕捉到的网络流量数据输入到内置的流量分析器。行为分析模块可以对网络流量数据进行初步分析，将网络流量数据进行处理。由于实际上网行为会不断产生的数据，因此行为分析模块中需要存储至少一个分析周期中的全部待处理的历史流量数据。

步骤2，基于训练样本进行数据训练，得到流量行为模型；

步骤4，对所述异常用户访问操作流量进行持续追踪；

步骤5，对恶意机器流量进行识别。

优选地，还可以发送识别为恶意机器流量的警告信息。当判别结果为流量中含有恶意机器流量的基础上，旨在通过预设路径发送警告信息，以及时提醒相关的管理者对出现的恶意机器流量进行防御或做出相应的处理。

其中，该预设路径的表现方式多种多样，例如，向指定邮箱发送包含判定属于恶意机器流量的待测数据流量的警告邮件；向相关管理员使用的信息交流工具发送恶意机器流量出现信息，以及时提醒和做出相应的防御和处理，还包诸如通过QQ、微信、安全日志记录等方式进行相同或类似的操作，此处并不做具体限定。

优选地，其中，所述步骤1，采集全量的历史流量数据，分解流量数据，形成训练样本，具体包括：

步骤1-1，网络探针提取全量的历史流量数据，所述流量数据是所有访问用户的流量数据总集合；

如何完整、不遗漏的获取到数据流量样本在运行过程中产生的所有历史流量数据，以及如何保证其不会对实际运行环境造成损害，可通过多种方式实现，可以根据实际情况结合特定条件下的各限制因素综合考虑和选择合适的方式，此处并不做具体限定。

步骤1-2，流量分析器对比不同时间段的访问用户，去除偶发的用户访问流量；

还可以进行其他处理操作，例如，数据清洗、预处理等等。其中的数据清洗操作包括数据一致性检验、无效值和缺失值处理等手段，旨在发现并纠正数据样本库中流量数据的错误；预处理操作则包括诸如协议解析、格式转换、数据选择、base解码、嵌入操作等，可根据实际数据的不同、后续深度学习算法选择不同，灵活选择以实现更好的数据处理。

步骤1-3，流量分析器统计所有数据中相同的访问用户。

优选地，其中，所述网络探针部署在网关入口的中间件服务器上，以插件形式按照旁路方式部署。

优选地，其中，所述流量数据总集合需要能够表征当前网络流量数据特点的信息，可以是直接从网络流量数据内容中提取的实际数据，也可以是通过对网络流量数据的分析获得的分析数据。例如，用户访问终端的IP、访问时间、访问页面、页面停留时间；所述访问页面为网页url地址；所述页面停留时间为用户从访问到关闭网站页面/访问下一个网站页面的时间。还可以包括用于后续分析的信息，例如，数据包的收发时间、流量类型、数据包总容量等。

优选地，其中，所述步骤2，基于训练样本进行数据训练，得到流量行为模型，具体包括：

步骤2-1，生成业务所有访问操作集合；

步骤2-2，统计流量训练样本中用户前N个操作；

步骤2-3，生成隐性马尔科夫链，构建流量行为模型结构及估计模型参数；

步骤2-4，对用户N+1步的操作进行预测，并与训练样本中用户实际N+1步操作比较，修正所述的模型结构及模型参数；

步骤2-5，得到训练后的流量行为模型。

优选地，其中，所述步骤4，对所述异常用户访问操作流量进行持续追踪，具体包括：

步骤4-1，将所述异常用户标记到负面清单；

步骤4-2，对于标记到负面清单的用户，持续记录其访问流量和访问操作间隔。

优选地，其中，所述步骤5，对恶意机器流量进行识别，具体包括：识别所述访问流量是否异常，并判断所述访问操作间隔是否呈现正态分布，若所述访问流量异常且所述访问操作间隔未呈现正态分布，标记该用户的访问流量为恶意机器流量。

识别结果可以以评分的方式实现，根据实际分析需要设置对应的形式，例如，识别结果评分可以为0-1之间的数值，其值越接近1，代表其越有可能是恶意机器流量；其值越接近0，代表其越有可能是正常流量。

为了确定当前网络流量数据是否为恶意机器流量，可以对模型输出的识别结果评分进行判断。具体判断方法，可以为设置判断阈值，当识别结果评分超过设置的判断阈值时，即代表当前网络流量数据对应的大部分特征均满足恶意机器流量特点，认为当前网络流量以致相应会话下的所有流量都是恶意机器流量。反之，当识别结果评分未超过设置的判断阈值时，即认为当前网络流量不是恶意机器流量。

优选地，还可以设定安全等级。在得到识别结果评分后，可以针对识别结果评分进行进一步判断，通过对比识别结果评分与安全等级阈值，确定网络流量对应的安全等级。所述安全等级阈值为在0-1范围内预设的判断值。例如，设置三个安全等级，安全等级阈值分别为0.2和0.6，即安全档：0～0.2；危险档：0.2～0.6；恶意档：0.6～1。对于安全档的网络流量数据，可以确定其没有恶意行为，后续可以不再进行分析；对于危险档的网络流量数据，可以确定其可能存在恶意行为，需要持续进行分析；对于恶意档，确定其存在恶意行为，可直接拒绝用户的数据申请或阻断相应的网络连接。

本发明还提供一种恶意机器流量识别系统，包括:

识别单元，用于对恶意机器流量进行识别。

优选地，其中，所述采集单元，用于采集全量的历史流量数据，分解流量数据，形成训练样本，具体包括：

提取子单元，用于网络探针提取全量的历史流量数据，所述流量数据是所有访问用户的流量数据总集合；

预处理单元，用于流量分析器对比不同时间段的访问用户，去除偶发的用户访问流量；

统计单元，用于流量分析器统计所有数据中相同的访问用户。

优选地，其中，所述识别单元，用于对恶意机器流量进行识别，具体包括：识别所述访问流量是否异常，并判断所述访问操作间隔是否呈现正态分布，若所述访问流量异常且所述访问操作间隔未呈现正态分布，标记该用户的访问流量为恶意机器流量。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在申请待批的权利要求保护范围之内。

Claims

1.一种恶意机器流量识别方法，其特征在于，包括以下步骤:

步骤2，基于训练样本进行数据训练，得到流量行为模型；

步骤4，对所述异常用户访问操作流量进行持续追踪；

步骤5，对恶意机器流量进行识别。

2.根据权利要求1所述的方法，其中，所述步骤1，采集全量的历史流量数据，分解流量数据，形成训练样本，具体包括：

步骤1-3，流量分析器统计所有数据中相同的访问用户。

3.根据权利要求2所述的方法，其中，所述网络探针部署在网关入口的中间件服务器上，以插件形式按照旁路方式部署。

4.根据权利要求2所述的方法，其中，所述流量数据总集合包括用户访问终端的IP、访问时间、访问页面、页面停留时间；所述访问页面为网页url地址；所述页面停留时间为用户从访问到关闭网站页面/访问下一个网站页面的时间。

5.根据权利要求1所述的方法，其中，所述步骤2，基于训练样本进行数据训练，得到流量行为模型，具体包括：

步骤2-1，生成业务所有访问操作集合；

步骤2-2，统计流量训练样本中用户前N个操作；

步骤2-5，得到训练后的流量行为模型。

6.根据权利要求1所述的方法，其中，所述步骤4，对所述异常用户访问操作流量进行持续追踪，具体包括：

步骤4-1，将所述异常用户标记到负面清单；

7.根据权利要求1所述的方法，其中，所述步骤5，对恶意机器流量进行识别，具体包括：识别所述访问流量是否异常，并判断所述访问操作间隔是否呈现正态分布，若所述访问流量异常且所述访问操作间隔未呈现正态分布，标记该用户的访问流量为恶意机器流量。

8.一种恶意机器流量识别系统，其特征在于，包括:

识别单元，用于对恶意机器流量进行识别。

9.根据权利要求8所述的系统，其中，所述采集单元，用于采集全量的历史流量数据，分解流量数据，形成训练样本，具体包括：

10.根据权利要求8所述的系统，其中，所述识别单元，用于对恶意机器流量进行识别，具体包括：识别所述访问流量是否异常，并判断所述访问操作间隔是否呈现正态分布，若所述访问流量异常且所述访问操作间隔未呈现正态分布，标记该用户的访问流量为恶意机器流量。