CN111814153A

CN111814153A - 一种基于大数据的商业网站安全维护方法

Info

Publication number: CN111814153A
Application number: CN202010660635.XA
Authority: CN
Inventors: 傅立光
Original assignee: Eastern Liaoning University
Current assignee: Eastern Liaoning University
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-10-23

Abstract

本发明提供了一种基于大数据的商业网站安全维护方法，包括：包括以下步骤：获取数据；数据收集和清理；双层数据聚类分析；个性化展示。本发明采用两层聚类模型，不仅可以根据日志数据的复杂性、特殊性和模糊性进行有效的聚类和降维分析，而且可以提高数据操作的效率和准确性，能够以有限的资源处理大量数据，在海量数据规模下实现高效的聚类，为商业网站维护人员提供了一种有效的在大数据环境下观察数据，维护网站安全的方法。

Description

一种基于大数据的商业网站安全维护方法

技术领域

本发明属于商业分析领域，具体涉及一种基于大数据的商业网站安全维护方法。

背景技术

人类社会已经进入了一切都可以数字化的大数据时代，如何通过有限的资源高效地分析海量数据，从复杂的数据中获取有价值的信息，是当今企业的共同需求。随着互联网技术的快速发展,越来越多的信息系统

硬件设备和复杂的网络。同时，网络的日益开放也加剧了网络安全领域的各种问题。

这些行为不仅影响网站的正常运行，而且增加了商业秘密或客户隐私信息泄露的风险，给企业带来重大的经济损失。解决网络安全问题是保证计算机网络更好应用的基础，而对网络日志数据的分析是企业网站运维中最直接的安全故障分析手段。当访问者访问企业网站时，所有访问信息，包括攻击者的攻击事件和行为，都会以日志的形式记录在网站的服务器上。因此，通过对日志数据的分析，可以客观有效地了解网站的网络安全状况，实现安全事件分析、运行分析以及性能故障排除等工作。由于每个访问者每次访问网站时会产生许多日志信息，网络日志数据随着访问者的增加而不断增加，数量巨大。此外，有许多类型的日志信息，内容的完整性和可用性也不相同。因此，如何解析不断变化的日志格式和处理TB级的海量日志容量是实现网络日志数据分析的关键。

发明内容

在此基础上应用需求,本发明提供了一种基于大数据的商业网站安全维护方法，采用两层聚类模型，不仅可以根据日志数据的复杂性、特殊性和模糊性进行有效的聚类和降维分析，而且可以提高数据操作的效率和准确性，能够以有限的资源处理大量数据,在海量数据规模下，实现高效的聚类，为商业网站维护人员提供了一种有效的在大数据环境下观察数据，维护网站安全的方法。

本发明的一种基于大数据的商业网站安全维护方法，包括以下步骤：

步骤1：获取数据；

步骤2：数据收集和清理；

步骤3：双层数据聚类分析：采用自组织映射算法模型对第一层数据进行聚类分析，采用模糊C均值聚类算法模型对第二层数据进行聚类分析；

步骤4：个性化展示：通过二维坐标图进行展示。

进一步的，在步骤3中，自组织映射算法模型的构建包含以下步骤：

步骤3.1：初始化；将向量及其对应的权向量矩阵进行归一化，使不同角度和长度的向量成为相同方向和长度为1的单位向量；T表示两个向量之间的最大值；

步骤3.2：通过计算向量内积的值，找到获胜神经元：当一个向量随机输入到输入层时，将竞争层中所有神经元对应的权向量与输入向量进行相似性比较；内积值越大，相似性越高；相似度最大的权重向量被判定为获胜神经元；

x^Tx_i＝||x||||x_i||cosθ；

步骤3.3：调整权重系数：只有获胜神经元可以调整权值向量，e(t)为学习率；

步骤3.4：修改e(t)学习率，当迭代次数达到最大值时输出结果；否则，重复步骤3.2，直到输出结果。

进一步的，在步骤2中，每个日志数据包含访客基本信息、注册天数、登录时间、用户权限级别、客户端浏览器、源IP、登录邮箱、连续登录天数等重要信息，根据这些信息与网络安全事件的关联程度，提取以上日志数据维数作为双层聚类分析的输入值。

进一步的，所述模糊C均值聚类算法模型的构建包含以下步骤：

步骤3.2.1：对初始矩阵J(U，C₁，C₂...C_c)进行随机划分，初始化聚类中心P和距离T，使矩阵的值满足归一化条件，矩阵的所有隶属度之和等于1。

(k＝1,2，……n)，u_ik表示X_k对第i个样本的隶属度；

步骤3.2.2:计算每个模糊组的聚类中心P，其中m是一个加权指数；

步骤3.2.3:通过计算各模糊组的聚类中心P和样本数据的目标函数得到新的函数矩阵J_m；

d_ik表示样本点X_k到第i类样本与聚类中心P_i之间的距离；

d_ik ²＝||X_k-P_i||＝(X_k-P_i)^TA(X_k-P_i)；

步骤3.2.4:用拉格朗日算子F求解极值，使目标函数达到最小值，重复步骤3.2.2，直到得到最优解；其中λ是参数；

进一步的，步骤4中的个性化显示包括：采用T分布邻域嵌入算法将双层聚类模型计算得到的多维测井数据映射到二维坐标图上。

本发明采用自组织映射算法模型对第一层数据进行聚类，找出日志数据簇和每个中心点的数量，从而减少原始数据簇的基数，降低计算复杂度，第二层采用模糊C均值聚类算法模型进行聚类，划分第一次聚类产生的中心点的隶属度。该划分基于模糊聚类的区间值模糊集数据，由隶属度决定数据聚类的差异程度。采用两层聚类模型，不仅可以根据日志数据的复杂性、特殊性和模糊性进行有效的聚类和降维分析，而且可以提高数据操作的效率和准确性，能够以有限的资源处理大量数据,在海量数据规模下实现高效的聚类，为商业网站维护人员提供了一种有效的在大数据环境下观察数据，维护网站安全的方法。

附图说明

附图1为发明的一种基于大数据的商业网站安全维护方法的流程图。

附图2为发明的一种基于大数据的商业网站安全维护系统的结构图。

具体实施方式

为了解决背景技术提出的问题,本发明应用自组织映射算法模型和模糊C均值聚类算法模型对日志数据进行两层聚类分析获得的监测商业公司的网站,然后用二维可视化日志数据图表根据聚类结果。

具体的，本发明的一种基于大数据的商业网站安全维护方法，包括以下步骤：

步骤1：获取数据；

步骤2：数据收集和清理；

步骤4：个性化展示：通过二维坐标图进行展示。

海量数据本身的数据密度大、价值量低，价值密度低等特点，直接对其进行数据挖掘得出的结果准确性和效率较低。现实产生的数据往往是复杂的，因此对初始数据集进行预处理也是必不可少的过程。数据预处理指在进行数据挖掘之前对数据进行清洗、降维、去除噪声点等操作预处理过程如图。通过数据预处理的操作可以增强数据的真实性、可靠性，获得良好的算法应用结果。在对企业的数据集在输入算法进行处理之前，对原始数据进行有效的预处理显得尤为重要。

在真实的数据集中，由于存储数据时网络环境因素的影响等，不可避免的会产生某几维数据缺失的问题。为保证原始数据完整性需要对缺失数据进行插值处理。取出缺失值前后n个距离单位的数据，，然后采用拉格朗日多项值插值公式：

上式中li含义如下：

式中，Ln(x)为缺失值的插值函数；i为非缺失值yi的下标序号。对全部缺失值数据依次进行插补，直到不存在缺失值。

另外，数据一般在存储的过程中会存在格式或者粒度的差别；在此种情况下必须将格式统一。对数据类别进行预处理时，应该根据不同的数据类型，存储空间进行处理得到符合要求的数据。在数据录入的过程中，可能存在由于网络状态不佳发出了多条请求，这个时候就有可能出现重复数据。对于重复数据可以采用匹配组合方式去除重复项，对重复值清洗。

原始数据为累积的上千万条数据，数据具有复杂性，且数据量庞大，为了提高聚类效率，对数据进行并行化处理。并行化处理主要分为数据拆分和计算任务并行化。并行化处理算法的步骤如下：

步骤1：将数据对象输入至分布式文件系统中，由Name Node完成数据的分片，为了保证拆分数据的合理性，采用基于网格的划分方法，即将空间以网格为单位进行划分，这样划分使一个簇内的点有更大的可能性被分为一个数据片，减少后续运算的迭代次数；

步骤2：Task Tracker获取分片数据集，在map函数中，获取任一数据，确定其是否为核心点，即确定N_ε(xp)>Min Pts：若为核心点输出至Reduce，若不为核心对象且不在x_p的ε-邻域中则将key值设为0，value值为数据本身。否则将其key值设为1，value值依然为数据本身。组成<key,value>键值对后，说明数据已被访问，直至所有map中的数据已组成<key,value>。在原始数据集中去除邻域中没有其他点的对象，计算map中核心点的核心距离，将其key设置为核心距离。

步骤3：combine拣选出在map中key值为0的对象，说明其不在某一个对象的ε-邻域中，将其输出至reduce。

步骤4：在reduce中获取任一数据，确定其是否为核心对象，如果为边界点则要判断其是否被其他核心对象包围。更新聚类中心。

步骤5：计算核心对象之间距离，生成二维决策图，评判聚类中心。

另外，自组织映射算法能够根据输入数据样本自动找到样本的内在规律和属性特征，并对网络参数和结构进行自组织和自适应变化。自组织映射算法由输入层和竞争层组成。输入层神经元与输出层神经元完全连接，即每个输入节点连接到所有输出节点。输入层负责接收外部信息并将其传输给竞争层。竞争层对输入的信息进行分析比较，找出内部特征和规则，并进行分类。自组织映射算法是一种基于竞争学习规则的无监督聚类算法。竞争学习的规律来自于神经细胞的侧抑制现象，即当一个神经元受到刺激和兴奋时，它对周围的神经元产生抑制作用，抑制作用最强的神经元获胜。

假设输入层中的神经元集合层为X，空间为N×D，即有N输入层中的样本，每个样本具有D维度，则输入层的向量可以是表示为：X＝[X1，X2,X3...Xn]，Xi代表第i输入层中样本数据的维度分量；假设竞争层中存在m个神经元，竞争层向量可以表达为Y＝[Y1，Y2，Y3.......Ym]，Y_j代表第j输入层样本数据的维度分量；该输入层和竞争层的权重是设定为W_ij(具有连接编号的i×j矩阵)。在输入层输入采样数据之后，输出层中的神经元开始竞争。这个竞争过程可以通过余弦方法的迭代计算来实现，具有最大余弦值的神经元获胜。进一步的，在步骤3中，自组织映射算法模型的构建包含以下步骤：

步骤3.1:初始化；将向量及其对应的权向量矩阵进行归一化，使不同角度和长度的向量成为相同方向和长度为1的单位向量；T表示两个向量之间的最大值；

步骤3.2:通过计算向量内积的值，找到获胜神经元：当一个向量随机输入到输入层时，将竞争层中所有神经元对应的权向量与输入向量进行相似性比较；内积值越大，相似性越高；相似度最大的权重向量被判定为获胜神经元；

x^Tx_i＝||x||||x_i||cosθ；

步骤3.3:调整权重系数：只有获胜神经元可以调整权值向量，e(t)为学习率；

步骤3.4:修改e(t)学习率，当迭代次数达到最大值时输出结果；否则，重复步骤3.2，直到输出结果。

模糊C均值聚类算法是一种基于目标函数优化的数据聚类方法。为了得到模糊聚类的最优目标函数，模糊C均值聚类算法将向量Xi(i＝1,2,3，…，n)划分为C个模糊组，找出每组的聚类中心点P，在极值约束下，则

min{J_m(U，P)}。

(k＝1，2，......n)，u_ik表示X_k对第i个样本的隶属度；

步骤3.2.2：计算每个模糊组的聚类中心P，其中m是一个加权指数；

步骤3.2.3：通过计算各模糊组的聚类中心P和样本数据的目标函数得到新的函数矩阵J_m；

d_ik表示样本点X_k到第i类样本与聚类中心P_i之间的距离；

d_ik ²＝|X_k-P_t||＝(X_k-P_i)^TA(X_k-P_i)；

步骤3.2.4：用拉格朗日算子F求解极值，使目标函数达到最小值，重复步骤3.2.2，直到得到最优解；其中λ是参数；

由上面的介绍可知，模糊C均值聚类算法的核心过程主要是两部分，一是遍历数据集中的对象，分别计算其与不同聚类中心的隶属度，二是每次迭代过程结束后更新聚类中心。

在数据量急剧增加的时候，模糊C均值聚类算法消耗的时间会成指数性的增长，尤其是在海量数据的背景下，模糊C均值聚类算法计算数据所消耗的时间可以以小时为单位。因此，若可以在分布式文件系统集群中实现模糊C均值聚类算法，将计算任务分布到多个节点上，会大大减少算法的运行时间，提升算法效率。将Map Reduce应用至模糊C均值聚类算法的步骤如下：

步骤1：将数据对象输入至分布式文件系统中，由Name Node完成数据的分片，JobTracker完成任务分配；

步骤2：Task Tracker获取分片数据集，在map函数中，将分片数据集的每一项计算其与不同聚类中心的隶属度，将聚类中心作为key值，将计算所得隶属度作为value值存入<key,value>键值对中，再将数据对象作为key值，将获得的<key,value>键值对作为value值存入<key,value>键值对中，这样形成了<key,<key,value>>结构的键值对输出。

步骤3：在reduce中更新聚类中心，并获取new Center。

步骤4：根据收敛条件判断收敛，否则返回(2)重新计算。

步骤5：计算完成，得到隶属度矩阵，获取隶属度最大值对应的聚类中心的索引，则该索引即为该数据对象所对应的类。

并行式模糊C均值聚类算法借助集群运行，在保证准确率不会降低的前提下，提高海量数据背景下聚类算法的运行效率，算法的主要特点如下：(1)准确率：并行式算法与串行式算法准确率基本一致；(2)高吞吐量：并行式算法能够处理千万级别以上的数据量；(3)高效率：算法运行速度与串行式算法相比得到极大提升。

T分布邻域嵌入算法是一种二维或三维的算法，它可以将多维数据集从任何维度减少到适合人类观察。在使用T分布邻域嵌入算法时，调整参数，呈现不同尺度下高维数据点的聚类。采用T分布邻域嵌入算法算法将双层聚类模型计算得到的多维测井数据映射到二维坐标图上。

在二维平面坐标图中，日志数据被聚类为由六种不同颜色表示的六个类别。采用T分布邻域嵌入实现高维聚类数据的可视化，面对海量、复杂的日志数据，网站维护人员能够更轻松、清晰地了解数据的特点和规律，为网站安全维护提供有力保障。

具体的，假设每个数据点xi都有一个类标签ci。投影点yi应该被找到以用于显示与ci相关的xi向量。这些辅助信息可以通过参考费希尔信息很容易地集成到投影技术中。考虑由数据点xi扩展的黎曼流形。每个点x是配备了局部黎曼张量J(x)用于定义在流形位置x的两个切线向量u和v的一个标量结果gx：

g_x(u，v)＝u^TJ(x)v.

局部费希尔信息矩阵J(x)通过下式获得：

其中，E表示期望值，p(c|x)表示给定数据点x的c类概率。本质上，该张量在切线空间中局部缩放维数，从而精确地放大与给定类信息相关的维数。

黎曼度量是由这个局部二次型导出的，将这个度量称为费希尔度量：对于流形上给定的点x和x‘，距离为：

其中，γ∶[0，1]→X，即从γ(0)＝x到γ(1)＝x′所有平滑路径的范围。该度量测量沿黎曼流形测量数据点x和x‘之间的距离，从而根据其与给定标签信息的相关性局部变换空间。

由于费希尔距离由根据给定的数据进行估计，条件概率p(c|x)可以使用非参数估计：

费希尔信息矩阵变为：

其中，b(x，c)＝E_ξ(i|x，c){x_i}-E_ξ(i|x){x_i}，

其中，E表示经验期望值，即以下所示权重的加权和。如果处理大数据集或样本外扩展，通常只需数据子集就足以估计J(x)。T分布邻域嵌入算法提供了一种保存局部相关信息的有效方法：在从xi到xj的线路上取样T个等距点，则流形上的黎曼距离近似于：

其中

是Xi切线空间中所估计的标准距离。在局部上，这种近似给出了很好的结果，从而可以基于此对数据进行精确的降维。

考虑一组数据点xi，这些数据点具有成对的费希尔度量，该度量基于它们的类标签进行估计，对路径积分采用简单的线性近似。利用T分布邻域嵌入算法，得到了一个考虑辅助标签信息的训练集X’，因为在该集合中，数据的成对距离是基于费希尔度量计算的。由于训练集中固有的信息，它适应于标签信息。由于这些信息是在训练集中编码的，因此生成的映射适应于相关的信息。

另外，为了验证结果，选用分类适应度指数，评价聚类算法的指标。

通过度量每个聚类的最大相似度的平均值，来评估聚类算法的优劣。式中，Si表示簇内数据与簇心之间的平均距离。||Wi-Wj||表示簇类i与簇类j之间的距离。同一数据采用自组织映射算法、模糊C均值聚类算法以及自组织映射算法和模糊C均值聚类算法双层聚类分析，分别计算三种方法的分类适应度指数。

通常，不同集群类的数量会导致分类适应度指数值的不同。分类适应度指数值越小，聚类效果越好。与单独使用自组织映射算法或模糊C均值聚类算法模型相比，使用自组织映射算法和模糊C均值聚类算法双层聚类模型可以取得更好的聚类效果。当日志数据增加到100万条进行测量时，双层聚类模型仍然可以取得满意的结果，而自组织映射算法、模糊C均值聚类算法的分类适应度指数值随着数据量的增加出现较大的波动，因此可以判断双层聚类模型的有效性。

本发明采用自组织映射算法模型对第一层数据进行聚类，找出日志数据簇和每个中心点的数量，从而减少原始数据簇的基数，降低计算复杂度，第二层采用模糊C均值聚类算法模型进行聚类，划分第一次聚类产生的中心点的隶属度。该划分基于模糊聚类的区间值模糊集数据，由隶属度决定数据聚类的差异程度。采用两层聚类模型，不仅可以根据日志数据的复杂性、特殊性和模糊性进行有效的聚类和降维分析，而且可以提高数据操作的效率和准确性，能够以有限的资源处理大量数据，在海量数据规模下实现高效的聚类，为商业网站维护人员提供了一种有效的在大数据环境下观察数据，维护网站安全的方法。

以上所述仅是对本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。