CN117061198A

CN117061198A - 一种基于大数据的网络安全预警系统及方法

Info

Publication number: CN117061198A
Application number: CN202311103450.9A
Authority: CN
Inventors: 梁智豪
Original assignee: Guangdong Litong Information Technology Co ltd
Current assignee: Guangdong Litong Information Technology Co ltd
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-11-14
Anticipated expiration: 2043-08-30
Also published as: CN117061198B

Abstract

本发明公开了一种基于大数据的网络安全预警系统及方法，属于网络安全技术领域。本发明系统包括数据收集模块、特征提取模块、标记和建模模块、实时判断模块、用户反馈模块和模型优化模块；所述数据收集模块负责自动化地获取信息系统中的数据；所述特征提取模块从历史数据中提取关键的信息特征，并构建历史数据库；所述标记和建模模块通过对历史数据进行标记和建模，创建预测诈骗信息的模型；所述实时判断模块根据实时输入的信息，利用预训练的模型进行判断和评估和生成解决措施；所述用户反馈模块收集和处理用户对实时数据信息标记结果的反馈；所述模型优化模块将结果输出给相关人员，进行模型参数的分析和优化。

Description

一种基于大数据的网络安全预警系统及方法

技术领域

本发明涉及网络安全技术领域，具体为一种基于大数据的网络安全预警系统及方法。

背景技术

随着信息技术的迅猛发展，大数据技术成为处理和分析大规模数据的重要工具；大数据技术提供了高效的数据收集能力，也使对诈骗信息的甄别提升了难度，现有技术中虽然存在一些方法用于区分诈骗信息和安全信息，但任然存在以下问题：

现有技术通常使用基于静态规则的方法进行诈骗信息的判断，这些规则是预先定义的，无法灵活地适应新的诈骗手段和模式；因此，当出现新型诈骗方式时，现有系统可能无法准确判断；许多现有技术通常需要人工干预来做出决策和防护措施，缺乏智能化和自动化的能力，这导致系统的效率不高，不能及时识别最新的诈骗信息，从而无法有效应对快速变化的网络安全威胁。

发明内容

本发明的目的在于提供一种基于大数据的网络安全预警系统及方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：

一种基于大数据的网络安全预警方法，方法包括以下步骤：

S100.利用大数据技术，自动收集和整理信息系统中的信息，将收集到的信息作为历史数据，对收集到的历史数据进行清洗和预处理，并从经过清洗和预处理的历史数据中提取信息的特征；

S200.基于信息的特征，对历史数据进行标记，其中标记为1的归为诈骗信息，标记为0的归为安全信息；根据标记，构建诈骗信息预测模型；

S300.当用户收到信息时，将信息送入训练好的模型中进行实时判断，根据模型输出的结果，对信息进行标记，即标记为实时诈骗信息、实时疑似诈骗信息以及实时安全信息；基于标记结果，自动生成针对每个标记的相应解决措施；

S400.收集用户反馈数据，计算判断结果的准确性，从而进行系统的持续优化和更新模型参数。

步骤S100包括：

S101.利用大数据技术，自动收集和整理信息系统中的信息，将收集到的信息作为历史数据；所述历史数据包括信息的发送者信息、附件信息以及内容信息；

S102.对收集到的历史数据进行清洗和预处理，并从经过清洗和预处理的历史数据中提取信息的特征，建立信息的历史数据库，将清洗、预处理和提取特征后的数据存储在数据库中，以便后续模型训练和分析使用；所述信息的特征包括发送者IP地址、URL链接特征以及主题关键词，且发送者IP地址对应发送者信息，URL链接特征对应附件信息，主题关键词对应内容信息。

步骤S200包括：

S201.获取历史数据库中的信息特征，将发送者的IP地址转换为数值型特征，将发送者的IP地址进行处理，例如将IPv4地址转换为32位二进制表示或使用其他编码方式，得到数值型特征a₁；

对URL链接进行特征编码，可以使用独热编码、哈希编码等方式，得到特征编码a₂；提取主题关键词的出现频率，构建特征向量A，且A＝{a₁,a₂,a₃}，其中a₁代表发送者的IP地址的数值型特征，a₂代表URL链接的特征编码，a₃代表主题关键词的出现频率；

S202.对特征向量A进行标准化处理，在K-means聚类完成后，对历史数据进行分类标记为1或0，其中标记为1的归为诈骗信息，标记为0的归为安全信息；

S203.根据历史数据的分类结果，对标记为为1的诈骗信息的特征向量的每个值求平均值，作为信息的对照样本A_1；计算标记为1的诈骗信息与对照样本A_1的相似度和计算标记为0的安全信息与对照样本A_1的相似度；

将特征向量A的取值作为输入值，上述相似度Z作为输出值，构建逻辑回归模型，即Z＝w₁*a₁+w₂*a₂+w₃*a₃，其中w_i为权重系数，且i的取值为1，2，3，其中w₁表示计算发送者的IP地址的数值型特征的权重系数，w₂表示URL链接的特征编码信息的权重系数，w₃表示主题关键词的出现频率的权重系数；

再利用信息的相似度Z应用激活函数将线性回归结果转换为概率值，构建诈骗信息预测模型，计算公式为根据历史数据的分类结果，得出信息为诈骗信息的概率平均值为P₁，信息为安全信息的概率平均值为P₂，且P₁＞P₂。

K-means算法对历史数据进行分类包括以下步骤：

a.从数据集中随机选择两个特征向量作为样本，并为初始的质心点，这两个样本将成为两个初始的簇中心；

b.对于每个特征向量的数据点，计算其与两个质心点的距离，对于样本i和质心j，距离计算公式如下：

其中x_ik表示样本i在特征a_k上的取值，c_jk表示簇中心j在特征a_k上的取值；

c.对于每个簇，重新计算质心为该簇内样本各特征的均值,对于簇j，质心更新公式如下：

其中C_j表示第j个簇中的所有样本的集合；

d.重复步骤b和步骤c，对于每个样本，根据距离重新分配簇，并更新质心，反复迭代直到质心稳定或达到最大迭代次数，其中根据已有的诈骗信息和安全信息的参考样本，对结果进行标记为1或0。

步骤S300包括：

S301.当用户收到信息时，将信息送入训练好的逻辑回归模型和诈骗信息预测模型中进行实时判断；若输出的值P₀∈[0,P₁]，则标记为实时安全信息；若输出的值P₀∈(P₁,P₂)，则标记为实时疑似诈骗信息；若输出的值P₀∈[P₁,1]，则标记为实时诈骗信息；

由于诈骗信息预测模型的输出结果是诈骗信息的概率，因此当输出结果的值越小，则表示为诈骗信息的可能性越小，又因为在诈骗信息预测模型训练过程中计算出了历史数据中安全信息的平均概率，所以只要实时数据输出诈骗信息的概率小于等于历史数据中安全信息的平均概率，就说明为实时安全信息；同理，只要实时数据输出诈骗信息的概率大于等于历史数据中诈骗信息的平均概率，就说明为实时诈骗信息；当实时数据输出诈骗信息的概率处于历史数据中安全信息的平均概率和历史数据中诈骗信息的平均概率之间时，需要进一步的分析实时数据的所属类别，这样的实时判断能够及时识别出潜在的诈骗信息，并为用户提供更加准确的安全保障。

S302.对于实时安全信息，则将信息传递给用户，将该信息直接传递给用户，以确保用户能够正常接收并使用这些信息；对于实时疑似诈骗信息，则转到步骤S303；对于实时诈骗信息进行过滤操作，并输出至相关人员，由相关人员根据特征集合进行比较，若与特征集合不一致，则进行更新，若与特征集合一致，则进行下一次检测，可以实时更新数据库，使判断的结果更加准确；

S303.获取实时疑似诈骗信息，传输至相关人员，由相关人员进行分析，若分析结果为实时安全信息，则将此类信息作为K-means算法中安全信息参考样本，对相应的数值进行优化；若分析结果为实时诈骗信息，则将此类信息作为K-means算法中诈骗信息参考样本，对相应的数值进行优化，作为K-means算法中的安全信息参考样本，并根据相应的数值进行优化。这样可以逐步提高模型对安全信息的准确判断能力。

通过上述步骤的实施，系统可以实现对用户收到的实时信息的判断和处理。实时判断能够及时地将安全信息传递给用户，同时将疑似诈骗信息进一步分析和处理，从而提高信息安全性和降低风险。通过不断更新特征集合并优化模型，系统可以不断改进对安全信息和诈骗信息的识别能力，提高整个系统的效果和准确性。

步骤S400包括：

S401.收集用户对实时数据信息标记结果的反馈数据，对反馈数据进行整理和存储；

S402.根据用户反馈数据，计算判断结果的准确性，计算公式如下：

其中，TP表示实际为诈骗信息且被正确地标记为诈骗信息的样本数量；TN表示实际为安全信息且被正确地标记为安全信息的样本数量；FP表示实际为安全信息但被错误地标记为诈骗信息的样本数量；FN表示实际为诈骗信息但被错误地标记为安全信息的样本数量；

S403.根据计算结果，输出至相关人员，提醒相关人员对模型进行相应的优化操作，使预测结果的准确性更加精确。

一种基于大数据的网络安全预警系统，系统包括数据收集模块、特征提取模块、标记和建模模块、实时判断模块、用户反馈模块和模型优化模块；

数据收集模块负责自动化地获取信息系统中的数据，并将其进行清洗和预处理，以便后续的特征提取和建模步骤使用；特征提取模块从历史数据中提取关键的信息特征，并构建一个信息的历史数据库，以供后续的标记和建模步骤使用；标记和建模模块通过对历史数据进行标记和建模，创建一个能够预测诈骗信息的模型，以便后续的实时判断模块使用；实时判断模块根据实时输入的信息，利用预训练的模型进行判断和评估，并生成相应的标记和解决措施，以提供网络安全预警；用户反馈模块收集和处理用户对实时数据信息标记结果的反馈，以便后续的模型优化步骤使用；模型优化模块通过计算判断结果的准确性，并将结果输出给相关人员，进行模型参数的分析和优化，从而提高系统的预测准确性和性能。

数据收集模块包括数据采集单元和数据清洗单元，数据采集单元负责从各个信息源收集数据，并将其传递给下一个单元进行处理；数据清洗单元清洗和预处理收集到的数据，去除噪声、冗余和不完整的数据；

特征提取模块包括特征选择单元和特征转换单元，特征选择单元根据网络安全预警的需求，对特征进行提取；特征转换单元将原始数据转换为可供建模使用的特征表示。

标记和建模模块包括标记单元和建模单元，标记单元根据历史数据的分析，对数据进行标记，将其划分为诈骗信息和安全信息；建模单元利用标记的历史数据，训练预测模型；

实时判断模块包括实时输入单元和实时判断单元，实时输入单元接收来自信息系统的实时数据，并将其传递给实时判断单元进行判断；实时判断单元利用训练好的模型对实时数据进行分析和判断，确定其是否是诈骗信息或安全信息。

用户反馈模块包括反馈收集单元和反馈处理单元，反馈收集单元收集用户对预警结果的反馈信息，并存储为反馈数据；反馈处理单元根据用户反馈数据，对预警结果进行分析和评估；

模型优化模块包括准确率计算单元和参数优化单元，准确率计算单元根据用户反馈数据，计算判断结果的准确性；参数优化单元根据新的数据和优化策略，更新预警模型的参数。

与现有技术相比，本发明所达到的有益效果是：利用大数据技术自动收集和整理信息系统中的信息，并从历史数据中提取特征进行预测模型构建；通过实时判断用户收到的信息，并根据模型输出结果进行标记和生成相应的解决措施，可以及时识别和处理诈骗信息；通过收集用户反馈数据并计算准确性，可以不断优化和更新模型参数，提高预警系统的效果和性能；在数据处理过程中，对发送者IP地址、URL链接特征以及主题关键词等进行特征提取和处理，增加了预测模型的精度和准确性；通过K-means算法对历史数据进行分类，将诈骗信息和安全信息进行区分，并作为参考样本进行模型的训练和优化；本发明具有较强的实时性和处理效率，能够快速识别和处理网络安全威胁，保护用户的信息安全。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明一种基于大数据的网络安全预警方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供技术方案：

一种基于大数据的网络安全预警方法，方法包括以下步骤：

K-means算法对历史数据进行分类包括以下步骤：

其中C_j表示第j个簇中的所有样本的集合；

下面是具体的实施例，

步骤S201：构建特征向量A，将发送者的IP地址转换为数值型特征，对URL链接进行特征编码，提取主题关键词的出现频率，构建特征向量A，且A＝{a₁,a₂,a₃}；假设：

A₁＝{192.168.1.1,abc.com,0.5}；

A₂＝{192.168.1.2,xyz.com,0.8}；

A₃＝{192.168.1.3,pqr.com,0.4}；

A₄＝{192.168.1.4,xyz.com,0.7}；

转换为特征向量：

A₁＝[192.168.1.1,0.1,0.5]；

A₂＝[192.168.1.2,0.2,0.8]；

A₃＝[192.168.1.3,0.3,0.4]；

A₄＝[192.168.1.4,0.2,0.7]；

步骤S202：标准化处理和K-means聚类；

对特征向量A进行标准化处理，得到的特征向量为：

A₁_norm＝[0.2,0.4,0.5]；

A₂_norm＝[0.4,0.6,0.8]；

A₃_norm＝[0.6,0.2,0.4]；

A₄_norm＝[0.8,0.6,0.7]；

然后使用K-means算法对历史数据进行分类。假设选择K＝2，初始质心为[0.3,0.1,0.1]和[0.6,0.9,0.9]，进行迭代计算直到质心稳定。

迭代过程如下：

第一轮迭代：样本1分配给簇1，样本2分配给簇2，样本3分配给簇1，样本4分配给簇2；

更新簇1的质心为[0.3,0.3,0.45]，更新簇2的质心为[0.7,0.6,0.75]；

第二轮迭代：样本1分配给簇1，样本2分配给簇2，样本3分配给簇1，样本4分配给簇2；

簇质心保持不变。

根据以上迭代结果，可以将历史数据分类标记为：A₁和A₃标记为1，为诈骗信息，A₂和A₄标记为0,为安全信息；

步骤S203：计算权重系数和信息的相似度，根据特征向量A的取值计算权重系数W，并得到信息的相似度Z。

假设权重系数为[0.4,0.3,-0.3]，则计算信息的相似度Z如下：

Z＝0.4*a₁+0.3*a₂-0.3*a₃；

这里的a₁、a₂、a₃分别代表特征向量A中的第一、第二、第三个特征值。

构建诈骗信息预测模型，将线性回归结果Z应用激活函数，转换为概率值，从而构建诈骗信息预测模型；假设得到的输出概率值为P₁＝0.7(诈骗信息)和P₂＝0.4(安全信息)。

在本实例中，

步骤S301：实时判断信息类型

假设有训练好的模型，并且模型输出的概率值为P₀＝0.6，且P₁＝0.7，P₂＝0.4；

当用户收到一条新的信息时，将该信息送入模型中进行实时判断。根据模型输出的结果和概率值范围，对信息进行标记：

若P₀∈[0,P₁]，则标记为实时安全信息；

若P₀∈(P₁,P₂)，则标记为实时疑似诈骗信息；

若P₀∈[P₂,1]，则标记为实时诈骗信息；

由此可见，当P₀＝0.6时，满足若P₀∈(P₁,P₂)，则标记为实时疑似诈骗信息；步骤S302：处理实时安全信息和实时疑似诈骗信息

对于实时安全信息，直接将信息传递给用户；

对于实时疑似诈骗信息，进入下一步骤S303进行分析；

步骤S303：分析实时疑似诈骗信息

将实时疑似诈骗信息传输至相关人员进行分析；根据分析结果：

若分析结果为实时安全信息，则将该信息作为K-means算法中安全信息参考样本，并对相应的数值进行优化。这样可以不断更新特征集合，提高模型的准确性。

若分析结果为实时诈骗信息，则将该信息作为K-means算法中诈骗信息参考样本，并对相应的数值进行优化。同样地，这也有助于不断更新特征集合，提高模型的准确性。

假设有10条反馈数据，其中：

TP＝2，即实际为诈骗信息且被正确标记为实时诈骗信息的样本数量；

TN＝2，即实际为安全信息且被正确标记为实时安全信息的样本数量；

FP＝1，即实际为安全信息但被错误地标记为实时疑似诈骗信息的样本数量；

FN＝5，即实际为诈骗信息但被错误地标记为实时安全信息的样本数量。

根据公式计算：

P(A)＝0.4，在这个实施例中，准确性的值为0.4，说明系统当前的判断结果的准确性较低，相关人员可以针对收集到的用户反馈数据进行分析，调整模型的参数、特征选择或算法等，以提高判断结果的准确性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的网络安全预警方法，其特征在于：所述方法包括以下步骤：

S300.当用户收到信息时，将信息送入训练好的模型中进行实时判断，根据模型输出的结果，对信息进行进行标记，即标记为实时诈骗信息、实时疑似诈骗信息以及实时安全信息；基于标记结果，自动生成针对每个标记的相应解决措施；

2.根据权利要求1所述的一种基于大数据的网络安全预警方法，其特征在于：所述步骤S100包括：

S102.对收集到的历史数据进行清洗和预处理，并从经过清洗和预处理的历史数据中提取信息的特征，建立信息的历史数据库；所述信息的特征包括发送者IP地址、URL链接特征以及主题关键词。

3.根据权利要求2所述的一种基于大数据的网络安全预警方法，其特征在于：步骤S200包括：

S201.获取历史数据库中的信息特征，将发送者的IP地址转换为数值型特征，对URL链接进行特征编码，提取主题关键词的出现频率，构建特征向量A，且A＝{a₁,a₂,a₃}，其中a₁代表发送者的IP地址的数值型特征，a₂代表URL链接的特征编码，a₃代表主题关键词的出现频率；

4.根据权利要求3所述的一种基于大数据的网络安全预警方法，其特征在于：所述K-means算法对历史数据进行分类包括以下步骤：

其中C_j表示第j个簇中的所有样本的集合；

5.根据权利要求3所述的一种基于大数据的网络安全预警方法，其特征在于：所述步骤S300包括：

S302.对于实时安全信息，则将信息传递给用户；对于实时疑似诈骗信息，则转到步骤S303；对于实时诈骗信息进行过滤操作，并输出至相关人员，由相关人员根据特征集合进行比较，若与特征集合不一致，则进行更新，若与特征集合一致，则进行下一次检测；

S303.获取实时疑似诈骗信息，传输至相关人员，由相关人员进行分析，若分析结果为实时安全信息，则将此类信息作为K-means算法中安全信息参考样本；若分析结果为实时诈骗信息，则将此类信息作为K-means算法中诈骗信息参考样本。

6.根据权利要求5所述的一种基于大数据的网络安全预警方法，其特征在于：所述步骤S400包括：

S403.根据计算结果，输出至相关人员，提醒相关人员对模型进行相应的优化操作。

7.一种基于大数据的网络安全预警系统，其特征在于：所述系统包括数据收集模块、特征提取模块、标记和建模模块、实时判断模块、用户反馈模块和模型优化模块；

所述数据收集模块负责自动化地获取信息系统中的数据，并将其进行清洗和预处理，以便后续的特征提取和建模步骤使用；所述特征提取模块从历史数据中提取关键的信息特征，并构建信息的历史数据库；所述标记和建模模块通过对历史数据进行标记和建模，创建预测诈骗信息的模型；所述实时判断模块根据实时输入的信息，利用预训练的模型进行判断和评估，并生成相应的标记和解决措施，提供网络安全预警；所述用户反馈模块收集和处理用户对实时数据信息标记结果的反馈；所述模型优化模块通过计算判断结果的准确性，并将结果输出给相关人员，进行模型参数的分析和优化。

8.根据权利要求7所述的一种基于大数据的网络安全预警系统，其特征在于：所述数据收集模块包括数据采集单元和数据清洗单元，所述数据采集单元负责从各个信息源收集数据，并将其传递给下一个单元进行处理；所述数据清洗单元清洗和预处理收集到的数据，去除噪声、冗余和不完整的数据；

所述特征提取模块包括特征选择单元和特征转换单元，所述特征选择单元根据网络安全预警的需求，对特征进行提取；所述特征转换单元将原始数据转换为可供建模使用的特征表示。

9.根据权利要求7所述的一种基于大数据的网络安全预警系统，其特征在于：所述标记和建模模块包括标记单元和建模单元，所述标记单元根据历史数据的分析，对数据进行标记，将其划分为诈骗信息和安全信息；所述建模单元利用标记的历史数据，训练预测模型；

所述实时判断模块包括实时输入单元和实时判断单元，所述实时输入单元接收来自信息系统的实时数据，并将其传递给实时判断单元进行判断；所述实时判断单元利用训练好的模型对实时数据进行分析和判断，确定其是否是诈骗信息或安全信息。

10.根据权利要求7所述的一种基于大数据的网络安全预警系统，其特征在于：所述用户反馈模块包括反馈收集单元和反馈处理单元，所述反馈收集单元收集用户对预警结果的反馈信息，并存储为反馈数据；所述反馈处理单元根据用户反馈数据，对预警结果进行分析和评估；

所述模型优化模块包括准确率计算单元和参数优化单元，所述准确率计算单元根据用户反馈数据，计算判断结果的准确性；所述参数优化单元根据新的数据和优化策略，更新预警模型的参数。