CN117061198A - 一种基于大数据的网络安全预警系统及方法 - Google Patents
一种基于大数据的网络安全预警系统及方法 Download PDFInfo
- Publication number
- CN117061198A CN117061198A CN202311103450.9A CN202311103450A CN117061198A CN 117061198 A CN117061198 A CN 117061198A CN 202311103450 A CN202311103450 A CN 202311103450A CN 117061198 A CN117061198 A CN 117061198A
- Authority
- CN
- China
- Prior art keywords
- information
- data
- real
- time
- fraud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000005457 optimization Methods 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 17
- 238000013480 data collection Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 24
- 239000000523 sample Substances 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 16
- 238000004140 cleaning Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 11
- 239000013074 reference sample Substances 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 8
- 239000013068 control sample Substances 0.000 claims description 6
- 238000007477 logistic regression Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000003064 k means clustering Methods 0.000 claims description 4
- 238000012417 linear regression Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 238000012549 training Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/16—Implementing security features at a particular protocol layer
- H04L63/168—Implementing security features at a particular protocol layer above the transport layer
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于大数据的网络安全预警系统及方法,属于网络安全技术领域。本发明系统包括数据收集模块、特征提取模块、标记和建模模块、实时判断模块、用户反馈模块和模型优化模块;所述数据收集模块负责自动化地获取信息系统中的数据;所述特征提取模块从历史数据中提取关键的信息特征,并构建历史数据库;所述标记和建模模块通过对历史数据进行标记和建模,创建预测诈骗信息的模型;所述实时判断模块根据实时输入的信息,利用预训练的模型进行判断和评估和生成解决措施;所述用户反馈模块收集和处理用户对实时数据信息标记结果的反馈;所述模型优化模块将结果输出给相关人员,进行模型参数的分析和优化。
Description
技术领域
本发明涉及网络安全技术领域,具体为一种基于大数据的网络安全预警系统及方法。
背景技术
随着信息技术的迅猛发展,大数据技术成为处理和分析大规模数据的重要工具;大数据技术提供了高效的数据收集能力,也使对诈骗信息的甄别提升了难度,现有技术中虽然存在一些方法用于区分诈骗信息和安全信息,但任然存在以下问题:
现有技术通常使用基于静态规则的方法进行诈骗信息的判断,这些规则是预先定义的,无法灵活地适应新的诈骗手段和模式;因此,当出现新型诈骗方式时,现有系统可能无法准确判断;许多现有技术通常需要人工干预来做出决策和防护措施,缺乏智能化和自动化的能力,这导致系统的效率不高,不能及时识别最新的诈骗信息,从而无法有效应对快速变化的网络安全威胁。
发明内容
本发明的目的在于提供一种基于大数据的网络安全预警系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:
一种基于大数据的网络安全预警方法,方法包括以下步骤:
S100.利用大数据技术,自动收集和整理信息系统中的信息,将收集到的信息作为历史数据,对收集到的历史数据进行清洗和预处理,并从经过清洗和预处理的历史数据中提取信息的特征;
S200.基于信息的特征,对历史数据进行标记,其中标记为1的归为诈骗信息,标记为0的归为安全信息;根据标记,构建诈骗信息预测模型;
S300.当用户收到信息时,将信息送入训练好的模型中进行实时判断,根据模型输出的结果,对信息进行标记,即标记为实时诈骗信息、实时疑似诈骗信息以及实时安全信息;基于标记结果,自动生成针对每个标记的相应解决措施;
S400.收集用户反馈数据,计算判断结果的准确性,从而进行系统的持续优化和更新模型参数。
步骤S100包括:
S101.利用大数据技术,自动收集和整理信息系统中的信息,将收集到的信息作为历史数据;所述历史数据包括信息的发送者信息、附件信息以及内容信息;
S102.对收集到的历史数据进行清洗和预处理,并从经过清洗和预处理的历史数据中提取信息的特征,建立信息的历史数据库,将清洗、预处理和提取特征后的数据存储在数据库中,以便后续模型训练和分析使用;所述信息的特征包括发送者IP地址、URL链接特征以及主题关键词,且发送者IP地址对应发送者信息,URL链接特征对应附件信息,主题关键词对应内容信息。
步骤S200包括:
S201.获取历史数据库中的信息特征,将发送者的IP地址转换为数值型特征,将发送者的IP地址进行处理,例如将IPv4地址转换为32位二进制表示或使用其他编码方式,得到数值型特征a1;
对URL链接进行特征编码,可以使用独热编码、哈希编码等方式,得到特征编码a2;提取主题关键词的出现频率,构建特征向量A,且A={a1,a2,a3},其中a1代表发送者的IP地址的数值型特征,a2代表URL链接的特征编码,a3代表主题关键词的出现频率;
S202.对特征向量A进行标准化处理,在K-means聚类完成后,对历史数据进行分类标记为1或0,其中标记为1的归为诈骗信息,标记为0的归为安全信息;
S203.根据历史数据的分类结果,对标记为为1的诈骗信息的特征向量的每个值求平均值,作为信息的对照样本A_1;计算标记为1的诈骗信息与对照样本A_1的相似度和计算标记为0的安全信息与对照样本A_1的相似度;
将特征向量A的取值作为输入值,上述相似度Z作为输出值,构建逻辑回归模型,即Z=w1*a1+w2*a2+w3*a3,其中wi为权重系数,且i的取值为1,2,3,其中w1表示计算发送者的IP地址的数值型特征的权重系数,w2表示URL链接的特征编码信息的权重系数,w3表示主题关键词的出现频率的权重系数;
再利用信息的相似度Z应用激活函数将线性回归结果转换为概率值,构建诈骗信息预测模型,计算公式为根据历史数据的分类结果,得出信息为诈骗信息的概率平均值为P1,信息为安全信息的概率平均值为P2,且P1>P2。
K-means算法对历史数据进行分类包括以下步骤:
a.从数据集中随机选择两个特征向量作为样本,并为初始的质心点,这两个样本将成为两个初始的簇中心;
b.对于每个特征向量的数据点,计算其与两个质心点的距离,对于样本i和质心j,距离计算公式如下:
其中xik表示样本i在特征a_k上的取值,cjk表示簇中心j在特征a_k上的取值;
c.对于每个簇,重新计算质心为该簇内样本各特征的均值,对于簇j,质心更新公式如下:
其中Cj表示第j个簇中的所有样本的集合;
d.重复步骤b和步骤c,对于每个样本,根据距离重新分配簇,并更新质心,反复迭代直到质心稳定或达到最大迭代次数,其中根据已有的诈骗信息和安全信息的参考样本,对结果进行标记为1或0。
步骤S300包括:
S301.当用户收到信息时,将信息送入训练好的逻辑回归模型和诈骗信息预测模型中进行实时判断;若输出的值P0∈[0,P1],则标记为实时安全信息;若输出的值P0∈(P1,P2),则标记为实时疑似诈骗信息;若输出的值P0∈[P1,1],则标记为实时诈骗信息;
由于诈骗信息预测模型的输出结果是诈骗信息的概率,因此当输出结果的值越小,则表示为诈骗信息的可能性越小,又因为在诈骗信息预测模型训练过程中计算出了历史数据中安全信息的平均概率,所以只要实时数据输出诈骗信息的概率小于等于历史数据中安全信息的平均概率,就说明为实时安全信息;同理,只要实时数据输出诈骗信息的概率大于等于历史数据中诈骗信息的平均概率,就说明为实时诈骗信息;当实时数据输出诈骗信息的概率处于历史数据中安全信息的平均概率和历史数据中诈骗信息的平均概率之间时,需要进一步的分析实时数据的所属类别,这样的实时判断能够及时识别出潜在的诈骗信息,并为用户提供更加准确的安全保障。
S302.对于实时安全信息,则将信息传递给用户,将该信息直接传递给用户,以确保用户能够正常接收并使用这些信息;对于实时疑似诈骗信息,则转到步骤S303;对于实时诈骗信息进行过滤操作,并输出至相关人员,由相关人员根据特征集合进行比较,若与特征集合不一致,则进行更新,若与特征集合一致,则进行下一次检测,可以实时更新数据库,使判断的结果更加准确;
S303.获取实时疑似诈骗信息,传输至相关人员,由相关人员进行分析,若分析结果为实时安全信息,则将此类信息作为K-means算法中安全信息参考样本,对相应的数值进行优化;若分析结果为实时诈骗信息,则将此类信息作为K-means算法中诈骗信息参考样本,对相应的数值进行优化,作为K-means算法中的安全信息参考样本,并根据相应的数值进行优化。这样可以逐步提高模型对安全信息的准确判断能力。
通过上述步骤的实施,系统可以实现对用户收到的实时信息的判断和处理。实时判断能够及时地将安全信息传递给用户,同时将疑似诈骗信息进一步分析和处理,从而提高信息安全性和降低风险。通过不断更新特征集合并优化模型,系统可以不断改进对安全信息和诈骗信息的识别能力,提高整个系统的效果和准确性。
步骤S400包括:
S401.收集用户对实时数据信息标记结果的反馈数据,对反馈数据进行整理和存储;
S402.根据用户反馈数据,计算判断结果的准确性,计算公式如下:
其中,TP表示实际为诈骗信息且被正确地标记为诈骗信息的样本数量;TN表示实际为安全信息且被正确地标记为安全信息的样本数量;FP表示实际为安全信息但被错误地标记为诈骗信息的样本数量;FN表示实际为诈骗信息但被错误地标记为安全信息的样本数量;
S403.根据计算结果,输出至相关人员,提醒相关人员对模型进行相应的优化操作,使预测结果的准确性更加精确。
一种基于大数据的网络安全预警系统,系统包括数据收集模块、特征提取模块、标记和建模模块、实时判断模块、用户反馈模块和模型优化模块;
数据收集模块负责自动化地获取信息系统中的数据,并将其进行清洗和预处理,以便后续的特征提取和建模步骤使用;特征提取模块从历史数据中提取关键的信息特征,并构建一个信息的历史数据库,以供后续的标记和建模步骤使用;标记和建模模块通过对历史数据进行标记和建模,创建一个能够预测诈骗信息的模型,以便后续的实时判断模块使用;实时判断模块根据实时输入的信息,利用预训练的模型进行判断和评估,并生成相应的标记和解决措施,以提供网络安全预警;用户反馈模块收集和处理用户对实时数据信息标记结果的反馈,以便后续的模型优化步骤使用;模型优化模块通过计算判断结果的准确性,并将结果输出给相关人员,进行模型参数的分析和优化,从而提高系统的预测准确性和性能。
数据收集模块包括数据采集单元和数据清洗单元,数据采集单元负责从各个信息源收集数据,并将其传递给下一个单元进行处理;数据清洗单元清洗和预处理收集到的数据,去除噪声、冗余和不完整的数据;
特征提取模块包括特征选择单元和特征转换单元,特征选择单元根据网络安全预警的需求,对特征进行提取;特征转换单元将原始数据转换为可供建模使用的特征表示。
标记和建模模块包括标记单元和建模单元,标记单元根据历史数据的分析,对数据进行标记,将其划分为诈骗信息和安全信息;建模单元利用标记的历史数据,训练预测模型;
实时判断模块包括实时输入单元和实时判断单元,实时输入单元接收来自信息系统的实时数据,并将其传递给实时判断单元进行判断;实时判断单元利用训练好的模型对实时数据进行分析和判断,确定其是否是诈骗信息或安全信息。
用户反馈模块包括反馈收集单元和反馈处理单元,反馈收集单元收集用户对预警结果的反馈信息,并存储为反馈数据;反馈处理单元根据用户反馈数据,对预警结果进行分析和评估;
模型优化模块包括准确率计算单元和参数优化单元,准确率计算单元根据用户反馈数据,计算判断结果的准确性;参数优化单元根据新的数据和优化策略,更新预警模型的参数。
与现有技术相比,本发明所达到的有益效果是:利用大数据技术自动收集和整理信息系统中的信息,并从历史数据中提取特征进行预测模型构建;通过实时判断用户收到的信息,并根据模型输出结果进行标记和生成相应的解决措施,可以及时识别和处理诈骗信息;通过收集用户反馈数据并计算准确性,可以不断优化和更新模型参数,提高预警系统的效果和性能;在数据处理过程中,对发送者IP地址、URL链接特征以及主题关键词等进行特征提取和处理,增加了预测模型的精度和准确性;通过K-means算法对历史数据进行分类,将诈骗信息和安全信息进行区分,并作为参考样本进行模型的训练和优化;本发明具有较强的实时性和处理效率,能够快速识别和处理网络安全威胁,保护用户的信息安全。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种基于大数据的网络安全预警方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供技术方案:
一种基于大数据的网络安全预警方法,方法包括以下步骤:
S100.利用大数据技术,自动收集和整理信息系统中的信息,将收集到的信息作为历史数据,对收集到的历史数据进行清洗和预处理,并从经过清洗和预处理的历史数据中提取信息的特征;
S101.利用大数据技术,自动收集和整理信息系统中的信息,将收集到的信息作为历史数据;所述历史数据包括信息的发送者信息、附件信息以及内容信息;
S102.对收集到的历史数据进行清洗和预处理,并从经过清洗和预处理的历史数据中提取信息的特征,建立信息的历史数据库,将清洗、预处理和提取特征后的数据存储在数据库中,以便后续模型训练和分析使用;所述信息的特征包括发送者IP地址、URL链接特征以及主题关键词,且发送者IP地址对应发送者信息,URL链接特征对应附件信息,主题关键词对应内容信息。
S200.基于信息的特征,对历史数据进行标记,其中标记为1的归为诈骗信息,标记为0的归为安全信息;根据标记,构建诈骗信息预测模型;
S201.获取历史数据库中的信息特征,将发送者的IP地址转换为数值型特征,将发送者的IP地址进行处理,例如将IPv4地址转换为32位二进制表示或使用其他编码方式,得到数值型特征a1;
对URL链接进行特征编码,可以使用独热编码、哈希编码等方式,得到特征编码a2;提取主题关键词的出现频率,构建特征向量A,且A={a1,a2,a3},其中a1代表发送者的IP地址的数值型特征,a2代表URL链接的特征编码,a3代表主题关键词的出现频率;
S202.对特征向量A进行标准化处理,在K-means聚类完成后,对历史数据进行分类标记为1或0,其中标记为1的归为诈骗信息,标记为0的归为安全信息;
S203.根据历史数据的分类结果,对标记为为1的诈骗信息的特征向量的每个值求平均值,作为信息的对照样本A_1;计算标记为1的诈骗信息与对照样本A_1的相似度和计算标记为0的安全信息与对照样本A_1的相似度;
将特征向量A的取值作为输入值,上述相似度Z作为输出值,构建逻辑回归模型,即Z=w1*a1+w2*a2+w3*a3,其中wi为权重系数,且i的取值为1,2,3,其中w1表示计算发送者的IP地址的数值型特征的权重系数,w2表示URL链接的特征编码信息的权重系数,w3表示主题关键词的出现频率的权重系数;
再利用信息的相似度Z应用激活函数将线性回归结果转换为概率值,构建诈骗信息预测模型,计算公式为根据历史数据的分类结果,得出信息为诈骗信息的概率平均值为P1,信息为安全信息的概率平均值为P2,且P1>P2。
K-means算法对历史数据进行分类包括以下步骤:
a.从数据集中随机选择两个特征向量作为样本,并为初始的质心点,这两个样本将成为两个初始的簇中心;
b.对于每个特征向量的数据点,计算其与两个质心点的距离,对于样本i和质心j,距离计算公式如下:
其中xik表示样本i在特征a_k上的取值,cjk表示簇中心j在特征a_k上的取值;
c.对于每个簇,重新计算质心为该簇内样本各特征的均值,对于簇j,质心更新公式如下:
其中Cj表示第j个簇中的所有样本的集合;
d.重复步骤b和步骤c,对于每个样本,根据距离重新分配簇,并更新质心,反复迭代直到质心稳定或达到最大迭代次数,其中根据已有的诈骗信息和安全信息的参考样本,对结果进行标记为1或0。
下面是具体的实施例,
步骤S201:构建特征向量A,将发送者的IP地址转换为数值型特征,对URL链接进行特征编码,提取主题关键词的出现频率,构建特征向量A,且A={a1,a2,a3};假设:
A1={192.168.1.1,abc.com,0.5};
A2={192.168.1.2,xyz.com,0.8};
A3={192.168.1.3,pqr.com,0.4};
A4={192.168.1.4,xyz.com,0.7};
转换为特征向量:
A1=[192.168.1.1,0.1,0.5];
A2=[192.168.1.2,0.2,0.8];
A3=[192.168.1.3,0.3,0.4];
A4=[192.168.1.4,0.2,0.7];
步骤S202:标准化处理和K-means聚类;
对特征向量A进行标准化处理,得到的特征向量为:
A1_norm=[0.2,0.4,0.5];
A2_norm=[0.4,0.6,0.8];
A3_norm=[0.6,0.2,0.4];
A4_norm=[0.8,0.6,0.7];
然后使用K-means算法对历史数据进行分类。假设选择K=2,初始质心为[0.3,0.1,0.1]和[0.6,0.9,0.9],进行迭代计算直到质心稳定。
迭代过程如下:
第一轮迭代:样本1分配给簇1,样本2分配给簇2,样本3分配给簇1,样本4分配给簇2;
更新簇1的质心为[0.3,0.3,0.45],更新簇2的质心为[0.7,0.6,0.75];
第二轮迭代:样本1分配给簇1,样本2分配给簇2,样本3分配给簇1,样本4分配给簇2;
簇质心保持不变。
根据以上迭代结果,可以将历史数据分类标记为:A1和A3标记为1,为诈骗信息,A2和A4标记为0,为安全信息;
步骤S203:计算权重系数和信息的相似度,根据特征向量A的取值计算权重系数W,并得到信息的相似度Z。
假设权重系数为[0.4,0.3,-0.3],则计算信息的相似度Z如下:
Z=0.4*a1+0.3*a2-0.3*a3;
这里的a1、a2、a3分别代表特征向量A中的第一、第二、第三个特征值。
构建诈骗信息预测模型,将线性回归结果Z应用激活函数,转换为概率值,从而构建诈骗信息预测模型;假设得到的输出概率值为P1=0.7(诈骗信息)和P2=0.4(安全信息)。
S300.当用户收到信息时,将信息送入训练好的模型中进行实时判断,根据模型输出的结果,对信息进行标记,即标记为实时诈骗信息、实时疑似诈骗信息以及实时安全信息;基于标记结果,自动生成针对每个标记的相应解决措施;
S301.当用户收到信息时,将信息送入训练好的逻辑回归模型和诈骗信息预测模型中进行实时判断;若输出的值P0∈[0,P1],则标记为实时安全信息;若输出的值P0∈(P1,P2),则标记为实时疑似诈骗信息;若输出的值P0∈[P1,1],则标记为实时诈骗信息;
由于诈骗信息预测模型的输出结果是诈骗信息的概率,因此当输出结果的值越小,则表示为诈骗信息的可能性越小,又因为在诈骗信息预测模型训练过程中计算出了历史数据中安全信息的平均概率,所以只要实时数据输出诈骗信息的概率小于等于历史数据中安全信息的平均概率,就说明为实时安全信息;同理,只要实时数据输出诈骗信息的概率大于等于历史数据中诈骗信息的平均概率,就说明为实时诈骗信息;当实时数据输出诈骗信息的概率处于历史数据中安全信息的平均概率和历史数据中诈骗信息的平均概率之间时,需要进一步的分析实时数据的所属类别,这样的实时判断能够及时识别出潜在的诈骗信息,并为用户提供更加准确的安全保障。
S302.对于实时安全信息,则将信息传递给用户,将该信息直接传递给用户,以确保用户能够正常接收并使用这些信息;对于实时疑似诈骗信息,则转到步骤S303;对于实时诈骗信息进行过滤操作,并输出至相关人员,由相关人员根据特征集合进行比较,若与特征集合不一致,则进行更新,若与特征集合一致,则进行下一次检测,可以实时更新数据库,使判断的结果更加准确;
S303.获取实时疑似诈骗信息,传输至相关人员,由相关人员进行分析,若分析结果为实时安全信息,则将此类信息作为K-means算法中安全信息参考样本,对相应的数值进行优化;若分析结果为实时诈骗信息,则将此类信息作为K-means算法中诈骗信息参考样本,对相应的数值进行优化,作为K-means算法中的安全信息参考样本,并根据相应的数值进行优化。这样可以逐步提高模型对安全信息的准确判断能力。
通过上述步骤的实施,系统可以实现对用户收到的实时信息的判断和处理。实时判断能够及时地将安全信息传递给用户,同时将疑似诈骗信息进一步分析和处理,从而提高信息安全性和降低风险。通过不断更新特征集合并优化模型,系统可以不断改进对安全信息和诈骗信息的识别能力,提高整个系统的效果和准确性。
在本实例中,
步骤S301:实时判断信息类型
假设有训练好的模型,并且模型输出的概率值为P0=0.6,且P1=0.7,P2=0.4;
当用户收到一条新的信息时,将该信息送入模型中进行实时判断。根据模型输出的结果和概率值范围,对信息进行标记:
若P0∈[0,P1],则标记为实时安全信息;
若P0∈(P1,P2),则标记为实时疑似诈骗信息;
若P0∈[P2,1],则标记为实时诈骗信息;
由此可见,当P0=0.6时,满足若P0∈(P1,P2),则标记为实时疑似诈骗信息;步骤S302:处理实时安全信息和实时疑似诈骗信息
对于实时安全信息,直接将信息传递给用户;
对于实时疑似诈骗信息,进入下一步骤S303进行分析;
步骤S303:分析实时疑似诈骗信息
将实时疑似诈骗信息传输至相关人员进行分析;根据分析结果:
若分析结果为实时安全信息,则将该信息作为K-means算法中安全信息参考样本,并对相应的数值进行优化。这样可以不断更新特征集合,提高模型的准确性。
若分析结果为实时诈骗信息,则将该信息作为K-means算法中诈骗信息参考样本,并对相应的数值进行优化。同样地,这也有助于不断更新特征集合,提高模型的准确性。
S400.收集用户反馈数据,计算判断结果的准确性,从而进行系统的持续优化和更新模型参数。
S401.收集用户对实时数据信息标记结果的反馈数据,对反馈数据进行整理和存储;
S402.根据用户反馈数据,计算判断结果的准确性,计算公式如下:
其中,TP表示实际为诈骗信息且被正确地标记为诈骗信息的样本数量;TN表示实际为安全信息且被正确地标记为安全信息的样本数量;FP表示实际为安全信息但被错误地标记为诈骗信息的样本数量;FN表示实际为诈骗信息但被错误地标记为安全信息的样本数量;
S403.根据计算结果,输出至相关人员,提醒相关人员对模型进行相应的优化操作,使预测结果的准确性更加精确。
假设有10条反馈数据,其中:
TP=2,即实际为诈骗信息且被正确标记为实时诈骗信息的样本数量;
TN=2,即实际为安全信息且被正确标记为实时安全信息的样本数量;
FP=1,即实际为安全信息但被错误地标记为实时疑似诈骗信息的样本数量;
FN=5,即实际为诈骗信息但被错误地标记为实时安全信息的样本数量。
根据公式计算:
P(A)=0.4,在这个实施例中,准确性的值为0.4,说明系统当前的判断结果的准确性较低,相关人员可以针对收集到的用户反馈数据进行分析,调整模型的参数、特征选择或算法等,以提高判断结果的准确性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于大数据的网络安全预警方法,其特征在于:所述方法包括以下步骤:
S100.利用大数据技术,自动收集和整理信息系统中的信息,将收集到的信息作为历史数据,对收集到的历史数据进行清洗和预处理,并从经过清洗和预处理的历史数据中提取信息的特征;
S200.基于信息的特征,对历史数据进行标记,其中标记为1的归为诈骗信息,标记为0的归为安全信息;根据标记,构建诈骗信息预测模型;
S300.当用户收到信息时,将信息送入训练好的模型中进行实时判断,根据模型输出的结果,对信息进行进行标记,即标记为实时诈骗信息、实时疑似诈骗信息以及实时安全信息;基于标记结果,自动生成针对每个标记的相应解决措施;
S400.收集用户反馈数据,计算判断结果的准确性,从而进行系统的持续优化和更新模型参数。
2.根据权利要求1所述的一种基于大数据的网络安全预警方法,其特征在于:所述步骤S100包括:
S101.利用大数据技术,自动收集和整理信息系统中的信息,将收集到的信息作为历史数据;所述历史数据包括信息的发送者信息、附件信息以及内容信息;
S102.对收集到的历史数据进行清洗和预处理,并从经过清洗和预处理的历史数据中提取信息的特征,建立信息的历史数据库;所述信息的特征包括发送者IP地址、URL链接特征以及主题关键词。
3.根据权利要求2所述的一种基于大数据的网络安全预警方法,其特征在于:步骤S200包括:
S201.获取历史数据库中的信息特征,将发送者的IP地址转换为数值型特征,对URL链接进行特征编码,提取主题关键词的出现频率,构建特征向量A,且A={a1,a2,a3},其中a1代表发送者的IP地址的数值型特征,a2代表URL链接的特征编码,a3代表主题关键词的出现频率;
S202.对特征向量A进行标准化处理,在K-means聚类完成后,对历史数据进行分类标记为1或0,其中标记为1的归为诈骗信息,标记为0的归为安全信息;
S203.根据历史数据的分类结果,对标记为为1的诈骗信息的特征向量的每个值求平均值,作为信息的对照样本A_1;计算标记为1的诈骗信息与对照样本A_1的相似度和计算标记为0的安全信息与对照样本A_1的相似度;
将特征向量A的取值作为输入值,上述相似度Z作为输出值,构建逻辑回归模型,即Z=w1*a1+w2*a2+w3*a3,其中wi为权重系数,且i的取值为1,2,3,其中w1表示计算发送者的IP地址的数值型特征的权重系数,w2表示URL链接的特征编码信息的权重系数,w3表示主题关键词的出现频率的权重系数;
再利用信息的相似度Z应用激活函数将线性回归结果转换为概率值,构建诈骗信息预测模型,计算公式为根据历史数据的分类结果,得出信息为诈骗信息的概率平均值为P1,信息为安全信息的概率平均值为P2,且P1>P2。
4.根据权利要求3所述的一种基于大数据的网络安全预警方法,其特征在于:所述K-means算法对历史数据进行分类包括以下步骤:
a.从数据集中随机选择两个特征向量作为样本,并为初始的质心点,这两个样本将成为两个初始的簇中心;
b.对于每个特征向量的数据点,计算其与两个质心点的距离,对于样本i和质心j,距离计算公式如下:
其中xik表示样本i在特征a_k上的取值,cjk表示簇中心j在特征a_k上的取值;
c.对于每个簇,重新计算质心为该簇内样本各特征的均值,对于簇j,质心更新公式如下:
其中Cj表示第j个簇中的所有样本的集合;
d.重复步骤b和步骤c,对于每个样本,根据距离重新分配簇,并更新质心,反复迭代直到质心稳定或达到最大迭代次数,其中根据已有的诈骗信息和安全信息的参考样本,对结果进行标记为1或0。
5.根据权利要求3所述的一种基于大数据的网络安全预警方法,其特征在于:所述步骤S300包括:
S301.当用户收到信息时,将信息送入训练好的逻辑回归模型和诈骗信息预测模型中进行实时判断;若输出的值P0∈[0,P1],则标记为实时安全信息;若输出的值P0∈(P1,P2),则标记为实时疑似诈骗信息;若输出的值P0∈[P1,1],则标记为实时诈骗信息;
S302.对于实时安全信息,则将信息传递给用户;对于实时疑似诈骗信息,则转到步骤S303;对于实时诈骗信息进行过滤操作,并输出至相关人员,由相关人员根据特征集合进行比较,若与特征集合不一致,则进行更新,若与特征集合一致,则进行下一次检测;
S303.获取实时疑似诈骗信息,传输至相关人员,由相关人员进行分析,若分析结果为实时安全信息,则将此类信息作为K-means算法中安全信息参考样本;若分析结果为实时诈骗信息,则将此类信息作为K-means算法中诈骗信息参考样本。
6.根据权利要求5所述的一种基于大数据的网络安全预警方法,其特征在于:所述步骤S400包括:
S401.收集用户对实时数据信息标记结果的反馈数据,对反馈数据进行整理和存储;
S402.根据用户反馈数据,计算判断结果的准确性,计算公式如下:
其中,TP表示实际为诈骗信息且被正确地标记为诈骗信息的样本数量;TN表示实际为安全信息且被正确地标记为安全信息的样本数量;FP表示实际为安全信息但被错误地标记为诈骗信息的样本数量;FN表示实际为诈骗信息但被错误地标记为安全信息的样本数量;
S403.根据计算结果,输出至相关人员,提醒相关人员对模型进行相应的优化操作。
7.一种基于大数据的网络安全预警系统,其特征在于:所述系统包括数据收集模块、特征提取模块、标记和建模模块、实时判断模块、用户反馈模块和模型优化模块;
所述数据收集模块负责自动化地获取信息系统中的数据,并将其进行清洗和预处理,以便后续的特征提取和建模步骤使用;所述特征提取模块从历史数据中提取关键的信息特征,并构建信息的历史数据库;所述标记和建模模块通过对历史数据进行标记和建模,创建预测诈骗信息的模型;所述实时判断模块根据实时输入的信息,利用预训练的模型进行判断和评估,并生成相应的标记和解决措施,提供网络安全预警;所述用户反馈模块收集和处理用户对实时数据信息标记结果的反馈;所述模型优化模块通过计算判断结果的准确性,并将结果输出给相关人员,进行模型参数的分析和优化。
8.根据权利要求7所述的一种基于大数据的网络安全预警系统,其特征在于:所述数据收集模块包括数据采集单元和数据清洗单元,所述数据采集单元负责从各个信息源收集数据,并将其传递给下一个单元进行处理;所述数据清洗单元清洗和预处理收集到的数据,去除噪声、冗余和不完整的数据;
所述特征提取模块包括特征选择单元和特征转换单元,所述特征选择单元根据网络安全预警的需求,对特征进行提取;所述特征转换单元将原始数据转换为可供建模使用的特征表示。
9.根据权利要求7所述的一种基于大数据的网络安全预警系统,其特征在于:所述标记和建模模块包括标记单元和建模单元,所述标记单元根据历史数据的分析,对数据进行标记,将其划分为诈骗信息和安全信息;所述建模单元利用标记的历史数据,训练预测模型;
所述实时判断模块包括实时输入单元和实时判断单元,所述实时输入单元接收来自信息系统的实时数据,并将其传递给实时判断单元进行判断;所述实时判断单元利用训练好的模型对实时数据进行分析和判断,确定其是否是诈骗信息或安全信息。
10.根据权利要求7所述的一种基于大数据的网络安全预警系统,其特征在于:所述用户反馈模块包括反馈收集单元和反馈处理单元,所述反馈收集单元收集用户对预警结果的反馈信息,并存储为反馈数据;所述反馈处理单元根据用户反馈数据,对预警结果进行分析和评估;
所述模型优化模块包括准确率计算单元和参数优化单元,所述准确率计算单元根据用户反馈数据,计算判断结果的准确性;所述参数优化单元根据新的数据和优化策略,更新预警模型的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311103450.9A CN117061198B (zh) | 2023-08-30 | 2023-08-30 | 一种基于大数据的网络安全预警系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311103450.9A CN117061198B (zh) | 2023-08-30 | 2023-08-30 | 一种基于大数据的网络安全预警系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117061198A true CN117061198A (zh) | 2023-11-14 |
CN117061198B CN117061198B (zh) | 2024-02-02 |
Family
ID=88664334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311103450.9A Active CN117061198B (zh) | 2023-08-30 | 2023-08-30 | 一种基于大数据的网络安全预警系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117061198B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118101344A (zh) * | 2024-04-24 | 2024-05-28 | 深圳市壹通道科技有限公司 | 一种针对5g消息的传输安全识别系统、方法及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108259415A (zh) * | 2016-12-28 | 2018-07-06 | 北京奇虎科技有限公司 | 一种邮件检测的方法及装置 |
US20190213605A1 (en) * | 2016-09-26 | 2019-07-11 | Harman International Industries, Incorporated | Systems and methods for prediction of automotive warranty fraud |
CN110267272A (zh) * | 2019-06-28 | 2019-09-20 | 国家计算机网络与信息安全管理中心 | 一种诈骗短信识别方法及识别系统 |
CN110503206A (zh) * | 2019-08-09 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 一种预测模型更新方法、装置、设备及可读介质 |
CN110519150A (zh) * | 2018-05-22 | 2019-11-29 | 深信服科技股份有限公司 | 邮件检测方法、装置、设备、系统及计算机可读存储介质 |
CN111614543A (zh) * | 2020-04-10 | 2020-09-01 | 中国科学院信息工程研究所 | 一种基于url的鱼叉式钓鱼邮件检测方法及系统 |
CN112039874A (zh) * | 2020-08-28 | 2020-12-04 | 绿盟科技集团股份有限公司 | 一种恶意邮件的识别方法及装置 |
CN113627566A (zh) * | 2021-08-23 | 2021-11-09 | 上海淇玥信息技术有限公司 | 一种网络诈骗的预警方法、装置和计算机设备 |
CN114707685A (zh) * | 2021-12-17 | 2022-07-05 | 武汉烽火众智智慧之星科技有限公司 | 一种基于大数据建模分析的事件预测方法及装置 |
US20230007042A1 (en) * | 2018-02-20 | 2023-01-05 | Darktrace Holdings Limited | A method and system for determining and acting on an email cyber threat campaign |
-
2023
- 2023-08-30 CN CN202311103450.9A patent/CN117061198B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190213605A1 (en) * | 2016-09-26 | 2019-07-11 | Harman International Industries, Incorporated | Systems and methods for prediction of automotive warranty fraud |
CN108259415A (zh) * | 2016-12-28 | 2018-07-06 | 北京奇虎科技有限公司 | 一种邮件检测的方法及装置 |
US20230007042A1 (en) * | 2018-02-20 | 2023-01-05 | Darktrace Holdings Limited | A method and system for determining and acting on an email cyber threat campaign |
CN110519150A (zh) * | 2018-05-22 | 2019-11-29 | 深信服科技股份有限公司 | 邮件检测方法、装置、设备、系统及计算机可读存储介质 |
CN110267272A (zh) * | 2019-06-28 | 2019-09-20 | 国家计算机网络与信息安全管理中心 | 一种诈骗短信识别方法及识别系统 |
CN110503206A (zh) * | 2019-08-09 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 一种预测模型更新方法、装置、设备及可读介质 |
CN111614543A (zh) * | 2020-04-10 | 2020-09-01 | 中国科学院信息工程研究所 | 一种基于url的鱼叉式钓鱼邮件检测方法及系统 |
CN112039874A (zh) * | 2020-08-28 | 2020-12-04 | 绿盟科技集团股份有限公司 | 一种恶意邮件的识别方法及装置 |
CN113627566A (zh) * | 2021-08-23 | 2021-11-09 | 上海淇玥信息技术有限公司 | 一种网络诈骗的预警方法、装置和计算机设备 |
CN114707685A (zh) * | 2021-12-17 | 2022-07-05 | 武汉烽火众智智慧之星科技有限公司 | 一种基于大数据建模分析的事件预测方法及装置 |
Non-Patent Citations (1)
Title |
---|
高雅诗: ""电信用户行为的概率图分类方法研究与实现"" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118101344A (zh) * | 2024-04-24 | 2024-05-28 | 深圳市壹通道科技有限公司 | 一种针对5g消息的传输安全识别系统、方法及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117061198B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117061198B (zh) | 一种基于大数据的网络安全预警系统及方法 | |
CN111237988B (zh) | 地铁车载空调机组控制方法及系统 | |
CN117421684B (zh) | 基于数据挖掘和神经网络的异常数据监测与分析方法 | |
CN113378990B (zh) | 基于深度学习的流量数据异常检测方法 | |
CN113762329A (zh) | 一种大型轧机状态预测模型的构建方法及构建系统 | |
CN110636066B (zh) | 基于无监督生成推理的网络安全威胁态势评估方法 | |
CN116823227A (zh) | 一种基于物联网的智能设备管理系统及方法 | |
CN105354198A (zh) | 一种数据处理方法及装置 | |
CN110851422A (zh) | 一种基于机器学习的数据异常监测模型构建方法 | |
CN111917785A (zh) | 一种基于de-gwo-svr的工业互联网安全态势预测方法 | |
CN117235655B (zh) | 基于联邦学习的智慧供热异常工况识别方法及系统 | |
CN117035456B (zh) | 一种智慧工地监控管理方法及系统 | |
CN108762503A (zh) | 一种基于多模态数据采集的人机交互系统 | |
CN117593101B (zh) | 基于多维数据的金融风险数据处理分析方法及系统 | |
CN116861924A (zh) | 基于人工智能的项目风险预警方法及系统 | |
CN117351659B (zh) | 一种水文地质灾害监测装置及监测方法 | |
CN118097567A (zh) | 一种基于工地视频的工料机要素化分析采集系统及方法 | |
CN117236665B (zh) | 物资生产调度优化方法及系统 | |
CN113674846A (zh) | 基于lstm网络的医院智慧服务舆情监控平台 | |
CN116796894A (zh) | 一种高效深度学习气象预测模型的构建方法 | |
CN109636194B (zh) | 一种输变电项目重大变动多源协同检测方法与系统 | |
CN114648688B (zh) | 高铁沿线景观等级评估方法、系统、设备及可读存储介质 | |
CN116126807A (zh) | 一种日志分析方法及相关装置 | |
CN114266483B (zh) | 一种基于物联网的危险废物监管系统 | |
CN113487114A (zh) | 基于NB-IoT工业生态环境监测的GA-SVM预警模型系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |