CN113497784A - 检测情报数据的方法、装置及计算机可读存储介质 - Google Patents
检测情报数据的方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113497784A CN113497784A CN202010198977.4A CN202010198977A CN113497784A CN 113497784 A CN113497784 A CN 113497784A CN 202010198977 A CN202010198977 A CN 202010198977A CN 113497784 A CN113497784 A CN 113497784A
- Authority
- CN
- China
- Prior art keywords
- data
- information
- target
- intelligence
- attack
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 238000010801 machine learning Methods 0.000 claims abstract description 28
- 238000001514 detection method Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 33
- 238000000605 extraction Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 241000700605 Viruses Species 0.000 description 2
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/30—Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
- H04L63/302—Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information gathering intelligence information for situation awareness or reconnaissance
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Technology Law (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本公开提供了一种检测情报数据的方法、装置及计算机可读存储介质,涉及信息安全领域。其中的检测情报数据的方法包括:从服务器日志中获取服务器受到网络攻击的目标情报数据;确定目标情报数据的已存在时长;从目标情报数据中提取攻击类型特征、情报地区特征以及情报关联特征;将已存在时长、攻击类型特征、情报地区特征、以及情报关联特征输入预先训练的机器学习模型获得检测结果,检测结果指示目标情报数据是否失效。本公开从情报数据中提取各项特征,进而通过机器学习模型检测情报数据是否失效,提高了检测情报数据是否失效的准确性及检测效率。
Description
技术领域
本公开涉及信息安全领域,特别涉及一种检测情报数据的方法、装置及计算机可读存储介质。
背景技术
随着网络信息的激增,信息安全问题的重要性也日趋增强。
服务器受到网络攻击等安全威胁时会获得情报数据,基于对情报数据的分析能够在一定程度上发现现存的信息安全问题。
然而,情报数据是信息的集合,凡是信息都具有时效性。情报数据的有效时间通常较短,攻击者可能会为了隐藏自己的踪迹不断的更换一些攻击特征信息。例如,某企业服务器一直被大量的CC(Challenge Collapsar,挑战黑洞)攻击,通过调取服务器日志,并且成功溯源到攻击者的IP地址之后,企业发现未遭受损失因此未采取措施。等企业发现有机密信息被窃取后再进行处理,发现追踪到的IP地址已经无效,错过了情报的有效期。因此,检测情报数据的有效性显得尤为重要。
发明内容
本公开解决的一个技术问题是,如何提高检测情报数据是否失效的准确性及检测效率。
根据本公开实施例的一个方面,提供了一种检测情报数据的方法,包括:从服务器日志中获取服务器受到网络攻击的目标情报数据;确定目标情报数据的已存在时长;从目标情报数据中提取攻击类型特征、情报地区特征以及情报关联特征;将已存在时长、攻击类型特征、情报地区特征、以及情报关联特征输入预先训练的机器学习模型获得检测结果,检测结果指示目标情报数据是否失效。
在一些实施例中,通过以下方式从目标情报数据中提取情报关联特征:从服务器日志中获取服务器受到网络攻击的其他各个情报数据;分别提取目标情报数据及其他各个情报数据中的网络攻击IP地址、网络攻击域名以及网络攻击脚本文件的哈希值;生成情报数据网络,情报数据网络中的各个节点分别表示目标情报数据及其他各个情报数据,情报数据网络中的边表示所连接节点对应的两个情报数据具有相同的网络攻击IP地址、相同的网络攻击域名或相同的网络攻击脚本文件哈希值;利用不同的节点标识分别表示情报数据网络中的各个节点,利用不同的节点标识序列分别表示情报数据网络中的各条链路;将目标节点的节点标识输入利用各个节点标识序列训练得到的第一词向量模型,获得情报关联特征。
在一些实施例中,该方法还包括:利用各个节点标识序列对第一词向量模型进行训练,使第一词向量模型能够对输入的目标节点的节点标识进行处理,获得情报关联特征。
在一些实施例中,通过以下方式从目标情报数据中提取攻击类型特征:从目标情报数据中提取网络攻击的攻击类型信息;对攻击类型信息进行独热编码,获得攻击类型特征。
在一些实施例中,通过以下方式从目标情报数据中提取情报地区特征:从目标情报数据中提取网络攻击的攻击地区信息;将攻击地区信息输入预先训练的第二词向量模型,获得情报地区特征。
在一些实施例中,该方法还包括:从服务器日志中获取服务器受到网络攻击的样本情报数据;确定样本情报数据的已存在时长;从样本情报数据中提取攻击类型特征、情报地区特征以及情报关联特征;将样本情报数据的已存在时长、样本情报数据的攻击类型特征、情报地区特征、情报关联特征作为训练数据,将样本情报数据是否失效作为训练标签,对机器学习模型进行训练,使机器学习模型能够检测目标情报数据是否失效。
根据本公开实施例的另一个方面,提供了一种检测情报数据的装置,包括:数据获取模块,被配置为从服务器日志中获取服务器受到网络攻击的目标情报数据;时长确定模块,被配置为确定目标情报数据的已存在时长;特征提取模块,被配置为从目标情报数据中提取攻击类型特征、情报地区特征以及情报关联特征;失效检测模块,被配置为将已存在时长、攻击类型特征、情报地区特征、以及情报关联特征输入预先训练的机器学习模型获得检测结果,检测结果指示目标情报数据是否失效。
在一些实施例中,特征提取模块被配置为通过以下方式从目标情报数据中提取情报关联特征:从服务器日志中获取服务器受到网络攻击的其他各个情报数据;分别提取目标情报数据及其他各个情报数据中的网络攻击IP地址、网络攻击域名以及网络攻击脚本文件的哈希值;生成情报数据网络,情报数据网络中的各个节点分别表示目标情报数据及其他各个情报数据,情报数据网络中的边表示所连接节点对应的两个情报数据具有相同的网络攻击IP地址、相同的网络攻击域名或相同的网络攻击脚本文件哈希值;利用不同的节点标识分别表示情报数据网络中的各个节点,利用不同的节点标识序列分别表示情报数据网络中的各条链路;将目标节点的节点标识输入利用各个节点标识序列训练得到的第一词向量模型,获得情报关联特征。
在一些实施例中,特征提取模块还被配置为:利用各个节点标识序列对第一词向量模型进行训练,使第一词向量模型能够对输入的目标节点的节点标识进行处理,获得情报关联特征。
在一些实施例中,特征提取模块被配置为通过以下方式从目标情报数据中提取攻击类型特征:从目标情报数据中提取网络攻击的攻击类型信息;对攻击类型信息进行独热编码,获得攻击类型特征。
在一些实施例中,特征提取模块被配置为通过以下方式从目标情报数据中提取情报地区特征:从目标情报数据中提取网络攻击的攻击地区信息;将攻击地区信息输入预先训练的第二词向量模型,获得情报地区特征。
在一些实施例中,该装置还包括模型训练模块,被配置为:从服务器日志中获取服务器受到网络攻击的样本情报数据;确定样本情报数据的已存在时长;从样本情报数据中提取攻击类型特征、情报地区特征以及情报关联特征;将样本情报数据的已存在时长、样本情报数据的攻击类型特征、情报地区特征、情报关联特征作为训练数据,将样本情报数据是否失效作为训练标签,对机器学习模型进行训练,使机器学习模型能够检测目标情报数据是否失效。
根据本公开实施例的又一个方面,提供了一种检测情报数据的装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述的检测情报数据的方法。
根据本公开实施例的再一个方面,提供了一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现前述的检测情报数据的方法。
本公开从情报数据中提取各项特征,进而通过机器学习模型检测情报数据是否失效,提高了检测情报数据是否失效的准确性及检测效率。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开一些实施例的检测情报数据的方法的流程示意图。
图2示出了本公开一些实施例的检测情报数据的装置的结构示意图。
图3示出了本公开另一些实施例的检测情报数据的装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
首先结合图1描述本公开检测情报数据的方法的一些实施例。
图1示出了本公开一些实施例的检测情报数据的方法的流程示意图。如图1所示,本实施例包括步骤S101~步骤S104。
在步骤S101中,从服务器日志中获取服务器受到网络攻击的目标情报数据。
受到网络攻击的目标情报数据通常是一段信息,例如在什么时间出现什么类型的网络攻击,该网络攻击的IP地址是什么、网络攻击的的域名是什么等等。
在步骤S102中,确定目标情报数据的已存在时长。
例如,可以利用目标情报数据的生成时间与当前时间之间的差值,确定目标情报数据的已存在时长。
在步骤S103中,从目标情报数据中提取攻击类型特征、情报地区特征以及情报关联特征。
(一)提取情报关联特征
通过以下方式从目标情报数据中提取情报关联特征:
(1)从服务器日志中获取服务器受到网络攻击的其他各个情报数据;
(2)分别提取目标情报数据及其他各个情报数据中的网络攻击IP地址、网络攻击域名以及网络攻击脚本文件的哈希值;
(3)生成情报数据网络,情报数据网络中的各个节点分别表示目标情报数据及其他各个情报数据,情报数据网络中的边表示所连接节点对应的两个情报数据具有相同的网络攻击IP地址、相同的网络攻击域名或相同的网络攻击脚本文件哈希值;
(4)利用不同的节点标识分别表示情报数据网络中的各个节点,利用不同的节点标识序列分别表示情报数据网络中的各条链路;
(5)利用各个节点标识序列对第一词向量模型进行训练,使第一词向量模型能够对输入的目标节点的节点标识进行处理,获得情报关联特征;
(6)将目标节点的节点标识输入利用各个节点标识序列训练得到的第一词向量模型,获得情报关联特征。
情报关联特征表示不同情报数据之间的关联关系。当不同情报数据之间形成情报数据网络时,情报关联特征就体现在情报数据网络上,因此需要对情报关联特征进行特征建模。首先以从情报数据网络的不同节点作为起点,在情报数据网络中进行随机游走得到一个链路。重复多次这样操作,就会得到一组能够表达情报数据网络的链路组合,然后把这组链路当作语句用词向量模型进行建模,即可得到了每个节点对应的情报关联特征。
本领域技术人员应理解,词向量模型具体可以为word2vec模型。通常来讲,word2vec模型通过输入语句进行训练后,可以得到语句中分词的词向量。而提取情报关联特征时采用类似的思想,如果将链路看作是语句,那么节点就可以看作是分词。如果用链路对应的节点标识序列对词向量模型进行训练,则词向量模型可以输出节点标识对应的词向量(即情报关联特征),从而使情报关联特征能够涵盖情报数据网络中节点与节点之间的关联关系。
(二)提取攻击类型特征
通过以下方式从目标情报数据中提取攻击类型特征:
(1)从目标情报数据中提取网络攻击的攻击类型信息;
(2)对攻击类型信息进行独热编码,获得攻击类型特征。
通常来讲,攻击类型信息包括攻击类型和攻击手段,例如病毒木马、钓鱼网址、勒索软件、安全漏洞、垃圾邮件等等。由于攻击类型的种类数量较小,因此攻击类型信息属于可枚举的非稀疏特征。对于这样的非稀疏特征使用独热编码进行特征表示,如网络攻击的攻击类型为病毒木马,则攻击类型特征为(1,0,0,0,0),网络攻击的攻击类型为垃圾邮件,则攻击类型特征为(0,0,0,0,1)。
(三)提取情报地区特征
(1)从目标情报数据中提取网络攻击的攻击地区信息;
(2)将攻击地区信息输入预先训练的第二词向量模型,获得情报地区特征。
攻击地区信息分布广泛,属于难以枚举的稀疏特征。因此,可以借助自然语言处理中的词向量模型提取情报地区特征。应理解,情况(三)与情况(一)使用的词向量模型是由不同训练数据训练得到的。例如,从目标情报数据中提取网络攻击的攻击地区信息为“巴西”,则将“巴西”输入通过大量语料预先训练的word2vec模型,即可获得情报地区特征。
在步骤S104中,将已存在时长、攻击类型特征、情报地区特征、以及情报关联特征输入预先训练的机器学习模型获得检测结果,检测结果指示目标情报数据是否失效。
通过对不同类型的特征进行建模,本实施例能够从情报数据中提取各项特征,进而通过机器学习模型检测情报数据是否失效,提高了检测情报数据是否失效的准确性及检测效率。
在一些实施例中,检测情报数据的方法还包括步骤S100。
在步骤S100中,对机器学习模型进行训练。训练过程具体如下:
(1)从服务器日志中获取服务器受到网络攻击的样本情报数据;
(2)确定样本情报数据的已存在时长;
(3)从样本情报数据中提取攻击类型特征、情报地区特征以及情报关联特征;
(4)将样本情报数据的已存在时长、样本情报数据的攻击类型特征、情报地区特征、情报关联特征作为训练数据,将样本情报数据是否失效作为训练标签,对机器学习模型进行训练,使机器学习模型能够检测目标情报数据是否失效。
通过对训练数据进行判断,可以灵活选择具体的机器学习模型。例如,如果训练数据分布非常不均匀,甚至含有较多异常值,则可以选择对异常值不敏感的回归树模型;如果数据分布相对均匀,异常值不多较少,可以选择精度较高的集成方法模型(例如bagging、boosting、stacking等等);如果训练数据量较少,特征向量的维度较高时,可以选择支持向量机模型。机器学习模型选定后,可以通过划分训练数据集和测试数据集,对训练后的机器学习模型进行交叉验证,使机器学习模型具有较高的预测准确率或F1得分。
本领域技术人员应理解,实施例中提取的特征类型可以不限于攻击类型特征、情报地区特征以及情报关联特征。
下面结合图2描述本公开检测情报数据的装置的一些实施例。
图2示出了本公开一些实施例的检测情报数据的装置的结构示意图。如图2所示,本实施例中的检测情报数据的装置20包括:数据获取模块201,被配置为从服务器日志中获取服务器受到网络攻击的目标情报数据;时长确定模块202,被配置为确定目标情报数据的已存在时长;特征提取模块203,被配置为从目标情报数据中提取攻击类型特征、情报地区特征以及情报关联特征;失效检测模块204,被配置为将已存在时长、攻击类型特征、情报地区特征、以及情报关联特征输入预先训练的机器学习模型获得检测结果,检测结果指示目标情报数据是否失效。
在一些实施例中,特征提取模块203被配置为通过以下方式从目标情报数据中提取情报关联特征:从服务器日志中获取服务器受到网络攻击的其他各个情报数据;分别提取目标情报数据及其他各个情报数据中的网络攻击IP地址、网络攻击域名以及网络攻击脚本文件的哈希值;生成情报数据网络,情报数据网络中的各个节点分别表示目标情报数据及其他各个情报数据,情报数据网络中的边表示所连接节点对应的两个情报数据具有相同的网络攻击IP地址、相同的网络攻击域名或相同的网络攻击脚本文件哈希值;利用不同的节点标识分别表示情报数据网络中的各个节点,利用不同的节点标识序列分别表示情报数据网络中的各条链路;将目标节点的节点标识输入利用各个节点标识序列训练得到的第一词向量模型,获得情报关联特征。
在一些实施例中,特征提取模块203还被配置为:利用各个节点标识序列对第一词向量模型进行训练,使第一词向量模型能够对输入的目标节点的节点标识进行处理,获得情报关联特征。
在一些实施例中,特征提取模块203被配置为通过以下方式从目标情报数据中提取攻击类型特征:从目标情报数据中提取网络攻击的攻击类型信息;对攻击类型信息进行独热编码,获得攻击类型特征。
在一些实施例中,特征提取模块203被配置为通过以下方式从目标情报数据中提取情报地区特征:从目标情报数据中提取网络攻击的攻击地区信息;将攻击地区信息输入预先训练的第二词向量模型,获得情报地区特征。
在一些实施例中,该装置20还包括模型训练模块200,被配置为:从服务器日志中获取服务器受到网络攻击的样本情报数据;确定样本情报数据的已存在时长;从样本情报数据中提取攻击类型特征、情报地区特征以及情报关联特征;将样本情报数据的已存在时长、样本情报数据的攻击类型特征、情报地区特征、情报关联特征作为训练数据,将样本情报数据是否失效作为训练标签,对机器学习模型进行训练,使机器学习模型能够检测目标情报数据是否失效。
通过对不同类型的特征进行建模,上述实施例能够从情报数据中提取各项特征,进而通过机器学习模型检测情报数据是否失效,提高了检测情报数据是否失效的准确性及检测效率。
下面结合图3描述本公开检测情报数据的装置的另一些实施例。
图3示出了本公开另一些实施例的检测情报数据的装置的结构示意图。如图3所示,该实施例的检测情报数据的装置30包括:存储器310以及耦接至该存储器310的处理器320,处理器320被配置为基于存储在存储器310中的指令,执行前述任意一些实施例中的检测情报数据的方法。
其中,存储器310例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
检测情报数据的装置30还可以包括输入输出接口330、网络接口340、存储接口350等。这些接口330、340、350以及存储器310和处理器320之间例如可以通过总线360连接。其中,输入输出接口330为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口340为各种联网设备提供连接接口。存储接口350为SD卡、U盘等外置存储设备提供连接接口。
本公开还包括一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现前述任意一些实施例中的检测情报数据的方法。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (14)
1.一种检测情报数据的方法,包括:
从服务器日志中获取服务器受到网络攻击的目标情报数据;
确定目标情报数据的已存在时长;
从目标情报数据中提取攻击类型特征、情报地区特征以及情报关联特征;
将所述已存在时长、攻击类型特征、情报地区特征、以及情报关联特征输入预先训练的机器学习模型获得检测结果,所述检测结果指示目标情报数据是否失效。
2.根据权利要求1所述的方法,其中,通过以下方式从目标情报数据中提取情报关联特征:
从服务器日志中获取服务器受到网络攻击的其他各个情报数据;
分别提取目标情报数据及其他各个情报数据中的网络攻击IP地址、网络攻击域名以及网络攻击脚本文件的哈希值;
生成情报数据网络,情报数据网络中的各个节点分别表示目标情报数据及其他各个情报数据,情报数据网络中的边表示所连接节点对应的两个情报数据具有相同的网络攻击IP地址、相同的网络攻击域名或相同的网络攻击脚本文件哈希值;
利用不同的节点标识分别表示情报数据网络中的各个节点,利用不同的节点标识序列分别表示情报数据网络中的各条链路;
将目标节点的节点标识输入利用各个节点标识序列训练得到的第一词向量模型,获得情报关联特征。
3.根据权利要求2所述的方法,还包括:
利用各个节点标识序列对第一词向量模型进行训练,使第一词向量模型能够对输入的目标节点的节点标识进行处理,获得情报关联特征。
4.根据权利要求1所述的方法,其中,通过以下方式从目标情报数据中提取攻击类型特征:
从目标情报数据中提取网络攻击的攻击类型信息;
对所述攻击类型信息进行独热编码,获得攻击类型特征。
5.根据权利要求1所述的方法,其中,通过以下方式从目标情报数据中提取情报地区特征:
从目标情报数据中提取网络攻击的攻击地区信息;
将所述攻击地区信息输入预先训练的第二词向量模型,获得情报地区特征。
6.根据权利要求1所述的方法,还包括:
从服务器日志中获取服务器受到网络攻击的样本情报数据;
确定样本情报数据的已存在时长;
从样本情报数据中提取攻击类型特征、情报地区特征以及情报关联特征;
将样本情报数据的已存在时长、样本情报数据的攻击类型特征、情报地区特征、情报关联特征作为训练数据,将样本情报数据是否失效作为训练标签,对所述机器学习模型进行训练,使所述机器学习模型能够检测目标情报数据是否失效。
7.一种检测情报数据的装置,包括:
数据获取模块,被配置为从服务器日志中获取服务器受到网络攻击的目标情报数据;
时长确定模块,被配置为确定目标情报数据的已存在时长;
特征提取模块,被配置为从目标情报数据中提取攻击类型特征、情报地区特征以及情报关联特征;
失效检测模块,被配置为将所述已存在时长、攻击类型特征、情报地区特征、以及情报关联特征输入预先训练的机器学习模型获得检测结果,所述检测结果指示目标情报数据是否失效。
8.根据权利要求7所述的装置,其中,特征提取模块被配置为通过以下方式从目标情报数据中提取情报关联特征:
从服务器日志中获取服务器受到网络攻击的其他各个情报数据;
分别提取目标情报数据及其他各个情报数据中的网络攻击IP地址、网络攻击域名以及网络攻击脚本文件的哈希值;
生成情报数据网络,情报数据网络中的各个节点分别表示目标情报数据及其他各个情报数据,情报数据网络中的边表示所连接节点对应的两个情报数据具有相同的网络攻击IP地址、相同的网络攻击域名或相同的网络攻击脚本文件哈希值;
利用不同的节点标识分别表示情报数据网络中的各个节点,利用不同的节点标识序列分别表示情报数据网络中的各条链路;
将目标节点的节点标识输入利用各个节点标识序列训练得到的第一词向量模型,获得情报关联特征。
9.根据权利要求8所述的装置,其中,特征提取模块还被配置为:
利用各个节点标识序列对第一词向量模型进行训练,使第一词向量模型能够对输入的目标节点的节点标识进行处理,获得情报关联特征。
10.根据权利要求7所述的装置,其中,特征提取模块被配置为通过以下方式从目标情报数据中提取攻击类型特征:
从目标情报数据中提取网络攻击的攻击类型信息;
对所述攻击类型信息进行独热编码,获得攻击类型特征。
11.根据权利要求7所述的装置,其中,特征提取模块被配置为通过以下方式从目标情报数据中提取情报地区特征:
从目标情报数据中提取网络攻击的攻击地区信息;
将所述攻击地区信息输入预先训练的第二词向量模型,获得情报地区特征。
12.根据权利要求6所述的装置,还包括模型训练模块,被配置为:
从服务器日志中获取服务器受到网络攻击的样本情报数据;
确定样本情报数据的已存在时长;
从样本情报数据中提取攻击类型特征、情报地区特征以及情报关联特征;
将样本情报数据的已存在时长、样本情报数据的攻击类型特征、情报地区特征、情报关联特征作为训练数据,将样本情报数据是否失效作为训练标签,对所述机器学习模型进行训练,使所述机器学习模型能够检测目标情报数据是否失效。
13.一种检测情报数据的装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1至6中任一项所述的检测情报数据的装置。
14.一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如权利要求1至6中任一项所述的检测情报数据的装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010198977.4A CN113497784B (zh) | 2020-03-20 | 2020-03-20 | 检测情报数据的方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010198977.4A CN113497784B (zh) | 2020-03-20 | 2020-03-20 | 检测情报数据的方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113497784A true CN113497784A (zh) | 2021-10-12 |
CN113497784B CN113497784B (zh) | 2023-03-21 |
Family
ID=77993616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010198977.4A Active CN113497784B (zh) | 2020-03-20 | 2020-03-20 | 检测情报数据的方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113497784B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080262991A1 (en) * | 2005-07-01 | 2008-10-23 | Harsh Kapoor | Systems and methods for processing data flows |
CN108460278A (zh) * | 2018-02-13 | 2018-08-28 | 北京奇安信科技有限公司 | 一种威胁情报处理方法及装置 |
CN108965346A (zh) * | 2018-10-10 | 2018-12-07 | 上海工程技术大学 | 一种失陷主机检测方法 |
CN109257369A (zh) * | 2018-10-22 | 2019-01-22 | 杭州安恒信息技术股份有限公司 | 一种基于机器学习的扫描ip分类方法及装置 |
CN110245491A (zh) * | 2019-06-11 | 2019-09-17 | 合肥宜拾惠网络科技有限公司 | 网络攻击类型的确定方法、装置以及存储器和处理器 |
-
2020
- 2020-03-20 CN CN202010198977.4A patent/CN113497784B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080262991A1 (en) * | 2005-07-01 | 2008-10-23 | Harsh Kapoor | Systems and methods for processing data flows |
CN108460278A (zh) * | 2018-02-13 | 2018-08-28 | 北京奇安信科技有限公司 | 一种威胁情报处理方法及装置 |
CN108965346A (zh) * | 2018-10-10 | 2018-12-07 | 上海工程技术大学 | 一种失陷主机检测方法 |
CN109257369A (zh) * | 2018-10-22 | 2019-01-22 | 杭州安恒信息技术股份有限公司 | 一种基于机器学习的扫描ip分类方法及装置 |
CN110245491A (zh) * | 2019-06-11 | 2019-09-17 | 合肥宜拾惠网络科技有限公司 | 网络攻击类型的确定方法、装置以及存储器和处理器 |
Also Published As
Publication number | Publication date |
---|---|
CN113497784B (zh) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108092962B (zh) | 一种恶意url检测方法及装置 | |
EP3258409B1 (en) | Device for detecting terminal infected by malware, system for detecting terminal infected by malware, method for detecting terminal infected by malware, and program for detecting terminal infected by malware | |
KR101337874B1 (ko) | 파일 유전자 지도를 이용하여 파일의 악성코드 포함 여부를 판단하는 방법 및 시스템 | |
CN108734012B (zh) | 恶意软件识别方法、装置及电子设备 | |
CN111639337B (zh) | 一种面向海量Windows软件的未知恶意代码检测方法及系统 | |
CN112528284A (zh) | 恶意程序的检测方法及装置、存储介质、电子设备 | |
CN101751530B (zh) | 检测漏洞攻击行为的方法及设备 | |
KR20170068814A (ko) | 악성 모바일 앱 감지 장치 및 방법 | |
EP3486809A1 (en) | Classification device, classification method, and classification program | |
CN111368289B (zh) | 一种恶意软件检测方法和装置 | |
US10296743B2 (en) | Method and device for constructing APK virus signature database and APK virus detection system | |
CN108563951B (zh) | 病毒检测方法及装置 | |
CN113468524B (zh) | 基于rasp的机器学习模型安全检测方法 | |
CN105630656A (zh) | 基于日志模型的系统健壮性分析方法及装置 | |
CN114491523A (zh) | 恶意软件检测方法、装置、电子设备、介质及产品 | |
JP6984761B2 (ja) | 情報処理装置及び情報処理プログラム | |
CN108229168B (zh) | 一种嵌套类文件的启发式检测方法、系统及存储介质 | |
CN108171057B (zh) | 基于特征匹配的Android平台恶意软件检测方法 | |
CN113497784B (zh) | 检测情报数据的方法、装置及计算机可读存储介质 | |
CN114065202B (zh) | 一种恶意代码检测方法、装置、电子设备及存储介质 | |
CN116361793A (zh) | 代码检测方法、装置、电子设备及存储介质 | |
CN115134153A (zh) | 安全评估方法、装置和模型训练方法、装置 | |
CN115643044A (zh) | 数据处理方法、装置、服务器及存储介质 | |
CN112163217B (zh) | 恶意软件变种识别方法、装置、设备及计算机存储介质 | |
CN114491528A (zh) | 恶意软件的检测方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20211012 Assignee: Tianyiyun Technology Co.,Ltd. Assignor: CHINA TELECOM Corp.,Ltd. Contract record no.: X2024110000040 Denomination of invention: Method, device, and computer-readable storage medium for detecting intelligence data Granted publication date: 20230321 License type: Common License Record date: 20240914 |
|
EE01 | Entry into force of recordation of patent licensing contract |