CN115412335B - 5g电力物联网边缘设备漏洞检测方法、装置及系统 - Google Patents
5g电力物联网边缘设备漏洞检测方法、装置及系统 Download PDFInfo
- Publication number
- CN115412335B CN115412335B CN202211030538.8A CN202211030538A CN115412335B CN 115412335 B CN115412335 B CN 115412335B CN 202211030538 A CN202211030538 A CN 202211030538A CN 115412335 B CN115412335 B CN 115412335B
- Authority
- CN
- China
- Prior art keywords
- syntax tree
- abstract syntax
- nodes
- key
- word vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 143
- 238000000034 method Methods 0.000 claims abstract description 63
- 230000006870 function Effects 0.000 claims abstract description 62
- 238000012545 processing Methods 0.000 claims abstract description 57
- 238000000605 extraction Methods 0.000 claims abstract description 34
- 238000010801 machine learning Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000010606 normalization Methods 0.000 claims description 14
- 238000003825 pressing Methods 0.000 claims description 12
- 230000002457 bidirectional effect Effects 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 10
- 230000006855 networking Effects 0.000 claims 2
- 238000011160 research Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 18
- 239000011159 matrix material Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000000638 solvent extraction Methods 0.000 description 3
- 230000009193 crawling Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1433—Vulnerability analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/12—Detection or prevention of fraud
- H04W12/126—Anti-theft arrangements, e.g. protection against subscriber identity module [SIM] cloning
Abstract
本发明公开了一种5G电力物联网边缘设备漏洞检测方法、装置及系统,包括针对待测程序,利用预设的词向量提取方法,提取出程序词向量;将程序词向量输入至预设的分类器完成漏洞分类;分类器的获得方法为对于漏洞数据集中的程序,利用预设的词向量提取方法提取出程序词向量,利用程序词向量训练机器学习模型获得分类器;预设的词向量提取方法包括将获取到的程序在函数层面进行抽象语法树提取;利用关键语法树划分算法和功能性节点对得到的抽象语法树进行标记获得关键抽象语法树;对各关键抽象语法树进行序列化处理和词向量提取获得程序词向量。本发明能够解决现有针对5G电力物联网边缘设备固件漏洞研究较少,且漏洞发现不够智能化的问题,提高电力设备安全性。
Description
技术领域
本发明属于电力物联网固件安全性分析领域,具体涉及一种5G电力物联网边缘设备漏洞检测方法、装置及系统,尤其涉及一种基于抽象语法树的5G电力物联网边缘设备漏洞检测方法、装置及系统。
背景技术
5G具有的大带宽、海量连接、低时延等特性,促使越来越多智能化的电力设备接入物联网,在网络边缘实现电力业务的感知接入、数据采集和智能处理。位于5G电力物联网边缘的电力设备种类和数量众多,但由于计算和存储能力不足,导致存在着漏洞隐患。另外,由于电力设备分布广泛,难以在5G电力物联网边缘应用复杂的安全技术和部署安全防御系统,这使得存在漏洞隐患的5G电力物联网边缘设备易成为攻击者的首选目标,并以此为跳板逐步渗透进电网内部的核心设备和业务,进行威胁和破坏。
现有技术中,在进行5G电力物联网边缘设备漏洞检测时,更侧重于web端漏洞检测。但是,固件作为电网边缘设备的核心,其安全性同样重要,非常有必要对其进行漏洞检测。
发明内容
针对上述问题,本发明提出一种5G电力物联网边缘设备漏洞检测方法、装置及系统,能够解决现有的针对5G电力物联网边缘设备固件漏洞研究较少,且漏洞发现不够智能化的问题,提高电力设备的安全性。
为了实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
第一方面,本发明提供了一种5G电力物联网边缘设备漏洞检测方法,包括:
针对待测程序,利用预设的词向量提取方法,提取出程序词向量;
将所述程序词向量输入至预设的分类器,由所述分类器完成漏洞分类;
其中,所述分类器通过以下步骤获得:
对于漏洞数据集中的程序,利用预设的词向量提取方法,提取出程序词向量,所述预设的词向量提取方法包括:将获取到的程序在函数层面进行抽象语法树提取;利用关键语法树划分算法和功能性节点对得到的抽象语法树进行标记,获得若干个关键抽象语法树;对各关键抽象语法树分别依次进行序列化处理和词向量提取,获得程序词向量;
利用所述程序词向量训练机器学习模型,获得分类器。
可选地,所述关键抽象语法树的获取方法包括:
利用关键语法树划分算法,对提取得到的抽象语法树进行处理,获得第一关键抽象语法树;
利用功能性节点处理算法,对所述第一关键抽象语法树进行处理,获得第二关键抽象语法树。
可选地,所述第一关键抽象语法树的获取方法包括:
将抽象语法树的根节点压入栈中,从根节点开始,按照先序遍历顺序将所有节点依次压入栈中;
按照栈内节点顺序,重复执行节点计数步骤,直到所有节点均完成出栈;所述节点计数步骤包括:从栈顶节点开始判断其节点类型;若当前栈顶节点的节点类型属于目标节点类型,则增加候选节点计数和节点总数,否则只增加节点总数;弹出当前栈顶节点;
计算T=候选节点数/节点总数,若T>=X,X为设定的功能性阈值,则标记该抽象语法树为关键语法树,否则即为平凡语法树。
可选地,所述目标节点类型包括函数调用、参数类型、返回值类型或控制结构。
可选地,所述第二关键抽象语法树的获取方法包括:
针对所述第一关键语法树中的所有节点,只保节点类型属于目标节点类型的节点,其他节点均使用占位符进行替换。
可选地,所述程序词向量的获取方法包括:
对所述关键抽象语法树进行序列化处理,得到对应的序列化特征文本;
使用Glove模型对所述序列化特征文本进行词向量提取,获得程序词向量。
可选地,所述机器学习模型为Bi-LSTM模型,所述Bi-LSTM模型包括嵌入层、两个双向的LSTM单元、全连接层以及softmax函数;
所述嵌入层作用于对接收到的程序词向量进行降维;
所述两个双向的LSTM单元将降维后的数据分别以正向和逆向顺序作为输入,将两个输出向量进行拼接后形成输入数据的分布式特征表达;
所述全连接层将学习到的分布式特征表示映射到样本标记空间得到线性预测值;
所述softmax函数将全连接层输出的线性预测值转化为概率,进行归一化处理,归一化处理的结果为有漏洞或无漏洞。
第二方面,本发明提供了一种5G电力物联网边缘设备漏洞检测装置,包括:
提取模块,用于针对待测程序,利用预设的词向量提取方法,提取出程序词向量;
分类模块,用于将所述程序词向量输入至预设的分类器,由所述分类器完成漏洞分类;
其中,所述分类器通过以下步骤获得:
对于漏洞数据集中的程序,利用预设的词向量提取方法,提取出程序词向量,所述预设的词向量提取方法包括:将获取到的程序在函数层面进行抽象语法树提取;利用关键语法树划分算法和功能性节点对得到的抽象语法树进行标记,获得若干个关键抽象语法树;对各关键抽象语法树分别依次进行序列化处理和词向量提取,获得程序词向量;
利用所述程序词向量训练机器学习模型,获得分类器。
可选地,所述关键抽象语法树的获取方法包括:
利用关键语法树划分算法,对提取得到的抽象语法树进行处理,获得第一关键抽象语法树;
利用功能性节点处理算法,对所述第一关键抽象语法树进行处理,获得第二关键抽象语法树。
可选地,所述第一关键抽象语法树的获取方法包括:
将抽象语法树的根节点压入栈中,从根节点开始,按照先序遍历顺序将所有节点依次压入栈中;
按照栈内节点顺序,重复执行节点计数步骤,直到所有节点均完成出栈;所述节点计数步骤包括:从栈顶节点开始判断其节点类型;若当前栈顶节点的节点类型属于目标节点类型,则增加候选节点计数和节点总数,否则只增加节点总数;弹出当前栈顶节点;
计算T=候选节点数/节点总数,若T>=X,X为设定的功能性阈值,则标记该抽象语法树为关键语法树,否则即为平凡语法树。
可选地,所述第二关键抽象语法树的获取方法包括:
针对所述第一关键语法树中的所有节点,只保节点类型属于目标节点类型的节点,其他节点均使用占位符进行替换。
可选地,所述程序词向量的获取方法包括:
对所述关键抽象语法树进行序列化处理,得到对应的序列化特征文本;
使用Glove模型对所述序列化特征文本进行词向量提取,获得程序词向量。
可选地,所述机器学习模型为Bi-LSTM模型,所述Bi-LSTM模型包括嵌入层、两个双向的LSTM单元、全连接层以及softmax函数;
所述嵌入层作用于对接收到的程序词向量进行降维;
所述两个双向的LSTM单元将降维后的数据分别以正向和逆向顺序作为输入,将两个输出向量进行拼接后形成输入数据的分布式特征表达;
所述全连接层将学习到的分布式特征表示映射到样本标记空间得到线性预测值;
所述softmax函数将全连接层输出的线性预测值转化为概率,进行归一化处理,归一化处理的结果为有漏洞或无漏洞。
第三方面,本发明提供了一种5G电力物联网边缘设备漏洞检测系统,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据第一方面中任一项所述方法的步骤。
与现有技术相比,本发明的有益效果:
本发明提出一种5G电力物联网边缘设备漏洞检测方法、装置及系统,能够解决目前研究集中于web端而忽视固件的问题,具体地,本发明提出对抽象语法树进行预处理,划分为关键抽象语法树和平凡抽象语法树,在后续的漏洞检测处理过程中只处理关键抽象语法树。以提高漏洞检测效率。
附图说明
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明,其中:
图1为本发明一种实施例的5G电力物联网边缘设备漏洞检测方法的流程示意图;
图2为本发明一种实施例的抽象语法树的示例;
图3为本发明一种实施例的先序遍历方法示例图;
图4是本发明一种实施例的关键语法树划分算法的算法流程;
图5是本发明一种实施例的使用Glove模型进行词向量提取的过程;
图6是本发明一种实施例的利用机器学习模型进行漏洞预测的流程。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明的保护范围。
下面结合附图对本发明的应用原理作详细的描述。
程序源代码的语法结构能在一定程度上反应软件漏洞情况,尤其是在函数层面。抽象语法树(Abstract Syntax Tree,AST)是一种源代码(例如函数)的语法结构,用树的形式反映了代码中各个组件之间的语法关系,同时有效的表示出函数层面的控制流。相比于控制流图,抽象语法树在函数层面上提供了一个自然的程序表示,并保留了源代码的更多信息。通过对5G电力物联网边缘设备中的固件进行处理,从中提取出源程序进而对得到的程序提取为抽象语法树,在对得到的抽象语法树进行一系列的预处理过程后,通过词嵌入技术进行特征词向量提取,最后利用固件漏洞数据集训练得到的分类器对需要测试的电力与联网固件程序识别其可能存在的漏洞代码模式从而进行漏洞检测。
固件是电网边缘设备中的软件系统,常包含操作系统、文件系统、用户程序,或者本身就是一个可执行程序,用于实现对电网边缘设备特定硬件底层的控制。
为此,本发明提出了一种5G电力物联网边缘设备漏洞检测方法、装置及系统,用于解决现有的针对5G电力物联网边缘设备固件漏洞研究较少,且漏洞发现不够智能化的问题,提高电力设备的安全性。
实施例1
本发明实施例中提供了一种5G电力物联网边缘设备漏洞检测方法,包括以下步骤:
(1)针对待测程序,利用预设的词向量提取方法,提取出程序词向量;
(2)将所述程序词向量输入至预设的分类器,由所述分类器完成漏洞分类;
其中,所述分类器通过以下步骤获得:
对漏洞数据集中的程序,利用预设的词向量提取方法,提取出程序词向量,所述预设的词向量提取方法包括:将获取到的程序在函数层面进行抽象语法树提取;利用关键语法树划分算法和功能性节点对得到的抽象语法树进行标记,获得若干个关键抽象语法树;对各关键抽象语法树分别依次进行序列化处理和词向量提取,获得程序词向量;
利用所述程序词向量训练机器学习模型,获得分类器。
在本发明实施例的一种具体实施方式中,为了提高5G电力物联网边缘设备漏洞检测的效率,所述关键抽象语法树的获取方法包括:
利用关键语法树划分算法,对提取得到的抽象语法树进行处理,获得第一关键抽象语法树;
利用功能性节点处理算法,对所述第一关键抽象语法树进行处理,获得第二关键抽象语法树。
其中,所述第一关键抽象语法树的获取方法包括:
将抽象语法树的根节点压入栈中,从根节点开始,按照先序遍历顺序将所有节点依次压入栈中;
按照栈内节点顺序,重复执行节点计数步骤,直到所有节点均完成出栈;所述节点计数步骤包括:从栈顶节点开始判断其节点类型;若当前栈顶节点的节点类型属于目标节点类型,则增加候选节点计数和节点总数,否则只增加节点总数;弹出当前栈顶节点;在具体实施过程中,所述目标节点类型可以设置为包括函数调用、参数类型、返回值类型或控制结构;
计算T=候选节点数/节点总数,若T>=X,X为设定的功能性阈值,则标记该抽象语法树为关键语法树,否则即为平凡语法树。
所述第二关键抽象语法树的获取方法包括:
针对所述第一关键语法树中的所有节点,只保节点类型属于目标节点类型的节点,其他节点均使用占位符进行替换。
在本发明实施例的一种具体实施方式中,所述程序词向量的获取方法包括:
对所述关键抽象语法树进行序列化处理,得到对应的序列化特征文本;
使用Glove模型对所述序列化特征文本进行词向量提取,获得程序词向量。
在本发明实施例的一种具体实施方式中,所述机器学习模型为Bi-LSTM模型,所述Bi-LSTM模型包括嵌入层、两个双向的LSTM单元、全连接层以及softmax函数;
所述嵌入层作用于对接收到的程序词向量进行降维;
所述两个双向的LSTM单元将降维后的数据分别以正向和逆向顺序作为输入,将两个输出向量进行拼接后形成输入数据的分布式特征表达;
所述全连接层将学习到的分布式特征表示映射到样本标记空间得到线性预测值;
所述softmax函数将全连接层输出的线性预测值转化为概率,进行归一化处理,归一化处理的结果为有漏洞或无漏洞。
下面结合一具体实施方式对本发明实施例中的5G电力物联网边缘设备漏洞检测方法进行详细说明。
步骤一:从固件漏洞数据集中获取相关固件漏洞信息,即程序;
所述的固件漏洞数据集包括互联网公开的固件漏洞数据集和个人自行爬取相关固件漏洞形成的固件漏洞数据集,本发明中不对获取的过程进行具体限定,只要能够获得固件程序即可。
步骤二:对获取到的程序在函数层面进行抽象语法树(Abstract Syntax Tree,AST)提取,并通过关键语法树划分算法和功能性节点处理算法对各进行抽象语法树分别进行预处理,获得关键象语法树。
步骤2.1:提取抽象语法树。
抽象语法树是一种树状结构,它使程序代码分解为其语言结构的过程变得明确。抽象语法树由节点和边组成,在图2中分别显示为椭圆和箭头。节点代表语言结构,如方法、变量和控制结构,而边表示程序结构的分解过程。如图2所示,在抽象语法树的最顶端即根节点,是一个代表整个函数的名为foo的节点。在它的正下方,分别为代表函数参数及参数类型的节点、返回类型为int的节点和一个代表函数体的节点,表示为一个BLOCK。foo节点和其他节点之间的边表示函数可以被分解成一个函数参数类型节点、返回类型节点和一个代码块节点,从BLOCK出来的边表示这个代码块可以被进一步分解。
在函数层面提取抽象语法树可以通过相关工具进行提取,也可以自行通过某种方式对源代码进行解析从而获得抽象语法树,本发明中不做具体限定。
步骤2.2:关键语法树划分算法。
所述关键语法树划分算法的算法过程图示4所示,具体流程为:
利用深度优先遍历中的先序遍历思想,首先将抽象语法树的根节点压入栈中,从根节点开始,按照先序遍历顺序将所有节点依次压入栈中。
以图3为例,具体入栈顺序为A-B-C-D-E-F-G-H-I,直至整棵抽象语法树全部节点入栈。
按照此时栈内节点顺序从栈顶节点开始判断其节点类型,即判断栈顶节点是否在目标节点类型列表中;若当前栈顶节点类型属于目标节点类型,则候选节点计数和节点总数增加,否则只增加节点总数。判断结束后弹出当前栈顶节点,若此时栈不为空,则继续判断新的栈顶节点类型;重复执行前述步骤,直到所有节点判断完毕即栈空则循环结束。其中,所述目标节点类型列表指由构成关键抽象语法树所需的节点类型组成的列表,其中类型包括函数调用,参数类型,返回值类型和控制结构等。
计算T=候选节点数/节点总数,X为设定的功能性阈值,若T>=X,则标记该抽象语法树为第一关键抽象语法树,否则即为平凡抽象语法树。
若为关键抽象语法树,算法返回True,否则返回False,具体参见图4。
步骤2.3:功能性节点算法。
由于获得的第一关键抽象语法树的节点众多,但是并不是所有节点都能够指示源代码结构和语法信息,为了提高后续处理效率并在一定程度减少误报,需要对得到的关键抽象语法树进行进一步处理。函数调用,参数类型,返回值类型和控制结构等称之为功能性节点。只处理关键抽象语法树,主要保留该类功能性节点,对于其他类型节点使用占位符进行替换。
步骤三:针对各关键抽象语法树进行词向量提取;
对于预处理后得到的关键抽象语法树,使用深度优先遍历对单棵抽象语法树进行序列化处理。把序列化后文本形式的向量看作是有语义的句子,向量中元素和元素的排列序列反映了文本化句子的语义信息同时也反映了抽象语法树的结构信息。
同时需要注意到,部分函数可能存在函数名不同,但是函数返回值、参数类型、局部变量名相同的情况。需要说明的是,上述情况不能简单的作为重复抽象语法树而删除,这部分抽象语法树经过序列化映射为向量后元素的顺序不同,这同样指示出元素相同但是顺序不同会具有不同的结构和上下文信息。为了更好的利用节点之间的信息以及后续的机器学习处理,需要将得到的序列化信息映射为向量空间中的向量。之后使用词向量提取技术将节点映射到向量中,抽象语法树中的每个节点就被映射成为向量中的一个元素。所述使用Glove模型对抽象语法树序列化特征文本进行词向量提取的过程如图5所示。首先加载Glove提供的语料库;根据语料库构建一个共现矩阵,矩阵中的每一个元素代表单词和上下文单词在特定大小的上下文窗口内共同出现的次数,同时Glove认为距离越远的两个单词所占总计数(total count)的权重越小;之后构建词向量和共现矩阵之间的近似关系,最终得到要求解的词向量,目标函数的表达式为:
其中vi,vj是单词i,j的词向量,bi,bj为偏置项,V是词汇表的大小,X为共现矩阵,Xi,j表示单词i,j共同出现在一个窗口中的次数;最后采用梯度下降算法,对矩阵中的所有非零元素进行随机采样,学习曲率设为0.05,在vector size小于300的情况下迭代了50次,其他大小的vectors上迭代了100次,直至收敛;最终将学习到的两个向量之和作为最终的向量。
步骤四:利用获得的程序词向量训练Bi-LSTM模型,并根据训练结果调整Bi-LSTM模型进而得到分类效果优秀的分类器;
将程序词向量作为机器学习的输入,送入Bi-LSTM模型中进行训练。两个双向运行的LSTM单元组成了Bi-LSTM。其双向性可以结合过去和未来的上下文信息,以此帮助捕捉向前和向后两个方向的长期语义依赖关系,这可以有效地捕捉到漏洞的代码模式。提高了后续检测阶段识别漏洞的能力。所用Bi-LSTM包括一个嵌入层、两个双向的LSTM单元、一个全连接层以及softmax函数。嵌入层作为第一层,主要完成了输入数据的降维;两个双向的LSTM单元构成了第二层,将降维后的数据分别以正向和逆向顺序作为输入,将两个输出向量进行拼接后形成输入数据的特征表达;全连接层和softmax函数一起作为最后一层:全连接层将学习到的分布式特征表示映射到样本标记空间来得到线性预测值,softmax函数将全连接层得到的线性预测值转化为概率,进行归一化处理。归一化的结果有两种:有漏洞和无漏洞,二者的向量之和为1。
输入数据被分为训练集和验证集,以此来建立和评估模型,并指导模型的调整过程,使其性能最大化。一旦模型训练完成并且性能达到要求后就保存该模型以供后续电力物联网设备固件漏洞检测使用。
步骤五:利用分类器进行5G电力物联网边缘设备固件漏洞分类。
漏洞检测阶段首先需要获取边缘设备的固件。获取固件可以通过硬件调试接口登入系统并读取内存或者利用读写器从flash芯片内直接提取,从而得到固件内容;也可以从设备厂商提供的互联网地址获取固件信息。得到固件后判断是否被压缩,可以使用Binwalk工具。解压缩之后从固件中提取所有的文件和源程序,并从源程序中提取出程序词向量,将所述漏洞程序词向量输入至预设的分类器,由所述分类器完成漏洞分类,具体参见图6。
实施例2
基于与实施例1相同的发明构思,本发明实施例中提供了一种5G电力物联网边缘设备漏洞检测装置,包括:
提取模块,用于针对待测程序,利用预设的词向量提取方法,提取出程序词向量;
分类模块,用于将所述程序词向量输入至预设的分类器,由所述分类器完成漏洞分类;
其中,所述分类器通过以下步骤获得:
对于漏洞数据集中的程序,利用预设的词向量提取方法,提取出程序词向量,所述预设的词向量提取方法包括:将获取到的程序在函数层面进行抽象语法树提取;利用关键语法树划分算法和功能性节点对得到的抽象语法树进行标记,获得若干个关键抽象语法树;对各关键抽象语法树分别依次进行序列化处理和词向量提取,获得程序词向量;
利用所述程序词向量训练机器学习模型,获得分类效果优秀的分类器。
在本发明实施例的一种具体实施方式中,所述关键抽象语法树的获取方法包括:
利用关键语法树划分算法,对提取得到的抽象语法树进行处理,获得第一关键抽象语法树;
利用功能性节点处理算法,对所述第一关键抽象语法树进行处理,获得第二关键抽象语法树。
在本发明实施例的一种具体实施方式中,所述第一关键抽象语法树的获取方法包括:
将抽象语法树的根节点压入栈中,从根节点开始,按照先序遍历顺序将所有节点依次压入栈中;
按照栈内节点顺序,重复执行节点计数步骤,直到所有节点均完成出栈;所述节点计数步骤包括:从栈顶节点开始判断其节点类型;若当前栈顶节点的节点类型属于目标节点类型,则增加候选节点计数和节点总数,否则只增加节点总数;弹出当前栈顶节点;
计算T=候选节点数/节点总数,若T>=X,X为设定的功能性阈值,则标记该抽象语法树为关键语法树,否则即为平凡语法树。
在本发明实施例的一种具体实施方式中,所述第二关键抽象语法树的获取方法包括:
针对所述第一关键语法树中的所有节点,只保节点类型属于目标节点类型的节点,其他节点均使用占位符进行替换。
在本发明实施例的一种具体实施方式中,所述程序词向量的获取方法包括:
对所述关键抽象语法树进行序列化处理,得到对应的序列化特征文本;
使用Glove模型对所述序列化特征文本进行词向量提取,获得程序词向量。
可选地,所述机器学习模型为Bi-LSTM模型,所述Bi-LSTM模型包括嵌入层、两个双向的LSTM单元、全连接层以及softmax函数;
所述嵌入层作用于对接收到的程序词向量进行降维;
所述两个双向的LSTM单元将降维后的数据分别以正向和逆向顺序作为输入,将两个输出向量进行拼接后形成输入数据的分布式特征表达;
所述全连接层将学习到的分布式特征表示映射到样本标记空间得到线性预测值;
所述softmax函数将全连接层输出的线性预测值转化为概率,进行归一化处理,归一化处理的结果为有漏洞或无漏洞。
下面结合一具体实施方式对本发明实施例中的5G电力物联网边缘设备漏洞检测方法进行详细说明。
步骤一:从固件漏洞数据集中获取相关固件漏洞信息,即程序;
所述的固件漏洞数据集包括互联网公开的固件漏洞数据集和个人自行爬取相关固件漏洞形成的固件漏洞数据集,本发明中不对获取的过程进行具体限定,只要能够获得固件程序即可。
步骤二:对获取到的程序在函数层面进行抽象语法树(Abstract Syntax Tree,AST)提取,并通过关键语法树划分算法和功能性节点处理算法对各进行抽象语法树分别进行预处理,获得关键象语法树。
步骤2.1:提取抽象语法树。
抽象语法树是一种树状结构,它使程序代码分解为其语言结构的过程变得明确。抽象语法树由节点和边组成,在图2中分别显示为椭圆和箭头。节点代表语言结构,如方法、变量和控制结构,而边表示程序结构的分解过程。如图2所示,在抽象语法树的最顶端即根节点,是一个代表整个函数的名为foo的节点。在它的正下方,分别为代表函数参数及参数类型的节点、返回类型为int的节点和一个代表函数体的节点,表示为一个BLOCK。foo节点和其他节点之间的边表示函数可以被分解成一个函数参数类型节点、返回类型节点和一个代码块节点,从BLOCK出来的边表示这个代码块可以被进一步分解。
在函数层面提取抽象语法树可以通过相关工具进行提取,也可以自行通过某种方式对源代码进行解析从而获得抽象语法树,本发明中不做具体限定。
步骤2.2:关键语法树划分算法。
所述关键语法树划分算法的算法过程图示4所示,具体流程为:
利用深度优先遍历中的先序遍历思想,首先将抽象语法树的根节点压入栈中,从根节点开始,按照先序遍历顺序将所有节点依次压入栈中。
以图3为例,具体入栈顺序为A-B-C-D-E-F-G-H-I,直至整棵抽象语法树全部节点入栈。
按照此时栈内节点顺序从栈顶节点开始判断其节点类型,即判断栈顶节点是否在目标节点类型列表中;若当前栈顶节点类型属于目标节点类型,则候选节点计数和节点总数增加,否则只增加节点总数。判断结束后弹出当前栈顶节点,若此时栈不为空,则继续判断新的栈顶节点类型;重复执行前述步骤,直到所有节点判断完毕即栈空则循环结束。其中,所述目标节点类型列表指由构成关键抽象语法树所需的节点类型组成的列表,其中类型包括函数调用,参数类型,返回值类型和控制结构等。
计算T=候选节点数/节点总数,X为设定的功能性阈值,若T>=X,则标记该抽象语法树为第一关键抽象语法树,否则即为平凡抽象语法树。
若为关键抽象语法树,算法返回True,否则返回False,具体参见图4。
步骤2.3:功能性节点算法。
由于获得的第一关键抽象语法树的节点众多,但是并不是所有节点都能够指示源代码结构和语法信息,为了提高后续处理效率并在一定程度减少误报,需要对得到的关键抽象语法树进行进一步处理。函数调用,参数类型,返回值类型和控制结构等称之为功能性节点。只处理关键抽象语法树,主要保留该类功能性节点,对于其他类型节点使用占位符进行替换。
步骤三:针对各关键抽象语法树进行词向量提取;
对于预处理后得到的关键抽象语法树,使用深度优先遍历对单棵抽象语法树进行序列化处理。把序列化后文本形式的向量看作是有语义的句子,向量中元素和元素的排列序列反映了文本化句子的语义信息同时也反映了抽象语法树的结构信息。
同时需要注意到,部分函数可能存在函数名不同,但是函数返回值、参数类型、局部变量名相同的情况。需要说明的是,上述情况不能简单的作为重复抽象语法树而删除,这部分抽象语法树经过序列化映射为向量后元素的顺序不同,这同样指示出元素相同但是顺序不同会具有不同的结构和上下文信息。为了更好的利用节点之间的信息以及后续的机器学习处理,需要将得到的序列化信息映射为向量空间中的向量。之后使用词向量提取技术将节点映射到向量中,抽象语法树中的每个节点就被映射成为向量中的一个元素。所述使用Glove模型对抽象语法树序列化特征文本进行词向量提取的过程如图5所示。首先加载Glove提供的语料库;根据语料库构建一个共现矩阵,矩阵中的每一个元素代表单词和上下文单词在特定大小的上下文窗口内共同出现的次数,同时Glove认为距离越远的两个单词所占总计数(total count)的权重越小;之后构建词向量和共现矩阵之间的近似关系,最终得到要求解的词向量,目标函数的表达式为:
其中vi,vj是单词i,j的词向量,bi,bj为偏置项,V是词汇表的大小,X为共现矩阵,Xi,j表示单词i,j共同出现在一个窗口中的次数;最后采用梯度下降算法,对矩阵中的所有非零元素进行随机采样,学习曲率设为0.05,在vector size小于300的情况下迭代了50次,其他大小的vectors上迭代了100次,直至收敛;最终将学习到的两个向量之和作为最终的向量。
步骤四:利用获得的程序词向量训练Bi-LSTM模型,并根据训练结果调整Bi-LSTM模型进而得到分类效果优秀的分类器;
将程序词向量作为机器学习的输入,送入Bi-LSTM模型中进行训练。两个双向运行的LSTM单元组成了Bi-LSTM。其双向性可以结合过去和未来的上下文信息,以此帮助捕捉向前和向后两个方向的长期语义依赖关系,这可以有效地捕捉到漏洞的代码模式。提高了后续检测阶段识别漏洞的能力。所用Bi-LSTM包括一个嵌入层、两个双向的LSTM单元、一个全连接层以及softmax函数。嵌入层作为第一层,主要完成了输入数据的降维;两个双向的LSTM单元构成了第二层,将降维后的数据分别以正向和逆向顺序作为输入,将两个输出向量进行拼接后形成输入数据的特征表达;全连接层和softmax函数一起作为最后一层:全连接层将学习到的分布式特征表示映射到样本标记空间来得到线性预测值,softmax函数将全连接层得到的线性预测值转化为概率,进行归一化处理。归一化的结果有两种:有漏洞和无漏洞,二者的向量之和为1。
输入数据被分为训练集和验证集,以此来建立和评估模型,并指导模型的调整过程,使其性能最大化。一旦模型训练完成并且性能达到要求后就保存该模型以供后续电力物联网设备固件漏洞检测使用。
步骤五:利用分类器进行5G电力物联网边缘设备固件漏洞分类。
漏洞检测阶段首先需要获取边缘设备的固件。获取固件可以通过硬件调试接口登入系统并读取内存或者利用读写器从flash芯片内直接提取,从而得到固件内容;也可以从设备厂商提供的互联网地址获取固件信息。得到固件后判断是否被压缩,可以使用Binwalk工具。解压缩之后从固件中提取所有的文件和源程序,并从源程序中提取出程序词向量,将所述漏洞程序词向量输入至预设的分类器,由所述分类器完成漏洞分类,具体参见图6。
实施例3
基于与实施例1相同的构思,本发明实施例中提供了一种5G电力物联网边缘设备漏洞检测系统,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据实施例1中任一项所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (8)
1.一种5G电力物联网边缘设备漏洞检测方法,其特征在于,包括:
针对待测程序,利用预设的词向量提取方法,提取出程序词向量;
将所述程序词向量输入至预设的分类器,由所述分类器完成漏洞分类;
其中,所述分类器通过以下步骤获得:
对于漏洞数据集中的程序,利用预设的词向量提取方法,提取出程序词向量,所述预设的词向量提取方法包括:将获取到的程序在函数层面进行抽象语法树提取;利用关键语法树划分算法和功能性节点对得到的抽象语法树进行标记,获得若干个关键抽象语法树;对各关键抽象语法树分别依次进行序列化处理和词向量提取,获得程序词向量;
利用所述程序词向量训练机器学习模型,获得分类器;
所述关键抽象语法树的获取方法包括:
利用关键语法树划分算法,对提取得到的抽象语法树进行处理,获得第一关键抽象语法树;
利用功能性节点处理算法,对所述第一关键抽象语法树进行处理,获得第二关键抽象语法树;
所述第一关键抽象语法树的获取方法包括:
将抽象语法树的根节点压入栈中,从根节点开始,按照先序遍历顺序将所有节点依次压入栈中;
按照栈内节点顺序,重复执行节点计数步骤,直到所有节点均完成出栈;所述节点计数步骤包括:从栈顶节点开始判断其节点类型;若当前栈顶节点的节点类型属于目标节点类型,则增加候选节点计数和节点总数,否则只增加节点总数;弹出当前栈顶节点;
计算T=候选节点数/节点总数,若T>=X,X为设定的功能性阈值,则标记该抽象语法树为关键语法树,否则即为平凡语法树;
所述第二关键抽象语法树的获取方法包括:
针对所述第一关键语法树中的所有节点,只保节点类型属于目标节点类型的节点,其他节点均使用占位符进行替换。
2.根据权利要求1所述的一种5G电力物联网边缘设备漏洞检测方法,其特征在于:所述目标节点类型包括函数调用、参数类型、返回值类型或控制结构。
3.根据权利要求1所述的一种5G电力物联网边缘设备漏洞检测方法,其特征在于:所述程序词向量的获取方法包括:
对所述关键抽象语法树进行序列化处理,得到对应的序列化特征文本;
使用Glove模型对所述序列化特征文本进行词向量提取,获得程序词向量。
4.根据权利要求1所述的一种5G电力物联网边缘设备漏洞检测方法,其特征在于:所述机器学习模型为Bi-LSTM模型,所述Bi-LSTM模型包括嵌入层、两个双向的LSTM单元、全连接层以及softmax函数;
所述嵌入层作用于对接收到的程序词向量进行降维;
所述两个双向的LSTM单元将降维后的数据分别以正向和逆向顺序作为输入,将两个输出向量进行拼接后形成输入数据的分布式特征表达;
所述全连接层将学习到的分布式特征表示映射到样本标记空间得到线性预测值;
所述softmax函数将全连接层输出的线性预测值转化为概率,进行归一化处理,归一化处理的结果为有漏洞或无漏洞。
5.一种5G电力物联网边缘设备漏洞检测装置,其特征在于,包括:
提取模块,用于针对待测程序,利用预设的词向量提取方法,提取出程序词向量;
分类模块,用于将所述程序词向量输入至预设的分类器,由所述分类器完成漏洞分类;
其中,所述分类器通过以下步骤获得:
对于漏洞数据集中的程序,利用预设的词向量提取方法,提取出程序词向量,所述预设的词向量提取方法包括:将获取到的程序在函数层面进行抽象语法树提取;利用关键语法树划分算法和功能性节点对得到的抽象语法树进行标记,获得若干个关键抽象语法树;对各关键抽象语法树分别依次进行序列化处理和词向量提取,获得程序词向量;
利用所述程序词向量训练机器学习模型,获得分类器;
所述关键抽象语法树的获取方法包括:
利用关键语法树划分算法,对提取得到的抽象语法树进行处理,获得第一关键抽象语法树;
利用功能性节点处理算法,对所述第一关键抽象语法树进行处理,获得第二关键抽象语法树;
所述第一关键抽象语法树的获取方法包括:
将抽象语法树的根节点压入栈中,从根节点开始,按照先序遍历顺序将所有节点依次压入栈中;
按照栈内节点顺序,重复执行节点计数步骤,直到所有节点均完成出栈;所述节点计数步骤包括:从栈顶节点开始判断其节点类型;若当前栈顶节点的节点类型属于目标节点类型,则增加候选节点计数和节点总数,否则只增加节点总数;弹出当前栈顶节点;
计算T=候选节点数/节点总数,若T>=X,X为设定的功能性阈值,则标记该抽象语法树为关键语法树,否则即为平凡语法树;
所述第二关键抽象语法树的获取方法包括:
针对所述第一关键语法树中的所有节点,只保节点类型属于目标节点类型的节点,其他节点均使用占位符进行替换。
6.根据权利要求5所述的一种5G电力物联网边缘设备漏洞检测装置,其特征在于,所述程序词向量的获取方法包括:
对所述关键抽象语法树进行序列化处理,得到对应的序列化特征文本;
使用Glove模型对所述序列化特征文本进行词向量提取,获得程序词向量。
7.根据权利要求5所述的一种5G电力物联网边缘设备漏洞检测装置,其特征在于,所述机器学习模型为Bi-LSTM模型,所述Bi-LSTM模型包括嵌入层、两个双向的LSTM单元、全连接层以及softmax函数;
所述嵌入层作用于对接收到的程序词向量进行降维;
所述两个双向的LSTM单元将降维后的数据分别以正向和逆向顺序作为输入,将两个输出向量进行拼接后形成输入数据的分布式特征表达;
所述全连接层将学习到的分布式特征表示映射到样本标记空间得到线性预测值;
所述softmax函数将全连接层输出的线性预测值转化为概率,进行归一化处理,归一化处理的结果为有漏洞或无漏洞。
8.一种5G电力物联网边缘设备漏洞检测系统,其特征在于:包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1-4中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211030538.8A CN115412335B (zh) | 2022-08-26 | 2022-08-26 | 5g电力物联网边缘设备漏洞检测方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211030538.8A CN115412335B (zh) | 2022-08-26 | 2022-08-26 | 5g电力物联网边缘设备漏洞检测方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115412335A CN115412335A (zh) | 2022-11-29 |
CN115412335B true CN115412335B (zh) | 2024-03-05 |
Family
ID=84161845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211030538.8A Active CN115412335B (zh) | 2022-08-26 | 2022-08-26 | 5g电力物联网边缘设备漏洞检测方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115412335B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245496A (zh) * | 2019-05-27 | 2019-09-17 | 华中科技大学 | 一种源代码漏洞检测方法及检测器和其训练方法及系统 |
WO2021037196A1 (zh) * | 2019-08-28 | 2021-03-04 | 杭州趣链科技有限公司 | 智能合约代码漏洞检测方法、装置、计算机设备和存储介质 |
CN113297580A (zh) * | 2021-05-18 | 2021-08-24 | 广东电网有限责任公司 | 基于代码语义分析的电力信息系统安全防护方法及装置 |
CN114048464A (zh) * | 2022-01-12 | 2022-02-15 | 北京大学 | 基于深度学习的以太坊智能合约安全漏洞检测方法及系统 |
CN114297654A (zh) * | 2021-12-31 | 2022-04-08 | 北京工业大学 | 一种源代码层级的智能合约漏洞检测方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11568055B2 (en) * | 2019-08-23 | 2023-01-31 | Praetorian | System and method for automatically detecting a security vulnerability in a source code using a machine learning model |
-
2022
- 2022-08-26 CN CN202211030538.8A patent/CN115412335B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245496A (zh) * | 2019-05-27 | 2019-09-17 | 华中科技大学 | 一种源代码漏洞检测方法及检测器和其训练方法及系统 |
WO2021037196A1 (zh) * | 2019-08-28 | 2021-03-04 | 杭州趣链科技有限公司 | 智能合约代码漏洞检测方法、装置、计算机设备和存储介质 |
CN113297580A (zh) * | 2021-05-18 | 2021-08-24 | 广东电网有限责任公司 | 基于代码语义分析的电力信息系统安全防护方法及装置 |
CN114297654A (zh) * | 2021-12-31 | 2022-04-08 | 北京工业大学 | 一种源代码层级的智能合约漏洞检测方法及系统 |
CN114048464A (zh) * | 2022-01-12 | 2022-02-15 | 北京大学 | 基于深度学习的以太坊智能合约安全漏洞检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115412335A (zh) | 2022-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783100B (zh) | 基于图卷积网络对代码图表示学习的源代码漏洞检测方法 | |
CN107402913A (zh) | 先行词的确定方法和装置 | |
CN111124487B (zh) | 代码克隆检测方法、装置以及电子设备 | |
US11853421B2 (en) | Method and apparatus for analyzing malicious code | |
CN111866004B (zh) | 安全评估方法、装置、计算机系统和介质 | |
CN113900923A (zh) | 一种跨指令集架构的二进制函数相似性检查系统及方法 | |
CN112463924B (zh) | 面向智能问答基于内部相关性编码的文本意图匹配方法 | |
CN115146279A (zh) | 程序漏洞检测方法、终端设备及存储介质 | |
CN115795061B (zh) | 一种基于词向量和依存句法的知识图谱构建方法及系统 | |
CN113961768B (zh) | 敏感词检测方法、装置、计算机设备和存储介质 | |
CN117195220A (zh) | 基于Tree-LSTM和BiLSTM的智能合约漏洞检测方法及系统 | |
CN113297580B (zh) | 基于代码语义分析的电力信息系统安全防护方法及装置 | |
CN115412335B (zh) | 5g电力物联网边缘设备漏洞检测方法、装置及系统 | |
CN111241843B (zh) | 基于复合神经网络的语义关系推断系统和方法 | |
CN115756762A (zh) | 系统调用信息确定方法、装置、电子设备及存储介质 | |
CN116226850A (zh) | 应用程序的病毒检测方法、装置、设备、介质及程序产品 | |
CN115146267A (zh) | Office文档中宏病毒的检测方法、装置、电子设备及存储介质 | |
CN113836005A (zh) | 一种虚拟用户的生成方法、装置、电子设备和存储介质 | |
CN109657247B (zh) | 机器学习的自定义语法实现方法及装置 | |
CN114372265A (zh) | 一种恶意程序检测方法、装置、电子设备及存储介质 | |
CN111813975A (zh) | 一种图像检索方法、装置及电子设备 | |
CN111581640A (zh) | 一种恶意软件检测方法、装置及设备、存储介质 | |
CN115114627B (zh) | 一种恶意软件检测方法及装置 | |
CN115688771B (zh) | 一种文书内容比对性能提升方法及系统 | |
EP4357952A1 (en) | Method and apparatus for clone search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |