CN113569253A - 一种基于上下文语义的漏洞检测方法与装置 - Google Patents
一种基于上下文语义的漏洞检测方法与装置 Download PDFInfo
- Publication number
- CN113569253A CN113569253A CN202110829910.0A CN202110829910A CN113569253A CN 113569253 A CN113569253 A CN 113569253A CN 202110829910 A CN202110829910 A CN 202110829910A CN 113569253 A CN113569253 A CN 113569253A
- Authority
- CN
- China
- Prior art keywords
- vector
- vulnerability detection
- symbolization
- input
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 68
- 239000013598 vector Substances 0.000 claims abstract description 92
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000006870 function Effects 0.000 claims description 72
- 239000011159 matrix material Substances 0.000 claims description 27
- 210000002569 neuron Anatomy 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 6
- 238000013528 artificial neural network Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 5
- 239000000284 extract Substances 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000007547 defect Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000010248 power generation Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 239000011800 void material Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1433—Vulnerability analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种基于上下文语义的漏洞检测方法与装置。所述方法包括对获取的代码段进行符号化表示,将每个代码程序段的漏洞特征转换成特定的符号表示,其中相同的特征映射到相同的符号表示;将符号表示转换为向量;将向量输入基于ELM的源代码漏洞检测模型,进行漏洞检测,所述基于ELM的源代码漏洞检测模型预先使用训练数据集进行训练得到,模型包括输入层、隐藏层和输出层。本发明充分利用神经网络自动提取复杂特征的优势,对输入的代码进行符号表示,再转换为向量,保留代码上下文语义信息,有效提高检测的效果。
Description
技术领域
本发明涉及信息安全应用领域,具体涉及一种基于上下文语义的漏洞检测方法与装置。
背景技术
电力企业是网络安全责任的主题,将网络安全纳入电力企业网络安全生产管理体系,按照国家等级保护制度的要求,加强电力行业的网络安全等级保护专业力量建设。结合电力生产安全的新形势和安全保障要求,完善电网信息系统安全防护新方案。目前电力信息系统软件变得越来复杂,设计缺陷和实现错误导致的软件漏洞成为工程中不可避免的问题,这些存在漏洞的电网软件信息系统将给电网带来严重的安全风险。
传统的漏洞检测技术范围从使用手动定义的特征到代码相似性度量等一系列的手段都存在较为显著的缺陷。通过手动进行定义漏洞特征的工作过程中,容易出错且耗费人工,且很难获取完整特征,通常只包含有关漏洞的部分信息,极易造成高误报率和漏报率。而且,代码相似度方法的应用范围有限,仅在代码克隆造成的漏洞方面效果较好。在通过使用决策树和支持向量机(SVM)等传统机器学习技术进行漏洞检测过程中,主要是从预先分类的漏洞中提取漏洞特征,然而基于此类特征的漏洞检测模式通常只可以用于特定漏洞。
随着信息化安全研究的进一步发展,基于神经网络的研究来解决提取特征不全面等问题,以进一步提高漏洞检测的智能。目前基于双向长短期记忆(Bi-LSTM)网络在软件漏洞检测方面应用研究比较火热,然而,由于该网络架构下复杂的上下文信息处理和迭代训练机制进而导致训练成本很高。如何有效将降低训练成本,提高训练效率同时保障检测的效果是一个值得研究的问题。
发明内容
发明目的:本发明针对电力信息系统特点和当前检测手段的不足,提出一种基于上下文语义的漏洞检测方法,同时实现漏洞检测效率和精度的提高。
本发明的另一目的是提供一种基于上下文语义的漏洞检测装置。
技术方案:根据本发明的第一方面,提供一种基于上下文语义的漏洞检测方法,包括以下步骤:
对获取的代码段进行符号化表示,将每个代码程序段的漏洞特征转换成特定的符号表示,其中相同的特征映射到相同的符号表示;
将符号表示转换为向量;
将向量输入基于ELM的源代码漏洞检测模型,进行漏洞检测,所述基于ELM的源代码漏洞检测模型预先使用训练数据集进行训练得到,模型包括输入层、隐藏层和输出层。
其中,对获取的代码段进行符号化表示包括:
函数调用符号化:定义的函数名称符号化表示为FN;
变量符号化:包括参数和局部变量在内的变量名称用符号表示为VN;
数据类型符号化:变量和用户自定义函数的数据类型符号化表示为TN;
符号化中提到的符号N是一个数字,它表示该功能第一次出现的索引。
进一步地,对获取的代码段进行符号化表示还包括:设置符号化表示的优先级,根据符号化的优先级构建多级符号化机制,其中Level1包括一个符号化组为F,Level 2包括两个符号化组F+V和F+T,Level 3包括一个符号化组F+V+T。
进一步地,所述将符号表示转换为向量通过doc2vec模型实现,所述doc2vec模型针对符号化表示的语句,每次从一句话中滑动采样固定长度的词,取其中一个词作预测词,其他的作为输入词,输入词对应的词向量和本句话对应的句子向量作为输入层的输入,将本句话的向量和本次采样的词向量相加求平均或者累加构成一个新的向量X,进而使用这个向量预测此次窗口内的预测词句。
所述基于ELM的源代码漏洞检测模型通过输入层激活信号,再通过隐藏层提取特征,不同隐藏层神经单元对应不同输入层的神经单元权重和自身偏置,最后输出层根据不同的隐藏层权重和自身偏置输出结果。进一步地,引入核函数来优化ELM,核函数采用径向基函数,将结合核函数的ELM称为KELM,其输出函数如下:
其中,λ是指值在[0,1]之间的正则化因子,I是指单位矩阵,H是隐藏层输出矩阵,非上标T是预期输出矩阵,上标T表示矩阵的转置,N表示训练数据集数量,L是指隐藏层的神经元数,Ω表示核函数,其计算方式如下:
其中h(xi)是隐藏层相对于输入xi的输出向量,K(xi,xj)表示径向基函数。
根据本发明的第二方面,提供基于上下文语义的漏洞检测装置,包括:
符号化表示模块,用于对获取的代码段进行符号化表示,将每个代码程序段的漏洞特征转换成特定的符号表示,其中相同的特征映射到相同的符号表示;
向量表示模块,用于将符号表示转换为向量;
漏洞检测模块,用于将向量输入基于ELM的源代码漏洞检测模型,进行漏洞检测,所述基于ELM的源代码漏洞检测模型预先使用训练数据集进行训练,模型包括输入层、隐藏层和输出层。
有益效果:相对于现有技术,本发明具有以下有益效果:
本发明一方面针对现有漏洞检测技术通过规则和代码相似性度计量等方法特征选择的不足,充分利用神经网络自动提取复杂特征的优势,同时引入了ELM和核方法,ELM其使用非迭代训练机制训练检测模型,可以有效提高漏洞检测的效率,通过核方法可以有效提高精度性能;另一方面,针对源深度学习输入的代码的符号表示转换为向量表示目前的方法容易忽略文本的上下文中的语义信息,本发明通过引入doc2vec,充分利用doc2vec在源代码向量表示方面优势,有效提高检测的效果。
附图说明
图1为本发明的基于上下文语义的漏洞检测方法总体流程图;
图2为本发明实施例提供的基于上下文语义的漏洞检测方法示意图;
图3为本发明实施例提供的具有隐藏层网络的ELM结构图示意图。
具体实施方式
下面结合附图对本发明的技术方案做出进一步的说明。
基于上下文语义的漏洞检测方法总体流程如图1所示,主要包括如下步骤:(1)对获取的代码段进行符号化表示,将每个代码程序段的漏洞特征转换成特定的符号表示,其中相同的特征映射到相同的符号表示;(2)将符号表示转换为向量;(3)将向量输入基于ELM的源代码漏洞检测模型,进行漏洞检测,所述基于ELM的源代码漏洞检测模型预先使用训练数据集进行训练得到,模型包括输入层、隐藏层和输出层。
在以下描述中,电力信息系统、电网信息系统、电力服务平台、电网业务系统指的是相同含义,它们在文中可互换地使用,通常指的是通过通信、自动控制、计算机、网络、传感等信息技术,在包括发电、输变电、配电、用电和调度等环节在内的电力生产、传输、消费全过程中实现自动控制和调度的信息化管理的软硬件系统。电力信息系统一般是由众多复杂异构的子系统组成的超大规模、广域分布和分级递阶的大系统,它的安全是多因素和多维的。
下面参照图2,结合模型的训练和验证,对本发明的基于上下文语义的漏洞检测方法做出具体描述。
步骤S1,数据预处理,包括对获取的代码段进行符号化表示和代码表示。
本发明的基于上下文语义的漏洞检测预处理方法是程序符号化和向量表示。符号表示的好处是可以通过减少代码程序段的长度来提高训练效率。在符号化中,每个代码程序段的漏洞特征,如局部变量、用户定义函数和数据类型等都会被转换成短的和固定长度的符号表示,其中相同的特征映射到相同的符号表示。
1)程序符号化
一个代码段由几个程序语句(即代码行)组成,其在数据依赖或控制依赖方面在语义上相互关联。其可以进一步转化为使用符号化的符号表示形式。然后将符号表示收集为语料库,用于训练向量表示工具doc2vec。
本发明通过三种符号化类型,如下所示:
(i)函数调用符号化:定义的函数名称符号化表示为FN。这种符号化类型被分配优先级,因为漏洞主要是由于库/API函数调用的不当使用造成的。定义函数的符号化可以提高漏洞信息中库/API函数的信噪比(SNR)。
(ii)变量符号化:包括参数和局部变量在内的变量名称用符号表示为VN。在实践中,变量占代码的很大比例。
(iii)数据类型符号化:变量和用户自定义函数的数据类型符号化表示为TN。它的优先级最低,因为许多数据类型与漏洞信息无关。
上面符号化中提到的符号N是一个数字,它表示该功能第一次出现的索引,同时注意多个函数出现在不同的代码段中时可能会映射到相同的符号名称。因为符号化V和T可能在不同的数据集中对漏洞信息的SNR产生不同的影响。根据符号化的优先级构建多级符号化机制。Level1包括一个符号化组为F。Level 2包括两个符号化组F+V和F+T。Level 3包括一个符号化组F+V+T。V和T分别表示上述的变量符号化和数据类型符号化。
如一段代码:static void sysgo()
list<char>dataList;
Sysgo1(dataList);
......
符号化之后:static void F1()
list<char>V1;
F2(V1);
......
2)代码表示
由于神经网络只能接受向量作为输入,源代码的符号表示需要进一步转换为向量表示。本发明通过doc2vec这种方式实现。
doc2vec方法是一种无监督算法,能从变长的文本(例如:句子、段落或文档)中学习得到固定长度的特征表示。它可以获得句子、段落和文档的向量表达,是word2vec的拓展,其不用固定句子长度,可以接受不同长度的句子做训练样本。doc2vec算法用于预测一个向量来表示不同的文档,该模型的结构潜在的克服了词袋模型的缺点。
doc2vec模型是受到了word2vec模型的启发。word2vec里预测词向量时,预测出来的词是含有词义的,doc2vec中也是构建了相同的结构,所以doc2vec克服了词袋模型中没有语义的缺点。假设现在存在训练样本,每个句子是训练样本,和word2vec一样,doc2vec也有两种训练方式,一种是分布记忆的段落向量,类似于word2vec中的CBOW模型,另一种是分布词袋版本的段落向量,类似于word2vec中的Skip-gram模型。
doc2vec可以从任意长度的文本中学习固定长度的特征表示,范围从句子到文档。而且,其中的句子向量Paragraph Vector可以记住段落的主题,这使得它能够比word2vec更好地提取全局特征。鉴于word2vec以一对一的方式将单词转换为向量表示,因此,转换后的向量的长度随输入文本的长度而变化。为了满足神经网络对定长输入的要求,需要对word2vec生成的向量做进一步处理,得到对应的定长形式。与word2vec不同,doc2vec可以直接从任意长度的输入文本中输出固定长度的向量。此外,与word2vec相比,doc2vec还可以从输入文本的上下文中掌握更多的语义信息。因此,doc2vec在源代码向量表示方面显示出巨大的潜力。
在doc2vec中,每一句话用唯一的向量来表示,用矩阵D的某一列来代表。每一个词也用唯一的向量来表示,用矩阵W的某一列来表示。每次从一句话中滑动采样固定长度的词,取其中一个词作预测词,其他的作为输入词。输入词对应的词向量Word Vector和本句话对应的句子向量Paragraph vector作为输入层的输入,将本句话的向量和本次采样的词向量相加求平均或者累加构成一个新的向量X,进而使用这个向量预测此次窗口内的预测词句。通过在同一个句子的若干次训练中共享句子向量Paragraph vector,训练得到的词向量表达的主旨会越来越准确。在这个过程中,上下文语义可以得到较为完整的保留,从而对于漏洞特征的提取具有积极的意义。训练完了以后,就会得到训练样本中所有的词向量和每句话对应的句子向量。
步骤S2,将预处理后的向量输入基于ELM(Extreme Learning Machine,极限学习机)的源代码漏洞检测模型,进行漏洞检测。
(1)模型结构
如图3所示为具有隐藏层网络的ELM结构,其中d、L和m分别表示输入层神经元、隐藏层神经元和输出层神经元的数量。ω是连接输入层和隐藏层的输入权重,b是隐藏层神经元的阈值,β是连接隐藏层和输出层的输出权重。ω和b在均匀分布下从(-1,1)和(0,1)范围随机生成。它们在模型的整个训练过程中都保持冻结状态。
(2)ELM模型
ELM模型可以被表示为:
Hβ=T
其中T是预期输出矩阵,H是隐藏层输出矩阵。H(xi)是隐藏层相对于输入xi的输出向量。g(·)是ELM的激活函数。ωj·xi表示输入权重与第i个训练样本特征的内积。
输出权重β可以通过以下方式获得:
其中H+是指H的Moore-Penrose广义逆矩阵,L是指隐藏层的神经元数,I是指N个单位矩阵,λ是指值在[0,1]之间的正则化因子。
ELM输出函数是:
ELM模型的优化目标可以表示为:
其中f(xi)和ti分别表示第i个样本的预测标签和真实标签。
通过采用电网某类信息系统中已知漏洞的源代码作为数据集,包括缓冲区错误漏洞、资源管理错误漏洞等和所有库/API函数调用的样本。通过对该数据集进行分类为两部分,比例分别为80%和20%,其中较大的部分用于训练,另一部分用于测试。数据集中的每个样本都是带有真实标签的符号表示形式。基于历史“易受攻击”的样本进行同类型样本标记,收集该类型样本用于两个实验。并且都用F+V的符号化组进行预处理。
(3)基于核函数优化的ELM
由于ELM模型输入层权值和隐层偏置的随机性,导致模型容易出现不稳定状态。故而引入核函数来优化ELM。通过将数据映射到高维空间,将非线性问题转化为线性问题。结合核方法,与传统的ELM相比有两个好处。一方面,它解决了传统ELM中隐藏层节点数量依赖手动设置的问题,表现出更好的稳定性。另一方面,核函数将数据映射到高维空间,数据在变换后的空间中的分布非常平滑。事实上,平滑的新数据使分类问题更容易,因此模型可以显示出更好的效果。径向基函数(RBF)是首选的核函数,因为它只有一个超参数,可以简化模型配置和训练成本。RBF核函数可以表示为:
其中x和y表示样本,一个是历史输入向量,另一个是输出值,γ是表示高斯核函数的唯一超参数,‖x-y‖表示向量的范数。
以Ω表示核矩阵,定义核函数的计算式如下:
KELM输出函数如下:
从上式可以看出,ELM结合核方法可以避免传统ELM中隐藏层节点数依赖人工设置的问题。
为了进一步提升算法的性能,建立ISSA-KELM分类器模型,在训练过程中使用ISSA算法搜索KELM分类器的最优正则化系数C和最优核参数g,然后将训练好的KELM模型在测试集上进行测试评估,输出分类结果。
语义分析是通过建立有效的模型和系统实现对各种语言的自动语义分析,达到实现对整个文本所表达语义的理解。本发明基于上下文语义的漏洞检测方法利用输入输出的语义分析,采集定位Web应用的高风险行为,针对其代码段进行处理,同时通过使用ELM来解决漏洞检测模型的训练效率问题。此外,引入核方法来提高ELM的精度。实验结果表明,采用核方法的ELM是效率和精度的有效结合。特别是对于数据预处理问题,通过使用doc2vec的向量表示在大型数据集上表现良好,适当的符号化级别可以有效提高漏洞检测的精度。
根据本发明的另一实施例,提供一种基于上下文语义的漏洞检测装置,包括:
符号化表示模块,用于对获取的代码段进行符号化表示,将每个代码程序段的漏洞特征转换成特定的符号表示,其中相同的特征映射到相同的符号表示;
向量表示模块,用于将符号表示转换为向量;
漏洞检测模块,用于将向量输入基于ELM的源代码漏洞检测模型,进行漏洞检测,所述基于ELM的源代码漏洞检测模型预先使用训练数据集进行训练,模型包括输入层、隐藏层和输出层。
其中,所述符号化表示模块包括:
函数调用符号化单元:将定义的函数名称符号化表示为FN;
变量符号化单元:将包括参数和局部变量在内的变量名称用符号表示为VN;
数据类型符号化单元:将变量和用户自定义函数的数据类型符号化表示为TN;
其中提到的符号N是一个数字,它表示该功能第一次出现的索引。
进一步地,所述符号化表示模块还包括多级构建单元,用于设置符号化表示的优先级,根据符号化的优先级构建多级符号化机制,其中Level1包括一个符号化组为F,Level2包括两个符号化组F+V和F+T,Level 3包括一个符号化组F+V+T。
进一步地,所述向量表示模块通过doc2vec模型实现将符号表示转换为向量,所述doc2vec模型将每一句话用唯一的向量来表示,用矩阵D的某一列来代表;每一个词也用唯一的向量来表示,用矩阵W的某一列来表示;每次从一句话中滑动采样固定长度的词,取其中一个词作预测词,其他的作为输入词,输入词对应的词向量和本句话对应的句子向量作为输入层的输入,将本句话的向量和本次采样的词向量相加求平均或者累加构成一个新的向量X,进而使用这个向量预测此次窗口内的预测词句。
ELM模型可以被表示为:
Hβ=T
其中T是预期输出矩阵,H是隐藏层输出矩阵。H(xi)是隐藏层相对于输入xi的输出向量。g(·)是ELM的激活函数。ωj·xi表示输入权重与第i个训练样本特征的内积。
输出权重β可以通过以下方式获得:
其中H+是指H的Moore-Penrose广义逆矩阵,L是指隐藏层的神经元数,I是指N个单位矩阵,λ是指值在[0,1]之间的正则化因子。
ELM输出函数是:
ELM模型的优化目标可以表示为:
其中f(xi)和ti分别表示第i个样本的预测标签和真实标签。
所述漏洞检测模块还包括模型优化单元,引入核函数来优化ELM,核函数采用径向基函数,将结合核函数的ELM称为KELM,其输出函数如下:
其中,λ是指值在[0,1]之间的正则化因子,I是指单位矩阵,H是隐藏层输出矩阵,非上标T是预期输出矩阵,上标T表示矩阵的转置,N表示训练数据集数量,L是指隐藏层的神经元数,Ω表示核函数,其计算方式如下:
其中h(xi)是隐藏层相对于输入xi的输出向量,K(xi,xj)表示径向基函数。
应理解,本发明实施例中的基于上下文语义的漏洞检测装置可以实现上述方法实施例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,在装置实施例中未加以详述的具体实现过程以及计算公式可参照上述实施例中的相关描述。
基于与方法实施例相同的技术构思,根据本发明的另一实施例,提供一种计算机设备,所述设备包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现方法实施例中的各步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种基于上下文语义的漏洞检测方法,其特征在于,所述方法包括以下步骤:
对获取的代码段进行符号化表示,将每个代码程序段的漏洞特征转换成特定的符号表示,其中相同的特征映射到相同的符号表示;
将符号表示转换为向量;
将向量输入基于ELM的源代码漏洞检测模型,进行漏洞检测,所述基于ELM的源代码漏洞检测模型预先使用训练数据集进行训练得到,模型包括输入层、隐藏层和输出层。
2.根据权利要求1所述的基于上下文语义的漏洞检测方法,其特征在于,对获取的代码段进行符号化表示包括:
函数调用符号化:定义的函数名称符号化表示为FN;
变量符号化:包括参数和局部变量在内的变量名称用符号表示为VN;
数据类型符号化:变量和用户自定义函数的数据类型符号化表示为TN;
符号化中提到的符号N是一个数字,它表示该功能第一次出现的索引。
3.根据权利要求2所述的基于上下文语义的漏洞检测方法,其特征在于,对获取的代码段进行符号化表示还包括:设置符号化表示的优先级,根据符号化的优先级构建多级符号化机制,其中Level1包括一个符号化组为F,Level 2包括两个符号化组F+V和F+T,Level 3包括一个符号化组F+V+T。
4.根据权利要求1所述的基于上下文语义的漏洞检测方法,其特征在于,所述将符号表示转换为向量通过doc2vec模型实现,所述doc2vec模型针对符号化表示的语句,每次从一句话中滑动采样固定长度的词,取其中一个词作预测词,其他的作为输入词,输入词对应的词向量和本句话对应的句子向量作为输入层的输入,将本句话的向量和本次采样的词向量相加求平均或者累加构成一个新的向量X,使用向量X预测此次窗口内的预测词句。
6.一种基于上下文语义的漏洞检测装置,其特征在于,包括:
符号化表示模块,用于对获取的代码段进行符号化表示,将每个代码程序段的漏洞特征转换成特定的符号表示,其中相同的特征映射到相同的符号表示;
向量表示模块,用于将符号表示转换为向量;
漏洞检测模块,用于将向量输入基于ELM的源代码漏洞检测模型,进行漏洞检测,所述基于ELM的源代码漏洞检测模型预先使用训练数据集进行训练,模型包括输入层、隐藏层和输出层。
7.根据权利要求6所述的基于上下文语义的漏洞检测装置,其特征在于,所述符号化表示模块包括:
函数调用符号化单元:将定义的函数名称符号化表示为FN;
变量符号化单元:将包括参数和局部变量在内的变量名称用符号表示为VN;
数据类型符号化单元:将变量和用户自定义函数的数据类型符号化表示为TN;
其中提到的符号N是一个数字,它表示该功能第一次出现的索引。
8.根据权利要求7所述的基于上下文语义的漏洞检测装置,其特征在于,所述符号化表示模块还包括多级构建单元,用于设置符号化表示的优先级,根据符号化的优先级构建多级符号化机制,其中Level1包括一个符号化组为F,Level 2包括两个符号化组F+V和F+T,Level 3包括一个符号化组F+V+T。
9.根据权利要求6所述的基于上下文语义的漏洞检测装置,其特征在于,所述向量表示模块通过doc2vec模型实现将符号表示转换为向量,所述doc2vec模型针对符号化表示的语句,每次从一句话中滑动采样固定长度的词,取其中一个词作预测词,其他的作为输入词,输入词对应的词向量和本句话对应的句子向量作为输入层的输入,将本句话的向量和本次采样的词向量相加求平均或者累加构成一个新的向量X,使用向量X预测此次窗口内的预测词句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110829910.0A CN113569253A (zh) | 2021-07-22 | 2021-07-22 | 一种基于上下文语义的漏洞检测方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110829910.0A CN113569253A (zh) | 2021-07-22 | 2021-07-22 | 一种基于上下文语义的漏洞检测方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113569253A true CN113569253A (zh) | 2021-10-29 |
Family
ID=78166214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110829910.0A Pending CN113569253A (zh) | 2021-07-22 | 2021-07-22 | 一种基于上下文语义的漏洞检测方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569253A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107911346A (zh) * | 2017-10-31 | 2018-04-13 | 天津大学 | 一种基于极限学习机的入侵检测方法 |
CN111444724A (zh) * | 2020-03-23 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 医疗问答对质检方法、装置、计算机设备和存储介质 |
-
2021
- 2021-07-22 CN CN202110829910.0A patent/CN113569253A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107911346A (zh) * | 2017-10-31 | 2018-04-13 | 天津大学 | 一种基于极限学习机的入侵检测方法 |
CN111444724A (zh) * | 2020-03-23 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 医疗问答对质检方法、装置、计算机设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
GAIGAI TANG .ETAL: "An Automatic Source Code Vulnerability Detection Approach Based on KELM", 《SECURITY AND COMMUNICATION NETWORKS》, vol. 2021, pages 1 - 12 * |
MICROSTRONG: "Doc2vec原理解析及代码实践", pages 1 - 4, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/136096645> * |
就是求关注: "自然语言处理技术之词嵌入方法-2", pages 59 - 64, Retrieved from the Internet <URL:https://blog.csdn.net/weixin_40651515/article/details/109963179> * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104699763B (zh) | 多特征融合的文本相似性度量系统 | |
CN111124487B (zh) | 代码克隆检测方法、装置以及电子设备 | |
Mahmud et al. | Reason based machine learning approach to detect bangla abusive social media comments | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
Das et al. | Sentence embedding models for similarity detection of software requirements | |
Gunaseelan et al. | Automatic extraction of segments from resumes using machine learning | |
Bondielli et al. | On the use of summarization and transformer architectures for profiling résumés | |
CN113553245B (zh) | 结合双向切片gru与门控注意力机制日志异常检测方法 | |
Lin et al. | Research on named entity recognition method of metro on-board equipment based on multiheaded self-attention mechanism and CNN-BiLSTM-CRF | |
Naik et al. | Deep learning-based code refactoring: A review of current knowledge | |
Zhang et al. | A textcnn based approach for multi-label text classification of power fault data | |
Wen et al. | A Cross-Project Defect Prediction Model Based on Deep Learning With Self-Attention | |
Qi et al. | Adversarial transfer for classical Chinese NER with translation word segmentation | |
Liu et al. | Neural networks models for entity discovery and linking | |
Wang et al. | Simplified representation learning model based on parameter-sharing for knowledge graph completion | |
CN113569253A (zh) | 一种基于上下文语义的漏洞检测方法与装置 | |
Singh et al. | A comparative analysis of text classification algorithms for ambiguity detection in requirement engineering document using WEKA | |
Panthum et al. | Generating functional requirements based on classification of mobile application user reviews | |
Tulasi Sasidhar et al. | Sentiment analysis on hindi–english code-mixed social media text | |
Türkmen et al. | A novel method for extracting feature opinion pairs for Turkish | |
Tsai et al. | Generating Construction Safety Observations via CLIP-Based Image-Language Embedding | |
Liang et al. | Multi-Classification of Electric Power Metadata based on Prompt-tuning | |
Štihec et al. | Simplified hybrid approach for detection of semantic orientations in economic texts | |
Kashihara et al. | Human-machine interaction for improved cybersecurity named entity recognition considering semantic similarity | |
Liu et al. | The USTC NELSLIP Systems for Trilingual Entity Detection and Linking Tasks at TAC KBP 2016. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |