CN116383089A - 基于常微分方程图神经网络的语句级软件缺陷预测系统 - Google Patents
基于常微分方程图神经网络的语句级软件缺陷预测系统 Download PDFInfo
- Publication number
- CN116383089A CN116383089A CN202310610639.0A CN202310610639A CN116383089A CN 116383089 A CN116383089 A CN 116383089A CN 202310610639 A CN202310610639 A CN 202310610639A CN 116383089 A CN116383089 A CN 116383089A
- Authority
- CN
- China
- Prior art keywords
- statement
- neural network
- semantic
- dependency
- differential equation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007547 defect Effects 0.000 title claims abstract description 106
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 54
- 238000010586 diagram Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 72
- 239000011159 matrix material Substances 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 abstract description 3
- 239000013598 vector Substances 0.000 description 19
- 230000006870 function Effects 0.000 description 7
- 238000011160 research Methods 0.000 description 5
- 235000008733 Citrus aurantifolia Nutrition 0.000 description 4
- 235000011941 Tilia x europaea Nutrition 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000002950 deficient Effects 0.000 description 4
- 239000004571 lime Substances 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012614 Monte-Carlo sampling Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3604—Software analysis for verifying properties of programs
- G06F11/3616—Software analysis for verifying properties of programs using software metrics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3604—Software analysis for verifying properties of programs
- G06F11/3608—Software analysis for verifying properties of programs using formal methods, e.g. model checking, abstract interpretation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于常微分方程图神经网络的语句级软件缺陷预测系统,所述系统具有:输入模块;语义特征表示模块;结构特征表示模块;缺陷分类模块;其中,输入模块对源代码进行语句解析,根据解析后的语句建立语句依赖图;语义特征表示模块生成语句的语义表示;结构特征表示模块根据语句依赖图和语句的语义表示,生成语句的结构表示;缺陷分类模块采用多层感知器生成每个语句的分类结果。本发明提出了一种基于常微分方程图神经网络的方法提取语义信息和结构特性生成语句表示并捕获语句中的长程依赖关系,使预测结果有更高的准确性、稳定性,解决以往缺陷预测只能在粗粒度级别实现的问题,直接在语句级别实现细粒度的缺陷预测。
Description
技术领域
本发明涉及软件缺陷预测技术领域,尤其涉及到一种基于常微分方程图神经网络的语句级软件缺陷预测系统及方法。
背景技术
代码表示方法和缺陷预测模型是影响语句级软件缺陷预测模型的两个要素,本节介绍了以上两要素的研究进展。
代码表示方法:
源代码表示的目标是将源代码转换为相应的数值形式,可以用作缺陷预测模型的输入。由于其与缺陷预测模型的性能密切相关,该任务近年来受到了广泛关注。
缺陷预测中最常用的表示技术是度量元,它是评估源代码质量属性的指标。由于抽象程度高,它只能表示代码的全局统计特性,如语句数量、复杂度、软件开发过程等。导致区分缺陷语句与非缺陷语句之间细小的局部差异的能力不足。另外,我们希望选择的度量元集合具有正交性,即每个度量元能独立刻画代码的某一质量属性。当前常用的度量元集合有CK、MOOD等,这些度量元之间通常存在较强的相关性。如何从这些集合中挑选出适应于代码特点的度量元是当前研究的一个难点。针对该问题研究人员提出了filter-based,wrapper-based和embedded-based的度量元选择方法。然而实验结果发现这些技术对提高度量元之间的正交性贡献并不大。在极端的情况下经过特征选择的度量元集合共线性高达100%。
近年来,研究人员从代码的语义和结构两方面提出了新的表示方法。代码是编程语言书写的文本的集合,如同自然语言一样代码具有完备的语法规则,同时变量、关键词等代码实体包含着丰富的功能语义。因此自然语言处理中许多成熟的技术可应用于代码表示。Bag-of-Words是缺陷预测领域常用的一种代码表示方法,该方法通过统计关键词的词频将代码转化为对应的向量表达。然而Bag-of-Words 技术假设关键词之间具有独立同分布假设,即假设代码关键词没有上下文信息。代码和自然语言一样拥有完备的语法规则,并且基于此定义代码语句的生成规则,保证语义的正确性。语法规则的存在导致关键词之间不可能服从独立同分布假设。另外相较于自然语言,代码的字符集较自然语言要大很多,因此使用Bag-of-Words技术生成代码向量通常具有高维稀疏特性,导致预测模型预测性能下降明显。神经语言模型打破了关键词之间的独立同分布假设,认为代码关键词之间具有上下文。同时神经语言模型可将代码映射成为实值短向量,有效解决了针对词袋模型生成代码向量的高维稀疏问题。Code2Vec将代码分解为路径集合和实体集合,通过路径注意力机制实现代码的分布式表示。实验结果显示该方法能有效捕获代码携带的语义信息,对提升下游应用(变量名预测)有显著作用。DeepJIT将提交报告和源代码作为两个独立卷积神经网络的输入,将其携带的语义信息抽象为特征向量。对上述两向量进行拼接作为缺陷预测网络的输入。CC2Vec通过构造层次化注意力网络生成变更对应的向量表示,并将其与DeepJIT 生成的特征向量相拼接作为预测网络的输入。
软件缺陷通常是由无数个不连续的语句相互作用产生的,因此语句之间的结构依赖关系与软件缺陷密切相关。构建结构依赖性的强大表示对于提高缺陷预测模型的功效至关重要。现有模型主要遵循深度学习模型+抽象语法树(AST)范式来捕捉结构依赖。具体来说,代码结构可以表示为从 AST遍历的token序列。 然后将此类序列输入到基于递归神经网络(RNN)的网络中以生成结构嵌入。但是,由于AST使用token作为节点,节点数量庞大,输入序列的长度变得非常大。基于RNN的模型可能无法捕获令牌之间的长期依赖关系。
为了解决这些问题,研究人员利用图神经网络(GNN)来捕获源代码中的结构依赖性。为了捕获长期依赖,基于GNN的方法必须堆叠多个GNN层以扩大感受野,这通常会导致过度平滑,并且GNN的表达能力会降低。在实际应用中,堆叠GNN层的数量不应超过两个,这意味着基于GNN的方法只能捕获二阶邻域内的结构依赖性。
缺陷预测模型:
按照预测结果的粒度,缺陷预测模型大致可以分为粗粒度缺陷预测模型和细粒度缺陷预测模型。传统缺陷预测技术主要针对粗粒度软件实体,例如文件、类、包的预测,产生了大量的研究成果。然而这些针对粗粒度软件实体的预测模型在实际应用中遇到了挑战。首先,由于粒度较大,导致开发者需要对预测结果进行测试以及复审来定位产生缺陷的具体位置,后续开销大。另外,一个大粒度的软件实体可能被很多开发人员修改过,难以找到一个合适的开发者对存在的缺陷进行修复。
随着研究的深入,面向语句级别的缺陷预测模型逐渐成为研究的热点。由于预测粒度小,不仅开发者可以花费更少的时间和精力去审查被预测为有缺陷的代码行,而且项目管理人员可以更准确地找到引入缺陷的开发者,有助于有效分析缺陷引入的原因,提高工程师修复缺陷的效率。近年来面向语句级别的缺陷预测模型相继提出。
为应对上述挑战,研究者提出了面向细粒度软件实体的缺陷预测模型。其中即时缺陷预测是在提交代码时对是否存在缺陷进行的预测。与模块、文件等粗粒度缺陷预测相比,提交仅包含有限行代码,对预测结果进行代码复审和测试的开销得到有效降低。同时,代码变更提交后立即执行缺陷预测这有利于追踪缺陷的来源以及缩短缺陷修复的时间。
JITLine基于词袋模型将代码抽象为向量。使用差分演化和 SMOTE 技术解决了代码向量的数据不平衡问题。将经过处理的代码向量作为随机森林算法的输入,构建提交级别缺陷预测模型。将提交缺陷预测结果作为输入,使用可解释学习模型LIME分析每一行代码存在缺陷的可能性。
Line-DP使用词袋模型将代码抽象成为向量,将其作为Logistic模型的训练数据,构建文件级缺陷预测模型。将文件级缺陷预测结果作为可解释学习模型 LIME 的输入,分析每个代码行存在缺陷的概率分布。
DeepLineDP提出了一种“端到端”的缺陷预测模型。该模型使用 Word2Vec 将每个语句中的标记编码为短密集向量并利用 Bi-GRU 和注意机制来捕获标记和语句之间的长期依赖关系,实现文件级缺陷预测,最终通过缺陷文件评估token注意力来间接获得语句级缺陷预测结果,token注意力量化了对缺陷文件预测的贡献。
即时缺陷预测统计数据显示平均每个提交包含3.7个文件,每个文件包含73-190行代码。预测为缺陷的提交中仅43%的文件存在缺陷。代码复审开销依旧很大,即时缺陷预测粒度还需进一步细化。
JITLine和Line-DP将提交级或文件级缺陷预测结果作为可解释学习模型 LIME的输入,这些模型都采用了“分层”的结构,即首先生成提交级或文件级缺陷预测结果,再使用可解释机器学习算法对预测结果进行细化以确定存在缺陷的语句。然而以LIME为代表的可解释算法存在解释结果不稳定和解释结果受超参数影响大的问题,导致对同一个缺陷使用同一方法执行多次解释,输出结果不一致;对同一缺陷使用不同局部解释方法,输出结果不一致的问题。
DeepLineDP严重依赖文件级缺陷预测效果,如果在无缺陷文件中有较高token注意力那么会很大程度上会影响语句级缺陷预测效果。同时该方法并没有考虑语句间结构特性,直接通过邻接语句来捕获长程依赖。
发明内容
本发明的主要目的在于提供一种基于常微分方程图神经网络的语句级软件缺陷预测系统及方法,旨在解决以往缺陷预测只能在粗粒度级别实现的问题,通过图结构直接实现了语句级缺陷预测并具有高准确度,高稳定性等特点。
为实现上述目的,本发明提供基于常微分方程图神经网络的语句级软件缺陷预测系统,所述系统,具有:
输入模块;
语义特征表示模块;
结构特征表示模块;
缺陷分类模块;
其中,所述输入模块用于对源代码进行语句解析,根据解析后的语句建立语句依赖图;
其中,所述语义特征表示模块用于生成语句的语义表示;
其中,所述结构特征表示模块用于根据语句依赖图和语句的语义表示,利用常微分方程图神经网络捕获长程数据依赖关系,并控制语句之间的依赖关系,以生成语句的结构表示;
其中,所述缺陷分类模块用于采用多层感知器生成每个语句的分类结果。
可选的,所述输入模块,还用于对解析后的语句进行关键词拆分处理。
可选的,所述关键词拆分处理包括停用词删除处理、分段处理和词干提取处理。
可选的,所述输入模块,还用于分析语句间的控制依赖和数据依赖,构建语句依赖图;其中:每个节点/>代表源代码中的一条语句;边集/>表示语句之间的数据依赖或控制依赖,语句依赖图的邻接矩阵/>描述了语句空间的拓扑结构;/>表示节点i和节点j之间没有边,否则表示节点i和节点j之间有边。
可选的,所述控制依赖和所述数据依赖,具体为:
可选的,所述语义特征表示模块用于在接收到语句序列输入时,将每条语句转换为矩阵,利用双向GRU捕获关键词的依赖关系,获得语义依赖项,并对每条语句进行语义依赖编码,再对语义依赖编码进行嵌入定义,生成语句的语义表示。
可选的,对语义依赖编码进行嵌入定义,生成语句的语义表示,具体采用自注意力机制动态地为每条语句分配合适的权重,以生成语句的语义表示。
可选的,所述结构特征表示模块利用空间图神经网络,对给定的语句依赖图和语句的语义表示,生成语句的结构表示。
可选的,所述结构特征表示模块,具有:
邻居节点采样单元;
常微分方程图神经网络单元;
所述邻居节点采样单元通过选择语句依赖图中与目标节点相关性最大的n个节点生成目标节点的表示;
所述常微分方程图神经网络单元捕获语句的语义表示中长程数据依赖关系并控制语句之间的依赖关系,以生成每条语句的结构表示。
此外,为了实现上述目的,本发明还提供了一种基于常微分方程图神经网络的语句级软件缺陷预测方法,所述方法包括:
S1:对源代码进行语句解析,根据解析后的语句建立语句依赖图;
S2:生成语句的语义表示;
S3:根据语句依赖图和语句的语义表示,利用常微分方程图神经网络捕获长程数据依赖关系,并控制语句之间的依赖关系,以生成语句的结构表示;
S4:采用多层感知器生成每个语句的分类结果。
本发明的有益技术效果在于:提出的一种基于常微分方程图神经网络的语句级软件缺陷预测系统及方法,所述系统具有:输入模块;语义特征表示模块;结构特征表示模块;缺陷分类模块;其中,所述输入模块用于对源代码进行语句解析,根据解析后的语句建立语句依赖图;所述语义特征表示模块用于生成语句的语义表示;所述结构特征表示模块用于根据语句依赖图和语句的语义表示,生成语句的结构表示;所述缺陷分类模块用于采用多层感知器生成每个语句的分类结果。本发明提出了一种基于常微分方程图神经网络的方法来捕获语句中的长程依赖关系,使预测结果有更高的准确性、稳定性,解决以往缺陷预测只能在粗粒度级别实现的问题,直接在语句级别实现细粒度的缺陷预测。
附图说明
图1为本发明基于常微分方程图神经网络的语句级软件缺陷预测系统的结构示意图;
图2为本发明实施例中提及的源代码;
图3为本发明基于常微分方程图神经网络的语句级软件缺陷预测方法的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
附图标记说明:
10-输入模块;20-语义特征表示模块;30-结构特征表示模块;40-缺陷分类模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供了一种基于常微分方程图神经网络的语句级软件缺陷预测系统,参照图1,图1为本发明基于常微分方程图神经网络的语句级软件缺陷预测系统的结构示意图。
具体而言,基于常微分方程图神经网络的语句级软件缺陷预测系统,具有:输入模块10;语义特征表示模块20;结构特征表示模块30;缺陷分类模块40。
其中,所述输入模块用于对源代码进行语句解析,根据解析后的语句建立语句依赖图;所述语义特征表示模块用于生成语句的语义表示;所述结构特征表示模块用于根据语句依赖图和语句的语义表示,生成语句的结构表示;所述缺陷分类模块用于采用多层感知器生成每个语句的分类结果。
本实施例中,将语句级软件缺陷预测定义为一个二分类问题。即给定语句集合,N为语句的个数,构建分类模型/>,其中/>表示深度学习模型,/>表示参数向量。如果/>输出结果为1表示当前语句/>存在缺陷,相反0表示没有缺陷。本实施例模型具体包含输入、结构特征表示、语义特征表示、缺陷分类四个模块。
1.输入模块
自然语言相比源代码拥有更多无用的token,对其尽心计算的时间和内存开销均很大。为了缓解该问题,采用神经语言处理技术,例如停用词删除、分段和词干提取来减少此类token。停用词通常是运算符、编程语言关键词和常量。用代替整数、实数、指数,去掉:{,(,)等符号。分段将复合标识符分成几个词,例如timerForAutomaticSaving可以拆分为四个词:timer、for、automatic和saving。词干提取可以将token转换为其词干,例如把关键词saving转换为save。
其次,输入模块通过分析语句间的控制依赖和数据依赖,构建语句依赖图。如图2所示,为本实施例的源代码。每个节点/>代表源代码中的一条语句。边集/>表示语句之间的数据依赖或控制依赖。当且仅当满足以下条件时,节点和/>之间存在数据依赖关系:
2.语义特征表示模块
变量名、类名等反映了语句的功能属性,这对于从非缺陷语句中识别缺陷语句很重要。本实施例中,展开语义特征表示模块的细节,它以语句序列作为输入,从上下文的角度将语句转换为相应的实值稠密向量。语义特征表示模块由以下三个子块组成。
其次,利用双向GRU来捕获token的依赖关系。这里采用双向GRU的原因如下:1.双向GRU可以从左到右和从右到左的顺序读取token embeddings,适合捕获语句相邻节点之间的语义依赖关系。2.GRU的更新门和重置门有助于决定哪些令牌应该被记住或忘记。3.GRU在捕获token序列中的长期依赖性方面与LSTM表现相似,但参数更少。语义依赖性可以建模如下所示:
由于每个语句有不同数量的token,所以不同语句S的维度是不同的。因此,需要将不同维度的S转换为固定的形式,根据以下等式:
k∈{1,2,…,m}。
3.结构特征表示模块
由于语句间存在长程依赖,基于神经网络的缺陷预测方法通过扩大图卷积层的堆叠数量实现扩大感受野,继而实现对长程依赖的捕获。然而卷积层的堆叠会导致现有图神经网络出现过拟合,导致模型性能急速下降。另外,一个软件系统通常包含数以万计的代码行,对应的邻接矩阵不仅规模庞大,而且具有较高的稀疏特性。谱图卷积神经网络需要对邻接矩阵进行归一化操作,其中D是邻接矩阵A的度矩阵,以及矩阵分解操作。以上两个操作均涉及复杂的计算过程和大量的存储开销。
针对语句依赖图的大尺度稀疏化特点,本实施例提出了一种空间图神经网络。该网络由采样和偏微分图神经网络两部分组成。
3.1邻居节点采样
上述公式可以重写为对应的数据期望形式:
然而,假设每个节点的重要性与其邻居节点相关,。这种假设是不合理的,因为语句依赖图中的每个节点都具有不同的功能并且对整个软件系统具有不同的重要性。此外,目标节点与其邻居节点之间的距离反映了邻居节点与目标节点之间的数据依赖或控制依赖的强弱。所以我们这里采用重要性采样技术将其变换为如下形式:
3.2 常微分方程图神经网络
为了解决基于GNN的模型的长程依赖关系捕获问题,本实施例利用常微分方程(ODE)图神经网络来捕获长程数据依赖关系并控制语句之间的依赖关系。节点间的信息传播过程可以定义为:
其中是第n层图神经网络的节点的表示,节点的初始特征由语义特征模块生成语义特征向量定义。可学习参数/>刻画了邻接节点的重要程度。可以看出,第n层图神经网络的节点表示不仅受邻居节点表示的影响还受初始节点特征的影响。上述公式可以进一步演化为:
由此可知,当n趋近于一个较大的自然数时,语句之间的长程依赖可以表达为等比数列求和形式。
接下来通过将n替换为连续变量实现将节点特征的扩散过程扩展到连续情况,并进一步使用ODE来表征这种连续传播过程。显然上述公式可看做时间从t=0到t=n积分的黎曼和,能够自然地从离散传播过程转移到连续情况。因此可看做以下常微分方程的离散化形式:
通过对上述公式进行一阶泰勒展开得到:
因此对应的解析解为
给定邻接矩阵A根据上述公式可为每条语句生成对应的依赖特征H(t)。由于上述公式的计算量仅依赖于矩阵和/>的矩阵分解,不会随着t的增大而增大。因此尽管语句依赖图规模很大,但生成节点表示的计算量几乎是一个常数。
4.缺陷分类模块
本实施例中,采用多层感知器(MLP)来生成每个语句的分类结果。相应的损失函数定义为二元交叉熵:
本实施例解决以往软件缺陷预测只能在粗粒度级别(文件、函数、类、包等)实现的问题,在语句级别实现细粒度(语句级)的缺陷预测。对于语句表示,提出了一种判别式特征提取方法。该方法不再将度量元作为输入,而是通过将深度学习和图神经网络模型结合在一起来同时捕获语句之间的语义和结构依赖性为每个语句生成表示。它缓解了现有代码表示方法无法区分缺陷语句和非缺陷语句之间差异的局限性,有助于提高缺陷预测模型的性能。提出了一种基于常微分方程图神经网络的方法来捕获语句中的长程依赖关系。节点之间的长程依赖关系被抽象为图节点表示的偏微分方程,以堆叠层数表示。这有效地解决了增加堆叠层数导致的过度平滑问题,同时也降低了计算复杂度。
在实际应用中,解决以往缺陷预测只能在粗粒度级别实现的问题,在语句级别实现细粒度的缺陷预测,降低了开发人员的审查开销和精力。在软件工程项目中,不同代码行之间的依赖关系很复杂。虽然传统 GNN 的性能会因多层堆叠后的过度拟合而下降,但常微分方程图神经网络可以更好地捕获基于图结构特征的长程依赖关系,使预测结果有更高的准确性,稳定性。
参照图3,图3为本发明基于常微分方程图神经网络的语句级软件缺陷预测方法实施例的流程示意图。
如图3所示,本发明实施例提出的基于常微分方程图神经网络的语句级软件缺陷预测方法,用于前述实施例记载的基于常微分方程图神经网络的语句级软件缺陷预测系统,该方法包括:
S1:对源代码进行语句解析,根据解析后的语句建立语句依赖图;
S2:生成语句的语义表示;
S3:根据语句依赖图和语句的语义表示,利用常微分方程图神经网络捕获长程数据依赖关系,并控制语句之间的依赖关系,以生成语句的结构表示;
S4:采用多层感知器生成每个语句的分类结果。
本发明基于常微分方程图神经网络的语句级软件缺陷预测方法的其他实施例或具体实现方式可参照上述各系统实施例,此处不再赘述。
可以理解的是,在本说明书的描述中,参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例~第N实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.基于常微分方程图神经网络的语句级软件缺陷预测系统,其特征在于,所述系统,具有:
输入模块,用于对源代码进行语句解析,根据解析后的语句建立语句依赖图;
语义特征表示模块,用于生成语句的语义表示;
结构特征表示模块,用于根据语句依赖图和语句的语义表示,利用常微分方程图神经网络捕获长程数据依赖关系,并控制语句之间的依赖关系,以生成语句的结构表示;
缺陷分类模块,用于采用多层感知器生成每个语句的分类结果。
2.如权利要求1所述的基于常微分方程图神经网络的语句级软件缺陷预测系统,其特征在于,所述输入模块,还用于对解析后的语句进行关键词拆分处理。
3.如权利要求2所述的基于常微分方程图神经网络的语句级软件缺陷预测系统,其特征在于,所述关键词拆分处理包括停用词删除处理、分段处理和词干提取处理。
6.如权利要求5所述的基于常微分方程图神经网络的语句级软件缺陷预测系统,其特征在于,所述语义特征表示模块用于在接收到语句序列输入时,将每条语句转换为矩阵,利用双向GRU捕获关键词的依赖关系,获得语义依赖项,并对每条语句进行语义依赖编码,再对语义依赖编码进行嵌入定义,生成语句的语义表示。
7.如权利要求6所述的基于常微分方程图神经网络的语句级软件缺陷预测系统,其特征在于,对语义依赖编码进行嵌入定义,生成语句的语义表示,具体采用自注意力机制动态地为每条语句分配合适的权重,以生成语句的语义表示。
8.如权利要求7所述的基于常微分方程图神经网络的语句级软件缺陷预测系统,其特征在于,所述结构特征表示模块利用空间图神经网络,对给定的语句依赖图和语句的语义表示,生成语句的结构表示。
9.如权利要求8所述的基于常微分方程图神经网络的语句级软件缺陷预测系统,其特征在于,所述结构特征表示模块,具有:
邻居节点采样单元;
常微分方程图神经网络单元;
所述邻居节点采样单元通过选择语句依赖图中与目标节点相关性最大的n个节点生成目标节点的表示;
所述常微分方程图神经网络单元捕获语句的语义表示中长程数据依赖关系并控制语句之间的依赖关系,以生成每条语句的结构表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310610639.0A CN116383089B (zh) | 2023-05-29 | 2023-05-29 | 基于常微分方程图神经网络的语句级软件缺陷预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310610639.0A CN116383089B (zh) | 2023-05-29 | 2023-05-29 | 基于常微分方程图神经网络的语句级软件缺陷预测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116383089A true CN116383089A (zh) | 2023-07-04 |
CN116383089B CN116383089B (zh) | 2023-08-04 |
Family
ID=86980925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310610639.0A Active CN116383089B (zh) | 2023-05-29 | 2023-05-29 | 基于常微分方程图神经网络的语句级软件缺陷预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116383089B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017037659A1 (en) * | 2015-09-03 | 2017-03-09 | Auckland Uniservices Limited | System and method for emulating hybrid systems |
US20180189272A1 (en) * | 2016-12-29 | 2018-07-05 | Ncsoft Corporation | Apparatus and method for sentence abstraction |
CN109783827A (zh) * | 2019-01-31 | 2019-05-21 | 沈阳雅译网络技术有限公司 | 一种基于动态线性聚合的深层神经机器翻译方法 |
CN112883149A (zh) * | 2021-01-20 | 2021-06-01 | 华为技术有限公司 | 一种自然语言处理方法以及装置 |
CN114780403A (zh) * | 2022-04-21 | 2022-07-22 | 北京航空航天大学 | 基于增强代码属性图的软件缺陷预测方法及预测装置 |
CN114816997A (zh) * | 2022-03-29 | 2022-07-29 | 湖北大学 | 一种基于图神经网络与双向gru特征抽取的缺陷预测方法 |
CN115357904A (zh) * | 2022-07-29 | 2022-11-18 | 南京航空航天大学 | 一种基于程序切片和图神经网络的多类漏洞检测方法 |
CN115437952A (zh) * | 2022-09-29 | 2022-12-06 | 中国石油大学(华东) | 一种基于深度学习的语句级软件缺陷检测方法 |
-
2023
- 2023-05-29 CN CN202310610639.0A patent/CN116383089B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017037659A1 (en) * | 2015-09-03 | 2017-03-09 | Auckland Uniservices Limited | System and method for emulating hybrid systems |
US20180189272A1 (en) * | 2016-12-29 | 2018-07-05 | Ncsoft Corporation | Apparatus and method for sentence abstraction |
CN109783827A (zh) * | 2019-01-31 | 2019-05-21 | 沈阳雅译网络技术有限公司 | 一种基于动态线性聚合的深层神经机器翻译方法 |
CN112883149A (zh) * | 2021-01-20 | 2021-06-01 | 华为技术有限公司 | 一种自然语言处理方法以及装置 |
CN114816997A (zh) * | 2022-03-29 | 2022-07-29 | 湖北大学 | 一种基于图神经网络与双向gru特征抽取的缺陷预测方法 |
CN114780403A (zh) * | 2022-04-21 | 2022-07-22 | 北京航空航天大学 | 基于增强代码属性图的软件缺陷预测方法及预测装置 |
CN115357904A (zh) * | 2022-07-29 | 2022-11-18 | 南京航空航天大学 | 一种基于程序切片和图神经网络的多类漏洞检测方法 |
CN115437952A (zh) * | 2022-09-29 | 2022-12-06 | 中国石油大学(华东) | 一种基于深度学习的语句级软件缺陷检测方法 |
Non-Patent Citations (2)
Title |
---|
P. NEJEDLY 等: "Utilization of Residual CNN-GRU With Attention Mechanism for Classification of 12-lead ECG", 《2020 COMPUTING IN CARDIOLOGY》, pages 1 - 4 * |
杨东 等: "基于Attention-based C-GRU神经网络的文本分类", 《计算机与现代化》, no. 05, pages 96 - 100 * |
Also Published As
Publication number | Publication date |
---|---|
CN116383089B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deng et al. | Attention-based BiLSTM fused CNN with gating mechanism model for Chinese long text classification | |
Peng et al. | Dynamic network embedding via incremental skip-gram with negative sampling | |
Ma et al. | Hybrid embedding-based text representation for hierarchical multi-label text classification | |
CN110348227B (zh) | 一种软件漏洞的分类方法及系统 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN111753044A (zh) | 一种基于正则化的去社会偏见的语言模型及应用 | |
CN112069804B (zh) | 基于动态路由的交互式胶囊网络的隐式篇章关系识别方法 | |
Adi et al. | Analysis of sentence embedding models using prediction tasks in natural language processing | |
CN115329088B (zh) | 图神经网络事件检测模型的鲁棒性分析方法 | |
Body et al. | Using back-and-forth translation to create artificial augmented textual data for sentiment analysis models | |
CN117035073A (zh) | 一种基于分层事件发展模式归纳的未来气象事件预测方法 | |
Lu et al. | Sentiment analysis method of network text based on improved AT-BiGRU model | |
Fan et al. | Surrogate-assisted evolutionary neural architecture search with network embedding | |
Vo | Se4exsum: An integrated semantic-aware neural approach with graph convolutional network for extractive text summarization | |
Garzón et al. | On the performance of deep generative models of realistic SAT instances | |
CN116383089B (zh) | 基于常微分方程图神经网络的语句级软件缺陷预测系统 | |
CN117056226A (zh) | 基于迁移学习的跨项目软件缺陷数量预测方法 | |
CN116629361A (zh) | 基于本体学习和注意力机制的知识推理方法 | |
Kong et al. | A neural bag-of-words modelling framework for link prediction in knowledge bases with sparse connectivity | |
YADAVILLI et al. | Explainable sentiment analysis for product reviews using causal graph embeddings | |
CN115982037A (zh) | 一种基于抽象语法树的软件缺陷预测方法 | |
Tian et al. | An event knowledge graph system for the operation and maintenance of power equipment | |
CN113449517A (zh) | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 | |
CN112989024A (zh) | 文本内容的关系提取方法、装置、设备及存储介质 | |
Anireh et al. | HTM-MAT: An online prediction software toolbox based on cortical machine learning algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |