CN104915680B

CN104915680B - 基于改进型rbf神经网络的多标签蜕变关系预测方法

Info

Publication number: CN104915680B
Application number: CN201510303659.9A
Authority: CN
Inventors: 张鹏程; 曾金伟; 程坤; 安纪存; 陈洁; 韩晴; 孙颍桃
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2015-06-04
Filing date: 2015-06-04
Publication date: 2018-06-19
Anticipated expiration: 2035-06-04
Also published as: CN104915680A

Abstract

本发明公开一种基于改进型RBF神经网络的多标签蜕变关系预测方法，首先从函数源码创建控制流图(CFG)，然后从控制流图(CFG)提取一组特性，从CFG中提取两种类型的特性一种是基于结点的特性，一种是基于路径的特性，由特性值和标签构成训练集，采用改进型的RBF神经网络即优化隐含层RBF神经网络基函数中心的求取算法—k均值聚类，用AP聚类自动寻找k值，以获得隐含层结点数目，并构造Huffman树选取初始的聚类中心，然后构造体现多标签之间信息的标签计数向量C，然后与改进k均值聚类后求得的RBF神经网络基函数中心线性叠乘，获取新的基函数中心，建立RBF神经网络模型进行蜕变关系的预测。

Description

基于改进型RBF神经网络的多标签蜕变关系预测方法

技术领域

本发明涉及一种基于改进型RBF神经网络的多标签蜕变关系预测方法，特别是采用多标签的数据集和改进型的RBF神经网络即优化隐含层RBF神经网络基函数中心的求取算法—k均值聚类，用AP聚类自动寻找k值，以获得隐含层结点数目，并构造Huffman树选取初始的聚类中心，然后构造体现多标签之间信息的标签计数向量C，然后与改进k均值聚类后求得的RBF神经网络基函数中心线性叠乘，获取新的基函数中心，建立多标签RBF神经网络模型进行蜕变关系预测，属于软件测试领域。

背景技术

随着经济与社会的发展，越来越多软件被开发，然而软件的质量引起了广泛的关注，软件测试是一种重要的，不可缺少的软件质量保证技术，用于发现和纠正软件中存在的缺陷和错误，但是大多数情况下待测程序的预期输出难以确定。蜕变测试技术通过检查程序的多个执行结果之间的关系来测试程序，可以有效的解决上述问题，但目前的蜕变测试技术也存在一些不足，现有的蜕变测试技术中普遍存在的缺少实用的蜕变关系的构造方法，缺少有效的原始测试用例的选取策略，以及没有自动化的测试工具等问题，测试效率低代价高。

目前，蜕变关系构造方面的研究成果有，使用机器学习技术预测蜕变关系，使用图形内核的机器学习方法这两个方法都是单标签的蜕变关系预测方法及一次只能预测一个可能的蜕变关系，因此本发明提出一种基于改进型RBF神经网络的多标签蜕变关系预测方法及一次可以预测应用程序可能满足的多个蜕变关系，可以有效的解决目前普遍存在的缺少实用的蜕变关系的构造方法及提高蜕变关系的构造效率。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于改进型RBF神经网络的多标签蜕变关系预测方法，提高蜕变关系的构造效率，更好的服务于蜕变测试。

技术方案：一种基于改进型RBF神经网络的多标签蜕变关系预测方法，包括：创建控制流图(CFG)及提取数据特性构成训练集：利用Soot分析工具从函数源码产生控制流图，进行标记，提取结点特性及路径特性构成数据集；

建立基于改进型RBF神经网络多标签蜕变关系预测模型：以得到的d维数据集作为径向基神经网络的输入源，采用改进型的RBF神经网络，建立RBF神经网络模型；

在所述创建控制流图及提取数据特性构成训练集中，从函数源码创建控制流图，即用语句级的控制流图(CFG)表示一个函数，图中包括控制流信息：例如G_f＝(V，E)是函数f的有向图，在这图中每个v_x∈V表示x在函数f中。图中的每个结点用在x处执行的操作表示及用标签(v_x)标记，一条边e＝(v_x，v_y)∈E如果x,y声明在函数f中如果x执行之后y立即执行，这条边代表函数的控制流信息。图中包含v_start∈V和v_exit∈V两个结点分别表示函数的开始和结束。

从函数的控制流图提取特性构成数据集，主要提取两种类型的特性，基于结点和路径，具体如下：

一种是基于结点的特性，即对于CFG图中一个结点找出其入度和出度，而结点的特性值是同一类型结点出现的次数。

一种是基于路径的特性，即从开始结点到每个结点的最短路径和从每个结点到终止结点的最短路径，而路径结点的特性值为同一路径出现的次数。

具体步骤包括：

步骤1：结点特性提取，结点特性的形式是op-d_in-d_out op表示在结点n执行的操作，d_in是结点n的入度，d_out是结点n出度，根据函数控制流图计算出图中每个结点出度和入度，最后统计同一种类型结点的个数作为该结点的特性值；

步骤2：路径特性提取，根据函数的控制流图找出从N_start到每个结点的最短路径和找出每个结点到N_exit结点的最短路径，由于每个结点不重复因此其路径特性值都为1；

步骤3：根据以上得到的结点特性和路径特性及相应的标签(如果函数f包含相应的蜕变关系就用1表示，不包含就用-1表示)，构成多标签的数据集；

所述的建立基于改进型RBF神经网络的多标签蜕变关系预测模型中，以得到的d维数据集作为径向基神经网络的输入源，采用改进型的RBF神经网络即优化隐含层RBF神经网络基函数中心的求取算法—k均值聚类，用AP聚类自动寻找k值，以获得隐含层结点数目，并构造Huffman树选取初始的聚类中心，然后构造体现多标签之间信息的标签计数向量C，然后与改进k均值聚类后求得的RBF神经网络基函数中心线性叠乘，获取新的基函数中心，建立RBF神经网络模型进行蜕变关系的预测。

有益效果：与现有的技术相比，本发明所提供的一种基于改进型RBF神经网络的多标签蜕变关系预测方法，对RBF中的各个参数的计算进行了改进及采用多标签，弥补普遍存在的缺少实用的蜕变关系的构造方法，提高蜕变关系的构造效率，更好的服务于蜕变测试。

附图说明

图1为本发明实施例的整体框架图；

图2为本发明实施例的使用Soot框架创建控制流图(CFG)及提取数据特性构成训练集对的流程图；

图3为本发明实施例的采用AP自动寻找k值，以获得隐含层结点数目的方法的流程图；

图4为本发明实施例的基于Huffman思想计算k均值聚类中心的方法的流程图；

图5为本发明实施例的计算每一类标签计数向量Cx(l)方法的流程图；

图6为本发明实施例的基于改进型RBF神经网络建立多标签蜕变关系预测模型方法流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本实施例提供的基于改进型RBF神经网络的多标签蜕变关系预测方法包含了两个主要部分：创建控制流图及提取数据特性构建数据集、建立基于改进型RBF神经网络多标签蜕变关系预测模型。

创建控制流图(CFG)及提取数据特性构成训练集：利用Soot分析工具从函数源码产生控制流图，控制流图中每个结点表示一个语句(例如：赋值，求和等等)，然后再用在这一结点执行的原子操作进行标记(赋值语句就用assi标记，求和就用add标记)，提取结点特性及路径特性构成数据集；

建立基于改进型RBF神经网络多标签蜕变关系预测模型：以得到d维数据集作为径向基神经网络的输入源，采用改进型的RBF神经网络(为了提高预测准确性需要在公知的RBF神经网络的基础上进行改进)，建立RBF神经网络模型；

如图2所示，创建控制流图(CFG)及提取数据特性构成训练集步骤如下：

步骤101，列举一般应用程序中可能存在的蜕变关系类；

步骤102，搜集相关的应用程序函数并且标注好其是否存在某种类型的蜕变关系；

步骤103，将函数用Java语言实现；

步骤104，使用Soot分析工具生成Soot CFG；

步骤105，用每个结点的操作属性标记每个结点得到的标记控制流图

(Labeled CFG)；

步骤106，结点特性的提取，从控制流图的开始结点开始计算每个结点的入度和出度；

步骤107，统计类型相同结点的个数作为该结点的特性值；

步骤108，把统计的结果放入结点特性统计表中(表1)；

表1

特性	特性值

步骤109，路径特性的提取，创建路径：从开始结点到每个结点的最短路径和每个结点到终止结点的最短路径；

步骤110，计算机同一种路径出现的次数，一般控制流图中结点不重复，路径特性值为1；

步骤111，把统计的结果放入路径特性统计表中(表2)；

表2

特性	特性值

步骤112，由结点特性和路径特性构成数据集，如表3所示：表中f₁表示数据集中的函数，feat_k表示一个从控制流图中提取的结点或路径特性，v_mk表示结点或路径的特性值，c_mn是表示该函数是否存在相应的蜕变关系用1或-1表示；

表3 数据集

Function

feat₁

Feat₂

...

feat_k

Class

...

Class

f₁

v₁₁

v₁₂

...

v_1k

c₁₁

...

c_1n

..

...

f_m

v_m1

v_m2

...

v_mk

c_m1

...

c_mn

如图3所示，采用AP自动寻找k值，以获得隐含层结点数目的方法步骤如下：

步骤201，读取n个数据样本；

步骤202，设置迭代次数M

步骤203，采用欧氏距离计算样本点的相似度；

步骤204，将相似度矩阵对角线上的数值作为聚类中心的参考度值；

步骤205，进行迭代不断更新每一数据点的吸引度值和归属度值；

步骤206，根据设定的迭代次数是否大于M或迭代多少次聚类中心不在发生变化来设置终止条件，如果小于M转入步骤205继续迭代否则迭代终止；

步骤207，确定k值；

如图4所示，基于Huffman思想计算k均值聚类中心的方法步骤如下：

步骤301，读取n个数据样本；

步骤302，计算数据样本欧式距离，并用相异矩阵表示；

步骤303，寻找矩阵数据非零最小值；

步骤304，再寻找相应两个样本；

步骤305，两样本求平均值；

步骤306，平均值添加到已删除两个样本的数据样本中；

步骤307，判断此时数据样本的个数是否是1如果不是回到步骤303；

步骤308，按构造顺序的逆序找出k-1个点，并删除；

步骤309，将k个子树的平均值作为聚类初始中心；

如图5所示，计算每一类标签计数向量C_x(l)方法步骤如下：

步骤401，读取n个数据样本；

步骤402，构造数据集的标签集合；

步骤403，统计每一类中标签为1的样本形成新的样本；

步骤404，然后对新形成的样本集采k近邻算法寻去，把其中两个保留下来；

步骤405，采用同样的方法，将处理后的其他类的k近邻综合起来得到总的标签集合；

步骤406，重新统计每类样本中标签为1的个数；

步骤407，将上一步骤得到的结果(统计的1的个数)与k均值聚类后的每类的聚类中心c(l)线性叠成得到标签计数向量C_x(l)；

如图6所示，基于改进型RBF神经网络建立多标签蜕变关系预测模型方法步骤如下：

步骤501，输入训练集S；

步骤502，数据处理：首先只考虑一个标签，进行训练看预测效果；再进行2个标签数据集训练进行预测等等；

步骤503，采用AP聚类获取K值；

步骤504，确定隐含层结点数目为k+1；

步骤505，利用Huffman构造初始聚类中心；

步骤506，利用步骤503和步骤505的结果和K-means聚类获取基函数中心c；

步骤507，计算每一类标签计数向量C_x(l)；

步骤508，根据步骤506和步骤507的结果叠成，得到RBF神经网络的基函数中心C(l)；

步骤509，通过计算每类之间基函数中心的平均距离来计算函数方差—平滑参数ɑ；

步骤510，通过最小化误差平方和函数求解隐含层到输出层的权值w；

步骤511，训练RBF神经网络；

步骤512，输入新的数据；

步骤513，输出是否与标签一致；

步骤514，否，就修正RBF神经网络模型(隐含层和输出层之间权重w的维数为K+1，即隐含层节点数目，加1是对偏置bias的处理，通过调整它的值来修正RBF神经网络)；是，就结束建立RBF神经网络模型。

Claims

1.一种基于改进型RBF神经网络的多标签蜕变关系预测方法，其特征在于：包括创建控制流图及提取数据特性构成训练集；建立基于改进型RBF神经网络多标签蜕变关系预测模型；

创建控制流图及提取数据特性构成训练集：利用Soot分析工具从函数源码产生控制流图，进行标记，提取结点特性及路径特性构成数据集；

改进型的RBF神经网络即优化隐含层RBF神经网络基函数中心的求取算法—k均值聚类，用AP聚类自动寻找k值，以获得隐含层结点数目，并构造Huffman树选取初始的聚类中心，然后构造体现多标签之间信息的标签计数向量C，然后将标签计数向量与采用k均值聚类求得的每类基函数中心线性叠乘，获取新的基函数中心，建立RBF神经网络模型进行蜕变关系的预测。

2.如权利要求1所述的基于改进型RBF神经网络的多标签蜕变关系预测方法，其特征在于：在创建控制流图及提取数据特性构成训练集中，从函数源码创建控制流图，即基于图表示一个函数，图中包含函数f的控制流信息(cfg)；

从函数的控制流图提取特性构成数据集，主要提取两种类型的特性：基于结点和路径，具体如下：

基于结点的特性即对于CFG图中一个结点找出其入度和出度而，结点的特性值是同一类型结点出现的次数；

基于路径的特性即从开始结点到每个结点的最短路径和从每个结点到终止结点的最短路径，而路径结点的特性值为同一路径出现的次数；

具体步骤包括：

步骤1：结点特性提取，结点特性的形式是op-d_in-d_out；op表示在结点n执行的操作，d_in是结点n的入度，d_out是结点n出度，根据函数控制流图计算出图中每个结点出度和入度，最后统计同一种类型结点的个数作为该结点的特性值；

步骤2：路径特性提取，根据函数的控制流图找出从N_start到每个结点的最短路径和找出每个结点到N_exit结点的最短路径由于每个结点不重复因此其路径特性值都为1；

步骤3：根据以上得到结点特性和路径特性及相应的标签构成多标签的数据集。