CN102135940A

CN102135940A - 一种基于有限自动机的行为自动建模方法

Info

Publication number: CN102135940A
Application number: CN2011101026128A
Authority: CN
Inventors: 胡昌振; 周银; 王崑声; 赵小林; 薛静锋
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2011-04-22
Filing date: 2011-04-22
Publication date: 2011-07-27

Abstract

本发明属于软件行为领域，涉及一种基于有限自动机的行为自动建模方法。第一步：获取交互轨迹：获取样例执行情况的交互轨迹使得交互轨迹执行顺序唯一；第二步：合并输入一等价轨迹：将生成的样例交互轨迹按输入等价的原则进行合并；第三步：获得谓词；第四步：通过第三步得到行为模型的扩展有限自动机EFA，增加一个公共的初始状态得到初始的EFA，再根据等价原则合并获得最终的EFA。本发明的目的就是为了获得更多更精确的信息，生成更好的软件行为模型。

Description

一种基于有限自动机的行为自动建模方法

技术领域

本发明属于软件行为领域，涉及一种基于有限自动机的行为自动建模方法。

背景技术

软件行为的动态模型用来动态的检测反常行为，静态和动态的检查软件组件、验证协议、生成测试案例、获取异常事件序列和验证程序属性之间的兼容性。有限状态自动机(Finite State Automata)是一种用于研究系统状态的数学模型，也是有限计算的基本模型，是许多形式化规格、验证方法的基础模型，它常用于行为建模中。功能行为建模的主要技术或者生成限制数据的模型，通常是以布尔表达式的形式；或者组件之间的互动模式，通常是以有限状态机的形式。数据和交互建模都对分析和验证系统执行的特殊方面有用：Daikon描述检测变量的重要属性，有限状态推理机捕捉和推广交互模式。然而，这些模型中没有一个能捕捉数据值和组件交互之间的复杂的相互作用，所以最近的分析和测试技术会错失重要的信息。数据值和交互序列间复杂的相互作用，或者更多的事件序列可能依赖数据值，可以通过扩展有限状态机有效的建模，它标示在不同状态下捕捉约束数据值的调用特征。从执行样例中自动生成EFSMs是一个具有挑战的问题，Berg et al.曾在一定程度上做过描述。他提出的方法由于强制的要求限制了其应用，如执行成员的可能性，等价查询和仅支持布尔参数。

一种软件行为自动建模算法——GK-tail，关注数据值和组件交互之间关系的模型生成，这是一种从交互轨迹自动生成扩展的有限状态机(EFSMs)的技术。GK-tail处理交互轨迹集合，产生一个处理过所有交互轨迹的EFSM。它分为四个步骤：(1)合并输入-等价轨迹。这一部分是对记录轨迹的初步处理，合并仅仅是不同数据值的调用序列。也就是说，一个输入-等价轨迹集合表示一个行为样式。(2)生成相关轨迹的谓词。这一步同样是对记录轨迹的处理，主要是指从多重数据值集合中产生相关转换谓词。(3)产生一个初始的扩展有限自动机模型。在这一步，增加一个公共初始状态，从标注谓词的交互轨迹生成一个初始的EFSM模型。(4)合并等价状态，得到最终的扩展有限自动机模型。最后一步也是比较重要的，合并的规则是kTail算法主要规则的扩展，当不同的EFSM状态生成等价的行为集合，则有一个唯一的逻辑状态的多重表达，同时可以安全的合并。

现有的动态模型无法捕捉完整的信息，限制了分析和验证相关技术的精准性。

关于行为建模的动态分析技术主要有以下三类，数据值的相互关系，生成交互样式的模型，或者生成同时捕获数据和交互的模型。

(1)检测数据值的相互关系。在特殊的程序点给变量赋值可以提供重要的信息来理解和分析系统执行情况。一些动态分析技术已经在不同应用领域进行了实验，来自动的提取关于数据相互关系的信息。

(2)交互式样的生成模型。存在一些技术从轨迹集合中自动生成有限状态机(FSM)。其中有些推理引擎仅从确定样例集合中生成模型。大多数依赖确定样例运行的技术是k-tail算法的扩展和变种。

(3)生成整合模型。EFSMs已经广泛的应用到状态行为的规格说明中，但是目前为止，从程序行为自动生成EFSMs的方法很少的被研究学习。Berg et al.提出了一种技术来生成EFSMs。这项技术仅支持布尔参数的谓词，同时在严格条件下运行：要求查询成员的概率，就是来一个未知序列是否是模型的一部分，并要求查询等价，就是来决定一个局部推理模型和被推理的模型之间的等价。

这些技术都无法捕捉完整的信息，特别是数据属性值和组件交互轨迹之间的作用的信息。本发明的目的就是为了获得更多更精确的信息，生成更好的软件行为模型。

发明内容

本发明的目的在于针对现有技术的不足，提出一种基于有限自动机的行为自动建模方法，目的就是为了获得更多更精确的信息，生成更好的软件行为模型。

该种基于有限自动机的行为自动建模方法，包括以下步骤：

第一步：获取交互轨迹：获取样例执行情况的交互轨迹使得交互轨迹执行顺序唯一；

第二步：合并输入-等价轨迹：将生成的样例交互轨迹按输入等价的原则进行合并；

第三步：获得谓词；

第四步：通过第三步得到行为模型的扩展有限自动机EFA，增加一个公共的初始状态得到初始的EFA，再根据等价原则合并获得最终的EFA。

上述的交互轨迹在程序执行时用监控和记录平台自动提取；交互轨迹的定义为：给定一个方法X的有限集合，一个为空的输入参数集合R和相应的域D_Rx，一个为空的变量集合V和相应的域D_V，一个参数轨迹是一个三元组(x，p_x，v)，其中x∈X，p_x∈D_Rx，v∈D_V；一个交互轨迹是一个参数轨迹的序列，it＝(x₁，p_x1，v₁)...(x_n，p_xn，v_n)，其中x_i∈X，p_x∈D_Rxi，v_i∈D_v。

上述的合并输入-等价轨迹在交互轨迹中定义三平等标准；给定it₁＝(x₁，p_x1，v₁)...(x_n，p_xn，v_n)，it₂＝(z₁，p_z1，w₁)...(z_m，p_zm，w_m)，其中：

it₁＝inputs it₂(it₁输入等价it₂)当n＝m且x_i＝z_i。

it₁＝params it₂(it₁参数等价it₂)当n＝m且x_i＝z_i，p_xi＝p_zi。

it₁＝it₂(it₁等价it₂)当n＝m且x_i＝z_i，p_xi＝p_zi，v_i＝w_i。通过第一步得到的交互轨迹按定义的标准来进行输入-等价合并，得到简化的数据集合；一个数据集被定义为一个序列(x₁，dp_x1，dv₁)...(x_n，dp_xn，dv_n)，其中x_i∈X是一个方法，

是一个输入参数评估集合，

是一个变量评估集合；给定一个输入等价的交互轨迹集合it₁＝(x₁，p¹ _x1，v¹ ₁)...(x_n，p¹ _xn，v¹ _n)，...，it_m＝(x¹，p^m _x1，v^m ₁)...(x_n，p^m _xn，v^m _n)，方法就其合并到数据集ds＝(x₁，p¹ _x1∪...∪p^m _x1，v¹ ₁∪...∪v^m ₁)...(x_n，p¹ _xn∪...∪p^m _xn，v¹ _n∪...∪v^m _n)。

上述的获得谓词通过第二步得到的交互轨迹，使用Daikon和ESC/Java工具的组合对合其进行处理，从数据集中生成谓词；首先，Daikon对目标程序做处理，使它运行时能记录下我们感兴趣的变量的值；其次，程序运行过程中感兴趣的值被记录；最后Daikon从记录的数据中推导出不变量。

上述的得到行为模型的扩展有限自动机通过增加一个公共的初始状态从标注谓词的交互轨迹生成一个初始的扩展有限自动机，然后合并等价状态，得到最终的扩展有限自动机：给定一个标注谓词的交互轨迹集合{seq₁，...seq_m}，其中seq_i＝(xⁱ ₁，Pⁱ ₁)...(xⁱ _ni，Pⁱ _ni)，对

初始的EFA(S，T，s₀，s_F)定义如下：S＝{s₀，s¹ ₁，...s¹ _n1，s² ₁，...s² _n2，...，s^m ₁，...s^m _nm}；对在输入序列集合中的每个元素(xⁱ _j，Pⁱ _j)，其中j＞1，存在一个转换t＝(sⁱ _j-1，xⁱ _j，Pⁱ _j，sⁱ _j)∈T；对输入序列集合中的每一个元素(xⁱ ₁，Pⁱ ₁)，存在一个转移t＝(s₀，xⁱ ₁，Pⁱ ₁，sⁱ ₁)∈T；s_F＝{sⁱ _nii＝1，...m}；s₀是初始状态；然后，通过合并等价状态精简初始的EFA得到所观察到的行为的紧凑的模型。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，本实施例在以本发明的技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

第一步：获取交互轨迹

调用轨迹描述方法调用的序列，标注参数和变量的值。数据是关于调用方法的参数，变量或其他信息，它们有各自的值。交互轨迹可以在程序执行时用各种监控和记录平台自动的提取，例如Aspectwerkz，TPTP，Apache Log4j。在本方法中使用Aspectwerkz监控平台自动提取交互轨迹，为后续工作做准备。在交互轨迹的结构上并没有强加特殊要求，如最大长度，缺少周期和决定。唯一的要求是每个交互轨迹是有序的。

现在定义交互轨迹(interaction traces)。给定一个方法X的有限集合，一个可能为空的输入参数集合R和相应的域D_Rx，一个可能为空的变量集合V和相应的域D_V，一个参数轨迹是一个三元组(x，p_x，v)，其中x∈X，p_x∈D_Rx，v∈D_V。一个交互轨迹是一个参数轨迹的序列，it＝(x₁，p_x1，v₁)...(x_n，p_xn，v_n)，其中x_i∈X，p_x∈D_Rxi，v_i∈D_V。图1是调用序列的几个样例，标签下的标注指示了参数值(在线上面)和上下文变量(在线下面)。上下文变量存在时才做标注。

第二步：合并输入-等价轨迹

在交互轨迹中定义三平等标准。给定it₁＝(x₁，p_x1，v₁)...(x_n，p_xn，v_n)，it₂＝(z₁，p_z1，w₁)...(z_m，p_zm，w_m)，其中：

it₁＝inputs it₂(it₁输入等价it₂)当n＝m且

x_i＝z_i。

it₁＝params it₂(it₁参数等价it₂)当n＝m且

x_i＝z_i，p_xi＝p_zi。

it₁＝it₂(it₁等价it₂)当n＝m且

x_i＝z_i，p_xi＝p_zi，

v_i＝w_i。正如所定义的，输入-等价轨迹仅仅是不同数据值的调用序列。直观的，一个输入-等价轨迹集合表示了一个行为样式，也就是不同的输入引起的相同的方法调用序列。

该步骤是通过使用步骤1得到的交互轨迹按定义的标准来进行输入-等价合并，得到简化的数据集合。一个数据集被定义为一个序列(x₁，dp_x1，dv₁)...(x_n，dp_xn，dv_n)，其中x_i∈X是一个方法，是一个输入参数评估集合，

是一个变量评估集合。给定一个输入等价的交互轨迹集合it₁＝(x₁，p¹ _x1，v¹ ₁)...(x_n，p¹ _xn，v¹ _n)，...，it_m＝(x₁，p^m _x1，v^m ₁)...(x_n，p^m _xn，v^m _n)，方法就其合并到数据集ds＝(x₁，p¹ _x1∪...∪p^m _x1，v¹ ₁∪...∪v^m ₁)...(x_n，p¹ _xn∪...∪p^m _xn，v¹ _n∪...∪v^m _n)。

第三步：获得谓词通过上一步得到的交互轨迹，使用Daikon和ESC/Java工具的组合对合其进行处理，从数据集中生成谓词。这是本专利的一个创新点，主要是针对Daikon工具本身的不足，而是使用Daikon和ESC/Java工具的组合，提高信息的准确度，为生成更好的软件行为模型做准备。Daikon工具可以动态的发现程序中的不变量。不变量是程序中某一点或多点上具有的属性。Daikon从程序执行中发现程序不变量，步骤如下：首先，Daikon对目标程序做处理，使它运行时能记录下我们感兴趣的变量的值；其次，我们运行处理过的程序；程序运行过程中，我们感兴趣的值会被记录下来；最后，Daikon从记录的数据中推导出不变量。但是，Daikon是不完整的，也是不可靠的。也就是说，Daikon不能发现所有的不变量；同时，在Daikon发现的不变量中，也可能会有错误的不变量。ESC/Java可以验证Java代码与JML描述之间的一致性。ESC/Java工具是Compaq研究院开发的，在编译时做扩展的静态检查，但是比类型检查要强大。ESC/Java使用自动定理证明器推理程序的语义，ESC/Java能够静态的找出许多运行时出现的错误，如空引用，数组越界错误以及类型转换错误；ESC/Java也能发现并发程序中的同步错误，如竞争条件、死锁等。

综合这两种技术，可以取各自的优秀，弥补彼此的缺点。动态技术可以发现程序的不变量，这些不变量可以被看作程序的注释，这些不变量也可以作为静态验证的目的，静态验证器可以验证通过动态技术发现的不变量。

第四步：通过步骤3得到行为模型的扩展有限自动机(EFA)

在这一步，通过增加一个公共的初始状态从标注谓词的交互轨迹生成一个初始的扩展有限自动机，然后合并等价状态，得到最终的扩展有限自动机。

给定一个标注谓词的交互轨迹集合{seq₁，...seq_m}，其中seq_i＝(xⁱ ₁，Pⁱ ₁)...(xⁱ _ni，Pⁱ _ni)，对初始的EFA(S，T，s₀，s_F)定义如下：

·S＝{s₀，s¹ ₁，...s¹ _n1，s² ₁，...S² _n2，...，S^m ₁，...s^m _nm}；

·对在输入序列集合中的每个元素(x¹ _j，P¹ _j)，其中j＞1，存在一个转换t＝(s¹ _j-1，x¹ _j，P¹ _j，s¹ _j)∈T；

·对输入序列集合中的每一个元素(xⁱ ₁，Pⁱ ₁)，存在一个转移t＝(s₀，xⁱ ₁，Pⁱ ₁，sⁱ ₁)∈T；

·s_F＝{sⁱ _ni|i＝1，...m}；

·s₀是初始状态。

然后，通过合并等价状态精简初始的EFA，来得到所观察到的行为的紧凑的模型。

EFA的合并是kTail算法的主要规则的扩展，由Bierman和Feldmann提出，他们认为当状态经过相同的路径，则这些状态是等价的。当不同的EFA状态生成等价的行为集合，则是一个唯一的逻辑状态的多重表达，并且可以安全的合并。

总的来说，路径集合存在的状态可能是无限的，所以对比状态可能会开销非常大。我们限制序列的长度与k进行比较，和Bierman、Feldmann提出的相似。给定一个状态s∈S，定义序列集合{seq1，...seqr}的k-future(s)，其中seq_i＝{(x₁，P₁)...(x_k，P_k)}，存在一个转移序列(s，x₁，P₁，s₁)(s₁，x₂，P₂，s₂)...(s_k-1，x_k，P_k，s_k)。通过比较k-futures的状态对来识别状态并进行合并。我们根据是三个标准识别状态进行合并，产生了不同的模型：等价，弱包容和强包容。

为了更好的记录不完全的轨迹，我们可以使用弱包容或强包容。状态s1弱包容状态s2，当在k-future的方法序列中的s1和s2完全匹配，但是在s1的k-future的谓词比相当的s2的k-future的谓词更一般。状态s1强包容状态s2，当s1的k-future包含s2的k-future，就是在s1的k-future的方法序列包含s2的k-future的方法序列，在s1的k-future的谓词比相当的s2的k-future的谓词更一般。

一般，给定两个长度为k的序列，seq1＝(x11，P11)...(x1k，P1k)和seq2＝(x21，P21)...(x2k，P2k)，其中，

·seq1＝seq2当

x1i＝x2i并且

·

当

x1i＝x2i并且

给定两个k-futures，f1＝{seq11，...seq1n1}，同时seq1i＝(x11，P11)...(x1k，P1k)，f2＝{seq21，...seq2n2}，同时seq2i＝(x21，P21)...(x2k，P2k)，其中，

·f1等价f2当n1＝n2，

seq1i＝seq2j；

·f1弱包含f2当n1＝n2，

反之亦然，

&ForAll; i = 1, . . ., n 1,

&Exists; j = 1, . . ., n 1,

seq 2 j &SubsetEqual; seq 1 i;

·f1强包含f2当

Claims

1.基于有限自动机的行为自动建模方法，其特征在于：包括以下步骤：

第三步：获得谓词；

2.如权利要求1所述的基于有限自动机的行为自动建模方法，其特征在于：上述的交互轨迹在程序执行时用监控和记录平台自动提取；交互轨迹的定义为：给定一个方法X的有限集合，一个为空的输入参数集合R和相应的域D_Rx，一个为空的变量集合V和相应的域D_V，一个参数轨迹是一个三元组(x，p_x，v)，其中x∈X，p_x∈D_Rx，v∈D_V；一个交互轨迹是一个参数轨迹的序列，it＝(x₁，p_x1，v₁)...(x_n，p_xn，v_n)，其中x_i∈X，p_x∈D_Rxi，v_i∈D_V。

3.如权利要求1所述的基于有限自动机的行为自动建模方法，其特征在于：上述的合并输入-等价轨迹在交互轨迹中定义三平等标准；给定it₁＝(x₁，p_x1，v₁)...(x_n，p_xn，v_n)，it₂＝(z₁，p_z1，w₁)...(z_m，p_zm，w_m)，其中：

it₁＝inputs it₂(it₁输入等价it₂)当n＝m且

x_i＝z_i。

it₁＝params it₂(it₁参数等价it₂)当n＝m且

x_i＝z_i，p_xi＝p_zi。

it₁＝it₂(it₁等价it₂)当n＝m且

x_i＝z_i，p_xi＝p_zi，v_i＝w_i。通过第一步得到的交互轨迹按定义的标准来进行输入-等价合并，得到简化的数据集合；一个数据集被定义为一个序列(x₁，dp_x1，dv₁)...(x_n，dp_xn，dv_n)，其中x_i∈X是一个方法，

是一个输入参数评估集合，

是一个变量评估集合；给定一个输入等价的交互轨迹集合it₁＝(x₁，p¹ _x1，v¹ ₁)...(x_n，p¹ _xn，v¹ _n)，...，it_m＝(x₁，p^m _x1，v^m ₁)...(x_n，p^m _xn，v^m _n)，方法就其合并到数据集ds＝(x₁，p¹ _x1∪...∪p^m _x1，v¹ ₁∪...∪v^m ₁)...(x_n，p¹ _xn∪...∪p^m _xn，v¹ _n∪...∪v^m _n)。

4.如权利要求1或2或3所述的基于有限自动机的行为自动建模方法，其特征在于：上述的获得谓词通过第二步得到的交互轨迹，使用Daikon和ESC/Java工具的组合对合其进行处理，从数据集中生成谓词；首先，Daikon对目标程序做处理，使它运行时能记录下我们感兴趣的变量的值；其次，程序运行过程中感兴趣的值被记录；最后Daikon从记录的数据中推导出不变量。

5.如权利要求1或2或3所述的基于有限自动机的行为自动建模方法，其特征在于：上述的得到行为模型的扩展有限自动机通过增加一个公共的初始状态从标注谓词的交互轨迹生成一个初始的扩展有限自动机，然后合并等价状态，得到最终的扩展有限自动机：给定一个标注谓词的交互轨迹集合{seq₁，...seq_m}，其中seq_i＝(xⁱ ₁，Pⁱ ₁)...(xⁱ _ni，Pⁱ _ni)，对

初始的EFA(S，T，s₀，s_F)定义如下：S＝{s₀，s¹ ₁，...s¹ _n1，s² ₁，...s² _n2，...，s^m ₁，...s^m _nm}；对在输入序列集合中的每个元素(xⁱ _j，Pⁱ _j)，其中j＞1，存在一个转换t＝(sⁱ _j-1，xⁱ _j，Pⁱ _j，sⁱ _j)∈T；对输入序列集合中的每一个元素(xⁱ ₁，Pⁱ ₁)，存在一个转移t＝(s₀，xⁱ ₁，Pⁱ ₁，sⁱ ₁)∈T；s_F＝{sⁱ _ni|i＝1，...m}；s₀是初始状态；然后，通过合并等价状态精简初始的EFA得到所观察到的行为的紧凑的模型。