CN102930074B

CN102930074B - 特征二元约束关系的自动挖掘方法

Info

Publication number: CN102930074B
Application number: CN201210357166.XA
Authority: CN
Inventors: 易立; 张伟; 赵海燕; 金芝; 梅宏
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2012-09-21
Filing date: 2012-09-21
Publication date: 2015-02-18
Anticipated expiration: 2032-09-21
Also published as: CN102930074A

Abstract

一种特征二元约束关系的自动挖掘方法，其包括以下步骤：配对步骤，对一组N个特征进行两两配对形成“特征对”，并根据已知条件将“特征对”分为“空白对”、“依赖对”、“互斥对”和“未知对”四类；量化步骤，对于每一个“特征对”，定义四个指标对其进行量化；训练步骤，使用经过量化的“空白对”、“依赖对”和“互斥对”作为训练样本，对用于挖掘出“依赖对”和“互斥对”的一分类器进行训练；分类步骤，使用分类器对输入的“未知对”进行分类，在“未知对”中发现“依赖对”和“互斥对”就意味着挖掘到了新的二元约束关系。本发明可以高度自动化的进行大规模特征模型中约束关系的建立，提高特征模型的建模效率。

Description

特征二元约束关系的自动挖掘方法

技术领域

本发明涉及一种特征之间约束关系的挖掘方法，尤其涉及一种利用计算机，对特定领域内的软件特征之间的二元约束关系(二元约束关系：涉及两个特征的约束关系)进行自动挖掘的方法，属于软件技术领域。

背景技术

随着计算机技术在生产与生活各个领域的广泛应用，计算机软件在各行业中具有越来越重要的作用，软件的复杂性也越来越高。如何在有限的时间和成本内，开发尽可能高质量的复杂软件，就成为一个重要的现实问题。而在软件开发中，软件需求的开发作为第一个步骤，对于软件开发的成败具有至关重要的作用。

在软件需求开发，特别是复杂软件的需求开发中，需求复用是一种切实可行的途径。从本质上说，软件应用包括三部分：软件通用成分、领域共性成分和应用特有成分。软件需求也相应的针对以上三个部分提出。需求复用的基本出发点是充分利用过去软件开发中积累的前两部分知识和经验，从而将有限的时间和成本集中到软件应用的特有成分上。

需求复用的研究和实践表明，针对特定领域的需求复用活动(以下简称“领域需求复用”)相对容易取得成功。这是由于特定领域的相对内聚性和稳定性所决定的。内聚性保证了领域具有足够的共性；稳定性保证了复用活动的投资可以获得足够的回报。领域需求复用主要分为两大步骤。首先，对领域内的样本应用进行系统化分析，识别这些应用的共性(即软件通用成分和领域共性成分)和变化性(即应用特有成分)需求，分析需求之间的依赖关系，并对这些需求进行抽象，形成可复用的领域需求模型。其次，在开发领域内的新应用时，遵循需求之间的依赖关系，从领域需求模型中定制出期望的变化性需求和相应的共性需求，完成软件需求的开发。

在领域需求复用的研究和实践中，“特征”作为一种需求的抽象形式，从上世纪80年代开始就广泛的应用于大型电信系统，被认为是“对(领域内)需求规约进行模块化组织的一种非常自然的手段”。特征一般定义为“软件系统中具有用户/客户价值的显著特点”。面向特征的领域需求复用将特征作为封装需求的基本单元，把特征相应分为共性和变化性特征，并根据特征之间的约束关系，形成特征模型。近年来，特征模型在学术界引起广泛关注，研究者先后提出多种面向特征的领域分析和软件复用方法。同时，特征模型还在工业界得到成功应用，尤其以嵌入式系统领域、电信系统领域、汽车和电子电气制造领域、飞行控制领域为典型代表。

特征模型的研究和实践发现，由于软件需求的高度复杂性，用来抽象和组织需求的特征模型也随之变得越来越复杂。特征模型的复杂性体现在两个方面。一方面，特征模型中包含的特征数量日益增加，一般在实际应用中达到了成百上千的规模，在个别领域，如汽车制造领域，甚至达到了上万的规模。另一方面，特征之间的约束关系更加错综复杂，例如嵌入式Linux操作系统的特征模型包含约6000个特征，但却包含超过9000个约束关系。特征模型的复杂性为特征模型的研究与实践提出了一个至关重要的问题，即：如何保证特征模型的建立能够在有限的时间和成本内完成。

针对上述问题，业界研究者进行了两方面工作。首先，提出一系列建立特征模型的指导原则，为识别特征、分类特征、组织特征、建立约束关系等活动提供参考。其次，提出一些计算机自动辅助的建模方法，从软件需求文档中半自动的抽取特征和特征模型。然而，上述研究工作仍然无法有效的解决问题。首先，特征建模指导原则并没有对建模活动的具体实施过程提供相应的帮助，从而使得特征模型的建立仍然严重依赖于建模人员的个人知识与经验，难以确保建模活动的有效实施。其次，现有计算机辅助抽取的特征模型与建模人员手工建立的模型相去甚远，尤其体现在特征约束关系的严重缺失上，从而缺乏实用性。

发明内容

本发明的目的在于提供一种特征二元约束关系的自动挖掘方法，致力于特征约束关系的计算机辅助建立，以解决现有技术存在的由于特征模型规模扩大，尤其是其中约束关系的高度复杂，现有方法和技术在约束关系支持上严重缺失的问题。

为了解决上述问题，本发明的技术方案包括以下步骤：配对步骤，对一组N个特征进行两两配对形成“特征对”，并根据已知条件将“特征对”分为“空白对”、“依赖对”、“互斥对”和“未知对”四类；其中，“特征对”为由任意特征X和特征Y组成的集合，“空白对”表示在一特征对中两个特征之间不存在约束关系，“依赖对”表示在一特征对中两个特征之间存在依赖关系，“互斥对”表示在一特征对中两个特征之间存在互斥关系，未知对”表示在一特征对中两个特征之间存在不确定关系；由此，N个特征共产生N(N-1)/2个“特征对”；量化步骤，对于每一个“特征对”，定义如下四个指标对其进行量化：描述相似度：两个特征的文字描述之间的相似度；功能区域相似度：两个特征的功能区域之间的相似度；X指向性：特征X的名字与特征Y的功能区域之间的相似度；Y指向性：特征Y的名字与特征X的功能区域之间的相似度；其中，特征的功能区域为“特征的文字描述中的宾语及其修饰语的集合”；训练步骤，使用经过量化的“空白对”、“依赖对”和“互斥对”作为训练样本，对用于挖掘出“依赖对”和“互斥对”的一分类器进行训练；分类步骤，使用分类器对输入的“未知对”进行分类，在“未知对”中发现“依赖对”和“互斥对”就意味着挖掘到了新的二元约束关系；在量化步骤中，所述四个指标的相似度计算方法如下：首先用D表示所有特征的名字及其文字描述的集合；对于每个文本集合中的每个词语，计算该词语的TF和IDF两个指标，其中：将每个文本集合表示为向量V(TF₁×IDF₁，TF₂×IDF₂，...，TF_k×IDF_k)，其中1，2，…，k表示该文本集合包含的k个互不相同的词语；两个文本集合的相似度则表示为两个向量之间的重合度，即：

由上分析可知，可发明通过为特征二元约束关系的建立提供一种有效的计算机辅助方法，可以高度自动化的进行大规模特征模型中约束关系的建立，提高特征模型的建模效率。

具体实施方式

下面结合具体实施方式对本发明做进一步详细说明。

为了现有技术存在的特征模型的建立仍然严重依赖于建模人员的个人知识与经验，难以确保建模活动的有效实施；以及，现有计算机辅助抽取的特征模型与建模人员手工建立的模型相去甚远，尤其体现在特征约束关系的严重缺失上，从而缺乏实用性的问题，本发明提供一种特征二元约束关系的自动挖掘方法，其为特征二元约束关系的建立提供一种有效的计算机辅助方法。

本发明之所以着眼于挖掘特征之间的二元约束关系，即涉及两个特征的约束关系，是因为：首先，二元约束关系在各种特征模型中使用得最普遍，因此使得本发明具有较广泛的适用性。其次，二元约束关系是其它各类约束关系的基础，因此本发明可以对其他约束关系具有借鉴意义。

本发明将二元约束关系进一步划分为“依赖”(requires)关系和“互斥”(excludes)关系。因此，由任意两个特征组成的一个“特征对”，可能属于“空白对”(两个特征之间不存在约束关系)，“依赖对”(两个特征之间存在依赖关系)，或者“互斥对”(两个特征之间存在互斥关系)、“未知对”(在一特征对中两个特征之间存在不确定关系)。基于此，本发明把自动挖掘二元约束关系的技术问题转化为“特征对”自动分类的技术问题，通过所要解决的技术问题的变换，可以简化特征二元约束关系的建立。

应用本发明时，已知：一组特征以及其中部分特征之间的二元约束关系。其中，每个特征由一个名字和一段文字描述来刻画。所要解决的问题：自动挖掘该组特征之间的所有可能二元约束关系。本发明及其优选实施方式的具体步骤如下：

配对，对这组特征进行两两配对，并根据已知条件将“特征对”分为“空白对”、“依赖对”、“互斥对”和“未知对”四类。不需要区分一个“特征对”内部的两个特征的顺序，亦即<特征1，特征2>和<特征2，特征1>是等价的。另外，一个特征也不与自身进行配对。因此，N个特征共产生N(N-1)/2个“特征对”。

量化，假设上述步骤产生的特征对由特征X和特征Y构成，并对于上述步骤产生的每一个特征对，定义如下四个指标对其进行量化：

描述相似度：两个特征的文字描述之间的相似度；

功能区域相似度：两个特征的功能区域之间的相似度；

X指向性：特征X的名字与特征Y的功能区域之间的相似度；

Y指向性：特征Y的名字与特征X的功能区域之间的相似度；

其中，特征的功能区域可以理解为“特征的功能所影响的实体集合”。具体到本发明中，定义为“特征的文字描述中的宾语及其修饰语的集合”。

例如：(该特征)将磁盘上的无损音乐文件导入媒体库，并自动更新专辑封面。对应的功能区域为{无损音乐文件，媒体库，专辑封面}。如果还存在一个名为“媒体库”的特征，那么它就被前述特征的功能所指向(被前述特征的功能区域所覆盖)。

上述四个指标均用到两个文本集合的相似度计算，其计算方法如下：

首先用D表示所有特征的名字及其文字描述的集合。

对于每个文本集合中的每个词语，计算该词语的TF和IDF两个指标：

将每个文本集合表示为向量V（TF₁×IDF₁，TF₂×IDF₂，...,TF_k×IDF_k)，其中1，2，…，k表示该文本集合包含的k个互不相同的词语。

两个文本集合的相似度则表示为两个向量V之间的重合度，即：

训练，使用经过量化的“空白对”、“依赖对”和“互斥对”作为训练样本，对分类器进行训练。本发明使用目前比较成熟可靠的“支撑向量机”(对支撑向量机，可参考台湾大学林智仁等人于2011年发表于期刊《ACM智能系统与技术》的论文“Libsvm：一个支撑向量机的通用库”)作为分类器。分类器的作用是挖掘出“依赖对”和“互斥对”，因此训练分类器时指定两个可调节参数R和E，分别对应依赖关系和互斥关系的权重，其初始值定义为：

定义权重的依据是：如果一种类型的“特征对”越稀少，那么分类器识别它的难度越大(因为用于训练的样本变少了)，相应的就应该给定较大的权重。因此，假设“空白对”的权重总是1，那么其他两类“特征对”的权重就与其数量成反比。

此外，还定义一个支撑向量机特有的调节参数γ，其取值直接影响支撑向量机区分不同类别训练样本的能力，初始值为1÷“特征对”量化指标数量＝1÷4＝0.25。

优化，不同应用环境中，特征的文字描述千差万别，并且“特征对”的分布也各不相同。因此为了使分类器具有良好的分类效果，必须对分类器进行优化，即找到参数R、E和γ的最优取值组合。本发明综合利用交叉检验和遗传算法进行优化，其基本策略是：使用遗传算法有计划的尝试不同取值组合，对于每一个取值组合，使用交叉检验评估其有效性。下面分别进行介绍。

交叉检验：给定一个参数取值组合，交叉检验的标准实施步骤如下：

使用该取值组合定义一个支撑向量机分类器；

将训练样本集合分为L等分，例如10等分，用其中的9份训练分类器，再使用分类器对剩余的1份样本进行测试(对其进行模拟分类，并比较模拟分类的结果与实际样本之间的差异)。该步骤应重复进行10次，每次使用不同的1份样本进行测试。最终，每个训练样本都会恰好测试一次，于是该取值组合的有效性评估为：

遗传算法：用于在给定范围内寻找最优的参数取值组合。假定各参数取值范围均为[初始值/10，初始值×10]，并且参数的变化幅度为±0.5(对R和E而言)和±0.01(对γ而言)。遗传算法包含两个主要操作：

变异：对一个参数取值组合，随机对其中0到3个参数值进行一次变化(随机进行正向或负向变化)，得到一个新的参数取值组合。

繁殖：对两个参数取值组合，从其中一个组合中随机选取0到3个参数值，并从另一个组合中选取剩余的参数值，进行重新组合，得到一个新的参数取值组合。

遗传算法的具体步骤如下：

首先在三个参数的取值范围内随机取值进行组合，生成M个取值组合(M的值可根据需要自定)。然后重复以下三个步骤：

对每个取值组合进行交叉检验；

选择其中最优的m个取值组合(可以称之为“精英取值组合”)，淘汰剩余取值组合；

随机在“精英取值组合”内部进行变异或繁殖，生成剩余取值组合，这样就得到了新的M个取值组合。

分类，经过优化之后，使用分类器对输入的“未知对”进行分类。这样，在其中发现“依赖对”和“互斥对”就意味着挖掘到了新的二元约束关系。

抽样反馈，为了进一步提高有效性，本发明还包括抽样反馈的步骤。具体为，从分类步骤得到的结果中进行抽样，并交给特征模型开发人员进行人工审核。人工审核的结果将反馈到训练样本集中，并进行下一轮的“训练-优化-分类-抽样反馈”过程，直到开发人员满意为止。抽样的方法主要分为以下步骤：

将分类后的“特征对”按照描述相似度从高到低排序，其思想是约束关系往往存在于相似的特征之间。

抽取排序最靠前的p个包含约束关系的“特征对”，其中，p的取值可以按照需要自定，但一般不宜超过结果总量的5％，否则人工审核的工作量太大，如果包含约束关系的“特征对”不足p个，用排序最靠前的“空白对”补足。

上述为本发明的具体实施步骤及各步骤的用途。为了便于深入理解本发明，下面将结合更为具体的一实施例，对本发明进行说明。

以一个公开的典型特征模型为例，本发明的具体实施过程如下。

输入，从SPLOT在线特征模型库中选取的一个“图论特征模型”。该特征模型对典型的图及图算法进行的建模。其包含16个特征，如下表所示，表中特征名字的大小或缩进表示特征之间的层次关系，如“有向图”和“无向图”都是“方向性”的下层特征。

其中，已知的约束关系情况如下：

无约束关系：一个特征与其任一下层特征。

依赖关系：“Prim算法”依赖于“无向图”，“Prim算法”依赖于“有权图”，“环判定算法”依赖于“深度优先搜索”。

互斥关系：“有向图”互斥于“无向图”，“有权图”互斥于“无权图”。

输出，得到120个“特征对”，其中已知12个“空白对”、3个“依赖对”、2个“互斥对”，即训练样本有17个。最终经过5轮“训练-优化-分类-抽样-反馈”迭代(每次抽样3个结果)，共提示了15个约束关系，其中包含了全部7个正确的约束关系，如下所示：

依赖关系：(Dijsktra，有权图)，(Kruskal,有权图)，(Kruskal，有向图)，(连通性判定，深度优先搜索)，(连通性判定，广度优先搜索)，(强连通分支查找，连通性判定)。互斥关系：(Prim，Kruskal)。因此，在此实例中，对于约束关系的召回率为100％，准确率为7÷15＝14％。

综上，本发明根据特征模型及部分已知的约束关系，经过产生训练/测试集、训练、优化、应用等步骤得到新的约束关系，并可通过抽样、反馈步骤使上述过程迭代进行，进一步提升效果。可见，本发明基于特征二元约束关系自动挖掘，可以高度自动化的进行大规模特征模型中约束关系的建立，提高特征模型的建模效率。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims

1.一种特征二元约束关系的自动挖掘方法，其特征在于，包括以下步骤：

配对步骤，对一组N个特征进行两两配对形成“特征对”，并根据已知条件将“特征对”分为“空白对”、“依赖对”、“互斥对”和“未知对”四类；

其中，“特征对”为由任意特征X和特征Y组成的集合，“空白对”表示在一特征对中两个特征之间不存在约束关系，“依赖对”表示在一特征对中两个特征之间存在依赖关系，“互斥对”表示在一特征对中两个特征之间存在互斥关系，“未知对”表示在一特征对中两个特征之间存在不确定关系；

由此，N个特征共产生N(N-1)/2个“特征对”；

量化步骤，对于每一个“特征对”，定义如下四个指标对其进行量化：

描述相似度：两个特征的文字描述之间的相似度；

功能区域相似度：两个特征的功能区域之间的相似度；

X指向性：特征X的名字与特征Y的功能区域之间的相似度；

Y指向性：特征Y的名字与特征X的功能区域之间的相似度；

其中，特征的功能区域为“特征的文字描述中的宾语及其修饰语的集合”；

训练步骤，使用经过量化的“空白对”、“依赖对”和“互斥对”作为训练样本，对用于挖掘出“依赖对”和“互斥对”的一分类器进行训练；

分类步骤，使用分类器对输入的“未知对”进行分类，在“未知对”中发现“依赖对”和“互斥对”就意味着挖掘到了新的二元约束关系；

在量化步骤中，所述四个指标的相似度计算方法如下：

首先用D表示所有特征的名字及其文字描述的集合；

对于每个文本集合中的每个词语，计算该词语的TF和IDF两个指标，其中：

将每个文本集合表示为向量V(TF₁×IDF₁，TF₂×IDF₂，...，TF_k×IDF_k)，其中1，2，…，k表示该文本集合包含的k个互不相同的词语；

两个文本集合的相似度则表示为两个向量之间的重合度，即：

2.根据权利要求1所述的特征二元约束关系的自动挖掘方法，其特征在于，所述分类器为支撑向量机。

3.根据权利要求2所述的特征二元约束关系的自动挖掘方法，其特征在于，在训练步骤中，训练所述分类器时，指定两个分别对应依赖关系和互斥关系的权重的可调节参数R和E，可调节参数R和E的初始值定义为：

并且，还定义一个支撑向量机特有的调节参数γ，其初始值为1÷“特征对”量化指标数量＝1÷4＝0.25。

4.根据权利要求3所述的特征二元约束关系的自动挖掘方法，其特征在于，还包括：

优化步骤，对所述分类器进行优化，找到参数R、E和γ的最优取值组合。

5.根据权利要求4所述的特征二元约束关系的自动挖掘方法，其特征在于，在对所述分类器进行优化时，利用交叉检验和遗传算法进行优化；其中，交叉检验的步骤为：

给定一个参数取值组合；

使用该取值组合定义一个分类器；

将训练样本集合分为L等分，用其中的L-1份训练分类器，再使用分类器对剩余的1份样本进行测试，该步骤重复进行L次，每次使用不同的1份样本进行测试，使得每个训练样本都会恰好测试一次，该取值组合的有效性评估为：

6.根据权利要求5所述的特征二元约束关系的自动挖掘方法，其特征在于，在所述遗传算法中，用于在给定范围内寻找最优的参数取值组合，假定各参数取值范围均为[初始值/L，初始值×L]，并且参数R和E的变化幅度为±0.5和参数γ的变化幅度为±0.01；所述遗传算法包括以下步骤：

在三个参数的取值范围内随机取值进行组合，生成M个取值组合，然后重复以下三个步骤：

对每个取值组合进行交叉检验；

选择其中最优的m个精英取值组合，淘汰剩余取值组合；

随机在精英取值组合内部进行变异或繁殖，生成剩余取值组合，得到新的M个取值组合；

其中，变异是指，对一个参数取值组合，随机对其中0到3个参数值进行一次变化，得到一个新的参数取值组合；繁殖是指，对两个参数取值组合，从其中一个组合中随机选取0到3个参数值，并从另一个组合中选取剩余的参数值，进行重新组合，得到一个新的参数取值组合。

7.根据权利要求6所述的特征二元约束关系的自动挖掘方法，其特征在于，还包括：

抽样反馈步骤，从所述分类步骤得到的结果中进行抽样，特征模型开发人员进行人工审核，人工审核的结果将反馈到训练样本集中，并进行下一轮的“训练-优化-分类-抽样反馈”过程，直到特征模型开发人员满意为止，其中，抽样方法的具体步骤为：

将分类后的“特征对”按照描述相似度从高到低排序；

抽取排序最靠前的p个包含约束关系的“特征对”，p不超过结果总量的5％；如果包含约束关系的“特征对”不足p个，用排序最靠前的“空白对”补足。