CN111815167A

CN111815167A - 一种自动化众包测试绩效考核方法和装置

Info

Publication number: CN111815167A
Application number: CN202010657504.6A
Authority: CN
Inventors: 孙军梅; 朱敏
Original assignee: Hangzhou Normal University
Current assignee: Hangzhou Normal University
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-10-23

Abstract

本发明给出一种自动化众包测试绩效考核方法和装置。本发明对缺陷进行重复性检测以及优先级分类，重复性检测对应评估缺陷的难易程度，优先级分类对应确定缺陷的优先级，从而根据缺陷的难易程度和优先级综合对测试工人所提交的缺陷报告进行评价，并给出对应的报酬。本发明给出的方法从发现缺陷的数量、发现缺陷的难易程度，缺陷的优先级三个方面来综合衡量测试工人所提交缺陷的质量来进行绩效评价。本发明给出的方法可以自动化完成绩效评价，节省人力和物力。

Description

一种自动化众包测试绩效考核方法和装置

技术领域

本发明属于软件测试领域，主要涉及一种自动化众包测试绩效考核方法和装置。

背景技术

在众包测试领域中，绩效考核方式尤为重要，它反映了众测平台会如何根据众包工人的任务完成情况给与相应的任务奖励。给众包工人设立一些奖励机制能够有效的提升测试人员的积极性，从而提高测试人员提交的缺陷报告的质量。

已有文献表明给的奖金多，但不一定能提高测试质量，许多工人试图快速完成一项工作来赚钱和最大化利润。提交的缺陷报告的质量与获得的报酬应该成正比，研究中表明，一项任务的报酬从0.01美元增加到0.10美元，质量提高了126％。在实验中，47％的员工对0.01美元的薪酬条件不满意，72％的员工对0.10美元的薪酬条件满意。当使用适当数量的激励时，就能完成质量更好的工作。合理的评分和奖励制度决定了众包任务对众包测试工人的吸引力，能够更好地激励工人完成高质量的任务。在绩效考核方式中，根据任务量进行考核，并且区分任务的难易程度是一种比较好的考核机制，其次依据缺陷的优先级进行考核也是很好的考核机制，根据发现缺陷的优先级越高，所支付的奖励就越高。

传统的众包测试平台绩效考核模型大致分为两种，第一种是考虑工人的声誉，比如 Reputation-Based Model，该模型将任务更多分配给信誉高的人并且在任务执行之前支付报酬，这种模式的好处是可以提高整体的缺陷报告的质量，但是由于在任务分配时将大部分信誉低的测试工人筛选掉不予分配任务结果导致反馈的缺陷报告较少，无法快速全面的找出软件的缺陷。其次还有Rating and Reward Dividing Model这种模型需要发布任务者手动对测试工人提交的报告进行评级，评级高的支付的报酬多，评级低的支付报酬低，这种方法的缺点是需要耗费大量的人力和时间去对这些缺陷报告进行评级。第二种不考虑工人的声誉，比如Survival Analysis Method Model这种模型根据工人完成任务所用的时间给工人支付报酬，实现了一个递归算法来计算报酬。

当前市面上的众包测试平台考核模型主要分为几种：弱参与(weak-involved)平台、强参与(strong-involved)平台和强参与-安全测试(stong-involed and securitytesting)平台。

弱参与平台，简称W平台，这种平台通常会有一些基本的绩效考核以及奖励机制，大都是由发布者手动审核以及奖励定价，此类平台有Tencent Test、TestFlight等。

强参与平台，简称S平台，这类平台基本上都会对绩效考核的方式提供明确的规则，但是规则通常是按照测试人员发现缺陷的个数以及缺陷的优先级进行制定的，在这个过程当中，缺陷的优先级需要评估专家手动审核，通常比较麻烦。此类平台有Alltesting、Applause、uTest等。

强参与-安全测试平台，简称S-S平台，此类平台是参与度较强的安全性测试平台，相较于强参与平台，对绩效考核和及奖励方式都有着更为严格的规定，这些规定通常会根据测试人员发现缺陷的个数以及难易程度和缺陷的优先级制定。比如Testin、WooYun，每一个缺陷级别都有最低的奖金，如果发现的bug特别严重，甚至还会有基础的奖励之上的额外奖励，直到封顶为止，相比固定方式，这种方式更能调动众包工人寻求缺陷的积极性。

综上所述，当前的众包测试平台绩效考核模型存在两个明显的问题：

(1)对于缺陷的评估大都需要评估专家手动评估，效率低下；

(2)大部分平台没有把测试人员发现缺陷的难易程度以及缺陷的优先级相结合进行综合评估。

本发明给出了一种基于缺陷报告重复性检测和优先级分类的众包测试考核模型。(1) 给出一种基于缺陷报告的“发现难度”和“优先程度”的绩效考核模型。软件缺陷的发现难度越大以及发现的缺陷优先级越高那么这个缺陷的质量就越高，相应的发现这个缺陷的工人就应该获得更多的酬劳。

(2)针对众包工人提交的缺陷报告如何评测其“发现难度”这一问题，本发明给出通过检测缺陷报告的重复性来确定缺陷报告的难易度的方法。利用基于TF-IDF的空间向量模型进行文本间的相似度计算，并通过设立合适的阈值判定缺陷的重复性。

(3)针对众包工人提交的缺陷报告如何评测其“优先程度”这一问题，本发明给出了基于深度学习的缺陷报告优先级分类方法。利用词向量将文本数据向量化，然后对模型进行训练评估，最后用训练好的模型对缺陷优先级进行分类，给出缺陷的优先级。

发明内容

本发明的目的是针对现有技术的不足，提出一种自动化众包测试绩效考核方法，能够根据用户提交的缺陷报告的数量和质量来自动定量地计算所应获得奖金。

步骤一、从缺陷报告库中获取众包测试工人提交的缺陷报告，并从缺陷报告中提取对应缺陷信息，即缺陷简述、操作步骤、期望结果、实际结果等；

步骤二、对任意两个缺陷报告进行重复性检测，其中重复性检测对应评估缺陷的难易程度；

2-1、对任意两个缺陷报告进行文本预处理，提取特征词；

2-2、计算特征向量：

将在上述两个缺陷报告中采用TF-IDF算法计算所有特征词的TF-IDF值，构建权重向量空间；其中若某特征词在当前缺陷报告中不存在，则该特征词的TF-IDF值记为 0；

TF-IDF＝TF*IDF (4)

其中TF(Term Frequency，简写TF，词频)指的是某特征词w在当前缺陷报告中出现的频率，计算如公式(5)所示：

IDF(Inverse Document Frequency，简写IDF，逆文本频率指数)指的是将文档总数除以包含某特征词w的文件数，然后再将获得的商进行取对数，计算如公式(6) 所示：

如果包含特征词w的文档越少，则IDF越大，那么说明词w具有良好的分类能力。

2-3、计算缺陷之间的相似度

采用余弦相似度算法计算两个缺陷报告的相似度，若超过阈值(设为0.75)则归为同一类，反之作为新分类。

其中假定a是n维向量，用[X₁,X₂,…,X_n]表示，b是n维向量，用[Y₁,Y₂,…,Y_n]表示，a与b的夹角为θ，余弦相似度的计算如公式(3)所示：

其中a和b分别表示步骤2-2两个缺陷报告向量化表示后所对应的向量；X_n表示向量a的第n个特征词TF-IDF值，Y_n表示向量b的第n个特征词TF-IDF值。

2-5、缺陷B_i根据重复性检测所获得的缺陷积分

计算如下：

其中n_i表示缺陷B_i重复的个数，即与缺陷B_i同一类的缺陷个数，也就是发现缺陷B_i的人数。

提交的缺陷如果重复的人越多，说明发现这个缺陷越容易，反之就越难。

步骤三、对每个缺陷报告进行优先级分类，其中优先级分类对应确定缺陷的优先级；

缺陷的优先级一般分为P1，P2，P3，P4，P4四级，其中P1>P2>P3>P4，即P1优先级最高，P2次之，P4最低。为了避免工人标注缺陷优先级不准确的问题，一般在缺陷提交后还要人工的方式来对缺陷的优先级进行标注。本发明采用采用CNN+Bi-LSTM 模型进行优选级分类，步骤一缺陷报告作为模型的输入，缺陷的优先级数值

作为输出；

上述CNN+Bi-LSTM模型结构由由Embedding层、卷积层、Bi-LSTM层、Dense层构成，激活函数选择softmax。

步骤四、计算每个工人所获得的奖金S的方法，见公式(5)：

其中W为管理者设置的总奖金数，N表示缺陷报告的个数，

为某个工人所发现的所有缺陷报告的总积分占比；

缺陷B_i的积分C_Bi见公式(6)：

其中

为缺陷B_i对应的优先级数，P为各类缺陷报告的优先级的数值之和。

本发明的另一个目的是提供一种自动化众包测试绩效考核装置，所述装置包括：

信息获取模块，用于从缺陷报告库中获取众包测试工人提交的缺陷报告信息；

重复性检测模块，用于从信息获取模块中获得缺陷报告，然后对任意两个缺陷报告进行文本预处理，通过分词得到特征词；计算所有特征词的TF-IDF值，并根据TF-IDF 值计算两个缺陷报告的相似度，判断是否为同一类缺陷报告；最终获得缺陷积分

优先级判断模块，用于将缺陷报告输入到CNN+Bi-LSTM模型，输出对应缺陷的优先级数值

计算模块，用于根据重复性检测模块获取的缺陷积分

优先级判断模块获取的优先级数值

计算得到每个工人应获得奖金。

本发明的有益效果：

当前的众包测试平台绩效考核方法大都比较单一，同时还需要测试专家手动评估、审核缺陷。

1、本发明给出的方法从发现缺陷的数量、发现缺陷的难易程度，缺陷的优先级三个方面来综合衡量测试工人所提交缺陷的质量来进行绩效评价。

2、利用本发明给出的方法可以自动化完成绩效评价，节省人力和物力。

附图说明

图1为本发明绩效考核方法框架图；

图2为本发明BUG重复性检测流程图；

图3为本发明CNN+Bi-LSTM模型结构。

具体实施方式

下面结合附图对本发明做进一步地分析。

一、基于缺陷报告重复性检测和优先级分类的众包测试考核流程

考核模型整体流程如图1所示，从缺陷管理者搜集完成的缺陷报告库中对缺陷进行重复性检测以及优先级分类，重复性检测对应评估缺陷的难易程度，优先级分类对应确定缺陷的优先级，从而根据缺陷的难易程度和优先级综合对测试工人所提交的缺陷报告进行评价，并给出对应的报酬。

二、一种自动化众包测试绩效考核方法，能够根据用户提交的缺陷报告的数量和质量来自动定量地计算所应获得奖金，具体包括如下：

步骤一、从缺陷报告库中获取众包测试工人提交的缺陷报告信息；

缺陷报告如下表1，一般包括缺陷报告编号，缺陷所属模块，缺陷提交人(测试人员，也即众包测试工人)，缺陷的类型，缺陷的严重程度，缺陷的状态，测试平台，优先级，简述，操作步骤，预期结果和实际结果等。

表1缺陷报告

步骤二、对任意两个缺陷报告进行重复性检测，其中重复性检测对应评估缺陷的难易程度，如图2；

2-1、对任意两个缺陷报告进行文本预处理，提取特征词；

英文文本具体预处理如下：

1)去除非文本部分；

2)去除停用词；

3)词干提取和词形还原；

4)大小写转换；

5)文本数字化；

中文文本具体预处理如下：

1)无效数据过滤；

2)文本分词；

3)去停用词；

4)文本数字化；

上述属于常规技术操作。

2-2、计算特征向量：

TF-IDF＝TF*IDF (4)

2-3、计算缺陷之间的相似度

举例：

以两个缺陷报告BUG1和BUG2为例：

BUG1＝(Delete action in Editor Cause Leak)

BUG2＝(Deleting the Editor will result in a memory Release)

在进行相应的文本预处理之后为：

BUG1＝(delete act edit cause leak)

BUG2＝(delete edit will result memory release)

通过文本预处理后，最终得到9个文本特征词，分别对两个缺陷的各个特征词进行TF-IDF值计算，各特征词TF-IDF值如表1所示：

表1基于TF-IDF的特征向量

利用余弦相似度算法计算基于TF-IDF的两个缺陷的相似度为：Sim(BUG1,BUG2)＝0.825

2-5、缺陷B_i根据重复性检测所获得的缺陷积分

计算如下：

缺陷的优先级一般分为P1，P2，P3，P4，P4四级，其中P1>P2>P3>P4，即P1优先级最高，P2次之，P4最低。为了避免工人标注缺陷优先级不准确的问题，一般在缺陷提交后还要人工的方式来对缺陷的优先级进行标注。本发明采用采用CNN+Bi-LSTM模型进行优选级分类，步骤一缺陷报告作为模型的输入，缺陷的优先级数值

作为输出； CNN+Bi-LSTM模型结构如图3所示。

上述CNN+Bi-LSTM模型结构由以下构成：

(1)Embedding层(即词嵌入层)

本层是基于word2vec的数据向量化表示，作为模型的第一层，它的作用是将文本序列中每一个词映射为具有固定长度的连续实向量。

(2)卷积层

该层由具有不同卷积内核大小的多个CNN组成。在词嵌入层后，利用一维卷积方法将文本数据以序列化数据的形式表示出来。卷积层的功能是从词嵌入层的输出中提取特征向量。

在本节中，在卷积层的设计上设置了多个卷积层，卷积核的大小分别为2、3、4 和5。然后将每组特征向量输入到池化层中进行池化。池化层的作用是减少数据的维数并选择局部最优特征。通常的方法是最大池化，因为最大池化可以提取最有效的特征信息。从每个卷积核中提取的特征被串联起来，拼接后的序列被用作下一层的输入。

(3)Bi-LSTM层

该层的输入是上层CNN的输出向量。双LSTM层可以由两个方向相反的LSTM组合而成。相反的两个LSTM分别称为前向LSTM和后向LSTM。

(4)Dense层

最终的dense层是完全连接的神经网络层。dense层用于生成更加高阶特征表示，从而更容易分离为我们要区分的不同类别。本层的输入为Bi-LSTM的输出向量，本层采用的激活函数为softmax，因为常用的激活函数比如tanh和sigmoid函数的作用是将输入映射到(0,1)区间，从而判断属于某个类别，它们一般适用于二分类问题。但是本文是多分类问题，因此采用softmax作为激活函数。

步骤四、计算每个工人所获得的奖金S的方法，见公式(5)：

其中W为管理者设置的总奖金数，N表示缺陷报告的个数，

为某个工人所发现的所有缺陷报告的总积分占比；

缺陷B_i的积分C_Bi见公式(6)：

其中

计算模块，用于根据重复性检测模块获取的缺陷积分

优先级判断模块获取的优先级数值

计算得到每个工人应获得奖金。

四、对比例

将当前市场上比较常见的几种众包测试平台绩效考核方法与本发明提出的方法进行对比。

对比例1是Alltesting众测平台，Alltesting众测是一个努力为中小型企业提高质量以及专业化测试服务和线上测试工具的平台。Alltesting平台的绩效考核以及奖励方式为：

首先，专家会对每个工人发现的BUG进行评优先级，优先级别从高到低分为四个级别，每一个级别的BUG都对应相应的金额，根据每个工人发现的BUG的优先级对应的奖励计算出每个工人应得的奖金总额。

平台绩效考核方式对缺陷级别的不同有着不同的奖金，从低级到加急，级别越高，那么给出对应的奖励也就越高。很明显该平台将缺陷报告的优先级考虑进去，但是该平台对于缺陷优先级别的审核却是需要软件管理者进行手动审核。

表2 Alltesting平台绩效考核方式

对比例2选取的是Testin众测平台，Testin云测创立于2011年，是一个应用服务平台，为全世界开发人员以及企业提供测试，安全，推广，产品优化，以及大数据解决方案。Testin平台的绩效考核以及奖励方式如下：

每次任务的收益不是固定的，而是依据每次任务的具体执行情况来计算。

依据每次任务专家对BUG的评级。也就是说取得的积分越高，专家评级越高，则收益越高。

首先项目评价分为以下四个级别，分别对应不同的收益倍数：

I₄＝0.25；I₃＝1；I₂＝1.2；I₁＝1.5测试实际收益总金额等于测试基础收益x对应评级的收益倍数。收益倍数是按照专家对Bug进行的评级来计算，专家会对每一个由测试者提出的Bug进行评级，然后由系统自动算出测试者收益。

各绩效考核模型对比如表3所示：

表3各模型考核方式对比表

表3中，Alltesting平台绩效考核模型和Testin平台绩效考核模型都不能同时满足依据缺陷的数量，发现缺陷的难度和缺陷的优先级这三个条件，并且Alltesting和Testin同时满足的依据缺陷的优先级，其中对于优先级的评级方式是需要专家进行手动评估的，虽然专家评估的准确性以及可靠性更大一些，但是对于大型软件的测试要求，这项工作耗时又费力，大大地降低了平台进行绩效考核的效率。

表4众包测试工人发现的缺陷及缺陷数量

表4中为Alltesting平台五名测试工人在规定的时间之内对“广场歌舞小程序”进行功能性测试所提交的缺陷的数量，表中的1表示所在行的工人发现了对应列的缺陷， 0表示没有发现对应的缺陷。由于不同的众包测试平台对于优先级等级的划分也不尽相同，因此本实验部分依据所选取平台的优先级划分将优先级划分为四个等级。依据此表，我们对各模型的奖励制度进行测试。任务发布者设置任务总奖金为200元，B₁，B₂，B₃， B₄，B₅的优先级分别为P₁，P₂，P₃，P₃，P₄，其中我们将优先级比例设置为：P₁：P₂：P₃： P₄＝5:4:3:2。

Alltesting：根据平台规则，优先级为P₁的奖励为40元，P₂为25元，P₃为10元， P₄为5元。则有测试工人t₁的奖金为55元；测试工人t₂的奖金为70元；测试工人t₃的奖金为80元；测试工人t₄的奖金为80元；测试工人t₅的奖金为40元。

Testin：根据平台规则，假设此任务在Tesin平台的基础收益为20，则有测试工人t₁的奖金为55元；测试工人t₂的奖金59元；测试工人t₃的奖金为79元；测试工人t₄的奖金为79元；测试工人t₅的奖金为30元。

本发明方法计算：根据公式(6)计算每类缺陷的BUG积分得出：

根据公式(5)计算每个工人所获得的奖金，其中N为6，W为200。

计算得出各测试工人的奖励应为：测试工人t₁的奖励为34.8元；测试工人t₂的奖金为32.8元；测试工人t₃的奖金为68元；测试工人t₄的奖金为50.4元；测试工人t₅的奖金为11.6元。

表5不同众测平台测试工人所获奖励

由表4我们可以看出，测试工人t₁和t₂，t₃和t₄所发现的缺陷数量一样，但是由于发现的缺陷的难易程度以及优先级不一样，所以所获得的奖励也是不一样的，对于t₃和t₄，它们只有B₃和B₄不同，而B₃和B₄的优先级相同但是难易程度不同，很明显B₄的难易程度比 B₃要高，所以相较发现缺陷B₃的测试工人t₄，t₃应该获得更高的奖励，这一点在本发明给出的考核模型中得到了很好的体现。但是在Alltesting平台和Testin平台，测试工人t₃和t₄所获得的奖励却是一样的，同时，在Alltesting平台和Testin平台，他们很难设置奖金的上限，如果参与测试的测试工人很多以及发现的缺陷报告过多，很容易便会超出设置的奖金上限，而参与的测试工人过少，奖金分配则会有多余，这不能充分发挥奖金的激励作用。这使得软件工作管理者很难控制自己的预算。本发明给出的方法中，可以很好的控制软件管理者设置的任务总奖金，不会超出软件管理者的预算，并且还能依据测试工人发现的缺陷数量，发现缺陷的难易程度以及缺陷的优先级，自动化地科学合理地对测试工人进行绩效考核。

上述实施例并非是对于本发明的限制，本发明并非仅限于上述实施例，只要符合本发明要求，均属于本发明的保护范围。