CN111815167A - 一种自动化众包测试绩效考核方法和装置 - Google Patents

一种自动化众包测试绩效考核方法和装置 Download PDF

Info

Publication number
CN111815167A
CN111815167A CN202010657504.6A CN202010657504A CN111815167A CN 111815167 A CN111815167 A CN 111815167A CN 202010657504 A CN202010657504 A CN 202010657504A CN 111815167 A CN111815167 A CN 111815167A
Authority
CN
China
Prior art keywords
defect
priority
reports
defects
idf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010657504.6A
Other languages
English (en)
Inventor
孙军梅
朱敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Normal University
Original Assignee
Hangzhou Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Normal University filed Critical Hangzhou Normal University
Priority to CN202010657504.6A priority Critical patent/CN111815167A/zh
Publication of CN111815167A publication Critical patent/CN111815167A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06398Performance of employee with respect to a job function
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3692Test management for test results analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Hardware Design (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明给出一种自动化众包测试绩效考核方法和装置。本发明对缺陷进行重复性检测以及优先级分类,重复性检测对应评估缺陷的难易程度,优先级分类对应确定缺陷的优先级,从而根据缺陷的难易程度和优先级综合对测试工人所提交的缺陷报告进行评价,并给出对应的报酬。本发明给出的方法从发现缺陷的数量、发现缺陷的难易程度,缺陷的优先级三个方面来综合衡量测试工人所提交缺陷的质量来进行绩效评价。本发明给出的方法可以自动化完成绩效评价,节省人力和物力。

Description

一种自动化众包测试绩效考核方法和装置
技术领域
本发明属于软件测试领域,主要涉及一种自动化众包测试绩效考核方法和装置。
背景技术
在众包测试领域中,绩效考核方式尤为重要,它反映了众测平台会如何根据众包工 人的任务完成情况给与相应的任务奖励。给众包工人设立一些奖励机制能够有效的提升 测试人员的积极性,从而提高测试人员提交的缺陷报告的质量。
已有文献表明给的奖金多,但不一定能提高测试质量,许多工人试图快速完成一项 工作来赚钱和最大化利润。提交的缺陷报告的质量与获得的报酬应该成正比,研究中表明,一项任务的报酬从0.01美元增加到0.10美元,质量提高了126%。在实验中,47% 的员工对0.01美元的薪酬条件不满意,72%的员工对0.10美元的薪酬条件满意。当使 用适当数量的激励时,就能完成质量更好的工作。合理的评分和奖励制度决定了众包 任务对众包测试工人的吸引力,能够更好地激励工人完成高质量的任务。在绩效考核方 式中,根据任务量进行考核,并且区分任务的难易程度是一种比较好的考核机制,其次 依据缺陷的优先级进行考核也是很好的考核机制,根据发现缺陷的优先级越高,所支付 的奖励就越高。
传统的众包测试平台绩效考核模型大致分为两种,第一种是考虑工人的声誉,比如 Reputation-Based Model,该模型将任务更多分配给信誉高的人并且在任务执行之前支 付报酬,这种模式的好处是可以提高整体的缺陷报告的质量,但是由于在任务分配时将大部分信誉低的测试工人筛选掉不予分配任务结果导致反馈的缺陷报告较少,无法快速全面的找出软件的缺陷。其次还有Rating and Reward Dividing Model这种模型需要 发布任务者手动对测试工人提交的报告进行评级,评级高的支付的报酬多,评级低的支 付报酬低,这种方法的缺点是需要耗费大量的人力和时间去对这些缺陷报告进行评级。 第二种不考虑工人的声誉,比如Survival Analysis Method Model这种模型根据工人 完成任务所用的时间给工人支付报酬,实现了一个递归算法来计算报酬。
当前市面上的众包测试平台考核模型主要分为几种:弱参与(weak-involved)平台、强参与(strong-involved)平台和强参与-安全测试(stong-involed and securitytesting)平台。
弱参与平台,简称W平台,这种平台通常会有一些基本的绩效考核以及奖励机制,大都是由发布者手动审核以及奖励定价,此类平台有Tencent Test、TestFlight等。
强参与平台,简称S平台,这类平台基本上都会对绩效考核的方式提供明确的规则, 但是规则通常是按照测试人员发现缺陷的个数以及缺陷的优先级进行制定的,在这个过 程当中,缺陷的优先级需要评估专家手动审核,通常比较麻烦。此类平台有Alltesting、Applause、uTest等。
强参与-安全测试平台,简称S-S平台,此类平台是参与度较强的安全性测试平台,相较于强参与平台,对绩效考核和及奖励方式都有着更为严格的规定,这些规定通常会 根据测试人员发现缺陷的个数以及难易程度和缺陷的优先级制定。比如Testin、WooYun, 每一个缺陷级别都有最低的奖金,如果发现的bug特别严重,甚至还会有基础的奖励之 上的额外奖励,直到封顶为止,相比固定方式,这种方式更能调动众包工人寻求缺陷的 积极性。
综上所述,当前的众包测试平台绩效考核模型存在两个明显的问题:
(1)对于缺陷的评估大都需要评估专家手动评估,效率低下;
(2)大部分平台没有把测试人员发现缺陷的难易程度以及缺陷的优先级相结合进行综合评估。
本发明给出了一种基于缺陷报告重复性检测和优先级分类的众包测试考核模型。(1) 给出一种基于缺陷报告的“发现难度”和“优先程度”的绩效考核模型。软件缺陷的发现难度越大以及发现的缺陷优先级越高那么这个缺陷的质量就越高,相应的发现这个缺陷的工人就应该获得更多的酬劳。
(2)针对众包工人提交的缺陷报告如何评测其“发现难度”这一问题,本发明给 出通过检测缺陷报告的重复性来确定缺陷报告的难易度的方法。利用基于TF-IDF的空 间向量模型进行文本间的相似度计算,并通过设立合适的阈值判定缺陷的重复性。
(3)针对众包工人提交的缺陷报告如何评测其“优先程度”这一问题,本发明给 出了基于深度学习的缺陷报告优先级分类方法。利用词向量将文本数据向量化,然后 对模型进行训练评估,最后用训练好的模型对缺陷优先级进行分类,给出缺陷的优先 级。
发明内容
本发明的目的是针对现有技术的不足,提出一种自动化众包测试绩效考核方法,能够根据用户提交的缺陷报告的数量和质量来自动定量地计算所应获得奖金。
步骤一、从缺陷报告库中获取众包测试工人提交的缺陷报告,并从缺陷报告中提取对应缺陷信息,即缺陷简述、操作步骤、期望结果、实际结果等;
步骤二、对任意两个缺陷报告进行重复性检测,其中重复性检测对应评估缺陷的难易程度;
2-1、对任意两个缺陷报告进行文本预处理,提取特征词;
2-2、计算特征向量:
将在上述两个缺陷报告中采用TF-IDF算法计算所有特征词的TF-IDF值,构建权重向量空间;其中若某特征词在当前缺陷报告中不存在,则该特征词的TF-IDF值记为 0;
TF-IDF=TF*IDF (4)
其中TF(Term Frequency,简写TF,词频)指的是某特征词w在当前缺陷报告中 出现的频率,计算如公式(5)所示:
Figure BDA0002577272280000031
IDF(Inverse Document Frequency,简写IDF,逆文本频率指数)指的是将文档 总数除以包含某特征词w的文件数,然后再将获得的商进行取对数,计算如公式(6) 所示:
Figure BDA0002577272280000032
如果包含特征词w的文档越少,则IDF越大,那么说明词w具有良好的分类能力。
2-3、计算缺陷之间的相似度
采用余弦相似度算法计算两个缺陷报告的相似度,若超过阈值(设为0.75)则归为同一类,反之作为新分类。
其中假定a是n维向量,用[X1,X2,…,Xn]表示,b是n维向量,用[Y1,Y2,…,Yn]表 示,a与b的夹角为θ,余弦相似度的计算如公式(3)所示:
Figure BDA0002577272280000033
其中a和b分别表示步骤2-2两个缺陷报告向量化表示后所对应的向量;Xn表示向量a的第n个特征词TF-IDF值,Yn表示向量b的第n个特征词TF-IDF值。
2-5、缺陷Bi根据重复性检测所获得的缺陷积分
Figure BDA0002577272280000041
计算如下:
Figure BDA0002577272280000042
其中ni表示缺陷Bi重复的个数,即与缺陷Bi同一类的缺陷个数,也就是发现缺陷Bi的人数。
提交的缺陷如果重复的人越多,说明发现这个缺陷越容易,反之就越难。
步骤三、对每个缺陷报告进行优先级分类,其中优先级分类对应确定缺陷的优先级;
缺陷的优先级一般分为P1,P2,P3,P4,P4四级,其中P1>P2>P3>P4,即P1优 先级最高,P2次之,P4最低。为了避免工人标注缺陷优先级不准确的问题,一般在缺 陷提交后还要人工的方式来对缺陷的优先级进行标注。本发明采用采用CNN+Bi-LSTM 模型进行优选级分类,步骤一缺陷报告作为模型的输入,缺陷的优先级数值
Figure BDA0002577272280000043
作为输 出;
上述CNN+Bi-LSTM模型结构由由Embedding层、卷积层、Bi-LSTM层、Dense层构 成,激活函数选择softmax。
步骤四、计算每个工人所获得的奖金S的方法,见公式(5):
Figure BDA0002577272280000044
其中W为管理者设置的总奖金数,N表示缺陷报告的个数,
Figure BDA0002577272280000045
为某个工人所发现的所有缺陷报告的总积分占比;
缺陷Bi的积分CBi见公式(6):
Figure BDA0002577272280000046
其中
Figure BDA0002577272280000047
为缺陷Bi对应的优先级数,P为各类缺陷报告的优先级的数值之和。
本发明的另一个目的是提供一种自动化众包测试绩效考核装置,所述装置包括:
信息获取模块,用于从缺陷报告库中获取众包测试工人提交的缺陷报告信息;
重复性检测模块,用于从信息获取模块中获得缺陷报告,然后对任意两个缺陷报告进行文本预处理,通过分词得到特征词;计算所有特征词的TF-IDF值,并根据TF-IDF 值计算两个缺陷报告的相似度,判断是否为同一类缺陷报告;最终获得缺陷积分
Figure BDA0002577272280000048
优先级判断模块,用于将缺陷报告输入到CNN+Bi-LSTM模型,输出对应缺陷的优先级数值
Figure BDA0002577272280000051
计算模块,用于根据重复性检测模块获取的缺陷积分
Figure BDA0002577272280000052
优先级判断模块获取的优先级数值
Figure BDA0002577272280000053
计算得到每个工人应获得奖金。
本发明的有益效果:
当前的众包测试平台绩效考核方法大都比较单一,同时还需要测试专家手动评估、 审核缺陷。
1、本发明给出的方法从发现缺陷的数量、发现缺陷的难易程度,缺陷的优先级三个方面来综合衡量测试工人所提交缺陷的质量来进行绩效评价。
2、利用本发明给出的方法可以自动化完成绩效评价,节省人力和物力。
附图说明
图1为本发明绩效考核方法框架图;
图2为本发明BUG重复性检测流程图;
图3为本发明CNN+Bi-LSTM模型结构。
具体实施方式
下面结合附图对本发明做进一步地分析。
一、基于缺陷报告重复性检测和优先级分类的众包测试考核流程
考核模型整体流程如图1所示,从缺陷管理者搜集完成的缺陷报告库中对缺陷进行 重复性检测以及优先级分类,重复性检测对应评估缺陷的难易程度,优先级分类对应确定缺陷的优先级,从而根据缺陷的难易程度和优先级综合对测试工人所提交的缺陷报告进行评价,并给出对应的报酬。
二、一种自动化众包测试绩效考核方法,能够根据用户提交的缺陷报告的数量和质量来自动定量地计算所应获得奖金,具体包括如下:
步骤一、从缺陷报告库中获取众包测试工人提交的缺陷报告信息;
缺陷报告如下表1,一般包括缺陷报告编号,缺陷所属模块,缺陷提交人(测试人员,也即众包测试工人),缺陷的类型,缺陷的严重程度,缺陷的状态,测试平台,优 先级,简述,操作步骤,预期结果和实际结果等。
表1缺陷报告
Figure BDA0002577272280000061
步骤二、对任意两个缺陷报告进行重复性检测,其中重复性检测对应评估缺陷的难易程度,如图2;
2-1、对任意两个缺陷报告进行文本预处理,提取特征词;
英文文本具体预处理如下:
1)去除非文本部分;
2)去除停用词;
3)词干提取和词形还原;
4)大小写转换;
5)文本数字化;
中文文本具体预处理如下:
1)无效数据过滤;
2)文本分词;
3)去停用词;
4)文本数字化;
上述属于常规技术操作。
2-2、计算特征向量:
将在上述两个缺陷报告中采用TF-IDF算法计算所有特征词的TF-IDF值,构建权重向量空间;其中若某特征词在当前缺陷报告中不存在,则该特征词的TF-IDF值记为 0;
TF-IDF=TF*IDF (4)
其中TF(Term Frequency,简写TF,词频)指的是某特征词w在当前缺陷报告中 出现的频率,计算如公式(5)所示:
Figure BDA0002577272280000071
IDF(Inverse Document Frequency,简写IDF,逆文本频率指数)指的是将文档 总数除以包含某特征词w的文件数,然后再将获得的商进行取对数,计算如公式(6) 所示:
Figure BDA0002577272280000072
如果包含特征词w的文档越少,则IDF越大,那么说明词w具有良好的分类能力。
2-3、计算缺陷之间的相似度
采用余弦相似度算法计算两个缺陷报告的相似度,若超过阈值(设为0.75)则归为同一类,反之作为新分类。
其中假定a是n维向量,用[X1,X2,…,Xn]表示,b是n维向量,用[Y1,Y2,…,Yn]表 示,a与b的夹角为θ,余弦相似度的计算如公式(3)所示:
Figure BDA0002577272280000073
其中a和b分别表示步骤2-2两个缺陷报告向量化表示后所对应的向量;Xn表示向量a的第n个特征词TF-IDF值,Yn表示向量b的第n个特征词TF-IDF值。
举例:
以两个缺陷报告BUG1和BUG2为例:
BUG1=(Delete action in Editor Cause Leak)
BUG2=(Deleting the Editor will result in a memory Release)
在进行相应的文本预处理之后为:
BUG1=(delete act edit cause leak)
BUG2=(delete edit will result memory release)
通过文本预处理后,最终得到9个文本特征词,分别对两个缺陷的各个特征词进行TF-IDF值计算,各特征词TF-IDF值如表1所示:
表1基于TF-IDF的特征向量
Figure BDA0002577272280000074
利用余弦相似度算法计算基于TF-IDF的两个缺陷的相似度为:Sim(BUG1,BUG2)=0.825
2-5、缺陷Bi根据重复性检测所获得的缺陷积分
Figure BDA0002577272280000081
计算如下:
Figure BDA0002577272280000082
其中ni表示缺陷Bi重复的个数,即与缺陷Bi同一类的缺陷个数,也就是发现缺陷Bi的人数。
提交的缺陷如果重复的人越多,说明发现这个缺陷越容易,反之就越难。
步骤三、对每个缺陷报告进行优先级分类,其中优先级分类对应确定缺陷的优先级;
缺陷的优先级一般分为P1,P2,P3,P4,P4四级,其中P1>P2>P3>P4,即P1优先 级最高,P2次之,P4最低。为了避免工人标注缺陷优先级不准确的问题,一般在缺陷 提交后还要人工的方式来对缺陷的优先级进行标注。本发明采用采用CNN+Bi-LSTM模 型进行优选级分类,步骤一缺陷报告作为模型的输入,缺陷的优先级数值
Figure BDA0002577272280000083
作为输出; CNN+Bi-LSTM模型结构如图3所示。
上述CNN+Bi-LSTM模型结构由以下构成:
(1)Embedding层(即词嵌入层)
本层是基于word2vec的数据向量化表示,作为模型的第一层,它的作用是将文本序列中每一个词映射为具有固定长度的连续实向量。
(2)卷积层
该层由具有不同卷积内核大小的多个CNN组成。在词嵌入层后,利用一维卷积方法将文本数据以序列化数据的形式表示出来。卷积层的功能是从词嵌入层的输出中提 取特征向量。
在本节中,在卷积层的设计上设置了多个卷积层,卷积核的大小分别为2、3、4 和5。然后将每组特征向量输入到池化层中进行池化。池化层的作用是减少数据的维数 并选择局部最优特征。通常的方法是最大池化,因为最大池化可以提取最有效的特征 信息。从每个卷积核中提取的特征被串联起来,拼接后的序列被用作下一层的输入。
(3)Bi-LSTM层
该层的输入是上层CNN的输出向量。双LSTM层可以由两个方向相反的LSTM组合 而成。相反的两个LSTM分别称为前向LSTM和后向LSTM。
(4)Dense层
最终的dense层是完全连接的神经网络层。dense层用于生成更加高阶特征表示,从而更容易分离为我们要区分的不同类别。本层的输入为Bi-LSTM的输出向量,本层 采用的激活函数为softmax,因为常用的激活函数比如tanh和sigmoid函数的作用是 将输入映射到(0,1)区间,从而判断属于某个类别,它们一般适用于二分类问题。但 是本文是多分类问题,因此采用softmax作为激活函数。
步骤四、计算每个工人所获得的奖金S的方法,见公式(5):
Figure BDA0002577272280000091
其中W为管理者设置的总奖金数,N表示缺陷报告的个数,
Figure BDA0002577272280000092
为某个工人所发现的所有缺陷报告的总积分占比;
缺陷Bi的积分CBi见公式(6):
Figure BDA0002577272280000093
其中
Figure BDA0002577272280000094
为缺陷Bi对应的优先级数,P为各类缺陷报告的优先级的数值之和。
本发明的另一个目的是提供一种自动化众包测试绩效考核装置,所述装置包括:
信息获取模块,用于从缺陷报告库中获取众包测试工人提交的缺陷报告信息;
重复性检测模块,用于从信息获取模块中获得缺陷报告,然后对任意两个缺陷报告进行文本预处理,通过分词得到特征词;计算所有特征词的TF-IDF值,并根据TF-IDF 值计算两个缺陷报告的相似度,判断是否为同一类缺陷报告;最终获得缺陷积分
Figure BDA0002577272280000095
优先级判断模块,用于将缺陷报告输入到CNN+Bi-LSTM模型,输出对应缺陷的优先级数值
Figure BDA0002577272280000096
计算模块,用于根据重复性检测模块获取的缺陷积分
Figure BDA0002577272280000097
优先级判断模块获取的优先级数值
Figure BDA0002577272280000098
计算得到每个工人应获得奖金。
四、对比例
将当前市场上比较常见的几种众包测试平台绩效考核方法与本发明提出的方法进 行对比。
对比例1是Alltesting众测平台,Alltesting众测是一个努力为中小型企业提高质量以及专业化测试服务和线上测试工具的平台。Alltesting平台的绩效考核以及奖 励方式为:
首先,专家会对每个工人发现的BUG进行评优先级,优先级别从高到低分为四个级别,每一个级别的BUG都对应相应的金额,根据每个工人发现的BUG的优先级对应的奖 励计算出每个工人应得的奖金总额。
平台绩效考核方式对缺陷级别的不同有着不同的奖金,从低级到加急,级别越高,那么给出对应的奖励也就越高。很明显该平台将缺陷报告的优先级考虑进去,但是该平 台对于缺陷优先级别的审核却是需要软件管理者进行手动审核。
表2 Alltesting平台绩效考核方式
Figure BDA0002577272280000101
对比例2选取的是Testin众测平台,Testin云测创立于2011年,是一个应用服 务平台,为全世界开发人员以及企业提供测试,安全,推广,产品优化,以及大数据解 决方案。Testin平台的绩效考核以及奖励方式如下:
每次任务的收益不是固定的,而是依据每次任务的具体执行情况来计算。
依据每次任务专家对BUG的评级。也就是说取得的积分越高,专家评级越高,则收益越高。
首先项目评价分为以下四个级别,分别对应不同的收益倍数:
I4=0.25;I3=1;I2=1.2;I1=1.5测试实际收益总金额等于测试基础收益x对应评级的收益倍数。收益倍数是按照专家对Bug进行的评级来计算,专家会对每一个由测 试者提出的Bug进行评级,然后由系统自动算出测试者收益。
各绩效考核模型对比如表3所示:
表3各模型考核方式对比表
Figure BDA0002577272280000102
表3中,Alltesting平台绩效考核模型和Testin平台绩效考核模型都不能同时满足依据缺陷的数量,发现缺陷的难度和缺陷的优先级这三个条件,并且Alltesting和Testin同时满足的依据缺陷的优先级,其中对于优先级的评级方式是需要专家进行手 动评估的,虽然专家评估的准确性以及可靠性更大一些,但是对于大型软件的测试要求, 这项工作耗时又费力,大大地降低了平台进行绩效考核的效率。
表4众包测试工人发现的缺陷及缺陷数量
Figure BDA0002577272280000111
表4中为Alltesting平台五名测试工人在规定的时间之内对“广场歌舞小程序”进行功能性测试所提交的缺陷的数量,表中的1表示所在行的工人发现了对应列的缺陷, 0表示没有发现对应的缺陷。由于不同的众包测试平台对于优先级等级的划分也不尽相 同,因此本实验部分依据所选取平台的优先级划分将优先级划分为四个等级。依据此表, 我们对各模型的奖励制度进行测试。任务发布者设置任务总奖金为200元,B1,B2,B3, B4,B5的优先级分别为P1,P2,P3,P3,P4,其中我们将优先级比例设置为:P1:P2:P3: P4=5:4:3:2。
Alltesting:根据平台规则,优先级为P1的奖励为40元,P2为25元,P3为10元, P4为5元。则有测试工人t1的奖金为55元;测试工人t2的奖金为70元;测试工人t3的 奖金为80元;测试工人t4的奖金为80元;测试工人t5的奖金为40元。
Testin:根据平台规则,假设此任务在Tesin平台的基础收益为20,则有测试工 人t1的奖金为55元;测试工人t2的奖金59元;测试工人t3的奖金为79元;测试工 人t4的奖金为79元;测试工人t5的奖金为30元。
本发明方法计算:根据公式(6)计算每类缺陷的BUG积分得出:
Figure BDA0002577272280000112
Figure BDA0002577272280000113
根据公式(5)计算每个工人所获得的奖金,其中N为6,W为200。
Figure BDA0002577272280000121
Figure BDA0002577272280000122
Figure BDA0002577272280000123
计算得出各测试工人的奖励应为:测试工人t1的奖励为34.8元;测试工人t2的 奖金为32.8元;测试工人t3的奖金为68元;测试工人t4的奖金为50.4元;测试工 人t5的奖金为11.6元。
表5不同众测平台测试工人所获奖励
Figure BDA0002577272280000124
由表4我们可以看出,测试工人t1和t2,t3和t4所发现的缺陷数量一样,但是由于发现的缺陷的难易程度以及优先级不一样,所以所获得的奖励也是不一样的,对于t3和t4, 它们只有B3和B4不同,而B3和B4的优先级相同但是难易程度不同,很明显B4的难易程度比 B3要高,所以相较发现缺陷B3的测试工人t4,t3应该获得更高的奖励,这一点在本发明 给出的考核模型中得到了很好的体现。但是在Alltesting平台和Testin平台,测试工 人t3和t4所获得的奖励却是一样的,同时,在Alltesting平台和Testin平台,他们很难 设置奖金的上限,如果参与测试的测试工人很多以及发现的缺陷报告过多,很容易便 会超出设置的奖金上限,而参与的测试工人过少,奖金分配则会有多余,这不能充分 发挥奖金的激励作用。这使得软件工作管理者很难控制自己的预算。本发明给出的方 法中,可以很好的控制软件管理者设置的任务总奖金,不会超出软件管理者的预算, 并且还能依据测试工人发现的缺陷数量,发现缺陷的难易程度以及缺陷的优先级,自 动化地科学合理地对测试工人进行绩效考核。
上述实施例并非是对于本发明的限制,本发明并非仅限于上述实施例,只要符合本 发明要求,均属于本发明的保护范围。

Claims (6)

1.一种自动化众包测试绩效考核方法,其特征在于包括以下方法:
步骤一、从缺陷报告库中获取众包测试工人提交的缺陷报告信息;
步骤二、对任意两个缺陷报告进行重复性检测:
2-1、对任意两个缺陷报告进行文本预处理,提取特征词;
2-2、计算特征向量:
将在上述两个缺陷报告中采用TF-IDF算法计算所有特征词的TF-IDF值,构建权重向量空间;其中若某特征词在当前缺陷报告中不存在,则该特征词的TF-IDF值记为0;
TF-IDF=TF*IDF
其中TF指的是某特征词w在当前缺陷报告中出现的频率;IDF指的是某特征词w的逆文本频率指数;
2-3、采用余弦相似度算法计算两个缺陷报告的相似度,若超过阈值则归为同一类,反之作为新分类;
2-4、缺陷Bi根据重复性检测所获得缺陷积分
Figure FDA0002577272270000011
ni表示缺陷Bi重复的个数;
步骤三、采用CNN+Bi-LSTM模型对每个缺陷报告进行优先级分类,其中步骤一缺陷报告作为模型的输入,缺陷的优先级数值
Figure FDA0002577272270000012
作为输出;
步骤四、根据以下公式计算每个工人应获得奖金S:
Figure FDA0002577272270000013
其中W为总奖金数,N表示缺陷报告的个数,
Figure FDA0002577272270000014
为某个工人所发现的所有缺陷报告的总积分占比;
Figure FDA0002577272270000015
表示缺陷Bi的积分,
Figure FDA0002577272270000016
其中
Figure FDA0002577272270000017
为缺陷Bi对应的优先级数,P为各类缺陷报告的优先级的数值之和。
2.如权利要求1所述的一种自动化众包测试绩效考核方法,其特征在于步骤2-1英文文本具体预处理如下:
1)去除非文本部分;
2)去除停用词;
3)词干提取和词形还原;
4)大小写转换;
5)文本数字化;
中文文本具体预处理如下:
1)无效数据过滤;
2)文本分词;
3)去停用词;
4)文本数字化。
3.如权利要求1所述的一种自动化众包测试绩效考核方法,其特征在于步骤2-3具体是:a是n维向量,用[X1,X2,…,Xn]表示,b是n维向量,用[Y1,Y2,…,Yn]表示,向量a与b的夹角为θ,余弦相似度的计算如公式如(3)所示:
Figure FDA0002577272270000021
其中a和b分别表示步骤2-2两个缺陷报告向量化表示后所对应的向量;Xn表示向量a的第n个特征词TF-IDF值,Yn是向量b的第n个特征词TF-IDF值。
4.如权利要求1所述的一种自动化众包测试绩效考核方法,其特征在于步骤2-2具体是
Figure FDA0002577272270000022
Figure FDA0002577272270000023
5.如权利要求1所述的一种自动化众包测试绩效考核方法,其特征在于步骤三上述CNN+Bi-LSTM模型结构由Embedding层、卷积层、Bi-LSTM层、Dense层构成,激活函数选择softmax。
6.一种自动化众包测试绩效考核装置,其特征在于所述装置包括:
信息获取模块,用于从缺陷报告库中获取众包测试工人提交的缺陷报告信息;
重复性检测模块,用于从信息获取模块中获得缺陷报告,然后对任意两个缺陷报告进行文本预处理,通过分词得到特征词;计算所有特征词的TF-IDF值,并根据TF-IDF值计算两个缺陷报告的相似度,判断是否为同一类缺陷报告;最终获得缺陷积分
Figure FDA0002577272270000024
优先级判断模块,用于将缺陷报告输入到CNN+Bi-LSTM模型,输出对应缺陷的优先级数值
Figure FDA0002577272270000031
计算模块,用于根据重复性检测模块获取的缺陷积分
Figure FDA0002577272270000032
优先级判断模块获取的优先级数值
Figure FDA0002577272270000033
计算得到每个工人应获得奖金。
CN202010657504.6A 2020-07-09 2020-07-09 一种自动化众包测试绩效考核方法和装置 Pending CN111815167A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010657504.6A CN111815167A (zh) 2020-07-09 2020-07-09 一种自动化众包测试绩效考核方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010657504.6A CN111815167A (zh) 2020-07-09 2020-07-09 一种自动化众包测试绩效考核方法和装置

Publications (1)

Publication Number Publication Date
CN111815167A true CN111815167A (zh) 2020-10-23

Family

ID=72842197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010657504.6A Pending CN111815167A (zh) 2020-07-09 2020-07-09 一种自动化众包测试绩效考核方法和装置

Country Status (1)

Country Link
CN (1) CN111815167A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112416780A (zh) * 2020-11-25 2021-02-26 南京大学 一种众包测试报告的处理和分类方法
CN117011890A (zh) * 2023-07-10 2023-11-07 三峡科技有限责任公司 一种基于改进YOLOv7模型的施工人员防护用品检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100191731A1 (en) * 2009-01-23 2010-07-29 Vasile Rus Methods and systems for automatic clustering of defect reports
CN102637143A (zh) * 2012-03-07 2012-08-15 南京邮电大学 基于改进的支持向量机的软件缺陷优先级预测方法
CN109491914A (zh) * 2018-11-09 2019-03-19 大连海事大学 基于不平衡学习策略高影响缺陷报告预测方法
CN110928764A (zh) * 2019-10-10 2020-03-27 中国人民解放军陆军工程大学 移动应用众包测试报告自动化评估方法及计算机存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100191731A1 (en) * 2009-01-23 2010-07-29 Vasile Rus Methods and systems for automatic clustering of defect reports
CN102637143A (zh) * 2012-03-07 2012-08-15 南京邮电大学 基于改进的支持向量机的软件缺陷优先级预测方法
CN109491914A (zh) * 2018-11-09 2019-03-19 大连海事大学 基于不平衡学习策略高影响缺陷报告预测方法
CN110928764A (zh) * 2019-10-10 2020-03-27 中国人民解放军陆军工程大学 移动应用众包测试报告自动化评估方法及计算机存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘语婵等: "移动应用众包测试报告自动化评估算法设计", 《软件导刊》 *
章晓芳等: "众包软件测试技术研究进展", 《软件学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112416780A (zh) * 2020-11-25 2021-02-26 南京大学 一种众包测试报告的处理和分类方法
CN112416780B (zh) * 2020-11-25 2022-03-25 南京大学 一种众包测试报告的处理和分类方法
CN117011890A (zh) * 2023-07-10 2023-11-07 三峡科技有限责任公司 一种基于改进YOLOv7模型的施工人员防护用品检测方法

Similar Documents

Publication Publication Date Title
Sinaga et al. Implementation of Decision Support System for Determination of Employee Contract Extension Method Using SAW
US20180308160A1 (en) Risk assessment method and system
Hartson et al. Criteria for evaluating usability evaluation methods
Hartson et al. Criteria for evaluating usability evaluation methods
CN109086799A (zh) 一种基于改进卷积神经网络模型AlexNet的作物叶片病害识别方法
CN112700325A (zh) 一种基于Stacking集成学习的网贷回头客预测的方法
CN105354210A (zh) 移动游戏支付账户行为数据处理方法和装置
EP4075281A1 (en) Ann-based program test method and test system, and application
Chen et al. Application of random forest, rough set theory, decision tree and neural network to detect financial statement fraud–taking corporate governance into consideration
CN109214444B (zh) 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法
CN113919886A (zh) 基于夏普利值的数据特征组合定价方法、系统及电子设备
CN112598294A (zh) 在线建立评分卡模型的方法、装置、机器可读介质及设备
CN106485409A (zh) 一种工作量评估装置和方法
CN111815167A (zh) 一种自动化众包测试绩效考核方法和装置
CN112990443B (zh) 神经网络评价方法及装置、电子设备、存储介质
CN114519508A (zh) 基于时序深度学习和法律文书信息的信用风险评估方法
CN113077271A (zh) 一种基于bp神经网络的企业信用评级方法及装置
CN112508684B (zh) 一种基于联合卷积神经网络的催收风险评级方法及系统
CN112131354A (zh) 答案筛选方法、装置、终端设备和计算机可读存储介质
CN116578499A (zh) 公共组件功能变更影响的智能化分析测试方法及其系统
CN113220565B (zh) 一种众包测试报告的处理方法及装置
CN113177733B (zh) 基于卷积神经网络的中小微企业数据建模方法及系统
CN115098389A (zh) 一种基于依赖模型的rest接口测试用例生成方法
CN114862531A (zh) 一种基于深度学习的企业财务风险预警方法及系统
CN109886797A (zh) 一种信贷批量审批学习及优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination