CN111666207B

CN111666207B - 一种众包测试任务选择方法及电子装置

Info

Publication number: CN111666207B
Application number: CN202010418485.1A
Authority: CN
Inventors: 王俊杰; 王青; 胡军
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2021-06-15
Anticipated expiration: 2040-05-18
Also published as: CN111666207A

Abstract

本发明提供一种众包测试任务选择方法及电子装置，该方法包括：采集n个开放众包测试任务的任务需求描述与相应众测报告，计算各开放众包测试任务的各描述性术语向量；通过获取的一众测人员的活跃性信息、对第i开放众包测试任务的各描述性术语向量的偏好信息与专长信息，抽取任务选择特征并输入任务选择模型，预测该众测人员在各开放众包测试任务中的发现缺陷概率，1≤i≤n；基于各发现缺陷的概率，选择最优众包测试任务。本发明更好的表征众测平台上的任务信息和众测人员信息，通过对人员历史记录的挖掘和建模，为众测人员选择合适的任务，减少人员在选择和探索任务上的时间，提高人员发现缺陷的效率，提升他们在众测平台上的收益。

Description

一种众包测试任务选择方法及电子装置

技术领域

本发明属于计算机技术领域，尤其涉及一种众包测试任务选择方法及电子装置。

背景技术

众包软件测试(简称众测)是指在应用程序正式发布前，公司将其作为测试任务发布到互联网上的众测平台，平台上的众测人员执行测试，并提交报告。由于软件错误会导致用户流失和经济损失，为加快测试效率和提升软件质量，像谷歌、微软、阿里巴巴等著名互联网公司均已采用众测实践。

由于软件测试是一项专业性很强的活动，对于一个测试任务，不是每个人都能发现缺陷，没有发现缺陷的人将得不到报酬。在实践中，众测人员通常需要浏览一个很长的众测任务列表，来最终选择他们要参与的任务，这是非常耗时耗力的。举例来说，Applause众测平台有大约120个开放的众测任务可供选择，百度众测平台有大约40个开放任务供选择。由于缺乏个性化的决策支持，众测人员经常是随机选择或全凭个人喜好进行盲目选择，这会导致他们需要花费很多时间下载应用程序、阅读使用说明、探索相应的功能，然而难以检测到缺陷，也就是说花费大量时间却得不到报酬。

本发明提出众测任务选择方法，通过预测众测人员对于某个众测任务的缺陷发现概率，为众测人员选择合适的任务，降低他们在选择和探索任务上的时间，提高测试的成功率和在众测平台的收益。

发明内容

为解决上述问题，本发明提出一种众包测试任务选择方法及电子装置，为众测人员选择合适的众测任务，减少人员在选择和探索任务上的时间，提高人员发现缺陷的效率，提升他们在众测平台上的收益。

本发明的技术方案为：

一种众包测试任务选择方法，其步骤包括：

1)采集n个开放众包测试任务的任务需求描述与相应众测报告，计算各开放众包测试任务的各描述性术语向量；

2)通过获取的一众测人员的活跃性信息、对第i开放众包测试任务的各描述性术语向量的偏好信息与专长信息，抽取任务选择特征并输入任务选择模型，预测该众测人员在各开放众包测试任务中的发现缺陷概率，1≤i≤n；

3)基于各发现缺陷的概率，选择最优众包测试任务；

其中，通过以下步骤得到任务选择模型：

1)采集历史众测任务的需求描述及相应众测报告，计算各历史众包测试任务的各描述性术语向量；

2)通过获取的历史众测任务中各建模人员的活跃性信息、对各历史众包测试任务的各描述性术语向量的偏好信息与专长信息，抽取任务选择特征并进行机器学习模型训练，得到任务选择模型。

进一步地，通过以下步骤计算各开放众包测试任务的各描述性术语向量：

1)将各开放众测任务需求描述与相应众测报告进行分词、去停用词与同义词替换操作，得到若干初步描述性术语向量；

2)计算各初步描述性术语向量在各开放众测任务需求描述与相应众测报告中出现频率，并依据一设定值得到描述性术语库；

3)基于所述描述性术语库过滤初步描述性术语向量，得到各开放众包测试任务的各描述性术语向量。

进一步地，通过以下步骤获取对第i开放众包测试任务的各描述性术语向量的偏好信息：

1)根据该众测人员已提交众测报告总数量与包含一特定描述性术语向量的众测报告数量，计算该众测人员对所述特定描述性术语向量的偏好信息；

2)结合第i开放众包测试任务的各描述性术语向量，计算该众测人员对第i开放众包测试任务的各描述性术语向量的偏好信息。

进一步地，通过以下步骤获取对第i开放众包测试任务的各描述性术语向量的专长信息：

1)根据该众测人员已提交含有缺陷众测报告总数量与包含一特定描述性术语向量的含有缺陷众测报告数量，计算该众测人员对该特定描述性术语向量的专长信息；

2)结合第i开放众包测试任务的各描述性术语向量，计算该众测人员对第i开放众包测试任务的各描述性术语向量的专长信息。

进一步地，所述任务选择特征包括：一特定开放众包测试任务开始时间与采集时间的间隔、早于特定开放众包测试任务开始时间的其它开放众包测试任务数量、晚于特定开放众包测试任务开始时间的其它开放众包测试任务数量、特定开放众包测试任务在采集时间之前收到的众测报告数量、在采集时间之前，其它开放众包测试任务收到的众测报告数量多于特定开放众包测试任务收到的众测报告数量的其它开放众包测试任务数量、在采集时间之前，其它开放众包测试任务收到的众测报告数量少于特定开放众包测试任务收到的众测报告数量的其它开放众包测试任务数量、该众测人员在一或多时间段内提交的众测报告总数、该众测人员的偏好信息与特定开放众包测试任务之间的偏好余弦相似性、该众测人员的偏好信息与特定开放众包测试任务之间的偏好欧几里得相似性、该众测人员的偏好信息与特定开放众包测试任务之间的偏好曼哈顿相似性、该众测人员的偏好信息与特定开放众包测试任务之间的基于p个阈值抽取的p类偏好杰卡德相似性、偏好余弦相似性大于和小于该众测人员的偏好信息与其它开放众包测试任务之间的余弦相似性的其它开放众包测试任务数量、偏好欧几里得相似性大于和小于该众测人员的偏好信息与其它开放众包测试任务之间的欧几里得相似性的其它开放众包测试任务数量、偏好曼哈顿相似性大于和小于该众测人员的偏好信息与其它开放众包测试任务之间的曼哈顿相似性的其它开放众包测试任务数量、第q偏好杰卡德相似性大于和小于该众测人员的偏好信息与其它开放众包测试任务之间基于第q个阈值抽取的杰卡德相似性的其它开放众包测试任务数量、该众测人员的专长信息与特定开放众包测试任务之间的专长余弦相似性、该众测人员的专长信息与特定开放众包测试任务之间的基于p个阈值抽取的p类专长杰卡德相似性、专长余弦相似性大于和小于该众测人员的专长信息与其它开放众包测试任务之间的余弦相似性的其它开放众包测试任务数量、第q专长杰卡德相似性大于和小于该众测人员的专长信息与其它开放众包测试任务之间基于第q个阈值抽取的杰卡德相似性的其它开放众包测试任务数量，其中1≤q≤p。

进一步地，通过

计算该众测人员的偏好信息与特定开放众包测试任务之间的偏好余弦相似性，通过

计算该众测人员的偏好信息与特定开放众包测试任务之间的偏好欧几里得相似性，通过∑|x_i-y_i|计算该众测人员的偏好信息与特定开放众包测试任务之间的偏好曼哈顿相似性，通过

计算该众测人员的偏好信息与特定开放众包测试任务之间的p类偏好杰卡德相似性，其中x_i为一特定开放众包测试任务的描述性技术术语t_i的逆文档频率，y_i为该众测人员对于该描述性术语t_i的偏好信息，A为x_i大于给定阈值的描述性术语集合，B为y_i大于给定阈值的描述性术语集合。

进一步地，所述任务选择特征还包括在采集时间之前的一个或多个时间段内的历史任务选择特征；历史任务选择特征包括该众测人员历史偏好信息与特定开放众包测试任务之间的历史偏好余弦相似性、该众测人员历史偏好信息与特定开放众包测试任务之间的历史偏好欧几里得相似性、该众测人员历史偏好信息与特定开放众包测试任务之间的历史偏好曼哈顿相似性、该众测人员的历史偏好信息与特定开放众包测试任务之间的基于p个阈值抽取的p类历史偏好杰卡德相似性、历史偏好余弦相似性大于和小于该众测人员的历史偏好信息与其它开放众包测试任务之间的余弦相似性的其它开放众包测试任务数量、历史偏好欧几里得相似性大于和小于该众测人员的历史偏好信息与其它开放众包测试任务之间的欧几里得相似性的其它开放众包测试任务数量、历史偏好曼哈顿相似性大于和小于该众测人员的历史偏好信息与其它开放众包测试任务之间的曼哈顿相似性的其它开放众包测试任务数量、第q历史偏好杰卡德相似性大于和小于该众测人员的历史偏好信息与其它开放众包测试任务之间基于第q个阈值抽取的杰卡德相似性的其它开放众包测试任务数量、该众测人员的历史专长信息与特定开放众包测试任务之间的历史专长余弦相似性、该众测人员的历史专长信息与特定开放众包测试任务之间的基于p个阈值抽取的p类历史专长杰卡德相似性、历史专长余弦相似性大于和小于该众测人员的历史专长信息与其它开放众包测试任务之间的余弦相似性的其它开放众包测试任务数量、第q历史专长杰卡德相似性大于和小于该众测人员的历史专长信息与其它开放众包测试任务之间基于第q个阈值抽取的杰卡德相似性的其它开放众包测试任务数量。

进一步地，机器学习模型使用随机森林模型。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序执行上述方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述方法。

与现有技术相比，本发明能够更好的表征众测平台上的任务信息和众测人员信息，通过对人员历史记录的挖掘和建模，预测人员对于某个众测任务的缺陷发现概率，为众测人员选择合适的任务，减少人员在选择和探索任务上的时间，提高人员发现缺陷的效率，提升他们在众测平台上的收益。

附图说明

图1为众包测试任务选择方法框架图。

具体实施方式为使本发明的目的、原理、技术方案和优点更加清晰明白，以下将结合具体实施例，并参照附图对本发明做详细的说明。

本发明的一种众包测试任务选择方法及电子装置，包括模型训练阶段、任务选择阶段。在模型训练阶段，基于历史众测任务，建模人员活跃性、偏好、专长三个维度的属性，抽取任务特征、活跃情况、偏好匹配、专长匹配四个方面的118个特征，训练机器学习模型能够预测某人员在某任务中发现缺陷的概率；在任务选择阶段，同样基于人员属性抽取特征，输入训练好的机器学习模型，预测得到某人员相对于每个开放任务的缺陷发现概率，基于此概率进行任务选择。

本发明的方法流程如图1所示，其具体步骤为：

1)收集并预处理历史众测任务信息，包括以下几个子步骤：

1a)获取每个历史众测任务的开始时间和任务需求描述两个属性，获取众测任务中的每个众测报告的提交人、提交时间、是否为缺陷、自然语言描述四个属性；

1b)将所有众测报告和任务需求描述进行自然语言处理，并分别表示成每个众测报告和任务需求描述的描述性术语向量，包括以下几个子步骤：

将每个众测报告和任务需求描述均称为文档；

1b-1)将每个文档进行分词、去停用词、同义词替换操作，将其表示成一个术语向量；

1b-2)对于所有文档，计算每个术语的文档频率(每个术语在多少个众测报告中出现过)，过滤掉文档频率前m％(比如5％)的术语和文档频率后n％(比如5％)的术语，剩余的术语即为描述性术语库；过滤掉文档频率前5％的术语是因为它们出现在很多的文档中，几乎不具有区分性，过滤掉文档频率后5％的术语也同样因为这些术语几乎不能带来区分性信息；

1b-3)基于描述性术语库对每个文档的术语向量进行过滤，过滤掉没有出现在描述性术语库中的词语，得到每个文档的描述性术语向量；

2)从活跃性、偏好、专长三个维度进行众测人员建模，包括以下几个子步骤：

2a)用NumReports-X刻画众测人员的活跃性，表示某众测人员在过去X时间提交的报告总数，X可取值为2天、1周等；

2b)用ProbPref刻画众测人员偏好，表示某众测人员对于每个描述性术语的偏好，也就是该众测人员参加某个含有描述性术语t_j的任务的概率；形式化表示为

其中w为任一众测人员，w_k表示所有众测人员的遍历，tf_p(w,t_j)表示众测人员w过去提交的报告中描述性术语t_j出现的次数，基于人员过去提交报告的描述性术语向量得到，df_p(w)表示众测人员w总共提交的众测报告的数目；

2c)用ProbExp刻画众测人员专长，表示为某众测人员对于每个描述性术语的专长；形式化表示为

其中w为任一众测人员，w_k表示所有的众测人员的遍历，tf_e(w,t_j)表示众测人员w过去发现的缺陷中描述性术语t_j出现的次数，基于人员过去提交的含有缺陷的报告的描述性术语向量得到，df_e(w)表示众测人员w总共发现的缺陷数目；ProbPref和ProfExp的区别在于：前者是基于众测人员提交的报告进行度量的，而后者是基于众测人员发现的缺陷进行度量的；之所以将人员偏好和专长按照每个描述性术语进行刻画是因为这样能够更好的对于任务需求进行精确匹配；

3)抽取特征，建立并训练机器学习模型，能够预测某个人员在某个任务中发现缺陷的概率；包括以下几个子步骤：

3a)任选若干个历史时间点，对于每个时间点recTime，获取该时刻所有开放任务，同时根据步骤2，抽取人员在该时刻的活跃性、偏好和专长，对于该时刻任意一个候选开放任务t，抽取人员w的如下118个特征：

其中，编号1-6的特征可以直接从第1步收集的数据属性中得到；编号7到10的特征可以通过第2步的人员活跃性属性得到；对于特征11-73，假设t_i为该众测任务需求的任一描述性术语，idf(ti)(记为x_i)表示众测任务中描述性技术术语t_i的逆文档频率，ProbPref(w,t_i)(记为y_i)表示众测人员w对于描述性术语t_i的偏好，特征11余弦相似性通过

计算得到，特征12欧几里得相似性通过

计算得到，特征13曼哈顿相似性通过∑|x_i-y_i|计算得到，特征14-17四类杰卡德相似性通过

计算得到，其中A为x_i大于给定阈值的描述性术语集合，B为y_i大于给定阈值的描述性术语集合，阈值分别设定为0.0，0.1，0.2，0.3，0.4即代表四类杰卡德相似性；特征18-31根据人员w和其他开放任务的相似性得到；上述特征是基于人员的全部历史活动计算得到的人员偏好，只考虑人员过去三个月的历史活动，基于步骤2b计算得到人员偏好，采用此人员偏好，得到特征32-52；同样的，只考虑人员过去六个月的历史活动计算得到人员偏好，采用此人员偏好，得到特征53-73；将y_i表示为人员专长ProbExp(w,t_i)，用相同的方式得到特征74-118；

3b)如果人员w在recTime之后，在候选任务t中发现了缺陷，则该组特征的因变量记为1，否则记为0；

3c)基于抽取得到的特征和因变量，用随机森林算法建立并训练关于人员缺陷发现概率的机器学习模型；

4)获取当前时刻(curTime)所有开放的任务(也就是可供选择的任务)的信息；包括以下几个子步骤：

4a)获取每个开放众测任务的开始时间和需求描述两个属性，获取众测任务中的每个收到的众测报告的提交人、提交时间、自然语言描述三个属性；

5)按照步骤2，对于任一众测人员nw，从活跃性、偏好、专长三个维度进行人员建模；

6)基于当前任务信息和人员建模，为人员nw选择一组任务；包括以下子步骤：

6a)对于开放任务中的某个候选任务nt，按照步骤3a，抽取人员nw的118个特征；

6b)将特征输入步骤3c训练好的机器学习模型，预测得到人员nw在候选任务nt中发现缺陷的概率；

6c)依次取其他开放任务为候选任务，按照步骤6a、6b预测缺陷发现概率；

6b)将所有缺陷发现概率大于0.5的候选任务作为人员nw的选择任务，并按照概率进行排序，将此任务序列反馈给人员nw；

下面通过实验对本方法作进一步说明；

本发明基于某众测平台在2017年5月1日-2017年11月1日期间(共185天)进行的636个移动应用众测任务、共涉及2404个众测人员进行了效果验证。取前150天的数据做训练集，后35天数据做测试集。

采用准确率、召回率指标评价选择方法的性能。准确率为正确选择的任务占所有选择任务的百分比；召回率为正确选择的任务占所有应该选择任务的百分比。

比较两个基线方法：随机方法，首先计算在训练集中平均每个用户能够成功在多大比率的任务中发现缺陷，然后随机选择等比率的任务；兴趣驱动方法，获取每个用户历史发现缺陷的任务列表并获取这些任务对应的应用程序的领域(例如音乐、运动)，将其作为用户的领域经验，从开放的任务中选择该人员具有相应领域经验的任务。

实验结果如下表所示。结果表明，本发明平均准确率为82％，平均召回率为84％，均远远高于基线方法，且具有较小的方差。

尽管为说明目的公开了本发明的具体内容、实施算法以及附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种众包测试任务选择方法，其步骤包括：

2)通过获取的一众测人员的活跃性信息、对第i开放众包测试任务的各描述性术语向量的偏好信息与专长信息，抽取任务选择特征并输入任务选择模型，预测该众测人员在各开放众包测试任务中的发现缺陷概率，其中，1≤i≤n，所述任务选择特征包括：一特定开放众包测试任务开始时间与采集时间的间隔、早于特定开放众包测试任务开始时间的其它开放众包测试任务数量、晚于特定开放众包测试任务开始时间的其它开放众包测试任务数量、特定开放众包测试任务在采集时间之前收到的众测报告数量、在采集时间之前，其它开放众包测试任务收到的众测报告数量多于特定开放众包测试任务收到的众测报告数量的其它开放众包测试任务数量、在采集时间之前，其它开放众包测试任务收到的众测报告数量少于特定开放众包测试任务收到的众测报告数量的其它开放众包测试任务数量、该众测人员在一或多时间段内提交的众测报告总数、该众测人员的偏好信息与特定开放众包测试任务之间的偏好余弦相似性、该众测人员的偏好信息与特定开放众包测试任务之间的偏好欧几里得相似性、该众测人员的偏好信息与特定开放众包测试任务之间的偏好曼哈顿相似性、该众测人员的偏好信息与特定开放众包测试任务之间的基于p个阈值抽取的p类偏好杰卡德相似性、偏好余弦相似性大于和小于该众测人员的偏好信息与其它开放众包测试任务之间的余弦相似性的其它开放众包测试任务数量、偏好欧几里得相似性大于和小于该众测人员的偏好信息与其它开放众包测试任务之间的欧几里得相似性的其它开放众包测试任务数量、偏好曼哈顿相似性大于和小于该众测人员的偏好信息与其它开放众包测试任务之间的曼哈顿相似性的其它开放众包测试任务数量、第q偏好杰卡德相似性大于和小于该众测人员的偏好信息与其它开放众包测试任务之间基于第q类阈值抽取的杰卡德相似性的其它开放众包测试任务数量、该众测人员的专长信息与特定开放众包测试任务之间的专长余弦相似性、该众测人员的专长信息与特定开放众包测试任务之间的基于p个阈值抽取的p类专长杰卡德相似性、专长余弦相似性大于和小于该众测人员的专长信息与其它开放众包测试任务之间的余弦相似性的其它开放众包测试任务数量、第q专长杰卡德相似性大于和小于该众测人员的专长信息与其它开放众包测试任务之间基于第q类阈值抽取的杰卡德相似性的其它开放众包测试任务数量，其中1≤q≤p；

3)基于各发现缺陷的概率，选择最优众包测试任务；

其中，通过以下步骤得到任务选择模型：

2.如权利要求1所述的方法，其特征在于，通过以下步骤计算各开放众包测试任务的各描述性术语向量：

3.如权利要求1所述的方法，其特征在于，通过以下步骤获取对第i开放众包测试任务的各描述性术语向量的偏好信息：

4.如权利要求1所述的方法，其特征在于，通过以下步骤获取对第i开放众包测试任务的各描述性术语向量的专长信息：

5.如权利要求1所述的方法，其特征在于，通过

6.如权利要求1所述的方法，其特征在于，所述任务选择特征还包括在采集时间之前的一个或多个时间段内的历史任务选择特征；历史任务选择特征包括该众测人员历史偏好信息与特定开放众包测试任务之间的历史偏好余弦相似性、该众测人员历史偏好信息与特定开放众包测试任务之间的历史偏好欧几里得相似性、该众测人员历史偏好信息与特定开放众包测试任务之间的历史偏好曼哈顿相似性、该众测人员的历史偏好信息与特定开放众包测试任务之间的基于p个阈值抽取的p类历史偏好杰卡德相似性、历史偏好余弦相似性大于和小于该众测人员的历史偏好信息与其它开放众包测试任务之间的余弦相似性的其它开放众包测试任务数量、历史偏好欧几里得相似性大于和小于该众测人员的历史偏好信息与其它开放众包测试任务之间的欧几里得相似性的其它开放众包测试任务数量、历史偏好曼哈顿相似性大于和小于该众测人员的历史偏好信息与其它开放众包测试任务之间的曼哈顿相似性的其它开放众包测试任务数量、第q历史偏好杰卡德相似性大于和小于该众测人员的历史偏好信息与其它开放众包测试任务之间基于第q个阈值抽取的杰卡德相似性的其它开放众包测试任务数量、该众测人员的历史专长信息与特定开放众包测试任务之间的历史专长余弦相似性、该众测人员的历史专长信息与特定开放众包测试任务之间的基于p个阈值抽取的p类历史专长杰卡德相似性、历史专长余弦相似性大于和小于该众测人员的历史专长信息与其它开放众包测试任务之间的余弦相似性的其它开放众包测试任务数量、第q历史专长杰卡德相似性大于和小于该众测人员的历史专长信息与其它开放众包测试任务之间基于第q个阈值抽取的杰卡德相似性的其它开放众包测试任务数量。

7.如权利要求1所述的方法，其特征在于，机器学习模型使用随机森林模型。

8.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-7中任一所述方法。

9.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-7中任一所述方法。