CN114880215B

CN114880215B - 一种面向众包系统的测试用例自动生成的方法

Info

Publication number: CN114880215B
Application number: CN202210439690.5A
Authority: CN
Inventors: 沈超杰; 丁鑫怡; 韩焘; 古华茂; 方毅立
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2024-08-20
Anticipated expiration: 2042-04-25
Also published as: CN114880215A

Abstract

本发明公开了一种面向众包系统的测试用例自动生成的方法。本发明以项目反应理论IRT作为基本模型，首先，针对真实的小数据集，利用机器学习的方法，通过联合极大似然函数估计工人的能力和任务的难度，获取工人的能力和任务的难度分布。其次，将估计得到的参数带入IRT中，计算答对的概率，并结合真实标签进行注释，自动生成面向众包系统的测试用例。本发明解决了由于成本受限导致的一系列问题，如平台获得的数据集不完整，众包系统的测试用例不均衡等问题。该方法基于项目反应理论，使用机器学习，为评估众包系统自动生成大量的测试用例。

Description

一种面向众包系统的测试用例自动生成的方法

技术领域

本发明涉及一种面向众包系统的测试用例自动生成的方法。

背景技术

众包已成功运用于各个领域中，并处理了很多计算机难以解决的问题。众包得到了快速的发展，其中控制获取数据集的成本和数据集的质量是关键。一般来说，众包数据集的获取过程主要包括发布任务，工人响应和回收数据这三个步骤。但是在众包平台发布任务时，由于测试成本受限，回收的数据集难以全面覆盖各种状况。把不全面的数据集作为评估众包系统的测试用例，会导致其结果不稳定。

目前，众包系统的测试用例主要来源于平台收集的数据集。但由于收集困难，成本高，收集得到一个完整的，覆盖全面的数据集比较困难。因此如何利用自动生成的方式来生成测试用例成为了一个核心问题。近年来，产生了一些面向众包系统的测试用例自动生成的研究，例如，通过统计学的方式产生众包数据集来进行实验，但生成的方法过于简单，没有考虑到工人能力与任务难度对生成标签的影响，导致生成的测试用例质量不高。

本发明是在项目反应理论(IRT)的基础上，结合机器学习的方法，来生成众包测试用例。项目响应理论，由Lord在1951年提出。IRT包含一个能力参数和一个困难参数，均遵循某种分布(比如正态分布)。基于能力和难度的函数通过sigmoid函数得到最后的概率估计。本发明使用机器学习中联合极大似然的方法来估计这两个参数，并结合IRT和真实标签来生成众包测试用例。

发明内容

针对目前众包领域中，由于成本受限，通过平台获取的数据集不完整，主要表现为数据分布不均衡等问题，本发明提供了一种面向众包系统的测试用例自动生成的方法，自动生成大量分布均衡测试用例来测试众包系统。

本发明的目的是通过以下技术方案实现的：

一种面向众包系统的测试用例自动生成的方法包含以下步骤：

(1)以收集得到的小规模真实数据集为我们的初始数据集；

(2)将真实样本的标签与真实标签对比得到得分矩阵；

(3)将得分矩阵带入项目反应理论IRT中，得到工人的能力和任务的难度，并计算能力分布和难度分布；

(4)从能力分布和难度分布中采样，得到一个新的能力和一个新的难度，并带入项目反应理论IRT，计算得到答对的概率；

(5)将答对的概率和真实标签结合，来模拟工人对任务进行标注，自动生成众包测试用例。

本发明的有益技术效果：本发明首先通过真实数据，使用机器学习中的联合极大似然函数来估计模型的参数即工人能力和任务难度，得到对应的分布α和β，然后从分布中采样仿真工人和任务，并带入模型，得到概率，最后结合真实标签来自动生成大量分布均衡的众包系统测试用例。本发明解决了由于成本受限导致的一系列问题，如平台获得的数据集不完整，测试用例不均衡等问题。

附图说明

图1为本发明面向众包系统的测试用例自动生成的方法框架图。

具体实施方式

本实施例包含以下步骤：

(1)以收集得到的小规模真实数据集为我们的初始数据集；

(2)将真实样本的标签与真实标签对比得到得分矩阵；

在一些实施例中，步骤(2)中包含以下步骤：

(2-1)真实样本中工人j对任务i的标注L_ij与真实标签z_i比较；

(2-2)因此根据以下式子可以由y_ij组成一个得分矩阵Y。

本发明没有将整个数据集和真实标签直接带入到模型中，因为会对训练模型造成一定困难。由于知道真实样本中工人对任务的标注，并且任务的真实标签是已知的，为了更好的统计工人回答任务的正确情况，本发明引入了一个得分矩阵，该矩阵可以清楚的知道某个工人对某个任务的标注是否准确，并为训练模型的参数做铺垫。

在一些实施例中，步骤(3)中包含以下步骤：

(3-1)将项目反应理论IRT表示为：

其中p_ij表示答对的概率，θ_j表示工人j的能力，b_i表示任务的难度；

完整的IRT是可以带有多个参数，比如项目的猜测系数、项目的区分度系数等。但是由于应用场景的限制，并且为了让模型更易实现，本发明结合众包领域的特点，只考虑了两个参数，即任务的难度b和工人的能力θ。

(3-2)将得分矩阵Y带入到IRT中，建立能力θ和难度b的联合极大似然函数：

其中I表示工人总数，J表示任务的总数。

对模型的参数估计的方法有许多，比如极大似然估计，EM算法，贝叶斯算法，MCMC算法等。联合极大似然是一种本文采用的是联合极大似然来估计IRT中工人能力θ_j和任务难度b_i。极大似然估计，是一种概率论在统计学的应用，它是参数估计的方法之一。已知某个参数能使这个样本出现的概率最大，所以直接就把这个参数作为估计的真实值。联合极大似然函数估计是针对多元函数极值的方法，可以通过梯度上升或者梯度下降的方法简单方便的估计参数。

(3-3)取上述函数的对数：

对极大似然函数取对数的原因有很多，首先可以减少计算量，其次由于概率的取值范围是[0,1],如果连乘的话会导致一个特别小的值，会对之后的计算产生巨大的影响。除此之外，如果对函数进行了取对数的操作，并不会对函数的单调性造成影响，可以对似然函数通过梯度上升或者下降求参数。

(3-4)对θ求偏导化简，带入p_ii：

(3-5)对b求偏导化简，带入p_ij：

(3-5)通过带入参数，计算似然函数，一直不断迭代得到最终的工人的能力θ_j和任务的难度b_i。

通过不断的迭代，可以计算得到每个工人的能力和每个任务的难度，这是从真实数据中得到的重要信息，是后续自动生成标注的基础。

在一些实施例中，(3-6)计算能力分布和任务的难度分布。

本发明假设能力分布和难度分布服从正太分布，根据正太分布来拟合得到的任务难度和工人能力，并最终得到任务难度分布的参数和工人能力分布的参数。具体是：

(a)假定工人能力和任务难度都服从正态分布；

(b)利用MLE公式得到均值和标准差：

根据MLE公式可以很快的计算出工人能力和任务难度分布的均值和方差，并且能够较为准确的拟合真实数据的能力分布情况和任务难度的分布情况。

(c)最终得到工人能力和任务难度的分布，工人的能力分布α服从正太分布，任务的难度分布β服从正太分布。

在一些实施例中，步骤(4)中包括以下步骤：

(4-1)从能力分布α中采样得到一个新的工人；

这一步骤针对的当数据集中工人较少时，通过从工人能力分布α中采样，得到一个能力值并赋给新的工人，通过这个通过来仿真生成一个全新的工人。

(4-2)从难度分布β中采样得到一个新的任务，并赋予其一个真实标签；

这一步骤针对的是当数据集中任务较少时，通过从任务难度分布β中采样，得到一个任务的难度并赋给一个新的任务，除此之外还要随机生成一个标签当做这个任务的真实标签，最终生成一个真实数据中不存在全新的一个任务。

(4-3)将新的工人能力和新的任务难度带入到IRT中，得到答对的概率p；

将这个新工人跟的能力和新任务的难度带入到模型中，就能够计算出该工人能答对该任务的概率。

在一些实施例中，步骤(5)中包括以下步骤：

(5-1)将答对的概率p与真实标签结合，以p的概率生成真实标签，来生成新工人对新任务的响应。

(5-2)模拟工人对任务进行标注，自动生成众包测试用例。

本发明只需要真实数据集的部分样本，使用真实数据和联合极大似然函数来估计IRT的参数，即工人的能力和任务的难度。根据公式得到工人的能力分布和任务的难度分布，然后从分布中采样得到新的工人的新的任务，并带入IRT得到工人回答真实标签的概率，再结合真实标签生成一个新的标签，得到新的测试用例。这些生成的数据集能够应用于众包领域的某些实验，因此，对于这种提出面向众包系统的测试用例自动生成的方法具有十分重要的意义。

Claims

1.一种面向众包系统的测试用例自动生成方法，其特征在于，包含以下步骤：

(1)以收集得到的小规模真实数据集为我们的初始数据集；

(2)将真实样本的标签与真实标签对比得到得分矩阵；

2.根据权利要求1所述的面向众包系统的测试用例自动生成方法，其特征在于，步骤(2)中包含以下步骤：

(2-1)比较真实样本中工人j对任务i的标注L_ij与真实标签z_i；

(2-2)形成得分矩阵Y，其中得分矩阵中的元素y_ij计算如下：

3.根据权利要求1所述的面向众包系统的测试用例自动生成的方法，其特征在于，步骤(3)中包含以下步骤：

(3-1)将项目反应理论IRT表示为：

其中p_ij表示答对的概率，θ_j表示工人j的能力，b_i表示任务i的难度；

(3-2)将得分矩阵Y带入到项目反应理论IRT中，建立能力θ和难度b的联合极大似然函数：

其中I表示工人总数，J表示任务的总数；

(3-3)取上述函数的对数：

(3-4)对θ求偏导化简，带入p_ij：

(3-5)对b求偏导化简，带入p_ij：

(3-5)通过带入参数，计算似然函数，一直不断迭代得到最终的工人的能力θ_j和任务的难度b_i；

(3-6)计算能力分布和任务的难度分布。

4.根据权利要求3所述的面向众包系统的测试用例自动生成的方法，其特征在于，步骤(3-6)中包括以下步骤：

(a)假定工人能力和任务难度都服从正态分布；

(b)利用MLE公式得到均值和标准差：

5.根据权利要求1所述的面向众包系统的测试用例自动生成的方法，其特征在于，步骤(4)中包括以下步骤：

(4-1)从能力分布α中采样得到一个新的工人；

(4-3)将新的工人能力和新的任务难度带入到项目反应理论IRT中，得到答对的概率p。

6.根据权利要求1所述的面向众包系统的测试用例自动生成的方法，其特征在于，步骤(5)中包括以下步骤：

(5-1)将答对的概率p与真实标签结合，以p的概率生成真实标签，来生成新工人对新任务的响应；

(5-2)模拟工人对任务进行标注，自动生成众包测试用例。