CN112416780A

CN112416780A - 一种众包测试报告的处理和分类方法

Info

Publication number: CN112416780A
Application number: CN202011336106.0A
Authority: CN
Inventors: 张雷; 蒋先杰; 金斌; 张�杰; 资帅; 刘峰; 王崇骏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-02-26
Anticipated expiration: 2040-11-25
Also published as: CN112416780B

Abstract

本发明公开了一种众包测试报告的处理和分类方法，在众包平台下发布软件测试任务，待工人测试完成后收集报告；从获得的数据中提取出Word Embedding、TF‑IDF和Metadata三个维度的特征；使用双向长短时记忆网络获得各个特征的全局编码表示，再根据特征的全局编码表示得到各个特征的注意力权重，并通过注意力权重调整全局编码；分类阶段，根据分类器得到相应的分类结果。本发明解决了没有考虑词序的问题，同事提高了分类的精度。

Description

一种众包测试报告的处理和分类方法

技术领域

本发明属于软件工程中程序分析与验证技术领域，尤其是并发软件的分析与验证领域。

背景技术

随着移动设备的快速发展，主流市场上的移动应用变得越来越强大和复杂。虽然用户希望移动应用程序是可靠和安全的，但其不断增加的复杂性也使他们出现bug的可能性不断加大。为了确保移动应用程序使用过程中的质量，软件测试变得越来越重要。然而，由于移动设备的特殊性，如网络不可靠、屏幕尺寸差异大、操作系统多样，移动应用程序的测试具有一定的挑战性。

如今，许多公司或组织倾向于采用众包的方式来对移动应用程序进行测试，方法是招募一大批分布在各地的在线人员。与传统测试相比，众包测试涉及到不同的平台、语言和用户。开发人员可以获得真实的反馈信息、功能需求和用户体验；它还可以同时招募大量的工人来进行测试，从而实现高并行化，显著提高测试效率；此外，众包测试能够提供各种各样的测试环境，包括移动设备、网络环境、操作系统等，有效地保证了高软硬件覆盖率，大大降低了测试成本。

在众包测试中，工作人员执行测试任务，并通过观察的现象编写测试报告，以帮助开发人员揭示软件中存在的bug。一个典型的测试报告由四个字段组成，包括环境、输入、描述和屏幕截图。总的来说，测试报告在内容上类似于bug报告。但是，与bug报告相比，测试报告有其自身的特点。测试报告不仅涉及bug，还涉及用户体验和终端用户的功能需求。对于开发人员来说，从中筛选和处理出有用的信息变得非常困难。

为了解决这个问题，已有分类方法根据其包含的信息类型把它们划分为四种基本类型，分别为bug报告、特征请求、用户体验和评分；并使用了词袋模型、情感分数等特征进行分类，最后也取得了不错的结果。但是，上述方法使用的词袋模型完全忽略了词序和语法，而且每个特征对于分类的重要性并不是完全一致的，往往有的特征可以主导分类的过程，有的特征只是对分类进行一定程度的补充和修正。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种众包测试报告的处理和分类方法，对测试报告进行相应的数据处理，提取出三种不同的特征，利用注意力机制进一步提升特征的利用率，提升分类的精度。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种众包测试报告的处理和分类方法，包括如下步骤：

S10数据采集，在众包平台下发布并分配测试任务，待工人测试完成后收集测试报告完成数据采集。

S20特征提取，从数据中提取出三种特征，分别是Word Embedding特征、TF-IDF特征和Metadata特征。

S30全局编码，将Word Embedding特征、TF-IDF特征和Metadata特征三种特征视为一个整体，合并为一个向量[x,y,z]，输入到双向长短时记忆网络获得各个特征的全局编码表示[h₁,h₂,h₃]。根据各个特征的全局编码计算注意力权重[w₁,w₂,w₃]，并通过注意力权重[w₁,w₂,w₃]调整全局编码[h₁w₁,h₂w₂,h₃w₃]。

S31矩阵[x,y,z]先输入到正向的LSTM网络中，编码信息从左到右传递，每个LSTM单元对编码信息进行取舍和更新，并传入下一个LSTM网络，最终得出正向LSTM网络的全局编码[x_t,y_t,z_t]。

S32矩阵[x,y,z]先输入到反向的LSTM网络中，编码信息从右到左传递，每个LSTM单元对编码信息进行取舍和更新，并传入下一个LSTM，最终得出Bi-LSTM网络的全局编码[h₁,h₂,h₃]。

S33计算全局编码的转置，并调整为原先的维度大小，通过公式计算tanh值，然后计算出tanh值的特征向量，最后经过一个softmax层得到注意力权重矩阵[w₁,w₂,w₃]。

S34通过注意力权重矩阵[w₁,w₂,w₃]调整全局编码，得到[h₁w₁,h₂w₂,h₃w₃]。

S40分类，使用经过注意力权重矩阵调整后的全局编码输入分类器分类，最终判断该评论属于bug报告、特征请求、用户体验和评分中的哪一类。

优选的：所述步骤S20从数据中提取出三种特征如下：

S21针对Word Embedding特征，先从数据中把评论内容提取出来，并对评论内容去除停用词，然后使用bert预训练模型对去除停用词的数据进行预训练，最终得到WordEmbedding特征。

S22针对TF-IDF特征，先统计各个词在总体样本中出现的次数，用出现的次数除以总次数得到词频TF，再通过逆文本频率IDF算出逆文本频率，最后把两者相乘得到TF-IDF特征。

S23针对Metadata特征，把评论的时态分为过去时、未来时、一般现在时和一般完成时，把评论中出现的相应时态次数统计起来并入Metadata特征。然后把评论的情感分为积极和消极，针对情感进行打分，把情感打分并入Metadata特征。最后把评分和句子长度数据并入Metadata特征。

优选的：步骤S22中逆文本频率计算公式如下：

其中，IDF(x)是逆文本频率，N是总的文件数，N(x)表示包含词x的文件数。

优选的：步骤S23中针对情感进行打分时，最低消极情绪为-5分，最高积极情绪为5分。

本发明相比现有技术，具有以下有益效果：

本发明针对已有方法只是使用bag of words模型，没有考虑词序和语法的问题，本方法使用了bert模型。Bert模型的训练任务之一是双向预测mask，这个任务能够保证句子无论是在正向还是反向预测中都可以得到一个较高的正确率，一定程度上解决了BOW的词序问题。而TF-IDF特征则表示一个词在句子中的重要程度。如果一个词在某个类别中十分特别，一旦出现了这个词那么该评论大概率属于某个特定类别，在这种情况下，TF-IDF特征的作用就体现出来了。Metadata特征中的时态数据则进一步补充了Word Embedding中的语法信息，并且bert模型也无法直接得出句子的情感信息，评论中不同的情感对分类过程也有影响，例如，bug报告可能包含负面情绪，而用户体验则可能包含更多的正面情绪。

如果只是直接使用三种特征直接进行编码，则忽略了不同特征在分类类别中起到的重要程度不同的问题，因此本方法计算了全局编码的注意力权重矩阵，使用注意力权重来重新调整特征，进一步提高了分类的精度。

附图说明

图1为本发明的方法整体流程图。

图2为本发明进行特征提取过程的流程图。

图3为本发明进行全局编码的流程图。。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种众包测试报告的处理和分类方法，如图1所示，包括如下步骤：

S10数据采集，在众包平台下发布并分配测试任务，待工人测试完成后收集测试报告。

S20特征提取，如图2所示，通过相应的方法分别从数据中提取出三种特征，分别是Word Embedding、TF-IDF和Metadata。这三种特征以向量的形式表示。

S21针对word embedding特征，我们先从数据中把评论内容提取出来，并对评论内容去除停用词，然后使用谷歌公司提出并训练的bert预训练模型对去除停用词的数据进行预训练，最终得到word embedding特征。

S22针对TF-IDF特征，我们先统计各个词在总体样本中出现的次数N(x)，用出现的次数除以总次数N得到词频(TF)，再通过逆文本频率IDF的公式

算出逆文本频率，最后把两者相乘得到TF-IDF特征。

S23针对Metadata特征，我们把评论的时态分为过去时、未来时、一般现在时和一般完成时，把评论中出现的相应时态次数统计起来并入Metadata特征。然后把评论的情感分为积极和消极，针对情感进行打分(最低消极情绪为-5分，最高积极情绪为5分)，把情感打分并入Metadata特征。最后把评分和句子长度数据并入Metadata特征。

S30全局编码，如图3所示，将三种特征合并为一个矩阵[x,y,z]，使用双向长短时记忆网络获得各个特征的全局编码表示[h₁,h₂,h₃]。根据特征的全局编码计算注意力权重[w₁,w₂,w₃]，并通过注意力权重向量调整全局编码[h₁w₁,h₂w₂,h₃w₃]。

S31矩阵[x,y,z]先输入到正向的LSTM网络中，编码信息从左到右传递，每个LSTM单元对之前的编码信息进行取舍和更新，并传入下一个LSTM，最终得出正向LSTM网络的全局编码[x_t,y_t,z_t]。

S32矩阵[x_t,y_t,z_t]先输入到反向的LSTM网络中，编码信息从右到左传递，与步骤S31相同，每个LSTM单元对之前的编码信息进行取舍和更新，并传入下一个LSTM，最终得出Bi-LSTM网络的全局编码[h₁,h₂,h₃]。

S33计算全局编码的转置，并调整为原先的维度大小，通过公式计算它的tanh值，然后计算出tanh值的特征向量，经过一个softmax层就得到了注意力权重矩阵[w₁,w₂,w₃]。

S40分类，使用经过注意力权重调整后的全局编码输入分类器分类，最终判断该评论属于bug报告、特征请求、用户体验和评分中的哪一类。

本发明提出一种众包测试报告的处理和分类方法。针对已有方法只是使用bag ofwords模型，没有考虑词序和语法的问题，本方法使用了bert模型。Bert模型的训练任务之一是双向预测mask，这个任务能够保证句子无论是在正向还是反向预测中都可以得到一个较高的正确率，一定程度上解决了BOW的词序问题。而TF-IDF特征则表示一个词在句子中的重要程度。如果一个词在某个类别中十分特别，一旦出现了这个词那么该评论大概率属于某个特定类别，在这种情况下，TF-IDF特征的作用就体现出来了。Metadata特征中的时态数据则进一步补充了word embedding中的语法信息，并且bert模型也无法直接得出句子的情感信息，评论中不同的情感对分类过程也有影响，例如，bug报告可能包含负面情绪，而用户体验则可能包含更多的正面情绪。

如果只是直接使用三种特征直接进行编码，则忽略了不同特征对不同分类类别中起到的重要程度不同的问题，因此本方法计算了全局编码的注意力权重矩阵，使用注意力权重来重新调整用特征，进一步提高了分类的精度。

本发明通过使用bert模型提取Word Embedding特征，解决了之前的方法没有考虑词序的问题。而另外两个特征TF-IDF和Metadata则进一步对Word Embedding进行了补充。在使用双向长短时记忆网络进行编码后，针对不同的分类类别，为了更好地利用三个特征中相对更重要的部分，计算了全局编码的注意力权重矩阵，使用注意力权重来重新调整特征，进一步提高了分类的精度。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种众包测试报告的处理和分类方法，其特征在于，包括如下步骤：

S10数据采集，在众包平台下发布并分配测试任务，待工人测试完成后收集测试报告完成数据采集；

S20特征提取，从数据中提取出三种特征，分别是Word Embedding特征、TF-IDF特征和Metadata特征；

S30全局编码，将Word Embedding特征、TF-IDF特征和Metadata特征三种特征视为一个整体，合并为一个向量[x,y,z]，输入到双向长短时记忆网络获得各个特征的全局编码表示[h₁,h₂,h₃]；根据各个特征的全局编码计算注意力权重[w₁,w₂,w₃]，并通过注意力权重[w₁,w₂,w₃]调整全局编码[h₁w₁,h₂w₂,h₃w₃]；

S31矩阵[x,y,z]先输入到正向的LSTM网络中，编码信息从左到右传递，每个LSTM单元对编码信息进行取舍和更新，并传入下一个LSTM网络，最终得出正向LSTM网络的全局编码[x_t,y_t,z_t]；

S32矩阵[x,y,z]先输入到反向的LSTM网络中，编码信息从右到左传递，每个LSTM单元对编码信息进行取舍和更新，并传入下一个LSTM，最终得出Bi-LSTM网络的全局编码[h₁,h₂,h₃]；

S33计算全局编码的转置，并调整为原先的维度大小，通过公式计算tanh值，然后计算出tanh值的特征向量，最后经过一个softmax层得到注意力权重矩阵[w₁,w₂,w₃]；

S34通过注意力权重矩阵[w₁,w₂,w₃]调整全局编码，得到[h₁w₁,h₂w₂,h₃w₃]；

2.根据权利要求1所述众包测试报告的处理和分类方法，其特征在于：所述步骤S20从数据中提取出三种特征如下：

S21针对Word Embedding特征，先从数据中把评论内容提取出来，并对评论内容去除停用词，然后使用bert预训练模型对去除停用词的数据进行预训练，最终得到WordEmbedding特征；

S22针对TF-IDF特征，先统计各个词在总体样本中出现的次数，用出现的次数除以总次数得到词频TF，再通过逆文本频率IDF算出逆文本频率，最后把两者相乘得到TF-IDF特征；

S23针对Metadata特征，把评论的时态分为过去时、未来时、一般现在时和一般完成时，把评论中出现的相应时态次数统计起来并入Metadata特征；然后把评论的情感分为积极和消极，针对情感进行打分，把情感打分并入Metadata特征；最后把评分和句子长度数据并入Metadata特征。

3.根据权利要求2所述众包测试报告的处理和分类方法，其特征在于：步骤S22中逆文本频率计算公式如下：

4.根据权利要求3所述众包测试报告的处理和分类方法，其特征在于：步骤S23中针对情感进行打分时，最低消极情绪为-5分，最高积极情绪为5分。