CN108304328B

CN108304328B - 一种众包测试报告的文本描述生成方法、系统及装置

Info

Publication number: CN108304328B
Application number: CN201810111313.2A
Authority: CN
Inventors: 章晓芳; 刘頔; 冯洋; 段晓睿
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2021-04-27
Anticipated expiration: 2038-02-05
Also published as: CN108304328A

Abstract

本发明公开了一种众包测试报告的文本描述生成方法、系统及装置，包括：获取测试报告中的屏幕截图和文本描述，确定文本描述中用于体现测试信息的关键词序列，并将屏幕截图按照预设层次聚类标准进行层次聚类，得到多组截屏类簇；将每组截屏类簇中各屏幕截图所属的测试报告对应的关键词序列均输入至概率语言模型，并获取概率语言模型生成的类簇文本描述；根据预设归类策略确定待诊断测试报告中每个待诊断屏幕截图所属的截屏类簇，获取所属的截屏类簇对应的类簇文本描述。本申请中屏幕截图数量较多，其得到的文本描述较丰富，助于开发人员理解测试报告，提高了开发人员诊断和理解测试报告的效率；且屏幕截图较客观，不易误导开发人员的诊断和理解。

Description

一种众包测试报告的文本描述生成方法、系统及装置

技术领域

本发明涉及测试技术领域，特别是涉及一种众包测试报告的文本描述生成方法、系统及装置。

背景技术

目前，由于众包测试在软件测试中能够检测到许多错误，模拟出真实的使用场景，并提供真实的用户反馈，所以众包测试比较适合应用在移动平台的移动测试中。众包测试在移动测试过程中，会产生大量的测试报告，测试报告通常包含较多的屏幕截图和简短的文本描述等内容。现有技术中，开发人员需要诊断并理解测试报告，从而得出移动平台的测试结果。但是，测试报告数量比较多，而且简短的文本描述使文本信息缺乏，导致开发人员诊断和理解测试报告的效率较低。此外，众包测试会涉及到许多终端用户，如果终端用户的软件工程知识差异较大，会导致测试报告中的文本描述带有主观性，不够准确，甚至会误导开发人员的诊断和理解。

因此，如何提供一种解决上述技术问题的方案是本领域的技术人员目前需要解决的问题。

发明内容

本发明的目的是提供一种众包测试报告的文本描述生成方法、系统及装置，可以生成屏幕截图的文本描述，由于屏幕截图数量较多，所以其得到的文本描述比较丰富，从而有助于开发人员理解测试报告，提高了开发人员诊断和理解测试报告的效率；而且，屏幕截图比较客性，不易误导开发人员的诊断和理解。

为解决上述技术问题，本发明提供了一种众包测试报告的文本描述生成方法，包括：

预先获取众包测试产生的测试报告中的屏幕截图和文本描述，确定所述文本描述中用于体现测试信息的关键词序列，并将所述屏幕截图按照预设层次聚类标准进行层次聚类，得到多组截屏类簇；

将每组所述截屏类簇中各屏幕截图所属的测试报告对应的关键词序列均输入至用于预测相邻序列下一项的概率语言模型，并获取所述概率语言模型生成的类簇文本描述；

根据预设归类策略确定待诊断测试报告中每个待诊断屏幕截图所属的截屏类簇，获取所属的截屏类簇对应的类簇文本描述。

优选地，所述确定所述文本描述中用于体现测试信息的关键词序列的过程具体为：

标记所述文本描述中各词的词性，并确定由所述文本描述中的动词和名词组成的关键词序列。

优选地，所述测试信息包括测试错误描述和/或测试操作过程和/或测试场景。

优选地，在确定由所述文本描述中的动词和名词组成的关键词序列之后，在将每组所述截屏类簇中各屏幕截图所属的测试报告对应的关键词序列均输入至用于预测相邻序列下一项的概率语言模型之前，该文本描述生成方法还包括：

根据预设停用词列表滤除所述关键词序列中的停用词。

累计所有确定的关键词序列中各词出现的次数，滤除出现次数小于预设次数的词。

优选地，所述层次聚类标准的设置过程具体为：

通过空间金字塔匹配算法提取所述屏幕截图的特征点，获取表征所述特征点的位置的特征直方图；

根据所述特征直方图分别计算所述屏幕截图中任一屏幕截图与其他屏幕截图的卡方距离；

根据层次聚类算法及预设类簇距离标准对所述屏幕截图进行层次聚类并形成截屏类簇，聚类至形成的所有截屏类簇之间的平均卡方距离均大于所述类簇距离标准为止。

优选地，所述归类策略的设置过程具体为：

分别从所述屏幕截图中找出待诊断测试报告中每个待诊断屏幕截图的K近邻图片，其中，K为正整数；

根据投票策略从所述K近邻图片所属的截屏类簇中确定每个所述待诊断屏幕截图所属的截屏类簇。

优选地，所述分别从所述屏幕截图中找出待诊断测试报告中每个待诊断屏幕截图的K近邻图片的过程具体为：

分别计算待诊断测试报告中每个待诊断屏幕截图与所述屏幕截图的卡方距离；

将计算的卡方距离按照升序排序，从所述屏幕截图中选取前K个卡方距离对应的屏幕截图。

为解决上述技术问题，本发明还提供了一种众包测试报告的文本描述生成系统，包括：

获取单元，用于预先获取众包测试产生的测试报告中的屏幕截图和文本描述；

文本处理单元，用于确定所述文本描述中用于体现测试信息的关键词序列；

截图处理单元，用于将所述屏幕截图按照预设层次聚类标准进行层次聚类，得到多组截屏类簇；

语言模型单元，用于将每组所述截屏类簇中各屏幕截图所属的测试报告对应的关键词序列均输入至用于预测相邻序列下一项的概率语言模型，并获取所述概率语言模型生成的类簇文本描述；

应用单元，用于根据预设归类策略确定待诊断测试报告中每个待诊断屏幕截图所属的截屏类簇，获取所属的截屏类簇对应的类簇文本描述。

为解决上述技术问题，本发明还提供了一种众包测试报告的文本描述生成装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任一种众包测试报告的文本描述生成方法的步骤。

本发明提供了一种众包测试报告的文本描述生成方法，与现有技术中的诊断并理解测试报告相比，本申请首先获取众包测试产生的测试报告中的文本描述和屏幕截图，屏幕截图能够捕捉完整的活动视图，其数量较多，反映的测试信息也比较丰富。本申请会分别对文本描述和屏幕截图进行处理：文本描述方面，确定文本描述中关键词序列，关键词序列可以体现测试信息。屏幕截图方面，将屏幕截图按照设置好的层次聚类标准进行层次聚类，得到多组截屏类簇。

本申请在对文本描述和屏幕截图处理后，会建立语言模型：确定每组截屏类簇中包含的屏幕截图所属的测试报告，将所属的测试报告对应的关键词序列输入至概率语言模型，概率语言模型可以预测相邻序列下一项，从而生成类簇文本描述，也即每组截屏类簇的测试信息描述。本申请在建立语言模型后，便可以进入应用阶段：根据设置的归类策略确定待诊断测试报告中每个待诊断屏幕截图所属的截屏类簇，并根据建立好的语言模型获取所属的截屏类簇对应的类簇文本描述。可见，本申请可以生成屏幕截图的文本描述，由于屏幕截图数量较多，所以其得到的文本描述比较丰富，从而有助于开发人员理解测试报告，提高了开发人员诊断和理解测试报告的效率；而且，屏幕截图比较客观，不易误导开发人员的诊断和理解。

本发明还提供一种众包测试报告的文本描述生成系统及装置，与上述生成方法具有相同的有益效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种众包测试报告的文本描述生成方法的流程图；

图2(a)为本发明提供的一种评估图1所示文本描述生成方法的准确率的箱形图；

图2(b)为本发明提供的一种评估图1所示文本描述生成方法的召回率的箱形图；

图3为本发明提供的一种众包测试报告的文本描述生成系统的结构示意图。

具体实施方式

本发明的核心是提供一种众包测试报告的文本描述生成方法、系统及装置，可以生成屏幕截图的文本描述，由于屏幕截图数量较多，所以其得到的文本描述比较丰富，从而有助于开发人员理解测试报告，提高了开发人员诊断和理解测试报告的效率；而且，屏幕截图比较客性，不易误导开发人员的诊断和理解。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1，图1为本发明提供的一种众包测试报告的文本描述生成方法的流程图，该文本描述生成方法包括：

步骤S1：预先获取众包测试产生的测试报告中的屏幕截图和文本描述，确定文本描述中用于体现测试信息的关键词序列，并将屏幕截图按照预设层次聚类标准进行层次聚类，得到多组截屏类簇；

需要说明的是，本申请中的预先和预设是提前设置好的，只需要设置一次，除非根据实际情况修改，否则不需要重新设置。

具体地，众包测试在移动测试过程中，会产生大量的测试报告，每个测试报告中通常均包含各种形式的多媒体信息，比如屏幕截图、文本描述、语音信息及操作视频等内容。在测试报告中，屏幕截图和文本描述是比较常用的两种形式。

本申请可以通过在测试报告中设定TR(r)＝{tr(S_i,T_i)|i＝0...n}，其中，S表示屏幕截图，T表示文本描述。此外，每个测试报告通常包含多个屏幕截图，对于测试报告tr_i的屏幕截图S_i，若设S_i＝s_i1,s_i2,...,s_im，其中s_ij表示测试报告tr_i的第j个屏幕截图。

文本描述中包含测试信息，比如测试错误描述、测试操作过程及测试场景等测试信息。屏幕截图可以提供测试错误的状态，还可以提供测试的应用程序的外观及复杂的测试背景等。

本申请考虑到众包测试的目标是提供移动用户的真实反馈，所以众包测试会涉及到许多终端用户。终端用户的软件工程知识差异较大，使得测试报告中的文本描述带有主观性，不够准确，而屏幕截图提供的信息比较丰富且客观，而且，屏幕截图比键入长段的文本描述更加方便，所以报告记录者通常提供简短的文本描述和较多的屏幕截图。

可见，开发人员理解测试报告的基础是对该测试报告的文本描述和屏幕截图进行诊断。具体地，本申请首先提前获取众包测试产生的大量的测试报告中的屏幕截图和文本描述，从而得到大量的屏幕截图和文本描述。这里产生的测试报告用于训练，为建立语言模型打下基础。

本申请对每个测试报告的训练原理相同：对于文本描述，确定文本描述中用来体现测试信息的关键词序列，也就是说，滤除文本描述中除关键词序列以外的其他词，不影响测试信息的描述。

对于屏幕截图，屏幕截图均来自移动应用程序的活动视图，对于移动应用程序，每个活动视图均是为满足一些功能性需求而设计的。基于此，将屏幕截图按照提前设置好的层次聚类标准进行层次聚类，得到多组截屏类簇。当两张屏幕截图归为同一组截屏类簇时，说明这两张屏幕截图的差别较小。

步骤S2：将每组截屏类簇中各屏幕截图所属的测试报告对应的关键词序列均输入至用于预测相邻序列下一项的概率语言模型，并获取概率语言模型生成的类簇文本描述；

具体地，每组截屏类簇中包含多个屏幕截图，每个屏幕截图所属的测试报告对应的关键词序列均输入至概率语言模型。概率语言模型的理论基础为：对于一个系统，由一个状态转至另一个状态的转换过程中，存在着转移概率，并且这种转移概率可以依据其紧接的前一种状态推算出来。也就是说，一个系统的状态转换过程中第n次转换获得的状态决定于第n-1次转换获得的状态，其中，n为大于1的整数。

因此，当每组截屏类簇包含的每个屏幕截图所属的测试报告对应的关键词序列均输入至概率语言模型时，概率语言模型可以根据输入的关键词序列预测出更多的关键词序列。输入的关键词序列和预测出的关键词序列可以共同作为所对应截屏类簇的文本描述，即类簇文本描述，相当于将屏幕截图包含的丰富的信息生成文字形式的描述，弥补了测试报告中文本信息的缺乏。至此，本申请建立好每组截屏类簇的语音模型，结束对测试报告的训练，为获取待诊断屏幕截图的类簇文本描述打下基础。

这里的概率语言模型可以选用N-Gram模型，N-Gram是一种概率语言模型，其利用上下文中相邻词间的搭配信息，可以实现到文字的自动转换。至于概率语言模型具体选用的模型，本申请在此不做特别的限定，根据实际情况而定。

步骤S3：根据预设归类策略确定待诊断测试报告中每个待诊断屏幕截图所属的截屏类簇，获取所属的截屏类簇对应的类簇文本描述。

具体地，开发人员待诊断的测试报告(即待诊断测试报告)中包含多个待诊断屏幕截图，本申请根据提前设置好的归类策略确定每个待诊断屏幕截图所属的截屏类簇，从而根据概率语言模型生成的类簇文本描述，获取所属的截屏类簇对应的类簇文本描述。可见，本申请可以获取针对于待诊断测试报告的丰富的类簇文本描述，也即屏幕截图的文本描述，从而有助于开发人员理解测试报告，提高了开发人员诊断和理解测试报告的效率。

在上述实施例的基础上：

作为一种优选地实施例，确定文本描述中用于体现测试信息的关键词序列的过程具体为：

标记文本描述中各词的词性，并确定由文本描述中的动词和名词组成的关键词序列。

具体地，考虑到文本描述包括测试信息，而文本描述中的动词和名词是反映测试信息内容的重要部分，所以本申请首先标记文本描述中各词的词性，然后滤除除了文本描述中的动词和名词的其他词，只保留文本描述中的动词和名词，从而确定文本描述中由动词和名词组成的关键词序列。

本申请可以采用但不仅限于“Jieba”分词工具标记文本描述中各词的词性，本申请在此不做特别的限定。

作为一种优选地实施例，测试信息包括测试错误描述和/或测试操作过程和/或测试场景。

具体地，本申请中的测试信息可以包括测试错误描述，用来描述众包测试中出现的测试错误；也可以包括测试操作过程，用来描述众包测试的测试过程；还可以包括测试场景，用来描述众包测试的测试场景。至于测试信息的具体内容，本申请在此不做特别的限定。

作为一种优选地实施例，在确定由文本描述中的动词和名词组成的关键词序列之后，在将每组截屏类簇中各屏幕截图所属的测试报告对应的关键词序列均输入至用于预测相邻序列下一项的概率语言模型之前，该文本描述生成方法还包括：

根据预设停用词列表滤除关键词序列中的停用词。

具体地，考虑到确定的关键词序列中可能包含停用词，为了减少由停用词引起的歧义，本申请根据提前设置好的停用词列表，比如ICTCLAS停用表滤除关键词序列中的停用词，提高了关键词序列的有效性。

具体地，本申请累计所有确定的关键词序列中各词出现的次数，分别将提前设置好的次数与各词出现的次数作比较，当各词中某一个词出现的次数小于设置的次数，说明该词出现的频率较低，甚至有可能是拼写错误的词，所以本申请滤除出现频率较低的词，进一步提高了关键词序列的有效性。

作为一种优选地实施例，层次聚类标准的设置过程具体为：

通过空间金字塔匹配算法提取屏幕截图的特征点，获取表征特征点的位置的特征直方图；

根据特征直方图分别计算屏幕截图中任一屏幕截图与其他屏幕截图的卡方距离；

根据层次聚类算法及预设类簇距离标准对屏幕截图进行层次聚类并形成截屏类簇，聚类至形成的所有截屏类簇之间的平均卡方距离均大于类簇距离标准为止。

进一步地，本申请中层次聚类标准的设置过程包括：首先，通过空间金字塔匹配算法分别提取多个屏幕截图的特征点，空间金字塔匹配算法可以在提取屏幕截图的特征点方面达到较高的精确度。然后，获取表征特征点的位置的特征直方图，并且，根据特征直方图分别计算屏幕截图中任一屏幕截图与其他屏幕截图的卡方距离，卡方距离是利用列联表分析的方法得到一个卡方统计量来衡量两个个体之间的差异性。本申请可以通过但不仅限于矩阵形式表示屏幕截图中任一屏幕截图与其他屏幕截图的卡方距离，本申请在此不做特别的限定。

接下来，本申请根据层次聚类算法对屏幕截图进行层次聚类。层次聚类算法的原理：提前确定聚类停止点的阈值，即类簇距离标准，类簇距离标准等于计算的卡方距离中的最大卡方距离乘以设定参数，说明一旦确定训练的所有的屏幕截图，类簇距离标准便确定下来；在屏幕截图形成的所有截屏类簇之间的平均卡方距离均大于类簇距离标准时自动停止聚类。

一个截屏类簇与一个不属于该截屏类簇的屏幕截图之间的平均卡方距离是指该截屏类簇中每个屏幕截图与不属于该截屏类簇的屏幕截图的卡方距离的平均值。同理，两个截屏类簇之间的平均卡方距离是指其中一个截屏类簇中每个屏幕截图与另一个截屏类簇中所有屏幕截图的卡方距离的平均值。

比如，两个截屏类簇中分别包含两个屏幕截图，用(A，F)和(B，C)表示，(A，F)和(B，C)之间的平均卡方距离为：

更具体地，层次聚类算法的实现过程：从所有屏幕截图中找出卡方距离最小的一对屏幕截图，可能最小的卡方距离的两个屏幕截图不止一对，将其中一对屏幕截图聚类为截屏类簇，然后将该对屏幕截图看作一个整体，从该整体和剩余屏幕截图中找出卡方距离最小的一对聚类成截屏类簇，该整体与剩余屏幕截图之间求取的卡方距离是平均卡方距离。以此类推，直至所有截屏类簇之间的平均卡方距离均大于类簇距离标准时自动停止聚类。

可见，本申请通过获得类簇距离标准进行屏幕截图的层次聚类，而不是预先指定截屏类簇的数量，从而提高了聚类结果的可靠性。

作为一种优选地实施例，归类策略的设置过程具体为：

分别从屏幕截图中找出待诊断测试报告中每个待诊断屏幕截图的K近邻图片，其中，K为正整数；

根据投票策略从K近邻图片所属的截屏类簇中确定每个待诊断屏幕截图所属的截屏类簇。

进一步地，本申请中归类策略的设置过程包括：分别从屏幕截图中找出待诊断测试报告中每个待诊断屏幕截图的K近邻图片，并确定所有K近邻图片所属的截屏类簇。每个待诊断屏幕截图的K近邻图片所属的截屏类簇中个数最多的截屏类簇，为该待诊断屏幕截图所属的截屏类簇，也即投票策略确定待诊断屏幕截图所属的截屏类簇。

作为一种优选地实施例，分别从屏幕截图中找出待诊断测试报告中每个待诊断屏幕截图的K近邻图片的过程具体为：

分别计算待诊断测试报告中每个待诊断屏幕截图与屏幕截图的卡方距离；

将计算的卡方距离按照升序排序，从屏幕截图中选取前K个卡方距离对应的屏幕截图。

更进一步地，K近邻图片的找出过程具体包括：分别计算每个待诊断屏幕截图与所训练的屏幕截图之间的卡方距离，将计算的卡方距离按照升序排序，也即从小到大排序，卡方距离越小，其对应的屏幕截图与待诊断屏幕截图之间的差异越小。所以，从屏幕截图中选取前K个卡方距离对应的屏幕截图，也即从屏幕截图中选取差异较小的K个屏幕截图。

可以理解的是，本申请也可以将计算的卡方距离按照降序排序，也即从大到小排序，则从屏幕截图中选取最后K个卡方距离对应的屏幕截图，即从屏幕截图中选取差异较小的K个屏幕截图。至于计算的卡方距离的具体排序规则，本申请在此不做特别的限定。

此外，本申请选择一个移动平台进行众包测试，该移动平台收集了许多众包测试报告。为了评估测试结果并重现测试错误，移动平台的开发人员在所有的测试报告中抽样出一小部分，根据原始的文本描述和屏幕截图完成测试操作过程和测试错误描述的编写。目前，开发人员需要在抽样达到能完整理解整个项目的测试结果之后，对所有的测试报告进行诊断。而本申请的主要目标是，基于编写良好的文本描述，自动生成测试报告中屏幕截图的文本描述。为了评估本申请的技术效果，对编写良好的文本描述所属的测试报告进行10-fold的交叉验证。

表1

表1显示了移动应用程序的详细信息，这些应用均是热门应用。其中，#TR表示测试报告的数量，#S表示屏幕截图的数量，#TR_m表示屏幕截图的数量大于一张的测试报告的数量。

本申请通过关系式

评估本申请的技术效果。其中，P表示准确率，R表示召回率，在测试报告中设置TR'＝{tri}，y_i表示对测试报告tri预测的关键字序列，g_i表示真实的关键字序列。

请参照图2(a)及图2(b)，图2(a)为本发明提供的一种评估图1所示文本描述生成方法的准确率的箱形图，图2(b)为本发明提供的一种评估图1所示文本描述生成方法的召回率的箱形图。

在本次实验中，本申请使用trigram作为概率语言模型，并设置类簇距离标准中的设定参数为0.1，确定低频词的预设次数为2，K＝3。在此基础上，本申请进行了30轮评估实验，并将评估结果呈现在图2(a)及图2(b)中。两个箱形图显示，对于四个项目，获得的平均准确率超过0.41，平均召回率超过0.35。

可以理解的是，在分析这些数据时，需要考虑到不同的用户很少用相同的词来描述同一概念。所以，对于描述生成技术来说，生成的描述可能会因用户不同而有所不同。但是，本申请仍可以自动生成40％的文本描述，有助于开发人员理解测试报告。

请参照图3，图3为本发明提供的一种众包测试报告的文本描述生成系统的结构示意图，该文本描述生成系统包括：

获取单元1，用于预先获取众包测试产生的测试报告中的屏幕截图和文本描述；

文本处理单元2，用于确定文本描述中用于体现测试信息的关键词序列；

截图处理单元3，用于将屏幕截图按照预设层次聚类标准进行层次聚类，得到多组截屏类簇；

语言模型单元4，用于将每组截屏类簇中各屏幕截图所属的测试报告对应的关键词序列均输入至用于预测相邻序列下一项的概率语言模型，并获取概率语言模型生成的类簇文本描述；

应用单元5，用于根据预设归类策略确定待诊断测试报告中每个待诊断屏幕截图所属的截屏类簇，获取所属的截屏类簇对应的类簇文本描述。

本申请提供的文本描述生成系统的介绍请参考上述文本描述生成方法的实施例，本申请在此不再赘述。

本发明还提供了一种众包测试报告的文本描述生成装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现上述任一种众包测试报告的文本描述生成方法的步骤。

本申请提供的文本描述生成装置的介绍请参考上述文本描述生成方法的实施例，本申请在此不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统及装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种众包测试报告的文本描述生成方法，其特征在于，包括：

所述层次聚类标准的设置过程具体为：通过空间金字塔匹配算法提取所述屏幕截图的特征点，获取表征所述特征点的位置的特征直方图；根据所述特征直方图分别计算所述屏幕截图中任一屏幕截图与其他屏幕截图的卡方距离；根据层次聚类算法及预设类簇距离标准对所述屏幕截图进行层次聚类并形成截屏类簇，聚类至形成的所有截屏类簇之间的平均卡方距离均大于所述类簇距离标准为止；

其中，所述层次聚类算法的原理：提前确定聚类停止点的阈值，即类簇距离标准，类簇距离标准等于计算的卡方距离中的最大卡方距离乘以设定参数，说明一旦确定训练的所有的屏幕截图，类簇距离标准便确定下来；在屏幕截图形成的所有截屏类簇之间的平均卡方距离均大于类簇距离标准时自动停止聚类；

2.如权利要求1所述的众包测试报告的文本描述生成方法，其特征在于，所述确定所述文本描述中用于体现测试信息的关键词序列的过程具体为：

3.如权利要求2所述的众包测试报告的文本描述生成方法，其特征在于，所述测试信息包括测试错误描述和/或测试操作过程和/或测试场景。

4.如权利要求2所述的众包测试报告的文本描述生成方法，其特征在于，在确定由所述文本描述中的动词和名词组成的关键词序列之后，在将每组所述截屏类簇中各屏幕截图所属的测试报告对应的关键词序列均输入至用于预测相邻序列下一项的概率语言模型之前，该文本描述生成方法还包括：

根据预设停用词列表滤除所述关键词序列中的停用词。

5.如权利要求4所述的众包测试报告的文本描述生成方法，其特征在于，在确定由所述文本描述中的动词和名词组成的关键词序列之后，在将每组所述截屏类簇中各屏幕截图所属的测试报告对应的关键词序列均输入至用于预测相邻序列下一项的概率语言模型之前，该文本描述生成方法还包括：

6.如权利要求1所述的众包测试报告的文本描述生成方法，其特征在于，所述归类策略的设置过程具体为：

7.如权利要求6所述的众包测试报告的文本描述生成方法，其特征在于，所述分别从所述屏幕截图中找出待诊断测试报告中每个待诊断屏幕截图的K近邻图片的过程具体为：

8.一种众包测试报告的文本描述生成系统，其特征在于，包括：

截图处理单元，用于将所述屏幕截图按照预设层次聚类标准进行层次聚类，得到多组截屏类簇；其中，层次聚类算法的原理：提前确定聚类停止点的阈值，即类簇距离标准，类簇距离标准等于计算的卡方距离中的最大卡方距离乘以设定参数，说明一旦确定训练的所有的屏幕截图，类簇距离标准便确定下来；在屏幕截图形成的所有截屏类簇之间的平均卡方距离均大于类簇距离标准时自动停止聚类；

9.一种众包测试报告的文本描述生成装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1-7任一项所述的众包测试报告的文本描述生成方法的步骤。