CN114969347A

CN114969347A - 缺陷查重实现方法、装置、终端设备及存储介质

Info

Publication number: CN114969347A
Application number: CN202210738950.9A
Authority: CN
Inventors: 唐程浩
Original assignee: China Merchants Bank Co Ltd
Current assignee: China Merchants Bank Co Ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-08-30

Abstract

本发明公开了一种缺陷查重实现方法、装置、终端设备及存储介质，该方法包括：获取缺陷查重任务，所述缺陷查重任务包括：待查重的缺陷文本摘要；对所述缺陷文本摘要进行关键专有词发现计算，得到关键专有词计算结果；基于所述关键专有词计算结果进行主题匹配，以匹配的主题进行句子对组合，得到组合后的句子对；基于预先构建的缺陷查重模型，对所述句子对进行查重评判，得到缺陷查重评判结果。由此通过模型和算法进行缺陷查重，可以节省人工手动查重的时间；而且本方案对缺陷文本进行信息提取和模型训练，可以对短文本提炼语义信息并进行有效查重，提升了缺陷查重的效率和查重的有效性。

Description

缺陷查重实现方法、装置、终端设备及存储介质

技术领域

本发明涉及测试技术领域，尤其涉及一种缺陷查重实现方法、装置、终端设备及存储介质。

背景技术

随着软件复杂度、规模和迭代速度持续上升，不断增大软件测试工作的投入，而激增的软件测试案例，也增大了缺陷管理工作。对于每个测试任务，都会产生众多的测试缺陷，为了避免重复缺陷，首要任务是对这些缺陷进行查重。以往的缺陷查重都面临以下几个问题：

(一)需要人工进行查重：

缺陷查重常见的方式是由人工进行识别，但是对于大型测试任务，缺陷数量庞大，人工进行缺陷识别时，对于多个缺陷容易遗忘或者错漏，并且需要反复查看和具备一定的经验，耗费较多的人力物力；

(二)无法语义识别：

对于常见的文本匹配方式，主要是直接对文本进行分词，然后将文本在数据库中进行检索，这种方式需要匹配的文本字词上相同或相近，对于文字不同而意思相同的文本则无法识别。因为缺陷一般都是不同测试人员编写，文法表达和字词使用可能会有很大的差异，所以这种文本匹配方式很难对缺陷进行查重；

(三)缺陷文本短，信息少：

一般对缺陷的描述分为缺陷摘要和缺陷描述，缺陷摘要简短而缺陷描述详实，如果待缺陷描述写完再进行查重，则会浪费测试人员时间，所以对于缺陷查重任务一般要求在完成缺陷摘要编写时就能给予提示。这就使得缺陷查重会在文本短、信息少的情况下进行，传统的文本匹配在短文本中效果差，无法从短文本中提炼信息进行查重。

发明内容

本发明实施例的主要目的在于提供一种缺陷查重实现方法、装置、终端设备及存储介质，旨在提升缺陷查重效率和查重的有效性。

为实现上述目的，本发明实施例提供一种缺陷查重实现方法，所述方法包括如下步骤：

获取缺陷查重任务，所述缺陷查重任务包括：待查重的缺陷文本摘要；

对所述缺陷文本摘要进行关键专有词发现计算，得到关键专有词计算结果；

基于所述关键专有词计算结果进行主题匹配，以匹配的主题进行句子对组合，得到组合后的句子对；

基于预先构建的缺陷查重模型，对所述句子对进行查重评判，得到缺陷查重评判结果。

可选地，所述基于所述关键专有词计算结果进行主题匹配，以匹配的主题进行句子对组合，得到组合后的句子对的步骤包括：

确定所述关键专有词计算结果中关键专有词的主题；

将所述关键专有词计算结果中关键专有词的主题与预先存储的平台全量缺陷文本的关键专有词分类主题进行匹配；

以匹配的主题进行句子对组合，得到组合后的句子对。

可选地，所述以匹配的主题进行句子对组合的步骤之后还包括：

对所述句子对进行数据清洗，得到清洗后的句子对。

可选地，所述基于预先构建的缺陷查重模型，对所述句子对进行查重评判，得到缺陷查重评判结果的步骤包括：

对所述句子对进行复制，得到两份句子对；

将其中一份句子对采用预先训练好的加权词向量模型进行向量化，得到加权向量化结果；

将另一份句子对输入到预先训练好的缺陷查重模型，通过所述缺陷查重模型并结合所述加权向量化结果，对所述句子对进行查重评判，得到缺陷查重评判结果。

可选地，所述对所述缺陷文本摘要进行关键专有词发现计算，得到关键专有词计算结果的步骤之前还包括：

对所述缺陷文本摘要进行预处理，所述预处理的方式包括：数据增强、数据清洗中的一种或多种。

可选地，所述对所述缺陷文本摘要进行关键专有词发现计算，得到关键专有词计算结果的步骤包括：

采用左右信息熵新词发现算法对所述缺陷文本摘要进行新词发现计算，筛选出所述缺陷文本摘要中的专有名词；

使用TFIDF算法计算所述缺陷文本摘要中的关键词；

基于所述专有名词和关键词，构建专有关键词表，得到关键专有词计算结果。

可选地，所述基于预先训练好的缺陷查重模型，对所述句子对进行查重评判，得到缺陷查重评判结果的步骤之前还包括：

构建所述缺陷查重模型，具体包括：

获取缺陷文本数据训练集，所述训练集包括原始缺陷摘要文本数据；

对所述训练集中的原始缺陷摘要文本数据进行关键专有名词筛选，根据筛选结果构建所述训练集的专有关键词表；

基于所述训练集的专有关键词表，以及预先训练的文本向量化模型，对所述训练集的缺陷摘要文本数据进行加权向量化，得到缺陷文本数据词向量；

基于所述缺陷文本数据词向量以及所述原始缺陷摘要文本数据进行模型训练和融合，构建得到所述缺陷查重模型。

可选地，所述对所述训练集中的原始缺陷摘要文本数据进行关键专有名词筛选，根据筛选结果构建所述训练集的专有关键词表的步骤包括：

采用左右信息熵新词发现算法对所述训练集中的原始缺陷摘要文本数据进行新词发现计算，筛选出所述原始缺陷摘要文本数据中的专有名词；

使用TFIDF算法计算所述原始缺陷摘要文本数据中的关键词；

基于所述原始缺陷摘要文本数据中的专有名词和关键词，构建所述训练集的专有关键词表。

可选地，所述基于所述缺陷文本数据词向量以及所述原始缺陷摘要文本数据进行模型训练和融合，构建得到所述缺陷查重模型的步骤包括：

将所述缺陷文本数据词向量输入预先创建的基于注意力机制的双向LSTM模型中进行训练，得到第一训练结果；

将所述原始缺陷摘要文本数据输入预选创建的AlBert预训练模型进行训练，得到第二训练结果；

通过XGBoost算法对所述第一训练结果和第二训练结果进行融合并迭代训练，得到所述缺陷查重模型。

可选地，所述对所述训练集中的原始缺陷摘要文本数据进行关键专有名词筛选的步骤之前还包括：

对所述缺陷文本数据训练集进行数据预处理，具体包括：

对所述缺陷文本数据训练集进行数据增强，得到数据增强后的训练集；

采用常见停用词对所述训练集中的原始缺陷摘要文本数据进行数据清洗，去掉无用和干扰信息，得到数据清洗后的训练集。

本发明还提出一种缺陷查重实现装置，包括：

获取模块，用于获取缺陷查重任务，所述缺陷查重任务包括：待查重的缺陷文本摘要；

计算模块，用于对所述缺陷文本摘要进行关键专有词发现计算，得到关键专有词计算结果；

组合模块，用于基于所述关键专有词计算结果进行主题匹配，以匹配的主题进行句子对组合，得到组合后的句子对；

评判模块，用于基于预先构建的缺陷查重模型，对所述句子对进行查重评判，得到缺陷查重评判结果。

本发明还提出一种终端设备，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的缺陷查重实现程序，所述缺陷查重实现程序被所述处理器执行时实现如上所述的缺陷查重实现方法的步骤。

本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有缺陷查重实现程序，所述缺陷查重实现程序被处理器执行时实现如上所述的缺陷查重实现方法的步骤。

本发明实施例提出的缺陷查重实现方法、装置、终端设备及存储介质，通过获取缺陷查重任务，所述缺陷查重任务包括：待查重的缺陷文本摘要；对所述缺陷文本摘要进行关键专有词发现计算，得到关键专有词计算结果；基于所述关键专有词计算结果进行主题匹配，以匹配的主题进行句子对组合，得到组合后的句子对；基于预先构建的缺陷查重模型，对所述句子对进行查重评判，得到缺陷查重评判结果。由此通过模型和算法进行缺陷查重，可以节省人工手动查重的时间；而且本方案对缺陷文本进行信息提取和模型训练，可以对短文本提炼语义信息并进行有效查重，从而提升了缺陷查重的效率和查重的有效性。

附图说明

图1为本发明缺陷查重实现装置所属终端设备的功能模块示意图；

图2为本发明缺陷查重实现方法第一实施例的流程示意图；

图3为本发明实施例进行缺陷查重的全流程示意图；

图4为本发明缺陷查重实现方法第二实施例的流程示意图；

图5为本发明实施例构建查重模型的细化流程示意图。

图6为本发明实施例中构建查重模型时对文本数据进行处理的原理示意图；

图7为本发明实施例中构建查重模型的全流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：通过获取缺陷查重任务，所述缺陷查重任务包括：待查重的缺陷文本摘要；对所述缺陷文本摘要进行关键专有词发现计算，得到关键专有词计算结果；基于所述关键专有词计算结果进行主题匹配，以匹配的主题进行句子对组合，得到组合后的句子对；基于预先构建的缺陷查重模型，对所述句子对进行查重评判，得到缺陷查重评判结果。由此通过模型和算法进行缺陷查重，可以节省人工手动查重的时间；而且本方案对缺陷文本进行信息提取和模型训练，可以对短文本提炼语义信息并进行有效查重，从而提升了缺陷查重的效率和查重的有效性。

本发明实施例涉及的技术术语：

左右信息熵新词发现算法；

TFIDF算法；

Word2vec；

注意力机制，Attention Mechanism；

LSTM模型，长短期记忆网络，Long Short-Term Memory；

AlBert模型，深度语言模型；

XGBoost，一个优化的分布式梯度增强库。

具体解释如下：

左右信息熵新词发现算法：新词发现算法的目的是发现新词。如果采用现在的分词技术，有时候生僻词或者专有词汇经常会被分错，而改进措施就是可以用新词算法发现预料中的新词，之后将发现的新词放到分词算法的用户自定义字典中，会增加分词的准确率。以下两个概念需要说明一下：

点间互信息(Pointwise Mutual Information)——凝固程度：例如，点间互信息的公式为，$$\operatorname{PMI}(x,y)＝\log_{2}\frac{p(x,y)}{p(x)p(y)}$$

其中$p(x,y)$表示两个词一起出现的概率，而$p(x)$和$p(y)$表示各词出现的概率。举个例子，比如一份语料中，“深度学习”出现了10词，“深度”出现了15次，学习出现了“20”次。由于语料库总词数是个定值，那么深度学习这个词在“深度”，“学习”上的的点间互信息就为$\log_{2}\frac{10N}{1520}$。其中N指总词数。

从上述公式可知：点间互信息越大，说明这两个词经常出现在一起，意味着两个词的凝固程度越大，其组成一个新词的可能性也就越大。

左右熵(Information Entropy)——自由程度：左(右)熵的公式如下，即信息熵的公式：$$E_{left}(PreW)＝-\sum_{\forall Pre\subseteq A}P(PreW)\log_{2}P(PreW)$$。

综上，左右熵值越大，说明该词的周边词越丰富，意味着词的自由程度越大，其成为一个独立的词的可能性也就越大。

TFIDF算法：TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

TFIDF实际上是：TF*IDF，TF词频(Term Frequency)，IDF逆向文件频率(InverseDocument Frequency)。TF表示词条在文档d中出现的频率。

IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n＝m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别于其它类文档。

在一份给定的文件里，词频(term frequency，TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化，以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否。)

Word2vec：源于NLP(自然语言处理)，NLP里面，最细粒度的是词语，词语组成句子，句子再组成段落、篇章、文档。所以处理NLP的问题，首先考虑词语。举个例子，判断一个词的词性，是动词还是名词，用机器学习的思路，有一系列样本(x,y)，这里x是词语，y是它们的词性，我们要构建f(x)->y的映射，但这里的数学模型f(比如神经网络、SVM)只接受数值型输入，而NLP里的词语，是人类的抽象总结，是符号形式的(比如中文、英文、拉丁文等等)，所以需要把他们转换成数值形式，或者说——嵌入到一个数学空间里，这种嵌入方式，就叫词嵌入(word embedding)，而Word2vec，就是词嵌入(word embedding)的一种，f(x)->y在NLP中，把x看做一个句子里的一个词语，y是这个词语的上下文词语，那么这里的f，便是NLP中经常出现的『语言模型』(language model)，这个模型的目的，就是判断(x,y)这个样本，是否符合自然语言的法则。

Word2vec正是来源于这个思想，但它的最终目的，不是要把f训练得多么完美，只关心模型训练完后的副产物——模型参数(这里特指神经网络的权重)，并将这些参数，作为输入x的某种向量化的表示，这个向量便叫做词向量。

注意力机制：对输入权重分配的关注，最开始使用到注意力机制是在编码器-解码器(encoder-decoder)中，注意力机制通过对编码器所有时间步的隐藏状态做加权平均来得到下一层的输入变量。

LSTM模型：长短期记忆网络(Long-Short Term Memory,LSTM)，由于独特的设计结构，LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

LSTM的表现通常比时间递归神经网络及隐马尔科夫模型(HMM)更好，比如用在不分段连续手写识别上。LSTM还普遍用于自主语音识别。作为非线性模型，LSTM可作为复杂的非线性单元用于构造更大型深度神经网络。

为了最小化训练误差，梯度下降法(Gradient descent)如应用时序性倒传递算法，可用来依据错误修改每次的权重。梯度下降法在递回神经网络(RNN)中主要的问题初次在1991年发现，就是误差梯度随着事件间的时间长度成指数般的消失。当设置了LSTM区块时，误差也随着倒回计算，从output影响回input阶段的每一个gate，直到这个数值被过滤掉。因此正常的倒传递类神经是一个有效训练LSTM区块记住长时间数值的方法。

AlBert模型，深度语言模型，ALBert基于Bert。随着Transfomer结构的普及，大语料、大参数量的预训练模型成为主流。当在实际部署BERT等模型时，往往需要使用蒸馏、压缩或其他优化技术对模型进行处理。ALBERT模型就是用更少的参数，取得了更好的效果。它在主要基准上实现了最先进的性能，参数减少了30％。不同版本的ALBERT中文预训练模型，包括TensorFlow、PyTorch和Keras。

XGBoost：XGBoost的全称是eXtreme Gradient Boosting，XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。它在Gradient Boosting框架下实现机器学习算法。XGBoost提供并行树提升(也称为GBDT，GBM)，可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop，SGE，MPI)上运行，并且可以解决数十亿个示例之外的问题。

它是经过优化的分布式梯度提升库，旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具，它是目前最快最好的开源boosting tree工具包。在工业界大规模数据方面，XGBoost的分布式版本有广泛的可移植性，支持在Kubernetes、Hadoop、SGE、MPI、Dask等各个分布式环境上运行，使得它可以很好地解决工业界大规模数据的问题。

本发明考虑到，目前缺陷查重需要人工查重，其查重效率低，费时费力；而且目前文本匹配方式查重中，无法进行语义匹配，针对短文本匹配无法进行信息提炼，查重效果差。

本发明提供一种解决方案，可以提升缺陷查重效率和查重的有效性。

具体地，参照图1，图1是本发明缺陷查重实现装置所属终端设备的功能模块示意图。该缺陷查重实现装置可以为独立于终端设备的、能够进行数据处理的装置，其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有数据处理功能的智能移动终端，还可以为具有数据处理功能的固定终端设备或服务器等。

在本实施例中，该缺陷查重实现装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。

存储器130中存储有操作系统以及缺陷查重实现程序；输出模块110可为显示屏等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等，通过通信模块140与外部设备或服务器进行通信。

其中，存储器130中的缺陷查重实现程序被处理器执行时实现以下步骤：

进一步地，存储器130中的缺陷查重实现程序被处理器执行时实现以下步骤：

确定所述关键专有词计算结果中关键专有词的主题；

以匹配的主题进行句子对组合，得到组合后的句子对。

对所述句子对进行数据清洗，得到清洗后的句子对。

对所述句子对进行复制，得到两份句子对；

使用TFIDF算法计算所述缺陷文本摘要中的关键词；

构建所述缺陷查重模型，具体包括：

使用TFIDF算法计算所述原始缺陷摘要文本数据中的关键词；

对所述缺陷文本数据训练集进行数据预处理，具体包括：

本实施例通过上述方案，获取缺陷查重任务，所述缺陷查重任务包括：待查重的缺陷文本摘要；对所述缺陷文本摘要进行关键专有词发现计算，得到关键专有词计算结果；基于所述关键专有词计算结果进行主题匹配，以匹配的主题进行句子对组合，得到组合后的句子对；基于预先构建的缺陷查重模型，对所述句子对进行查重评判，得到缺陷查重评判结果。由此通过模型和算法进行缺陷查重，可以节省人工手动查重的时间；而且本方案对缺陷文本进行信息提取和模型训练，可以对短文本提炼语义信息并进行有效查重，从而提升了缺陷查重的效率和查重的有效性。

基于上述终端设备架构但不限于上述架构，提出本发明方法实施例。

参照图2，图2为本发明缺陷查重实现方法第一实施例的流程示意图。所述缺陷查重实现方法包括：

步骤S101，获取缺陷查重任务，所述缺陷查重任务包括：待查重的缺陷文本摘要；

本实施例方法的执行主体可以是一种缺陷查重实现装置，也可以是一种缺陷查重实现终端设备或服务器，本实施例以缺陷查重实现装置进行举例，该装置可以集成在具有数据处理功能的智能手机、平板电脑等终端设备上。

本实施例方案主要实现对测试缺陷进行查重。

本方案将缺陷查重任务抽象为文本分类任务，即将提交的缺陷文本摘要两两配对为句子对，约定句子对为相同缺陷为1，句子对为不同缺陷为0，缺陷查重任务即转变为，对全量句子对采用模型进行判定，相同缺陷输出1，不同缺陷输出0的二分文本分类任务。

具体地，首先，获取缺陷查重任务，所述缺陷查重任务包括：当前待查重的缺陷文本摘要。

其中，作为一种实施方式，待查重的缺陷文本摘要可以由用户在系统缺陷登记平台输入，用户在系统缺陷登记平台输入缺陷文本摘要后启动缺陷查重。

其中，作为另一种实施方式，也可以由系统根据配置规则自动从外部设备或其他网络设备中获取待查重的缺陷文本摘要，由此启动缺陷查重。

进一步地，作为一种实施方式，在获得缺陷文本摘要后，可以对所述缺陷文本摘要进行预处理，所述预处理的方式包括：数据增强、数据清洗中的一种或多种。

其中，数据增强可以采用如下方案：

将文本中的部分词汇进行同义替换，替换为相同意思的其他文本来进行数据增量；或者采用翻译软件将它翻译成中间语言再翻译回来，得到相同意思的不同文本表达数据来进行数据增量。

数据清洗可以采用常见停用词对本文数据进行清洗，去掉无用和干扰信息。

步骤S102，对所述缺陷文本摘要进行关键专有词发现计算，得到关键专有词计算结果；

其中，常规流程需要将输入文本与数据库中全量缺陷文本进行比对，为了提高性能与减少比对数据量，在本实施例中，在平台全量缺陷文本存储中已预先进行关键专有词发现计算，并按照计算结果分主题进行存储。

本实施例在获取待查重的缺陷文本摘要后，对所述缺陷文本摘要进行关键专有词发现计算，得到关键专有词计算结果，以匹配的主题进行句子对组合和数据清洗。

具体地，作为一种实施方式，上述对所述缺陷文本摘要进行关键专有词发现计算，得到关键专有词计算结果的步骤可以包括：

使用TFIDF算法计算所述缺陷文本摘要中的关键词；

步骤S103，基于所述关键专有词计算结果进行主题匹配，以匹配的主题进行句子对组合，得到组合后的句子对；

具体地，作为一种实施方式，首先确定所述关键专有词计算结果中关键专有词的主题；

然后，将所述关键专有词计算结果中关键专有词的主题与预先存储的平台全量缺陷文本的关键专有词分类主题进行匹配；

最后，以匹配的主题进行句子对组合，得到组合后的句子对。

其中，在以匹配的主题进行句子对组合的步骤之后，进一步还可以对所述句子对进行数据清洗，得到清洗后的句子对，通过数据清洗可以提高数据处理的准确性。

步骤S104，基于预先构建的缺陷查重模型，对所述句子对进行查重评判，得到缺陷查重评判结果。

本实施例预先构建有缺陷查重模型，该缺陷查重模型基于预先收集的缺陷文本数据训练集进行训练及模型融合、迭代计算构建得到。

具体地，作为一种实施方式，所述基于预先构建的缺陷查重模型，对所述句子对进行查重评判，得到缺陷查重评判结果的步骤可以包括：

首先，对所述句子对进行复制，得到两份句子对；

具体地，在得到将比对的句子对之后，复制为两份数据。一份用预先训练好的加权词向量模型进行向量化，一份按原始格式输入到之前预先训练好的缺陷查重模型中进行计算评判。其中，在评判时，通过所述缺陷查重模型并结合加权向量化结果，对所述句子对进行查重评判，得到缺陷查重评判结果。

通过模型评估计算结果得到判定为相同的缺陷文本，并将所需信息返回到界面展示，供测试人员选择是否继续提交该缺陷，至此完成整个方案流程。

本发明实施例进行缺陷查重的全流程可以参照图3所示。

本实施例通过上述方案，具体通过获取缺陷查重任务，所述缺陷查重任务包括：待查重的缺陷文本摘要；对所述缺陷文本摘要进行关键专有词发现计算，得到关键专有词计算结果；基于所述关键专有词计算结果进行主题匹配，以匹配的主题进行句子对组合，得到组合后的句子对；基于预先构建的缺陷查重模型，对所述句子对进行查重评判，得到缺陷查重评判结果。由此通过模型和算法进行缺陷查重，可以节省人工手动查重的时间；而且本方案对缺陷文本进行信息提取和模型训练，可以对短文本提炼语义信息并进行有效查重，从而提升了缺陷查重的效率和查重的有效性。

参照图4，图4为本发明缺陷查重实现方法第二实施例的流程示意图。如图4所示，本实施例在上述图2所示的实施例的基础上，在上述步骤S104，基于预先训练好的缺陷查重模型，对所述句子对进行查重评判，得到缺陷查重评判结果的步骤之前还包括：

步骤S100，构建所述缺陷查重模型。

如图5所示，上述步骤S100具体可以包括：

步骤S1001，获取缺陷文本数据训练集，所述训练集包括原始缺陷摘要文本数据；

其中，原始缺陷摘要文本数据为日常测试中已知的缺陷摘要文本，作为样本数据构成缺陷文本数据训练集。

本实施例考虑到：

基于机器学习相关的方案，首要条件是拥有一定量的原始数据供学习训练模型使用，原有的积累的缺陷文本数据特征为：一次测试任务中，相同的缺陷占极小数，供训练的数据不平衡；文本短、文法较口语化，信息不够明确。

对于以上问题，本方案提出数据处理方式为：

数据增强：对训练数据集进行欠采样、过采样和数据转换，构建为平衡数据集以供训练；

去停用词和筛选关键专有名词：去掉文本中无用重复的词汇，通过算法筛选关键专有名词以备后续加权使用；

Word2Vec词向量化：使用现有文本数据训练词向量模型，并加上专有名词进行加权词向量化。

其中，作为一种实施方式，可以在获取原始缺陷摘要文本数据后，对原始缺陷摘要文本数据进行预处理；或者在获取到缺陷文本数据训练集后，对所述缺陷文本数据训练集进行数据预处理。具体的处理过程可以如图6所示，包括：

具体地，缺陷文本数据训练集中作为样本数据的原始缺陷摘要文本数据，是经过测试管理手工查重统计出来的数据，分为不重复的缺陷数据和重复的缺陷数据两类。

在实际测试任务中，不重复的缺陷数据量比重复的缺陷数据大很多，不平衡的数据会导致基于平衡阈值分类任务训练出现偏差。

因此，在本实施例中，首先对不重复的缺陷数据进行欠采样。欠采样是指随机丢弃数量过大的那一类数据，降低两类数据间的数量差距。

然后，对重复的缺陷数据进行过采样，过采样是指对量少那一类数据进行重复获取，以降低两类数据建的数量差距。但是直接重复获取，容易导致训练的过拟合，所以本方案使用的过采样，是借助句子对的特性，对句子对进行翻转和传递生成，比如句子对“AA@BB”，翻转后“BB@AA”认为是新增数据(翻转)；其次，假设句子对“AA@BB”和“BB@CC”，则认为“AA@CC”也为新增数据(传递生成)。

除了采样法以外，还可以通过同义替换来对量少的数据集进行增量。将文本中的部分词汇进行同义替换，替换为相同意思的其他文本来进行数据增量。或者采用翻译软件将它翻译成中间语言再翻译回来，得到相同意思的不同文本表达数据来进行数据增量。

此外，若本方案处理的缺陷文本数据中有较多的口语化表达和无用信息，则可以在进行数据增强后，采用常见停用词对本文数据进行清洗，去掉无用和干扰信息，由此提升后续缺陷查重的准确性。

步骤S1002，对所述训练集中的原始缺陷摘要文本数据进行关键专有名词筛选，根据筛选结果构建所述训练集的专有关键词表；

之后，可以采用左右信息熵新词发现算法对文本进行新词发现计算，筛选出文本数据中的专有名词，比如一些产品名称，专业名词等，再使用TFIDF算法计算文本数据中的关键词，构建专有关键词表供后续加权计算使用。

具体地，作为一种实施方式，所述对所述训练集中的原始缺陷摘要文本数据进行关键专有名词筛选，根据筛选结果构建所述训练集的专有关键词表的步骤可以包括：

使用TFIDF算法计算所述原始缺陷摘要文本数据中的关键词；

步骤S1003，基于所述训练集的专有关键词表，以及预先训练的文本向量化模型，对所述训练集的缺陷摘要文本数据进行加权向量化，得到缺陷文本数据词向量；

为了进行文本模型训练，需要将文本向量化后导入深度学习网络进行计算，本方案采用的Word2Vec方法，对数据增强后的文本数据进行训练，得到文本向量化模型，再根据上述步骤构建的专有关键词表对文本数据进行加权向量化，得到缺陷文本数据词向量。

步骤S1004，基于所述缺陷文本数据词向量以及所述原始缺陷摘要文本数据进行模型训练和融合，构建得到所述缺陷查重模型。

具体地，首先，将所述缺陷文本数据词向量输入预先创建的基于注意力机制的双向LSTM模型中进行训练，得到第一训练结果；

然后，将所述原始缺陷摘要文本数据输入预选创建的AlBert预训练模型进行训练，得到第二训练结果；

最后，通过XGBoost算法对所述第一训练结果和第二训练结果进行融合并迭代训练，得到所述缺陷查重模型。

具体地，本方案采用的模型训练方式是使用两种机器学习模型分别训练，再使用模型融合结合两个模型的结果综合获得实际判定结果进行训练，该方案中模型训练的具体流程可以参照图7所示。

其中，在模型训练中，本方案采用的第一个模型结构为基于注意力机制的双向LSTM模型结构即Bi-LSTM，其优点在于通过注意力机制，自动关注并加权文本的重要信息，Bi-LSTM结构可以在训练中逐步学习到文本中的主要信息，其中的“门”机制可以学习到文本中的主要信息并遗忘无用信息，而双向结构让模型训练通过上下文学习增强文本理解。模型训练中将数据处理操作中得到的加权文本数据向量导入Bi-LSTM模型进行训练，得到对缺陷判定是否相同的结果。

本方案采用的另外一个模型是轻量预训练模型AlBert，本方案采用的AlBert预训练模型已经通过海量中文数据进行学习，得到一个泛用性较强的预训练模型，再通过使用本方案预先收集的部分缺陷文本进行微调(finetune)，更新预训练模型参数使其适用于本方案任务场景。

模型训练中，将数据增强后的缺陷文本数据直接导入微调后的AlBert模型进行训练，得到对缺陷判定是否相同的结果。

其中，本方案在进行两个不同类型的模型训练中，可以通过XGBoost算法将多个模型融合在一起提高性能。

模型融合本质上是对训练中上一次分类错误的样例给予更大的权重，在后续训练迭代中以提高原来分错样本分对的概率，并根据不同模型赋予不同权值，最后得到一个加权的强分类器。

通过上述步骤，进行不断迭代，训练得到一个完备的分类模型，供后续使用。

本实施例通过上述方案，构建缺陷查重模型，获取缺陷查重任务，所述缺陷查重任务包括：待查重的缺陷文本摘要；对所述缺陷文本摘要进行关键专有词发现计算，得到关键专有词计算结果；基于所述关键专有词计算结果进行主题匹配，以匹配的主题进行句子对组合，得到组合后的句子对；基于预先构建的缺陷查重模型，对所述句子对进行查重评判，得到缺陷查重评判结果。由此通过模型和算法进行缺陷查重，可以节省人工手动查重的时间；而且本方案对缺陷文本进行信息提取和模型训练，可以对短文本提炼语义信息并进行有效查重，从而提升了缺陷查重的效率和查重的有效性。

相比现有技术，本发明实施例采用算法对缺陷进行去重，解决人工查重繁琐过程，自动高效；针对缺陷数据进行定制化数据增强，解决训练数据不平衡和数据量不足问题；采用机器学习语义理解方式进行训练，解决常规方法无法语义级别匹配问题；采用关键专有名词发现方法对文本向量化进行加权，同时根据关键专有名词进行主题分类，以减少比对数量；此为，本方案采用Bi-LSTM和AlBert两种不同的模型，并通过XGBoost进行模型融合，提升了缺陷查重的有效性。

此外，本发明实施例还提出一种缺陷查重实现装置，包括：

本发明缺陷查重实现原理请参照上述各实施例，在此不再赘述。

此外，本发明实施例还提出一种终端设备，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的缺陷查重实现程序，所述缺陷查重实现程序被所述处理器执行时实现如上所述的缺陷查重实现方法的步骤。

由于本缺陷查重实现程序被处理器执行时，采用了前述所有实施例的全部技术方案，因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果，在此不再一一赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有缺陷查重实现程序，所述缺陷查重实现程序被处理器执行时实现如上所述的缺陷查重实现方法的步骤。

相比现有技术，本发明提供的一种缺陷查重实现方法、系统、终端设备及存储介质，通过采用算法对缺陷进行去重，解决人工查重繁琐过程，自动高效；针对缺陷数据进行定制化数据增强，解决训练数据不平衡和数据量不足问题；采用机器学习语义理解方式进行训练，解决常规方法无法语义级别匹配问题；采用关键专有名词发现方法对文本向量化进行加权，同时根据关键专有名词进行主题分类，以减少比对数量；此为，本方案采用Bi-LSTM和AlBert两种不同的模型，并通过XGBoost进行模型融合，提升了缺陷查重的有效性。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，被控终端，或者网络设备等)执行本发明每个实施例的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种缺陷查重实现方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述基于所述关键专有词计算结果进行主题匹配，以匹配的主题进行句子对组合，得到组合后的句子对的步骤包括：

确定所述关键专有词计算结果中关键专有词的主题；

以匹配的主题进行句子对组合，得到组合后的句子对。

3.根据权利要求2所述的方法，其特征在于，所述以匹配的主题进行句子对组合的步骤之后还包括：

对所述句子对进行数据清洗，得到清洗后的句子对。

4.根据权利要求1所述的方法，其特征在于，所述基于预先构建的缺陷查重模型，对所述句子对进行查重评判，得到缺陷查重评判结果的步骤包括：

对所述句子对进行复制，得到两份句子对；

5.根据权利要求1所述的方法，其特征在于，所述对所述缺陷文本摘要进行关键专有词发现计算，得到关键专有词计算结果的步骤之前还包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述缺陷文本摘要进行关键专有词发现计算，得到关键专有词计算结果的步骤包括：

使用TFIDF算法计算所述缺陷文本摘要中的关键词；

7.根据权利要求4所述的方法，其特征在于，所述基于预先训练好的缺陷查重模型，对所述句子对进行查重评判，得到缺陷查重评判结果的步骤之前还包括：

构建所述缺陷查重模型，具体包括：

8.根据权利要求7所述的方法，其特征在于，所述对所述训练集中的原始缺陷摘要文本数据进行关键专有名词筛选，根据筛选结果构建所述训练集的专有关键词表的步骤包括：

使用TFIDF算法计算所述原始缺陷摘要文本数据中的关键词；

9.根据权利要求7所述的方法，其特征在于，所述基于所述缺陷文本数据词向量以及所述原始缺陷摘要文本数据进行模型训练和融合，构建得到所述缺陷查重模型的步骤包括：

10.根据权利要求7所述的方法，其特征在于，所述对所述训练集中的原始缺陷摘要文本数据进行关键专有名词筛选的步骤之前还包括：

对所述缺陷文本数据训练集进行数据预处理，具体包括：

11.一种缺陷查重实现装置，其特征在于，包括：

12.一种终端设备，其特征在于，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的缺陷查重实现程序，所述缺陷查重实现程序被所述处理器执行时实现如权利要求1-10中任一项所述的缺陷查重实现方法的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有缺陷查重实现程序，所述缺陷查重实现程序被处理器执行时实现如权利要求1-10中任一项所述的缺陷查重实现方法的步骤。