CN116775497A

CN116775497A - 数据库测试用例生成需求描述编码方法

Info

Publication number: CN116775497A
Application number: CN202311039512.4A
Authority: CN
Inventors: 刘雨蒙; 万梓航; 苏毅; 赵怡婧; 王潮
Original assignee: Beijing Institute of Remote Sensing Equipment
Current assignee: Beijing Institute of Remote Sensing Equipment
Priority date: 2023-08-17
Filing date: 2023-08-17
Publication date: 2023-09-19
Anticipated expiration: 2043-08-17
Also published as: CN116775497B

Abstract

本发明公开了一种数据库测试用例生成需求描述编码方法。涉及数据块测试的技术领域，该数据库测试用例生成需求描述编码方法包括：获取语料库数据；将带有标签的需求描述的数据集输入词嵌入编码模型，得到多维向量化的词嵌入编码，其中，标签指示需求描述对应的测试用例与应用场景的适配度；将需求描述的文本内容和位置编码输入无监督编码模型进行无监督训练，直至无监督编码模型收敛，并基于收敛的无监督编码模型的子模型确定需求描述对应的无监督编码；利用残差结构的融合网络融合词嵌入编码和无监督编码，得到需求描述的编码结果。本发明解决了数据库测试用例生成需求描述编码依赖规则导致的灵活性差的技术问题。

Description

数据库测试用例生成需求描述编码方法

技术领域

本发明涉及数据块测试的技术领域，具体而言，涉及一种数据库测试用例生成需求描述编码方法。

背景技术

数据库的基准测试是一种用于衡量数据库系统性能的方法，通过运行一系列测试用例来评估系统的各种性能指标，如查询速度、处理能力、资源利用率等。时序数据库是一种专门用于存储和查询时序序列数据的数据库系统，例如传感器数据、日志数据等。

传统的测试用例生成方法是由专业人员根据预定义的规则来手动设计的。首先，由专业测试人员或数据库开发人员进行需求调研，收集数据库应用场景和用户需求的实际情况；根据收集到的需求和场景信息，定义一系列规则来生成测试用例。

用于生成测试用例的规则包括词汇表、语法规范、关键词匹配等，根据规则从词汇表中随机选择数据库相关的术语和操作，形成基本的描述单元；根据语法规范，将多个基本描述单元组合成完整的需求描述句子；对生成的需求描述进行语法和语句的校验，确保需求描述句子的准确性和可读性，从而实现需求描述的生成。

然而，基于规则的数据库系统基准测试的需求描述生成存在以下问题：由于该方法依赖规则的设计和维护，可能存在一定的局限性和主观偏差，灵活性较差，导致难以完全覆盖复杂的数据库系统应用场景，对不同应用场景缺乏指导意义。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据库测试用例生成需求描述编码方法，以至少解决数据库测试用例生成需求描述编码依赖规则导致的灵活性差的技术问题。

根据本发明实施例的一个方面，提供了一种数据库测试用例生成需求描述编码方法，包括：获取语料库数据，其中，上述语料库数据包括时序数据库需求描述；将带有标签的需求描述的数据集输入词嵌入编码模型，得到多维向量化的词嵌入编码，其中，上述标签指示上述需求描述对应的测试用例与应用场景的适配度；将需求描述的文本内容和位置编码输入无监督编码模型进行无监督训练，直至上述无监督编码模型收敛，并基于收敛的无监督编码模型的子模型确定上述需求描述对应的无监督编码，其中，上述位置编码为上述文本内容在词表中的位置；利用残差结构的融合网络融合上述词嵌入编码和无监督编码，得到上述需求描述的编码结果。

优选地，在获取语料库数据之后，还包括：对上述需求描述的文本进行分词，得到上述需求描述的数据集。

优选地，将带有标签的需求描述的数据集输入词嵌入编码模型，得到多维向量化的词嵌入编码，包括：基于上述需求描述的数据集中的每个词语在词表中的位置确定上述词语的编码表达式；基于以上述需求描述的文本为条件的词语条件概率，通过反向传播方式确定上述词语的词语编码，其中，上述词语编码依次通过隐藏层、输出层，计算得到以上述需求描述的文本为条件的词语条件概率；基于上述词语的编码表达式和词语编码，利用梯度下降算法计算嵌入矩阵，其中，上述嵌入矩阵对上述词语的编码表达式进行多维映射得到上述词语编码；基于上述嵌入矩阵得到每个词语多维向量化的词嵌入编码。

优选地，基于上述嵌入矩阵得到每个词语多维向量化的词嵌入编码，包括：获取每个词语与上述嵌入矩阵中每个特征维度的相关度；以多维向量方式表示每个词语与全部特征维度的相关度，形成上述词语的词嵌入编码。

优选地，将需求描述的文本内容和位置编码输入无监督编码模型进行无监督训练，直至上述无监督编码模型收敛，包括：拼接上述需求描述的文本内容和位置编码；将拼接结果输入骨干网络，在每个子模型的掩码多注意力机制层对权重矩阵进行训练更新，并获取每个子模型的输出结果，其中，上述骨干网络包括多个连接的掩码多注意力机制层、归一化层和前馈层组合的子模型，上述输出结果为预测的上述需求描述的下一个词语；将最后一个子模型的输出结果输入分类层，得到预测词语的概率作为分类输出结果，其中，上述无监督编码模型包括上述骨干网络和上述分类层；计算上述分类输出结果的损失值；在上述分类输出结果的损失值小于预设损失阈值时，确定上述无监督编码模型收敛。

优选地，将拼接结果输入骨干网络，在每个子模型的掩码多注意力机制层对权重矩阵进行训练更新，包括：将上述拼接结果输入上述掩码多注意力机制层，分别在多个掩码注意力机制层与随机初始化的多维权重矩阵进行矩阵运算，得到上述拼接结果中各个词语之间的注意力计算结果；将多个掩码注意力基质层各自的注意力计算结果进行拼接，得到注意力结果。

优选地，获取每个子模型的输出结果，包括：将上述注意力结果依次通过归一化层、前馈层和归一化层，得到每个子模型的输出结果。

优选地，基于收敛的无监督编码模型的子模型确定上述需求描述对应的无监督编码，包括：获取上述收敛的无监督编码模型中位于最后预设数量的子模型各自的输出结果；将上述预设数量的输出结果进行全局平均池化，得到上述无监督编码。

根据本发明实施例的另一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述数据库测试用例生成需求描述编码方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的数据库测试用例生成需求描述编码方法。

在本发明实施例中，采用将带有标签的需求描述的数据集输入词嵌入编码模型，得到多维向量化的词嵌入编码，将需求描述的文本内容和位置编码输入无监督编码模型进行无监督训练，直至无监督编码模型收敛，并基于收敛的无监督编码模型的子模型确定需求描述对应的无监督编码，利用残差结构的融合网络融合词嵌入编码和无监督编码，得到需求描述的编码结果的方式，通过融合词嵌入特征和无监督两种编码方式提升时序数据库需求描述的编码泛化性，达到了提升需求描述编码在不同应用场景中的鲁棒性的目的，从而实现了提交数据库测试用例生成需求描述编码灵活性的技术效果，进而解决了数据库测试用例生成需求描述编码依赖规则导致的灵活性差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的数据库测试用例生成需求描述编码方法的流程示意图；

图2是根据本发明实施例的一种可选的数据库测试用例生成需求描述编码方法的流程示意图；

图3是根据本发明实施例的一种可选的词嵌入编码的流程示意图；

图4是根据本发明实施例的一种可选的无监督编码的流程示意图；

图5是根据本发明实施例的一种可选的数据库测试用例生成需求描述编码装置的结构示意图；

图6是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种数据库测试用例生成需求描述编码方法，该数据库测试用例生成需求描述编码方法广泛应用于数据库测试用例生成中需求描述编码的应用场景。

作为一种可选的实施方式，如图1所示，上述数据库测试用例生成需求描述编码方法包括：

S102，获取语料库数据，其中，语料库数据包括时序数据库需求描述；

S104，将带有标签的需求描述的数据集输入词嵌入编码模型，得到多维向量化的词嵌入编码，其中，标签指示需求描述对应的测试用例与应用场景的适配度；

S106，将需求描述的文本内容和位置编码输入无监督编码模型进行无监督训练，直至无监督编码模型收敛，并基于收敛的无监督编码模型的子模型确定需求描述对应的无监督编码，其中，位置编码为文本内容在词表中的位置；

S108，利用残差结构的融合网络融合词嵌入编码和无监督编码，得到需求描述的编码结果。

需要说明的是，词嵌入编码模型和无监督编码模型为两个独立的编码模型。

作为一种可选的实施方式，在获取语料库数据之后，还包括：对需求描述的文本进行分词，得到需求描述的数据集。

不限于利用词嵌入编码模型对需求描述的分词进行编码训练，通过多个大型语料库和大量不同场景下所采用的测试需求描述作为先验知识，通过无监督的方法进行训练，后融合两种编码结果并集合应用场景动态生成测试用例，以应对不同应用场景的测试用例生成任务。

在本申请实施例中，通过融合词嵌入特征和无监督两种编码方式提升时序数据库需求描述的编码泛化性，达到了提升需求描述编码在不同应用场景中的鲁棒性的目的，从而实现了提交数据库测试用例生成需求描述编码灵活性的技术效果，进而解决了数据库测试用例生成需求描述编码依赖规则导致的灵活性差的技术问题。

作为一种可选的实施方式，将带有标签的需求描述的数据集输入词嵌入编码模型，得到多维向量化的词嵌入编码，包括：

S104-2，基于需求描述的数据集中的每个词语在词表中的位置确定词语的编码表达式；

S104-4，基于以需求描述的文本为条件的词语条件概率，通过反向传播方式确定词语的词语编码，其中，词语编码依次通过隐藏层、输出层，计算得到以需求描述的文本为条件的词语条件概率；

S104-6，基于词语的编码表达式和词语编码，利用梯度下降算法计算嵌入矩阵，其中，嵌入矩阵对词语的编码表达式进行多维映射得到词语编码；

S104-8，基于嵌入矩阵得到每个词语多维向量化的词嵌入编码。

作为一种可选的实施方式，基于嵌入矩阵得到每个词语多维向量化的词嵌入编码，包括：

S104-82，获取每个词语与嵌入矩阵中每个特征维度的相关度；

S104-84，以多维向量方式表示每个词语与全部特征维度的相关度，形成词语的词嵌入编码。

作为一种可选的实施方式，将需求描述的文本内容和位置编码输入无监督编码模型进行无监督训练，直至无监督编码模型收敛，包括：

S106-2，拼接需求描述的文本内容和位置编码；

S106-4，将拼接结果输入骨干网络，在每个子模型的掩码多注意力机制层对权重矩阵进行训练更新，并获取每个子模型的输出结果，其中，骨干网络包括多个连接的掩码多注意力机制层、归一化层和前馈层组合的子模型，输出结果为预测的需求描述的下一个词语；

S106-6，将最后一个子模型的输出结果输入分类层，得到预测词语的概率作为分类输出结果，其中，无监督编码模型包括骨干网络和分类层；

S106-8，计算分类输出结果的损失值；

S106-10，在分类输出结果的损失值小于预设损失阈值时，确定无监督编码模型收敛。

作为一种可选的实施方式，将拼接结果输入骨干网络，在每个子模型的掩码多注意力机制层对权重矩阵进行训练更新，包括：

S106-42，将拼接结果输入掩码多注意力机制层，分别在多个掩码注意力机制层与随机初始化的多维权重矩阵进行矩阵运算，得到拼接结果中各个词语之间的注意力计算结果；

S106-44，将多个掩码注意力基质层各自的注意力计算结果进行拼接，得到注意力结果。

作为一种可选的实施方式，获取每个子模型的输出结果，包括：将注意力结果依次通过归一化层、前馈层和归一化层，得到每个子模型的输出结果。

作为一种可选的实施方式，基于收敛的无监督编码模型的子模型确定需求描述对应的无监督编码，包括：获取收敛的无监督编码模型中位于最后预设数量的子模型各自的输出结果；将预设数量的输出结果进行全局平均池化，得到无监督编码。

上述数据库测试用例生成需求描述编码方法的应用流程不限于如图2所示。

准备工作：收集大规模的文本语料库数据。具体不限于包括网页内容、百科内容、书籍、新闻文章等多种文本来源，使模型能够学习尽可能多的语言知识，收集大量时序数据库需求描述的文本内容，为后续模型训练做准备。

步骤一，基于词嵌入编码模型编码时序数据库需求描述文本。

该步骤的流程不限于如图3所示，词嵌入编码模型的输入是带标注的需求描述数据集，包括指标体系和应用逻辑，指标体系为基准测试中衡量数据库系统的性能标准，如吞吐量等；应用逻辑主要包括需求描述的测试环境和执行逻辑等，其中时序数据库系统查询操作包括聚合查询、求和、求均值、余弦算子、流计算和发布订阅等。该应用示例中需求描述的示例不限于为：“在飞腾2000/4上查询五分钟内左发排气温度的最大值与最小值相减用以测试数据库系统的查询性能”。

模型的输入数据集由单词或短语组成的需求描述和测试用例的标签构成，标签内容为该测试用例是否适合当前应用场景，格式是0或1的布尔值，分别代表不适合当前应用场景和适合当前应用场景；

词嵌入编码模型利用词嵌入的单词表示特征化技术，采用独热编码的方法对文本进行编码，词表的维度等于单词和短语的数量，单词和短语按字母顺序排列，每个单词短语的特征表示是自身在词表的位置处为1其它位置则是0。例如：“查询性能”[1：0，…，3554：1，3555：0，…，：0]，“3554：1”表示词表中第3554位是1，/>是词表的长度；假设输入词嵌入编码模型的文本是“飞腾2000/4”，“查询”，“五分钟内”，“左发排气”，“温度”，“最大值”，“最小值”，“相减”，“查询性能”，对应于词表中单词或短语的编码表达形式不限于分别为/>，，/>，/>，/>，/>，/>，/>，和/>。

设置嵌入矩阵中的特征数，用以从多个特征维度对文本进行描述；再将嵌入编码后的文本输入到神经网络中，通过隐藏层，再利用/>输出层计算以文本为条件下的词表中所有单词短语出现的条件概率。通过反向传播的方式，利用梯度下降算法计算嵌入矩阵/>。

嵌入矩阵不限于为词嵌入特征表示表，将一个单词或短语映射到一个多维的特征矩阵中，每个维度的值代表单词或短语在这个特征维度下的相关性。如图3中的词嵌入特征表示所示，行是单词或短语，如“飞腾2000/4”，“查询”，“五分钟内”，“左发排气”，“温度”，“最大值”，“最小值”，“相减”和“查询性能”；列是用以描述单词或短语的特征，如“数据集”，“测试环境”，“查询范围”，“计算方式”，“性能指标”和“操作”；以“计算方式”描述特征为例，用以描述单词或短语和“计算方式”的相关程度，“最大值”和“最小值”都是计算方式，所以与这个特征描述的高度相关，因此这里的相关系数分别都是0.97；相反的，由于“数据集”这个描述特征与“最大值”和“最小值”两个词语并不相关，所以相关程度低，相关系数分别为0.01和-0.01。需要说明的是，数值的正负与相关程度无关，相关程度以数值的绝对值大小为基准。

以多维向量化的形式输出词嵌入编码，用以将单词或短语映射到高维的特征空间，用大量特征描述进行相关性的表达，相关性强的单词或短语在空间中更聚集，而相关性弱的单词或短语则在空间中更分散。

步骤二，通过多个大型语料库和大量时序数据库需求描述文本对无监督编码模型进行无监督训练。

该步骤的示意流程图如图4所示，输入时序数据库需求描述的文本内容和位置编码/>，/>通过随机初始化权重矩阵，通过神经网络的训练进行更新。模型的骨干网络由/>层移除多注意力机制层的Transformer模型的解码器（子模型）组成，结构包括掩码多注意力机制层、归一化层和前馈层，采用了残差结构以增强网络的学习能力，避免训练结果的退化问题。

将文本内容和位置编码/>进行拼接得到/>，/>，表示输入中分词的编码，将拼接结果/>输入掩码多注意力机制层，其由多个掩码注意力机制层构成；/>分别与随机初始化的可学习权重矩阵/>，/>，/>进行矩阵运算得到查询矩阵/>，键矩阵/>，特征矩阵/>，其中/>，/>，/>通过训练进行更新，对于相同层节点的计算，/>，/>，/>的权重参数是共享的。

一个输入中的分词/>和分词/>进行注意力的计算，采用/>的查询矩阵/>和/>的键矩阵/>进行矩阵运算，对运算结果进行归一化操作/>，采用/>激活函数获取/>，/>之间的相关性系数，最后乘/>的值矩阵/>得到/>，/>的注意力/>，可用如下公式（1）表示：

（1）

其中，是/>键矩阵的转置，/>是键矩阵的维数；对于/>全局的注意力/>，可以用如下公式（2）表示：/> （2）

接着，注意力计算的结果通过前馈网络，可以用如下公式（3）表示：

（3）

其中，是非线性的激活函数，/>和/>是可学习的权重矩阵，/>和/>是偏置。

对于多头注意力的计算，可以用如下公式（4）表示：

（4）

其中，是第/>个注意力头结构.

将单个注意力头的计算结果进行拼接得到最终的结果，可以用如下公式表示：

（5）

其中，||表示拼接操作，，/>，/>是不同单个注意力计算的结果，/>是权重矩阵。

最后，依次通过归一化层、前馈层和归一化层，得到输出结果，可以用如下公式表示：

（6）

对每个归一化层的输入都进行残差的计算，将输出结果经过/>层进行分类，得到预测的下一个分词的概率，可以用如下公式表示：（7）

其中，是标签，/>是词表中的单词或短语，/>是预测输出的权重矩阵。

利标签对分类输出结果进行损失计算，损失函数使用交叉熵函数，可以用如下公式表示：

（8）

通过反向传播过程，利用梯度下降算法，对多个权重矩阵进行更新，提升模型性能。

步骤三，获取无监督编码模型中的编码结果并融合两种编码结果并生成测试用例。

具体不限于从无监督模型的层子模型结构的后五层分别提取出隐藏层特征，其中/>是模型的最终层，并用全局平均池化获取平均编码结果作为文本的编码结果，可以用如下公式表示：（9）

根据嵌入矩阵中单词和短语的编码表征，得到文本的编码结果/>；通过两层全连接层来融合信息，融合两种不同的编码方法/>和/>作为文本的最终编码结果；融合网络使用残差结构，可以用如下公式表示：

（10）

（11）

其中，是全连接层。

输出是需求描述的最终编码结果，用于后续的时序数据库需求描述的生成任务或其它相关任务。

基于需求描述的最终编码结果生成测试用例不限于基于生成器网络来生成符合需求的测试用例。将需求描述的编码结果进行数据预处理后输入到模型中；构建生成器网络，该网络将需求描述的编码结果作为输入，生成测试用例；生成器网络可以使用GAN（生成对抗网络）或VAE（变分自编码器）。

确定生成测试用例的目标，包括与需求描述相似的、合理的的测试用例，也可以是具有特定性质的测试用例，如边界值测试用例或错误场景测试用例。

使用目标测试用例作为训练数据，将需求描述的编码结果作为输入，训练生成网络；训练的目标是使生成器网络能够生成符合目标的测试用例。

完成训练后，使用生成器网络来生成测试用例；将需求描述的编码结果作为输入，通过生成器网络生成符合目标的测试用例。

生成的测试用例继续评估和优化；使用评估指标来衡量测试用例的质量和覆盖率，然后根据评估结果对生成器网络进行优化，以获得更好的测试用例生成效果。

基于大量的训练数据和计算资源，生成可靠和多样的时序数据库测试用例。

在本申请实施例中，采用词嵌入编码模型从数据库测试基准的需求描述提取出的高维特征来对需求描述的分词进行表征，以表征不同分词的相似度和距离，同时学习需求描述中分词的语义关系；通过提取高维特征的方法将需求描述中的分词表示为一个连续的向量，使得信息更加紧凑和丰富，进而可以作为特征输入到其它任务中，以应对不同的应用场景；采用需求描述无监督编码模型可以充分利用大量需求描述的上下文信息，并处理需求描述中句子间的长依赖关系，避免早期句子信息的丢失，提升数据库基准测的需求描述的编码质量；通过融合两种编码结果的方法提升时序数据库需求描述的编码泛化性，提升在不同应用场景中的鲁棒性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述数据库测试用例生成需求描述编码方法的数据库测试用例生成需求描述编码装置。如图5所示，该装置包括：

获取单元502，获取语料库数据，其中，语料库数据包括时序数据库需求描述；

词嵌入编码单元504，将带有标签的需求描述的数据集输入词嵌入编码模型，得到多维向量化的词嵌入编码，其中，标签指示需求描述对应的测试用例与应用场景的适配度；

无监督编码单元506，将需求描述的文本内容和位置编码输入无监督编码模型进行无监督训练，直至无监督编码模型收敛，并基于收敛的无监督编码模型的子模型确定需求描述对应的无监督编码，其中，位置编码为文本内容在词表中的位置；

融合单元508，利用残差结构的融合网络融合词嵌入编码和无监督编码，得到需求描述的编码结果。

可选地，上述获取单元502在获取语料库数据之后，对需求描述的文本进行分词，得到需求描述的数据集。

可选地，上述词嵌入编码单元504将带有标签的需求描述的数据集输入词嵌入编码模型，得到多维向量化的词嵌入编码，包括：基于需求描述的数据集中的每个词语在词表中的位置确定词语的编码表达式；基于以需求描述的文本为条件的词语条件概率，通过反向传播方式确定词语的词语编码，其中，词语编码依次通过隐藏层、输出层，计算得到以需求描述的文本为条件的词语条件概率；基于词语的编码表达式和词语编码，利用梯度下降算法计算嵌入矩阵，其中，嵌入矩阵对词语的编码表达式进行多维映射得到词语编码；基于嵌入矩阵得到每个词语多维向量化的词嵌入编码。

可选地，上述词嵌入编码单元504基于嵌入矩阵得到每个词语多维向量化的词嵌入编码，包括：获取每个词语与嵌入矩阵中每个特征维度的相关度；以多维向量方式表示每个词语与全部特征维度的相关度，形成词语的词嵌入编码。

可选地，上述无监督编码单元506将需求描述的文本内容和位置编码输入无监督编码模型进行无监督训练，直至无监督编码模型收敛，包括：拼接需求描述的文本内容和位置编码；将拼接结果输入骨干网络，在每个子模型的掩码多注意力机制层对权重矩阵进行训练更新，并获取每个子模型的输出结果，其中，骨干网络包括多个连接的掩码多注意力机制层、归一化层和前馈层组合的子模型，输出结果为预测的需求描述的下一个词语；将最后一个子模型的输出结果输入分类层，得到预测词语的概率作为分类输出结果，其中，无监督编码模型包括骨干网络和分类层；计算分类输出结果的损失值；在分类输出结果的损失值小于预设损失阈值时，确定无监督编码模型收敛。

可选地，上述无监督编码单元506将拼接结果输入骨干网络，在每个子模型的掩码多注意力机制层对权重矩阵进行训练更新，包括：将拼接结果输入掩码多注意力机制层，分别在多个掩码注意力机制层与随机初始化的多维权重矩阵进行矩阵运算，得到拼接结果中各个词语之间的注意力计算结果；将多个掩码注意力基质层各自的注意力计算结果进行拼接，得到注意力结果。

可选地，上述无监督编码单元506获取每个子模型的输出结果，包括：将注意力结果依次通过归一化层、前馈层和归一化层，得到每个子模型的输出结果。

可选地，上述无监督编码单元506基于收敛的无监督编码模型的子模型确定需求描述对应的无监督编码，包括：获取收敛的无监督编码模型中位于最后预设数量的子模型各自的输出结果；将预设数量的输出结果进行全局平均池化，得到无监督编码。

根据本发明实施例的又一个方面，还提供了一种用于实施上述数据库测试用例生成需求描述编码方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图6所示，该电子设备包括存储器602和处理器604，该存储器602中存储有计算机程序，该处理器604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取语料库数据，其中，语料库数据包括时序数据库需求描述；

S2，将带有标签的需求描述的数据集输入词嵌入编码模型，得到多维向量化的词嵌入编码，其中，标签指示需求描述对应的测试用例与应用场景的适配度；

S3，将需求描述的文本内容和位置编码输入无监督编码模型进行无监督训练，直至无监督编码模型收敛，并基于收敛的无监督编码模型的子模型确定需求描述对应的无监督编码，其中，位置编码为文本内容在词表中的位置；

S4，利用残差结构的融合网络融合词嵌入编码和无监督编码，得到需求描述的编码结果。

可选地，本领域普通技术人员可以理解，图6所示的结构仅为示意，电子设备也可以是任意终端设备。图6其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图6中所示更多或者更少的组件（如网络接口等），或者具有与图6所示不同的配置。

其中，存储器602可用于存储软件程序以及模块，如本发明实施例中的智能设备的监控方法和装置对应的程序指令/模块，处理器604通过运行存储在存储器602内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据库测试用例生成需求描述编码方法。存储器602可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器602可进一步包括相对于处理器604远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器602具体可以但不限于用于存储需求描述、词嵌入编码模型、无监督编码模型、编码结果等信息。作为一种示例，如图6所示，上述存储器602中可以但不限于包括上述数据库测试用例生成需求描述编码装置中的获取单元502、词嵌入编码单元504、无监督编码单元506和融合单元508。此外，还可以包括但不限于上述数据库测试用例生成需求描述编码装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置606包括一个网络适配器（Network Interface Controller，NIC），其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置606为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器608，用于显示上述需求描述和编码结果；和连接总线610，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点（P2P，Peer To Peer）网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述数据库测试用例生成需求描述编码方面的各种可选实现方式中提供的方法。其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（Random Access Memory，RAM）、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据库测试用例生成需求描述编码方法，其特征在于，包括：

获取语料库数据，其中，所述语料库数据包括时序数据库需求描述；

将带有标签的需求描述的数据集输入词嵌入编码模型，得到多维向量化的词嵌入编码，其中，所述标签指示所述需求描述对应的测试用例与应用场景的适配度；

将需求描述的文本内容和位置编码输入无监督编码模型进行无监督训练，直至所述无监督编码模型收敛，并基于收敛的无监督编码模型的子模型确定所述需求描述对应的无监督编码，其中，所述位置编码为所述文本内容在词表中的位置；

利用残差结构的融合网络融合所述词嵌入编码和无监督编码，得到所述需求描述的编码结果。

2.根据权利要求1所述的方法，其特征在于，在获取语料库数据之后，还包括：

对所述需求描述的文本进行分词，得到所述需求描述的数据集。

3.根据权利要求1所述的方法，其特征在于，将带有标签的需求描述的数据集输入词嵌入编码模型，得到多维向量化的词嵌入编码，包括：

基于所述需求描述的数据集中的每个词语在词表中的位置确定所述词语的编码表达式；

基于以所述需求描述的文本为条件的词语条件概率，通过反向传播方式确定所述词语的词语编码，其中，所述词语编码依次通过隐藏层、输出层，计算得到以所述需求描述的文本为条件的词语条件概率；

基于所述词语的编码表达式和词语编码，利用梯度下降算法计算嵌入矩阵，其中，所述嵌入矩阵对所述词语的编码表达式进行多维映射得到所述词语编码；

基于所述嵌入矩阵得到每个词语多维向量化的词嵌入编码。

4.根据权利要求3所述的方法，其特征在于，基于所述嵌入矩阵得到每个词语多维向量化的词嵌入编码，包括：

获取每个词语与所述嵌入矩阵中每个特征维度的相关度；

以多维向量方式表示每个词语与全部特征维度的相关度，形成所述词语的词嵌入编码。

5.根据权利要求1所述的方法，其特征在于，将需求描述的文本内容和位置编码输入无监督编码模型进行无监督训练，直至所述无监督编码模型收敛，包括：

拼接所述需求描述的文本内容和位置编码；

将拼接结果输入骨干网络，在每个子模型的掩码多注意力机制层对权重矩阵进行训练更新，并获取每个子模型的输出结果，其中，所述骨干网络包括多个连接的掩码多注意力机制层、归一化层和前馈层组合的子模型，所述输出结果为预测的所述需求描述的下一个词语；

将最后一个子模型的输出结果输入分类层，得到预测词语的概率作为分类输出结果，其中，所述无监督编码模型包括所述骨干网络和所述分类层；

计算所述分类输出结果的损失值；

在所述分类输出结果的损失值小于预设损失阈值时，确定所述无监督编码模型收敛。

6.根据权利要求5所述的方法，其特征在于，将拼接结果输入骨干网络，在每个子模型的掩码多注意力机制层对权重矩阵进行训练更新，包括：

将所述拼接结果输入所述掩码多注意力机制层，分别在多个掩码注意力机制层与随机初始化的多维权重矩阵进行矩阵运算，得到所述拼接结果中各个词语之间的注意力计算结果；

将多个掩码注意力基质层各自的注意力计算结果进行拼接，得到注意力结果。

7.根据权利要求6所述的方法，其特征在于，获取每个子模型的输出结果，包括：

将所述注意力结果依次通过归一化层、前馈层和归一化层，得到每个子模型的输出结果。

8.根据权利要求1所述的方法，其特征在于，基于收敛的无监督编码模型的子模型确定所述需求描述对应的无监督编码，包括：

获取所述收敛的无监督编码模型中位于最后预设数量的子模型各自的输出结果；

将所述预设数量的输出结果进行全局平均池化，得到所述无监督编码。

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至8任一项中所述的方法。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。