CN110263029A

CN110263029A - 数据库生成测试数据的方法、装置、终端及介质

Info

Publication number: CN110263029A
Application number: CN201910372232.2A
Authority: CN
Inventors: 李思原
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-06
Filing date: 2019-05-06
Publication date: 2019-09-20
Anticipated expiration: 2039-05-06
Also published as: CN110263029B

Abstract

本发明属于数据库技术领域，公开了一种数据库生成测试数据的方法、装置、终端及介质，通过获取需要生成测试数据的数据库表及所述数据库表中数据的数据类型，再将所述数据库表中预先存储的与所述数据类型对应的数据范围，作为所述测试数据的数据范围，再在所述数据范围内，随机生成目标数据，最后根据预设的所述测试数据的插入规则，将生成的目标数据插入到所述数据库表中，提高了数据库中数据插入的效率。

Description

数据库生成测试数据的方法、装置、终端及介质

技术领域

本发明涉及数据库技术领域，尤其涉及一种数据库生成测试数据的方法、装置、终端及介质。

背景技术

数据库(Database，DB)是长期存储在计算机内的、有组织的、可共享的、统一管理的数据集合，是一个按数据结构来存储和管理数据的计算机软件系统。目前，常用的数据库有Oracle数据库、SQL(Structured Query Language，结构化查询语言)数据库、Sybase数据库等。

在进行软件测试时，采用现有技术录入测试数据时，录入过程繁琐且耗时较长，测试数据的录入效率较低；而且采用编写的程序录入测试数据时，由于该程序指定的规则有限，会使得录入的测试数据不完整、不全面，导致录入的数据与预期目标相差较大。

因此，在开发与测试过程中，经常需要往数据库中插入假数据，目前存在两种方法插入测试数据：一是手动插入，这种方法费时费力；二是编写脚本程序插入，这种方法要求操作者有较强的脚本编写能力，而且，针对不同的数据库，不同的表结构，要编写不同的脚本程序，同样需要耗费大量时间。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种数据库生成测试数据的方法、装置、终端及介质，旨在提高数据库中测试数据插入的效率。

为实现上述目的，本发明提供了一种数据库生成测试数据的方法，所述方法包括：

获取需要生成测试数据的数据库表及所述数据库表中数据的数据类型；

将所述数据库表中预先存储的与所述数据类型对应的数据范围，作为所述测试数据的取值范围；

在所述取值范围内，随机生成目标数据；

根据预设的所述测试数据的插入规则，将生成的目标数据插入到所述数据库表中。

优选地，所述数据类型为数值数据；

相应地，所述将所述数据库表中预先存储的与所述数据类型对应的数据范围，作为所述测试数据的取值范围的步骤，包括：

将所述数据库表中预先存储的与所述数据类型对应的区间范围，作为所述测试数据的取值范围。

优选地，所述数据类型为语句；

获取所述数据库表中预先存储的与所述数据类型对应的带标签的训练样本数据，并生成对应的分类词向量；

将所述分类词向量正向输入已训练的自编码神经网络模型，得到样本数据的隐含特征；

计算样本数据的所述隐含特征的向量差，并作为所述测试数据的取值范围。

优选地，所述在所述取值范围内，随机生成目标数据的步骤，包括：

获取所述数据库表中预设的参考数据，并生成所述参考数据对应的文本词向量；

将所述文本词向量逆向输入已训练的自编码神经网络模型，得到所述自编码神经网络模型的中间隐层的隐含特征；

在所述取值范围内随机生成取值需求，并根据生成的取值需求修正所述隐含特征；

将修正后的隐含特征作为所述自编码神经网络模型的中间隐层，自所述中间隐层逆向生成所述自编码神经网络模型的输入层对应的词向量；

根据生成的词向量，生成对应的文本，作为目标数据。

优选地，所述在所述取值范围内随机生成取值需求，并根据生成的取值需求修正所述隐含特征的步骤，包括：

在所述取值范围内，随机生成所述隐含特征对应的调节向量；

将所述隐含特征与所述调节向量的向量差，作为修正后的隐含特征。

优选地，所述自编码神经网络模型的中间隐层为多层时；

相应地，所述将所述文本词向量逆向输入已训练的自编码神经网络模型，得到所述自编码神经网络模型的中间隐层的隐含特征的步骤，包括：

将所述文本词向量从已训练的自编码神经网络模型的输出层输入，自所述输出层逆向生成所述自编码神经网络模型的中间隐层的隐含特征，作为所述自编码神经网络模型的中间隐层的隐含特征，其中，

当所述中间隐层为奇数层时，取最中间的中间隐层对应的隐含特征作为所述自编码神经网络模型的中间隐层的隐含特征；

当所述中间隐层为偶数层时，取最中间的两个中间隐层对应的隐含特征的平均值作为所述自编码神经网络模型的中间隐层的隐含特征。

优选地，所述获取所述数据库表中预设的参考数据，并生成所述参考数据对应的文本词向量的步骤之前，所述方法还包括如下步骤：

建立自编码神经网络模型；

获取不带类别标签的训练样本数据，并生成对应的词向量；

将所述词向量正向输入，训练所述自编码神经网络模型，其中，训练过程为：

将所述词向量正向输入，正向训练所述自编码神经网络模型的第一隐层，在隐层为多层时，将第一隐层由原始输入转化成由隐藏单元激活值组成的向量，将该向量作为第二隐层的输入，继续训练得到第二层的参数，重复执行将前一层的输出作为下一层输入依次训练，在训练每一层参数的时候，其他各层的参数保持不变。

为实现上述目的，本发明提供了一种数据库生成测试数据的装置，包括：

获取模块，用于获取需要生成测试数据的数据库表及所述数据库表中数据的数据类型；

分析模块，用于将所述数据库表中预先存储的与所述数据类型对应的数据范围，作为所述测试数据的取值范围；

生成模块，用于在所述取值范围内，随机生成目标数据；

插入模块，用于根据预设的所述测试数据的插入规则，将生成的目标数据插入到所述数据库表中。

为实现上述目的，本发明提供了一种终端，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据库生成测试数据的程序，所述数据库生成测试数据的程序配置为实现上述的数据库生成测试数据的方法的步骤。

为实现上述目的，本发明提供了一种存储介质，所述存储介质上存储有数据库生成测试数据的程序，所述数据库生成测试数据的程序被处理器执行时实现上述的数据库生成测试数据的方法的步骤。

本发明通过获取需要生成测试数据的数据库表及所述数据库表中数据的数据类型，再将所述数据库表中预先存储的与所述数据类型对应的数据范围，作为所述测试数据的数据范围，再在所述数据范围内，随机生成目标数据，最后根据预设的所述测试数据的插入规则，将生成的目标数据插入到所述数据库表中，提高了数据库中数据插入的效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端的结构示意图；

图2为本发明数据库生成测试数据的方法第一实施例的流程示意图；

图3为本发明数据库生成测试数据的方法第二实施例的流程示意图；

图4为本发明数据库生成测试数据的方法第三实施例的流程示意图；

图5为本发明数据库生成测试数据的方法第四实施例的流程示意图；

图6为本发明数据库生成测试数据的方法第五实施例的流程示意图

图7为本发明数据库生成测试数据的装置第一实施例的结构框图；

图8为本发明自编码神经网络学习模型一实施例的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的用户行为识别设备结构示意图。

如图1所示，该终端可以包括：处理器1001，例如中央处理器(Central ProcessingUnit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及数据库生成测试数据的程序。

在图1所示的终端中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明终端中的处理器1001、存储器1005可以设置在终端中，所述终端通过处理器1001调用存储器1005中存储的数据库生成测试数据的程序，并执行本发明实施例提供的数据库生成测试数据的方法。

本发明实施例提供了一种数据库生成测试数据的方法，参照图2，图2为本发明数据库生成测试数据的方法第一实施例的流程示意图。

本实施例中，所述数据库生成测试数据的方法包括如下步骤：

步骤S10：获取需要生成测试数据的数据库表及所述数据库表中的数据类型；

应该理解的是，本实施例方法的执行主体为终端，测试数据可以为数值数据，例如1.23、2.65等；也可以是语句，例如评价语句，通常包括正面评价、负面评价，也可以包括正面评价、负面评价、中性评价等。

步骤S20：将所述数据库表中预先存储的与所述数据类型对应的数据范围，作为所述测试数据的取值范围；

应该理解的是，在数据类型为数值时，数据范围通常指的是数值范围，即按照预先存储的与所述数据类型对应的数值的区间范围，作为取值范围；而在数据类型为语句时，通常指的是分类之间尺度，例如文本分类可以分为两类，分别为正面评价、负面评价，而由正面评价到负面评价之间的尺度即取值范围。取值范围可以是预先根据不同分类定义的，也可以是分析数据库表中所述数据类型对应的数据对应的取值范围。

步骤S30：在所述取值范围内，随机生成目标数据；

具体实现时，在数据类型为数值时，在取值范围(数值范围)的范围内，随机生成取值范围内的数值，作为目标数据，随机生成的方法可以利用函数rand()，srand()等随机函数；

在数据类型为语句，以评价语句为例，评价语句分为正面评价语句、负面评价语句、中性评价语句，在取值范围内随机评价语句，可以为正面评价语句，也可以是负面评价语句，也可以是中性评价语句，作为目标数据。

步骤S40：根据预设的所述测试数据的插入规则，将生成的目标数据插入到所述数据库表中。

具体实现时，根据预设的所述测试数据的插入规则，将生成的目标数据插入到所述数据库表中的方法包括：

在数据库表中获取与目标数据相对应的数据序号；

将数据序号与生成的目标数据插入至数据库表。

在其他实施例中，插入生成的目标数据的方法也可以采用本领域公知的技术手段，在此不做具体限制。

参考图3，图3为本发明数据库生成测试数据的方法第二实施例的流程示意图。

基于上述第一实施例，所述数据类型为数值数据；在本实施例中，所述步骤S20，包括：

步骤S21：将所述数据库表中预先存储的与所述数据类型对应的区间范围，作为所述测试数据的取值范围。

应该理解的是，在数据类型为数值数据时，分析数据库中所述数据类型对应的数据的区间范围，即分析数据库中所述数据类型对应的数据的最大值和最小值，作为所述测试数据的取值范围，随机生成目标数据时在该区间范围内随机生成即可。随机生成的函数可以采用常规的随机函数，在此不做具体限制。

参考图4，图4为本发明数据库生成测试数据的方法第三实施例的流程示意图。

基于上述第一实施例，所述数据类型为语句；在本实施例中，所述步骤S20，包括：

步骤S21’：获取所述数据库表中预先存储的与所述数据类型对应的带标签的训练样本数据，并生成对应的分类词向量；

应该理解的是，以数据类型为评价语句为例，评价语句可以分为正面评价语句和负面评价语句，带标签的训练样本数据指的是训练样本数据带有标签(例如带有正面评价或负面评价的标签)。

具体实现时，将训练样本数据生成对应的分类词向量的步骤包括：获取训练样本数据，并对训练样本数据进行预处理；获取预处理后的训练样本数据的文本词向量。

对训练样本数据进行预处理通常包括：去除停用词，即文本中大量出现的对文本没有太大作用的词，例如汉语中“的”、“地”、“得”等，也可以是网页数据集中html标签，脚本语言等。

例如输入的文本为doc，则对应的文本词向量为{ω₁、ω₂、…、ω_n}，ω_i为语句中第i个词的词向量。

步骤S22’：将所述分类词向量正向输入已训练的自编码神经网络模型，得到样本数据的隐含特征；

应该理解的是，将所述分类词向量正向输入所述已训练的自编码神经网络模型指的是，将所述分类词向量作为已训练的自编码神经网络模型的输入，正向得到中间隐层的隐含特征，作为多类样本的隐含特征(请参阅图8，图8为中间隐层为1层的情况，将分类词向量从LayerL1输入，得到中间隐层LayerL2的隐含特征)，当中间隐层数为多层时，取最中间的隐层得到的隐含特征作为多类样本的隐含特征。例如中间隐层数为3层时，则取中间的第二层得到的隐含特征作为多类样本的隐含特征，又例如中间隐层数为2层时，则取两个中间隐层的隐含特征的平均值作为多类样本的隐含特征。

自编码神经网路模型的训练过程包括：

预训练，利用不带类别标签的训练样本，正向训练自编码神经网络模型的第一隐层L2，得到(W¹,b¹)，在隐层为多层时，网络第一隐层将原始输入转化成由隐藏单元激活值组成的向量，接着把该向量作为第二隐层L3的输入，继续训练得到第二层的参数(W²,b²)，重复执行将前一层的输出作为下一层输入依次训练，在训练每一层参数的时候，其他各层的参数保持不变。也可以是在预训练完成后，通过反向传播算法同时调整所有层的参数，以完善结果。

步骤S23’：计算样本数据的所述隐含特征的向量差，并作为所述测试数据的取值范围。

应该理解的是，所述计算样本的所述隐含特征的向量差，并作为所述测试的取值范围，以评价文本为例，评价可分为正面评价和负面评价，第i维特征取值范围表示为L_i＝|h_1i-h_2i|，其中，h_1i为第i维特征正面评价样本的隐含特征平均值，h_2i为第i维特征负面评价样本的隐含特征平均值。

参考图5，图5为本发明数据库生成测试数据的方法第四实施例的流程示意图。

基于上述第三实施例，在本实施例中，所述步骤S30，包括：

步骤S31：获取所述数据库中预设的参考数据，并生成所述参考数据对应的文本词向量；

应该理解的是，在所述数据类型为语句时，获取数据库中预设的参考数据生成所述参考数据对应的文本词向量，具体实现时，获取数据库中预设的参考数据，并对参考数据进行预处理；获取预处理后的参考数据的文本词向量。

对参考数据进行预处理通常包括：去除停用词，即文本中大量出现的对文本没有太大作用的词，例如汉语中“的”、“地”、“得”等，也可以是网页数据集中html标签，脚本语言等。

预设的参考数据，以评价文本为例，可以是预先设置的选择正面评价文本作为参考数据，以参考数据为基础，随机生成取值需求，并以此修正隐含特征，也可以选择负面评价文本作为参考数据。

具体实现时，在步骤S31之前，所述方法还包括如下步骤：

建立自编码神经网络模型；

获取不带类别标签的训练样本数据，并生成对应的词向量；

步骤S32：将所述文本词向量逆向输入已训练的自编码神经网络模型，得到所述自编码神经网络模型的中间隐层的隐含特征；

应该理解的是，将所述文本词向量逆向输入已训练的自编码神经网络模型指的是，将所述文本词向量作为已训练的自编码神经网络模型的输出，逆向得到中间隐层的隐含特征(请参阅图8，图8为中间隐层为1层的情况，将文本词向量从LayerL3输入，得到中间隐层LayerL2的隐含特征)。当中间隐层数为多层时，取最中间的隐层得到的隐含特征作为所述中间隐层的隐含特征。例如中间隐层数为3层时，则取中间的第二层得到的隐含特征作为所述中间隐层的隐含特征，又例如中间隐层数为2层时，则取两个中间隐层的隐含特征的平均值作为中间隐层的隐含特征，以此类推，当中间隐层数为奇数层时，取最中间的隐层得到的隐含特征作为所述中间隐层的隐含特征，当中间隐层数为偶数层时，则取最中间的两个中间隐层的隐含特征的平均值作为中间隐层的隐含特征。

具体实现时，所述将所述文本词向量逆向输入已训练的自编码神经网络模型，得到所述自编码神经网络模型的中间隐层的隐含特征包括：

步骤S33：在所述取值范围内随机生成取值需求，并根据生成的取值需求修正所述隐含特征；

应该理解的是，在所述取值范围内随机生成取值需求，以评价文本为例，第i维特征取值范围表示为L_i＝|h_1i-h_2i|，其中，h_1i为第i维特征正面评价样本的隐含特征平均值，h_2i为第i维特征负面评价样本的隐含特征平均值，取值需求可以为k*L_i，k为随机生成的参数值。

步骤S34：将修正后的隐含特征作为所述自编码神经网络模型的中间隐层，自所述中间隐层逆向生成所述自编码神经网络模型的输入层对应的词向量；

应该理解的是，所述将修正后的隐含特征作为所述自编码神经网络模型的中间隐层，自所述中间隐层逆向生成所述自编码神经网络模型的输入层对应的词向量是对修正后的隐含特征，解码为自编码神经网络模型的输入(如图8中，以中间隐层为单层为例，自LayerL2层解码得到LayerL1层，得到对应的词向量)。

步骤S35：根据生成的词向量，生成对应的文本，作为目标数据。

应该理解的，所述根据生成的词向量，生成对应的文本的步骤是将生成的词向量对应的词语，形成文本。形成文本的方式可以是直接将各词语连接在一起，形成文本，也可以是按照一定的规则将各词语组成文本。

参考图6，图6为本发明数据库生成测试数据的方法第五实施例的流程示意图。

基于上述第四实施例，在本实施例中，所述步骤S33，包括：

步骤S331：在所述取值范围内，随机生成所述隐含特征对应的调节向量；

应该理解的是，以评价文本为例，第i维特征取值范围表示为L_i＝|h_1i-h2i|，其中，h_1i为第i维特征正面评价样本的隐含特征平均值，h_2i为第i维特征负面评价样本的隐含特征平均值，随机生成所述隐含特征对应的调节向量k*L_i，k为随机生成的参数值。

步骤S332：将所述隐含特征与所述调节向量的向量差，作为修正后的隐含特征。

应该理解的是，根据确定的调节向量，修正所述隐含特征，可以是取隐含特征与调节向量的向量差，也可以是作为权值，以使修正后的隐含特征在解码后按取值需求输出。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有数据库生成测试数据的程序，所述数据库生成测试数据的程序被处理器执行时实现如上文所述的数据库生成测试数据的方法的步骤。

参照图7，图7为本发明基于数据库生成测试数据的装置第一实施例的结构框图。

如图7所示，本发明实施例提出的数据库生成测试数据的装置包括：

获取模块701，用于获取需要生成测试数据的数据库表及所述数据库表中数据的数据类型；

应该理解的是，测试数据可以为数值数据，例如1.23、2.65等；也可以是语句，例如评价语句，通常包括正面评价、负面评价，也可以包括正面评价、负面评价、中性评价等。

分析模块702，用于将所述数据库表中预先存储的与所述数据类型对应的数据范围，作为所述测试数据的取值范围；

生成模块703，用于在所述取值范围内，随机生成目标数据；

插入模块704，用于根据预设的所述测试数据的插入规则，将生成的目标数据插入到所述数据库表中。

在数据库表中获取与目标数据相对应的数据序号；

将数据序号与生成的目标数据插入至数据库表。

本发明基于数据库生成测试数据的装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据库生成测试数据的方法，其特征在于，所述方法包括：

在所述取值范围内，随机生成目标数据；

2.如权利要求1所述的数据库生成测试数据的方法，其特征在于，所述数据类型为数值数据；

3.如权利要求1所述的数据库生成测试数据的方法，其特征在于，所述数据类型为语句；

4.如权利要求3所述的数据库生成测试数据的方法，其特征在于，所述在所述取值范围内，随机生成目标数据的步骤，包括：

根据生成的词向量，生成对应的文本，作为目标数据。

5.如权利要求4所述的数据库生成测试数据的方法，其特征在于，所述在所述取值范围内随机生成取值需求，并根据生成的取值需求修正所述隐含特征的步骤，包括：

6.如权利要求4所述的数据库生成测试数据的方法，其特征在于，所述自编码神经网络模型的中间隐层为多层时；

7.如权利要求4所述的数据库生成测试数据的方法，其特征在于，所述获取所述数据库表中预设的参考数据，并生成所述参考数据对应的文本词向量的步骤之前，所述方法还包括如下步骤：

建立自编码神经网络模型；

获取不带类别标签的训练样本数据，并生成对应的词向量；

8.一种数据库生成测试数据的装置，其特征在于，包括：

生成模块，用于在所述取值范围内，随机生成目标数据；

9.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据库生成测试数据的程序，所述数据库生成测试数据的程序配置为实现如权利要求1至7中任一项所述的数据库生成测试数据的方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有数据库生成测试数据的程序，所述数据库生成测试数据的程序被处理器执行时实现如权利要求1至7任一项所述的数据库生成测试数据的方法的步骤。