CN116089504B

CN116089504B - 一种关系型表格数据生成方法和系统

Info

Publication number: CN116089504B
Application number: CN202310372077.0A
Authority: CN
Inventors: 王舸; 赵雪峰; 岑忠培
Original assignee: Beijing Quante Evolution Technology Co ltd
Current assignee: Beijing Quante Evolution Technology Co ltd
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-06-30
Anticipated expiration: 2043-04-10
Also published as: CN116089504A

Abstract

本申请实施例公开了一种关系型表格数据生成方法和系统，涉及数据处理技术领域，所述方法包括：对原始表格进行合并处理，得到若干表格特征；计算每个表格特征的特征重要性分值，并根据特征重要性得分筛选目标表格特征；根据目标表格特征构建距离矩阵，对所述距离矩阵进行聚类并添加数据标签；基于聚类后的距离矩阵生成表格数据；根据数据标签和主外键关系重建所述表格数据。高效生成多表数据，保留了原始多表数据之间的关联关系，有效避免隐私泄漏的风险，大大提高测试数据准备的效率。

Description

一种关系型表格数据生成方法和系统

技术领域

本申请实施例涉及数据处理技术领域，具体涉及一种关系型表格数据生成方法和系统。

背景技术

随着科技的不断发展，数据库的应用范围越来越广泛，特别是关系型数据库。关系型数据库利用多个表格来存储数据，并利用不同表格与表格之间的关系莱提高数据库的灵活性和可扩展性，从而大大提高了数据库的管理效率。然而，在传统的数据库管理系统中，如果开发者希望读取用于不同测试案例的测试数据，用户只能通过筛选条件来提取多表联合的数据，这不仅耗费大量时间，而且容易出错。目前已经存在多种关系型数据库多表生成技术方案，包括：

1、手工维护：通过人工手动维护一些数据，或者通过业务员和使用者手动制造数据来进行系统测试。大部分团队仍然停留在此阶段，这种方式的效率和准确性都受到限制。手工维护需要大量的人力，需要业务员一条一条制造数据，耗时耗力。

2、脚本生产：通过测试人员编写脚本来生成测试数据。虽然这种方法比手工维护更高效，但需要一定的编程知识和技能。脚本生成需要测试人员有相当的编程能力和测试经验，门槛比较高。而且无法避免测试人员的逻辑错误和逻辑漏洞，经常导致许多错误无法被检测出来。

3、数据工厂：一些大型公司通过构建数据工厂来维护和使用庞大的数据。但这需要大量的资本投入和专业知识，不是所有公司都能够承担。工具化的数据生成：可以快速生成海量的数据，如人名、时间、词句、文章等。这种方法可以提高生成数据的效率和准确性，同时也方便测试人员和开发人员使用。数据准备成本高，需要专门的团队进行维护；生成数据之间完全独立，缺乏关联性，不符合真实数据的统计特征；生成数据直接来自关系型数据库中所存留的真实数据，存在隐私泄漏的风险。

发明内容

为此，本申请实施例提供一种关系型表格数据生成方法和系统，高效生成多表数据，保留了原始多表数据之间的关联关系，有效避免隐私泄漏的风险，大大提高测试数据准备的效率。

为了实现上述目的，本申请实施例提供如下技术方案：

根据本申请实施例的第一方面，提供了一种关系型表格数据生成方法，所述方法包括：

对原始表格进行合并处理，得到若干表格特征；

计算每个表格特征的特征重要性分值，并根据特征重要性得分筛选目标表格特征；

根据目标表格特征构建距离矩阵，对所述距离矩阵进行聚类并添加数据标签；

基于聚类后的距离矩阵生成表格数据；

根据数据标签和主外键关系重建所述表格数据。

可选地，对原始表格进行合并处理，得到若干表格特征，包括：

针对相邻的原始表格，判断相邻的原始表格的表格关系；

若表格关系为一对一的表格关系，则采用主外键关系关联的方式进行合并；

若表格关系为一对多的表格关系，则采用聚合或者扩充的方式进行合并。

可选地，所述计算每个表格特征的特征重要性分值按照如下公式：

其中，FI_j为特征j的重要性分值，I_j(x_k) 为在数据点x_k中特征j的取值对模型的影响，w_k为数据点x_k的权重，K为表格特征的总数。

可选地，所述根据目标表格特征构建距离矩阵，按照如下公式：

；/>

其中，其中，GS_ij为表格特征i和表格特征j的距离矩阵，

为表格特征i和表格特征j的相似性，f为单个数据点，x_if和x_jf为数据点，m为数据点的数量，R_f为类别型数据的个数。

可选地，在根据数据标签和主外键关系重建所述表格数据之后，所述方法还包括：

根据重建后的表格数据计算基数关联性和属性相似度；所述基数关联性用于表示真实数据集和合成数据集之间的相似度；所述属性相似度用于表示合并后的表格特征与合并前的相邻原始表格之间的相似度；

根据所述基数关联性和属性相似度优化模型。

可选地，在对原始表格进行合并处理之前，所述方法还包括：

对所述原始表格进行排除极值和补充缺失值的处理。

根据本申请实施例的第二方面，提供了一种关系型表格数据生成系统，所述系统包括：

合并模块，用于对原始表格进行合并处理，得到若干表格特征；

特征筛选模块，用于计算每个表格特征的特征重要性分值，并根据特征重要性得分筛选目标表格特征；

距离矩阵构建模块，用于根据目标表格特征构建距离矩阵，对所述距离矩阵进行聚类并添加数据标签；

表格数据生成模块，用于基于聚类后的距离矩阵生成表格数据；

主外键重建模块，用于根据数据标签和主外键关系重建所述表格数据。

可选地，所述合并模块，具体用于：

针对相邻的原始表格，判断相邻的原始表格的表格关系；

根据本申请实施例的第三方面，提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行以实现上述第一方面所述的方法。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现上述第一方面所述的方法。

综上所述，本申请实施例提供了一种关系型表格数据生成方法和系统，通过对原始表格进行合并处理，得到若干表格特征；计算每个表格特征的特征重要性分值，并根据特征重要性得分筛选目标表格特征；根据目标表格特征构建距离矩阵，对所述距离矩阵进行聚类并添加数据标签；基于聚类后的距离矩阵生成表格数据；根据数据标签和主外键关系重建所述表格数据。高效生成多表数据，保留了原始多表数据之间的关联关系，有效避免隐私泄漏的风险，大大提高测试数据准备的效率。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本申请实施例提供的一种关系型表格数据生成方法流程示意图；

图2为本申请实施例提供的关系型表格数据生成逻辑流程图；

图3为本申请实施例提供的表格预处理流程示意图；

图4为本申请实施例提供的一种关系型表格数据生成系统框图；

图5示出了本申请实施例提供的一种电子设备的结构示意图；

图6示出了本申请实施例提供的一种计算机可读存储介质的示意图。

实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

关系型表格是在关系型数据库中，通过共享数据字段建立起关联关系的多表数据。

在数据分析或数据挖掘中，由于数据量急剧增加，需要处理的数据维度也急剧增加，从而导致数据处理的难度和复杂度大幅度提高的现象。本申请实施例提供的一种关系型表格数据生成方法，旨在解决生成式AI生成多表数据时，缺乏表与表之间关联性的问题。现有的AI生成数据的技术只能对单个表格进行训练、学习和生成，无法同时对多个互相之间有关联性的表格进行有效的学习，这会导致生成的数据缺乏表间关联性，从而影响数据的精确性和有效性。

图1示出了本申请实施例提供的一种关系型表格数据生成方法流程示意图，所述方法包括：

步骤101：对原始表格进行合并处理，得到若干表格特征；

步骤102：计算每个表格特征的特征重要性分值，并根据特征重要性得分筛选目标表格特征；

步骤103：根据目标表格特征构建距离矩阵，对所述距离矩阵进行聚类并添加数据标签；

步骤104：基于聚类后的距离矩阵生成表格数据；

步骤105：根据数据标签和主外键关系重建所述表格数据。

在一种可能的实施方式中，在步骤101对原始表格进行合并处理之前，所述方法还包括：

对所述原始表格进行排除极值和补充缺失值的处理。

在一种可能的实施方式中，在步骤101中，对原始表格进行合并处理，得到若干表格特征，包括：

针对相邻的原始表格，判断相邻的原始表格的表格关系；若表格关系为一对一的表格关系，则采用主外键关系关联的方式进行合并；若表格关系为一对多的表格关系，则采用聚合或者扩充的方式进行合并。

在一种可能的实施方式中，在步骤102中，所述计算每个表格特征的特征重要性分值按照如下公式：

在一种可能的实施方式中，在步骤103中，所述根据目标表格特征构建距离矩阵，按照如下公式：

；/>

其中，GS_ij为表格特征i和表格特征j的距离矩阵，

在一种可能的实施方式中，在步骤105中，在根据数据标签和主外键关系重建所述表格数据之后，所述方法还包括：

根据重建后的表格数据计算基数关联性和属性相似度；所述基数关联性用于表示真实数据集和合成数据集之间的相似度；所述属性相似度用于表示合并后的表格特征与合并前的相邻原始表格之间的相似度；根据所述基数关联性和属性相似度优化模型。

通过本申请实施例提供的关系型表格数据生成方法，所生成的多表数据保留了表间的关联性。生成多个表格之间的关联关系，包括主键和外键关系、相邻表间的关联性和不同表格间的实体关系。采用聚类方法对多个表的数据进行建模和训练，并在训练过程中引入表间关联关系的约束条件，以确保生成的数据符合实际情况。

下面结合附图对本申请实施例提供的关系型表格数据生成方法进行详细描述。图2示出了本申请实施例提供的关系型表格数据生成方法流程图。

第一阶段，数据预处理。

对输入的表格数据进行数据清洗，包括处理掉极值和缺失值。

第二阶段，特征扩充。将每个表格视为一个单位，将它们的相邻的表格合并起来。图3示出了特征扩充的逻辑示意图。

对于一对一的表格关系，采用主外键关联的方式合并。而对于一对多的关系，使用聚合或扩充的方法将它们合并。合并后的数据将使用一些特征扩充技术使不同特征之间产生交互，进而产生新的特征以增加特征数量。

根据自定义的特征工程的添加和修改进而定制化特有的测试数据。本申请实施例还提供了特征工程的自定义，可以根据用户的需求和特定场景的要求，对数据进行自定义的修改和添加，从而生成特定的测试数据。这一技术点可以帮助用户更加灵活地定制测试数据，从而满足不同场景下的测试需求。

第三阶段，特征筛选。

采用机器学习方法筛选出有效的特征，并使用膨胀系数来考虑多重共线性问题，最后计算特征重要性排序，作为特征筛选的依据。

所述膨胀系数按照如下公式计算：

其中，VIF(j)为特征j的VIF值，R(j) 为特征j与其他特征的相关系数的平方和的平方根。

所述特征重要性按照如下公式计算：

其中，FI_j为特征j的重要性得分，I_j(x_k) 为在数据点x_k中特征j的取值对模型的影响，w_k为数据点x_k的权重，K为数据集中的样本数量。

最后通过将两张表合并起来，增加某两张表之间的关联性，保留它们的特征作为聚类的重要依据。这样数据在聚类方面就会更偏向于靠近那张表。

在一种可能的实施方式中，本申请实施例使用的特征工程方法也可以使用更多的特征提取方法，例如采用基于深度学习的特征提取方法。

第四阶段，距离构建。

完成特征处理后，还需要构建相应的距离矩阵。由于数据既包含离散值又包含连续值，无法直接使用欧式距离。这里采用一种新的距离测算方式，对离散值和连续值的数据进行均衡距离的矩阵测算，即高尔矩阵。高尔距离表示为观察两个数据 i,j之间的相似性，并计算m个相似性的平均值。

；/>

其中部分相似性(ps)取决于所比较特征的类别。

第五阶段，根据构建好的距离矩阵进行聚类。

常用的聚类方法是kmeans。还可以使用一些自动化的参数寻找方法来找到最优参数以保证聚类效果，然后将聚类好的数据标签添加到对应的真实数据上。

在一种可能的实施方式中，当前本申请实施例使用的聚类算法可以使用别的聚类算法，或者结合深度学习模型进行聚类。

本申请实施例还提供了对聚类效果进行评价的指标性评价方法，可以对聚类结果进行客观的评估和分析，从而帮助用户更加准确地生成合成数据。这一技术点可以帮助用户评估数据质量，从而提高数据的可用性和可靠性。

第六阶段，采用生成式AI生成表格数据。

生成的合成数据具有与真实数据接近的概率分布和关联关系。本申请实施例使用AI生成的方式进行模型训练和数据生成，生成的数据具有与真实数据相似的概率分布和关联关系，可以有效避免由于人工考虑不足而导致的逻辑漏洞。

在一种可能的实施方式中，本申请实施例使用的生成算法可以采用别的生成算法，或者使用深度学习模型进行数据生成。

第七阶段，重建主外键。

根据生成的标签值和已知的主外键关系，通过对对应类别进行采样，重建出具有主外键对应关系的生成数据。

采用聚类重建的方式构建多表表间联系的方案。本申请实施例通过对原始数据进行数据清洗、特征工程和聚类分析，将多个相关性较高的表进行合并和关联，从而生成更加接近真实数据的合成数据。可以有效地保留数据之间的关联关系，从而提高数据的质量和可用性。

第八阶段，关联性评价。

采用基数关联性和属性相似度来评价生成表格数据关联程度。基数关联性用来度量衡量真实数据集和合成数据集之间父表的基数是否相同。这为真实数据和合成数据分别产生一个数字分布。基数关联度计算并返回这些分布相似的程度。属性相似度衡量多表数据中合成列是否保留了真实列中相邻表之间的相关关系。

基数定义为每个父行的子行数。在多表设置中，有父表和子表。父表包含一个主键，用于唯一标识每一行，而子表包含引用父行的外键。外键可能重复，因为多个子项可以引用同一父项。此度量衡计算每个父行的基数。

本申请实施例提供的方法考虑数据间的相关关系和多表间的关联关系。相较于传统的单表生成，可以更好地反映真实数据的复杂性和相关性，提高了生成数据的质量和准确性。

传统的数据生成方案通常需要大量的人工成本，包括数据分析和手工输入等，通过本申请实施例提供的关系型表格数据生成方法，基本不需要人工成本，可以节省大量的时间和成本。此外，本申请实施例也可以做成标准化的服务，使得使用者可以快速方便地获得所需的数据，可以快速轻易地生成大量的数据。本申请实施例依赖于生成技术，可以快速轻易地生成大量的数据，满足大数据量需求的场景。

生成式人工智能模型训练技术，可以生成海量高仿真高质量的合成数据。本申请实施例采用了生成式人工智能模型训练技术，利用大量的原始数据进行模型训练，可以生成高质量、高仿真的合成数据。相比传统的手工制作数据，生成式人工智能模型训练技术可以大大提高数据的生产效率，减少人工成本，同时可以避免人为因素对数据质量的影响。

综上所述，本申请实施例提供了一种关系型表格数据生成方法，通过对原始表格进行合并处理，得到若干表格特征；计算每个表格特征的特征重要性分值，并根据特征重要性得分筛选目标表格特征；根据目标表格特征构建距离矩阵，对所述距离矩阵进行聚类并添加数据标签；基于聚类后的距离矩阵生成表格数据；根据数据标签和主外键关系重建所述表格数据。高效生成多表数据，保留了原始多表数据之间的关联关系，有效避免隐私泄漏的风险，大大提高测试数据准备的效率。

基于相同的技术构思，本申请实施例还提供了一种关系型表格数据生成系统，如图4所示，所述系统包括：

合并模块401，用于对原始表格进行合并处理，得到若干表格特征；

特征筛选模块402，用于计算每个表格特征的特征重要性分值，并根据特征重要性得分筛选目标表格特征；

距离矩阵构建模块403，用于根据目标表格特征构建距离矩阵，对所述距离矩阵进行聚类并添加数据标签；

表格数据生成模块404，用于基于聚类后的距离矩阵生成表格数据；

主外键重建模块405，用于根据数据标签和主外键关系重建所述表格数据。

在一种可能的实施方式中，所述合并模块401，具体用于：

针对相邻的原始表格，判断相邻的原始表格的表格关系；

本申请实施方式还提供一种与前述实施方式所提供的方法对应的电子设备。请参考图5，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。所述电子设备20可以包括：处理器200，存储器201，总线202和通信接口203，所述处理器200、通信接口203和存储器201通过总线202连接；所述存储器201中存储有可在所述处理器200上运行的计算机程序，所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的方法。

其中，存储器201可能包含高速随机存取存储器（RAM：Random Access Memory），也可能还包括非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。通过至少一个物理端口203（可以是有线或者无线）实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器201用于存储程序，所述处理器200在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述方法可以应用于处理器200中，或者由处理器200实现。

处理器200可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201，处理器200读取存储器201中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的方法对应的计算机可读存储介质，请参考图6，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序（即程序产品），所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器( DSP )来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。