CN117573655B

CN117573655B - 一种基于卷积神经网络的数据治理优化方法及系统

Info

Publication number: CN117573655B
Application number: CN202410054258.3A
Authority: CN
Inventors: 徐凯程; 岳高峰
Original assignee: China National Institute of Standardization
Current assignee: China National Institute of Standardization
Priority date: 2024-01-15
Filing date: 2024-01-15
Publication date: 2024-03-12
Anticipated expiration: 2044-01-15
Also published as: CN117573655A

Abstract

本申请公开了一种基于卷积神经网络的数据治理优化方法及系统，对于管理难度较大、数据成分较为复杂、数据难与预设的维度对齐的数据库，采用本说明书中的方法，在接收到数据查询请求之前，无论数据库的数据存储情况如何、无论数据库的具体管理手段如何，通过对卷积神经网络进行训练的方式，使得卷积神经网络学习到数据库包含的各个子库的数据的特征。一方面，通过以管理、监督目的的数据处理，实现了对数据的治理。另一方面，得到的模型为进一步地减少监督、管理资源的消耗提供了条件。

Description

一种基于卷积神经网络的数据治理优化方法及系统

技术领域

本申请涉及适用于管理、监督或预测目的的数据处理技术领域，尤其涉及一种基于卷积神经网络的数据治理优化方法及系统。

背景技术

数据治理技术的发展惠及众多领域，为人们的生产、生活提供了较大的便利。

数据治理的目的之一是对数据进行管理，以便于数据的后续使用。然而，实际情况是，被采集到的数据未必能够严格的和数据管理方预设的维度对其，这就使得在后续的数据使用过程中，出现了数据查找、分类困难的问题，有碍于提高数据的使用效率。

在该领域中，相关技术人员以提出有效的治理数据的技术手段为研究目标之一。例如，公开(公告)号：CN115936496B，专利标题：“水质预测模型数据治理标准化方法”（主分类号：G06Q10/0639），基于所述监测断面水质水文气象表，对监测断面水质进行预测，实现了数据治理的标准化。

一方面，能够说明监督或预测目的的数据处理技术在数据治理相关技术领域大有可为；另一方面，也能够说明在该领域的技术挖掘还具有较为宽泛的扩展前景。

发明内容

本申请实施例提供了一种基于卷积神经网络的数据治理优化方法及系统，以至少部分的解决上述技术问题。

本申请实施例采用下述技术方案：

第一方面，本申请实施例提供一种基于卷积神经网络的数据治理优化方法，所述方法包括：

对预设的数据库中的数据进行分库处理，得到第一数量个子库；

针对所述子库中的数据进行采样，分别得到各自对应的样本集；

从所述样本集中确定出第一集；所述第一集是包含的数据为非空数据的数量大于预设的数量阈值的样本集，除所述第一集以外的样本集，作为第二集；

将所述第一集中为非空的数据对应于预设的维度的字段标记为第一标记，其他字段标记为第二标记，得到所述第一集的特征图；

将所述第二集中的数据包含的非空的字段标记为第一标记，其他字段标记为第二标记，得到所述第二集的特征图；

确定所述第一集的特征图和所述第二集的特征图的标签；所述标签是对所述特征图按照所述维度进行压缩得到的，所述标签包含的表征值用于表征所述特征图对应于所述维度的内容密度，以及所述维度的标识；

采用所述第一集的特征图，以及所述第一集的特征图的标签，训练待训练的卷积神经网络，得到第一模型；

采用所述第一集和第二集的特征图，以及所述第一集和第二集的特征图的标签，训练所述待训练的卷积神经网络，得到第二模型；以得到所述第一模型的训练过程和得到所述第二模型的训练过程的迭代次数相同的情况下，模型的收敛程度的差异不大于预设的差异阈值为目标，进行训练；

基于所述第二模型进行数据查询。

在本说明书一个可选的实施例中，基于所述第二模型进行数据查询，包括：

在接收到数据查询请求时，基于所述数据查询请求对所述数据库中的数据进行查询，得到待定结果；

将基于所述待定结果构建的查询特征图输入所述第二模型，得到所述查询特征图的标签；

将与所述查询特征图的标签相似度最大的所述第一集的特征图或所述第二集的特征图的标签对应的所述子库，作为目标库；

将所述待定结果中属于所述目标库的数据，作为目标数据。

在本说明书一个可选的实施例中，所述第一数量与所述数据库在距当前时刻的第一指定历史时间段内的访问频率正相关。

在本说明书一个可选的实施例中，所述采样是随机采样。

在本说明书一个可选的实施例中，所述差异阈值与所述第一集的数量和所述第二集的数量的比值负相关。

在本说明书一个可选的实施例中，所述方法还包括：

在对所述数据库中的数据进行分库处理之后，若接收到需要录入所述数据库的数据，则其存储至另外新建立的子库中。

在本说明书一个可选的实施例中，所述方法还包括：

若所述数据库在距当前时刻的第二指定历史时间段内的访问频率小于预设的频率阈值，则重新对所述数据库中的数据重新进行分库处理。

第二方面，本申请实施例还提供一种基于卷积神经网络的数据治理优化系统，所述系统包括：

分库模块，配置为：对预设的数据库中的数据进行分库处理，得到第一数量个子库；

采样模块，配置为：针对所述子库中的数据进行采样，分别得到各自对应的样本集；

集合确定模块，配置为：从所述样本集中确定出第一集；所述第一集是包含的数据为非空数据的数量大于预设的数量阈值的样本集，除所述第一集以外的样本集，作为第二集；

第一特征图构建模块，配置为：将所述第一集中为非空的数据对应于预设的维度的字段标记为第一标记，其他字段标记为第二标记，得到所述第一集的特征图；

第二特征图构建模块，配置为：将所述第二集中的数据包含的非空的字段标记为第一标记，其他字段标记为第二标记，得到所述第二集的特征图；

打标模块，配置为：确定所述第一集的特征图和所述第二集的特征图的标签；所述标签是对所述特征图按照所述维度进行压缩得到的，所述标签包含的表征值用于表征所述特征图对应于所述维度的内容密度，以及所述维度的标识；

第一模型训练模块，配置为：采用所述第一集的特征图，以及所述第一集的特征图的标签，训练待训练的卷积神经网络，得到第一模型；

第二模型训练模块，配置为：采用所述第一集和第二集的特征图，以及所述第一集和第二集的特征图的标签，训练所述待训练的卷积神经网络，得到第二模型；以得到所述第一模型的训练过程和得到所述第二模型的训练过程的迭代次数相同的情况下，模型的收敛程度的差异不大于预设的差异阈值为目标，进行训练；

查询模块，配置为：基于所述第二模型进行数据查询。

第三方面，本申请实施例还提供一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行第一方面所述的方法步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行第一方面所述的方法步骤。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

对于管理难度较大、数据成分较为复杂、数据难与预设的维度对齐的数据库，采用本说明书中的方法，在接收到数据查询请求之前，无论数据库的数据存储情况如何、无论数据库的具体管理手段如何，通过对卷积神经网络进行训练的方式，使得卷积神经网络学习到数据库包含的各个子库的数据的特征。则在后续的数据查询的过程中，可以通过训练后的神经网络对查询得到的结果进行筛选，则即便是查询结果中存在与数据查询请求可能不匹配的，也会被过滤掉。此外，由于数据库存储的数据情况复杂，基于数据库得到的子库各自情况也不尽相同，有些子库可能数据管理难度更大，本说明书中的方法一方面将两种子库区分开来，使得训练后的神经网络能够充分地学习到两种子库的特征；另一方面，以两种子库之间的差异为基础确定神经网络训练过程的收敛条件，则能够保障神经网络能够学习到两种子库的特征，不会存在由于某一种子库的特征不够鲜明而无法学习到其特征，有利于提高模型的效率。一方面，通过以管理、监督目的的数据处理，实现了对数据的治理。另一方面，得到的模型为进一步地减少监督、管理资源的消耗提供了条件。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本说明书实施例提供的一种基于卷积神经网络的数据治理优化方法的过程示意图；

图2为本说明书实施例中一种电子设备的结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其它元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。

以下结合附图，详细说明本申请各实施例提供的技术方案。

如图1所示，本说明书中的基于卷积神经网络的数据治理优化方法包含以下步骤：

S100：对预设数据库中的数据进行分库处理，得到第一数量个子库。

本说明书中的数据库可以是相关技术中的、具有数据存储功能的存储模型。数据可以是较大程度的按照与预设的维度对齐的方式进行存储的。然而，数据来源可能较为复杂，数据的成分也可能较为复杂，则未必所有数据的所有维度都能够和预设的维度对齐，使得数据库中的数据存在一定的杂乱现象。

分库的目的是将数据库划分为几个部分，相关技术中可以实现分库的技术手段均可以用于本说明书。示例性的，数据库中的数据是按照唯一标识排序存储的，则可以按照该顺序进行分库，可以是将唯一标识为[1,100]的数据分为一个子库，此后的[101,200]分为另一个子库。

在本说明书一个可选的实施例中，第一数量可以是预设值。在本说明书另一个可选的实施例中，第一数量与所述数据库在距当前时刻的第一指定历史时间段的访问频率正相关。第一指定历史时间段的时长可以是预设的时长，例如，当前时刻以前的一年。

本说明书中的预设的维度可以根据实际的业务需求确定，例如，数据的生成时间，数据的来源的标识等。

S102：针对所述子库中的数据进行采样，分别得到各自对应的样本集。

相关技术中，可以实现采样的技术手段，在条件允许的情况下，均适用于本说明书。在本说明书一个可选的实施例中，采样是随机采样。

由于采样具有一定的随机性，则其对其对应的子库的特征的表达是客观的。其对特征的表达，包括但不限于数据的分布、数据的内容的分布、数据的内容的含量。

S104：从所述样本集中确定出第一集。

本步骤将样本集分为第一集和第二集。第一集是包含的数据为非空数据的数量大于预设的数量阈值的样本集，除所述第一集以外的样本集，作为第二集。

何为空数据，可以根据实际的业务需求进行定义。例如，数据通常是由字段构成的，若一个数据包含10个字段，其中仅有1一个字段记录有内容，则该数据可以为确定为空数据。

通过本步骤确定出的第一集是特征较为鲜明的数据集，第二集是特征较为不鲜明的数据集。

S106：将所述第一集中为非空的数据对应于预设维度的字段标记为第一标记，其他字段标记为第二标记，得到所述第一集的特征图。

本说明书中的第一标记和第二标记仅仅用于标识，例如，第一标记可以是1，第二标记可以是0，由此得到的特征图是填充有0和1的矩阵图。

S108：将所述第二集中的数据包含的非空的字段标记为第一标记，其他字段标记为第二标记，得到所述第二集的特征图。

可见，本说明书中的方法对第一集和第二集的特征提取的规则是有差异的。第一集是特征鲜明的，则对其特征提取的粒度较为粗；第二集的特征不鲜明，则对其特征提取的粒度较为细。由此，则第一集和第二集的特征都能被提取到。

S110：确定所述第一集的特征图和所述第二集的特征图的标签。

所述标签是对所述特征图按照所述维度进行压缩得到的，所述标签包含的表征值用于表征所述特征图对应于所述维度的内容密度，以及所述维度的标识。

压缩是对特征的进一步提取。具体地，可以将特征图的每一列的标记相加，即实现了该列的压缩，对所有列分别进行压缩，则完成了对特征图的一定程度的压缩。得到的某一列的的压缩结果的表征值如果较大，则表明其内容密度较大。

S112：采用所述第一集的特征图，以及所述第一集的特征图的标签，训练待训练的卷积神经网络，得到第一模型。

相关技术中，任何架构的卷积神经网络，在条件允许的情况下，均可应用于本说明书。本说明书中的训练为有监督的训练。

S114：采用所述第一集和第二集的特征图，以及所述第一集和第二集的特征图的标签，训练所述待训练的卷积神经网络，得到第二模型。

本说明书中的第一模型和第二模型是一起训练的，两者通过确定收敛条件，以得到所述第一模型的训练过程和得到所述第二模型的训练过程的迭代次数相同的情况下，模型的收敛程度（可以通过模型训练的损失表征）的差异不大于预设的差异阈值为目标，进行训练。

在本说明书一个可选的实施例中，差异阈值是预设的经验值。在本说明书另一个可选的实施例中，差异阈值与所述第一集的数量和所述第二集的数量的比值负相关。

对于管理难度较大、数据成分较为复杂、数据难与预设的维度对齐的数据库，采用本说明书中的方法，在接收到数据查询请求之前，无论数据库的数据存储情况如何、无论数据库的具体管理手段如何，通过对卷积神经网络进行训练的方式，使得卷积神经网络学习到数据库包含的各个子库的数据的特征。则在后续的数据查询的过程中，可以通过训练后的神经网络对查询得到的结果进行筛选，则即便是查询结果中存在与数据查询请求可能不匹配的，也会被过滤掉。此外，由于数据库存储的数据情况复杂，基于数据库得到的子库各自情况也不尽相同，有些子库可能数据管理难度更大，本说明书中的方法一方面将两种子库区分开来，使得训练后的神经网络能够充分地学习到两种子库的特征；另一方面，以两种子库之间的差异为基础确定神经网络训练过程的收敛条件，则能够保障神经网络能够学习到两种子库的特征，不会存在由于某一种子库的特征不够鲜明而无法学习到其特征，有利于提高模型的效率。

S116：基于所述第二模型进行数据查询。

具体地，在本说明书一个可选的实施例中，在接收到数据查询请求时，基于所述数据查询请求对所述数据库中的数据进行查询，得到待定结果。将基于所述待定结果构建的查询特征图（查询特征图和前述的特征图的构建方式可以相同）输入所述第二模型，得到所述查询特征图的标签。将与所述查询特征图的标签相似度最大的所述第一集的特征图或所述第二集的特征图的标签对应的所述子库，作为目标库。将所述待定结果中属于所述目标库的数据，作为目标数据。以实现数据的筛选，使得最终的目标数据与数据查询请求更匹配。此后，将目标数据返回至查询一方即可。

在本说明书一个可选的实施例中，此后，在对所述数据库中的数据进行分库处理之后，若接收到需要录入所述数据库的数据，则其存储至另外新建立的子库中。若所述数据库在距当前时刻的第二指定历史时间段内的访问频率小于预设的频率阈值，则重新对所述数据库中的数据重新进行分库处理。

进一步地，本说明书还提供一种基于卷积神经网络的数据治理优化系统，所述系统包括：

查询模块，配置为：基于所述第二模型进行数据查询。

该系统能够执行前述任一实施例中的方法，并能够获得相同或相似的技术效果，此处不再赘述。

图2是本申请的一个实施例电子设备的结构示意图。请参考图2，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器（non-volatile memory），例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构）总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构）总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图2中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成一种基于卷积神经网络的数据治理优化系统。处理器，执行存储器所存放的程序，并具体用于执行前述任意一种基于卷积神经网络的数据治理优化方法。

上述如本申请图1所示实施例揭示的一种基于卷积神经网络的数据治理优化方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器（CentralProcessing Unit，CPU）、网络处理器（Network Processor，NP）等；还可以是数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific IntegratedCircuit，ASIC）、现场可编程门阵列（Field－Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1中一种基于卷积神经网络的数据治理优化方法，并实现图1所示实施例的功能，本申请实施例在此不再赘述。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的电子设备执行时，执行前述的任意一种基于卷积神经网络的数据治理优化方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于卷积神经网络的数据治理优化方法，其特征在于，所述方法包括：

基于所述第二模型进行数据查询。

2.如权利要求1所述方法，其特征在于，基于所述第二模型进行数据查询，包括：

将所述待定结果中属于所述目标库的数据，作为目标数据。

3.如权利要求1所述方法，其特征在于，所述第一数量与所述数据库在距当前时刻的第一指定历史时间段内的访问频率正相关。

4.如权利要求1所述方法，其特征在于，所述采样是随机采样。

5.如权利要求1所述方法，其特征在于，所述差异阈值与所述第一集的数量和所述第二集的数量的比值负相关。

6.如权利要求1所述方法，其特征在于，所述方法还包括：

7.如权利要求1所述方法，其特征在于，所述方法还包括：

8.一种基于卷积神经网络的数据治理优化系统，其特征在于，所述系统包括：

查询模块，配置为：基于所述第二模型进行数据查询。

9.一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行所述权利要求1~7之任一所述方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行所述权利要求1~7之任一所述方法。