CN118132633A

CN118132633A - 一种用于数据库的数据集成分发方法

Info

Publication number: CN118132633A
Application number: CN202410238959.2A
Authority: CN
Inventors: 鄢冰; 李震领; 成和祥; 屈国际; 许浒
Original assignee: CGN Wind Energy Ltd
Current assignee: CGN Wind Energy Ltd
Priority date: 2024-03-04
Filing date: 2024-03-04
Publication date: 2024-06-04
Anticipated expiration: 2044-03-04
Also published as: CN118132633B

Abstract

本发明涉及数据库技术领域，提供一种用于数据库的数据集成分发方法，包括数据预处理、提取特征并标准化处理、建立逻辑回归模型、添加L1正则化项、线性判别分析、堆叠法和领域对抗网络；本发明通过对来自不同领域的数据进行整合和匹配，减少数据冗余和不一致性，保持数据的一致性和准确性，提高数据质量，将来自不同领域的数据存储在一个数据库中，优化数据访问和资源利用，促进不同领域之间的合作和跨学科研究，有助于发现新的关联和发展创新的解决方案，推动从多领域角度解决复杂问题的进展，提高查询的性能和响应时间，精简数据、提高数据的准确性和可读性，进行数据的快速统计、计算和查询，为数据分析和决策提供更好的基础。

Description

一种用于数据库的数据集成分发方法

技术领域

本发明涉及数据库技术领域，具体地说是一种用于数据库的数据集成分发方法。

背景技术

数据库的数据集成是指将多个不同的数据源中的数据合并到一个统一的数据存储中，以便有效地管理和利用数据；不同来源的数据往往使用不同的数据格式、结构和编码方式，数据集成旨在解决数据分散、重复和冗余等问题，使得用户可以集中访问和查询数据。

数据库的数据分发是指将数据库中的数据在不同的节点之间进行分配和传输的过程，是为了实现数据的高可用性、负载均衡和性能优化而进行的一种技术手段。

中国专利公告号为：CN105631053A，包括连接、识别并定位数据源计算机的数据库实例；获取数据源计算机的数据源和操作记录；将数据源和操作记录存储到自身的集成式数据库；将数据源和操作记录发送到目标计算机；目标计算机接受数据并执行操作，数据集成分发完成；上述发明还提供了承载所述方法的数据集成分发装置，包括主板、CPU、内存、机械硬盘、网络接口、输入设备、输出设备和NGFF接口的固态硬盘；固态硬盘通过NGFF接口与主板连接，作为数据集成分发装置的快速存储器；上述发明不需要数据源和目标计算机安装任何软件或代理程序，因此集成分发速率快、数据安全性好、不占用数据源和目标计算机系统任何硬、软件资源；但跨领域数据集成涉及到不同数据源和环境之间的分布差异，如数据分布偏移、领域间差异等，影响结果的可靠性，因此需要对跨领域数据进行领域适应；此外数据分发在实际应用中，分发给部分节点的数据往往包含大量非必要信息，导致浪费了大量性能去计算处理非必要信息，性能优化的效果不佳。

综上，因此本发明提供了一种用于数据库的数据集成分发方法，以解决上述问题。

发明内容

本发明提供了一种用于数据库的数据集成分发方法，通过对来自不同领域的数据进行整合和匹配，减少数据冗余和不一致性，以解决现有技术中跨领域数据集成可靠性低、性能优化效果差等问题。

本发明具体的技术方案如下：

一种用于数据库的数据集成分发方法，包括以下步骤：

S1，对原始数据进行预处理，包括数据清洗、处理缺失值和异常值，以确保数据的质量和一致性，随后从原始数据中提取特征，并对提取的特征进行标准化处理，以消除不同特征之间的尺度差异；

S2，根据数据所处领域，建立多个逻辑回归模型，并在逻辑回归模型中添加L1正则化项，使用经过处理的数据和特征，训练L1正规化模型，将系数近似为零的特征剔除，从而减少特征维度和去除冗余信息，并使用线性判别分析法，将高维度数据转化为低维度表示，减少数据间的冗余信息；

S3，使用堆叠法将多个逻辑回归模型组合起来构建一个元模型，使用多个逻辑回归模型的预测结果作为输入特征训练元模型，从而捕获多个逻辑回归模型对数据的不同领域的表达能力，提供更准确、稳定的预测结果；

S4，使用领域对抗网络法，设计并定义一个包含生成器和判别器的领域对抗网络，生成器负责将源领域数据转换为目标领域数据，判别器负责判断输入数据是真实目标领域数据还是由生成器生成的数据，使用生成对抗训练的方式，交替训练生成器和判别器，生成器试图生成逼真的目标领域数据，以欺骗判别器，判别器则试图准确地区分真实的目标领域数据和生成器生成的伪数据，使用对抗损失函数来优化生成器和判别器的参数，随后使用生成器将源领域的数据转换为目标领域的数据，生成器可以学习到源领域和目标领域之间的映射关系，通过将源领域数据输入生成器，得到目标领域的近似数据，以减小领域间的差异；

S5，使用ETL工具对处理后的数据进行集成；

S6，将多个数据库作为节点，并将节点分为主节点和从节点，在主节点配置主数据库，在从节点配置从数据库，在主数据库中创建一个主数据库探测表，主数据库探测表使用数据库连接字符串创建与主数据库的连接，使用SQL INSERT语句将主数据库类型、连接信息、访问权限和最后检测时间插入到主数据库探测表中，监测主数据库的变动；

S7，在主数据库启用二进制日志，基于主数据库探测表，将数据变更记录到二进制日志文件中，包括数据插入、更新和删除，随后设置从数据库的连接参数，使从数据库与主数据库相连接，主数据库将二进制日志文件网络传输至从数据库，从数据库对二进制日志文件进行解析，从而将数据变更应用到从数据库，使从数据库与主数据库保持一致；

S8，使用选择性投影算法，设置筛选条件，对主数据库中的数据进行筛选、去重和拼接，并为筛选后的数据设置新的列名，随后使用聚合汇总函数对数据进行计算，将数据压缩，并获得数据的统计信息；

S9，使用数据库连接工具将处理后的数据由主数据库传输至从数据库，实现对数据的分发。

优选的一种技术方案，步骤S2中，所述逻辑回归模型包括以下公式：

线性回归公式：

；

式中，z是线性回归公式的输出，是截距，/>到/>是自变量X₁到X_n的系数，逻辑回归模型基于线性回归公式，建立因变量（预测目标）和自变量之间的线性关系；

sigmoid函数公式：

；

式中，p表示输出为1的概率，e是自然对数的底，逻辑回归模型使用sigmoid函数将线性回归公式的输出转换为0到1之间的概率值；

logit函数公式：

；

式中，p表示输出为1的概率；

其中将线性回归公式的输出z代入sigmoid函数，得到分类预测的概率p，将概率p超过一个预设的阈值的样本预测为正例，否则预测为负。

优选的一种技术方案，步骤S2中，所述带有L1正则化项的逻辑回归模型包括以下公式：

优化目标公式：

；

式中，是损失函数和L1正则化项的组合，/>是模型的参数，m是样本数量，yi是实际的类别标签（0或1），/>是预测的概率值，/>是正则化项的权重，带有L1正则化项的逻辑回归模型的优化目标是最小化损失函数和L1正则化项的组合；

损失函数公式：

；

式中，yi是实际的类别标签，是预测的概率值，逻辑回归模型的损失函数是交叉熵损失函数，用于衡量实际类别标签和预测概率值之间的差异；

在训练过程中，最小化优化目标，通过梯度下降算法来求解模型的参数β和正则化项的系数λ，以使模型能够合理地预测样本的类别；

在预测阶段，将输入样本的特征代入逻辑回归模型，计算逻辑回归模型输出的概率值，并根据设定的阈值将概率值转化为具体的类别预测。

优选的一种技术方案，步骤S1中，所述标准化处理使用的方法是min-max归一化法，所述min-max归一化公式如下：

；

式中，是归一化后的特征值，x是原始特征值，min(x)和max(x)分别是特征值x的最小值和最大值。

优选的一种技术方案，步骤S2中，所述线性判别分析法包括以下公式：

类内散度矩阵公式：

；

式中，Xc表示属于类别c的样本矩阵，表示类别c的样本均值向量；

类间散度矩阵公式：

；

式中，表示整个数据集的样本均值，/>表示类别c的样本均值向量；

广义矩阵公式：

；

式中，是特征值，w是对应的特征向量；

数据降维公式：

；

式中，Y是降维后的数据，X是原始数据，W是选取的特征向量矩阵，将原始高维度数据集投影到选取的特征向量构成的低维子空间中，从而实现数据的降维。

优选的一种技术方案，步骤S3中，所述堆叠法包括以下公式：

元模型训练公式：

；

式中，y_meta_train是元模型对训练样本的预测结果，表示元模型的函数，/>表示元模型的参数，X_meta_train表示特征矩阵。

优选的一种技术方案，步骤S4中，所述领域对抗网络法包括以下公式：

生成器损失函数公式：

；

式中，D是判别器的输出，G是生成器的输出

判别器损失函数公式：

；

式中，D是判别器的输出，target_data是真实目标领域数据，G(source_data)是生成器生成的伪数据。

优选的一种技术方案，步骤S7中，所述二进制日志包括时间戳和位置标识，所述从数据库根据时间戳的顺序应用数据变更操作，所述从数据库根据位置标识获取数据变更的位置。

优选的一种技术方案，步骤S8中，所述聚合汇总函数包括COUNT函数、SUM函数、AVG函数、MIN函数、MAX函数和GROUP BY子句；

所述COUNT函数用于计算数据中满足特定条件的行数；

所述SUM函数用于计算数值型数据的总和；

所述AVG函数用于计算数值型数据的平均值；

所述MIN函数用于找到数值型和字符型数据中的最小值；

所述MAX函数用于找到数值型和字符型数据中的最大值；

所述GROUP BY子句用于对数据进行分组。

与现有技术相比，本发明具有如下有益效果：

1.本发明通过对来自不同领域的数据进行整合和匹配，减少数据冗余和不一致性，保持数据的一致性和准确性，提高数据质量，优化数据访问和资源利用，改善了跨领域数据集成结果的可靠性，促进不同领域之间的合作和跨学科研究，有助于发现新的关联和发展创新的解决方案，推动从多领域角度解决复杂问题的进展。

2.本发明通过在保持数据一致性的前提下，仅传输重要数据，减少传输到目标节点的数据量，提高查询的性能和响应时间，同时精简数据、提高数据的准确性和可读性，进行数据的快速统计、计算和查询，为数据分析和决策提供更好的基础。

附图说明

图1是本发明数据集成示意图。

图2是本发明数据分发示意图。

具体实施方式

下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明，但不能用来限制本发明的范围。

实施例

如图1所示，本实施例以某社会科学研究机构为例，该社会科学研究机构的目的是将某地的人口数据、地理数据和经济数据进行处理，利用处理后的数据对该地进行社会结构研究。

第一步，该社会科学研究机构从可靠来源收集人口数据、地理数据和经济数据，随后对数据进行预处理，包括数据清洗、处理缺失值和异常值，以确保数据的质量和一致性；且该社会科学研究机构基于研究需求和领域知识，从数据中提取与人口、地理和经济相关的特征，使用min-max归一化法，基于人口、地理和经济数据的特征值，利用公式（6）对提取的特征进行标准化处理，以消除不同特征之间的尺度差异。

在常规的数据集成操作中，使用ETL工具即可对数据进行简单的集成；但此时该社会科学研究机构面临一个问题：人口数据主要是离散型数据，以人口数量、比率、百分比、年龄段等形式呈现；地理数据包括点、线、面和栅格等不同类型的数据，以地理坐标、地图图层、空间属性、属性值等形式呈现；经济数据以货币金额、指标比率、增长率、百分比等形式呈现；这三种数据具有一定的差异性，降低了数据集成结果的可靠性。

第二步，针对上述问题，该社会科学研究机构基于人口、地理和经济数据的特征，结合二元类别输出变量，例如某地区是否属于经济发达区域，利用公式（1）、公式（2）和公式（3），建立三个逻辑回归模型，并基于逻辑回归模型的参数，利用公式（4）和公式（5），在逻辑回归模型中添加L1正则化项，并使用经过处理的数据和特征，训练L1正规化模型，将系数近似为零的特征剔除，从而减少特征维度和去除冗余信息；且该社会科学研究机构使用线性判别分析法，基于人口、地理和经济数据，利用公式（7）、公式（8）、公式（9）和公式（10），将高维度数据转化为低维度表示，进一步减少数据间的冗余信息。

第三步，该社会科学研究机构使用堆叠法，基于逻辑回归模型，利用公式（11），将三个逻辑回归模型组合起来构建一个元模型，使用三个逻辑回归模型的预测结果作为输入特征训练元模型，从而捕获三个逻辑回归模型对人口、地理和经济领域的表达能力，提供更准确、稳定的预测结果。

第四步，该社会科学研究机构使用领域对抗网络法，设计并定义一个包含生成器和判别器的领域对抗网络；生成器将源领域数据转换为目标领域数据，判别器判断输入数据是否为真实目标领域数据或生成器生成的数据；并使用生成对抗训练的方式，交替训练生成器和判别器，其中生成器生成逼真的目标领域数据，以欺骗判别器，判别器则区分真实的目标领域数据和生成器生成的伪数据，从而基于生成器和判别器的输出结果，利用公式（12）和公式（13），优化生成器和判别器的参数；最终生成器学习到源领域和目标领域之间的映射关系，该社会科学研究机构将源领域数据输入生成器，得到目标领域的近似数据，以减小领域间的差异，进而整合来自不同领域的数据，为该社会科学研究机构提供更细粒度、精确的查询结果。

第五步，该社会科学研究机构使用ETL工具实现对人口、地理和经济数据的集成。

本实施例通过对来自不同领域的数据进行整合和匹配，减少数据冗余和不一致性，保持数据的一致性和准确性，提高数据质量，优化数据访问和资源利用，改善了跨领域数据集成结果的可靠性，促进不同领域之间的合作和跨学科研究，有助于发现新的关联和发展创新的解决方案，推动从多领域角度解决复杂问题的进展。

随后该社会科学研究机构利用集成后的数据，对某地区人口、地理和经济数据进行分析研究；此时需要将数据分发至多个节点进行计算，以提高数据分析的效率。

第六步，该社会研究机构将多个数据库作为节点，并将节点分为主节点和从节点，在主节点配置主数据库，在从节点配置从数据库，在主数据库中创建一个主数据库探测表，主数据库探测表使用数据库连接字符串创建与主数据库的连接，使用SQL INSERT语句将主数据库类型、连接信息、访问权限和最后检测时间插入到主数据库探测表中，监测主数据库的变动。

第七步，该社会研究机构在主数据库启用二进制日志，基于主数据库探测表，将数据变更记录到二进制日志文件中，包括数据插入、更新和删除，随后设置从数据库的连接参数，使从数据库与主数据库相连接，主数据库将二进制日志文件网络传输至从数据库，从数据库对二进制日志文件进行解析，从而将数据变更应用到从数据库，使从数据库与主数据库保持一致。

在常规的数据分发操作中，最后使用数据库连接工具即可对数据进行简单的分发；但对该社会科学研究机构而言，人口、地理和经济数据存在大量非必要信息，常规的数据分发后，会浪费大量性能去计算处理非必要信息，反而降低了数据分析的效率。

第八步，针对上述问题，该社会科学研究机构使用选择性投影算法，设置筛选条件，从而对主数据库中的人口、地理和经济数据进行筛选、去重和拼接；筛选条件包括条件表达式，例如工资大于5000元的人数；还包括逻辑表达式，例如工资在5000至10000元之间的人数；也包括模糊查询，例如两个地区的经济和地理环境的相似度；并为筛选后的人口、地理和经济数据设置新的列名，与原先庞大的数据进行区分；同时使用聚合汇总函数对人口、地理和经济数据进行计算，实现对大量的非必要数据的精简压缩，例如对某区域的人员工资收入计算总值和平均值，提高数据的可读性。

第九步，该社会科学研究机构使用数据库连接工具将处理后数据分发至各个节点，以提高数据分析的效率。

本实施例中，该社会科学研究机构在保持数据一致性的前提下，仅传输重要数据，减少传输到目标节点的数据量，提高查询的性能和响应时间，同时精简数据、提高数据的准确性和可读性，进行数据的快速统计、计算和查询，为数据分析和决策提供更好的基础。

本发明的实施方式是为了示例和描述起见而给出的，尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种用于数据库的数据集成分发方法，其特征在于，包括以下步骤：

S1，对原始数据进行预处理，包括数据清洗、处理缺失值和异常值，随后从原始数据中提取特征，并对提取的特征进行标准化处理；

S2,根据数据所处领域，建立多个逻辑回归模型，并在逻辑回归模型中添加L1正则化项，使用经过处理的数据和特征，训练L1正规化模型，将系数近似为零的特征剔除，并使用线性判别分析法，将高维度数据转化为低维度表示；

S3，使用堆叠法将多个逻辑回归模型组合起来构建一个元模型，使用多个逻辑回归模型的预测结果作为输入特征训练元模型，从而捕获多个逻辑回归模型对数据的不同领域的表达能力；

S4，使用领域对抗网络法，设计并定义一个包含生成器和判别器的领域对抗网络，使用生成对抗训练的方式，交替训练生成器和判别器，使用对抗损失函数来优化生成器和判别器的参数，随后使用生成器将源领域的数据转换为目标领域的数据；

S5，使用ETL工具对处理后的数据进行集成；

S6，将多个数据库作为节点，并将节点分为主节点和从节点，在主节点配置主数据库，在从节点配置从数据库，在主数据库中创建一个主数据库探测表，主数据库探测表使用数据库连接字符串创建与主数据库的连接，使用SQL INSERT语句将主数据库类型、连接信息、访问权限和最后检测时间插入到主数据库探测表中；

S7，在主数据库启用二进制日志，基于主数据库探测表，将数据变更记录到二进制日志文件中，随后设置从数据库的连接参数，使从数据库与主数据库相连接，主数据库将二进制日志文件网络传输至从数据库，从数据库对二进制日志文件进行解析，从而将数据变更应用到从数据库；

S8，使用选择性投影算法，设置筛选条件，对主数据库中的数据进行筛选、去重和拼接，并为筛选后的数据设置新的列名，随后使用聚合汇总函数对数据进行计算，获得数据的统计信息；

2.如权利要求1所述一种用于数据库的数据集成分发方法，其特征在于，步骤S1中，所述标准化处理使用的方法是min-max归一化法，所述min-max归一化公式如下：

x'=(x-min(x))/(max(x)-min(x))

式中，x'是归一化后的特征值，x是原始特征值，min(x)和max(x)分别是特征值x的最小值和最大值。

3.如权利要求1所述一种用于数据库的数据集成分发方法，其特征在于，步骤S2中，所述逻辑回归模型包括以下公式：

线性回归公式：

；

式中，z是线性回归公式的输出，是截距，/>到/>是自变量X₁到X_n的系数；

sigmoid函数公式：

；

式中，p表示输出为1的概率，e是自然对数的底；

logit函数公式：

；

式中，p表示输出为1的概率。

4.如权利要求2所述一种用于数据库的数据集成分发方法，其特征在于，步骤S2中，所述带有L1正则化项的逻辑回归模型包括以下公式：

优化目标公式：

；

式中，是损失函数和L1正则化项的组合，/>是模型的参数，m是样本数量，yi是实际的类别标签，/>是预测的概率值，/>是正则化项的权重；

损失函数公式：

；

式中，yi是实际的类别标签，是预测的概率值。

5.如权利要求1所述一种用于数据库的数据集成分发方法，其特征在于，步骤S2中，所述线性判别分析法包括以下公式：

类内散度矩阵公式：

；

类间散度矩阵公式：

；

广义矩阵公式：

；

式中，是特征值，w是对应的特征向量；

数据降维公式：

；

式中，Y是降维后的数据，X是原始数据，W是选取的特征向量矩阵。

6.如权利要求1所述一种用于数据库的数据集成分发方法，其特征在于，步骤S3中，所述堆叠法包括以下公式：

元模型训练公式：

；

式中，是元模型对训练样本的预测结果，/>表示元模型的函数，/>表示元模型的参数，/>表示特征矩阵。

7.如权利要求1所述一种用于数据库的数据集成分发方法，其特征在于，步骤S4中，所述领域对抗网络法包括以下公式：

生成器损失函数公式：

；

式中，D是判别器的输出，G是生成器的输出

判别器损失函数公式：

；

8.如权利要求1所述一种用于数据库的数据集成分发方法，其特征在于，步骤S7中，所述二进制日志包括时间戳和位置标识，所述从数据库根据时间戳的顺序应用数据变更操作，所述从数据库根据位置标识获取数据变更的位置。

9.如权利要求1所述一种用于数据库的数据集成分发方法，其特征在于，步骤S8中，所述聚合汇总函数包括COUNT函数、SUM函数、AVG函数、MIN函数、MAX函数和GROUP BY子句。