CN117764631A - 基于源端静态数据建模的数据治理优化方法及系统 - Google Patents
基于源端静态数据建模的数据治理优化方法及系统 Download PDFInfo
- Publication number
- CN117764631A CN117764631A CN202410194418.4A CN202410194418A CN117764631A CN 117764631 A CN117764631 A CN 117764631A CN 202410194418 A CN202410194418 A CN 202410194418A CN 117764631 A CN117764631 A CN 117764631A
- Authority
- CN
- China
- Prior art keywords
- data
- optimization
- models
- training
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 220
- 230000003068 static effect Effects 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 74
- 230000008859 change Effects 0.000 claims abstract description 40
- 238000011156 evaluation Methods 0.000 claims abstract description 34
- 230000004927 fusion Effects 0.000 claims abstract description 31
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 238000005538 encapsulation Methods 0.000 claims abstract description 13
- 238000009826 distribution Methods 0.000 claims description 16
- 210000002569 neuron Anatomy 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 238000013523 data management Methods 0.000 abstract description 25
- 238000012545 processing Methods 0.000 abstract description 7
- 238000013070 change management Methods 0.000 abstract description 4
- 238000012423 maintenance Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000003872 anastomosis Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了基于源端静态数据建模的数据治理优化方法及系统,涉及数据处理技术领域,方法包括:通过对初始化源端静态数据集进行数据变更分析,得到基于多个业务模块的多个数据量变更指标对初始化源端静态数据集进行分解,得到多组训练数据集集进行训练,得到多个数据优化子模型,对多个数据优化子模型的模型性能进行评估,得到多个数据优化子模型的性能评估结果对多个数据优化子模型进行更新融合,得到数据融合优化模型进行单核驱动封装,用于对目标企业的数据进行管理。本发明解决了现有技术中缺乏对源端静态数据建模的内容变更管控,导致数据治理优化效率低的技术问题,实现了对多个模型保持相同的训练数据量,提高数据治理优化效率。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及基于源端静态数据建模的数据治理优化方法及系统。
背景技术
随着科学技术的发展,特别是数据治理领域的发展,传统的主数据管理的思想只考虑了数据的共享问题,只初步解决了企业比较关注的各业务系统间的数据孤岛问题,而源端静态数据是企业数据质量的全部所属,数字化转型更需要全面数据质量的支撑,现有传统的主数据建模方法无法满足全面数据质量的管控。
现有传统主数据建模只片面的解决了各业务系统共享需要的数据内容的模型,没有考虑到未来由于企业业务系统的新增、变更等造成的主数据内容的变更问题,存在传统主数据的变更使平时的主数据管理运维难度较大,数据治理效率低的技术问题。
发明内容
本申请提供了基于源端静态数据建模的数据治理优化方法及系统,用于解决现有技术中存在的无法满足全面数据质量的管控不足,缺乏对源端静态数据建模的内容变更管控,导致数据治理优化效率低的技术问题。
鉴于上述问题,本申请提供了基于源端静态数据建模的数据治理优化方法及系统。
第一方面,本申请提供了基于源端静态数据建模的数据治理优化方法,所述方法包括:获取初始化源端静态数据集,其中,所述初始化源端静态数据集包括目标企业的多个业务模块对应的数据集;通过对所述初始化源端静态数据集进行数据变更分析,得到基于所述多个业务模块的多个数据量变更指标;基于所述多个数据量变更指标对所述初始化源端静态数据集进行分解,得到多组训练数据集,其中,每一组训练数据集的数据量相似度满足预设相似度;根据所述多组训练数据集进行训练,得到多个数据优化子模型,其中,每个数据优化子模型对应一组训练数据集;对所述多个数据优化子模型的模型性能进行评估,得到所述多个数据优化子模型的性能评估结果;根据所述多个数据优化子模型的性能评估结果对所述多个数据优化子模型进行更新融合,得到数据融合优化模型,将所述数据融合优化模型进行单核驱动封装,用于对所述目标企业的数据进行管理。
第二方面,本申请提供了基于源端静态数据建模的数据治理优化系统,所述系统包括:第一数据获取模块,所述第一数据获取模块用于获取初始化源端静态数据集,其中,所述初始化源端静态数据集包括目标企业的多个业务模块对应的数据集;第一分析模块,所述第一分析模块用于通过对所述初始化源端静态数据集进行数据变更分析,得到基于所述多个业务模块的多个数据量变更指标;分解模块,所述分解模块用于基于所述多个数据量变更指标对所述初始化源端静态数据集进行分解,得到多组训练数据集,其中,每一组训练数据集的数据量相似度满足预设相似度;第一训练模块,所述第一训练模块用于根据所述多组训练数据集进行训练,得到多个数据优化子模型,其中,每个数据优化子模型对应一组训练数据集;评估模块,所述评估模块用于对所述多个数据优化子模型的模型性能进行评估,得到所述多个数据优化子模型的性能评估结果;更新融合模块,所述更新融合模块用于根据所述多个数据优化子模型的性能评估结果对所述多个数据优化子模型进行更新融合,得到数据融合优化模型,将所述数据融合优化模型进行单核驱动封装,用于对所述目标企业的数据进行管理。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请提供的基于源端静态数据建模的数据治理优化方法及系统,涉及数据处理技术领域,解决了现有技术中无法满足全面数据质量的管控不足,缺乏对源端静态数据建模的内容变更管控,导致数据治理优化效率低的技术问题,实现了实现了对多个模型保持相同的训练数据量,提高数据治理优化效率。
附图说明
图1为本申请提供了基于源端静态数据建模的数据治理优化方法流程示意图;
图2为本申请提供了基于源端静态数据建模的数据治理优化系统结构示意图。
附图标记说明:第一数据获取模块1,第一分析模块2,分解模块3,训练模块4,评估模块5,更新融合模块6。
具体实施方式
本申请通过提供基于源端静态数据建模的数据治理优化方法及系统,用于解决现有技术中无法满足全面数据质量的管控不足,缺乏对源端静态数据建模的内容变更管控,导致数据治理优化效率低的技术问题。
实施例一
如图1所示,本申请实施例提供了基于源端静态数据建模的数据治理优化方法,该方法包括:
步骤A100:获取初始化源端静态数据集,其中,所述初始化源端静态数据集包括目标企业的多个业务模块对应的数据集;
在本申请中,本申请实施例提供的基于源端静态数据建模的数据治理优化方法应用于基于源端静态数据建模的数据治理优化系统,为了更好的提升对源端静态数据建模内的内容进行变更时的数据运维效率,因此首先需要对目标企业内的多个业务模块进行数据采集,目标企业内的多个业务模块是按照目标企业的行业以及规模进行规划组织所划分,进一步的,对目标企业运行时,采集多个业务模块内的业务数据流,将每个业务模块所对应的业务数据流进行数据整合后的数据集记作初始化源端静态数据集进行输出,为后期实现基于源端静态数据建模进行数据治理优化作为重要参考依据。
步骤A200:通过对所述初始化源端静态数据集进行数据变更分析,得到基于所述多个业务模块的多个数据量变更指标;
在本申请中,为了及时获取系统中内容的变更状态,则需要对目标企业内的多个业务模块制定相应的数据量变更指标,首先通过上述所获的初始化源端静态数据集进行数据变更分析,是指通过对初始化源端静态数据集内所包含不同时间点的数据进行比较,观察数据的增长、减少、周期性波动等情况,继而根据业务需求的变化、数据采集或处理过程的改进、数据质量问题等分析数据的变化趋势分析数据变更的原因,根据分析原因,目标企业可以采取相应的措施进行数据管理和优化,由于不同业务模块涉及到不同的数据量变更指标,从而对多个业务模块所对应的多个数据量变更指标进行制定,示例性的,若对销售业务模块制定相应的数据量变更指标,则需要通过销售额、销售数量、销售增长率、市场份额占比几个方面进行权衡制定,进而为实现基于源端静态数据建模进行数据治理优化做保障。
步骤A300:基于所述多个数据量变更指标对所述初始化源端静态数据集进行分解,得到多组训练数据集,其中,每一组训练数据集的数据量相似度满足预设相似度;
进一步而言,本申请步骤A300还包括:
步骤A310:获取所述初始化源端静态数据集的总数据量指标;
步骤A320:根据所述多个数据量变更指标对所述总数据量指标进行优化,得到优化后的总数据量指标;
步骤A330:基于预设数据量指标为单组训练数据集的数据量上限对优化后的总数据量指标进行分解,得到多组训练数据集。
进一步而言,本申请步骤A330包括:
步骤A331:获取用于模型封装的驱动配置参数,其中,所述驱动配置参数包括硬件资源配置参数和软件资源配置参数;
步骤A332:根据所述硬件资源配置参数和所述软件资源配置参数,获取所述预设数据量指标。
在本申请中,为了后期更准确的对多个模型进行训练,则首先对多个模型的训练数据进行精准获取,是指基于上述分析所获的多个数据量变更指标对初始化源端静态数据集进行分解,通过数据库查询获取初始化源端静态数据集的总数据量指标,总数据量指标是初始化源端静态数据集中包含的数据记录总数或数据文件的总大小,进一步的,根据多个数据量变更指标对总数据量指标进行优化,可以通过将多个数据量变更指标作为优化目标,对总数据量指标进行数据清洗以及去重,是首先对总数据量指标内的数据进行处理和清理,以去除无用数据和错误数据。可以帮助目标企业清除错误数据、重复数据格式不正确的数据和无用数据,再对重复的数据进行处理和清除,以便于数据分析和决策可以帮助企业减少数据分析的时间和成本,提高数据的准确性和一致性,并精简数据字段,获取优化后的总数据量指标,进一步的,将预设数据量指标设为单组训练数据集的数据量上限,预设数据量指标是通过获取用于模型封装的驱动配置参数,其中,在驱动配置参数内包括硬件资源配置参数和软件资源配置参数,硬件资源配置参数是指计算机系统中各硬件资源的配置参数,包括CPU、内存、硬盘、网络等,软件资源配置参数是指在软件系统中对各种资源进行配置和分配的参数,包括内存分配、线程和进程管理、文件系统容量、网络贷款、数据库资源配置等,继而将硬件资源配置参数和软件资源配置参数作为数据参考基础进行数据量变更最大量的提取,进而设定预设数据量指标,在此基础上对优化后的总数据量指标进行分解,是指基于硬件资源配置参数内的数据量和软件资源配置参数内的数据量对优化后的总数据量指标进行分解规制,生成多组训练数据集,且在多组训练数据集中的每一组训练数据集内的数据量相似度均满足预设相似度,为后续实现基于源端静态数据建模进行数据治理优化夯实基础。
步骤A400:根据所述多组训练数据集进行训练,得到多个数据优化子模型,其中,每个数据优化子模型对应一组训练数据集;
进一步而言,本申请步骤A400还包括:
步骤A410:获取所述多个业务模块的多个初始静态样本数据集;
步骤A420:获取所述多个业务模块的多个有效静态样本数据集;
步骤A430:对每个业务模块的有效静态样本数据集与所述初始静态样本数据集进行比对分析,建立有效相似度概率分布;
步骤A440:基于所述多个业务模块分别对应的有效相似度概率分布进行训练,得到预先训练好的数据优化网络;
步骤A450:根据预先训练好的数据优化网络对所述多组训练数据集进行训练,得到多个数据优化子模型。
进一步而言,本申请步骤A400包括:
步骤A451:其中,预先训练好的数据优化网络包括多个优化神经元,所述多个优化神经元通过多个有效相似度概率分布建立;
步骤A452:得到基于所述多个业务模块的多个数据优化相似度,根据所述多个数据优化相似度,得到数据优化质量;
步骤A453:当所述数据优化质量满足预设优化质量时,以使每个数据优化子模型收敛。
在本申请中,通过以多组训练数据集作为基础数据进行训练,是指首先对多个业务模块内所包含的多个初始静态样本数据集,多个初始静态样本数据集与多个业务模块存在一一对应的关系,每个业务模块所对应的初始静态样本数据集是指在开发和测试阶段,用于验证和演示业务模块功能的一组初始数据,具有代表性和多样性,能够覆盖业务模块的各种使用场景和边界情况,进一步的,以多个初始静态样本数据集作为基础数据,对多个业务模块的多个有效静态样本数据集进行筛选获取,多个有效静态样本数据集是指经过严格筛选和验证在目标企业的生产环境中实际使用的一组静态数据,多个有效静态样本数据集具有高度的代表性、准确性和稳定性,能够支持业务功能和决策的正常运行,继而对每个业务模块内所包含的有效静态样本数据集与初始静态样本数据集进行数据的比对吻合分析,根据数据吻合度建立有效相似度概率分布,即吻合度越高则有效相似度概率分布越广,进一步的,基于多个业务模块分别对应的有效相似度概率分布进行训练,得到预先训练好的数据优化网络,其中,预先训练好的数据优化网络包含输入层、隐藏层和输出层,在隐藏层内包括多个优化神经元,通过多个有效相似度概率分布建立多个优化神经元,每个优化神经元均与一个有效相似度概率分布所对应,继而根据多个有效相似度概率分布获取基于多个业务模块的多个数据优化相似度,并通过多个数据优化相似度进行数据质量的优化判别,是按照多个数据优化相似度筛选数据质量,得到数据优化质量,进一步的,对数据优化质量与预设优化质量进行比对判断,预设优化质量是按照历史数据的数据质量的期望值进行设定所获,当数据优化质量满足预设优化质量时,则视为数据优化质量满足期望值,同时根据数据优化质量使每个数据优化子模型进行收敛,其收敛过程可以是每个数据优化子模型的输出数据会聚于一点时,即向某一个值靠近则为收敛,最终根据预先训练好的数据优化网络对多组训练数据集进行训练,是通过多组训练数据集对应设定多组监督数据集,多组监督数据集为与多组训练数据集一一对应的监督数据。
进一步的,训练过程为:将多组训练数据集中每一组训练数据输入预先训练好的数据优化网络,通过这组训练数据对应的监督数据进行预先训练好的数据优化网络的输出监督调整,当预先训练好的数据优化网络的输出结果与监督数据一致,则当前组训练结束,将多组训练数据集中全部的训练数据均训练结束,则多个数据优化子模型训练完成,实现基于源端静态数据建模进行数据治理优化有着限定的作用。
步骤A500:对所述多个数据优化子模型的模型性能进行评估,得到所述多个数据优化子模型的性能评估结果;
在本申请中,为了提升对源端静态数据建模进行数据治理优化的效果,则需要对上述训练所获的多个数据优化子模型进行模型性能的评估,其评估过程可以是通过比较不同组合方式来评估性能,即对于多个数据优化子模型采用不同的组合方式进行预测,并根据预测结果的准确度来评估不同组合方式的性能,同时还需要注意数据集的大小、特征选择和预处理等问题,以确保模型的正确性和可靠性。示例性的,可以使用加权平均、层次结构等方法来组合多个子模型的预测结果,并比较不同组合方式的性能表现,从而获取多个数据优化子模型的性能评估结果,以得到最佳的模型性能和泛化能力,为后期基于源端静态数据建模进行数据治理优化时作为参照数据。
步骤A600:根据所述多个数据优化子模型的性能评估结果对所述多个数据优化子模型进行更新融合,得到数据融合优化模型,将所述数据融合优化模型进行单核驱动封装,用于对所述目标企业的数据进行管理。
进一步而言,本申请步骤A600还包括:
步骤A610:获取当前迭代轮次下所述多个数据优化子模型的性能评估结果中评分结果最大的第一数据优化子模型;
步骤A620:获取所述第一数据优化子模型对应的第一权重熵;
步骤A630:根据所述第一权重熵对剩余数据优化子模型的权重熵进行优化,得到当前迭代轮次下优化后的多个数据优化子模型。
进一步而言,本申请步骤A600还包括:
步骤A640:当满足第一收敛条件时,输出收敛的多个数据优化子模型,所述第一收敛条件为所述多个数据优化子模型的性能评估结果之间的偏差小于期望偏差;
步骤A650:再对收敛的多个数据优化子模型进行融合,得到所述数据融合优化模型。
在本申请中,为基于源端静态数据建模更精准的进行数据治理优化,通过以上述评估所获的多个数据优化子模型的性能评估结果作为融合基础数据,对多个数据优化子模型进行更新融合,而在更新融合之前还需要对多个数据优化子模型按照权重进行优化,进一步的,基于多个数据优化子模型的性能评估结果按照降序操作进行序列化处理,从而将此时第一位序的多个数据优化子模型的性能评估结果记作评分结果最大的性能评估结果,同时通过当前迭代轮次下多个数据优化子模型的性能评估结果中最大评分结果在多个数据优化子模型内确定与之对应的数据优化子模型,并将其记作第一数据优化子模型,根据第一数据优化子模型对应确定的权重记作第一权重熵,第一权重熵是用于衡量第一数据优化子模型内概率分布的信息量的度量指标,继而根据第一权重熵对剩余数据优化子模型的权重熵进行优化,对剩余数据优化子模型进行加权处理,对于第一权重熵,剩余数据优化子模型的权重熵,并通过组合获取的总权重熵,是指通过最小化权重熵来找到一个全局最优解完成数据优化子模型的权重熵的优化,同时获取当前迭代轮次下优化后的多个数据优化子模型,在此基础上根据多个数据优化子模型的性能评估结果对多个数据优化子模型进行更新融合,是指对多个数据优化子模型内的收敛数据与第一收敛条件进行比对判断,第一收敛条件为多个数据优化子模型的性能评估结果之间的偏差小于期望偏差,当多个数据优化子模型内的收敛数据达到第一收敛条件时,则视为多个数据优化子模型的模型性能和稳定性在误差范围内,从而输出完成收敛的多个数据优化子模型,进一步的再对收敛的多个数据优化子模型进行融合,是指将多个数据优化子模型根据数据治理目标选择适应度大的融合策略进行模型融合,融合策略可以包含加权平均策略、堆叠策略等,加权平均策略是指对多个数据优化子模型的预测结果进行加权平均,权重可以根据多个数据优化子模型的性能、置信度等进行设置,堆叠策略是指将多个数据优化子模型的预测结果作为新的特征,再训练一个元模型来融合多个数据优化子模型的预测结果,在此基础上获取数据融合优化模型,最终将通过融合完成的数据融合优化模型进行单核驱动封装,单核驱动封装是指将特定功能的单核驱动程序进行封装,以提供更方便、更易用的接口给数据融合优化模型使用。通过封装,可以隐藏底层硬件细节,并提供简化的函数或方法供目标企业调用,达到对目标企业内的数据进行数据精准治理的技术效果。
综上所述,本申请实施例提供的基于源端静态数据建模的数据治理优化方法,至少包括如下技术效果,实现了对多个模型保持相同的训练数据量,提高数据治理优化效率。
实施例二
基于与前述实施例中基于源端静态数据建模的数据治理优化方法相同的发明构思,如图2所示,本申请提供了基于源端静态数据建模的数据治理优化系统,系统包括:
第一数据获取模块1,所述第一数据获取模块1用于获取初始化源端静态数据集,其中,所述初始化源端静态数据集包括目标企业的多个业务模块对应的数据集;
第一分析模块2,所述第一分析模块2用于通过对所述初始化源端静态数据集进行数据变更分析,得到基于所述多个业务模块的多个数据量变更指标;
分解模块3,所述分解模块3用于基于所述多个数据量变更指标对所述初始化源端静态数据集进行分解,得到多组训练数据集,其中,每一组训练数据集的数据量相似度满足预设相似度;
第一训练模块4,所述第一训练模块4用于根据所述多组训练数据集进行训练,得到多个数据优化子模型,其中,每个数据优化子模型对应一组训练数据集;
评估模块5,所述评估模块5用于对所述多个数据优化子模型的模型性能进行评估,得到所述多个数据优化子模型的性能评估结果;
更新融合模块6,所述更新融合模块6用于根据所述多个数据优化子模型的性能评估结果对所述多个数据优化子模型进行更新融合,得到数据融合优化模型,将所述数据融合优化模型进行单核驱动封装,用于对所述目标企业的数据进行管理。
进一步而言,系统还包括:
第二数据获取模块,所述第二数据获取模块用于获取所述多个业务模块的多个初始静态样本数据集;
第三数据获取模块,所述第三数据获取模块用于获取所述多个业务模块的多个有效静态样本数据集;
第二分析模块,所述第二分析模块用于对每个业务模块的有效静态样本数据集与所述初始静态样本数据集进行比对分析,建立有效相似度概率分布;
第二训练模块,所述第二训练模块用于基于所述多个业务模块分别对应的有效相似度概率分布进行训练,得到预先训练好的数据优化网络;
第三训练模块,所述第三训练模块用于根据预先训练好的数据优化网络对所述多组训练数据集进行训练,得到多个数据优化子模型。
进一步而言,系统还包括:
优化网络模块,所述优化网络模块用于预先训练好的数据优化网络包括多个优化神经元,所述多个优化神经元通过多个有效相似度概率分布建立;
质量模块,所述质量模块用于得到基于所述多个业务模块的多个数据优化相似度,根据所述多个数据优化相似度,得到数据优化质量;
第一判断模块,所述第一判断模块用于当所述数据优化质量满足预设优化质量时,以使每个数据优化子模型收敛。
进一步而言,系统还包括:
模型获取模块,所述模型获取模块用于获取当前迭代轮次下所述多个数据优化子模型的性能评估结果中评分结果最大的第一数据优化子模型;
权重熵获取模块,所述权重熵获取模块用于获取所述第一数据优化子模型对应的第一权重熵;
优化模块,所述优化模块用于根据所述第一权重熵对剩余数据优化子模型的权重熵进行优化,得到当前迭代轮次下优化后的多个数据优化子模型。
进一步而言,系统还包括:
第二判断模块,所述第二判断模块用于当满足第一收敛条件时,输出收敛的多个数据优化子模型,所述第一收敛条件为所述多个数据优化子模型的性能评估结果之间的偏差小于期望偏差;
融合模块,所述融合模块用于再对收敛的多个数据优化子模型进行融合,得到所述数据融合优化模型。
进一步而言,系统还包括:
第一指标获取模块,所述第一指标获取模块用于获取所述初始化源端静态数据集的总数据量指标;
指标优化模块,所述指标优化模块用于根据所述多个数据量变更指标对所述总数据量指标进行优化,得到优化后的总数据量指标;
指标分解模块,所述指标分解模块用基于预设数据量指标为单组训练数据集的数据量上限对优化后的总数据量指标进行分解,得到多组训练数据集。
进一步而言,系统还包括:
参数配置模块,所述参数配置模块用于获取用于模型封装的驱动配置参数,其中,所述驱动配置参数包括硬件资源配置参数和软件资源配置参数;
第二指标获取模块,所述第二指标获取模块用于根据所述硬件资源配置参数和所述软件资源配置参数,获取所述预设数据量指标。
本说明书通过前述对基于源端静态数据建模的数据治理优化方法的详细描述,本领域技术人员可以清楚的知道本实施例中基于源端静态数据建模的数据治理优化系统,对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.基于源端静态数据建模的数据治理优化方法,其特征在于,所述方法包括:
获取初始化源端静态数据集,其中,所述初始化源端静态数据集包括目标企业的多个业务模块对应的数据集;
通过对所述初始化源端静态数据集进行数据变更分析,得到基于所述多个业务模块的多个数据量变更指标;
基于所述多个数据量变更指标对所述初始化源端静态数据集进行分解,得到多组训练数据集,其中,每一组训练数据集的数据量相似度满足预设相似度;
根据所述多组训练数据集进行训练,得到多个数据优化子模型,其中,每个数据优化子模型对应一组训练数据集;
对所述多个数据优化子模型的模型性能进行评估,得到所述多个数据优化子模型的性能评估结果;
根据所述多个数据优化子模型的性能评估结果对所述多个数据优化子模型进行更新融合,得到数据融合优化模型,将所述数据融合优化模型进行单核驱动封装,用于对所述目标企业的数据进行管理。
2.如权利要求1所述的方法,其特征在于,根据所述多组训练数据集进行训练,得到多个数据优化子模型,包括:
获取所述多个业务模块的多个初始静态样本数据集;
获取所述多个业务模块的多个有效静态样本数据集;
对每个业务模块的有效静态样本数据集与所述初始静态样本数据集进行比对分析,建立有效相似度概率分布;
基于所述多个业务模块分别对应的有效相似度概率分布进行训练,得到预先训练好的数据优化网络;
根据预先训练好的数据优化网络对所述多组训练数据集进行训练,得到多个数据优化子模型。
3.如权利要求2所述的方法,其特征在于,根据预先训练好的数据优化网络对所述多组训练数据集进行训练,得到多个数据优化子模型,包括:
其中,预先训练好的数据优化网络包括多个优化神经元,所述多个优化神经元通过多个有效相似度概率分布建立;
得到基于所述多个业务模块的多个数据优化相似度,根据所述多个数据优化相似度,得到数据优化质量;
当所述数据优化质量满足预设优化质量时,以使每个数据优化子模型收敛。
4.如权利要求1所述的方法,其特征在于,根据所述多个数据优化子模型的性能评估结果对所述多个数据优化子模型进行更新融合,包括:
获取当前迭代轮次下所述多个数据优化子模型的性能评估结果中评分结果最大的第一数据优化子模型;
获取所述第一数据优化子模型对应的第一权重熵;
根据所述第一权重熵对剩余数据优化子模型的权重熵进行优化,得到当前迭代轮次下优化后的多个数据优化子模型。
5.如权利要求4所述的方法,其特征在于,当满足第一收敛条件时,输出收敛的多个数据优化子模型,所述第一收敛条件为所述多个数据优化子模型的性能评估结果之间的偏差小于期望偏差;
再对收敛的多个数据优化子模型进行融合,得到所述数据融合优化模型。
6.如权利要求1所述的方法,其特征在于,基于所述多个数据量变更指标对所述初始化源端静态数据集进行分解,包括:
获取所述初始化源端静态数据集的总数据量指标;
根据所述多个数据量变更指标对所述总数据量指标进行优化,得到优化后的总数据量指标;
基于预设数据量指标为单组训练数据集的数据量上限对优化后的总数据量指标进行分解,得到多组训练数据集。
7.如权利要求6所述的方法,其特征在于,基于所述多个数据量变更指标对所述初始化源端静态数据集进行分解,还包括:
获取用于模型封装的驱动配置参数,其中,所述驱动配置参数包括硬件资源配置参数和软件资源配置参数;
根据所述硬件资源配置参数和所述软件资源配置参数,获取所述预设数据量指标。
8.基于源端静态数据建模的数据治理优化系统,其特征在于,所述系统包括:
第一数据获取模块,所述第一数据获取模块用于获取初始化源端静态数据集,其中,所述初始化源端静态数据集包括目标企业的多个业务模块对应的数据集;
第一分析模块,所述第一分析模块用于通过对所述初始化源端静态数据集进行数据变更分析,得到基于所述多个业务模块的多个数据量变更指标;
分解模块,所述分解模块用于基于所述多个数据量变更指标对所述初始化源端静态数据集进行分解,得到多组训练数据集,其中,每一组训练数据集的数据量相似度满足预设相似度;
第一训练模块,所述第一训练模块用于根据所述多组训练数据集进行训练,得到多个数据优化子模型,其中,每个数据优化子模型对应一组训练数据集;
评估模块,所述评估模块用于对所述多个数据优化子模型的模型性能进行评估,得到所述多个数据优化子模型的性能评估结果;
更新融合模块,所述更新融合模块用于根据所述多个数据优化子模型的性能评估结果对所述多个数据优化子模型进行更新融合,得到数据融合优化模型,将所述数据融合优化模型进行单核驱动封装,用于对所述目标企业的数据进行管理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410194418.4A CN117764631A (zh) | 2024-02-22 | 2024-02-22 | 基于源端静态数据建模的数据治理优化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410194418.4A CN117764631A (zh) | 2024-02-22 | 2024-02-22 | 基于源端静态数据建模的数据治理优化方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117764631A true CN117764631A (zh) | 2024-03-26 |
Family
ID=90320437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410194418.4A Pending CN117764631A (zh) | 2024-02-22 | 2024-02-22 | 基于源端静态数据建模的数据治理优化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117764631A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118154140A (zh) * | 2024-05-13 | 2024-06-07 | 山东中翰软件有限公司 | 一种基于源端静态数据的智能数据建模管理系统及方法 |
CN118229032A (zh) * | 2024-05-22 | 2024-06-21 | 山东中翰软件有限公司 | 基于业务动态变化的自适应企业数据管理方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105787010A (zh) * | 2016-02-23 | 2016-07-20 | 北京凯行同创科技有限公司 | 基于个人数据的采集处理及推送方法及系统 |
US20190025813A1 (en) * | 2016-05-09 | 2019-01-24 | Strong Force Iot Portfolio 2016, Llc | Methods and systems for intelligent collection and analysis of vehicle data |
CN113298121A (zh) * | 2021-04-30 | 2021-08-24 | 上海淇玥信息技术有限公司 | 基于多数据源建模的消息发送方法、装置和电子设备 |
CN115039045A (zh) * | 2019-11-25 | 2022-09-09 | 强力物联网投资组合2016有限公司 | 用于工业环境的智能振动数字孪生系统和方法 |
CN115221318A (zh) * | 2022-06-15 | 2022-10-21 | 国网湖南省电力有限公司 | 基于数据统一语义表征的设备健康档案库构建方法及系统 |
CN115759810A (zh) * | 2022-10-24 | 2023-03-07 | 北京邮电大学 | 企业评估模型迭代优化方法、企业评估方法及流水线系统 |
CN116739389A (zh) * | 2023-08-14 | 2023-09-12 | 广东创能科技股份有限公司 | 基于云计算的智慧城市管理方法及系统 |
WO2023179609A1 (zh) * | 2022-03-24 | 2023-09-28 | 华为技术有限公司 | 一种数据处理方法及装置 |
CN117009876A (zh) * | 2023-10-07 | 2023-11-07 | 长春光华学院 | 基于人工智能的运动状态量评估方法 |
CN117009430A (zh) * | 2022-04-27 | 2023-11-07 | 腾讯科技(深圳)有限公司 | 数据管理方法、装置和存储介质及电子设备 |
CN117314643A (zh) * | 2023-11-27 | 2023-12-29 | 深圳希施玛数据科技有限公司 | 基于金融风洞数据的数据分析方法、装置及存储介质 |
-
2024
- 2024-02-22 CN CN202410194418.4A patent/CN117764631A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105787010A (zh) * | 2016-02-23 | 2016-07-20 | 北京凯行同创科技有限公司 | 基于个人数据的采集处理及推送方法及系统 |
US20190025813A1 (en) * | 2016-05-09 | 2019-01-24 | Strong Force Iot Portfolio 2016, Llc | Methods and systems for intelligent collection and analysis of vehicle data |
CN115039045A (zh) * | 2019-11-25 | 2022-09-09 | 强力物联网投资组合2016有限公司 | 用于工业环境的智能振动数字孪生系统和方法 |
CN113298121A (zh) * | 2021-04-30 | 2021-08-24 | 上海淇玥信息技术有限公司 | 基于多数据源建模的消息发送方法、装置和电子设备 |
WO2023179609A1 (zh) * | 2022-03-24 | 2023-09-28 | 华为技术有限公司 | 一种数据处理方法及装置 |
CN117009430A (zh) * | 2022-04-27 | 2023-11-07 | 腾讯科技(深圳)有限公司 | 数据管理方法、装置和存储介质及电子设备 |
CN115221318A (zh) * | 2022-06-15 | 2022-10-21 | 国网湖南省电力有限公司 | 基于数据统一语义表征的设备健康档案库构建方法及系统 |
CN115759810A (zh) * | 2022-10-24 | 2023-03-07 | 北京邮电大学 | 企业评估模型迭代优化方法、企业评估方法及流水线系统 |
CN116739389A (zh) * | 2023-08-14 | 2023-09-12 | 广东创能科技股份有限公司 | 基于云计算的智慧城市管理方法及系统 |
CN117009876A (zh) * | 2023-10-07 | 2023-11-07 | 长春光华学院 | 基于人工智能的运动状态量评估方法 |
CN117314643A (zh) * | 2023-11-27 | 2023-12-29 | 深圳希施玛数据科技有限公司 | 基于金融风洞数据的数据分析方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
CHANGSHENG YAO 等: "Several Novel Dynamic Ensemble Selection Algorithms for Time Series Prediction", 《NEURAL PROCESSING LETTERS》, vol. 50, no. 2, 30 November 2018 (2018-11-30), XP036911264, DOI: 10.1007/s11063-018-9957-7 * |
张长勇,周 虎: "基于数据关联感知的无监督深度融合指针网络模型", 《控制与决策》, vol. 39, no. 2, 11 October 2022 (2022-10-11) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118154140A (zh) * | 2024-05-13 | 2024-06-07 | 山东中翰软件有限公司 | 一种基于源端静态数据的智能数据建模管理系统及方法 |
CN118229032A (zh) * | 2024-05-22 | 2024-06-21 | 山东中翰软件有限公司 | 基于业务动态变化的自适应企业数据管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110389820B (zh) | 一种基于v-TGRU模型进行资源预测的私有云任务调度方法 | |
CN110390345B (zh) | 一种基于云平台的大数据集群自适应资源调度方法 | |
CN117764631A (zh) | 基于源端静态数据建模的数据治理优化方法及系统 | |
CN111324642A (zh) | 一种面向电网大数据分析的模型算法选型与评价方法 | |
CN111008726B (zh) | 一种电力负荷预测中类图片转换方法 | |
CN115641162A (zh) | 一种基于建筑工程造价的预测数据分析系统和方法 | |
CN114066073A (zh) | 电网负荷预测方法 | |
CN114154716B (zh) | 一种基于图神经网络的企业能耗预测方法及装置 | |
CN118193169A (zh) | 一种基于设备状态分析的任务调度优化方法及系统 | |
CN117971475A (zh) | 一种gpu算力池智能管理方法及系统 | |
CN113255873A (zh) | 一种聚类天牛群优化方法、系统、计算机设备和存储介质 | |
Vychuzhanin et al. | Analysis and structuring diagnostic large volume data of technical condition of complex equipment in transport | |
CN115941696A (zh) | 异构大数据分布式集群存储优化方法 | |
CN114548494B (zh) | 一种可视化造价数据预测智能分析系统 | |
Shu et al. | Resource demand prediction of cloud workloads using an attention-based GRU model | |
CN116911459A (zh) | 适应于虚拟电厂的多输入多输出超短期电力负荷预测方法 | |
Song et al. | Spark-based cloud data analytics using multi-objective optimization | |
Antici et al. | Augmenting ML-based Predictive Modelling with NLP to Forecast a Job's Power Consumption | |
CN117827434A (zh) | 基于多维资源预测的混合弹性伸缩方法 | |
CN110058942B (zh) | 基于层次分析法的资源分配系统及方法 | |
CN116523640A (zh) | 一种基于调度反馈算法的金融信息管理系统 | |
CN116680090A (zh) | 一种基于大数据的边缘计算网络管理方法及平台 | |
CN111160715A (zh) | 基于bp神经网络新旧动能转换绩效评价方法和装置 | |
CN109919219A (zh) | 一种基于粒计算ML-kNN的Xgboost多视角画像构建方法 | |
CN115130380A (zh) | 一种基于机器学习的战略航班时刻表延误分布预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |