CN117610970A - 一种数据迁移工作的智能评估方法及系统 - Google Patents
一种数据迁移工作的智能评估方法及系统 Download PDFInfo
- Publication number
- CN117610970A CN117610970A CN202410007986.9A CN202410007986A CN117610970A CN 117610970 A CN117610970 A CN 117610970A CN 202410007986 A CN202410007986 A CN 202410007986A CN 117610970 A CN117610970 A CN 117610970A
- Authority
- CN
- China
- Prior art keywords
- data
- extraction
- data set
- clustering
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013508 migration Methods 0.000 title claims abstract description 108
- 230000005012 migration Effects 0.000 title claims abstract description 108
- 238000011156 evaluation Methods 0.000 title claims abstract description 68
- 238000000605 extraction Methods 0.000 claims abstract description 158
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 238000013524 data verification Methods 0.000 claims abstract description 23
- 238000012360 testing method Methods 0.000 claims description 29
- 230000009747 swallowing Effects 0.000 claims description 17
- 230000007704 transition Effects 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 238000002955 isolation Methods 0.000 claims description 4
- 230000005856 abnormality Effects 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 description 8
- 238000013210 evaluation model Methods 0.000 description 5
- 238000013075 data extraction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011068 loading method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0206—Price or cost determination based on market factors
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Finance (AREA)
- Economics (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据迁移工作的智能评估方法及系统,属于数据处理领域,其中方法包括:读取数据集;配置抽取粒度,进行数据验证,生成数据量标识;获得数据集的存储特征,执行数据聚类,建立数据簇;对数据簇进行数量计算,并基于计算结果配置N个抽取终端;设置抽取终端的终端单位时长调用成本,执行调用成本预估,生成第一预估结果;以数据的迁移目标时长对N个抽取终端的抽取时长评价,生成第二预估结果;通过第一预估结果和第二预估结果生成智能评估结果。本申请解决了现有技术中无法对不同类型数据集进行精确的迁移评估的技术问题,达到了通过数据集多维特征分析实现迁移评估精确化的技术效果。
Description
技术领域
本发明涉及数据处理领域,具体涉及一种数据迁移工作的智能评估方法及系统。
背景技术
随着信息技术的发展,各行各业积累了大量数据集。为持续升级数据应用,需要对数据集进行迁移处理。特别是在银行信息技术项目中,存在大规模的数据集迁移需求。但是现有技术在数据集迁移评估方面存在明显缺陷,如分类粒度不精细、分析维度单一等,导致无法对迁移工作量、工期和成本进行准确评估,给项目实施带来了巨大困难。
发明内容
本申请通过提供了一种数据迁移工作的智能评估方法及系统,旨在解决现有技术中无法对不同类型数据集进行精确的迁移评估的技术问题。
鉴于上述问题,本申请提供了一种数据迁移工作的智能评估方法及系统。
本申请公开的第一个方面,提供了一种数据迁移工作的智能评估方法,该方法包括:读取数据集,其中,所述数据集为依据项目范围界定的待迁移的数据集合,并依据数据来源进行数据集分类,建立数据集的分类特征;配置抽取粒度,以所述抽取粒度进行对应分类特征下的数据集数据验证,并基于数据验证结果生成数据量标识;获得数据集的存储特征,以所述存储特征和所述分类特征作为判别特征,执行所述数据集的数据聚类,建立数据簇;以所述数据量标识对所述数据簇进行数量计算,并基于计算结果配置N个抽取终端;设置抽取终端的终端单位时长调用成本,并通过所述终端单位时长调用成本对波动扩充后N个抽取终端执行调用成本预估,生成第一预估结果;以数据的迁移目标时长对N个抽取终端的抽取时长评价,生成第二预估结果;通过所述第一预估结果和所述第二预估结果生成数据集迁移的智能评估结果。
本申请公开的另一个方面,提供了一种数据迁移工作的智能评估系统,该系统包括:数据集读取模块,用于读取数据集,其中,所述数据集为依据项目范围界定的待迁移的数据集合,并依据数据来源进行数据集分类,建立数据集的分类特征;数据验证模块,用于配置抽取粒度,以所述抽取粒度进行对应分类特征下的数据集数据验证,并基于数据验证结果生成数据量标识;数据聚类模块,用于获得数据集的存储特征,以所述存储特征和所述分类特征作为判别特征,执行所述数据集的数据聚类,建立数据簇;抽取终端配置模块,用于以所述数据量标识对所述数据簇进行数量计算,并基于计算结果配置N个抽取终端;调用成本预估模块,用于设置抽取终端的终端单位时长调用成本,并通过所述终端单位时长调用成本对波动扩充后N个抽取终端执行调用成本预估,生成第一预估结果;抽取时长评价模块,用于以数据的迁移目标时长对N个抽取终端的抽取时长评价,生成第二预估结果;评估结果生成模块,用于通过所述第一预估结果和所述第二预估结果生成数据集迁移的智能评估结果。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
由于采用了读取数据集,对不同类型、不同范围的数据集进行区分,明确各类数据集的迁移需求特点;配置抽取粒度,验证不同分类数据集的数据,生成数据量标识,以有效判断各分类数据集的数据规模,为迁移评估提供依据;获得数据集的存储特征,与分类特征一起进行数据聚类,建立准确的迁移需求,以减少迁移评估的偏差;根据数据量标识计算数据簇数量,配置所需的抽取终端;设置终端调用成本,并进行成本预估,实现迁移成本控制,生成第一预估结果,以准确掌握迁移成本;评估终端抽取时长,生成第二预估结果;通过第一预估结果和第二预估结果生成数据集迁移的智能评估结果的技术方案,解决了现有技术中无法对不同类型数据集进行精确的迁移评估的技术问题,达到了通过数据集多维特征分析实现迁移评估精确化的技术效果。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本申请实施例提供了一种数据迁移工作的智能评估方法的一种流程示意图;
图2为本申请实施例提供了一种数据迁移工作的智能评估方法中建立抽取终端的一种流程示意图;
图3为本申请实施例提供了一种数据迁移工作的智能评估系统的一种结构示意图。
附图标记说明:数据集读取模块11,数据验证模块12,数据聚类模块13,抽取终端配置模块14,调用成本预估模块15,抽取时长评价模块16,评估结果生成模块17。
具体实施方式
本申请提供的技术方案总体思路如下:
本申请实施例提供了一种数据迁移工作的智能评估方法及系统。首先,依据数据来源对待迁移数据集进行数据集分类,全面了解不同类型数据集的迁移特点。然后,采用抽取粒度验证分类数据集,统计数据量规模,并进行数据聚类,建立准确的迁移需求。接着,根据数据量标识配置所需的抽取终端,并进行终端成本分析,生成第一预估结果,实现迁移成本控制。随后,评估终端的工作时长,生成第二预估结果。最后,通过第一预估结果和第二预估结果生成精确的数据集迁移的智能评估结果。
在介绍了本申请基本原理后,下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。
实施例一:
如图1所示,本申请实施例提供了一种数据迁移工作的智能评估方法,该方法包括:
读取数据集,其中,所述数据集为依据项目范围界定的待迁移的数据集合,并依据数据来源进行数据集分类,建立数据集的分类特征;
在本申请实施例中,首先,依据项目范围界定待迁移的数据集合,其中,项目范围是指当前数据迁移任务所针对的项目的业务范围,根据项目具体的业务需求,确定项目涉及的数据集合,即确定本次需要迁移的数据范围。然后,对所界定出的待迁移的数据集合,依据数据来源进行分类。其中,数据来源是指数据集的生成部门或系统。一个项目的数据集可能来源于多个不同的业务系统或部门,因此需要根据数据来源将数据集分类,得到数据集的分类特征,对这些分类特征进行记录,即得到数据集,实现数据集的读取。
配置抽取粒度,以所述抽取粒度进行对应分类特征下的数据集数据验证,并基于数据验证结果生成数据量标识;
在本申请实施例中,首先,依据建立的数据集分类特征,配置对应每个分类特征的数据抽取粒度。该抽取粒度是指进行数据验证时的抽取单位,可以按表、列等粒度进行配置。不同分类特征的数据可配置不同的抽取粒度。然后,按配置的抽取粒度,对各分类特征下的数据集进行抽取,获取验证数据集,即从待迁移数据集中按照配置的粒度抽取数据作为验证数据集。接着,对获取的验证数据集进行数据验证,判断验证数据集与原始数据集的一致性,得到数据验证结果。随后,根据数据验证结果,对于验证通过的数据,以验证通过的数据量作为数据量标识,表示在该抽取粒度和验证方式下,原始数据集中的有效的数据量大小。
获得数据集的存储特征,以所述存储特征和所述分类特征作为判别特征,执行所述数据集的数据聚类,建立数据簇;
在本申请实施例中,首先,获得数据集的存储特征,即数据集存储的形式特征,如表结构、存储格式等。然后,以获得的存储特征和确定的分类特征作为判别特征,判别不同的数据属于哪些类别。接着,依据判别特征,对数据集进行聚类,获得聚类结果。随后,根据聚类结果,将划分到同一聚类中的数据提取出来,作为一个数据簇,即每一个聚类都对应一个数据簇,为后续的抽取配置、迁移评估奠定基础。
以所述数据量标识对所述数据簇进行数量计算,并基于计算结果配置N个抽取终端;
在本申请实施例中,首先,获取形成的数据簇以及相应的分类特征下的数据量标识。然后,依据每个分类特征下的数据量标识,估算对应的数据簇包含的数据量,即对每个数据簇进行数量计算,获得数据簇的量化特征。接下来,依据数据簇的数量计算结果,确定抽取终端的配置数量N,抽取终端数应与数据规模相匹配,防止抽取能力过剩或不足。随后,根据计算所得的抽取终端数N,配置对应数量的抽取终端,每个抽取终端可对应一个数据簇进行抽取。通过合理地配置抽取终端,为后续的数据抽取工作提供具有充分抽取能力的终端设备支持,从而提高数据迁移的效率。
设置抽取终端的终端单位时长调用成本,并通过所述终端单位时长调用成本对波动扩充后N个抽取终端执行调用成本预估,生成第一预估结果;
在本申请实施例中,首先,根据终端的性能参数以及使用费率等确定设置抽取终端的终端单位时长调用成本。然后,考虑到实际情况中的各种波动因素,对N个配置好的抽取终端数进行合理扩充。接下来,以设置好的终端单位时长调用成本,对波动扩充后的抽取终端数执行调用成本预估,预测这些终端的使用需要的总成本。随后,将调用成本预估的结果作为第一预估结果,评估出配置的抽取终端所需要的成本投入。
以数据的迁移目标时长对N个抽取终端的抽取时长评价,生成第二预估结果;
在本申请实施例中,首先,获取数据迁移的目标时长,该目标时长是根据项目进度需求预先确定的数据迁移时间窗口。然后,根据终端性能参数确定N个抽取终端的单位时长抽取数据量。接下来,依据单位时长抽取数据量,对N个终端完成全部数据迁移的所需时间进行估算评价。随后,将N个终端的抽取时长评价结果作为第二预估结果,评估出配置的抽取终端是否满足目标时长需求。
通过所述第一预估结果和所述第二预估结果生成数据集迁移的智能评估结果。
在本申请实施例中,首先,获取第一预估结果,即抽取终端调用成本预估结果,该结果从成本投入角度评价数据集迁移。然后,获取第二预估结果,即抽取终端完成迁移所需时间预估结果,该结果从时间效率角度评价数据集迁移。接下来,以决策树模型构建评估模型,同时考虑调用成本和抽取时长两个指标,使用已有的样本数据训练评估模型。随后,将第一预估结果和第二预估结果输入训练好的评估模型,评估模型结合两个输入,按其规定的模型计算流程进行运算,输出评估模型的运算结果,作为对当前数据集迁移的智能评估结果。
进一步的,本申请实施例还包括:
对所述数据集进行数据的安全等级评价,生成安全等级评价结果;
判断所述安全等级评价结果是否存在满足预设等级阈值的数据;
若存在满足预设等级阈值的数据,则将对应数据独立隔离,并将未隔离数据集以所述存储特征和所述分类特征作为判别特征,执行数据聚类;
通过安全等级的聚类跃迁约束执行数据聚类约束,其中,所述聚类跃迁约束为跨安全等级的约束规则;
根据约束结果和独立隔离结果完成数据簇的建立。
在一种优选的实施方式中,首先,根据数据的敏感程度、影响程度等安全属性确定安全评级的标准,依照确认的安全评级标准,对数据集中的每部分数据执行安全等级评价,汇总每部分数据的安全等级评价结果,生成数据集整体的安全等级评估结果。其次,提前依据行业标准、公司策略等确定预设等级阈值,用于划分不同安全等级数据。然后,遍历安全等级评估结果中的每一数据记录的安全等级,判断是否高于或等于预设等级阈值,高于或等于预设等级阈值的数据即为满足预设等级阈值的数据,高安全等级的数据。
随后,对于高于或等于预设等级阈值的数据,进行数据独立隔离,形成独立的高安全性数据集。以预设等级阈值判断完数据集中的所有数据后,在数据集中将独立的高安全性数据集剔除,得到未隔离数据集。然后,获取未隔离数据集中数据的存储特征和分类特征,作为判别特征,对未隔离数据集中的数据执行聚类操作,获得聚类结果,为未隔离数据集中数据的聚类情况。与此同时,保留独立隔离的高安全性数据集。之后,获取预定义的安全等级的聚类跃迁约束,表示跨安全等级聚类的禁止规则。
接着,获取聚类结果,遍历检查聚类结果中每个聚类中数据的安全等级分布情况,根据安全等级的聚类跃迁约束,识别聚类结果中不符合跃迁约束的聚类结构。对不符合约束的聚类结构进行调整,确保聚类结果符合跨安全等级聚类限制。随后,获取独立隔离的高安全性数据集,并获取约束处理后的聚类结果。然后,初始化空的簇集用于存储最终簇结果,将高安全性数据集作为独立的簇,将约束处理后的聚类结果中的每个聚类作为一个簇,至此,实现数据簇的建立,既包括独立的高安全数据簇,也包括特征聚类的普通数据簇。
进一步的,本申请实施例还包括:
在未隔离数据集中随机分布聚类中心;
当聚类中心分布成功后,以聚类中心作为搜索起点,执行预设范围内的聚类搜索;
根据聚类搜索结果进行聚类中心的位置迭代,并依据聚类中心的位置迭代结果更新搜索引力,并依据聚类跃迁约束进行聚类剔除;
当满足聚类终止条件后,结束聚类搜索,完成数据簇的建立。
在一种优选的实施方式中,首先,根据未隔离数据集的数据量和分布情况,确定聚类中心数K,同时构建一个索引表,以记录未隔离数据集中每一数据。然后,使用随机数生成方法,从索引表中随机选择K个数据点,作为K个初始聚类中心,在未隔离数据集中标记出这K个初始聚类中心点的位置,实现聚类中心的随机分布。随后,根据未隔离数据集的密度情况,确定预设范围,以随机分布的初始聚类中心为起点,进行预设范围的聚类搜索,对每个聚类中心,找到所有包含的数据点,作为的初始聚类结果。重复上述搜索过程,直至遍历完成所有K个初始聚类中心。
然后,基于各初始聚类结果,重新计算各聚类中心的位置,即进行聚类中心的位置更新。之后,根据新聚类中心位置,更新其对各数据点的搜索引力,代表聚类中心的搜索吸引力。接着,检查各聚类结果是否违反预设的聚类跃迁约束,如存在违规,则剔除不合约束的数据。随后,重复上述迭代计算,持续调整聚类中心、更新引力公式、检验并修正聚类结果。同时,预设聚类优化的聚类终止条件,如设定最大迭代次数,或聚类结果的误差小于阈值。然后,在迭代优化过程中,持续判断优化是否满足终止条件,当聚类优化过程满足聚类终止条件时,结束当前的聚类迭代过程,输出并记录当前优化迭代所得到的最终聚类结果,包括各聚类中心和其对应的类成员。至此,结束聚类搜索,完成针对未隔离数据集的聚类处理,所得到的聚类结果作为后续的数据簇。
进一步的,本申请实施例还包括:
在进行数据簇建立的过程中,判断是否存在聚类中心吞并行为;
当存在聚类中心吞并行为时,则依据吞并前聚类簇的大小将聚类中心标识为主聚类中心和辅助聚类中心;
以所述主聚类中心和所述辅助聚类中心的中心距离作为约束数据,重构聚类中心的位置迭代基准步长;
以所述主聚类中心为吞并后的中心,依据重构后的位置迭代基准步长进行聚类中心的位置迭代。
在一种优选的实施方式中,在数据簇的生成过程中,实时监测聚类中心的迭代情况,判断是否出现吞并现象。首先,在聚类迭代各轮中,记录每一个聚类中心所对应的类成员数量,比对不同迭代轮中每个聚类中心的类成员数量变化,如果发现某一聚类中心的类成员数量持续增加,同时其他聚类中心的数量持续减少,则判定为存在吞并行为。在检测到聚类中心吞并行为的情况下,获取吞并发生前各聚类簇中所含数据点的数量,比较不同聚类簇的大小,将数据点较多的数据簇确定为吞并方,将数据点较少的数据簇确定为被吞并方。然后,将吞并方的聚类中心标识为主聚类中心,将被吞并方的聚类中心标识为辅助聚类中心。
在标识出主聚类中心和辅助聚类中心后,计算主聚类中心和辅助聚类中心两点之间的距离,作为位置调整的约束数据。如果中心距离较小,则需要设定较大的步长,避免主聚类中心位置过度收缩;如果中心距离较大,则需要设定较小的步长,防止主聚类中心向辅助聚类中心过度扩张,从而重构聚类中心的位置迭代基准步长。随后,以主聚类中心为吞并后新的聚类中心,获取重构后的位置迭代基准步长。在进行新一轮聚类中心迭代时,应用重构后的位置迭代基准步长,以主聚类中心在重构步长范围内进行移动,重复迭代直至满足终止条件,实现聚类中心的位置迭代。
通过引入重构步长,使主聚类中心作为新聚类核心,在合理范围内调整位置,达到重新均衡的数据点分布,有效防止过度吞并,提高聚类效果。
进一步的,如图2所示,本申请实施例还包括:
获得抽取终端对各个分类特征的抽取基准速度;
依据数据簇数量对应分布初始抽取终端;
根据计算结果和所述抽取基准速度进行数据簇的抽取时长计算;
依据抽取时长计算结果进行抽取终端的寻优补充,完成N个抽取终端建立。
在一种优选的实施方式中,首先,准备不同分类特征的样本数据集,对、抽取终端,使用样本数据集进行抽取速度测试,统计其对各分类数据的平均抽取速率,形成抽取终端对各个分类特征的抽取基准速度。然后,统计所有数据簇的数量,预设置单簇的初始抽取终端分配数量,计算并得到初始抽取终端总数,并对应向各个数据簇进行初始的抽取终端分配。在完成初始抽取终端分配后,获取各数据簇根据分类特征被分配的抽取终端数量,并获取各抽取终端的抽取基准速度,针对每个数据簇,获得该簇对应抽取终端的抽取速率。随后,计算该数据簇的总数据量,并与抽取终端的抽取速率求积,得到数据簇的抽取时长。重复上述计算,汇总所有数据簇的抽取时长。之后,获取当前抽取终端分配方案下的数据簇对应的总抽取时长,初始化抽取终端数量,进行抽取终端的扩充,重复抽取时长计算和汇总,得到扩充后的新总抽取时长。随后,比较扩充前后总时长的增减,如果时长减少则保留扩充,否则撤销。最后,通过多轮迭代寻优,选择小于迁移目标时长的抽取终端分配方案,得到N个抽取终端。
进一步的,本申请实施例还包括:
获得抽取终端的预定数量,并建立超额数量的递增关联系数;
将所述抽取时长计算结果、所述预定数量和所述递增关联系数输入寻优配置网络,获得N个抽取终端。
在一种优选的实施方式中,首先,根据项目的资源预算情况、数据量级要求等因素,确定本次数据迁移优化所需要的抽取终端的预定数量。设置超出预定数量后,终端数量递增的生成模式,例如等差数列或等比数列,以建立超额数量的递增关联系数。同时,构建寻优配置网络,其中时长计算结果、预定数量和递增数列参数作为网络的输入层,抽取终端的数量为网络的输出层。随后,以最低总抽取时长为网络的优化目标,训练网络,使用增量学习让网络逼近最优解。然后,将当前的时长计算结果、预定数量和递增关联系数输入寻优配置网络,经过网络正向传播计算,输出优化后的抽取终端数量N,得到N个抽取终端。
进一步的,本申请实施例还包括:
建立测试空间;
当数据集的迁移评估通过,依据所述测试空间执行数据集的迁移测试;
基于迁移测试结果进行迁移评估的一致性校验;
若一致性校验通过,则继续执行数据集的数据迁移;
若一致性校验未通过,则报出迁移异常。
在一种优选的实施方式中,为了对拟定的迁移方案进行验证,首先,搭建与正式数据环境具有相同架构和配置的测试数据集环境,确保测试环境与正式环境在网络、存储等系统资源上进行隔离,并在测试环境中准备相同的数据集,保证包含各种数据分类类型,实现测试空间的建立。然后,获取通过评估的迁移方案,包括数据抽取、转换、加载等详细流程,读取测试空间中的数据集,按照迁移方案逐步执行测试数据集的迁移,完成测试空间到目标位置的数据迁移,记录并检查测试迁移的全过程数据和日志,作为迁移测试结果。
在完成测试数据集的迁移后,基于迁移测试结果得到测试迁移所生成的评估指标数据,如迁移时间、数据完整性等,逐项比较测试迁移的评估指标与预期指标,判断差异是否在容差范围内。如果所有指标均通过校验,则确认迁移评估结果为一致性检验通过;否则为一致性检验未通过。如果迁移评估结果为一致性校验通过,则证明当前的迁移方案是可行有效的,则根据当前的迁移方案,正式启动并执行整个数据集的迁移,直至完成目标位置的全量数据加载。如果迁移测试结果为一致性检验未通过,则表示存在隐患,迁移方案存在问题,此时记录下不一致的评估指标详情,分析出现差异的原因,并报出迁移异常,以进行迁移方案重新设计与评估。
综上所述,本申请实施例所提供的一种数据迁移工作的智能评估方法具有如下技术效果:
读取数据集,其中,数据集为依据项目范围界定的待迁移的数据集合,并依据数据来源进行数据集分类,建立数据集的分类特征,以了解不同数据集的迁移特点。配置抽取粒度,以抽取粒度进行对应分类特征下的数据集数据验证,并基于数据验证结果生成数据量标识,判断各数据集的数据规模。获得数据集的存储特征,以存储特征和分类特征作为判别特征,执行数据集的数据聚类,建立数据簇,以减少评估偏差。以数据量标识对数据簇进行数量计算,并基于计算结果配置N个抽取终端,从而合理配置所需终端。设置抽取终端的终端单位时长调用成本,并通过终端单位时长调用成本对波动扩充后N个抽取终端执行调用成本预估,生成第一预估结果,实现迁移成本控制。以数据的迁移目标时长对N个抽取终端的抽取时长评价,生成第二预估结果,考虑时长因素,使结果更全面。通过第一预估结果和第二预估结果生成数据集迁移的智能评估结果,精确评估数据迁移需求。
实施例二:
基于与前述实施例中一种数据迁移工作的智能评估方法相同的发明构思,如图3所示,本申请实施例提供了一种数据迁移工作的智能评估系统,该系统包括:
数据集读取模块11,用于读取数据集,其中,所述数据集为依据项目范围界定的待迁移的数据集合,并依据数据来源进行数据集分类,建立数据集的分类特征;
数据验证模块12,用于配置抽取粒度,以所述抽取粒度进行对应分类特征下的数据集数据验证,并基于数据验证结果生成数据量标识;
数据聚类模块13,用于获得数据集的存储特征,以所述存储特征和所述分类特征作为判别特征,执行所述数据集的数据聚类,建立数据簇;
抽取终端配置模块14,用于以所述数据量标识对所述数据簇进行数量计算,并基于计算结果配置N个抽取终端;
调用成本预估模块15,用于设置抽取终端的终端单位时长调用成本,并通过所述终端单位时长调用成本对波动扩充后N个抽取终端执行调用成本预估,生成第一预估结果;
抽取时长评价模块16,用于以数据的迁移目标时长对N个抽取终端的抽取时长评价,生成第二预估结果;
评估结果生成模块17,用于通过所述第一预估结果和所述第二预估结果生成数据集迁移的智能评估结果。
进一步的,数据聚类模块13包括以下执行步骤:
对所述数据集进行数据的安全等级评价,生成安全等级评价结果;
判断所述安全等级评价结果是否存在满足预设等级阈值的数据;
若存在满足预设等级阈值的数据,则将对应数据独立隔离,并将未隔离数据集以所述存储特征和所述分类特征作为判别特征,执行数据聚类;
通过安全等级的聚类跃迁约束执行数据聚类约束,其中,所述聚类跃迁约束为跨安全等级的约束规则;
根据约束结果和独立隔离结果完成数据簇的建立。
进一步的,数据聚类模块13还包括以下执行步骤:
在未隔离数据集中随机分布聚类中心;
当聚类中心分布成功后,以聚类中心作为搜索起点,执行预设范围内的聚类搜索;
根据聚类搜索结果进行聚类中心的位置迭代,并依据聚类中心的位置迭代结果更新搜索引力,并依据聚类跃迁约束进行聚类剔除;
当满足聚类终止条件后,结束聚类搜索,完成数据簇的建立。
进一步的,数据聚类模块13还包括以下执行步骤:
在进行数据簇建立的过程中,判断是否存在聚类中心吞并行为;
当存在聚类中心吞并行为时,则依据吞并前聚类簇的大小将聚类中心标识为主聚类中心和辅助聚类中心;
以所述主聚类中心和所述辅助聚类中心的中心距离作为约束数据,重构聚类中心的位置迭代基准步长;
以所述主聚类中心为吞并后的中心,依据重构后的位置迭代基准步长进行聚类中心的位置迭代。
进一步的,抽取终端配置模块14包括以下执行步骤:
获得抽取终端对各个分类特征的抽取基准速度;
依据数据簇数量对应分布初始抽取终端;
根据计算结果和所述抽取基准速度进行数据簇的抽取时长计算;
依据抽取时长计算结果进行抽取终端的寻优补充,完成N个抽取终端建立。
进一步的,抽取终端配置模块14还包括以下执行步骤:
获得抽取终端的预定数量,并建立超额数量的递增关联系数;
将所述抽取时长计算结果、所述预定数量和所述递增关联系数输入寻优配置网络,获得N个抽取终端。
进一步的,本申请实施例还包括一致性校验模块,该模块包括以下执行步骤:
建立测试空间;
当数据集的迁移评估通过,依据所述测试空间执行数据集的迁移测试;
基于迁移测试结果进行迁移评估的一致性校验;
若一致性校验通过,则继续执行数据集的数据迁移;
若一致性校验未通过,则报出迁移异常。
综上所述的方法的任意步骤都可作为计算机指令或者程序存储在不设限制的计算机存储器中,并可以被不设限制的计算机处理器调用识别用以实现本申请实施例中的任一项方法,在此不做多余限制。
进一步的,综上所述的第一或第二可能不止代表次序关系,也可能代表某项特指概念,和/或指的是多个元素之间可单独或全部选择。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请及其等同技术的范围之内,则本申请意图包括这些改动和变型在内。
Claims (8)
1.一种数据迁移工作的智能评估方法,其特征在于,所述方法包括:
读取数据集,其中,所述数据集为依据项目范围界定的待迁移的数据集合,并依据数据来源进行数据集分类,建立数据集的分类特征;
配置抽取粒度,以所述抽取粒度进行对应分类特征下的数据集数据验证,并基于数据验证结果生成数据量标识;
获得数据集的存储特征,以所述存储特征和所述分类特征作为判别特征,执行所述数据集的数据聚类,建立数据簇;
以所述数据量标识对所述数据簇进行数量计算,并基于计算结果配置N个抽取终端;
设置抽取终端的终端单位时长调用成本,并通过所述终端单位时长调用成本对波动扩充后N个抽取终端执行调用成本预估,生成第一预估结果;
以数据的迁移目标时长对N个抽取终端的抽取时长评价,生成第二预估结果;
通过所述第一预估结果和所述第二预估结果生成数据集迁移的智能评估结果。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
对所述数据集进行数据的安全等级评价,生成安全等级评价结果;
判断所述安全等级评价结果是否存在满足预设等级阈值的数据;
若存在满足预设等级阈值的数据,则将对应数据独立隔离,并将未隔离数据集以所述存储特征和所述分类特征作为判别特征,执行数据聚类;
通过安全等级的聚类跃迁约束执行数据聚类约束,其中,所述聚类跃迁约束为跨安全等级的约束规则;
根据约束结果和独立隔离结果完成数据簇的建立。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
在未隔离数据集中随机分布聚类中心;
当聚类中心分布成功后,以聚类中心作为搜索起点,执行预设范围内的聚类搜索;
根据聚类搜索结果进行聚类中心的位置迭代,并依据聚类中心的位置迭代结果更新搜索引力,并依据聚类跃迁约束进行聚类剔除;
当满足聚类终止条件后,结束聚类搜索,完成数据簇的建立。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
在进行数据簇建立的过程中,判断是否存在聚类中心吞并行为;
当存在聚类中心吞并行为时,则依据吞并前聚类簇的大小将聚类中心标识为主聚类中心和辅助聚类中心;
以所述主聚类中心和所述辅助聚类中心的中心距离作为约束数据,重构聚类中心的位置迭代基准步长;
以所述主聚类中心为吞并后的中心,依据重构后的位置迭代基准步长进行聚类中心的位置迭代。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
获得抽取终端对各个分类特征的抽取基准速度;
依据数据簇数量对应分布初始抽取终端;
根据计算结果和所述抽取基准速度进行数据簇的抽取时长计算;
依据抽取时长计算结果进行抽取终端的寻优补充,完成N个抽取终端建立。
6.如权利要求5所述的方法,其特征在于,所述方法还包括:
获得抽取终端的预定数量,并建立超额数量的递增关联系数;
将所述抽取时长计算结果、所述预定数量和所述递增关联系数输入寻优配置网络,获得N个抽取终端。
7.如权利要求1所述的方法,其特征在于,所述方法还包括:
建立测试空间;
当数据集的迁移评估通过,依据所述测试空间执行数据集的迁移测试;
基于迁移测试结果进行迁移评估的一致性校验;
若一致性校验通过,则继续执行数据集的数据迁移;
若一致性校验未通过,则报出迁移异常。
8.一种数据迁移工作的智能评估系统,其特征在于,用于实施权利要求1-7任意一项所述的一种数据迁移工作的智能评估方法,所述系统包括:
数据集读取模块,所述数据集读取模块用于读取数据集,其中,所述数据集为依据项目范围界定的待迁移的数据集合,并依据数据来源进行数据集分类,建立数据集的分类特征;
数据验证模块,所述数据验证模块用于配置抽取粒度,以所述抽取粒度进行对应分类特征下的数据集数据验证,并基于数据验证结果生成数据量标识;
数据聚类模块,所述数据聚类模块用于获得数据集的存储特征,以所述存储特征和所述分类特征作为判别特征,执行所述数据集的数据聚类,建立数据簇;
抽取终端配置模块,所述抽取终端配置模块用于以所述数据量标识对所述数据簇进行数量计算,并基于计算结果配置N个抽取终端;
调用成本预估模块,所述调用成本预估模块用于设置抽取终端的终端单位时长调用成本,并通过所述终端单位时长调用成本对波动扩充后N个抽取终端执行调用成本预估,生成第一预估结果;
抽取时长评价模块,所述抽取时长评价模块用于以数据的迁移目标时长对N个抽取终端的抽取时长评价,生成第二预估结果;
评估结果生成模块,所述评估结果生成模块用于通过所述第一预估结果和所述第二预估结果生成数据集迁移的智能评估结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410007986.9A CN117610970B (zh) | 2024-01-04 | 2024-01-04 | 一种数据迁移工作的智能评估方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410007986.9A CN117610970B (zh) | 2024-01-04 | 2024-01-04 | 一种数据迁移工作的智能评估方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117610970A true CN117610970A (zh) | 2024-02-27 |
CN117610970B CN117610970B (zh) | 2024-04-02 |
Family
ID=89956420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410007986.9A Active CN117610970B (zh) | 2024-01-04 | 2024-01-04 | 一种数据迁移工作的智能评估方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117610970B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102414673A (zh) * | 2009-04-24 | 2012-04-11 | 微软公司 | 智能的备份数据分层 |
CN106155785A (zh) * | 2016-06-23 | 2016-11-23 | 中国人民解放军国防科学技术大学 | 一种跨数据中心云计算系统的数据迁移方法 |
CN107122360A (zh) * | 2016-02-24 | 2017-09-01 | 阿里巴巴集团控股有限公司 | 数据迁移系统和方法 |
CN107273184A (zh) * | 2017-06-14 | 2017-10-20 | 沈阳师范大学 | 一种基于云端大数据迁移和处理成本的优化算法 |
CN110377587A (zh) * | 2019-07-15 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 基于机器学习的迁移数据确定方法、装置、设备及介质 |
CN111190688A (zh) * | 2019-12-19 | 2020-05-22 | 西安交通大学 | 一种面向云数据中心的Docker迁移方法及系统 |
CN113220660A (zh) * | 2021-04-15 | 2021-08-06 | 远景智能国际私人投资有限公司 | 一种数据迁移方法、装置、设备及可读存储介质 |
CN114625570A (zh) * | 2022-03-10 | 2022-06-14 | 中国建设银行股份有限公司 | 一种数据库备份调度方法和装置 |
CN115102961A (zh) * | 2022-06-08 | 2022-09-23 | 钱塘科技创新中心 | 一种高并发网络访问分流方法及装置 |
CN117332287A (zh) * | 2023-09-28 | 2024-01-02 | 中国人民解放军63856部队 | 一种基于聚类分析的评估指标权重数据处理方法 |
-
2024
- 2024-01-04 CN CN202410007986.9A patent/CN117610970B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102414673A (zh) * | 2009-04-24 | 2012-04-11 | 微软公司 | 智能的备份数据分层 |
CN107122360A (zh) * | 2016-02-24 | 2017-09-01 | 阿里巴巴集团控股有限公司 | 数据迁移系统和方法 |
CN106155785A (zh) * | 2016-06-23 | 2016-11-23 | 中国人民解放军国防科学技术大学 | 一种跨数据中心云计算系统的数据迁移方法 |
CN107273184A (zh) * | 2017-06-14 | 2017-10-20 | 沈阳师范大学 | 一种基于云端大数据迁移和处理成本的优化算法 |
CN110377587A (zh) * | 2019-07-15 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 基于机器学习的迁移数据确定方法、装置、设备及介质 |
CN111190688A (zh) * | 2019-12-19 | 2020-05-22 | 西安交通大学 | 一种面向云数据中心的Docker迁移方法及系统 |
CN113220660A (zh) * | 2021-04-15 | 2021-08-06 | 远景智能国际私人投资有限公司 | 一种数据迁移方法、装置、设备及可读存储介质 |
CN114625570A (zh) * | 2022-03-10 | 2022-06-14 | 中国建设银行股份有限公司 | 一种数据库备份调度方法和装置 |
CN115102961A (zh) * | 2022-06-08 | 2022-09-23 | 钱塘科技创新中心 | 一种高并发网络访问分流方法及装置 |
CN117332287A (zh) * | 2023-09-28 | 2024-01-02 | 中国人民解放军63856部队 | 一种基于聚类分析的评估指标权重数据处理方法 |
Non-Patent Citations (2)
Title |
---|
QIUCHEN CHENG等: "Stream-based Particle Swarm Optimization for data migration decision", 《2015 7TH INTERNATIONAL CONFERENCE OF SOFT COMPUTING AND PATTERN RECOGNITION (SOCPAR)》, 16 June 2016 (2016-06-16), pages 1 - 6 * |
王宁等: "一种关系—图数据库混合存储系统设计", 《北京信息科技大学学报》, vol. 37, no. 1, 28 February 2022 (2022-02-28), pages 58 - 64 * |
Also Published As
Publication number | Publication date |
---|---|
CN117610970B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11620204B2 (en) | Methods and systems for determining system capacity | |
CN106886485B (zh) | 系统容量分析预测方法及装置 | |
CN110457175B (zh) | 业务数据处理方法、装置、电子设备及介质 | |
CN112711757B (zh) | 一种基于大数据平台的数据安全集中管控方法及系统 | |
CN111625342B (zh) | 一种数据溯源方法、装置及服务器 | |
CN116795552B (zh) | 一种基于MapReduce的大规模负载测试方法及其评价方法 | |
CN115662489A (zh) | 硬盘测试方法、装置、电子设备和存储介质 | |
CN110377519B (zh) | 大数据系统的性能容量测试方法、装置、设备及存储介质 | |
CN110083518B (zh) | 一种基于AdaBoost-Elman的虚拟机软件老化预测方法 | |
CN112257332B (zh) | 一种仿真模型的评估方法及装置 | |
CN117610970B (zh) | 一种数据迁移工作的智能评估方法及系统 | |
CN110058942B (zh) | 基于层次分析法的资源分配系统及方法 | |
CN112468673A (zh) | 一种在线图像的传输识别方法及系统 | |
Martin et al. | Using process mining to model interarrival times: investigating the sensitivity of the arpra framework | |
CN116561003A (zh) | 测试数据生成方法、装置、计算机设备和存储介质 | |
CN113761033B (zh) | 基于档案数字化管理的信息整理方法及系统 | |
CN115239066A (zh) | 一种通信信息化数据管控平台 | |
CN111243647B (zh) | 闪存编程参数确定方法、装置、电子设备及存储介质 | |
CN111654853B (zh) | 一种基于用户信息的数据分析方法 | |
CN115509678A (zh) | 一种虚拟机调度方法、装置、设备和计算机可读存储介质 | |
CN117555812B (zh) | 一种云平台自动化测试方法及系统 | |
CN112052162B (zh) | 回归测试案例的选定方法、装置 | |
CN118158115A (zh) | 一种通信大数据处理方法 | |
CN117749832A (zh) | 结合区块链的物联网设备管理方法及系统 | |
CN114255125A (zh) | 交易风险判断方法、装置、存储介质以及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |