CN116521674A - 数据处理方法、装置、设备及存储介质 - Google Patents
数据处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116521674A CN116521674A CN202310382918.6A CN202310382918A CN116521674A CN 116521674 A CN116521674 A CN 116521674A CN 202310382918 A CN202310382918 A CN 202310382918A CN 116521674 A CN116521674 A CN 116521674A
- Authority
- CN
- China
- Prior art keywords
- data
- data table
- cutting
- clipping
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 33
- 238000003860 storage Methods 0.000 title claims description 12
- 238000005520 cutting process Methods 0.000 claims abstract description 183
- 238000004519 manufacturing process Methods 0.000 claims abstract description 32
- 238000012360 testing method Methods 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 20
- 230000008520 organization Effects 0.000 claims description 39
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种数据处理方法,包括确定第一数据库中存储的各数据表中的数据的数据类型;获取数据类型为业务数据的第一数据表,统计第一数据表中的数据总量,并在数据总量不小于第一预设数据总量的情况下,基于裁剪目标及第一数据表中的关键字段,获取第一数据表对应的裁剪数据,并将裁剪数据保存至第二数据库中,裁剪目标为根据裁剪需求预先设置好的需要保留的数据清单;获取第一数据库中的第二数据表,并将第二数据表拷贝至第二数据库中,第二数据表包括数据类型为参数数据的数据表及数据总量小于第一预设数据总量的第一数据表,如此实现在不破坏数据完整性的前提下对生产环境中数据进行灵活裁剪,使得裁剪后的数据能够覆盖住大部分的测试环境。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
为了保障产品在测试过程中,设计的测试案例尽可能模拟生产场景,要求测试环境使用的测试数据要能够贴近生产环境,因此在测试过程中需要每隔一段时间从生产环境中借用数据。
然而在生产环境中,产品的各种业务每天承载海量的交易数据,长年累月下来,有效数据都非常庞大,且测试环境的资源有限无法容纳生产环境如此大规模的数据。
发明内容
本发明提供一种数据处理方法、装置、设备及存储介质,用以实现提供一种灵活的裁剪方法,在不破坏数据完整性的前提下对生产环境中数据进行裁剪,使得裁剪后的数据能够覆盖住大部分的测试环境。
本发明提供一种数据处理方法,所述方法包括:
确定第一数据库中存储的各数据表中的数据的数据类型,其中,所述第一数据库中存储着生产环境中所产生的全部数据;
获取所述数据类型为业务数据的第一数据表,统计所述第一数据表中的数据总量,并在所述数据总量不小于第一预设数据总量的情况下,基于裁剪目标及所述第一数据表中的关键字段,获取所述第一数据表对应的裁剪数据,并将所述裁剪数据保存至第二数据库中,所述裁剪目标为根据裁剪需求预先设置好的需要保留的数据清单;
获取所述第一数据库中的第二数据表,并将所述第二数据表拷贝至第二数据库中,所述第二数据表包括所述数据类型为参数数据的数据表及所述数据总量小于所述第一预设数据总量的所述第一数据表。
根据本发明提供的数据处理方法,所述基于裁剪目标及所述第一数据表中的关键字段,获取所述第一数据表对应的裁剪数据,包括:
基于所述第一数据表中的关键字段,建立所述数据表对应的裁剪关系,所述裁剪关系用于指示所述第一数据表与裁剪索引的对应关系,所述裁剪索引是根据裁剪目标确定的;
基于所述裁剪关系,生成所述第一数据表对应的裁剪策略;
基于所述第一数据表的裁剪策略生成裁剪作业,建立所述裁剪作业对应的裁剪作业流程;
根据所述裁剪作业流程进行数据裁剪,获取所述裁剪目标对应的裁剪数据。
根据本发明提供的数据处理方法,所述基于所述数据表中的关键字段,建立所述数据表对应的裁剪关系,包括:
确定所述数据表的关键字段中是否包括预设关键字段;
在所述数据表的关键字段中包括预设关键字段的情况下,基于所述预设关键字段,建立所述数据表对应的裁剪关系。
根据本发明提供的数据处理方法,所述确定所述数据表的关键字段中是否包括预设关键字段之后,还包括:
在所述数据表的关键字段中不包括预设关键字段的情况下,确定所述第一数据库中是否存在所述数据表对应的父表;
若是,则基于所述数据表对应的父表建立所述数据表对应的裁剪关系。
根据本发明提供的数据处理方法,还包括:
若否,则基于所述数据表中各数据的数据更新时间建立所述数据表对应的裁剪关系。
根据本发明提供的数据处理方法,所述裁剪目标包括机构号清单;所述根据所述裁剪作业流程进行数据裁剪,包括:
从所述第一数据表中筛选出所述裁剪索引为所述第一数据表中的主关键字段对应的数据的第一目标数据表,所述裁剪索引包括机构号裁剪索引、客户号裁剪索引及账户号裁剪索引,所述机构号裁剪索引为根据所述机构号清单确定的测试环境中需要保留的机构号,所述客户号裁剪索引为根据所述机构号清单确定的测试环境中需要保留的客户号,所述账户号裁剪索引为根据所述需要保留的客户号确定的测试环境中需要保留的账户号;
对所述第一目标数据表进行数据裁剪,确定所述第一目标数据表中裁剪出的数据总量;
在所述裁剪出的数据总量小于或等于第二预设数据总量的情况下,对第二目标数据表进行数据裁剪,所述第二目标数据表为所述第一数据表中除所述第二目标数据表之外的数据表。
根据本发明提供的数据处理方法,还包括:
在所述裁剪出的数据总量小于第二预设数据总量的情况下,输出提示消息,所述提示消息用于提示用户所述裁剪目标对应的裁剪数据超出最高阈值。
本发明还提供一种数据裁剪装置,包括:
确定模块,用于确定第一数据库中存储的各数据表中的数据的数据类型,其中,所述第一数据库中存储着生产环境中所产生的全部数据;
裁剪模块,用于获取所述数据类型为业务数据的第一数据表,统计所述第一数据表中的数据总量,并在所述数据总量不小于第一预设数据总量的情况下,基于裁剪目标及所述第一数据表中的关键字段,获取所述第一数据表对应的裁剪数据,并将所述裁剪数据保存至第二数据库中,所述裁剪目标为根据裁剪需求预先设置好的需要保留的数据清单;
拷贝模块,用于获取所述第一数据库中的第二数据表,并将所述第二数据表拷贝至第二数据库中,所述第二数据表包括所述数据类型为参数数据的数据表及所述数据总量小于所述第一预设数据总量的所述第一数据表。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述数据处理方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述数据处理方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述数据处理方法的步骤。
本发明提供的数据处理方法,通过确定第一数据库中存储的各数据表中的数据的数据类型,其中,第一数据库中存储着生产环境中所产生的全部数据;获取数据类型为业务数据的第一数据表,统计第一数据表中的数据总量,并在数据总量不小于第一预设数据总量的情况下,基于裁剪目标及第一数据表中的关键字段,获取第一数据表对应的裁剪数据,并将裁剪数据保存至第二数据库中,裁剪目标为根据裁剪需求预先设置好的需要保留的数据清单;获取第一数据库中的第二数据表,并将第二数据表拷贝至第二数据库中,第二数据表包括数据类型为参数数据的数据表及数据总量小于第一预设数据总量的第一数据表,如此对于参数数据和业务规模较小的业务数据,将其全部保留,而对于数据规模较大的业务数据,按照第一数据表中的关键字段与裁剪目标之间的关联性,自动生成裁剪作业,实现在不破坏数据完整性的前提下对生产环境中数据进行灵活裁剪,使得裁剪后的数据能够覆盖住大部分的测试环境。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的数据处理方法的流程示意图之一;
图2是本发明提供的数据裁剪装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。根据本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,现有技术中,在测试环境的资源有限无法容纳生产环境如此大规模的数据的场景下,通常仅从生产环境中借用部分数据规模较小的业务数据表,且对借用的业务数据表不进行数据裁剪,然而借用的业务数据表的规模较小,对于生产环境中部分重要的核心的规模较大的业务表数据、例如客户信息表、存(贷)款账户主表等,则无法导入测试环境,导致覆盖的业务场景较少。或者,根据实际的测试需求,通过SQL查询脚本从生产环境中产生的数据中筛选出部分数据,然而此种方式由于生产环境中的数据规模很大,通过SQL查询脚本筛选数据时,脚本运行时间很长,且SQL查询脚本不易维护,后续数据表发生变动时需要重新维护脚本。
因此,本发明提供了一种数据处理方法,通过确定第一数据库中存储的各数据表中的数据的数据类型,其中,第一数据库中存储着生产环境中所产生的全部数据;获取数据类型为业务数据的第一数据表,统计第一数据表中的数据总量,并在数据总量不小于第一预设数据总量的情况下,基于裁剪目标及第一数据表中的关键字段,获取第一数据表对应的裁剪数据,并将裁剪数据保存至第二数据库中,裁剪目标为根据裁剪需求预先设置好的需要保留的数据清单;获取第一数据库中的第二数据表,并将第二数据表拷贝至第二数据库中,第二数据表包括数据类型为参数数据的数据表及数据总量小于第一预设数据总量的第一数据表,如此对于参数数据和业务规模较小的业务数据,将其全部保留,而对于数据规模较大的业务数据,按照第一数据表中的关键字段与裁剪目标之间的关联性,自动生成裁剪作业,实现在不破坏数据完整性的前提下对生产环境中数据进行灵活裁剪,使得裁剪后的数据能够覆盖住大部分的测试环境。
图1为本发明提供的数据处理方法的流程示意图之一,如图1所示,本发明提供的数据处理方法包括:步骤110、步骤120和步骤130。
步骤110、确定第一数据库中存储的各数据表中的数据的数据类型,其中,所述第一数据库中存储着生产环境中所产生的全部数据;
本实施例中,生产环境中的数据主要分为业务数据和参数数据,其中,业务数据为生产环境中的产品的各种业务在运行时,所产生的交易数据,比如,银行的核心系统的贷款业务在运行时,所产生的需要办理贷款的客户身份数据、客户所办理的贷款的金额数据、客户的信用数据、所办理贷款的机构数据等等。参数数据则为驱动产品能够正常运转的数据,其不会随着业务数据的变化而变化,例如,针对贷款业务所设置的贷款审批规则数据。
步骤120、获取所述数据类型为业务数据的第一数据表,统计所述第一数据表中的数据总量,并在所述数据总量不小于第一预设数据总量的情况下,基于裁剪目标及所述第一数据表中的关键字段,获取所述第一数据表对应的裁剪数据,并将所述裁剪数据保存至第二数据库中,所述裁剪目标为根据裁剪需求预先设置好的需要保留的数据清单;
本实施例中,在数据表中的数据为业务数据时,由于部分业务数据的数据规模很大,例如客户信息表、存款账户表、贷款账户表等,单张数据表中的数据规模可能就已经达到5TB(Terabyte,万亿字节)。因此针对业务数据表,先判断数据表的规模大小,在数据表的规模很大时,对数据表进行数据裁剪,以使测试环境中的数据总量可控。
通常情况下,关键字段指代能够唯一地标识一个记录的字段,本实施例中关键字段只要包括主关键字段和外关键字段,主键字段可以唯一地标识一个记录,而外关键字段可以将本数据表和其他数据表之间建立联系,且外关键字段作为与本数据表有关联的其他数据表的主关键字段,也可以唯一地标识一个记录。
比如机构表中主关键字段为机构号、外关键字段为各机构下的客户号,由此通过机构号可以标识出该机构号对应的机构下的所有交易数据(客户号、账户号、客户信息等),通过客户号可以查找出与该机构所关联的客户号表(客户号表中的主关键字段为客户号、外关键字段为客户所开通的账户号),通过客户号表的账户号又可以查找出各客户号所开通的账户号下的账户交易数据。
在实际应用场景中,数据清单中通常情况下为唯一地标识所需要保留的数据,例如,测试场景中当前仅需要针对部分机构中的客户的业务数据进行测试,则数据清单中包括所需要保留的机构号,通过机构号可以获得所有归属于这些机构下的业务数据。
步骤130、获取所述第一数据库中的第二数据表,并将所述第二数据表拷贝至第二数据库中,所述第二数据表包括所述数据类型为参数数据的数据表及所述数据总量小于所述第一预设数据总量的所述第一数据表。
本实施例中,若业务数据的数据规模较小,或者数据为参数数据,则为了避免破坏数据完整性,将此类数据全部保留至第二数据库中。
进一步地,本实施例中的第二数据库和第一数据库互为镜像关系,如此在生产环境中的数据发生更新时,测试环境中的数据可以同步进行更新。
本发明提供的数据处理方法,通过确定第一数据库中存储的各数据表中的数据的数据类型,其中,第一数据库中存储着生产环境中所产生的全部数据;获取数据类型为业务数据的第一数据表,统计第一数据表中的数据总量,并在数据总量不小于第一预设数据总量的情况下,基于裁剪目标及第一数据表中的关键字段,获取第一数据表对应的裁剪数据,并将裁剪数据保存至第二数据库中,裁剪目标为根据裁剪需求预先设置好的需要保留的数据清单;获取第一数据库中的第二数据表,并将第二数据表拷贝至第二数据库中,第二数据表包括数据类型为参数数据的数据表及数据总量小于第一预设数据总量的第一数据表,如此对于参数数据和业务规模较小的业务数据,将其全部保留,而对于数据规模较大的业务数据,按照第一数据表中的关键字段与裁剪目标之间的关联性,自动生成裁剪作业,实现在不破坏数据完整性的前提下对生产环境中数据进行灵活裁剪,使得裁剪后的数据能够覆盖住大部分的测试环境。
在一些实施例中,所述基于裁剪目标及所述第一数据表中的关键字段,获取所述第一数据表对应的裁剪数据,包括:
基于所述第一数据表中的关键字段,建立所述数据表对应的裁剪关系,所述裁剪关系用于指示所述第一数据表与裁剪索引的对应关系,所述裁剪索引是根据裁剪目标确定的;
基于所述裁剪关系,生成所述第一数据表对应的裁剪策略;
基于所述第一数据表的裁剪策略生成裁剪作业,建立所述裁剪作业对应的裁剪作业流程;
根据所述裁剪作业流程进行数据裁剪,获取所述裁剪目标对应的裁剪数据。
其中,裁剪索引为能够唯一地标识出数据表中所需裁剪出的数据的索引,例如,在裁剪目标为从第一数据库中裁剪出用户提交的机构号清单下的机构中的业务数据时,则机构表的裁剪索引即为主关键字段对应的数据“机构号”,进一步地,通过机构清单中的机构号可以从机构表中筛选出所有归属于这些机构的客户号清单,因此机构表中的主关键字段对应的数据“机构号”下的“客户号”又可作为客户号表的裁剪索引。
其中,裁剪策略为第一数据表的裁剪关系的集合,其用来获取第一数据表和与其有关联的数据表之间的裁剪顺序,比如,数据表A的裁剪索引是根据数据表B中的数据得到的,数据表A中的数据又可以作为数据表C和数据表D的裁剪索引,则在进行数据裁剪时,先对数据表B进行裁剪,在根据数据B得到数据表A的裁剪索引后,再对数据表A进行裁剪,在根据数据表A得到数据表C和数据表D的裁剪索引后,再对数据表C和数据表D进行裁剪。
在一个示例中,在得到第一数据表的裁剪关系和裁剪策略后,可以采用作业编排工具TWS,生成裁剪作业流程。
本发明提供的数据处理方法,通过生成第一数据表的裁剪关系和裁剪策略,实现第一数据表的自动批量裁剪。
在一些实施例中,所述基于所述数据表中的关键字段,建立所述数据表对应的裁剪关系,包括:
确定所述数据表的关键字段中是否包括预设关键字段;
在所述数据表的关键字段中包括预设关键字段的情况下,基于所述预设关键字段,建立所述数据表对应的裁剪关系。
本实施例中,预先关键字段指代根据裁剪目标预先设置好的关键字段,比如裁剪目标为从第一数据库中裁剪出用户提交的机构号清单下的机构中的客户的账户数据时,则为了提高裁剪效率,可以将预先关键字段可以设置为机构号字段、客户号字段及账户号字段。
可以理解地,通过机构号可以获取各机构下的客户号,通过客户号可以获取各客户下所开通的账户号,因此若数据表的关键字段中包括以上几类预设关键字段,则可以直接根据预设关键字段以及预设关键字段的字段类型,建立所述数据表对应的裁剪关系。
比如,数据表A中包括机构号字段、客户号字段,数据表B中包括客户号字段和账户号字段,数据表C中包括账户号字段和各账户号下的交易流水字段,则数据表A的裁剪索引为机构号字段中的机构号,数据表B的裁剪索引为客户号字段中的客户号,数据表C的裁剪索引为账户号字段中的账户号。
进一步地,在所述数据表的关键字段中不包括预设关键字段的情况下,确定所述第一数据库中是否存在所述数据表对应的父表;
若是,则基于所述数据表对应的父表建立所述数据表对应的裁剪关系。
若否,则基于所述数据表中各数据的数据更新时间建立所述数据表对应的裁剪关系。
容易理解地,若数据表A为数据表B的父表,则数据表B的主关键字段为数据表A的外关键字段。
本实施例中,数据表的父表可能不止一个,因此本实施例中,先筛选出数据表的所有父表,接着从所有的父表中筛选出包括预设关键字段的目标父表,根据目标父表的裁剪索引裁剪出的该数据表的主关键段匹配的目标数据,并根据此目标数据作为该数据表的裁剪索引,如此在数据表的关键字段中不包括预设关键字段的情况下,可以通过数据表对应的父表来间接建立数据表对应的裁剪关系。
进一步地,若数据表不存在对应的父表,则保留数据表中数据更新的时间在预设时间段内的数据,比如包括数据表中最近1个月内更新的数据,其中,本实施例中的数据更新包括数据的新增、修改及删减等更新操作,在此不再赘述。
本发明提供的数据处理方法,在数据表的关键字段中包括预设关键字段的情况下,则直接根据预设关键字段建立数据表的裁剪关系,在数据表的关键字段中不包括预设关键字段的情况下,通过数据表对应的父表来间接建立数据表对应的裁剪关系,如此一方面提高了裁剪关系建立的准确性,另一方面避免了第二数据库中遗漏部分核心业务数据的关联数据。
在一些实施例中,所述裁剪目标包括机构号清单;所述根据所述裁剪作业流程进行数据裁剪,包括:
从所述第一数据表中筛选出所述裁剪索引为所述第一数据表中的主关键字段对应的数据的第一目标数据表,所述裁剪索引包括机构号裁剪索引、客户号裁剪索引及账户号裁剪索引,所述机构号裁剪索引为根据所述机构号清单确定的测试环境中需要保留的机构号,所述客户号裁剪索引为根据所述机构号清单确定的测试环境中需要保留的客户号,所述账户号裁剪索引为根据所述需要保留的客户号确定的测试环境中需要保留的账户号;
对所述第一目标数据表进行数据裁剪,确定所述第一目标数据表中裁剪出的数据总量;
在所述裁剪出的数据总量小于或等于第二预设数据总量的情况下,对第二目标数据表进行数据裁剪,所述第二目标数据表为所述第一数据表中除所述第二目标数据表之外的数据表。
本实施例中,为了避免数据裁剪周期过长,将整个裁剪作业流程分成两个步骤,第一步,先对机构表、客户号表及账户号表进行裁剪,接着根据当前裁剪出的数据总量预估整个裁剪作业流程裁剪完成之后的数据总量,若当前裁剪出的数据总量小于或等于第二预设数据总量,表明第二数据库中大概率可以容纳下整个裁剪作业流程裁剪完成之后的数据,则继续执行第二步,即对后续的第二目标数据表进行裁剪。
进一步地,在所述裁剪出的数据总量大于第二预设数据总量的情况下,输出提示消息,所述提示消息用于提示用户所述裁剪目标对应的裁剪数据超出最高阈值。
本实施例中,若当前裁剪出的数据总量大于第二预设数据总量,表明第二数据库中大概率不可以容纳下整个裁剪作业流程裁剪完成之后的数据,则此种情况下,暂定第二步,先输出提示消息,以提示用户缩减裁剪目标,在接收到用户重新设置的裁剪目标后,重新自动执行第一步。
本发明提供的数据处理方法,在执行裁剪作业流程时,将整个流程分为两步,第一步先对数据依赖顶层的第一目标数据表进行裁剪,接着根据裁剪出的数据预估整个裁剪作业流程裁剪完成之后的数据总量,若数据总量过大,则及时暂定后续步骤,若数据总量不大,则继续执行后续步骤,如此提高了整个裁剪作业流程的自动执行效率。
图2本发明提供的数据裁剪装置的结构示意图,如图2所示,本发明提供的数据裁剪装置,包括:确定模块210、裁剪模块220及拷贝模块230。
确定模块210,用于确定第一数据库中存储的各数据表中的数据的数据类型,其中,所述第一数据库中存储着生产环境中所产生的全部数据;
裁剪模块220,用于获取所述数据类型为业务数据的第一数据表,统计所述第一数据表中的数据总量,并在所述数据总量不小于第一预设数据总量的情况下,基于裁剪目标及所述第一数据表中的关键字段,获取所述第一数据表对应的裁剪数据,并将所述裁剪数据保存至第二数据库中,所述裁剪目标为根据裁剪需求预先设置好的需要保留的数据清单;
拷贝模块230,用于获取所述第一数据库中的第二数据表,并将所述第二数据表拷贝至第二数据库中,所述第二数据表包括所述数据类型为参数数据的数据表及所述数据总量小于所述第一预设数据总量的所述第一数据表。
本实施例提供的数据裁剪装置,通过确定第一数据库中存储的各数据表中的数据的数据类型,其中,第一数据库中存储着生产环境中所产生的全部数据;获取数据类型为业务数据的第一数据表,统计第一数据表中的数据总量,并在数据总量不小于第一预设数据总量的情况下,基于裁剪目标及第一数据表中的关键字段,获取第一数据表对应的裁剪数据,并将裁剪数据保存至第二数据库中,裁剪目标为根据裁剪需求预先设置好的需要保留的数据清单;获取第一数据库中的第二数据表,并将第二数据表拷贝至第二数据库中,第二数据表包括数据类型为参数数据的数据表及数据总量小于第一预设数据总量的第一数据表,如此对于参数数据和业务规模较小的业务数据,将其全部保留,而对于数据规模较大的业务数据,按照第一数据表中的关键字段与裁剪目标之间的关联性,自动生成裁剪作业,实现在不破坏数据完整性的前提下对生产环境中数据进行灵活裁剪,使得裁剪后的数据能够覆盖住大部分的测试环境。
在一些实施例中,裁剪模块,还用于基于所述第一数据表中的关键字段,建立所述数据表对应的裁剪关系,所述裁剪关系用于指示所述第一数据表与裁剪索引的对应关系,所述裁剪索引是根据裁剪目标确定的;基于所述裁剪关系,生成所述第一数据表对应的裁剪策略;基于所述第一数据表的裁剪策略生成裁剪作业,建立所述裁剪作业对应的裁剪作业流程;根据所述裁剪作业流程进行数据裁剪,获取所述裁剪目标对应的裁剪数据。
在一些实施例中,裁剪模块,还用于确定所述数据表的关键字段中是否包括预设关键字段;在所述数据表的关键字段中包括预设关键字段的情况下,基于所述预设关键字段,建立所述数据表对应的裁剪关系。
在一些实施例中,裁剪模块,还用于在所述数据表的关键字段中不包括预设关键字段的情况下,确定所述第一数据库中是否存在所述数据表对应的父表;若是,则基于所述数据表对应的父表建立所述数据表对应的裁剪关系。
在一些实施例中,裁剪模块,还用于若否,则基于所述数据表中各数据的数据更新时间建立所述数据表对应的裁剪关系。
在一些实施例中,裁剪模块,还用于从所述第一数据表中筛选出所述裁剪索引为所述第一数据表中的主关键字段对应的数据的第一目标数据表,所述裁剪索引包括机构号裁剪索引、客户号裁剪索引及账户号裁剪索引,所述机构号裁剪索引为根据所述机构号清单确定的测试环境中需要保留的机构号,所述客户号裁剪索引为根据所述机构号清单确定的测试环境中需要保留的客户号,所述账户号裁剪索引为根据所述需要保留的客户号确定的测试环境中需要保留的账户号;对所述第一目标数据表进行数据裁剪,确定所述第一目标数据表中裁剪出的数据总量;在所述裁剪出的数据总量小于或等于第二预设数据总量的情况下,对第二目标数据表进行数据裁剪,所述第二目标数据表为所述第一数据表中除所述第二目标数据表之外的数据表。
在一些实施例中,裁剪模块,还用于在所述裁剪出的数据总量小于第二预设数据总量的情况下,输出提示消息,所述提示消息用于提示用户所述裁剪目标对应的裁剪数据超出最高阈值。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行数据处理方法,该方法包括:
确定第一数据库中存储的各数据表中的数据的数据类型,其中,所述第一数据库中存储着生产环境中所产生的全部数据;
获取所述数据类型为业务数据的第一数据表,统计所述第一数据表中的数据总量,并在所述数据总量不小于第一预设数据总量的情况下,基于裁剪目标及所述第一数据表中的关键字段,获取所述第一数据表对应的裁剪数据,并将所述裁剪数据保存至第二数据库中,所述裁剪目标为根据裁剪需求预先设置好的需要保留的数据清单;
获取所述第一数据库中的第二数据表,并将所述第二数据表拷贝至第二数据库中,所述第二数据表包括所述数据类型为参数数据的数据表及所述数据总量小于所述第一预设数据总量的所述第一数据表。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。根据这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的数据处理方法,该方法包括:
确定第一数据库中存储的各数据表中的数据的数据类型,其中,所述第一数据库中存储着生产环境中所产生的全部数据;
获取所述数据类型为业务数据的第一数据表,统计所述第一数据表中的数据总量,并在所述数据总量不小于第一预设数据总量的情况下,基于裁剪目标及所述第一数据表中的关键字段,获取所述第一数据表对应的裁剪数据,并将所述裁剪数据保存至第二数据库中,所述裁剪目标为根据裁剪需求预先设置好的需要保留的数据清单;
获取所述第一数据库中的第二数据表,并将所述第二数据表拷贝至第二数据库中,所述第二数据表包括所述数据类型为参数数据的数据表及所述数据总量小于所述第一预设数据总量的所述第一数据表。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的数据处理方法,该方法包括:
确定第一数据库中存储的各数据表中的数据的数据类型,其中,所述第一数据库中存储着生产环境中所产生的全部数据;
获取所述数据类型为业务数据的第一数据表,统计所述第一数据表中的数据总量,并在所述数据总量不小于第一预设数据总量的情况下,基于裁剪目标及所述第一数据表中的关键字段,获取所述第一数据表对应的裁剪数据,并将所述裁剪数据保存至第二数据库中,所述裁剪目标为根据裁剪需求预先设置好的需要保留的数据清单;
获取所述第一数据库中的第二数据表,并将所述第二数据表拷贝至第二数据库中,所述第二数据表包括所述数据类型为参数数据的数据表及所述数据总量小于所述第一预设数据总量的所述第一数据表。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。根据这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
确定第一数据库中存储的各数据表中的数据的数据类型,其中,所述第一数据库中存储着生产环境中所产生的全部数据;
获取所述数据类型为业务数据的第一数据表,统计所述第一数据表中的数据总量,并在所述数据总量不小于第一预设数据总量的情况下,基于裁剪目标及所述第一数据表中的关键字段,获取所述第一数据表对应的裁剪数据,并将所述裁剪数据保存至第二数据库中,所述裁剪目标为根据裁剪需求预先设置好的需要保留的数据清单;
获取所述第一数据库中的第二数据表,并将所述第二数据表拷贝至第二数据库中,所述第二数据表包括所述数据类型为参数数据的数据表及所述数据总量小于所述第一预设数据总量的所述第一数据表。
2.根据权利要求1所述的数据处理方法,其特征在于,所述基于裁剪目标及所述第一数据表中的关键字段,获取所述第一数据表对应的裁剪数据,包括:
基于所述第一数据表中的关键字段,建立所述数据表对应的裁剪关系,所述裁剪关系用于指示所述第一数据表与裁剪索引的对应关系,所述裁剪索引是根据裁剪目标确定的;
基于所述裁剪关系,生成所述第一数据表对应的裁剪策略;
基于所述第一数据表的裁剪策略生成裁剪作业,建立所述裁剪作业对应的裁剪作业流程;
根据所述裁剪作业流程进行数据裁剪,获取所述裁剪目标对应的裁剪数据。
3.根据权利要求2所述的数据处理方法,其特征在于,所述基于所述数据表中的关键字段,建立所述数据表对应的裁剪关系,包括:
确定所述数据表的关键字段中是否包括预设关键字段;
在所述数据表的关键字段中包括预设关键字段的情况下,基于所述预设关键字段,建立所述数据表对应的裁剪关系。
4.根据权利要求3所述的数据处理方法,其特征在于,所述确定所述数据表的关键字段中是否包括预设关键字段之后,还包括:
在所述数据表的关键字段中不包括预设关键字段的情况下,确定所述第一数据库中是否存在所述数据表对应的父表;
若是,则基于所述数据表对应的父表建立所述数据表对应的裁剪关系。
5.根据权利要求4所述的数据处理方法,其特征在于,还包括:
若否,则基于所述数据表中各数据的数据更新时间建立所述数据表对应的裁剪关系。
6.根据权利要求2至5任一项所述的数据处理方法,其特征在于,所述裁剪目标包括机构号清单;所述根据所述裁剪作业流程进行数据裁剪,包括:
从所述第一数据表中筛选出所述裁剪索引为所述第一数据表中的主关键字段对应的数据的第一目标数据表,所述裁剪索引包括机构号裁剪索引、客户号裁剪索引及账户号裁剪索引,所述机构号裁剪索引为根据所述机构号清单确定的测试环境中需要保留的机构号,所述客户号裁剪索引为根据所述机构号清单确定的测试环境中需要保留的客户号,所述账户号裁剪索引为根据所述需要保留的客户号确定的测试环境中需要保留的账户号;
对所述第一目标数据表进行数据裁剪,确定所述第一目标数据表中裁剪出的数据总量;
在所述裁剪出的数据总量小于或等于第二预设数据总量的情况下,对第二目标数据表进行数据裁剪,所述第二目标数据表为所述第一数据表中除所述第二目标数据表之外的数据表。
7.根据权利要求6所述的数据处理方法,其特征在于,还包括:
在所述裁剪出的数据总量小于第二预设数据总量的情况下,输出提示消息,所述提示消息用于提示用户所述裁剪目标对应的裁剪数据超出最高阈值。
8.一种数据裁剪装置,其特征在于,包括:
确定模块,用于确定第一数据库中存储的各数据表中的数据的数据类型,其中,所述第一数据库中存储着生产环境中所产生的全部数据;
裁剪模块,用于获取所述数据类型为业务数据的第一数据表,统计所述第一数据表中的数据总量,并在所述数据总量不小于第一预设数据总量的情况下,基于裁剪目标及所述第一数据表中的关键字段,获取所述第一数据表对应的裁剪数据,并将所述裁剪数据保存至第二数据库中,所述裁剪目标为根据裁剪需求预先设置好的需要保留的数据清单;
拷贝模块,用于获取所述第一数据库中的第二数据表,并将所述第二数据表拷贝至第二数据库中,所述第二数据表包括所述数据类型为参数数据的数据表及所述数据总量小于所述第一预设数据总量的所述第一数据表。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述数据处理方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310382918.6A CN116521674A (zh) | 2023-04-11 | 2023-04-11 | 数据处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310382918.6A CN116521674A (zh) | 2023-04-11 | 2023-04-11 | 数据处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116521674A true CN116521674A (zh) | 2023-08-01 |
Family
ID=87395061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310382918.6A Pending CN116521674A (zh) | 2023-04-11 | 2023-04-11 | 数据处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116521674A (zh) |
-
2023
- 2023-04-11 CN CN202310382918.6A patent/CN116521674A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10872383B2 (en) | Using a model to estimate a payment delinquency for an invoice | |
WO2022100382A1 (zh) | 一种基于区块链的信贷推荐方法、设备及存储介质 | |
CN111949643A (zh) | 基于业务建模的数据处理方法及系统 | |
CN109741022B (zh) | 电子政务前端信息共享的方法、装置、存储介质及设备 | |
CN109245949B (zh) | 一种信息处理方法及装置 | |
CN115578180A (zh) | 银行网点的现金资源的管理方法及装置 | |
CN116521674A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN116383052A (zh) | 批处理任务的自动化测试方法、装置、设备及存储介质 | |
CN112035458B (zh) | 数据隔离方法、装置和设备 | |
CN110221952B (zh) | 业务数据的处理方法及装置、业务数据处理系统 | |
CN110517010A (zh) | 一种数据处理方法、系统及存储介质 | |
CN112308639B (zh) | 目标事件的时效预计方法及装置 | |
CN110852679A (zh) | 单据调整方法、装置和设备 | |
US11768806B1 (en) | System and method for regular updates to computer-form files | |
CN114519090B (zh) | 一种停用词的管理方法、装置及电子设备 | |
CN116051122B (zh) | 一种基于物流场景的工单软件系统 | |
US20240185196A1 (en) | Reduced memory resources for proactive monitoring of electronic transactions | |
CN111967960B (zh) | 账户数据的批量调整方法及装置 | |
CN115271902A (zh) | 一种报账单的预算处理方法、装置、设备及介质 | |
CN115328807A (zh) | 一种数据裁剪方法、装置及设备 | |
CN106940698A (zh) | 一种维度数据处理方法及装置 | |
CN117271487A (zh) | 一种业务数据验证方法、装置、设备及存储介质 | |
US11042929B2 (en) | Generating instruction sets implementing business rules designed to update business objects of financial applications | |
CN115510827A (zh) | 基于行数据类型标签的数据处理方法、装置、设备和介质 | |
CN117474662A (zh) | 洗钱风险评估方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |