CN117194907B

CN117194907B - 数据中台的低价值数据主题识别方法

Info

Publication number: CN117194907B
Application number: CN202311474333.3A
Authority: CN
Inventors: 杨艳丽; 王晓云; 耿永玲; 宁志刚; 孙贞; 蒋雪苹; 关宇晗; 武继龙
Original assignee: Guoneng Beijing Business Network Co ltd
Current assignee: Guoneng Beijing Business Network Co ltd
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-02-06
Anticipated expiration: 2043-11-08
Also published as: CN117194907A

Abstract

本发明涉及数据处理技术领域，具体为数据中台的低价值数据主题识别方法，包括根据所有数据主题的读写访问记录，基于预设格式获取包括各数据主题中所有主题子表的清单数据列表；基于所有数据主题的读写访问记录获取各数据主题的平衡指数和更迭指数，再基于数据主题中的各主题子表信息获取主题子表的陈旧指数和演化指数；再基于所述陈旧指数、平衡指数、演化指数以及更迭指数获取数据主题的存储健康值；该方法对数据主题价值的判断采用了基于读写访问记录这类使用痕迹的评估方法，即以数据的实际使用情况为基准进行价值评估，进而准确划分出数据中台中的低价值数据主题。

Description

数据中台的低价值数据主题识别方法

技术领域

本发明属于数据处理技术领域，具体而言，涉及数据中台的低价值数据主题识别方法。

背景技术

数据中台通常指在企业内部所建立的一个统一的数据平台，其用于将各个部门和业务系统的数据集中管理和整合，从而实现数据的共享、流转和价值挖掘。

随着数据中台的广泛应用，数据中台之中的各类数据形态不断增加、聚集。从数据湖到数据池，再到各类数据主题，最终形成数据集市；在这一过程中，一份源数据会根据数据来源、数据格式以及数据的使用目的的不同，经过多个不同步骤的预处理和加工。当源数据经多种加工步骤成为主题型数据时，即有了更加明确的业务分析属性，从而拥有了可估量的使用价值；其中，数据主题是指在数据分析和数据挖掘中，对数据进行分类和组织的一种方式；它是根据数据的特征、属性或内容将数据划分为不同的主题；但因数据中台是一种数据存储密集型软件平台，在最终形成可用于分析场景的数据形态时，中间过程数据通常会增加5~10倍，如果不能有效的管理和处理这些数据，平台的资源消耗、运行效能都会大受影响。

对于已形成主题的数据，由于与应用层分析任务关系紧密，贸然地进行清理处理非常容易影响上层数据应用的稳定性和可用性。因此，我们需要针对已形成的数据主题，识别其中的低价值数据主题，为后续的数据管理及相关处理提供依据。

发明内容

本发明的目的在于提供数据中台的低价值数据主题识别方法，以解决现有的数据中台无法区分已形成的数据主题中的低价值数据主题，进而无法为后续的数据管理提供依据的技术问题。

本发明的实施例通过以下技术方案实现：

提供数据中台的低价值数据主题识别方法，包括：

根据所有数据主题的读写访问记录，基于预设格式获取包括各数据主题中所有主题子表的清单数据列表；

基于首次访问日期、当前最近访问日期以及当前日期确定主题子表的陈旧指数；

基于所有主题子表的访问数据平均行数、访问数据平均字节数、各主题子表的访问数据行数、访问数据字节数以及主题子表数获取数据主题的平衡指数；

基于主题子表首次生成的字段数、字段数变化以及每次字段数变化保持的时间获取主题子表的演化指数；

基于字段数变化以及主题子表数获取数据主题的更迭指数；

再基于所述陈旧指数、平衡指数、演化指数以及更迭指数获取数据主题的存储健康值；

将存储健康值与更迭指数均小于对应预设值的数据主题作为低价值数据主题。

进一步的，所述主题子表的陈旧指数的获取如下式：

其中，t_SAT为首次访问日期，t_NAT为当前最近访问日期，t_NOW为当前日期，NOB为访问数据字节数，NOL为访问数据行数；当t_NAT与t_NOW取值相同时，t_NOW－t_NAT取预设差值。

进一步的，所述数据主题的平衡指数的获取如下式：

其中，NT为数据主题下所有主题子表的数量，NOB_m为该数据主题下所有主题子表的访问数据平均字节数，NOL_m为该数据主题下所有主题子表的访问数据平均行数，NOB_i为NT个主题子表中的第i个主题子表的访问数据字节数，NOL_i为NT个主题子表中的第i个主题子表的访问数据行数。

进一步的，所述主题子表的演化指数的获取如下式：

其中，F_init、F_mdf、F_del、F_add分别表示在t_SAT到t_NOW的时间区间里，主题子表首次生成字段数、修改字段数、删除字段数、增加字段数，DM为主题子表每次修改、删除或增加后保持不变的天数，n为修改、删除和增加的总次数中的第n次；F_mdf+F_del+F_add表示修改、删除、增加处理的字段数之和。

进一步的，所述数据主题的更迭指数的获取如下式：

其中，F_mdfi、F_deli、F_addi分别为第i个主题子表的修改字段数、删除字段数、增加字段数。

进一步的，所述数据主题的存储健康值的获取如下式：

其中，OI_max表示数据主题中最大的主题子表陈旧指数，OI_min表示数据主题中最小的主题子表陈旧指数。

进一步的，还包括对获取的低价值数据主题进行低价值范围描述；具体为，基于访问时间间隔获取低价值主题清单中所有数据主题的主题子表中的每个分段区间的各字段的热度值；再以数据主题名、主题子表名、字段名、热度区间为4级划分的HDV值表示作为低价值数据主题的低价值范围描述。

进一步的，所述基于访问时间间隔获取低价值主题清单中所有数据主题的主题子表中的每个分段区间的各字段的热度值，包括：

获取主题子表访问数据的热度分区，再基于热度分区获取区间内各字段的热度值，具体如下式：

其中，NOB_c_m和NOL_c_m代表当前区间中字段的平均访问数据字节数和平均访问数据行数；NOB_cp_m和NOL_cp_m代表所有区间中该字段的访问数据字节数和访问数据行数。

进一步的，所述获取主题子表访问数据的热度分区，具体为：

a.设定日期游标数AD，初始值也为1，其中AD取值为1时，代表主题子表在访问记录上产生了访问数据字节数的第一天；设定RD代表划分出新热度区间的日期分割点CP之后，新热度区间的已访问天数；初始化当前最近分割点日期CD；当AD和RD都为1时，CD的日期值为同一天；并将第一天的前一天的日期，加入CP_list作为首个日期分割点CP；

b.获取划断指数CT，当划断指数CT大于0时，将日期游标数AD对应的日期作为新热度区间的日期分割点CP加入CP_list；

c.重复执行步骤b，直到CD的日期值之后的第RD天为当前系统日期，并将当前系统日期作为最后一个日期分割点CP加入CP_list；

d.将CP_list中相邻两个日期分割点CP的区间作为热度分区。

进一步的，所述划断指数CT的获取如下式：

其中，NOB_today代表由CD向后偏移RD－1天的日期中，主题子表的访问数据字节数；NOB_{last_day}代表以NOB_today为日期基准，前一天的访问数据字节数；当AD为1时，访问数据字节数为0；和/>分别代表，从CD日期到RD天之后的时间区段中，该主题子表的访问数据字节数的平均值和中位数值。

本发明实施例的技术方案至少具有如下优点和有益效果：

通过读写访问记录得到诸如主题子表的陈旧指数、演化指数，以及得到数据主题的平衡指数、更迭指数；并基于陈旧指数、演化指数、平衡指数和更迭指数获取数据主题的存储健康值，在基于存储健康值和更迭指数判断数据主题是否属于低价值数据主题；该方法对数据主题价值的判断采用了基于读写访问记录这类使用痕迹的评估方法，即以数据的实际使用情况为基准进行价值评估，该价值评估较为准确，进而可协助用户对数据主题进行管理，删除低价值数据，使数据中台的存储空间得到有效利用。

附图说明

图1为本发明的数据中台的低价值数据主题识别方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

由于数据中台的广泛使用，数据中台之中的各类数据形态不断增加、聚集；用户对数据中台中的数据管理已然成为了一个突出的问题，由于用户无法直观的判断出低价值数据主题，因此在数据中台中的数据管理是极为困难的，尤其是在进行数据删除以保障数据存储空间时，用户不清楚哪些数据可被删除；因此我们希望提出一种数据中台的低价值数据主题识别方法，主要用于识别数据中台中的低价值数据主题。

基于以上，本申请中的数据中台的低价值数据主题识别方法，如图1所示，包括：

根据所有数据主题的读写访问记录，基于预设格式获取包括各数据主题中所有主题子表的清单数据列表；其中，清单数据列表的格式为：数据主题名称TN、主题子表名称TB、字段集合FS、访问数据行数NOL、访问数据字节数NOB、当前最近访问日期t_NAT、首次访问日期t_SAT、操作类型OP，其中最近访问日期是指最接近当前日期的访问日期；操作类型包括阅读、修改、删除、增加等。

在具体实施中，该访问记录在内存中可用JSON或编程对象数组等形式保存，如：

[{TN:SalesMonthly,TB:productsInport,FS:pid|sid|amount|pType|SKU|warhouseid|……,NOL:52638,NOB:73648932,t_NAT:2023-05-01,14:23:29,t_SAT:2023-01-11,23:56:28},OP:READ,{TN:SalesMonthly,TB:productsMove,……}……]。

基于首次访问日期、当前最近访问日期以及当前日期确定主题子表的陈旧指数；具体如下式，

在具体实施过程中，当t_NAT与t_NOW取值相同时，如都是2023-01-01，则将t_NOW－t_NAT取预设差值，该预设差值通常取0.1。

基于所有主题子表的访问数据平均行数、访问数据平均字节数、各主题子表的访问数据行数、访问数据字节数以及主题子表数获取数据主题的平衡指数；具体如下式：

在具体实施过程中，若该SalesMonthly数据主题中，有productsInport、productsMove、productsOrdered、productsDelivery、productsPayment、productsAfter 6个主题子表，则NT的值为6，且这6个主题子表均需要计算获取其陈旧指数，并将这6个主题子表中的最大的陈旧指数记为OI_max，最小的陈旧指数记为OI_min。

基于主题子表首次生成的字段数、字段数变化以及每次字段数变化保持的时间获取主题子表的演化指数；具体如下式：

在具体实施中，若productsInport首次生成时，为12个字段，在30天后修改了1个字段，再25天后，删除了1字段，再15天了增加了1个字段，接着45天后直到今天没有新的变化；则F_init+F_mdf+F_del+F_add为12+1+1+1=15，DM的值依次为25、15、45。

基于字段数变化以及主题子表数获取数据主题的更迭指数；具体如下式：

再基于所述陈旧指数、平衡指数、演化指数以及更迭指数获取数据主题的存储健康值；具体如下式：

将存储健康值与更迭指数均小于对应预设值的数据主题作为低价值数据主题。在具体实施过程中，通常当存储健康值小于0.1，更迭指数小于2.0的数据主题划分为低价值数据主题。

当所有的数据主题均完成上述识别过程后，将识别出的多个低价值数据主题存储在低价值数据主题清单中，在具体实施时，该低价值数据主题清单中的低价值数据主题至少包括存储健康值、更迭指数和平衡指数，具体的存储格式为：

[{SalesMonthly,0.08,1.8,0.12},{SalesDaily……}……]。

上述过程中，通过读写访问记录得到诸如主题子表的陈旧指数、演化指数，以及得到数据主题的平衡指数、更迭指数；并基于陈旧指数、演化指数、平衡指数和更迭指数获取数据主题的存储健康值，在基于存储健康值和更迭指数判断数据主题是否属于低价值数据主题；该方法对数据主题价值的判断采用了基于读写访问记录这类使用痕迹的评估方法，即以数据的实际使用情况为基准进行价值评估，该价值评估较为准确，进而可协助用户对数据主题进行管理，删除低价值数据，使数据中台的存储空间得到有效利用。

上述基于使用痕迹评估划分出了低价值数据主题后，我们还可以对低价值数据主题进行低价值范围描述；具体如下：

基于访问时间间隔获取低价值主题清单中所有数据主题的主题子表中的每个分段区间的各字段的热度值；其包括：

其中，获取主题子表访问数据的热度分区，具体为：

a.设定日期游标数AD，初始值也为1，其中AD取值为1时，代表主题子表在访问记录上产生了访问数据字节数的第一天；设定RD代表划分出新热度区间的日期分割点CP之后，新热度区间的已访问天数；初始化当前最近分割点日期CD；当AD和RD都为1时，CD的日期值为同一天，并将第一天的前一天的日期，加入CP_list作为首个日期分割点CP。

b.获取划断指数CT，当划断指数CT大于0时，将日期游标数AD对应的日期作为新热度区间的日期分割点CP加入CP_list；所述划断指数CT的获取如下式：

c.重复执行步骤b，直到CD的日期值之后的第RD天为当前系统日期，并将当前系统日期作为最后一个日期分割点CP加入CP_list。基于步骤a中，当AD和RD都为1时，CD的日期值为同一天，并将第一天的前一天的日期，加入CP_list作为首个日期分割点CP，可以理解的是，CP_list中至少包括2个日期分割点CP，即只有一个热度分区。

d.将CP_list中相邻两个日期分割点CP的区间作为热度分区。

需要说明的是，上述过程中，RD的初始值为1，每当得到一个日期分割点CP时，RD均会重置为1，而AD则不会重置，而是继续随着时间的增加而累加；并且CD的日期会变为最近的日期分割点CP的日期。

在具体实施中，若产生了访问数据字节数的第一天为2023-05-01，先将2023-05-01作为第一个日期分割点CD。此时AD和RD都为1，此时CT值计算后为0，则继续加入之后的日期2023-05-02，此时AD和RD同为2，若到第5天，CT大于0。则将2023-05-05作为第二个日期分割点CD。之后，AD继续递增，而RD将重置为1，以继续寻找下一个日期分割点CD。以此类推。若当前日期为2023-08-15，则该日期将作为最后一个日期分割点CD加入CP_list

再以数据主题名、主题子表名、字段名、热度区间为4级划分的HDV值表示作为低价值数据主题的低价值范围描述。

在具体实施中，价值数据主题的低价值范围描述的数据结构格式为：{数据主题名称1,[主题子表名称1,(字段名称1,热度区间1,HDV值1),(字段名称1,热度区间2,HDV值2),(字段名称2,热度区间3,HDV值3),[主题子表名称2,……]},{数据主题名称2,……},……。

低价值数据主题的评估后，通过从数据主题到主题子表、到字段、到时间等范围的逐步缩小、细化的评估分析策略，实现对低价值数据主题进行低价值范围描述；进而可以基于低价值范围描述评估某个字段的是否可以做删除处理。如当某一字段的热度值HDV持续为0时，则该字段数据可以进行删除处理，进而节约数据中台的存储空间。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.数据中台的低价值数据主题识别方法，其特征在于，包括：

基于首次访问日期、当前最近访问日期以及当前日期确定主题子表的陈旧指数；如下式：

其中，t_SAT为首次访问日期，t_NAT为当前最近访问日期，t_NOW为当前日期，NOB为访问数据字节数，NOL为访问数据行数；当t_NAT与t_NOW取值相同时，t_NOW－t_NAT取预设差值；

基于所有主题子表的访问数据平均行数、访问数据平均字节数、各主题子表的访问数据行数、访问数据字节数以及主题子表数获取数据主题的平衡指数；如下式：

其中，NT为数据主题下所有主题子表的数量，NOB_m为该数据主题下所有主题子表的访问数据平均字节数，NOL_m为该数据主题下所有主题子表的访问数据平均行数，NOB_i为NT个主题子表中的第i个主题子表的访问数据字节数，NOL_i为NT个主题子表中的第i个主题子表的访问数据行数；

基于主题子表首次生成的字段数、字段数变化以及每次字段数变化保持的时间获取主题子表的演化指数；如下式：

其中，F_init、F_mdf、F_del、F_add分别表示在t_SAT到t_NOW的时间区间里，主题子表首次生成字段数、修改字段数、删除字段数、增加字段数，DM为主题子表每次修改、删除或增加后保持不变的天数，n为修改、删除和增加的总次数中的第n次；F_mdf+F_del+F_add表示修改、删除、增加处理的字段数之和；

基于字段数变化以及主题子表数获取数据主题的更迭指数；如下式：

其中，F_mdfi、F_deli、F_addi分别为第i个主题子表的修改字段数、删除字段数、增加字段数；

再基于所述陈旧指数、平衡指数、演化指数以及更迭指数获取数据主题的存储健康值；如下式：

其中，OI_max表示数据主题中最大的主题子表陈旧指数，OI_min表示数据主题中最小的主题子表陈旧指数；

2.如权利要求1所述的数据中台的低价值数据主题识别方法，其特征在于，还包括对获取的低价值数据主题进行低价值范围描述；具体为，基于访问时间间隔获取低价值主题清单中所有数据主题的主题子表中的每个分段区间的各字段的热度值；再以数据主题名、主题子表名、字段名、热度区间为4级划分的HDV值表示作为低价值数据主题的低价值范围描述。

3.如权利要求2所述的数据中台的低价值数据主题识别方法，其特征在于，所述基于访问时间间隔获取低价值主题清单中所有数据主题的主题子表中的每个分段区间的各字段的热度值，包括：

4.如权利要求3所述的数据中台的低价值数据主题识别方法，其特征在于，所述获取主题子表访问数据的热度分区，具体为：

d.将CP_list中相邻两个日期分割点CP的区间作为热度分区。

5.如权利要求4所述的数据中台的低价值数据主题识别方法，其特征在于，所述划断指数CT的获取如下式：