CN112948381B

CN112948381B - 数据处理方法、系统、计算机设备及可读存储介质

Info

Publication number: CN112948381B
Application number: CN202110214728.4A
Authority: CN
Inventors: 向明; 胡明荣; 傅群慧; 朱尧
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2022-10-28
Anticipated expiration: 2041-02-25
Also published as: WO2022178979A1; CN112948381A

Abstract

本发明公开了一种数据处理方法，包括：根据预设的血缘分析工具，对数据资产表的逻辑代码进行解析，生成与所述数据资产表对应的数据全链路结构；将所述数据全链路结构的服务结点及数据结点的存储资源及计算资源分摊至各使用部门；分别统计所述各使用部门的资源使用情况及所述各使用部门的资源访问情况，并对统计结果进行分析，将低于预设值的数据资产进行归档或下线。本发明实施例杜绝跨部门的不合理访问情况，极大提高了数据资产使用的安全性，而且数据资产展示直观全面，数据资产价值明确，用户能够及时释放存储空间大且低价值的数据资产，减少了存储空间的浪费，不仅降低了计算资源的消耗，也极大节省了企业的数据资产管理成本。

Description

数据处理方法、系统、计算机设备及可读存储介质

技术领域

本发明涉及大数据技术领域，具体涉及一种数据处理方法、系统、计算机设备及可读存储介质。

背景技术

随着经济的不断发展，企业的业务不断扩大，数据资产日积月累，随之管理数据的成本也在增加。

传统的数据资产管理方法是通过对数据资产进行登记及分类，形成资产目录树，仅能支持数据的搜索定位，数据登记需要依赖人工操作，无用或者访问量低的数据也主要通过人工进行判别。

然而，针对上述做法，发明人发现，传统的数据资产管理方法登记时容易造成错漏现象且效率低下，数据分散，没有形成完整的管理系统，不仅容易造成跨部门的不合理访问，而且数据价值不明确，数据展示不直观，造成存储资源、计算资源及管理成本的多重浪费。

发明内容

本发明的目的在于提供一种数据处理方法、系统、计算机设备及可读存储介质，用于解决现有技术中登记时容易造成错漏现象且效率低下，数据分散，没有形成完整的管理系统，不仅容易造成跨部门的不合理访问，而且数据价值不明确，数据展示不直观，造成存储资源、计算资源及管理成本的多重浪费的缺陷。

根据本发明的一个方面，提供了一种数据处理方法，该方法包括如下步骤：

对获取的数据资产表进行解析，得到所述数据资产表的逻辑代码；

根据预设的血缘分析工具，对所述逻辑代码进行解析，生成与所述数据资产表对应的数据全链路结构，所述数据全链路结构包括服务结点及数据结点；

获取所述服务结点的使用用户，并根据所述服务结点的使用用户，确定所述数据全链路结构中所述数据结点的使用用户；

根据所述服务结点的使用用户及所述数据结点的使用用户，确定所述服务结点的使用部门及所述数据结点的使用部门，并将所述服务结点及所述数据结点的存储资源及计算资源分摊至各使用部门；

分别统计所述各使用部门的资源使用情况及所述各使用部门的资源访问情况，并根据统计结果生成与所述资源使用情况对应的资产使用状况仪表盘及与所述资源访问情况对应的资产价值分析仪表盘；

对所述资产使用状况仪表盘及所述资产价值分析仪表盘分别进行统计分析，并分别将统计出的低于第一预设值的所述资源使用情况对应的服务结点中的数据及低于第二预设值的所述资源访问情况对应的服务结点中的数据进行归档或下线。

可选地，所述根据预设的血缘分析工具，对所述逻辑代码进行解析，生成与所述数据资产表对应的数据全链路结构，包括：

根据所述预设的血缘分析工具，对所述数据资产表的逻辑代码进行解析，生成所述数据资产表相关联的所有结点以及各个结点之间的关联关系，所述关联关系包括父结点与子结点；

根据所述各个结点之间的关联关系将所述各个结点进行连接，连接后的所有结点构成所述数据资产表的数据全链路结构。

可选地，所述各个结点之间的关联关系的生成方法，包括：

根据所述预设的血缘分析工具，对所述数据资产表的逻辑代码进行解析，得到所述数据资产表的树形结构代码；

根据预设的递归算法对所述树形结构代码进行解构，挖掘出所述各个结点之间的关联关系，以确定所述各个结点的父结点。

可选地，所述根据所述各个结点之间的关联关系将所述各个结点进行连接，连接后的所有结点构成所述数据资产表的数据全链路结构，包括：

将所述各个结点按照所述父结点和所述子结点的连接方式进行连接，连接后的所有结点构成所述数据资产表的数据全链路结构。

可选地，所述根据所述服务结点的使用用户及所述数据结点的使用用户，确定所述服务结点的使用部门及所述数据结点的使用部门，包括：

根据所述服务结点的使用用户，确定所述数据全链路结构中所述数据结点的使用用户；

将所述使用用户按照所述使用用户预设的归属部门进行归类，确定所述服务结点的使用部门以及所述数据结点的使用部门。

可选地，所述分别统计所述各使用部门的资源使用情况及所述各使用部门的资源访问情况，并根据统计结果生成与所述资源使用情况对应的资产使用状况仪表盘及与所述资源访问情况对应的资产价值分析仪表盘，包括：

分别获取所述各使用部门的总存储空间、所述服务结点的存储资源及所述服务结点的计算资源；

分别统计所述各使用部门的总分摊存储空间、各种服务结点的分摊存储空间；

计算所述各使用部门的所述总存储空间与所述总分摊储存空间的比值，得到第一比值结果；

计算所述各使用部门的所述分摊存储空间与所述总存储空间的比值，得到第二比值结果；

将所述存储资源进行排序，得到第一排序结果；

将所述计算资源进行排序，得到第二排序结果；

根据所述总存储空间、所述总分摊存储空间、所述分摊存储空间、所述第一比值结果、所述第二比值结果、所述第一排序结果及所述第二排序结果，生成所述资产使用状况仪表盘。

可选地，所述分别统计所述各使用部门的资源使用情况及所述各使用部门的资源访问情况，并根据统计结果生成与所述资源使用情况对应的资产使用状况仪表盘及与所述资源访问情况对应的资产价值分析仪表盘，还包括：

获取所述各使用部门中各服务结点的访问量；

将所述访问量归一化处理后从大到小进行排序，得到第三排序结果；

将所述第三排序结果进行倒序处理，得到第四排序结果；

计算所述访问量与所述总存储空间的比值，得到第三比值结果；

将所述第三比值结果归一化处理后从大到小进行排序，得到第五排序结果；

将所述第五排序结果进行倒序处理，得到第六排序结果；

根据所述第三排序结果、所述第四排序结果、所述第五排序结果及所述第六排序结果，生成所述资产价值分析仪表盘。

为了实现上述目的，本发明还提供一种数据处理系统，该系统具体包括以下组成部分：

第一解析模块，用于对获取的数据资产表进行解析，得到所述数据资产表的逻辑代码；

第二解析模块，用于根据预设的血缘分析工具，对所述逻辑代码进行解析，生成与所述数据资产表对应的数据全链路结构，所述数据全链路结构包括服务结点及数据结点；

确定模块，用于获取所述服务结点的使用用户，并根据所述服务结点的使用用户，确定所述数据全链路结构中所述数据结点的使用用户；

分摊模块，用于根据所述服务结点的使用用户及所述数据结点的使用用户，确定所述服务结点的使用部门及所述数据结点的使用部门，并将所述服务结点及所述数据结点的存储资源及计算资源分摊至各使用部门；

统计模块，用于分别统计所述各使用部门的资源使用情况及所述各使用部门的资源访问情况，并根据统计结果生成与所述资源使用情况对应的资产使用状况仪表盘及与所述资源访问情况对应的资产价值分析仪表盘。

处理模块，用于对所述资产使用状况仪表盘及所述资产价值分析仪表盘分别进行统计分析，并分别将统计出的低于第一预设值的所述资源使用情况对应的服务结点中的数据及低于第二预设值的所述资源访问情况对应的服务结点中的数据进行归档或下线。

为了实现上述目的，本发明还提供一种计算机设备，该计算机设备具体包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述介绍的数据处理方法的步骤。

为了实现上述目的，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述介绍的数据处理方法的步骤。

本发明提供的数据处理方法、系统、计算机设备及可读存储介质，通过将整个数据流从数据入库到最终消费使用这整个过程都纳入数据全链路结构中，形成数据完整的生命周期，再根据所述数据全链路结构的结点，确定所述数据全链路结构中各服务结点及各数据结点的使用部门，不仅杜绝了跨部门的不合理访问情况，而且极大提高了数据使用的安全性。通过生成所述数据资产对应的资产使用状况仪表盘及资产价值分析仪表盘，使得数据价值明确，数据展示直观全面，能够及时释放存储空间大且低价值的数据资产，减少了存储空间的浪费，且降低了计算资源的消耗，极大节省了企业的数据管理成本。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例提供的数据处理方法的一种可选的步骤流程示意图；

图2为本发明实施例提供的图1中步骤S200的一种可选的步骤细化流程示意图；

图3为本发明实施例提供的图2中步骤S201的一种可选的步骤细化流程示意图；

图4为本发明实施例提供的一种示意性的数据全链路结构效果图；

图5为本发明实施例提供的图1中步骤S400的一种可选的步骤细化流程示意图；

图6为本发明实施例提供的图1中步骤S500的一种可选的步骤细化流程示意图；

图7为本发明实施例提供的图1中步骤S500的另一种可选的步骤细化流程示意图；

图8为本发明实施例提供的数据处理系统的一种可选的程序模块示意图；

图9为本发明实施例提供的计算机设备的一种可选的硬件架构示意图。

具体实施方式

这里将详细地对示例性发明实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性发明实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的系统和方法的例子。

在本发明使用的术语是仅仅出于描述特定发明实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在本发明的描述中，需要理解的是，步骤前的数字标号并不标识执行步骤的前后顺序，仅用于方便描述本发明及区别每一步骤，因此不能理解为对本发明的限制。基于本发明中的发明实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他发明实施例，都属于本发明保护的范围。

下面结合附图对本发明实施例进行说明。

实施例一

参阅图1，示出了本发明实施例提供的一种数据处理方法的步骤流程示意图。可以理解，本发明实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备为执行主体进行示例性描述，所述计算机设备可以包括诸如智能手机、平板个人计算机(tablet personal computer)、膝上型计算机(laptop computer)等移动终端，以及诸如台式计算机等固定终端。具体如下：

步骤S100，对获取的数据资产表进行解析，得到所述数据资产表的逻辑代码。

具体地，获取企业的数据资产，得到数据资产表，通过预设的HQL(HibernateQuery Language，一种完全面对对象的查询语言)对所述数据资产表进行解析，得到所述数据资产表对应的逻辑代码，其中，所述数据资产(Data Asset)是指由企业拥有或者控制的，能够为企业带来未来经济利益的，以物理或电子的方式记录的数据资源，如文件资料、电子数据等，在企业中，并非所有的数据都构成数据资产，数据资产是能够为企业产生价值的数据资源。所述数据资产包括：订单信息数据、用户信息数据、资金流水数据、流量数据及客户服务数据等。

步骤S200，根据预设的血缘分析工具，对所述逻辑代码进行解析，生成与所述数据资产表对应的数据全链路结构，所述数据全链路结构包括服务结点及数据结点。

具体地，根据预设的血缘分析工具，对所述数据资产表的逻辑代码进行解析，得到所述数据资产表的树形结构代码，根据所述树形结构代码确定所述逻辑代码的关联结点，再根据预设的递归算法对所述树形结构代码进行解构，识别出所述逻辑代码的各个结点，最终生成与所述数据资产表对应的数据全链路结构，所述数据全链路结构包括服务结点及数据结点。

在示例性的实施例中，如图2所示，所述步骤S200可以包括：

步骤S201，根据所述预设的血缘分析工具，对所述数据资产表的逻辑代码进行解析，生成所述数据资产表相关联的所有结点以及各个结点之间的关联关系，所述关联关系包括父结点与子结点；

步骤S202，根据所述各个结点之间的关联关系将所述各个结点进行连接，连接后的所有结点构成所述数据资产表的数据全链路结构。

具体地，根据所述预设的血缘分析工具，调用预设的HIVE中的抽象语法树(Abstract Syntax Tree，AST)对所述数据资产表的逻辑代码进行解析，生成所述数据资产表的数据全链路结构。

在示例性的实施例中，所述方法还可以根据所述数据全链路结构绘制与所述数据资产表对应的二叉树并存储于图数据库中，以便于日常查询数据链路或供其他项目使用。其中，所述HIVE是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化和加载，是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。需要说明的是，所述预设的血缘分析工具增加了可配置识别数据资产表的特殊源代码的功能，当识别到有特殊的源代码例如使用变量代替库名或者表名时会自动报警，并提交至开发人员进行处理。

在示例性的实施例中，如图3所示，所述步骤S201可以包括：

步骤S211，根据所述预设的血缘分析工具，对所述数据资产表的逻辑代码进行解析，得到所述数据资产表的树形结构代码；

步骤S212，根据预设的递归算法对所述树形结构代码进行解构，挖掘出所述各个结点之间的关联关系，以确定所述各个结点的父结点。

具体地，根据所述预设的血缘分析工具及预设的递归算法，调用所述HIVE中所述AST对所述数据资产表的逻辑代码进行解析，挖掘出所述逻辑代码的各个结点以及所述各个结点的关联关系，以确定所述各个结点的父结点。需要注意的是，当所述逻辑代码中存在复杂的嵌套逻辑时，所述树形结构代码也会进行相应的嵌套扩充。

在示例性的实施例中，所述步骤S202可以包括：

示例性的，假设存在一张表target_table_x，所述表target_table_x的逻辑代码如下所示：

insert overwrite table target_table_x

select a.name,b.pp

from schema_a.source_table_s b

left join schema_b.source_table_t a on a.id＝b.id

所述逻辑代码的释义如下：源表source_table_s左关联源表source_table_t，并将关联结果中name，pp这两个字段内容全部插入目标表target_table_x中。

通过所述AST对所述表target_table_x的所述逻辑代码进行解析，得到所述表target_table_x的树形结构代码，从而初步得到所述表target_table_x所关联的源表分别为表source_table_s和表source_table_t，其中，所述树形结构代码如下所示：

所述树形结构代码的释义如下：源表source_table_s左关联源表source_table_t，并将关联结果中name，pp这两个字段内容全部插入目标表target_table_x中。所述树形结构代码通过所述AST对所述逻辑代码进行解析后生成，所述树形结构代码结构更规则化，更便于递归、拆分及解构。

如图4所示，图4为一种示意性的数据全链路结构效果图，假设所述表target_table_x作为二叉树的一个结点X，其父结点分别为S和T，假设又通过所述预设的血缘分析工具得出结点S的父结点分别为A和B，通过反复调用所述预设的血缘分析工具，得到X所关联的所有结点，最终得到表target_table_x的数据全链路结构。

本发明实施例通过预设的血缘分析工具对所述数据资产表的逻辑代码进行解析，从而确定所述数据资产表的数据全链路结构，不仅避免了人工配置登记造成的错漏现象，而且极大提高了数据链路关联准确性。此外，根据数据全链路结构绘制二叉树并构建知识图谱，使数据开发组及下游数据使用方不需翻阅大量专业代码便可快速查询及了解数据链路，降低了信息获取门槛，而且扩大了适用人群范围。

步骤S300，获取所述服务结点的使用用户，并根据所述服务结点的使用用户，确定所述数据全链路结构中所述数据结点的使用用户。

具体地，所述数据结点没有直接的使用用户，通过所述服务结点来确认使用用户。

示例性的，请继续参阅图4，假设获取的服务结点“指标1”的使用用户为用户A，则可以确定“指标1”所关联源表的使用用户，即所述用户A也为数据结点X、数据结点S、数据结点T、数据结点A、数据结点B及数据结点C的使用用户。

步骤S400，根据所述服务结点的使用用户及所述数据结点的使用用户，确定所述服务结点的使用部门及所述数据结点的使用部门，并将所述服务结点及所述数据结点的存储资源及计算资源分摊至各使用部门。

具体地，将所述服务结点的使用用户及所述数据结点的使用用户按照预设的所述使用用户的归属部门进行归类，确定所述服务结点的使用部门及所述数据结点的使用部门，并将所述服务结点及所述数据结点的存储资源及计算资源分摊至各使用部门。其中，所述存储资源为系统存储数据占用的磁盘空间，可以通过所述HIVE获得；所述计算资源为运算数据时所使用的计算单元，包括集群中央处理器(Central Processing Unit，CPU)、内存等，可以通过集群监控系统日志获得。

在示例性的实施例中，如图5所示，所述步骤S400可以包括：

步骤S401，根据所述服务结点的使用用户，确定所述数据全链路结构中所述数据结点的使用用户；

步骤S402，将所述使用用户按照所述使用用户预设的归属部门进行归类，确定所述服务结点的使用部门以及所述数据结点的使用部门。

示例性的，请继续参阅图4，假设获取到服务结点“指标1”的使用用户为用户A，且所述用户A的归属部门为财务部，则可确定财务部为数据结点X、数据结点S、数据结点T、数据结点A、数据结点B及数据结点C的使用部门。

本发明实施例通过根据数据全链路结构的服务结点，确定所述数据全链路结构中个数据结点的使用部门，不仅杜绝了跨部门的不合理访问情况，而且极大提高了数据使用的安全性。

步骤S500，分别统计所述各使用部门的资源使用情况及所述各使用部门的资源访问情况，并根据统计结果生成与所述资源使用情况对应的资产使用状况仪表盘及与所述资源访问情况对应的资产价值分析仪表盘。

具体地，获取所述各使用部门的总分摊空间、所述服务结点的存储资源及所述服务结点的计算资源，然后对所述各使用部门的总分摊存储空间、各种服务结点的分摊存储空间进行统计计算，并根据所述各使用部门的资源使用情况生成所述资产使用状况仪表盘。获取所述各使用部门中各服务结点的访问量，然后对所述各使用部门的资源访问情况进行统计，并根据所述资源访问情况生成所述资产价值分析仪表盘。

在示例性的实施例中，如图6所示，所述步骤S500可以包括：

步骤S501，分别获取所述各使用部门的总存储空间、所述服务结点的存储资源及所述服务结点的计算资源；

步骤S502，分别统计所述各使用部门的总分摊存储空间、各种服务结点的分摊存储空间；

步骤S503，计算所述各使用部门的所述总存储空间与所述总分摊储存空间的比值，得到第一比值结果；

步骤S504，计算所述各使用部门的所述分摊存储空间与所述总存储空间的比值，得到第二比值结果；

步骤S505，将所述存储资源进行排序，得到第一排序结果；

步骤S506，将所述计算资源进行排序，得到第二排序结果；

步骤S507，根据所述总存储空间、所述总分摊存储空间、所述分摊存储空间、所述第一比值结果、所述第二比值结果、所述第一排序结果及所述第二排序结果，生成所述资产使用状况仪表盘。

具体地，先分别获取所述各使用部门的总存储空间、所述服务结点的存储资源及所述服务结点的计算资源，以及分别统计所述各使用部门的总分摊存储空间、各种服务结点的分摊存储空间，所述服务结点包括报表、指标、标签及接口等，然后计算所述各使用部门的所述总存储空间与所述总分摊储存空间的比值，得到第一比值结果，计算所述各使用部门的所述分摊存储空间与所述总存储空间的比值，得到第二比值结果，然后将所述存储资源进行排序，得到第一排序结果，将所述计算资源进行排序，得到第二排序结果，最后根据所述总存储空间、所述总分摊存储空间、所述分摊存储空间、所述第一比值结果、所述第二比值结果、所述第一排序结果及所述第二排序结果，生成所述资产使用状况仪表盘并将所述资产使用状况仪表盘进行展示。

本发明实施例通过对所述数据资产进行统计分析生成资产使用状况仪表盘并将所述资产使用状况仪表盘进行展示，使用户可以简单直观地了解数据资产的使用状况。

在示例性的实施例中，如图7所示，所述步骤S500可以包括：

步骤S511，获取所述各使用部门中各服务结点的访问量；

步骤S512，将所述访问量归一化处理后从大到小进行排序，得到第三排序结果；

步骤S513，将所述第三排序结果进行倒序处理，得到第四排序结果；

步骤S514，计算所述访问量与所述总存储空间的比值，得到第三比值结果；

步骤S515，将所述第三比值结果归一化处理后从大到小进行排序，得到第五排序结果；

步骤S516，将所述第五排序结果进行倒序处理，得到第六排序结果；

步骤S517，根据所述第三排序结果、所述第四排序结果、所述第五排序结果及所述第六排序结果，生成所述资产价值分析仪表盘。

具体地，先获取所述各使用部门中所述服务结点的访问量，将所述访问量归一化处理后进行排序，然后计算所述访问量与所述总存储空间的比值，将所述比值归一化处理后进行排序，最后根据排序结果生成所述资产价值分析仪表盘并将所述资产价值分析仪表盘进行展示。

本发明实施例通过对所述数据资产进行统计分析生成资产价值分析仪表盘并将所述资产价值分析仪表盘进行展示，使用户可以简单直观地了解数据资产的资产价值情况。

步骤S600，对所述资产使用状况仪表盘及所述资产价值分析仪表盘分别进行统计分析，并分别将统计出的低于第一预设值的所述资源使用情况对应的服务结点中的数据及低于第二预设值的所述资源访问情况对应的服务结点中的数据进行归档或下线。

具体地，对所述资产使用状况仪表盘及所述资产价值分析仪表盘的统计结果进行分析，将所述第三排序结果与第一预设值进行比较，获取低于所述第一预设值的所述第三排序结果，得到第一比较结果；将所述第五排序结果与第二预设值进行比较，获取低于第二预设值的所述第五排序结果，得到第二比较结果，将低于预设值的低价值数据资产即所述第一比较结果及所述第二比较结果进行归档或下线，从而释放存储和计算资源，其中，低价值数据资产包括高存储、高计算消耗、低访问热度及低重要性的数据内容。

本发明实施例通过将生成的资产价值分析仪表盘进行展示，推动数据使用方主动配合数据开发方逐步释放高投入低产出的数据资产，减少了存储空间的浪费，降低了计算资源的消耗，同时节省了企业的数据管理成本。

本发明实施例提供数据处理方法，通过将整个数据流从数据入库到最终消费使用这整个过程都纳入数据全链路结构中，形成数据完整的生命周期，再根据所述数据全链路结构的结点，确定所述数据全链路结构中各服务结点及各数据结点的使用部门，不仅杜绝了跨部门的不合理访问情况，而且极大提高了数据使用的安全性。通过生成所述数据资产对应的资产使用状况仪表盘及资产价值分析仪表盘，使得数据价值明确，数据展示直观全面，能够及时释放存储空间大且低价值的数据资产，减少了存储空间的浪费，且降低了计算资源的消耗，极大节省了企业的数据管理成本。

实施例二

参阅图8，示出了本发明实施例之一种数据处理系统700的程序模块示意图。所述数据处理系统700可以应用于计算机设备中，所述计算机设备可以是手机、平板个人计算机(tablet personal computer)、膝上型计算机(laptop computer)、等具有数据传输功能的设备。在本发明实施例中，所述数据处理系统700可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于可读存储介质中，并由一个或多个处理器所执行，以完成本发明实施例，并可实现上述数据处理系统700。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述所述数据处理系统700在可读存储介质中的执行过程。在示例性的实施例中，该数据处理系统700包括第一解析模块701、第二解析模块702、确定模块703、分摊模块704、统计模块705及处理模块706。以下描述将具体介绍本发明实施例各程序模块的功能：

第一解析模块701，用于对获取的数据资产表进行解析，得到所述数据资产表的逻辑代码。

具体地，所述第一解析模块701获取企业的数据资产，得到数据资产表，通过预设的HQL(Hibernate Query Language，一种完全面对对象的查询语言)对所述数据资产表进行解析，得到所述数据资产表对应的逻辑代码，其中，所述数据资产(Data Asset)是指由企业拥有或者控制的，能够为企业带来未来经济利益的，以物理或电子的方式记录的数据资源，如文件资料、电子数据等，在企业中，并非所有的数据都构成数据资产，数据资产是能够为企业产生价值的数据资源。所述数据资产包括：订单信息数据、用户信息数据、资金流水数据、流量数据及客户服务数据等。

第二解析模块702，用于根据预设的血缘分析工具，对所述逻辑代码进行解析，生成与所述数据资产表对应的数据全链路结构，所述数据全链路结构包括服务结点及数据结点。

具体地，所述第二解析模块702根据预设的血缘分析工具，对所述数据资产表的逻辑代码进行解析，得到所述数据资产表的树形结构代码，根据所述树形结构代码确定所述逻辑代码的关联结点，再根据预设的递归算法对所述树形结构代码进行解构，识别出所述逻辑代码的各个结点，最终生成与所述数据资产表对应的数据全链路结构，所述数据全链路结构包括服务结点及数据结点。

在示例性的实施例中，所述第二解析模块702具体用于：

具体地，所述第二解析模块702根据所述预设的血缘分析工具，调用预设的HIVE中的抽象语法树(Abstract Syntax Tree，AST)对所述数据资产表的逻辑代码进行解析，生成所述数据资产表的数据全链路结构。

在示例性的实施例中，所述第二解析模块702具体还用于：

具体地，所述第二解析模块702根据所述预设的血缘分析工具及预设的递归算法，调用所述HIVE中所述AST对所述数据资产表的逻辑代码进行解析，挖掘出所述逻辑代码的各个结点以及所述各个结点的关联关系，以确定所述各个结点的父结点。需要注意的是，当所述逻辑代码中存在复杂的嵌套逻辑时，所述树形结构代码也会进行相应的嵌套扩充。

在示例性的实施例中，所述第二解析模块702具体还用于：

insert overwrite table target_table_x

select a.name,b.pp

from schema_a.source_table_s b

left join schema_b.source_table_t a on a.id＝b.id

确定模块703，用于获取所述服务结点的使用用户，并根据所述服务结点的使用用户，确定所述数据全链路结构中所述数据结点的使用用户。

具体地，所述确定模块703所述数据结点没有直接的使用用户，通过所述服务结点来确认使用用户。

分摊模块704，用于根据所述服务结点的使用用户及所述数据结点的使用用户，确定所述服务结点的使用部门及所述数据结点的使用部门，并将所述服务结点及所述数据结点的存储资源及计算资源分摊至各使用部门。

具体地，所述分摊模块704将所述服务结点的使用用户及所述数据结点的使用用户按照预设的所述使用用户的归属部门进行归类，确定所述服务结点的使用部门及所述数据结点的使用部门，并将所述服务结点及所述数据结点的存储资源及计算资源分摊至各使用部门。其中，所述存储资源为系统存储数据占用的磁盘空间，可以通过所述HIVE获得；所述计算资源为运算数据时所使用的计算单元，包括集群中央处理器(Central ProcessingUnit，CPU)、内存等，可以通过集群监控系统日志获得。

在示例性的实施例中，所述分摊模块704具体用于：

统计模块705，用于分别统计所述各使用部门的资源使用情况及所述各使用部门的资源访问情况，并根据统计结果生成与所述资源使用情况对应的资产使用状况仪表盘及与所述资源访问情况对应的资产价值分析仪表盘。

具体地，所述统计模块705获取所述各使用部门的总分摊空间、所述服务结点的存储资源及所述服务结点的计算资源，然后对所述各使用部门的总分摊存储空间、各种服务结点的分摊存储空间进行统计计算，并根据所述各使用部门的资源使用情况生成所述资产使用状况仪表盘。获取所述各使用部门中各服务结点的访问量，然后对所述各使用部门的资源访问情况进行统计，并根据所述资源访问情况生成所述资产价值分析仪表盘。

在示例性的实施例中，所述统计模块705具体用于：

统计所述各使用部门的资源使用情况，并根据所述资源使用情况生成所述资产使用状况仪表盘；

统计所述各使用部门的资源访问情况，并根据所述资源访问情况生成所述资产价值分析仪表盘。

在示例性的实施例中，所述统计模块705具体还用于：

将所述存储资源进行排序，得到第一排序结果；

将所述计算资源进行排序，得到第二排序结果；

具体地，所述统计模块705先分别获取所述各使用部门的总存储空间、所述服务结点的存储资源及所述服务结点的计算资源，以及分别统计所述各使用部门的总分摊存储空间、各种服务结点的分摊存储空间，所述服务结点包括报表、指标、标签及接口等，然后计算所述各使用部门的所述总存储空间与所述总分摊储存空间的比值，得到第一比值结果，计算所述各使用部门的所述分摊存储空间与所述总存储空间的比值，得到第二比值结果，然后将所述存储资源进行排序，得到第一排序结果，将所述计算资源进行排序，得到第二排序结果，最后根据所述总存储空间、所述总分摊存储空间、所述分摊存储空间、所述第一比值结果、所述第二比值结果、所述第一排序结果及所述第二排序结果，生成所述资产使用状况仪表盘并将所述资产使用状况仪表盘进行展示。

在示例性的实施例中，所述统计模块705具体还用于：

获取所述各使用部门中各服务结点的访问量；

将所述第三排序结果进行倒序处理，得到第四排序结果；

将所述第五排序结果进行倒序处理，得到第六排序结果；

具体地，所述统计模块705先获取所述各使用部门中所述服务结点的访问量，将所述访问量归一化处理后进行排序，然后计算所述访问量与所述总存储空间的比值，将所述比值归一化处理后进行排序，最后根据排序结果生成所述资产价值分析仪表盘并将所述资产价值分析仪表盘进行展示。

处理模块706，用于对所述资产使用状况仪表盘及所述资产价值分析仪表盘分别进行统计分析，并分别将统计出的低于第一预设值的所述资源使用情况对应的服务结点中的数据及低于第二预设值的所述资源访问情况对应的服务结点中的数据进行归档或下线。

具体地，所述处理模块706对所述资产使用状况仪表盘及所述资产价值分析仪表盘的统计结果进行分析，将所述第三排序结果与第一预设值进行比较，获取低于所述第一预设值的所述第三排序结果，得到第一比较结果；将所述第五排序结果与第二预设值进行比较，获取低于第二预设值的所述第五排序结果，得到第二比较结果，将低于预设值的低价值数据资产即所述第一比较结果及所述第二比较结果进行归档或下线，从而释放存储和计算资源，其中，低价值数据资产包括高存储、高计算消耗、低访问热度及低重要性的数据内容。

本发明实施例提供数据处理系统700通过将整个数据流从数据入库到最终消费使用这整个过程都纳入数据全链路结构中，形成数据完整的生命周期，再根据所述数据全链路结构的结点，确定所述数据全链路结构中各服务结点及各数据结点的使用部门，不仅杜绝了跨部门的不合理访问情况，而且极大提高了数据使用的安全性。通过生成所述数据资产对应的资产使用状况仪表盘及资产价值分析仪表盘，使得数据价值明确，数据展示直观全面，能够及时释放存储空间大且低价值的数据资产，减少了存储空间的浪费，且降低了计算资源的消耗，极大节省了企业的数据管理成本。

实施例三

参阅图9，本发明实施例还提供一种计算机设备800的硬件架构示意图。如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。在本发明实施例中，所述计算机设备800是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。如图所示，所述计算机设备800至少包括，但不限于，可通过装置总线相互通信连接存储器801、处理器802、网络接口803。其中：

本发明实施例中，存储器801至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些发明实施例中，存储器801可以是计算机设备800的内部存储单元，例如所述计算机设备800的硬盘或内存。在另一些发明实施例中，存储器801也可以是计算机设备800的外部存储设备，例如所述计算机设备800上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。当然，存储器801还可以既包括计算机设备800的内部存储单元也包括其外部存储设备。本发明实施例中，存储器801通常用于存储安装于计算机设备800的操作装置和各类应用软件，例如所述数据处理系统700的程序代码等。此外，存储器801还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器802在一些发明实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。所述处理器802通常用于控制计算机设备800的总体操作。本发明实施例中，处理器802用于运行存储器801中存储的程序代码或者处理数据，例如运行所述数据处理系统700的程序代码，以实现上述各个发明实施例中的所述数据处理方法。

所述网络接口803可包括无线网络接口或有线网络接口，所述网络接口803通常用于在所述计算机设备800与其他电子装置之间建立通信连接。例如，所述网络接口803用于通过网络将所述计算机设备800与外部终端相连，在所述计算机设备800与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯装置(Global System of Mobile communication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图9仅示出了具有部件801-803的计算机设备800，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本发明实施例中，存储于存储器801中的所述数据处理系统700还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器801中，并由一个或多个处理器(本发明实施例为处理器802)所执行，以完成本发明之数据处理方法。

实施例四

本发明实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本发明实施例的计算机可读存储介质用于存储所述数据处理系统700，以被处理器执行时实现本发明之数据处理方法。

上述本发明实施例序号仅仅为了描述，不代表发明实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述发明实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选发明实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的数据处理方法，其特征在于，所述根据预设的血缘分析工具，对所述逻辑代码进行解析，生成与所述数据资产表对应的数据全链路结构，包括：

根据所述预设的血缘分析工具，对所述数据资产表的逻辑代码进行解析，生成所述数据资产表相关联的所有结点以及各个结点之间的关联关系，所述关联关系包括父结点与子结点；及

3.如权利要求2所述的数据处理方法，其特征在于，所述各个结点之间的关联关系的生成方法，包括：

根据所述预设的血缘分析工具，对所述数据资产表的逻辑代码进行解析，得到所述数据资产表的树形结构代码；及

4.如权利要求2所述的数据处理方法，其特征在于，所述根据所述各个结点之间的关联关系将所述各个结点进行连接，连接后的所有结点构成所述数据资产表的数据全链路结构，包括：

5.如权利要求1所述的数据处理方法，其特征在于，所述根据所述服务结点的使用用户及所述数据结点的使用用户，确定所述服务结点的使用部门及所述数据结点的使用部门，包括：

根据所述服务结点的使用用户，确定所述数据全链路结构中所述数据结点的使用用户；及

6.如权利要求1所述的数据处理方法，其特征在于，所述分别统计所述各使用部门的资源使用情况及所述各使用部门的资源访问情况，并根据统计结果生成与所述资源使用情况对应的资产使用状况仪表盘及与所述资源访问情况对应的资产价值分析仪表盘，包括：

将所述存储资源进行排序，得到第一排序结果；

将所述计算资源进行排序，得到第二排序结果；及

7.如权利要求1所述的数据处理方法，其特征在于，所述分别统计所述各使用部门的资源使用情况及所述各使用部门的资源访问情况，并根据统计结果生成与所述资源使用情况对应的资产使用状况仪表盘及与所述资源访问情况对应的资产价值分析仪表盘，还包括：

获取所述各使用部门中各服务结点的访问量；

将所述第三排序结果进行倒序处理，得到第四排序结果；

计算所述访问量与总存储空间的比值，得到第三比值结果；

将所述第五排序结果进行倒序处理，得到第六排序结果；及

8.一种数据处理系统，其特征在于，所述系统包括：

确定模块，用于获取所述服务结点的使用用户，并根据所述服务结点的使用用户，确定所述数据全链路结构中各数据结点的使用用户；

统计模块，用于分别统计所述各使用部门的资源使用情况及所述各使用部门的资源访问情况，并根据统计结果生成与所述资源使用情况对应的资产使用状况仪表盘及与所述资源访问情况对应的资产价值分析仪表盘；

9.一种计算机设备，所述计算机设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项的所述数据处理方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项的所述数据处理方法的步骤。