CN116484084B

CN116484084B - 基于应用信息挖掘的元数据血缘分析方法、介质及系统

Info

Publication number: CN116484084B
Application number: CN202310735767.8A
Authority: CN
Inventors: 高伟; 王全胜; 康凯; 李劲松; 周小敏; 吴昊远
Original assignee: Guangzhou Xin'an Data Co ltd
Current assignee: Guangzhou Xin'an Data Co ltd
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-11-17
Anticipated expiration: 2043-06-21
Also published as: CN116484084A

Abstract

本发明涉及数据分析技术领域，尤其涉及一种基于应用信息挖掘的元数据血缘分析方法、计算机可读存储介质及系统。该基于应用信息挖掘的元数据血缘分析方法，获取目标应用的前端页面信息和与目标应用关联的数据表来构建前端页面特征向量和后端数据表特征向量，当前端页面特征向量全部的页面元素特征和报表特征与后端数据表特征向量全部的数据特征和内容特征之间的重合度没有达到预设程度，说明出现数据结构变化等情况导致前端业务功能与后台数据库的数据表之间数据不一致，通过校验步骤及时修正匹配方案，并将更新了后端数据表特征向量的数据表关联目标应用，完成血缘分析，实现对该目标应用从前端页面到后端数据表的自动关联。

Description

基于应用信息挖掘的元数据血缘分析方法、介质及系统

技术领域

本发明涉及数据分析技术领域，尤其涉及一种基于应用信息挖掘的元数据血缘分析方法、计算机可读存储介质及系统。

背景技术

数据分析中，各业务部门、数据团队会在数据系统中建设大量的数据服务、数据模型、数据产品和数据分析界面。目前数据平台往往只重视应用建设，而忽略了对数据应用的治理运营，导致了应用太多、使用率低；应用只上不下、系统负担重、应用重复建设、应用之间数据不一致、建立应用没人用导致资源浪费、好的应用没办法快速推广等典型问题。为解决这些痛点问题，一般需要进行应用血缘的分析。

常规的应用血缘分析方法，首先通过人工梳理建立前端业务功能（即应用）的页面和报表关系，再通过人工或部分自动化解析方式建立报表与指标关系，再通过指标库或加工脚本建立指标与数据表关系，最后形成页面与数据表的血缘关系。现有技术中前端业务功能与后台数据库的数据表的关联关系需要通过人工手动一个一个搜索后对应添加。这种方式产生巨大的人力浪费，并且在前端业务系统发生更新使得页面结构变更时，还需要人工添加新的数据表，否则就会发生前端业务功能与后台数据库的数据表之间数据不一致的问题。

针对上述问题，迫切需要构建一套完整的应用的页面与数据表之间的溯源分析解决方案，处理数据系统前端业务功能与后台数据库的数据表的自动关联问题。

发明内容

本发明所要解决的技术问题是提供一种基于应用信息挖掘的元数据血缘分析方法以及存储有被执行时实现该方法的计算机程序的计算机可读存储介质，该基于应用信息挖掘的元数据血缘分析方法能够实现数据系统前端业务功能与后台数据库的数据表的自动关联。

为了解决上述技术问题，第一方面，本发明提供了一种基于应用信息挖掘的元数据血缘分析方法，包括以下步骤：

前端页面特征向量构建步骤，获取目标应用的前端页面信息，从中读取该应用的页面元素特征和报表特征来构建该应用的前端页面特征向量；

后端数据表特征向量构建步骤，获取与目标应用关联的多个数据表，从中分别读取各个数据表的数据特征和内容特征来构建这些数据表的后端数据表特征向量；

特征向量匹配步骤，以所构建的前端页面特征向量来分别匹配这些数据表的所构建的后端数据表特征向量，具体地：若前端页面特征向量全部的页面元素特征和报表特征与一个数据表的后端数据表特征向量全部的数据特征和内容特征之间的重合度达到预设程度，则定义这一数据表为该前端页面特征向量的匹配数据表；

校验步骤，将全部前端页面特征向量中未能匹配到所述匹配数据表的后端数据表特征向量的特征定义为错漏特征，在与目标应用关联的数据表中对该错漏特征进行查询，若查询到存在与该错漏特征对应的数据表，则将该数据表中与该错漏特征对应的数据添加到所述匹配数据表，更新该匹配数据表的后端数据表特征向量；

关联步骤，将更新了后端数据表特征向量的匹配数据表关联到所述目标应用。

进一步地，所述前端页面特征向量构建步骤中，读取该应用的报表特征是指：通过开发工具调取该应用的报表模板和表样，从中抽取表格元素信息作为报表特征，所述表格元素信息包括报表表样、报表标题和报表数据扫描内容当中的一种或多种。

进一步地，所述前端页面特征向量构建步骤中，读取该应用的页面元素特征是通过数据爬虫对页面信息抓取实现的，所述页面元素特征包括页面元素维度信息、指标信息、图形KPI信息当中的一种或多种。

进一步地，所述后端数据表特征向量构建步骤中，所述数据特征包括元数据信息和表摘要信息当中的一种或多种。

进一步地，所述后端数据表特征向量构建步骤中，读取数据表的内容特征是通过对数据表内容进行扫描实现的，所述内容特征包括指标列信息、维度列信息、标准化信息和特征列信息当中的一种或多种。

进一步地，所述后端数据表特征向量构建步骤中，与目标应用关联的数据表是指两者之间存在如下一种或多种关联：作为数据表的应用台账通过在前端页面信息的菜单和/或页面元素中抓取获得；数据表为该目标应用的应用对象，具体地，数据表通过工具/非工具类应用生成、应用元数据提取生成、业务爬虫生成、SQL解析生成或页面元素特征挖掘生成；数据表服务于该目标应用，具体地，数据表用于该目标应用的应用日志、服务API日志或数据库日志，或者数据表用于目标应用的流程挖掘。

进一步地，若所述校验步骤中存在未能匹配，还在未关联到该目标应用的数据表中查询该应用的页面元素特征和/或报表特征，对查询到的全部数据表构建后端数据表特征向量后再次执行所述特征向量匹配步骤。

进一步地，在再次执行特征向量匹配步骤后执行的关联步骤中，将查询到的全部数据表关联所述目标应用。

进一步地，所述特征向量匹配步骤中，若重合度达到预设程度的数据表有多个，则根据这些数据表的引用度排序，以引用度更低的数据表作为匹配数据表。

进一步地，包括在引用度排序前执行的筛选步骤，对重合度达到预设程度的多个数据表，调取这些数据表的变更通知数据，若变更通知数据在预设范围之外，则不对该数据表进行引用度排序。

第二方面，还提供了一种计算机可读存储介质，其存储有计算机程序，计算机程序被处理器运行时能够实现上述基于应用信息挖掘的元数据血缘分析方法。

第三方面，还提供了一种基于应用信息挖掘的元数据血缘分析系统，包括用于存储前端页面特征向量、后端数据表特征向量及其关联关系的特征向量库，还包括处理器以及上述计算机可读存储介质，计算机可读存储介质上的计算机程序可被处理器执行。

该基于应用信息挖掘的元数据血缘分析方法，获取目标应用的前端页面信息和与目标应用关联的数据表，从而读取来自前端页面的页面元素特征和报表特征来构建前端页面特征向量，读取来自后端数据表的数据特征和内容特征来构建后端数据表特征向量，当前端页面特征向量全部的页面元素特征和报表特征与后端数据表特征向量全部的数据特征和内容特征之间的重合度没有达到预设程度，说明出现数据结构变化等情况导致前端业务功能与后台数据库的数据表之间数据不一致，通过校验步骤及时修正匹配方案，并将更新了后端数据表特征向量的数据表关联所述目标应用，完成血缘分析，实现对该目标应用从前端页面到后端数据表的自动关联。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是该基于应用信息挖掘的元数据血缘分析方法的步骤流程图。

图2是该基于应用信息挖掘的元数据血缘分析方法的血缘链路关系示意图。

图3是该基于应用信息挖掘的元数据血缘分析方法的特征向量匹配流程图。

图4是该基于应用信息挖掘的元数据血缘分析方法的目标应用与数据表的关联关系示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例的基于应用信息挖掘的元数据血缘分析系统，包括用于存储前端页面特征向量、后端数据表特征向量及其关联关系的特征向量库，特征向量库是基于元数据血缘分析系统在过往的应用溯源流程中记录的历史数据形成的。系统还包括处理器和与其连接的计算机可读存储介质，计算机可读存储介质内预先存储有计算机程序，该计算机程序被处理器执行时实现本实施例的基于应用信息挖掘的元数据血缘分析方法，见图1。具体步骤说明如下。

前端页面特征向量构建步骤，获取目标应用的前端页面信息，从中读取该应用的页面元素特征和报表特征来构建该应用的前端页面特征向量。

其中，读取该应用的报表特征是指：通过开发工具调取该应用的报表模板和表样，从中抽取表格元素信息作为报表特征，表格元素信息包括报表表样、报表标题和报表数据扫描内容。其中，读取该应用的页面元素特征是通过数据爬虫对页面信息抓取实现的，页面元素特征包括页面元素维度信息、指标信息、图形KPI信息。

见图2，本实施例预先通过对历史数据执行前端页面特征向量构建步骤得到应用的向量特征库。一方面是采用页面应用的构建方式：通过页面元素抓取、元素分词提取、应用与应用及表关系特征抽取形成得到页面元素特征库。另一方面针对报表应用采用专业特征构建方式，如针对FineReport、SmartBI等报表工具的模板信息、维度指标信息进行特征构建，具体地，通过以下应用元模型标准化、应用服务SQL解析和报表特征向量生成这三个步骤完成特征构建。

1、应用元模型标准化：对一个报表应用，分解为表样、基本信息、维度信息、指标信息、条件信息进行标准化描述。基于报表开发工具进行桥接器适配，来完成报表表样及以上信息的抽取及标准化。

2、应用服务SQL解析：针对表样的数据集配置及服务日志，进行代码解析，并提取访问SQL，针对 SQL进行血缘解析，输出应用服务所关联的资源表信息。

3、报表特征向量生成：根据应用页面元素信息、页面元素分词信息、报表元模型标准化信息、报表表样信息、报表SQL血缘信息，综合形成报表的特征向量，形成报表菜单、页面、表样模板及数据资源表间的血缘关系特征库。

后端数据表特征向量构建步骤，获取与目标应用关联的数据表，从中读取该数据表的数据特征和内容特征来构建该数据表的后端数据表特征向量。

其中，数据特征包括元数据信息和表摘要信息。其中，读取数据表的内容特征是通过对数据表内容进行扫描实现的，内容特征包括指标列信息、维度列信息、标准化信息和特征列信息。

在进一步的实施例中，前端页面特征和后端数据表特征相结合的特征向量库生成流程见图3，具体说明如下。

1）页面元素抓取：通过数据爬虫等技术，抓取元素信息。对于页面信息以报表或仪表盘等形式呈现的专题应用，可通过开发工具的报表模板及表样进行元素抽取，形成专业化元素信息。

2）NLP分词及计算：通过NLP分词分析页面元素构成，抽取页面关键信息，如维度、指标、报表标题、业务KPI等。

3）前端页面特征向量计算：通过页面元素维度信息、指标信息、图形KPI信息生成元素特征，通过报表表样及报表数据内容扫描形成报表特征，基于报表特征库和页面元素特征库计算，形成前端页面的特征向量。

4）后端数据表特征向量计算：针对页面应用或报表所对应的后端服务及数据资源表信息，一方面通过数据表的元数据信息（如：表中文、列中文、列指标信息）及表摘要信息（如：列维度指标类型特征）形成数据表的数据特征；另一方面进行数据表内容进行分析，通过数据表内容扫描，主体分析其指标列信息、维度列信息、标准化信息，以及特征列输出（如：时间、地点、对象...）。

5）特征向量库生成：最终通过前后端特征向量的生成和匹配，输出前端应用与后端数据资源表的关联关系、位置信度，生成整体的特征向量库，供后续适配使用。

特征向量匹配步骤，以所构建的前端页面特征向量来分别匹配这些数据表的所构建的后端数据表特征向量，具体地：若前端页面特征向量全部的页面元素特征和报表特征与一个数据表的后端数据表特征向量全部的数据特征和内容特征之间的重合度达到预设程度，则定义这一数据表为该前端页面特征向量的匹配数据表。本实施例中重合度的预设程度为：前端页面特征向量全部的页面元素特征和报表特征中，预设阈值（如90%）以上在后端数据表特征向量中存在；且后端数据表特征向量全部的数据特征和内容特征中，预设阈值（如120%）以下不在前端页面特征向量中存在。

其中，对于重合度达到预设程度的数据表有多个的情况，先进行筛选步骤：对重合度达到预设程度的多个数据表，调取这些数据表的变更通知数据，若变更通知数据在预设范围之外，则不对该数据表进行引用度排序。不同数据库为清理长期不被引用且不更新的数据表而设置了数据表闲置告警值，本实施例将变更通知数据的预设范围与数据表闲置告警值关联，当识别到变更通知数据有向数据表闲置告警值发展的趋势，或者变更通知数据的频次达到数据表闲置告警值的两倍以下，就认为该数据表有闲置的风险，因此从匹配到的数据表中剔除该数据表，而不以该数据表作为匹配数据表的备选。然后，对剩余的数据表进行引用度排序，以引用度更低的数据表作为匹配数据表。引用度以该数据表的当前表查询数、当前表服务应用数、当前表服务团队数、当前表服务下游用户数衡量，数据表引用度相对更低则说明数据表的活跃度相对低，则产生数据冲突的可能性降低。

校验步骤，若全部前端页面特征向量中存在未能匹配到后端数据表特征向量的错漏特征，则在与目标应用关联的数据表中对该错漏特征进行查询，若查询到存在与该错漏特征对应的数据表，则更新该数据表的后端数据表特征向量。

若该校验步骤中存在未能匹配，还在未关联到该目标应用的数据表中查询该应用的页面元素特征和/或报表特征，对查询到的全部数据表构建后端数据表特征向量后再次执行特征向量匹配步骤。

关联步骤，将更新了后端数据表特征向量的数据表关联目标应用。若当前关联步骤是在再次执行特征向量匹配步骤后执行的，将查询到的全部数据表关联目标应用。

本实施例中，见图4，目标应用相关联的前端应用页面与后端数据表之间的关联关系如下：作为数据表的应用台账通过在前端页面信息的菜单和/或页面元素中抓取获得；数据表为该目标应用的应用对象，具体地，数据表通过工具/非工具类应用生成、应用元数据提取生成、业务爬虫生成、SQL解析生成或页面元素特征挖掘生成；数据表服务于该目标应用，具体地，数据表用于该目标应用的应用日志、服务API日志或数据库日志，或者数据表用于目标应用的流程挖掘。对于具备以上关联关系的目标应用，由于已经打通了前端应用页面与后端数据表之间的自动联动，最终呈现出数据源系统到应用页面的全链路监控血缘关系，实现从数据源系统、采集系统、数据源、汇总平台、报表平台到应用页面的多源全链路血缘关系呈现。

该基于应用信息挖掘的元数据血缘分析方法，获取目标应用的前端页面信息和与目标应用关联的数据表，从而读取来自前端页面的页面元素特征和报表特征来构建前端页面特征向量，读取来自后端数据表的数据特征和内容特征来构建后端数据表特征向量，当前端页面特征向量全部的页面元素特征和报表特征与后端数据表特征向量全部的数据特征和内容特征之间的重合度没有达到预设程度，说明出现数据结构变化等情况导致前端业务功能与后台数据库的数据表之间数据不一致，通过校验步骤及时修正匹配方案，并将更新了后端数据表特征向量的数据表关联目标应用，完成血缘分析，实现对该目标应用从前端页面到后端数据表的自动关联。

本实施例通过计算机程序来实现上述基于应用信息挖掘的元数据血缘分析方法，该计算机程序存储在计算机可读存储介质中，供计算机处理器执行从而实现上述基于应用信息挖掘的元数据血缘分析方法。以上所描述的基于应用信息挖掘的元数据血缘分析系统实施例仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：本发明实施例公开的基于应用信息挖掘的元数据血缘分析方法所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种基于应用信息挖掘的元数据血缘分析方法，其特征是，包括以下步骤：

前端页面特征向量构建步骤，获取目标应用的前端页面信息，从中读取该应用的页面元素特征和报表特征来构建该应用的前端页面特征向量；通过页面元素维度信息、指标信息、图形KPI信息生成页面元素特征，通过报表表样及报表数据内容扫描形成报表特征；基于报表特征库和页面元素特征库形成前端页面的特征向量；

后端数据表特征向量构建步骤，获取与目标应用关联的多个数据表，从中分别读取各个数据表的数据特征和内容特征来构建这些数据表的后端数据表特征向量；针对页面应用或报表所对应的后端服务及数据资源表信息，通过数据表的元数据信息及表摘要信息形成数据表的数据特征；读取数据表的内容特征是通过对数据表内容进行扫描实现的，所述内容特征包括指标列信息、维度列信息、标准化信息和特征列信息当中的一种或多种；

校验步骤，将全部前端页面特征向量中未能匹配到所述匹配数据表的后端数据表特征向量的特征定义为错漏特征，在与目标应用关联的数据表中对该错漏特征进行查询，若查询到存在与该错漏特征对应的数据表，则将该数据表中与该错漏特征对应的数据添加到所述匹配数据表，更新该匹配数据表的后端数据表特征向量；若该校验步骤中存在未能匹配，还在未关联到该目标应用的数据表中查询该应用的页面元素特征和/或报表特征，对查询到的全部数据表构建后端数据表特征向量后再次执行特征向量匹配步骤；

2.如权利要求1所述的基于应用信息挖掘的元数据血缘分析方法，其特征是，所述前端页面特征向量构建步骤中，读取该应用的报表特征是指：通过开发工具调取该应用的报表模板和表样，从中抽取表格元素信息作为报表特征，所述表格元素信息包括报表表样、报表标题和报表数据扫描内容当中的一种或多种。

3.如权利要求1所述的基于应用信息挖掘的元数据血缘分析方法，其特征是，所述后端数据表特征向量构建步骤中，与目标应用关联的数据表是指两者之间存在如下一种或多种关联：作为数据表的应用台账通过在前端页面信息的菜单和/或页面元素中抓取获得；数据表为该目标应用的应用对象，具体地，数据表通过工具/非工具类应用生成、应用元数据提取生成、业务爬虫生成、SQL解析生成或页面元素特征挖掘生成；数据表服务于该目标应用，具体地，数据表用于该目标应用的应用日志、服务API日志或数据库日志，或者数据表用于目标应用的流程挖掘。

4.如权利要求1所述的基于应用信息挖掘的元数据血缘分析方法，其特征是，所述特征向量匹配步骤中，若重合度达到预设程度的数据表有多个，则根据这些数据表的引用度排序，以引用度更低的数据表作为匹配数据表。

5.如权利要求4所述的基于应用信息挖掘的元数据血缘分析方法，其特征是，包括在引用度排序前执行的筛选步骤，对重合度达到预设程度的多个数据表，调取这些数据表的变更通知数据，若变更通知数据在预设范围之外，则不对该数据表进行引用度排序。

6.计算机可读存储介质，其存储有计算机程序，其特征是，所述计算机程序被处理器运行时能够实现权利要求1~5中任一项所述的基于应用信息挖掘的元数据血缘分析方法。

7.基于应用信息挖掘的元数据血缘分析系统，其特征是，包括用于存储前端页面特征向量、后端数据表特征向量及其关联关系的特征向量库以及处理器；还包括如权利要求6所述的计算机可读存储介质，该计算机可读存储介质上的计算机程序可被处理器执行。