CN112818015A - 基于数据血缘分析的数据追踪方法、系统及存储介质 - Google Patents

基于数据血缘分析的数据追踪方法、系统及存储介质 Download PDF

Info

Publication number
CN112818015A
CN112818015A CN202110082234.5A CN202110082234A CN112818015A CN 112818015 A CN112818015 A CN 112818015A CN 202110082234 A CN202110082234 A CN 202110082234A CN 112818015 A CN112818015 A CN 112818015A
Authority
CN
China
Prior art keywords
data
sql
blood
blood relationship
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110082234.5A
Other languages
English (en)
Other versions
CN112818015B (zh
Inventor
李保平
杨建荣
龙磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huitong Guoxin Technology Co Ltd
Original Assignee
Guangzhou Huitong Guoxin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huitong Guoxin Technology Co Ltd filed Critical Guangzhou Huitong Guoxin Technology Co Ltd
Priority to CN202110082234.5A priority Critical patent/CN112818015B/zh
Publication of CN112818015A publication Critical patent/CN112818015A/zh
Application granted granted Critical
Publication of CN112818015B publication Critical patent/CN112818015B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results

Abstract

本发明涉及基于数据血缘分析的数据追踪方法,包括以下:根据数据开发任务的类型进行血缘关系表的构建,所述数据开发任务的类型具体通过是否为SQL类的数据进行划分;获取用户的查询请求;根据用户的查询请求,将血缘关系表中的关联数据予以展示。本发明能够对SQL类以及其他类的数据进行血缘关系的建立,是实现数据融合(聚合)的一个手段,并且通过血缘分析能够实现数据融合处理的可追溯。能够满足企事业单位的数据治理需求。

Description

基于数据血缘分析的数据追踪方法、系统及存储介质
技术领域
本发明涉及数据治理领域,尤其涉及基于数据血缘分析的数据追踪方法、系统及存储介质。
背景技术
在人类社会中,血缘关系是指由婚姻或生育而产生的人际关系,是最早形成的一种社会关系。今天,人类进入了大数据时代。每天,世界上都有海量的,各种类型的,关系复杂的数据在快速产生。这些庞大复杂的数据汇聚又产生新的数据。数据在产生、融合、流转,消亡过程中形成一种逻辑关系。我们借鉴人类社会中的血缘关系来表达数据之间的这种关系,称之为数据的血缘关系。
数据治理里经常提到的一个词就是血缘分析,血缘分析是保证数据融合(聚合)的一个手段,通过血缘分析能够实现数据融合处理的可追溯。当今缺少一种较为系统有效的数据血缘分析方法,无法满足企事业单位的数据治理需求。
发明内容
本发明的目的是为了至少解决现有技术的不足之一,提供基于数据血缘分析的数据追踪方法、系统及存储介质。
为了实现上述目的,本发明采用以下的技术方案:
具体的,提出基于数据血缘分析的数据追踪方法,包括以下:
根据数据开发任务的类型进行血缘关系表的构建,所述数据开发任务的类型具体通过是否为SQL类的数据进行划分;
获取用户的查询请求;
根据用户的查询请求,将血缘关系表中的关联数据予以展示。
进一步,所述根据数据开发任务的类型进行血缘关系表的构建具体包括以下,
当判断为非SQL类的数据开发任务时,扫描运行环境中的同步任务配置信息,根据所述同步任务配置信息中的任务的输入以及输出确定当前任务中相关数据表的血缘关系,并将血缘关系写入血缘关系数据表中以更新血缘关系数据表;
当判断为SQL类的数据开发任务时,将当前任务执行的命令打包写入消息队列,从消息队列中获取数据,利用SQL的AST语法确定当前任务中的相关数据表的读、写属性并进行标记,通过SQL中的数据源信息确定是否已经存在有关相关数据表已建立的存储对象,如果已经存在,则根据SQL语法中的单语句读写关系,确定数据血缘流向,如果不存在,则为相关数据表建立对应的存储对象,再根据SQL语法中的单语句读写关系,确定数据血缘流向,最终根据确定的血缘数据流向更新血缘关系数据表;
最终根据以上两种数据开发任务的类型所更新的血缘关系数据表,完成血缘关系表的构件。
进一步,上述根据用户的查询请求,将血缘关系表中的关联数据予以展示具体包括以下,
根据用户的查询请求,获取血缘关系表中的关联数据,并对所述关联数据进行数据清洗得到清洗后的数据;
对清洗后的数据进行词法分析,生成抽象语法树,遍历抽象语法树对数据中的语句进行句法解析;
对句法解析后的抽象语法树,根据血缘关系分析结果绘制基于语句的数据血缘关系图,最终进行可视化展示。
进一步,上述数据清洗过程具体包括,获取含有SQL代码的脚本文件,并寻找SQL代码的标志位,利用标志位过滤脚本文件中的无关内容,保留得到规则化的SQL代码语句;
上述词法分析过程具体包括,对规则化的SQL语句进行词法分析,根据语法规则对规则化的 SQL语句进行关键词划分,并对每个关键词进行标签标识,并将每个标识后的SQL语句作为一个节点,生成为一棵抽象语法树,遍历抽象语法树,为每个标签对应的SQL语句赋予句法意义,实现对SQL语句的句法解析;
上述遍历抽象语法树对数据中的语句进行句法解析具体包括,处理抽象语法树中标识出的节点数据,将源数据表和源数据字段作为节点数据的输入集合,将目标数据表和目标数据字段作为节点数据的输出集合,对节点数据的来源和去向分别进行映射,得到血缘关系分析结果;
上述可视化展示具体包括,绘制数据血缘关系图中数据表和字段节点,并根据血缘关系分析结果,关联数据血缘关系图中的节点并绘制箭头指向连线,将绘制好的数据血缘关系图发送至用户终端进行可视化显示。
本发明还提出基于数据血缘分析的数据追踪系统,包括,
血缘关系表构建模块,用于根据数据开发任务的类型进行血缘关系表的构建,所述数据开发任务的类型具体通过是否为SQL类的数据进行划分;
查询请求获取模块,用于获取用户的查询请求;
根据用户的查询请求,将血缘关系表中的关联数据予以展示。
进一步,所述血缘关系表构建模块具体包括非SQL类的数据开发任务处理子单元以及SQL类的数据开发任务处理子单元,
所述非SQL类的数据开发任务处理子单元,用于当判断为非SQL类的数据开发任务时,扫描运行环境中的同步任务配置信息,根据所述同步任务配置信息中的任务的输入以及输出确定当前任务中相关数据表的血缘关系,并将血缘关系写入血缘关系数据表中以更新血缘关系数据表;
所述SQL类的数据开发任务处理子单元,用于当判断为SQL类的数据开发任务时,将当前任务执行的命令打包写入消息队列,从消息队列中获取数据,利用SQL的AST语法确定当前任务中的相关数据表的读、写属性并进行标记,通过SQL中的数据源信息确定是否已经存在有关相关数据表已建立的存储对象,如果已经存在,则根据SQL语法中的单语句读写关系,确定数据血缘流向,如果不存在,则为相关数据表建立对应的存储对象,再根据SQL语法中的单语句读写关系,确定数据血缘流向,最终根据确定的血缘数据流向更新血缘关系数据表。
本发明还提出一种计算机可读存储的介质,所述计算机可读存储的介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述方法的步骤。
本发明的有益效果为:
本发明提出基于数据血缘分析的数据追踪方法,通过根据是否为SQL类的数据开发任务进行血缘关系表的构建,最终根据血缘关系表按照用户的查询请求;将血缘关系表中的关联数据展示给用户,整个方案系统有效,能够满足企事业单位的数据治理需求。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1所示为本发明基于数据血缘分析的数据追踪方法流程图;
图2所示为本发明基于数据血缘分析的数据追踪方法的血缘关系表的建立流程图。
具体实施方式
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。附图中各处使用的相同的附图标记指示相同或相似的部分。
参照图1以及图2,实施例1,本发明提出基于数据血缘分析的数据追踪方法,包括以下:
根据数据开发任务的类型进行血缘关系表的构建,所述数据开发任务的类型具体通过是否为SQL类的数据进行划分;
获取用户的查询请求;
根据用户的查询请求,将血缘关系表中的关联数据予以展示。
作为本发明的优选实施方式,所述根据数据开发任务的类型进行血缘关系表的构建具体包括以下,
当判断为非SQL类的数据开发任务时,扫描运行环境中的同步任务配置信息,根据所述同步任务配置信息中的任务的输入以及输出确定当前任务中相关数据表的血缘关系,并将血缘关系写入血缘关系数据表中以更新血缘关系数据表;
当判断为SQL类的数据开发任务时,将当前任务执行的命令打包写入消息队列,从消息队列中获取数据,利用SQL的AST语法确定当前任务中的相关数据表的读、写属性并进行标记,通过SQL中的数据源信息确定是否已经存在有关相关数据表已建立的存储对象,如果已经存在,则根据SQL语法中的单语句读写关系,确定数据血缘流向,如果不存在,则为相关数据表建立对应的存储对象,再根据SQL语法中的单语句读写关系,确定数据血缘流向,最终根据确定的血缘数据流向更新血缘关系数据表;
最终根据以上两种数据开发任务的类型所更新的血缘关系数据表,完成血缘关系表的构件。
作为本发明的优选实施方式,上述根据用户的查询请求,将血缘关系表中的关联数据予以展示具体包括以下,
根据用户的查询请求,获取血缘关系表中的关联数据,并对所述关联数据进行数据清洗得到清洗后的数据;
对清洗后的数据进行词法分析,生成抽象语法树,遍历抽象语法树对数据中的语句进行句法解析;
对句法解析后的抽象语法树,根据血缘关系分析结果绘制基于语句的数据血缘关系图,最终进行可视化展示。
作为本发明的优选实施方式,上述数据清洗过程具体包括,获取含有SQL代码的脚本文件,并寻找SQL代码的标志位,利用标志位过滤脚本文件中的无关内容,保留得到规则化的SQL代码语句;
上述词法分析过程具体包括,对规则化的SQL语句进行词法分析,根据语法规则对规则化的 SQL语句进行关键词划分,并对每个关键词进行标签标识,并将每个标识后的SQL语句作为一个节点,生成为一棵抽象语法树,遍历抽象语法树,为每个标签对应的SQL语句赋予句法意义,实现对SQL语句的句法解析;
上述遍历抽象语法树对数据中的语句进行句法解析具体包括,处理抽象语法树中标识出的节点数据,将源数据表和源数据字段作为节点数据的输入集合,将目标数据表和目标数据字段作为节点数据的输出集合,对节点数据的来源和去向分别进行映射,得到血缘关系分析结果;
上述可视化展示具体包括,绘制数据血缘关系图中数据表和字段节点,并根据血缘关系分析结果,关联数据血缘关系图中的节点并绘制箭头指向连线,将绘制好的数据血缘关系图发送至用户终端进行可视化显示。
本发明还提出基于数据血缘分析的数据追踪系统,包括,
血缘关系表构建模块,用于根据数据开发任务的类型进行血缘关系表的构建,所述数据开发任务的类型具体通过是否为SQL类的数据进行划分;
查询请求获取模块,用于获取用户的查询请求;
根据用户的查询请求,将血缘关系表中的关联数据予以展示。
作为本发明的优选实施方式,所述血缘关系表构建模块具体包括非SQL类的数据开发任务处理子单元以及SQL类的数据开发任务处理子单元,
所述非SQL类的数据开发任务处理子单元,用于当判断为非SQL类的数据开发任务时,扫描运行环境中的同步任务配置信息,根据所述同步任务配置信息中的任务的输入以及输出确定当前任务中相关数据表的血缘关系,并将血缘关系写入血缘关系数据表中以更新血缘关系数据表;
所述SQL类的数据开发任务处理子单元,用于当判断为SQL类的数据开发任务时,将当前任务执行的命令打包写入消息队列,从消息队列中获取数据,利用SQL的AST语法确定当前任务中的相关数据表的读、写属性并进行标记,通过SQL中的数据源信息确定是否已经存在有关相关数据表已建立的存储对象,如果已经存在,则根据SQL语法中的单语句读写关系,确定数据血缘流向,如果不存在,则为相关数据表建立对应的存储对象,再根据SQL语法中的单语句读写关系,确定数据血缘流向,最终根据确定的血缘数据流向更新血缘关系数据表。
本发明还提出一种计算机可读存储的介质,所述计算机可读存储的介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述方法的步骤。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例中的方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储的介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释,从而有效地涵盖本发明的预定范围。此外,上文以发明人可预见的实施例对本发明进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims (7)

1.基于数据血缘分析的数据追踪方法,其特征在于,包括以下:
根据数据开发任务的类型进行血缘关系表的构建,所述数据开发任务的类型具体通过是否为SQL类的数据进行划分;
获取用户的查询请求;
根据用户的查询请求,将血缘关系表中的关联数据予以展示。
2.根据权利要求1所述的基于数据血缘分析的数据追踪方法,其特征在于,所述根据数据开发任务的类型进行血缘关系表的构建具体包括以下,
当判断为非SQL类的数据开发任务时,扫描运行环境中的同步任务配置信息,根据所述同步任务配置信息中的任务的输入以及输出确定当前任务中相关数据表的血缘关系,并将血缘关系写入血缘关系数据表中以更新血缘关系数据表;
当判断为SQL类的数据开发任务时,将当前任务执行的命令打包写入消息队列,从消息队列中获取数据,利用SQL的AST语法确定当前任务中的相关数据表的读、写属性并进行标记,通过SQL中的数据源信息确定是否已经存在有关相关数据表已建立的存储对象,如果已经存在,则根据SQL语法中的单语句读写关系,确定数据血缘流向,如果不存在,则为相关数据表建立对应的存储对象,再根据SQL语法中的单语句读写关系,确定数据血缘流向,最终根据确定的血缘数据流向更新血缘关系数据表;
最终根据以上两种数据开发任务的类型所更新的血缘关系数据表,完成血缘关系表的构件。
3.根据权利要求2所述的基于数据血缘分析的数据追踪方法,其特征在于,上述根据用户的查询请求,将血缘关系表中的关联数据予以展示具体包括以下,
根据用户的查询请求,获取血缘关系表中的关联数据,并对所述关联数据进行数据清洗得到清洗后的数据;
对清洗后的数据进行词法分析,生成抽象语法树,遍历抽象语法树对数据中的语句进行句法解析;
对句法解析后的抽象语法树,根据血缘关系分析结果绘制基于语句的数据血缘关系图,最终进行可视化展示。
4.根据权利要求3所述的基于数据血缘分析的数据追踪方法,其特征在于,
上述数据清洗过程具体包括,获取含有SQL代码的脚本文件,并寻找SQL代码的标志位,利用标志位过滤脚本文件中的无关内容,保留得到规则化的SQL代码语句;
上述词法分析过程具体包括,对规则化的SQL语句进行词法分析,根据语法规则对规则化的 SQL语句进行关键词划分,并对每个关键词进行标签标识,并将每个标识后的SQL语句作为一个节点,生成为一棵抽象语法树,遍历抽象语法树,为每个标签对应的SQL语句赋予句法意义,实现对SQL语句的句法解析;
上述遍历抽象语法树对数据中的语句进行句法解析具体包括,处理抽象语法树中标识出的节点数据,将源数据表和源数据字段作为节点数据的输入集合,将目标数据表和目标数据字段作为节点数据的输出集合,对节点数据的来源和去向分别进行映射,得到血缘关系分析结果;
上述可视化展示具体包括,绘制数据血缘关系图中数据表和字段节点,并根据血缘关系分析结果,关联数据血缘关系图中的节点并绘制箭头指向连线,将绘制好的数据血缘关系图发送至用户终端进行可视化显示。
5.基于数据血缘分析的数据追踪系统,其特征在于,包括,
血缘关系表构建模块,用于根据数据开发任务的类型进行血缘关系表的构建,所述数据开发任务的类型具体通过是否为SQL类的数据进行划分;
查询请求获取模块,用于获取用户的查询请求;
根据用户的查询请求,将血缘关系表中的关联数据予以展示。
6.根据权利要求5所述的基于数据血缘分析的数据追踪系统,其特征在于,所述血缘关系表构建模块具体包括非SQL类的数据开发任务处理子单元以及SQL类的数据开发任务处理子单元,
所述非SQL类的数据开发任务处理子单元,用于当判断为非SQL类的数据开发任务时,扫描运行环境中的同步任务配置信息,根据所述同步任务配置信息中的任务的输入以及输出确定当前任务中相关数据表的血缘关系,并将血缘关系写入血缘关系数据表中以更新血缘关系数据表;
所述SQL类的数据开发任务处理子单元,用于当判断为SQL类的数据开发任务时,将当前任务执行的命令打包写入消息队列,从消息队列中获取数据,利用SQL的AST语法确定当前任务中的相关数据表的读、写属性并进行标记,通过SQL中的数据源信息确定是否已经存在有关相关数据表已建立的存储对象,如果已经存在,则根据SQL语法中的单语句读写关系,确定数据血缘流向,如果不存在,则为相关数据表建立对应的存储对象,再根据SQL语法中的单语句读写关系,确定数据血缘流向,最终根据确定的血缘数据流向更新血缘关系数据表。
7.一种计算机可读存储的介质,所述计算机可读存储的介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述方法的步骤。
CN202110082234.5A 2021-01-21 2021-01-21 基于数据血缘分析的数据追踪方法、系统及存储介质 Active CN112818015B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110082234.5A CN112818015B (zh) 2021-01-21 2021-01-21 基于数据血缘分析的数据追踪方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110082234.5A CN112818015B (zh) 2021-01-21 2021-01-21 基于数据血缘分析的数据追踪方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN112818015A true CN112818015A (zh) 2021-05-18
CN112818015B CN112818015B (zh) 2022-07-15

Family

ID=75858651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110082234.5A Active CN112818015B (zh) 2021-01-21 2021-01-21 基于数据血缘分析的数据追踪方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN112818015B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687309A (zh) * 2022-12-30 2023-02-03 浙江大学 非侵入式卷烟出入库全流程数据血缘构建方法、装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199978A (zh) * 2014-09-24 2014-12-10 普元信息技术股份有限公司 基于NoSQL实现元数据缓存与分析的系统及方法
WO2015009620A1 (en) * 2013-07-17 2015-01-22 President And Fellows Of Harvard College Systems and methods for keyword determination and document classification from unstructured text
CN105868521A (zh) * 2015-12-14 2016-08-17 乐视网信息技术(北京)股份有限公司 数据信息处理方法及装置
US20190243841A1 (en) * 2018-02-06 2019-08-08 Thomson Reuters (Professional) UK Ltd. Systems and method for generating a structured report from unstructured data
CN111538743A (zh) * 2020-04-22 2020-08-14 电子科技大学 基于sql的数据血缘关系分析方法以及系统
WO2020185988A1 (en) * 2019-03-14 2020-09-17 Yadong Li Distributed system generating rule compiler engine apparatuses, methods, systems and media
CN111694858A (zh) * 2020-04-28 2020-09-22 平安科技(深圳)有限公司 数据血缘分析方法、装置、设备及计算机可读存储介质
CN112035508A (zh) * 2020-08-27 2020-12-04 深圳天源迪科信息技术股份有限公司 基于sql在线元数据解析的方法及系统、设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015009620A1 (en) * 2013-07-17 2015-01-22 President And Fellows Of Harvard College Systems and methods for keyword determination and document classification from unstructured text
CN104199978A (zh) * 2014-09-24 2014-12-10 普元信息技术股份有限公司 基于NoSQL实现元数据缓存与分析的系统及方法
CN105868521A (zh) * 2015-12-14 2016-08-17 乐视网信息技术(北京)股份有限公司 数据信息处理方法及装置
US20190243841A1 (en) * 2018-02-06 2019-08-08 Thomson Reuters (Professional) UK Ltd. Systems and method for generating a structured report from unstructured data
WO2020185988A1 (en) * 2019-03-14 2020-09-17 Yadong Li Distributed system generating rule compiler engine apparatuses, methods, systems and media
CN111538743A (zh) * 2020-04-22 2020-08-14 电子科技大学 基于sql的数据血缘关系分析方法以及系统
CN111694858A (zh) * 2020-04-28 2020-09-22 平安科技(深圳)有限公司 数据血缘分析方法、装置、设备及计算机可读存储介质
CN112035508A (zh) * 2020-08-27 2020-12-04 深圳天源迪科信息技术股份有限公司 基于sql在线元数据解析的方法及系统、设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687309A (zh) * 2022-12-30 2023-02-03 浙江大学 非侵入式卷烟出入库全流程数据血缘构建方法、装置
CN115687309B (zh) * 2022-12-30 2023-04-18 浙江大学 非侵入式卷烟出入库全流程数据血缘构建方法、装置

Also Published As

Publication number Publication date
CN112818015B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN110291517B (zh) 图数据库中的查询语言互操作性
US11334544B2 (en) Method, apparatus, device and medium for storing and querying data
US8914419B2 (en) Extracting semantic relationships from table structures in electronic documents
US20130282765A1 (en) Optimizing sparse schema-less data in relational stores
US20160371275A1 (en) Automated database schema annotation
TW202032386A (zh) 資料儲存裝置、轉譯裝置及資料庫存取方法
US9218394B2 (en) Reading rows from memory prior to reading rows from secondary storage
CN105373541A (zh) 数据库的数据操作请求的处理方法和系统
US20150199346A1 (en) Hierarchical database report generation with automated query generation for placeholders
CN109815240A (zh) 用于管理索引的方法、装置、设备和存储介质
CN111708805A (zh) 数据查询方法、装置、电子设备及存储介质
CN113468204A (zh) 一种数据查询方法、装置、设备、介质
CN112818015B (zh) 基于数据血缘分析的数据追踪方法、系统及存储介质
CN113220710A (zh) 数据查询方法、装置、电子设备以及存储介质
CN111475534B (zh) 一种数据查询方法及相关设备
US11354358B1 (en) Organization and retrieval of conditioned data
US11443106B2 (en) Intelligent normalization and de-normalization of tables for multiple processing scenarios
CN113779068B (zh) 数据查询方法、装置、设备及存储介质
CN114816578A (zh) 基于配置表的程序配置文件生成方法、装置及设备
CN115495440A (zh) 异构数据库的数据迁移方法、装置、设备及存储介质
CN110727677B (zh) 数据仓库内表格的血缘关系追溯的方法和装置
CN109918367B (zh) 一种结构化数据的清洗方法、装置、电子设备及存储介质
WO2020201882A1 (en) Extensible data skipping
CN111639099A (zh) 全文索引方法及系统
CN114625757B (zh) 基于领域特定语言的任务执行方法及装置、介质、设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A data tracking method, system, and storage medium based on data lineage analysis

Granted publication date: 20220715

Pledgee: Guangzhou Caold financing Company limited by guarantee

Pledgor: Guangzhou Huitong Guoxin Technology Co.,Ltd.

Registration number: Y2024980012366