CN112818015A - 基于数据血缘分析的数据追踪方法、系统及存储介质 - Google Patents
基于数据血缘分析的数据追踪方法、系统及存储介质 Download PDFInfo
- Publication number
- CN112818015A CN112818015A CN202110082234.5A CN202110082234A CN112818015A CN 112818015 A CN112818015 A CN 112818015A CN 202110082234 A CN202110082234 A CN 202110082234A CN 112818015 A CN112818015 A CN 112818015A
- Authority
- CN
- China
- Prior art keywords
- data
- sql
- blood
- blood relationship
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000008280 blood Substances 0.000 title claims abstract description 131
- 210000004369 blood Anatomy 0.000 title claims abstract description 131
- 238000004458 analytical method Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000003860 storage Methods 0.000 title claims description 27
- 238000011161 development Methods 0.000 claims abstract description 58
- 238000012545 processing Methods 0.000 claims description 16
- 230000001360 synchronised effect Effects 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000012800 visualization Methods 0.000 claims description 6
- 238000007405 data analysis Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000004806 packaging method and process Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 abstract description 3
- 230000002776 aggregation Effects 0.000 abstract description 3
- 238000013523 data management Methods 0.000 abstract description 3
- 230000004927 fusion Effects 0.000 abstract description 3
- 238000007499 fusion processing Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000004087 circulation Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
Abstract
本发明涉及基于数据血缘分析的数据追踪方法,包括以下:根据数据开发任务的类型进行血缘关系表的构建,所述数据开发任务的类型具体通过是否为SQL类的数据进行划分;获取用户的查询请求;根据用户的查询请求,将血缘关系表中的关联数据予以展示。本发明能够对SQL类以及其他类的数据进行血缘关系的建立,是实现数据融合(聚合)的一个手段,并且通过血缘分析能够实现数据融合处理的可追溯。能够满足企事业单位的数据治理需求。
Description
技术领域
本发明涉及数据治理领域,尤其涉及基于数据血缘分析的数据追踪方法、系统及存储介质。
背景技术
在人类社会中,血缘关系是指由婚姻或生育而产生的人际关系,是最早形成的一种社会关系。今天,人类进入了大数据时代。每天,世界上都有海量的,各种类型的,关系复杂的数据在快速产生。这些庞大复杂的数据汇聚又产生新的数据。数据在产生、融合、流转,消亡过程中形成一种逻辑关系。我们借鉴人类社会中的血缘关系来表达数据之间的这种关系,称之为数据的血缘关系。
数据治理里经常提到的一个词就是血缘分析,血缘分析是保证数据融合(聚合)的一个手段,通过血缘分析能够实现数据融合处理的可追溯。当今缺少一种较为系统有效的数据血缘分析方法,无法满足企事业单位的数据治理需求。
发明内容
本发明的目的是为了至少解决现有技术的不足之一,提供基于数据血缘分析的数据追踪方法、系统及存储介质。
为了实现上述目的,本发明采用以下的技术方案:
具体的,提出基于数据血缘分析的数据追踪方法,包括以下:
根据数据开发任务的类型进行血缘关系表的构建,所述数据开发任务的类型具体通过是否为SQL类的数据进行划分;
获取用户的查询请求;
根据用户的查询请求,将血缘关系表中的关联数据予以展示。
进一步,所述根据数据开发任务的类型进行血缘关系表的构建具体包括以下,
当判断为非SQL类的数据开发任务时,扫描运行环境中的同步任务配置信息,根据所述同步任务配置信息中的任务的输入以及输出确定当前任务中相关数据表的血缘关系,并将血缘关系写入血缘关系数据表中以更新血缘关系数据表;
当判断为SQL类的数据开发任务时,将当前任务执行的命令打包写入消息队列,从消息队列中获取数据,利用SQL的AST语法确定当前任务中的相关数据表的读、写属性并进行标记,通过SQL中的数据源信息确定是否已经存在有关相关数据表已建立的存储对象,如果已经存在,则根据SQL语法中的单语句读写关系,确定数据血缘流向,如果不存在,则为相关数据表建立对应的存储对象,再根据SQL语法中的单语句读写关系,确定数据血缘流向,最终根据确定的血缘数据流向更新血缘关系数据表;
最终根据以上两种数据开发任务的类型所更新的血缘关系数据表,完成血缘关系表的构件。
进一步,上述根据用户的查询请求,将血缘关系表中的关联数据予以展示具体包括以下,
根据用户的查询请求,获取血缘关系表中的关联数据,并对所述关联数据进行数据清洗得到清洗后的数据;
对清洗后的数据进行词法分析,生成抽象语法树,遍历抽象语法树对数据中的语句进行句法解析;
对句法解析后的抽象语法树,根据血缘关系分析结果绘制基于语句的数据血缘关系图,最终进行可视化展示。
进一步,上述数据清洗过程具体包括,获取含有SQL代码的脚本文件,并寻找SQL代码的标志位,利用标志位过滤脚本文件中的无关内容,保留得到规则化的SQL代码语句;
上述词法分析过程具体包括,对规则化的SQL语句进行词法分析,根据语法规则对规则化的 SQL语句进行关键词划分,并对每个关键词进行标签标识,并将每个标识后的SQL语句作为一个节点,生成为一棵抽象语法树,遍历抽象语法树,为每个标签对应的SQL语句赋予句法意义,实现对SQL语句的句法解析;
上述遍历抽象语法树对数据中的语句进行句法解析具体包括,处理抽象语法树中标识出的节点数据,将源数据表和源数据字段作为节点数据的输入集合,将目标数据表和目标数据字段作为节点数据的输出集合,对节点数据的来源和去向分别进行映射,得到血缘关系分析结果;
上述可视化展示具体包括,绘制数据血缘关系图中数据表和字段节点,并根据血缘关系分析结果,关联数据血缘关系图中的节点并绘制箭头指向连线,将绘制好的数据血缘关系图发送至用户终端进行可视化显示。
本发明还提出基于数据血缘分析的数据追踪系统,包括,
血缘关系表构建模块,用于根据数据开发任务的类型进行血缘关系表的构建,所述数据开发任务的类型具体通过是否为SQL类的数据进行划分;
查询请求获取模块,用于获取用户的查询请求;
根据用户的查询请求,将血缘关系表中的关联数据予以展示。
进一步,所述血缘关系表构建模块具体包括非SQL类的数据开发任务处理子单元以及SQL类的数据开发任务处理子单元,
所述非SQL类的数据开发任务处理子单元,用于当判断为非SQL类的数据开发任务时,扫描运行环境中的同步任务配置信息,根据所述同步任务配置信息中的任务的输入以及输出确定当前任务中相关数据表的血缘关系,并将血缘关系写入血缘关系数据表中以更新血缘关系数据表;
所述SQL类的数据开发任务处理子单元,用于当判断为SQL类的数据开发任务时,将当前任务执行的命令打包写入消息队列,从消息队列中获取数据,利用SQL的AST语法确定当前任务中的相关数据表的读、写属性并进行标记,通过SQL中的数据源信息确定是否已经存在有关相关数据表已建立的存储对象,如果已经存在,则根据SQL语法中的单语句读写关系,确定数据血缘流向,如果不存在,则为相关数据表建立对应的存储对象,再根据SQL语法中的单语句读写关系,确定数据血缘流向,最终根据确定的血缘数据流向更新血缘关系数据表。
本发明还提出一种计算机可读存储的介质,所述计算机可读存储的介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述方法的步骤。
本发明的有益效果为:
本发明提出基于数据血缘分析的数据追踪方法,通过根据是否为SQL类的数据开发任务进行血缘关系表的构建,最终根据血缘关系表按照用户的查询请求;将血缘关系表中的关联数据展示给用户,整个方案系统有效,能够满足企事业单位的数据治理需求。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1所示为本发明基于数据血缘分析的数据追踪方法流程图;
图2所示为本发明基于数据血缘分析的数据追踪方法的血缘关系表的建立流程图。
具体实施方式
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。附图中各处使用的相同的附图标记指示相同或相似的部分。
参照图1以及图2,实施例1,本发明提出基于数据血缘分析的数据追踪方法,包括以下:
根据数据开发任务的类型进行血缘关系表的构建,所述数据开发任务的类型具体通过是否为SQL类的数据进行划分;
获取用户的查询请求;
根据用户的查询请求,将血缘关系表中的关联数据予以展示。
作为本发明的优选实施方式,所述根据数据开发任务的类型进行血缘关系表的构建具体包括以下,
当判断为非SQL类的数据开发任务时,扫描运行环境中的同步任务配置信息,根据所述同步任务配置信息中的任务的输入以及输出确定当前任务中相关数据表的血缘关系,并将血缘关系写入血缘关系数据表中以更新血缘关系数据表;
当判断为SQL类的数据开发任务时,将当前任务执行的命令打包写入消息队列,从消息队列中获取数据,利用SQL的AST语法确定当前任务中的相关数据表的读、写属性并进行标记,通过SQL中的数据源信息确定是否已经存在有关相关数据表已建立的存储对象,如果已经存在,则根据SQL语法中的单语句读写关系,确定数据血缘流向,如果不存在,则为相关数据表建立对应的存储对象,再根据SQL语法中的单语句读写关系,确定数据血缘流向,最终根据确定的血缘数据流向更新血缘关系数据表;
最终根据以上两种数据开发任务的类型所更新的血缘关系数据表,完成血缘关系表的构件。
作为本发明的优选实施方式,上述根据用户的查询请求,将血缘关系表中的关联数据予以展示具体包括以下,
根据用户的查询请求,获取血缘关系表中的关联数据,并对所述关联数据进行数据清洗得到清洗后的数据;
对清洗后的数据进行词法分析,生成抽象语法树,遍历抽象语法树对数据中的语句进行句法解析;
对句法解析后的抽象语法树,根据血缘关系分析结果绘制基于语句的数据血缘关系图,最终进行可视化展示。
作为本发明的优选实施方式,上述数据清洗过程具体包括,获取含有SQL代码的脚本文件,并寻找SQL代码的标志位,利用标志位过滤脚本文件中的无关内容,保留得到规则化的SQL代码语句;
上述词法分析过程具体包括,对规则化的SQL语句进行词法分析,根据语法规则对规则化的 SQL语句进行关键词划分,并对每个关键词进行标签标识,并将每个标识后的SQL语句作为一个节点,生成为一棵抽象语法树,遍历抽象语法树,为每个标签对应的SQL语句赋予句法意义,实现对SQL语句的句法解析;
上述遍历抽象语法树对数据中的语句进行句法解析具体包括,处理抽象语法树中标识出的节点数据,将源数据表和源数据字段作为节点数据的输入集合,将目标数据表和目标数据字段作为节点数据的输出集合,对节点数据的来源和去向分别进行映射,得到血缘关系分析结果;
上述可视化展示具体包括,绘制数据血缘关系图中数据表和字段节点,并根据血缘关系分析结果,关联数据血缘关系图中的节点并绘制箭头指向连线,将绘制好的数据血缘关系图发送至用户终端进行可视化显示。
本发明还提出基于数据血缘分析的数据追踪系统,包括,
血缘关系表构建模块,用于根据数据开发任务的类型进行血缘关系表的构建,所述数据开发任务的类型具体通过是否为SQL类的数据进行划分;
查询请求获取模块,用于获取用户的查询请求;
根据用户的查询请求,将血缘关系表中的关联数据予以展示。
作为本发明的优选实施方式,所述血缘关系表构建模块具体包括非SQL类的数据开发任务处理子单元以及SQL类的数据开发任务处理子单元,
所述非SQL类的数据开发任务处理子单元,用于当判断为非SQL类的数据开发任务时,扫描运行环境中的同步任务配置信息,根据所述同步任务配置信息中的任务的输入以及输出确定当前任务中相关数据表的血缘关系,并将血缘关系写入血缘关系数据表中以更新血缘关系数据表;
所述SQL类的数据开发任务处理子单元,用于当判断为SQL类的数据开发任务时,将当前任务执行的命令打包写入消息队列,从消息队列中获取数据,利用SQL的AST语法确定当前任务中的相关数据表的读、写属性并进行标记,通过SQL中的数据源信息确定是否已经存在有关相关数据表已建立的存储对象,如果已经存在,则根据SQL语法中的单语句读写关系,确定数据血缘流向,如果不存在,则为相关数据表建立对应的存储对象,再根据SQL语法中的单语句读写关系,确定数据血缘流向,最终根据确定的血缘数据流向更新血缘关系数据表。
本发明还提出一种计算机可读存储的介质,所述计算机可读存储的介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述方法的步骤。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例中的方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储的介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释,从而有效地涵盖本发明的预定范围。此外,上文以发明人可预见的实施例对本发明进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。
Claims (7)
1.基于数据血缘分析的数据追踪方法,其特征在于,包括以下:
根据数据开发任务的类型进行血缘关系表的构建,所述数据开发任务的类型具体通过是否为SQL类的数据进行划分;
获取用户的查询请求;
根据用户的查询请求,将血缘关系表中的关联数据予以展示。
2.根据权利要求1所述的基于数据血缘分析的数据追踪方法,其特征在于,所述根据数据开发任务的类型进行血缘关系表的构建具体包括以下,
当判断为非SQL类的数据开发任务时,扫描运行环境中的同步任务配置信息,根据所述同步任务配置信息中的任务的输入以及输出确定当前任务中相关数据表的血缘关系,并将血缘关系写入血缘关系数据表中以更新血缘关系数据表;
当判断为SQL类的数据开发任务时,将当前任务执行的命令打包写入消息队列,从消息队列中获取数据,利用SQL的AST语法确定当前任务中的相关数据表的读、写属性并进行标记,通过SQL中的数据源信息确定是否已经存在有关相关数据表已建立的存储对象,如果已经存在,则根据SQL语法中的单语句读写关系,确定数据血缘流向,如果不存在,则为相关数据表建立对应的存储对象,再根据SQL语法中的单语句读写关系,确定数据血缘流向,最终根据确定的血缘数据流向更新血缘关系数据表;
最终根据以上两种数据开发任务的类型所更新的血缘关系数据表,完成血缘关系表的构件。
3.根据权利要求2所述的基于数据血缘分析的数据追踪方法,其特征在于,上述根据用户的查询请求,将血缘关系表中的关联数据予以展示具体包括以下,
根据用户的查询请求,获取血缘关系表中的关联数据,并对所述关联数据进行数据清洗得到清洗后的数据;
对清洗后的数据进行词法分析,生成抽象语法树,遍历抽象语法树对数据中的语句进行句法解析;
对句法解析后的抽象语法树,根据血缘关系分析结果绘制基于语句的数据血缘关系图,最终进行可视化展示。
4.根据权利要求3所述的基于数据血缘分析的数据追踪方法,其特征在于,
上述数据清洗过程具体包括,获取含有SQL代码的脚本文件,并寻找SQL代码的标志位,利用标志位过滤脚本文件中的无关内容,保留得到规则化的SQL代码语句;
上述词法分析过程具体包括,对规则化的SQL语句进行词法分析,根据语法规则对规则化的 SQL语句进行关键词划分,并对每个关键词进行标签标识,并将每个标识后的SQL语句作为一个节点,生成为一棵抽象语法树,遍历抽象语法树,为每个标签对应的SQL语句赋予句法意义,实现对SQL语句的句法解析;
上述遍历抽象语法树对数据中的语句进行句法解析具体包括,处理抽象语法树中标识出的节点数据,将源数据表和源数据字段作为节点数据的输入集合,将目标数据表和目标数据字段作为节点数据的输出集合,对节点数据的来源和去向分别进行映射,得到血缘关系分析结果;
上述可视化展示具体包括,绘制数据血缘关系图中数据表和字段节点,并根据血缘关系分析结果,关联数据血缘关系图中的节点并绘制箭头指向连线,将绘制好的数据血缘关系图发送至用户终端进行可视化显示。
5.基于数据血缘分析的数据追踪系统,其特征在于,包括,
血缘关系表构建模块,用于根据数据开发任务的类型进行血缘关系表的构建,所述数据开发任务的类型具体通过是否为SQL类的数据进行划分;
查询请求获取模块,用于获取用户的查询请求;
根据用户的查询请求,将血缘关系表中的关联数据予以展示。
6.根据权利要求5所述的基于数据血缘分析的数据追踪系统,其特征在于,所述血缘关系表构建模块具体包括非SQL类的数据开发任务处理子单元以及SQL类的数据开发任务处理子单元,
所述非SQL类的数据开发任务处理子单元,用于当判断为非SQL类的数据开发任务时,扫描运行环境中的同步任务配置信息,根据所述同步任务配置信息中的任务的输入以及输出确定当前任务中相关数据表的血缘关系,并将血缘关系写入血缘关系数据表中以更新血缘关系数据表;
所述SQL类的数据开发任务处理子单元,用于当判断为SQL类的数据开发任务时,将当前任务执行的命令打包写入消息队列,从消息队列中获取数据,利用SQL的AST语法确定当前任务中的相关数据表的读、写属性并进行标记,通过SQL中的数据源信息确定是否已经存在有关相关数据表已建立的存储对象,如果已经存在,则根据SQL语法中的单语句读写关系,确定数据血缘流向,如果不存在,则为相关数据表建立对应的存储对象,再根据SQL语法中的单语句读写关系,确定数据血缘流向,最终根据确定的血缘数据流向更新血缘关系数据表。
7.一种计算机可读存储的介质,所述计算机可读存储的介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110082234.5A CN112818015B (zh) | 2021-01-21 | 2021-01-21 | 基于数据血缘分析的数据追踪方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110082234.5A CN112818015B (zh) | 2021-01-21 | 2021-01-21 | 基于数据血缘分析的数据追踪方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112818015A true CN112818015A (zh) | 2021-05-18 |
CN112818015B CN112818015B (zh) | 2022-07-15 |
Family
ID=75858651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110082234.5A Active CN112818015B (zh) | 2021-01-21 | 2021-01-21 | 基于数据血缘分析的数据追踪方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112818015B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115687309A (zh) * | 2022-12-30 | 2023-02-03 | 浙江大学 | 非侵入式卷烟出入库全流程数据血缘构建方法、装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199978A (zh) * | 2014-09-24 | 2014-12-10 | 普元信息技术股份有限公司 | 基于NoSQL实现元数据缓存与分析的系统及方法 |
WO2015009620A1 (en) * | 2013-07-17 | 2015-01-22 | President And Fellows Of Harvard College | Systems and methods for keyword determination and document classification from unstructured text |
CN105868521A (zh) * | 2015-12-14 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 数据信息处理方法及装置 |
US20190243841A1 (en) * | 2018-02-06 | 2019-08-08 | Thomson Reuters (Professional) UK Ltd. | Systems and method for generating a structured report from unstructured data |
CN111538743A (zh) * | 2020-04-22 | 2020-08-14 | 电子科技大学 | 基于sql的数据血缘关系分析方法以及系统 |
WO2020185988A1 (en) * | 2019-03-14 | 2020-09-17 | Yadong Li | Distributed system generating rule compiler engine apparatuses, methods, systems and media |
CN111694858A (zh) * | 2020-04-28 | 2020-09-22 | 平安科技(深圳)有限公司 | 数据血缘分析方法、装置、设备及计算机可读存储介质 |
CN112035508A (zh) * | 2020-08-27 | 2020-12-04 | 深圳天源迪科信息技术股份有限公司 | 基于sql在线元数据解析的方法及系统、设备 |
-
2021
- 2021-01-21 CN CN202110082234.5A patent/CN112818015B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015009620A1 (en) * | 2013-07-17 | 2015-01-22 | President And Fellows Of Harvard College | Systems and methods for keyword determination and document classification from unstructured text |
CN104199978A (zh) * | 2014-09-24 | 2014-12-10 | 普元信息技术股份有限公司 | 基于NoSQL实现元数据缓存与分析的系统及方法 |
CN105868521A (zh) * | 2015-12-14 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 数据信息处理方法及装置 |
US20190243841A1 (en) * | 2018-02-06 | 2019-08-08 | Thomson Reuters (Professional) UK Ltd. | Systems and method for generating a structured report from unstructured data |
WO2020185988A1 (en) * | 2019-03-14 | 2020-09-17 | Yadong Li | Distributed system generating rule compiler engine apparatuses, methods, systems and media |
CN111538743A (zh) * | 2020-04-22 | 2020-08-14 | 电子科技大学 | 基于sql的数据血缘关系分析方法以及系统 |
CN111694858A (zh) * | 2020-04-28 | 2020-09-22 | 平安科技(深圳)有限公司 | 数据血缘分析方法、装置、设备及计算机可读存储介质 |
CN112035508A (zh) * | 2020-08-27 | 2020-12-04 | 深圳天源迪科信息技术股份有限公司 | 基于sql在线元数据解析的方法及系统、设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115687309A (zh) * | 2022-12-30 | 2023-02-03 | 浙江大学 | 非侵入式卷烟出入库全流程数据血缘构建方法、装置 |
CN115687309B (zh) * | 2022-12-30 | 2023-04-18 | 浙江大学 | 非侵入式卷烟出入库全流程数据血缘构建方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112818015B (zh) | 2022-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110291517B (zh) | 图数据库中的查询语言互操作性 | |
US11334544B2 (en) | Method, apparatus, device and medium for storing and querying data | |
US8914419B2 (en) | Extracting semantic relationships from table structures in electronic documents | |
US20130282765A1 (en) | Optimizing sparse schema-less data in relational stores | |
US20160371275A1 (en) | Automated database schema annotation | |
TW202032386A (zh) | 資料儲存裝置、轉譯裝置及資料庫存取方法 | |
US9218394B2 (en) | Reading rows from memory prior to reading rows from secondary storage | |
CN105373541A (zh) | 数据库的数据操作请求的处理方法和系统 | |
US20150199346A1 (en) | Hierarchical database report generation with automated query generation for placeholders | |
CN109815240A (zh) | 用于管理索引的方法、装置、设备和存储介质 | |
CN111708805A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
CN113468204A (zh) | 一种数据查询方法、装置、设备、介质 | |
CN112818015B (zh) | 基于数据血缘分析的数据追踪方法、系统及存储介质 | |
CN113220710A (zh) | 数据查询方法、装置、电子设备以及存储介质 | |
CN111475534B (zh) | 一种数据查询方法及相关设备 | |
US11354358B1 (en) | Organization and retrieval of conditioned data | |
US11443106B2 (en) | Intelligent normalization and de-normalization of tables for multiple processing scenarios | |
CN113779068B (zh) | 数据查询方法、装置、设备及存储介质 | |
CN114816578A (zh) | 基于配置表的程序配置文件生成方法、装置及设备 | |
CN115495440A (zh) | 异构数据库的数据迁移方法、装置、设备及存储介质 | |
CN110727677B (zh) | 数据仓库内表格的血缘关系追溯的方法和装置 | |
CN109918367B (zh) | 一种结构化数据的清洗方法、装置、电子设备及存储介质 | |
WO2020201882A1 (en) | Extensible data skipping | |
CN111639099A (zh) | 全文索引方法及系统 | |
CN114625757B (zh) | 基于领域特定语言的任务执行方法及装置、介质、设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A data tracking method, system, and storage medium based on data lineage analysis Granted publication date: 20220715 Pledgee: Guangzhou Caold financing Company limited by guarantee Pledgor: Guangzhou Huitong Guoxin Technology Co.,Ltd. Registration number: Y2024980012366 |