CN115904487B - 一种分析型数据口径管理方法、系统、设备及存储介质 - Google Patents
一种分析型数据口径管理方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN115904487B CN115904487B CN202211526173.8A CN202211526173A CN115904487B CN 115904487 B CN115904487 B CN 115904487B CN 202211526173 A CN202211526173 A CN 202211526173A CN 115904487 B CN115904487 B CN 115904487B
- Authority
- CN
- China
- Prior art keywords
- data
- caliber
- script
- analysis
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明提供了一种分析型数据口径管理方法、系统、设备及存储介质,所述方法包括:获取数据分析加工代码,并根据预设的程序开发规约,从数据分析加工代码中提取数据处理逻辑脚本;对数据处理逻辑脚本进行语法解析,得到对应的数据口径加工脚本;对数据口径加工脚本进行关系解析,得到对应的字段口径信息;根据字段口径信息和预设的图论分析工具,构建口径关系网络图。本发明通过集“数据逻辑提取、脚本语法解析、数据关系网络图构建、动态数据口径监测与更新”为一体的自动化数据口径管理方法,实现数据口径的全局性直观存储展示及实时更新,有效解决现有数据口径在管理、设计、存储和表示等方面的应用缺陷,具有较高的应用价值。
Description
技术领域
本发明涉及大数据技术领域,特别是涉及一种分析型数据口径管理方法、系统、计算机设备和存储介质。
背景技术
大数据时代,企业业务的开展越来越重视业务数据中的隐含价值。而现有企业级数据计算与分析(OLAP)场景中,存在着因错综复杂的数据引用关系导致的数据口径设计和表示不清晰、不直观的问题;同时,受到异构复杂环境、管理成本高昂以及系统功能持续迭代等因素的制约,数据口径更是难以实现长期、全面且及时地更新保鲜,进而为业务分析人员或技术开发人员的合理有效使用数据造成诸多困扰。
现有的针对性解决方案除了手工设计管理数据口径外,主要为通过统一的研发过程管理平台把研发过程的代码结构化地存储下来,并随着平台的推广和积累,将大量数据口径沉淀下来应用的“研发过程结构化登记法”;然而,尽管研发过程结构化登记法可一定程度上实现企业级数据口径的存储和维护,但其必须与研发项目同步进行,不能脱离研发过程单独实施,且未实现对数据口径的全面直观展示,以及实时更新保鲜,并不能真正有效满足企业级数据计算与分析的应用需求。
发明内容
本发明的目的是提供一种分析型数据口径管理方法,通过对数据计算与分析应用加工场景的共性抽象,分析提取数据引用关系,并将解析得到的数据口径基于图技术进行全局性地直观存储,且基于数据口径的动态变更及时更新存储展示,有效解决现有数据口径在管理、设计、存储和表示等方面的应用缺陷,实现管理过程的工具化和自动化,提升管理效率,能真正有效满足企业级数据计算与分析的应用需求。
为了实现上述目的,有必要针对上述技术问题,提供了一种分析型数据口径管理方法、系统、计算机设备和存储介质。
第一方面,本发明实施例提供了一种分析型数据口径管理方法,所述方法包括以下步骤:
获取数据分析加工代码,并根据预设的程序开发规约,从所述数据分析加工代码中提取数据处理逻辑脚本;
对所述数据处理逻辑脚本进行语法解析,得到对应的数据口径加工脚本;
对所述数据口径加工脚本进行关系解析,得到对应的字段口径信息;
根据所述字段口径信息和预设的图论分析工具,构建口径关系网络图。
进一步地,所述根据所述字段口径信息和预设的图论分析工具,构建口径关系网络图步骤之后,还包括:
响应于所述数据分析加工代码的动态更新,判断所述动态更新是否满足预设口径更新条件,若满足,则更新所述口径关系网络图。
进一步地,所述数据处理逻辑脚本包括流程控制脚本和数据分析脚本;
所述根据预设的程序开发规约,从所述数据分析加工代码中提取数据处理逻辑脚本的步骤包括:
根据所述数据分析加工代码,得到对应的流程控制脚本类型和数据分析脚本类型;
根据所述流程控制脚本类型和数据分析脚本类型,分别获取对应的程序开发规约;所述程序开发规约包括程序结构、程序注释和特定分隔符;
根据所述程序开发规约,分别对数据分析加工代码进行文本解析,得到对应的流程控制脚本和数据分析脚本。
进一步地,所述对所述数据处理逻辑脚本进行语法解析,得到对应的数据口径加工脚本的步骤包括:
对所述数据处理逻辑脚本进行预处理,得到数据分析核心脚本;所述预处理包括特殊语法处理和非重点脚本处理;
通过预设的正则表达式,对所述数据分析核心脚本进行核心功能代码解析提取,得到所述数据口径加工脚本;所述数据口径加工脚本为包含所述数据分析核心脚本中SQL插入语句的脚本。
进一步地,所述对所述数据口径加工脚本进行关系解析,得到对应的字段口径信息的步骤包括:
通过语法分析工具,对所述数据口径加工脚本中的SQL插入语句进行相应的二维表关系解析和提取,得到对应的字段口径信息;所述语法分析工具包括SQL语法分析工具和类SQL语法分析工具。
进一步地,所述字段口径信息包括数据表、字段口径、表关系和注解;
根据所述字段口径信息和预设的图论分析工具,构建口径关系网络图的步骤包括:
将数据表、表关系、字段口径和注解分别作为图数据结构中的节点、边、属性和对应的属性扩展元素,并基于所述图论分析工具进行存储,得到所述口径关系网络图。
第二方面,本发明实施例提供了一种分析型数据口径管理系统,所述系统包括:
逻辑提取模块,用于获取数据分析加工代码,并根据预设的程序开发规约,从所述数据分析加工代码中提取数据处理逻辑脚本;
语法解析模块,用于对所述数据处理逻辑脚本进行语法解析,得到对应的数据口径加工脚本;
关系解析模块,用于对所述数据口径加工脚本进行关系解析,得到对应的字段口径信息;
关系图构建模块,用于根据所述字段口径信息和预设的图论分析工具,构建口径关系网络图。
进一步地,所述系统还包括:
关系图更新模块,用于响应于所述数据分析加工代码的动态更新,判断所述动态更新是否满足预设口径更新条件,若满足,则更新所述口径关系网络图。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
上述本申请提供了一种分析型数据口径管理方法、系统、计算机设备及存储介质,通过所述方法,实现了获取数据分析加工代码,并根据预设的程序开发规约从数据分析加工代码中提取数据处理逻辑脚本,再对数据处理逻辑脚本进行语法解析得到对应的数据口径加工脚本,并对数据口径加工脚本进行关系解析得到对应的字段口径信息,以及根据字段口径信息和预设的图论分析工具,构建口径关系网络图的技术方案。与现有技术相比,该分析型数据口径管理方法,通过集“数据逻辑提取、脚本语法解析、数据关系网络图构建、动态数据口径监测与更新”为一体的自动化数据口径管理,实现数据口径的全局性直观存储展示及实时更新,有效解决现有数据口径在管理、设计、存储和表示等方面的应用缺陷,不仅实现了数据口径管理过程的工具化和自动化,而且极大提升了数据口径的管理效率,能真正有效满足企业级数据计算与分析的应用需求,具有较高的应用价值。
附图说明
图1是本发明实施例中分析型数据口径管理方法的应用框架示意图;
图2是本发明实施例中分析型数据口径管理方法的流程示意图;
图3是本发明实施例中口径关系网络图的展示示意图;
图4是图3中某个节点进行钻取分析的展示示意图;
图5是本发明实施例中分析型数据口径管理方法的另一流程示意图;
图6是本发明实施例中分析型数据口径管理系统的结构示意图;
图7是本发明实施例中分析型数据口径管理系统的另一结构示意图;
图8是本发明实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案和有益效果更加清楚明白,下面结合附图及实施例,对本发明作进一步详细说明,显然,以下所描述的实施例是本发明实施例的一部分,仅用于说明本发明,但不用来限制本发明的范围。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的分析型数据口径管理方法是基于对数据计算与应用加工场景的共性抽象,将源数据和中间数据等对应的多种应用场景定义为数据计算与引用,把包括关系数据库和分布式大数据技术在内的不同技术平台的功能定义为语法解析,通过分析和提取数据引用关系,把数据口径解析为节点、关系、属性等要素,再基于图技术实现分析型数据口径的存储与展示的自动化管理方法,具体应用框架如图1所示,且支持数据口径的灵活存储、查询和更新;下述实施例将对本发明的分析型数据口径管理方法进行详细说明。
在一个实施例中,如图2所示,提供了一种分析型数据口径管理方法,包括以下步骤:
S11、获取数据分析加工代码,并根据预设的程序开发规约,从所述数据分析加工代码中提取数据处理逻辑脚本;其中,数据分析加工代码可理解为不同技术平台上用于数据计算与分析的程序代码;程序开发规约可理解为程序代码在开发过程中所遵守的通用规约,如“注释//、--”、分隔符“EOF”等等,且不同的脚本语言可能会有不同的开发规约,在实际应用中可按照对应的程序开发规约确定对应的处理逻辑脚本提取规则;
本实施例基于包括关系数据库和分布式大数据平台在内的不同技术平台数据分析工具的数据计算主要采用PL/SQL(过程化SQL语言)、存储过程或近似SQL的数据库处理语言实现,以及对应的数据处理统一采用SQL/类SQL语言实现的现状,以数据分析加工代码的结构为依据,结合对应的程序开发规范提取的不同技术平台的数据分析加工代码中的流程控制和数据分析对应的功能代码;对应的,所述数据处理逻辑脚本包括流程控制脚本和数据分析脚本;
具体地,所述根据预设的程序开发规约,从所述数据分析加工代码中提取数据处理逻辑脚本的步骤包括:
根据所述数据分析加工代码,得到对应的流程控制脚本类型和数据分析脚本类型;其中,流程控制脚本类型分包括perl脚本和shell脚本等;数据分析脚本类型包括PL/SQL脚本和HSQL脚本等;不同的脚本类型,对应着不同的基本结构,比如:perl程序在PL/SQL逻辑控制中的基本结构主要由“声明、变量、子程序嵌套、注解”构成,具体如下:
SQL存储过程的基本结构主要由“过程名、变量、注解”构成,具体如下:
根据所述流程控制脚本类型和数据分析脚本类型,分别获取对应的程序开发规约;所述程序开发规约包括程序结构、程序注释和特定分隔符;其中,流程控制脚本类型和数据分析脚本类型确定后,对应的要解析的程序结构就是相对固定的,对应可选用的程序开发规约也可以理解为也相对确定了;
根据所述程序开发规约,分别对数据分析加工代码进行文本解析,得到对应的流程控制脚本和数据分析脚本;其中,文本解析可以理解为将上述数据分析加工代码以文本的形式输入预先根据各个脚本类型对应的程序开发规约设置的逻辑提取程序,得到所需的流程控制脚本和数据分析脚本;需要说明的是,上述逻辑提取程序可理解为将整个数据分析加工代码作为字符串输入变量,根据程序开发规约设定提取规则的文本处理程序,具体实现方法,此处不作限制。
S12、对所述数据处理逻辑脚本进行语法解析,得到对应的数据口径加工脚本;其中,数据处理逻辑脚本如上所述可理解为经过提取得到PL/SQL段,需要进一步对其进行相应的语法解析,得到涉及数据口径的核心逻辑文本;具体的,所述对所述数据处理逻辑脚本进行语法解析,得到对应的数据口径加工脚本的步骤包括:
对所述数据处理逻辑脚本进行预处理,得到数据分析核心脚本;所述预处理包括特殊语法处理和非重点脚本处理;其中,特殊语法处理可理解为对数据处理逻辑脚本中动态SQL语句的处理,非重点脚本处理可理解为对数据处理逻辑脚本中非SQL插入结构语句的处理,目的是为了将数据加工路径无关的脚本代码剔除,得到干净且完整的数据分析核心脚本,便于实现后续的字段口径信息提取;
通过预设的正则表达式,对所述数据分析核心脚本进行核心功能代码解析提取,得到所述数据口径加工脚本;所述数据口径加工脚本为包含所述数据分析核心脚本中SQL插入语句的脚本的整体框架结构且去除具体内容的脚本,即由大量“insert…select…”结构的SQL插入语句通过多层相似的计算过程形成的脚本;其中,正则表达式根据可根据实际应用需求设置,并结合自定义程序进行语法解析,得到构成数据口径加工的核心脚本,如,PL/SQL结构提取得到如下结果:
需要说明的是,数据处理逻辑脚本可能会存在一些也包含“insert…select…”结构的特殊动态SQL语句,在进行上述预处理时需要进行对如下所示的特殊动态SQL语句进行识别,并采用对应的正则表达式进行提取,进而保证数据口径加工脚本提取的全面性。
S13、对所述数据口径加工脚本进行关系解析,得到对应的字段口径信息;其中,字段口径信息可理解为基于语法分析工具从数据口径加工脚本解析得到的创建数据口径关系网络图所需的元素信息;具体的,所述对所述数据口径加工脚本进行关系解析,得到对应的字段口径信息的步骤包括:
通过语法分析工具,对所述数据口径加工脚本中的SQL插入语句进行相应的二维表关系解析和提取,得到对应的字段口径信息;所述语法分析工具包括SQL语法分析工具和类SQL语法分析工具;其中,数据口径加工脚本中的SQL插入语句“insert…select”就是脚本代码中的二维表代码逻辑,表示将满足select条件的一个或多个输入对象插入到insert对象,并将完成插入动作后的insert对象作为输出,即建立了输入对象与输出对象之间的链接关系,此二维表关系承载了表属性及表属性之间的关系,也是能够表示字段口径的最合适粒度;
上述语法分析工具可理解为可提供关系解析提取的API接口的SQL语法分析工具或类SQL语法分析工具,比如,druid、calcite和sqlparser等,可便于实现口径分析的同时,还可以使用中文文本、伪码和注解等易于理解的方式辅助描述字段口径;基于该语法分析工具可以准确分析出数据口径加工脚本中的数据表、表属性、表关系和注解等元素,便于进行下述关系图的存储展示,构建得到直观的、立体的数据关系;下面以SQL语法分析工具中的druid应用为例对数据口径加工脚本的解析进行示例性说明:
基于上述示例给出的包括表关系和表字段的输出,即实现了完整解析出“insert……select……”的每个对象及关系,结合字段每一个子句对应的逻辑形成了每个字段的准确口径信息,再如,下述数据口径加工脚本经过关系解析,可得到对应的“字段1的口径”:
对应的字段1的口径为:
本实施例通过语法分析工具可准确的解析出对应脚本的数据表、表属性和表关系等,进而得到字段和对应的逻辑形成每个字段的口径,为下述图形化构建创造了必要条件。
S14、根据所述字段口径信息和预设的图论分析工具,构建口径关系网络图;其中,所述字段口径信息包括数据表、字段口径、表关系和注解;图论分析工具可理解为将字段口径信息以关系网络图的形式存储和展示的工具,如Neo4J等,具体工具的选取可根据实际应用需求设定,此处不作具体限制;
具体的,所述根据所述字段口径信息和预设的图论分析工具,构建口径关系网络图的步骤包括:
将数据表、表关系、字段口径和注解分别作为图数据结构中的节点、边、属性和对应的属性扩展元素,并基于所述图论分析工具进行存储,得到所述口径关系网络图;其中,口径关系网络图基于图论分析工具的支持,可实现数据口径向上、向下进行多层关系的钻取分析,不仅提升了分析高效,而且基于分析工具提供的API也可以进行多角度的口径查询和应用,为数据分析者提供了极大的便利。基于下述字段1的口径即下文的“case段逻辑部分”的图论分析为:把“表1”作为“图”的节点,则“表2”、“表3”到“表1”形成了“图”中的边,即反映的是“表1”依赖于“表2”、“表3”的依赖关系,而“表1”的属性即每个字段对应的计算逻辑(计算口径);将经过图论分析得到的每个字段的口径分析结果通过图工具展示即可得到,如图3所示的所需口径关系网络图,若要需要基于图中的某个节点进行钻取分析,则双击可以查看对应节点的更多关系,得到如图4所示的展示结果。
通过上述步骤即可实现初始数据口径关系网络图的构建,且该口径关系网络图可根据需求重复更新构建,为了以满足数据口径的保鲜需求,本实施例优选地,根据数据计算分析代码的变动,自动更新关联的口径关系网络图;即,如图5所示,所述根据所述字段口径信息和预设的图论分析工具,构建口径关系网络图步骤S14之后,还包括:
S15、响应于所述数据分析加工代码的动态更新,判断所述动态更新是否满足预设口径更新条件,若满足,则更新所述口径关系网络图;其中,预设口径更新条件可根据实际应用需求确定,本实施例优选地,设置为包括SQL插入语句的变更,即若仅监测到构建口径关系网络相关的数据分析加工代码的动态更新但更新的内容不涉及“insert……select……”SQL插入语句结构内容的变更,则不需要对之前构建的口径关系网络图进行更新,反之,即使存在一个SQL插入语句结构内容的变更也需要对现有的口径关系网络图进行同步自动化更新,以保证数据口径的实时性和有效性,进而保证数据口径的应用效果。
本申请实施例通过获取数据分析加工代码,并根据预设的程序开发规约从数据分析加工代码中提取数据处理逻辑脚本,再对数据处理逻辑脚本进行语法解析得到对应的数据口径加工脚本,并对数据口径加工脚本进行关系解析得到对应的字段口径信息,以及根据字段口径信息和预设的图论分析工具,构建口径关系网络图,以及实时监测数据口径的动态更新,及时自动更新口径关系网络图的方法,集“数据逻辑提取、脚本语法解析、数据关系网络图构建、动态数据口径监测与更新”为一体对数据口径进行自动化管理,实现数据口径的全局性直观存储展示及实时更新,有效解决现有数据口径在管理、设计、存储和表示等方面的应用缺陷,不仅实现了数据口径管理过程的工具化和自动化,而且极大提升了数据口径的管理效率,还可实现数据口径向上、向下进行多层关系的钻取分析,提升分析高效,且支持多角度的口径查询和应用,为数据分析者提供了极大的便利,能真正有效满足企业级数据计算与分析的应用需求,具有较高的应用价值。
在一个实施例中,如图6所示,提供了一种分析型数据口径管理系统,所述系统包括:
逻辑提取模块1,用于获取数据分析加工代码,并根据预设的程序开发规约,从所述数据分析加工代码中提取数据处理逻辑脚本;
语法解析模块2,用于对所述数据处理逻辑脚本进行语法解析,得到对应的数据口径加工脚本;
关系解析模块3,用于对所述数据口径加工脚本进行关系解析,得到对应的字段口径信息;
关系图构建模块4,用于根据所述字段口径信息和预设的图论分析工具,构建口径关系网络图。
在一个实施例中,如图7所示,所述系统还包括:
关系图更新模块5,用于响应于所述数据分析加工代码的动态更新,判断所述动态更新是否满足预设口径更新条件,若满足,则更新所述口径关系网络图。
关于一种分析型数据口径管理系统的具体限定可以参见上文中对于一种分析型数据口径管理方法的限定,在此不再赘述。上述一种分析型数据口径管理系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图8示出一个实施例中计算机设备的内部结构图,该计算机设备具体可以是终端或服务器。如图8所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示器和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种分析型数据口径管理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域普通技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
综上,本发明实施例提供的一种分析型数据口径管理方法、系统、计算机设备及存储介质,其分析型数据口径管理方法实现了获取数据分析加工代码,并根据预设的程序开发规约从数据分析加工代码中提取数据处理逻辑脚本,再对数据处理逻辑脚本进行语法解析得到对应的数据口径加工脚本,并对数据口径加工脚本进行关系解析得到对应的字段口径信息,以及根据字段口径信息和预设的图论分析工具,构建口径关系网络图,以及实时监测数据口径的动态更新,及时自动更新口径关系网络图的技术方案,该方法通过集“数据逻辑提取、脚本语法解析、数据关系网络图构建、动态数据口径监测与更新”为一体的自动化数据口径管理,实现数据口径的全局性直观存储展示及实时更新,有效解决现有数据口径在管理、设计、存储和表示等方面的应用缺陷,不仅实现了数据口径管理过程的工具化和自动化,而且极大提升了数据口径的管理效率,还可实现数据口径向上、向下进行多层关系的钻取分析,提升分析高效,且支持多角度的口径查询和应用,为数据分析者提供了极大的便利,能真正有效满足企业级数据计算与分析的应用需求,具有较高的应用价值。
本说明书中的各个实施例均采用递进的方式描述,各个实施例直接相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。需要说明的是,上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。
Claims (8)
1.一种分析型数据口径管理方法,其特征在于,所述方法包括以下步骤:
获取数据分析加工代码,并根据预设的程序开发规约,从所述数据分析加工代码中提取数据处理逻辑脚本;所述数据分析加工代码为不同技术平台上用于数据计算与分析的程序代码;所述数据处理逻辑脚本包括流程控制脚本和数据分析脚本;
对所述数据处理逻辑脚本进行语法解析,得到对应的数据口径加工脚本;
对所述数据口径加工脚本进行关系解析,得到对应的字段口径信息;所述字段口径信息包括数据表、字段口径、表关系和注解;
根据所述字段口径信息和预设的图论分析工具,构建口径关系网络图;
其中,所述根据预设的程序开发规约,从所述数据分析加工代码中提取数据处理逻辑脚本的步骤包括:
根据所述数据分析加工代码,得到对应的流程控制脚本类型和数据分析脚本类型;
根据所述流程控制脚本类型和数据分析脚本类型,分别获取对应的程序开发规约;所述程序开发规约包括程序结构、程序注释和分隔符;
根据所述程序开发规约,分别对数据分析加工代码进行文本解析,得到对应的流程控制脚本和数据分析脚本;
所述对所述数据处理逻辑脚本进行语法解析,得到对应的数据口径加工脚本的步骤包括:
对所述数据处理逻辑脚本进行预处理,得到数据分析核心脚本;所述预处理包括特殊语法处理和非重点脚本处理;所述特殊语法处理为对数据处理逻辑脚本中动态SQL语句的处理;所述非重点脚本处理为对数据处理逻辑脚本中非SQL插入结构语句的处理;
通过预设的正则表达式,对所述数据分析核心脚本进行核心功能代码解析提取,得到所述数据口径加工脚本;所述数据口径加工脚本为包含所述数据分析核心脚本中SQL插入语句的脚本。
2.如权利要求1所述的分析型数据口径管理方法,其特征在于,所述根据所述字段口径信息和预设的图论分析工具,构建口径关系网络图步骤之后,还包括:
响应于所述数据分析加工代码的动态更新,判断所述动态更新是否满足预设口径更新条件,若满足,则更新所述口径关系网络图。
3.如权利要求1所述的分析型数据口径管理方法,其特征在于,所述对所述数据口径加工脚本进行关系解析,得到对应的字段口径信息的步骤包括:
通过语法分析工具,对所述数据口径加工脚本中的SQL插入语句进行相应的二维表关系解析和提取,得到对应的字段口径信息;所述语法分析工具包括SQL语法分析工具和类SQL语法分析工具。
4.如权利要求1所述的分析型数据口径管理方法,其特征在于,
根据所述字段口径信息和预设的图论分析工具,构建口径关系网络图的步骤包括:
将数据表、表关系、字段口径和注解分别作为图数据结构中的节点、边、属性和对应的属性扩展元素,并基于所述图论分析工具进行存储,得到所述口径关系网络图。
5.一种分析型数据口径管理系统,其特征在于,所述系统包括:
逻辑提取模块,用于获取数据分析加工代码,并根据预设的程序开发规约,从所述数据分析加工代码中提取数据处理逻辑脚本;所述数据分析加工代码为不同技术平台上用于数据计算与分析的程序代码;所述数据处理逻辑脚本包括流程控制脚本和数据分析脚本;
语法解析模块,用于对所述数据处理逻辑脚本进行语法解析,得到对应的数据口径加工脚本;
关系解析模块,用于对所述数据口径加工脚本进行关系解析,得到对应的字段口径信息;所述字段口径信息包括数据表、字段口径、表关系和注解;
关系图构建模块,用于根据所述字段口径信息和预设的图论分析工具,构建口径关系网络图;
其中,所述根据预设的程序开发规约,从所述数据分析加工代码中提取数据处理逻辑脚本,包括:
根据所述数据分析加工代码,得到对应的流程控制脚本类型和数据分析脚本类型;
根据所述流程控制脚本类型和数据分析脚本类型,分别获取对应的程序开发规约;所述程序开发规约包括程序结构、程序注释和分隔符;
根据所述程序开发规约,分别对数据分析加工代码进行文本解析,得到对应的流程控制脚本和数据分析脚本;
所述对所述数据处理逻辑脚本进行语法解析,得到对应的数据口径加工脚本,包括:
对所述数据处理逻辑脚本进行预处理,得到数据分析核心脚本;所述预处理包括特殊语法处理和非重点脚本处理;所述特殊语法处理为对数据处理逻辑脚本中动态SQL语句的处理;所述非重点脚本处理为对数据处理逻辑脚本中非SQL插入结构语句的处理;
通过预设的正则表达式,对所述数据分析核心脚本进行核心功能代码解析提取,得到所述数据口径加工脚本;所述数据口径加工脚本为包含所述数据分析核心脚本中SQL插入语句的脚本。
6.如权利要求5所述的分析型数据口径管理系统,其特征在于,所述系统还包括:
关系图更新模块,用于响应于所述数据分析加工代码的动态更新,判断所述动态更新是否满足预设口径更新条件,若满足,则更新所述口径关系网络图。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211526173.8A CN115904487B (zh) | 2022-11-29 | 2022-11-29 | 一种分析型数据口径管理方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211526173.8A CN115904487B (zh) | 2022-11-29 | 2022-11-29 | 一种分析型数据口径管理方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115904487A CN115904487A (zh) | 2023-04-04 |
CN115904487B true CN115904487B (zh) | 2023-08-18 |
Family
ID=86493479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211526173.8A Active CN115904487B (zh) | 2022-11-29 | 2022-11-29 | 一种分析型数据口径管理方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115904487B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8812482B1 (en) * | 2009-10-16 | 2014-08-19 | Vikas Kapoor | Apparatuses, methods and systems for a data translator |
CN104423953A (zh) * | 2013-09-04 | 2015-03-18 | 中国石油天然气股份有限公司 | 一种scada系统定时数据处理脚本执行系统及方法 |
CN109800258A (zh) * | 2018-12-10 | 2019-05-24 | 平安科技(深圳)有限公司 | 数据文件部署方法、装置、计算机设备及存储介质 |
CN110232056A (zh) * | 2019-05-21 | 2019-09-13 | 苏宁云计算有限公司 | 一种结构化查询语言的血缘解析方法及其工具 |
CN111597243A (zh) * | 2020-05-15 | 2020-08-28 | 中国工商银行股份有限公司 | 基于数据仓库抽象数据加载的方法及系统 |
EP3929761A1 (en) * | 2020-06-24 | 2021-12-29 | Nokia Solutions and Networks Oy | A graph database management system |
CN115062016A (zh) * | 2022-06-14 | 2022-09-16 | 中国工商银行股份有限公司 | 关联关系提取方法、装置和计算机设备 |
CN115328894A (zh) * | 2022-06-23 | 2022-11-11 | 中兴智慧(北京)技术有限公司 | 基于数据血缘的数据处理方法 |
-
2022
- 2022-11-29 CN CN202211526173.8A patent/CN115904487B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8812482B1 (en) * | 2009-10-16 | 2014-08-19 | Vikas Kapoor | Apparatuses, methods and systems for a data translator |
CN104423953A (zh) * | 2013-09-04 | 2015-03-18 | 中国石油天然气股份有限公司 | 一种scada系统定时数据处理脚本执行系统及方法 |
CN109800258A (zh) * | 2018-12-10 | 2019-05-24 | 平安科技(深圳)有限公司 | 数据文件部署方法、装置、计算机设备及存储介质 |
CN110232056A (zh) * | 2019-05-21 | 2019-09-13 | 苏宁云计算有限公司 | 一种结构化查询语言的血缘解析方法及其工具 |
CN111597243A (zh) * | 2020-05-15 | 2020-08-28 | 中国工商银行股份有限公司 | 基于数据仓库抽象数据加载的方法及系统 |
EP3929761A1 (en) * | 2020-06-24 | 2021-12-29 | Nokia Solutions and Networks Oy | A graph database management system |
CN115062016A (zh) * | 2022-06-14 | 2022-09-16 | 中国工商银行股份有限公司 | 关联关系提取方法、装置和计算机设备 |
CN115328894A (zh) * | 2022-06-23 | 2022-11-11 | 中兴智慧(北京)技术有限公司 | 基于数据血缘的数据处理方法 |
Non-Patent Citations (1)
Title |
---|
基于网络流量特征的溯源算法研究;陈欣;《中国优秀硕士学位论文全文数据库 信息科技辑》;I139-222 * |
Also Published As
Publication number | Publication date |
---|---|
CN115904487A (zh) | 2023-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220253298A1 (en) | Systems and methods for transformation of reporting schema | |
US10162611B2 (en) | Method and apparatus for business rule extraction | |
US8595236B2 (en) | Searching existing user interfaces to enable design, development and provisioning of user interfaces | |
US7505991B2 (en) | Semantic model development and deployment | |
US20090019064A1 (en) | Document processing device and document processing method | |
US20120278353A1 (en) | Searching with topic maps of a model for canonical model based integration | |
CN109947791B (zh) | 一种数据库语句优化方法、装置、设备及存储介质 | |
US9037552B2 (en) | Methods for analyzing a database and devices thereof | |
Souza et al. | Keeping track of user steering actions in dynamic workflows | |
CN115202626A (zh) | 一种支持多技术栈组件的低代码前端开发方法 | |
CN115438740A (zh) | 一种多源数据的汇聚融合方法和系统 | |
Pérez‐Castillo et al. | ArchiRev—Reverse engineering of information systems toward ArchiMate models. An industrial case study | |
Wang et al. | SQLflow: a bridge between SQL and machine learning | |
CN113962597A (zh) | 一种数据分析方法、装置、电子设备及存储介质 | |
CN108932225B (zh) | 用于将自然语言需求转换成为语义建模语言语句的方法和系统 | |
CN113326261B (zh) | 数据血缘关系提取方法、装置及电子设备 | |
US20130191357A1 (en) | Managing multiple versions of enterprise meta-models using semantic based indexing | |
Knap | Towards Odalic, a Semantic Table Interpretation Tool in the ADEQUATe Project. | |
Pan et al. | Class structure refactoring of object-oriented softwares using community detection in dependency networks | |
CN113238739A (zh) | 一种插件开发和数据获取方法、装置、电子设备及介质 | |
CN115904487B (zh) | 一种分析型数据口径管理方法、系统、设备及存储介质 | |
US20110131552A1 (en) | Augmenting visualization of a call stack | |
Basciani et al. | Exploring model repositories by means of megamodel-aware search operators. | |
Zheng et al. | Xscan: an integrated tool for understanding open source community-based scientific code | |
Rahman et al. | Leam: An interactive system for in-situ visual text analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |