CN113010616A - 数据处理方法和数据处理系统 - Google Patents

数据处理方法和数据处理系统 Download PDF

Info

Publication number
CN113010616A
CN113010616A CN202110455987.6A CN202110455987A CN113010616A CN 113010616 A CN113010616 A CN 113010616A CN 202110455987 A CN202110455987 A CN 202110455987A CN 113010616 A CN113010616 A CN 113010616A
Authority
CN
China
Prior art keywords
information
node
data processing
application system
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110455987.6A
Other languages
English (en)
Inventor
林昕光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202110455987.6A priority Critical patent/CN113010616A/zh
Publication of CN113010616A publication Critical patent/CN113010616A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法和数据处理系统,数据处理系统包括数据平台和与数据平台通信连接的应用系统,数据处理方法包括:获取应用系统的元数据表,元数据表包括应用元数据信息;根据应用元数据信息、数据平台中存储的元数据信息和执行日志,获取多个节点信息和对应多个节点信息的多个属性信息;根据数据平台和应用系统获取节点关系信息,节点关系信息用于表示多个节点信息之间的映射关系;根据多个节点信息、多个属性信息和节点关系信息,建立图数据库。上述数据处理方法,可通过图数据库将数据平台和应用系统中的节点信息和与其相关的其它任一节点信息建立联系,从而可直接查询到所有相关的其它节点信息和属性信息。

Description

数据处理方法和数据处理系统
技术领域
本发明涉及数据库技术领域,特别涉及一种数据处理方法和数据处理系统。
背景技术
传统的血缘存储方式为父/子关系两列的二维结构,这种结构难以遍历整个链路,往往需要使用递归算法,扫描效率低且容易具有内存溢出、不可控、写法复杂的问题。而且,对于业务系统、数据平台、报表平台等,其各自有一套存储元数据的系统,彼此之间相互割裂,在其中一个出现故障的情况下,就需要进行手工梳理,容易导致工作量大、更新不及时、容易疏漏等问题,且无法直观表现其它系统或平台受到的影响。
发明内容
本发明的实施方式提供了一种数据处理方法和数据处理系统。
本发明实施方式提供一种数据处理方法,用于数据处理系统,所述数据处理系统包括数据平台和与所述数据平台通信连接的应用系统,所述数据处理方法包括:获取所述应用系统的元数据表,所述元数据表包括应用元数据信息;根据所述应用元数据信息、所述数据平台中存储的元数据信息和执行日志,获取多个节点信息和对应所述多个节点信息的多个属性信息;根据所述数据平台和所述应用系统获取节点关系信息,所述节点关系信息用于表示多个所述节点信息之间的映射关系;根据所述多个节点信息、所述多个属性信息和所述节点关系信息,建立图数据库。
上述数据处理方法中,在建立图数据库的情况下,可将数据平台和应用系统中的节点信息和与其相关的其它任一节点信息建立联系,从而可使得图数据库根据确定的节点信息直接查询到所有相关的其它节点信息和属性信息,查询速度快,且能够确保不会遗漏信息。
在某些实施方式中,获取所述应用系统的元数据表,包括:以预设周期将所述应用系统的元数据表同步至所述数据平台。
在某些实施方式中,所述应用系统包括报表和数据集,所述数据集用于表示多个所述应用元数据信息之间的映射关系,所述节点关系信息包括第一节点链路信息,根据所述数据平台和所述应用系统获取节点关系信息,包括:所述应用系统根据所述报表和所述数据集,生成报表面板;所述应用系统根据所述报表面板和所述报表,生成包含关系;所述应用系统根据所述数据集获取输入表,根据所述输入表和所述报表面板生成应用节点关系;所述应用系统根据所述包含关系和所述应用节点关系,生成所述第一节点链路信息。
在某些实施方式中,所述节点关系信息包括第二节点链路信息,根据所述数据平台和所述应用系统获取节点关系信息,包括:所述数据平台根据所述执行日志获取映射列表,根据所述映射列表生成所述第二节点链路信息。
在某些实施方式中,所述节点信息包括表节点和对应的日期信息,所述数据平台根据所述执行日志获取映射列表,根据所述映射列表生成所述第二节点链路信息,包括:在检测到所述表节点被更新的情况下,将对应的所述日期信息更新为所述表节点更新时的日期。
在某些实施方式中,所述数据平台根据所述执行日志获取映射列表,根据所述映射列表生成所述第二节点链路信息,包括:对所述执行日志进行语句解析,得到待处理语句;在检测到所述待处理语句中的关键词的情况下,根据所述关键词对所述待处理语句进行处理,得到所述映射列表。
在某些实施方式中,所述节点关系信息包括第三节点链路信息,根据所述数据平台和所述应用系统获取节点关系信息,包括:所述数据平台通过同步任务将所述第二节点链路信息传输至所述应用系统;所述应用系统根据所述第一节点链路信息和所述第二节点链路信息,生成所述第三节点链路信息。
在某些实施方式中,根据所述多个节点信息、所述多个属性信息和所述节点关系信息,建立图数据库,包括:根据多个所述节点信息、多个所述属性信息和所述第三节点链路信息,建立所述图数据库。
在某些实施方式中,所述数据处理方法包括:在所述应用系统确认第一查询节点信息的情况下,根据所述图数据库和所述第一查询节点信息,获取第一目标查询结果,或在所述数据平台确认第二查询节点信息的情况下,根据所述图数据库和所述第二查询节点信息,获取第二目标查询结果。
本发明实施方式提供的一种数据处理系统,所述数据处理系统包括数据平台和与所述数据平台通信连接的应用系统,所述数据处理系统用于:获取所述应用系统的元数据表,所述元数据表包括应用元数据信息;及用于根据所述应用元数据信息、所述数据平台中存储的元数据信息和执行日志,获取多个节点信息和对应所述多个节点信息的多个属性信息;及用于根据所述数据平台和所述应用系统获取节点关系信息,所述节点关系信息用于表示多个所述节点信息之间的映射关系;及用于根据所述多个节点信息、所述多个属性信息和所述节点关系信息,建立图数据库。
上述数据处理系统中,在建立图数据库的情况下,可将数据平台和应用系统中的节点信息和与其相关的其它任一节点信息建立联系,从而可使得图数据库根据确定的节点信息直接查询到所有相关的其它节点信息和属性信息,查询速度快,且能够确保不会遗漏信息。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本发明实施方式的数据处理方法的流程示意图;
图2是本发明实施方式的数据处理系统的模块示意图;
图3是本发明实施方式的数据处理方法的另一流程示意图;
图4是本发明实施方式的数据平台的部分模块示意图;
图5是本发明实施方式的第一节点链路信息的逻辑关系图;
图6是本发明实施方式的映射列表的逻辑关系图;
图7是本发明实施方式的第二节点链路信息的逻辑关系图;
图8是本发明实施方式的第二节点链路信息的另一逻辑关系图;
图9是本发明实施方式的数据处理方法的又一流程示意图;
图10是本发明实施方式的生成第二节点链路信息的流程示意图;
图11是本发明实施方式的数据处理方法的再一流程示意图;
图12是本发明实施方式的第三节点链路信息的逻辑关系图;
图13是本发明实施方式的第一目标查询结果的示意图;
图14是本发明实施方式的第二目标查询结果的示意图;
图15是本发明实施方式的第二目标查询结果的另一示意图;
图16是本发明实施方式的第二目标查询结果的又一示意图。
主要元件符号说明:
数据处理系统100、数据平台200、应用系统300;
报表310、数据集330、报表面板350。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接。可以是机械连接,也可以是电连接。可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明的公开提供了许多不同的实施方式或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。此外,本发明可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。此外,本发明提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以意识到其他工艺的应用和/或其他材料的使用。
请参考图1和图2,本发明实施方式提供一种数据处理方法,用于数据处理系统100。数据处理系统100包括数据平台200和与数据平台200通信连接的应用系统300。数据处理方法包括:
01:获取应用系统300的元数据表,元数据表包括应用元数据信息;
02:根据应用元数据信息、数据平台200中存储的元数据信息和执行日志,获取多个节点信息和对应多个节点信息的多个属性信息;
03:根据数据平台200和应用系统300获取节点关系信息,节点关系信息用于表示多个节点信息之间的映射关系;
04:根据多个节点信息、多个属性信息和节点关系信息,建立图数据库。
本发明的数据处理方法可通过本发明的数据处理系统100来实现。具体地,请结合图2,数据处理系统100包括数据平台200和与数据平台200通信连接的应用系统300。数据处理系统100用于获取应用系统300的元数据表,元数据表包括应用元数据信息;及用于根据应用元数据信息、数据平台200中存储的元数据信息和执行日志,获取多个节点信息和对应多个节点信息的多个属性信息;及用于根据数据平台200和应用系统300获取节点关系信息,节点关系信息用于表示多个节点信息之间的映射关系;及用于根据多个节点信息、多个属性信息和节点关系信息,建立图数据库。
上述数据处理方法中,在建立图数据库的情况下,可将数据平台200和应用系统300中的节点信息和与其相关的其它任一节点信息建立联系,从而可使得图数据库根据确定的节点信息直接查询到所有相关的其它节点信息和属性信息,查询速度快,且能够确保不会遗漏信息。
具体地,应用元数据信息可以包括存储在应用系统300的数据信息,通过获取应用系统300的元数据表,可以相应地获取到元数据表中记录的应用系统300的数据信息,从而可在数据平台200对应用系统300的应用元数据信息进行查询。在一些实施方式中,应用系统300可以为业务系统、车辆管理系统、客服系统,应用元数据信息可以为业务信息、车辆参数信息、客服沟通记录信息。
另外,在图2所示的实施方式中,应用系统300可以将数据信息(如元数据表)传输至数据平台200,数据平台200可以将数据信息(如节点关系信息)传输至应用系统300,从而可实现数据处理系统100内的数据同步。在其他的实施方式中,应用系统300的数量还可以为多个,其中一部分的应用系统300可以仅将元数据表上传给数据平台200(即数据平台200与上游应用系统300之间的数据同步),其中另外一部分的应用系统300可以仅接收数据平台200发送的节点关系信息(即数据平台200与下游应用系统300之间的数据同步)。在此不对其他实施方式中应用系统300和数据平台200之间的数据传输方式进行限定。
在某些实施方式中,获取应用系统300的元数据表,包括:
以预设周期将应用系统300的元数据表同步至数据平台200。
本发明的数据处理方法可通过本发明的数据处理系统100来实现。具体地,请结合图2,应用系统300用于以预设周期将应用系统300的元数据表同步至数据平台200。
如此,可提高数据信息的传递效率。
可以理解,在应用系统300获取到元数据表的情况下,通过将元数据表同步至数据平台200,那么,在数据平台200上即可对应地查询到目标数据信息。
在这样的一个实施方式中,预设周期为T+1,其中T表示同步的元数据表的日期,在应用系统300确定获取到的元数据表及获取日期的情况下,在获取日期后的第一天内将元数据表同步至数据平台200,也就是说,应用系统300可以将前一天获取到的元数据表同步至数据平台200,从而可避免对数据信息进行一次大量传输,或频繁传输。在其他的实施方式中,预设周期可根据具体情况进行确定,也可通过实际测试进行标定。
另外,在其他的实施方式中,数据处理系统100可以通过ETL(Extract-Transform-Load,数据仓库技术)将应用系统300的元数据表同步至数据平台200。
数据平台200对元数据表的同步可以为全量同步,也可以为增量同步。
属性信息可以包括实体属性信息和条件属性信息。具体地,在一些实施方式中,实体属性信息可以包括元数据表的表名,条件属性信息可以包括元数据表的表大小、近30天的访问频度。也就是说,通过实体属性信息和条件属性信息,可以方便对应地查找到对应的节点信息。
另外,在这样的一个实施方式中,属性信息可以包括作业节点(job)、作业负责人节点(owner)、作业归属项目节点(Project)、库表节点(Table)、报表节点(Page)、报表中所包含的页面节点(Panel)。获取到的属性信息可以生成节点信息的标签以关联至对应的节点信息(表),从而可方便建立各节点信息之间的关联。
请参考图3,在某些实施方式中,应用系统300包括报表310和数据集330。数据集330用于表示多个应用元数据信息之间的映射关系。节点关系信息包括第一节点链路信息。根据数据平台200和应用系统300获取节点关系信息,包括:
031:应用系统300根据报表310和数据集330,生成报表面板350;
032:应用系统300根据报表面板350和报表310,生成包含关系;
033:应用系统300根据数据集330获取输入表,根据输入表和报表面板350生成应用节点关系;
034:应用系统300根据包含关系和应用节点关系,生成第一节点链路信息。
本发明的数据处理方法可通过本发明的数据处理系统100来实现。具体地,请结合图2,应用系统300用于根据报表310和数据集330,生成报表面板350;及用于根据报表面板350和报表310,生成包含关系;及用于根据数据集330获取输入表,根据输入表和报表面板350生成应用节点关系;及用于根据包含关系和应用节点关系,生成第一节点链路信息。
如此,可实现在应用系统300中的多个节点信息之间建立对应关系。
具体地,请结合图4,其中,数据集330可以存储在报表310内。在生成报表面板350的情况下,可根据报表面板350来对应地确定包含关系,从而可根据包含关系来确定需要查找的报表310。
在通过数据集330获取到确定的输入表的情况下,可根据输入表和报表面板350生成可用于表示输入表和待查找表之间的映射关系的应用节点关系,从而可根据应用节点关系确定如图5所示的用于表征应用系统300内各节点信息之间的关系的第一节点链路信息。在其他的实施方式中,数据集330的数量可以为多个,报表310可以存储有多个数据集330。
另外,在数据处理系统100包括多个应用系统300的情况下,每个应用系统300都可以通过上述实施方式的具体原理来对应地获取到第一节点链路信息。
在某些实施方式中,节点关系信息包括第二节点链路信息。根据数据平台200和应用系统300获取节点关系信息,包括:
035:数据平台200根据执行日志获取映射列表,根据映射列表生成第二节点链路信息。
本发明的数据处理方法可通过本发明的数据处理系统100来实现。具体地,请结合图2,数据平台200用于根据执行日志获取映射列表,根据映射列表生成第二节点链路信息。
如此,可实现在数据平台200中的多个节点信息之间建立对应关系。
具体地,在这样的一个实施方式中,执行日志中可以包括SQL(Structured QueryLanguage,结构化查询语言)的执行语句、执行结果、SQL所属作业及作业属主等信息。数据平台200通过SQL语句对执行日志进行提取,从而可获取到包括数据平台200内多个节点信息之间映射关系的映射列表。请结合图6,图6所示为获取到的映射列表,其中,表1、作业和表2可以分别对应数据平台200内存储的不同的节点信息,根据表1和作业可确定输入关系,根据作业和表2可确定输出关系,从而可进一步根据映射列表确定用于表征数据平台200内各节点信息之间的关系的第二节点链路信息。
另外,在其他的实施方式中,可根据映射列表生成图7和图8所示的第二节点链路信息,其中,在图7中,子表为部分地包含在表1和表2内的内容,从而可形成表节点之间的映射关系。在图8中,子作业为部分地包含在作业1和作业2内的内容,从而可形成作业节点之间的映射关系。
在某些实施方式中,节点信息包括表节点和对应的日期信息。数据平台200根据执行日志获取映射列表,根据映射列表生成第二节点链路信息,包括:
0351:在检测到表节点被更新的情况下,将对应的日期信息更新为表节点更新时的日期。
本发明的数据处理方法可通过本发明的数据处理系统100来实现。具体地,请结合图2,数据平台200用于在检测到表节点被更新的情况下,将对应的日期信息更新为表节点更新时的日期。
可以理解,在数据平台200对各节点信息进行获取的情况下,会存在部分的表节点需要进行更新的状况。在这种状况下,通过确定对应的表节点的更新日期,将更新后的表节点生成为临时表,对临时表的属性信息(如表名)中的日期属性通过固定标识的方式进行替换,从而可避免在表节点更新的情况下,由于生成过多的节点信息而导致节点膨胀的问题。在一个实施方式中,在对日期属性进行替换的情况下,可将日期属性中的#MONTH#替换为更新日期所对应的六位年月,将日期属性中的#DAY#替换为更新日期所对应的八位日期。
请参考图9,在某些实施方式中,数据平台200根据执行日志获取映射列表,根据映射列表生成第二节点链路信息,包括:
0352:对执行日志进行语句解析,得到待处理语句;
0353:在检测到待处理语句中的关键词的情况下,根据关键词对待处理语句进行处理,得到映射列表。
本发明的数据处理方法可通过本发明的数据处理系统100来实现。具体地,请结合图2,数据平台200用于对执行日志进行语句解析,得到待处理语句;及用于在检测到待处理语句中的关键词的情况下,根据关键词对待处理语句进行处理,得到映射列表。
如此,可提高对应用系统300的兼容性。
具体地,数据平台200可以包括多个数据库。可以理解,在实际情况中,不同类型的数据库可能会使用不同语法的执行语句,在对多个数据库的执行日志进行映射列表的获取时,可能会出现执行语句的语法不一致所导致的获取失败的问题。
在这种情况下,请结合图10,在图10所示的实施方式中,可对SQL语句进行拆分、关键词放入,可得到待处理语句。从图10可知,通过对部分关键词(如“,”、“from”、“from|***join”以及括号)进行检索,对应用系统300中的SQL语句进行格式规范化,使得待处理语句中的一些可能会对语句解析造成语法障碍的符号进行处理,最终可得到处理后的、在多个应用系统300中都具有兼容性的映射列表。
请参考图11,在某些实施方式中,节点关系信息包括第三节点链路信息。根据数据平台200和应用系统300获取节点关系信息,包括:
036:数据平台200通过同步任务将第二节点链路信息传输至应用系统300;
037:应用系统300根据第一节点链路信息和第二节点链路信息,生成第三节点链路信息。
本发明的数据处理方法可通过本发明的数据处理系统100来实现。具体地,请结合图2,数据平台200用于通过同步任务将第二节点链路信息传输至应用系统300,应用系统300用于根据第一节点链路信息和第二节点链路信息,生成第三节点链路信息。
如此,可实现在数据平台200和应用系统300之间的节点信息之间建立对应关系。
具体地,在数据平台200确定第二节点链路信息的情况下,可根据第二节点链路信息生成同步任务,数据平台200可通过同步任务将第二节点链路信息推送至应用系统300。在这样的一个实施方式中,同步任务中的配置信息为包括源节点信息和目标节点信息的来源、表名称等元数据信息的JSON结构体,应用系统300可根据接收到的第二节点链路信息和配置信息确定源节点信息和目标节点信息之间的对应关系,进而可得到如图12所示的第三节点链路信息。在一个实施方式中,源节点信息存储在数据平台200中,目标节点信息存储在应用系统300中,也就是说,在确定数据平台200内的源节点信息的情况下,可查找到应用系统300中的目标节点信息。在另一个实施方式中,源节点信息存储在应用系统300中,目标节点信息存储在数据平台200中,也就是说,在确定应用系统300内的源节点信息的情况下,可查找到数据平台200中的目标节点信息。
另外,在图12所示的实施方式中,源节点信息可以为作业、页面、项目、表,目标节点信息可以为作业、页面、项目、表,下游关系可以包括下游作业关系、下游表关系、页面与表的关系、项目与作业的关系、表与作业的关系、负责人关系、数据表与表页面的关系。
在某些实施方式中,根据多个节点信息、多个属性信息和节点关系信息,建立图数据库,包括:
根据多个节点信息、多个属性信息和第三节点链路信息,建立图数据库。
本发明的数据处理方法可通过本发明的数据处理系统100来实现。具体地,请结合图2,数据处理系统100用于根据多个节点信息、多个属性信息和第三节点链路信息,建立图数据库。
具体地,在一个实施方式中,图数据库为neo4j图数据库,在确定多个节点信息、多个属性信息和第三节点链路信息的情况下,可python语言调用neo4j提供的API(Application Programming Interface,应用程序编程接口),以merge的方式更新至neo4j图数据库。
在某些实施方式中,数据处理方法包括:
在应用系统300确认第一查询节点信息的情况下,根据图数据库和第一查询节点信息,获取第一目标查询结果,或在数据平台200确认第二查询节点信息的情况下,根据图数据库和第二查询节点信息,获取第二目标查询结果。
本发明的数据处理方法可通过本发明的数据处理系统100来实现。具体地,请结合图2,数据处理系统100用于在应用系统300确认第一查询节点信息的情况下,根据图数据库和第一查询节点信息,获取第一目标查询结果,或用于在数据平台200确认第二查询节点信息的情况下,根据图数据库和第二查询节点信息,获取第二目标查询结果。
如此,可实现在数据平台200和应用系统300中直接查找目标节点信息。
本发明的数据处理方法可用于通过血缘追溯的方式来查找目标节点信息。具体地,血缘追溯为自下而上的查询场景,一般为已知某下游节点,追溯其上游节点和路径的分析过程,可利用图数据库的cypher语法拼接查询语句以执行查询,从而可输出关系图及二维数据表结果。
在一个实施方式中,源表节点信息为“应用流量趋势”(对应第一查询节点信息),追溯其位于数据平台200的xp_vehicle项目下的上游源表:
cypher:匹配(节点:报表:{报表名:"应用流量趋势"})<-[关系:包含在]-(节点:报表面板)<-[关系:面板输入源]-(节点:表)<-[关系:下游表*1..10]-(节点:表),过滤条件:源头父表类型="odps",源头父表所属项目="xp_vehicle";返回:排重后的源头父表名称列表。
10ms内返回如图13所示的输出结果(对应第一目标查询结果)。
本发明的数据处理方法还可用于通过影响分析的方式来查找目标节点信息。具体地,影响分析为自上而下的查询场景,一般为已知某上游节点,追溯其下游节点和路径的分析过程,利用图数据库的cypher语法拼接查询语句以执行查询,输出关系图及二维数据表结果。
在一个实施方式中,数据平台200存储的其中一个节点信息为作业节点“1000383307”故障(对应第二查询节点信息),判断其对下游的影响。
在场景1中,查询其直接下游影响的作业列表:
cypher:匹配(节点:作业:{作业名:"1000383307"})-[关系:下游作业]->(节点:作业);返回:排重后的作业名称,作业描述。
4ms内返回如图14所示的输出结果(对应第二目标查询结果)。
在场景2中,查询其影响的所有下游作业列表:
cypher:匹配(节点:作业:{作业名:"1000383307"})-[关系:下游作业*]->(节点:作业);返回:排重后的作业名称,作业描述。
其中,场景2与场景1的区别在于,场景2可查询所有受到影响的下游层级作业节点。
60ms内返回如图15所示的输出结果(对应第二目标查询结果)。
在场景3中,查询其影响的报表列表:
cypher:匹配(节点:作业:{作业名:"1000383307"})-[关系:下游作业*]->(节点:作业)-[关系:作业输出表]->(节点:表)-[关系:下游表]->(节点:表)-[关系:面板输入源]->(节点:报表面板)-[关系:包含在]->(节点:报表);返回:排重后的报表名称,报表描述列表。
106ms内返回如图16所示的输出结果(对应第二目标查询结果)。
通过上述场景描述可以看到,通过将应用系统300和数据平台200各自存储的节点信息整合到图数据库上,建立节点信息之间的关系联系,从而可打破多个应用系统300之间的隔离,有利于解决应用系统300间元数据信息相互割裂的问题,并且可提高对目标数据信息的查询效率。
在本说明书的描述中,参考术语“一个实施方式”、“一些实施方式”、“某些实施方式”、“示意性实施方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (10)

1.一种数据处理方法,用于数据处理系统,其特征在于,所述数据处理系统包括数据平台和与所述数据平台通信连接的应用系统,
所述数据处理方法包括:
获取所述应用系统的元数据表,所述元数据表包括应用元数据信息;
根据所述应用元数据信息、所述数据平台中存储的元数据信息和执行日志,获取多个节点信息和对应所述多个节点信息的多个属性信息;
根据所述数据平台和所述应用系统获取节点关系信息,所述节点关系信息用于表示多个所述节点信息之间的映射关系;
根据所述多个节点信息、所述多个属性信息和所述节点关系信息,建立图数据库。
2.根据权利要求1所述的数据处理方法,其特征在于,获取所述应用系统的元数据表,所述元数据表包括应用元数据信息,包括:
以预设周期将所述应用系统的元数据表同步至所述数据平台。
3.根据权利要求1所述的数据处理方法,其特征在于,所述应用系统包括报表和数据集,所述数据集用于表示多个所述应用元数据信息之间的映射关系,所述节点关系信息包括第一节点链路信息,
根据所述应用元数据信息、所述数据平台中存储的元数据信息和执行日志,获取多个节点信息和对应所述多个节点信息的多个属性信息,包括:
所述应用系统根据所述报表和所述数据集,生成报表面板;
所述应用系统根据所述报表面板和所述报表,生成包含关系;
所述应用系统根据所述数据集获取输入表,根据所述输入表和所述报表面板生成应用节点关系;
所述应用系统根据所述包含关系和所述应用节点关系,生成所述第一节点链路信息。
4.根据权利要求3所述的数据处理方法,其特征在于,所述节点关系信息包括第二节点链路信息,
根据所述应用元数据信息、所述数据平台中存储的元数据信息和执行日志,获取多个节点信息和对应所述多个节点信息的多个属性信息,包括:
所述数据平台根据所述执行日志获取映射列表,根据所述映射列表生成所述第二节点链路信息。
5.根据权利要求4所述的数据处理方法,其特征在于,所述节点信息包括表节点和对应的日期信息,
所述数据平台根据所述执行日志获取映射列表,根据所述映射列表生成所述第二节点链路信息,包括:
在检测到所述表节点被更新的情况下,将对应的所述日期信息更新为所述表节点更新时的日期。
6.根据权利要求4所述的数据处理方法,其特征在于,
所述数据平台根据所述执行日志获取映射列表,根据所述映射列表生成所述第二节点链路信息,包括:
对所述执行日志进行语句解析,得到待处理语句;
在检测到所述待处理语句中的关键词的情况下,根据所述关键词对所述待处理语句进行处理,得到所述映射列表。
7.根据权利要求4所述的数据处理方法,其特征在于,所述节点关系信息包括第三节点链路信息,
根据所述数据平台和所述应用系统获取节点关系信息,所述节点关系信息用于表示多个所述节点信息之间的映射关系,包括:
所述数据平台通过同步任务将所述第二节点链路信息传输至所述应用系统;
所述应用系统根据所述第一节点链路信息和所述第二节点链路信息,生成所述第三节点链路信息。
8.根据权利要求7所述的数据处理方法,其特征在于,
根据所述多个节点信息、所述多个属性信息和所述节点关系信息,建立图数据库,包括:
根据多个所述节点信息、多个所述属性信息和所述第三节点链路信息,建立所述图数据库。
9.根据权利要求1所述的数据处理方法,其特征在于,所述数据处理方法包括:
在所述应用系统确认第一查询节点信息的情况下,根据所述图数据库和所述第一查询节点信息,获取第一目标查询结果,或
在所述数据平台确认第二查询节点信息的情况下,根据所述图数据库和所述第二查询节点信息,获取第二目标查询结果。
10.一种数据处理系统,其特征在于,所述数据处理系统包括数据平台和与所述数据平台通信连接的应用系统,所述数据处理系统用于:
获取所述应用系统的元数据表,所述元数据表包括应用元数据信息;
根据所述应用元数据信息、所述数据平台中存储的元数据信息和执行日志,获取多个节点信息和对应所述多个节点信息的多个属性信息;
根据所述数据平台和所述应用系统获取节点关系信息,所述节点关系信息用于表示多个所述节点信息之间的映射关系;
根据所述多个节点信息、所述多个属性信息和所述节点关系信息,建立图数据库。
CN202110455987.6A 2021-04-26 2021-04-26 数据处理方法和数据处理系统 Pending CN113010616A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110455987.6A CN113010616A (zh) 2021-04-26 2021-04-26 数据处理方法和数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110455987.6A CN113010616A (zh) 2021-04-26 2021-04-26 数据处理方法和数据处理系统

Publications (1)

Publication Number Publication Date
CN113010616A true CN113010616A (zh) 2021-06-22

Family

ID=76380566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110455987.6A Pending CN113010616A (zh) 2021-04-26 2021-04-26 数据处理方法和数据处理系统

Country Status (1)

Country Link
CN (1) CN113010616A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114510611A (zh) * 2022-04-20 2022-05-17 中信证券股份有限公司 一种构建元数据血缘图谱的方法、装置及相关设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593180A (zh) * 2008-05-30 2009-12-02 国际商业机器公司 将sparql查询转化成sql查询的方法和装置
CN102023979A (zh) * 2009-09-09 2011-04-20 中国工商银行股份有限公司 元数据管理方法及系统
CN102163353A (zh) * 2011-02-25 2011-08-24 广州广电运通金融电子股份有限公司 电子流水日志智能分析系统及方法
CN105589856A (zh) * 2014-10-21 2016-05-18 阿里巴巴集团控股有限公司 日志数据处理方法及系统
CN106502587A (zh) * 2016-10-19 2017-03-15 华为技术有限公司 磁盘数据管理方法和磁盘控制装置
CN106528885A (zh) * 2016-12-16 2017-03-22 苏州市环亚数据技术有限公司 一种医疗业务数据处理方法及装置
CN109471889A (zh) * 2018-09-19 2019-03-15 平安科技(深圳)有限公司 报表加速方法、系统、计算机设备和存储介质
CN109739828A (zh) * 2018-12-29 2019-05-10 咪咕文化科技有限公司 一种数据处理方法、设备及计算机可读存储介质
CN109783009A (zh) * 2017-11-13 2019-05-21 爱思开海力士有限公司 存储器系统及其操作方法
CN111723161A (zh) * 2019-03-20 2020-09-29 阿里巴巴集团控股有限公司 一种数据处理方法、装置及设备
CN112579600A (zh) * 2020-12-21 2021-03-30 广州橙行智动汽车科技有限公司 一种基于车载问答的数据处理方法和装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593180A (zh) * 2008-05-30 2009-12-02 国际商业机器公司 将sparql查询转化成sql查询的方法和装置
CN102023979A (zh) * 2009-09-09 2011-04-20 中国工商银行股份有限公司 元数据管理方法及系统
CN102163353A (zh) * 2011-02-25 2011-08-24 广州广电运通金融电子股份有限公司 电子流水日志智能分析系统及方法
CN105589856A (zh) * 2014-10-21 2016-05-18 阿里巴巴集团控股有限公司 日志数据处理方法及系统
CN106502587A (zh) * 2016-10-19 2017-03-15 华为技术有限公司 磁盘数据管理方法和磁盘控制装置
CN106528885A (zh) * 2016-12-16 2017-03-22 苏州市环亚数据技术有限公司 一种医疗业务数据处理方法及装置
CN109783009A (zh) * 2017-11-13 2019-05-21 爱思开海力士有限公司 存储器系统及其操作方法
CN109471889A (zh) * 2018-09-19 2019-03-15 平安科技(深圳)有限公司 报表加速方法、系统、计算机设备和存储介质
CN109739828A (zh) * 2018-12-29 2019-05-10 咪咕文化科技有限公司 一种数据处理方法、设备及计算机可读存储介质
CN111723161A (zh) * 2019-03-20 2020-09-29 阿里巴巴集团控股有限公司 一种数据处理方法、装置及设备
CN112579600A (zh) * 2020-12-21 2021-03-30 广州橙行智动汽车科技有限公司 一种基于车载问答的数据处理方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114510611A (zh) * 2022-04-20 2022-05-17 中信证券股份有限公司 一种构建元数据血缘图谱的方法、装置及相关设备

Similar Documents

Publication Publication Date Title
CN107402963B (zh) 搜索数据的构建方法、增量数据的推送方法及装置和设备
US11294927B2 (en) Metadata hub for metadata models of database objects
US8682859B2 (en) Transferring records between tables using a change transaction log
CN107357848B (zh) 基于驱动封装的数据库同步方法
CN103761318A (zh) 一种关系型异构数据库数据同步的方法及系统
JP2000148461A (ja) ソフトウェアモデル及び既存のソ―スコ―ドを同期化させる方法及びその装置
CN102122247A (zh) 一种自动生成代码的系统及方法
US20150278300A1 (en) Query translation for searching complex structures of objects
KR20060045897A (ko) 전자 장치들 간의 데이터 동기화를 위한 방법 및 시스템
CN111367954A (zh) 数据查询处理方法、装置及系统、计算机可读存储介质
CN104298769A (zh) 一种数据库间共有域差异数据同步系统及方法
US11874875B2 (en) Graph processing system
CN110134681B (zh) 数据存储与查询方法、装置、计算机设备及存储介质
US20090106216A1 (en) Push-model based index updating
CN112506964A (zh) 数据查询方法、系统及计算机可读存储介质
CN105677917A (zh) 面向航空发动机性能监控的海量数据管理方法及系统
US20090132607A1 (en) Techniques for log file processing
US20090106324A1 (en) Push-model based index deletion
CN113010616A (zh) 数据处理方法和数据处理系统
CN105224663A (zh) 一种基于多个数据源的数据访问任务管理方法及装置
CN114661832A (zh) 一种基于数据质量的多模态异构数据存储方法及系统
CN114691704A (zh) 一种基于MySQL binlog的元数据同步方法
CN109491988B (zh) 一种支持全量更新的数据实时关联方法
CN107291938A (zh) 订单查询系统及方法
CN115794861A (zh) 基于特征摘要的离线数据查询复用方法及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination