CN112100266A - 大数据图谱分析方法及系统 - Google Patents
大数据图谱分析方法及系统 Download PDFInfo
- Publication number
- CN112100266A CN112100266A CN202011219588.1A CN202011219588A CN112100266A CN 112100266 A CN112100266 A CN 112100266A CN 202011219588 A CN202011219588 A CN 202011219588A CN 112100266 A CN112100266 A CN 112100266A
- Authority
- CN
- China
- Prior art keywords
- big data
- associated information
- analysis
- map
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种大数据图谱分析方法及系统,利用不同的ETL脚本写入大数据分析的不同规则,然后利用多个脚本解析工具对其进行解析,从而对元数据进行了多层次多角度的要素分析,得到多维度的大数据分析库,然后根据需求以关联信息组的形式进行整体展示,从而得到多个维度不同的大数据图谱,不同的大数据图谱分别位于不同层面,且各图谱标签地址是固定的,使得各关联信息元组成一个立体式图谱,根据需求自定义调用相应的关联信息元进行展示(其余关联信息元则隐藏),从而得到一个立体式大数据图谱,通过以上操作,使得本方案得到的大数据图谱维度多、表现形式多样化且利用多个脚本解析工具进行多次分析使得数据颗粒度更细。
Description
技术领域
本发明涉及大数据领域,具体涉及一种大数据图谱分析方法及系统。
背景技术
数据图谱分析系统记载了对数据处理的整个过程,包括数据的起源和处理这些数据的所有后继操作。大数据图谱分析是指基于大数据背景下的海量数据图谱分析,就目前而言,大数据图谱分析一般是根据需求构建处理引擎,在固定处理引擎下对大数据进行分析,得到相应的分析结果然后进行展示,这就造成传统的传统画像维度单一,表现形式简单,数据粒度粗略。
发明内容
本发明的目的在于克服现有技术的不足,提供一种大数据图谱分析方法及系统,解决了传统大数据图谱画像维度单一,表现形式简单,数据粒度粗略的问题。
本发明的目的是通过以下技术方案来实现的:
一种大数据图谱分析方法,包括:
1)从各生产数据库和分析数据库获取需要分析的元数据;
2)配置多个脚本解析工具以及至少一个图谱配置引擎,以及多组ETL脚本,每一组ETL脚本包括至少两个或两个以上的ETL脚本,各ETL脚本均不相同;
3)通过脚本解析工具分析每一组ETL脚本,并结合元数据,得到各生产数据库和分析数据库之间表和字段层级的多个关联信息组,每一个关联信息组包括多个关联信息元;
4)将所有的关联信息元全部放入同一个图谱数据库中,以组为单位对每一个关联信息组建立一条独立的第一调用链路,同时对每一个关联信息元建立一条独立的第二调用链路;
5)初始状态下,按关联信息组展示图形化的关联信息,通过图谱配置引擎调用不同的关联信息组进行图形化展示,以获得按ETL脚本分类的大数据图谱,各关联信息组形成的大数据图谱采用分层展示的结构进行展示;
或,自定义配置图谱配置引擎,通过第二调用链路调用相应的关联信息元进行图形化展示,以获得自定义大数据图谱。
本发明利用不同的ETL脚本写入大数据分析的不同规则,然后利用多个脚本解析工具对其进行解析,从而对元数据进行了多层次多角度的要素分析,得到多维度的大数据分析库,然后根据需求以关联信息组的形式进行整体展示,从而得到多个维度不同的大数据图谱,不同的大数据图谱分别位于不同层面,且各图谱标签地址是固定的,使得各关联信息元组成一个立体式图谱,根据需求自定义调用相应的关联信息元进行展示(其余关联信息元则隐藏),从而得到一个立体式大数据图谱,通过以上操作,使得本方案得到的大数据图谱维度多、表现形式多样化且利用多个脚本解析工具进行多次分析使得数据颗粒度更细。
进一步的,所述脚本解析工具是多个相同的脚本解析工具,用于提高ETL脚本解析速度;
或,所述脚本解析工具是多个彼此不同的脚本解析工具,用于获得不同的ETL脚本解析结果。
进一步的,所述5)通过 spring boot框架、Neo4j数据库和echarts构建数据字典和数据图谱展示页面以展示图形化的所述关联信息。
一种大数据图谱分析系统,用于实现大数据图谱分析方法,该系统包括:
至少一个图谱配置引擎和多个脚本解析器,以及至少一个生产数据库和分析数据库,以及至少一个关联信息数据库;
用于从所述生产数据库和分析数据库采集元数据的数据采集单元;
用于大数据图谱展示的数据展示单元,以及调用链路映射单元;
所述数据采集单元从生产数据库和分析数据库采集元数据,将其发送至脚本解析器分析ETL脚本,并结合元数据,得到各生产数据库和分析数据库之间表和字段层级的多个关联信息组,每一个关联信息组包括多个关联信息元;
所述数据展示单元根据关联信息展示大数据图谱;
所述调用链路映射单元建立每一个关联信息组到数据展示单元之间的第一调用链路,以及各关联信息元到数据展示单元之间的第二调用链路;
所述图谱配置引擎根据自定义配置,调用相应的关联信息元或关联信息组在所述数据展示单元中进行大数据图谱展示。
进一步的,所述关联信息数据库是Neo4j数据库。
进一步的,所述数据采集单元还包括一个数据流向分析单元连接,所述脚本解析器在数据流向分析单元作用下分析ETL脚本。
进一步的,还包括一个图形界面渲染模块,所述图形界面渲染模块与图谱配置引擎连接,用于设置大数据图谱的显示要素。
进一步的,所述所述显示要素包括大数据图谱中单元标签的形状、颜色、以及连接关系。
进一步的,每个关联信息组所形成的大数据图谱以分层方式进行展示,并通过所述图谱配置引擎进行展示切换。
进一步的,所述数据采集单元还用于通过工作流管理平台Airflow对收集元数据的流程进行调度。
本发明的有益效果是:和传统的大数据图谱相比,本发明得到的大数据图谱颗粒度更细,且维度多样化,表现形式包括立体和平面,且可以根据用户自定义配置展示不同的大数据图谱。
附图说明
图1为本发明流程示意图;
图2为本发明系统框图。
具体实施方式
下面结合具体实施例进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种大数据图谱分析方法,包括:
1)从各生产数据库和分析数据库获取需要分析的元数据;
2)配置多个脚本解析工具以及至少一个图谱配置引擎,以及多组ETL脚本,每一组ETL脚本包括至少两个或两个以上的ETL脚本,各ETL脚本均不相同;
3)通过脚本解析工具分析每一组ETL脚本,并结合元数据,得到各生产数据库和分析数据库之间表和字段层级的多个关联信息组,每一个关联信息组包括多个关联信息元;
4)将所有的关联信息元全部放入同一个图谱数据库中,以组为单位对每一个关联信息组建立一条独立的第一调用链路,同时对每一个关联信息元建立一条独立的第二调用链路;
5)初始状态下,按关联信息组展示图形化的关联信息,通过图谱配置引擎调用不同的关联信息组进行图形化展示,以获得按ETL脚本分类的大数据图谱,各关联信息组形成的大数据图谱采用分层展示的结构进行展示;
或,自定义配置图谱配置引擎,通过第二调用链路调用相应的关联信息元进行图形化展示,以获得自定义大数据图谱。
可选的,一种大数据图谱分析方法,本发明所图形化展示的大数据图谱包括两种形式,一是以一个关联信息组为整体展示一个大数据图谱,另一种是自定义所要展示的关联信息元,在关联信息组为整体展示一个大数据图谱的方式下,各个关联信息组所形成的大数据图谱采用叠层的方式布置,相当形了多层大数据图谱,其中每一层大数据图谱中各图谱标签(也就是关联信息元所对应的图样)位置是固定,并根据该位置形成上述的独立的第二调用链路,换言之,在本方案各关联信息组所组成的大数据图谱组成了一个立体式的图谱册,其厚度可自主设计,使其表现形式多样化。
在另一个方面,一种大数据图谱分析方法,当采用自定义关联信息元进行展示,根据图谱配置引擎调用相应的关联信息元进行展示,由于各关联信息元的地址是固定,未展示的关联信息元则被隐藏,该展示的结果就相当于是在立体式的图谱册选择性进行展示,得到的是一个立体效果的大数据图谱,个关联信息元之间再通过其相互关系连线,就得到了一个全新的立体式的大数据图谱。
可选的,一种大数据图谱分析方法,脚本解析工具是多个相同的脚本解析工具,用于提高ETL脚本解析速度,例如可采用解析工具JSQLParser。
可选的,一种大数据图谱分析方法,脚本解析工具是多个彼此不同的脚本解析工具,用于获得不同的ETL脚本解析结果。
在另一个方面,上述5)中是通过 spring boot框架、Neo4j数据库和echarts构建数据字典和数据图谱展示页面以展示图形化的关联信息。
参考图2所示,本发明还提供了一种大数据图谱分析系统,用于实现大数据图谱分析方法,该系统包括:
至少一个图谱配置引擎和多个脚本解析器,以及至少一个生产数据库和分析数据库,以及至少一个关联信息数据库;
用于从生产数据库和分析数据库采集元数据的数据采集单元;
用于大数据图谱展示的数据展示单元,以及调用链路映射单元;
数据采集单元从生产数据库和分析数据库采集元数据,将其发送至脚本解析器分析ETL脚本,并结合元数据,得到各生产数据库和分析数据库之间表和字段层级的多个关联信息组,每一个关联信息组包括多个关联信息元;
数据展示单元根据关联信息展示大数据图谱;
调用链路映射单元建立每一个关联信息组到数据展示单元之间的第一调用链路,以及各关联信息元到数据展示单元之间的第二调用链路;
图谱配置引擎根据自定义配置,调用相应的关联信息元或关联信息组在数据展示单元中进行大数据图谱展示。
可选的,一种大数据图谱分析系统,关联信息数据库是Neo4j数据库。
可选的,一种大数据图谱分析系统,数据采集单元还包括一个数据流向分析单元连接,脚本解析器在数据流向分析单元作用下分析ETL脚本。
可选的,一种大数据图谱分析系统,还包括一个图形界面渲染模块,图形界面渲染模块与图谱配置引擎连接,用于设置大数据图谱的显示要素。
可选的,一种大数据图谱分析系统,显示要素包括大数据图谱中单元标签的形状、颜色、以及连接关系。
可选的,一种大数据图谱分析系统,每个关联信息组所形成的大数据图谱以分层方式进行展示,并通过图谱配置引擎进行展示切换。
可选的,一种大数据图谱分析系统,数据采集单元还用于通过工作流管理平台Airflow对收集元数据的流程进行调度。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (10)
1.一种大数据图谱分析方法,其特征在于,包括:
1)从各生产数据库和分析数据库获取需要分析的元数据;
2)配置多个脚本解析工具以及至少一个图谱配置引擎,以及多组ETL脚本,每一组ETL脚本包括至少两个或两个以上的ETL脚本,各ETL脚本均不相同;
3)通过脚本解析工具分析每一组ETL脚本,并结合元数据,得到各生产数据库和分析数据库之间表和字段层级的多个关联信息组,每一个关联信息组包括多个关联信息元;
4)将所有的关联信息元全部放入同一个图谱数据库中,以组为单位对每一个关联信息组建立一条独立的第一调用链路,同时对每一个关联信息元建立一条独立的第二调用链路;
5)初始状态下,按关联信息组展示图形化的关联信息,通过图谱配置引擎调用不同的关联信息组进行图形化展示,以获得按ETL脚本分类的大数据图谱,各关联信息组形成的大数据图谱采用分层展示的结构进行展示;
或,自定义配置图谱配置引擎,通过第二调用链路调用相应的关联信息元进行图形化展示,以获得自定义大数据图谱。
2.根据权利要求1所述的大数据图谱分析方法,其特征在于,所述脚本解析工具是多个相同的脚本解析工具,用于提高ETL脚本解析速度;
或,所述脚本解析工具是多个彼此不同的脚本解析工具,用于获得不同的ETL脚本解析结果。
3.根据权利要求2所述的大数据图谱分析方法,其特征在于,所述5)通过 spring boot框架、Neo4j数据库和echarts构建数据字典和数据图谱展示页面以展示图形化的所述关联信息。
4.一种大数据图谱分析系统,用于实现权利要求1-3任一项所述的大数据图谱分析方法,其特征在于,该系统包括:
至少一个图谱配置引擎和多个脚本解析器,以及至少一个生产数据库和分析数据库,以及至少一个关联信息数据库;
用于从所述生产数据库和分析数据库采集元数据的数据采集单元;
用于大数据图谱展示的数据展示单元,以及调用链路映射单元;
所述数据采集单元从生产数据库和分析数据库采集元数据,将其发送至脚本解析器分析ETL脚本,并结合元数据,得到各生产数据库和分析数据库之间表和字段层级的多个关联信息组,每一个关联信息组包括多个关联信息元;
所述数据展示单元根据关联信息展示大数据图谱;
所述调用链路映射单元建立每一个关联信息组到数据展示单元之间的第一调用链路,以及各关联信息元到数据展示单元之间的第二调用链路;
所述图谱配置引擎根据自定义配置,调用相应的关联信息元或关联信息组在所述数据展示单元中进行大数据图谱展示。
5.根据权利要求4所述的大数据图谱分析系统,其特征在于,所述关联信息数据库是Neo4j数据库。
6.根据权利要求5所述的大数据图谱分析系统,其特征在于,所述数据采集单元还包括一个数据流向分析单元连接,所述脚本解析器在数据流向分析单元作用下分析ETL脚本。
7.根据权利要求6所述的大数据图谱分析系统,其特征在于,还包括一个图形界面渲染模块,所述图形界面渲染模块与图谱配置引擎连接,用于设置大数据图谱的显示要素。
8.根据权利要求7所述的大数据图谱分析系统,其特征在于,所述显示要素包括大数据图谱中单元标签的形状、颜色、以及连接关系。
9.根据权利要求8所述的大数据图谱分析系统,其特征在于,每个关联信息组所形成的大数据图谱以分层方式进行展示,并通过所述图谱配置引擎进行展示切换。
10.根据权利要求9所述的大数据图谱分析系统,其特征在于,所述数据采集单元还用于通过工作流管理平台Airflow对收集元数据的流程进行调度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011219588.1A CN112100266B (zh) | 2020-11-05 | 2020-11-05 | 大数据图谱分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011219588.1A CN112100266B (zh) | 2020-11-05 | 2020-11-05 | 大数据图谱分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112100266A true CN112100266A (zh) | 2020-12-18 |
CN112100266B CN112100266B (zh) | 2021-02-09 |
Family
ID=73785665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011219588.1A Active CN112100266B (zh) | 2020-11-05 | 2020-11-05 | 大数据图谱分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100266B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247652A (zh) * | 2017-05-23 | 2017-10-13 | 北京拓尔思信息技术股份有限公司 | 一种etl作业的监控方法和系统 |
CN108197182A (zh) * | 2017-12-25 | 2018-06-22 | 百味云科技股份有限公司 | 一种数据图谱分析系统以及方法 |
CN110019252A (zh) * | 2019-04-16 | 2019-07-16 | 成都四方伟业软件股份有限公司 | 信息处理的方法、装置及电子设备 |
US10423639B1 (en) * | 2014-05-06 | 2019-09-24 | Numerify, Inc. | Automated customization preservation |
CN110377648A (zh) * | 2018-04-11 | 2019-10-25 | 西安邮电大学 | 一种面向智能制造的多源异构数据分析平台 |
CN111082976A (zh) * | 2019-12-02 | 2020-04-28 | 东莞数汇大数据有限公司 | 一种支持etl任务调度可视化的方法 |
CN111667074A (zh) * | 2020-05-19 | 2020-09-15 | 北京海致星图科技有限公司 | 一种应用知识推理到知识图谱生成方法及系统 |
-
2020
- 2020-11-05 CN CN202011219588.1A patent/CN112100266B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10423639B1 (en) * | 2014-05-06 | 2019-09-24 | Numerify, Inc. | Automated customization preservation |
CN107247652A (zh) * | 2017-05-23 | 2017-10-13 | 北京拓尔思信息技术股份有限公司 | 一种etl作业的监控方法和系统 |
CN108197182A (zh) * | 2017-12-25 | 2018-06-22 | 百味云科技股份有限公司 | 一种数据图谱分析系统以及方法 |
CN110377648A (zh) * | 2018-04-11 | 2019-10-25 | 西安邮电大学 | 一种面向智能制造的多源异构数据分析平台 |
CN110019252A (zh) * | 2019-04-16 | 2019-07-16 | 成都四方伟业软件股份有限公司 | 信息处理的方法、装置及电子设备 |
CN111082976A (zh) * | 2019-12-02 | 2020-04-28 | 东莞数汇大数据有限公司 | 一种支持etl任务调度可视化的方法 |
CN111667074A (zh) * | 2020-05-19 | 2020-09-15 | 北京海致星图科技有限公司 | 一种应用知识推理到知识图谱生成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112100266B (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110292775B (zh) | 获取差异数据的方法及装置 | |
US8812947B1 (en) | Ranking graphical visualizations of a data set according to data attributes | |
CN110096434A (zh) | 一种接口测试方法及装置 | |
WO2001054045A3 (en) | Data analysis software | |
CN106682036A (zh) | 一种数据交换系统及其交换方法 | |
US20140075278A1 (en) | Spreadsheet schema extraction | |
CA2163821A1 (en) | Method of generating a browser interface for representing similarities between segments of code | |
CN107193948A (zh) | 人机对话数据分析方法及装置 | |
US20130086011A1 (en) | Associative Memory Visual Evaluation Tool | |
CN103399848B (zh) | 发动机试验数据标准化特定格式导入处理方法 | |
CN107480296A (zh) | 基于sql的数据库性能分析方法和装置 | |
CN109885537B (zh) | 一种日志显示方法、系统及计算机可读存储介质 | |
CN108197182A (zh) | 一种数据图谱分析系统以及方法 | |
CN111859046A (zh) | 一种基于污染要素源解析的水污染溯源系统及方法 | |
CN106294128B (zh) | 一种导出报表数据的自动化测试方法及装置 | |
CN107239539A (zh) | 一种基于关系型数据库的自定义建模方法 | |
WO2020259155A1 (zh) | 一种生成告警数据报表的方法及装置 | |
CN110209780A (zh) | 一种问题模板生成方法、装置、服务器及存储介质 | |
CN112100266B (zh) | 大数据图谱分析方法及系统 | |
CN117094296A (zh) | 基于vb语言的表格拆分方法、智能终端及存储介质 | |
CN108647337B (zh) | 一种仿真分析数据的格式处理方法及装置 | |
CN103164629B (zh) | 一种Flash软件操作技能的自动评分方法 | |
CN107894940A (zh) | 一种日志分析装置及方法 | |
JP2007513428A (ja) | 分析データ構造にカスタム階層を生成するシステムおよび方法 | |
CN110399396A (zh) | 高效的数据处理 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |