CN108073619A - 一种基于图数据结构的数据映射方法 - Google Patents

一种基于图数据结构的数据映射方法 Download PDF

Info

Publication number
CN108073619A
CN108073619A CN201611001980.2A CN201611001980A CN108073619A CN 108073619 A CN108073619 A CN 108073619A CN 201611001980 A CN201611001980 A CN 201611001980A CN 108073619 A CN108073619 A CN 108073619A
Authority
CN
China
Prior art keywords
file
data
stored
graphx
saved
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611001980.2A
Other languages
English (en)
Inventor
李筱川
张宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Changfeng Science Technology Industry Group Corp
Original Assignee
China Changfeng Science Technology Industry Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Changfeng Science Technology Industry Group Corp filed Critical China Changfeng Science Technology Industry Group Corp
Priority to CN201611001980.2A priority Critical patent/CN108073619A/zh
Publication of CN108073619A publication Critical patent/CN108073619A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于图数据结构的数据映射方法,包括:(1)根据文件存储的数据库,将文件信息到文件中,如将保存在MySQL中的先行数据导出到txt文件中;(2)通过文件创建SparkRDD,例如文件信息保存在txt中,则可以通过SparkContext读取文件生成RDD,并通过头DF()接口将RDD转换成DataFrame方便下一步计算;(3)通过DataFrame将数据存入Graphx,使用GraphX进行图计算;(4)将计算所得结果保存到HDFS中或HBASE中,或生成文本文件保存到外部系统。

Description

一种基于图数据结构的数据映射方法
技术领域
本发明涉及计算机数据处理技术领域,具体涉及一种基于图数据结构的数据映射方法。
背景技术
Spark GraphX是一个分布式图处理框架,Spark GraphX基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口,极大的方便了大家对分布式图处理的需求。
社交网络中人与人之间有很多关系链,例如Twitter、Facebook、微博、微信,这些都是大数据产生的地方,都需要图计算。
发明内容
本发明的的目的在于提出一种新的数据分析方案,对于不同的结构化或非结构化数据,存储在SQL或NOSQL数据库等DBMS中、文件系统中的数据映射到GraphX或SparkSQL中进行实时的数据分析,进行并行处理,并根据需要将结果选择性的持久化到HDFS或HBASE中,且并不影响原系统的运行,提高对数据的使用效率。
本发明的技术方案如下:
一种基于图数据结构的数据映射方法,其特征在于:
(1)根据文件存储的数据库,将文件信息到文件中,如将保存在MySQL中的先行数据导出到txt文件中;
(2)通过文件创建SparkRDD,例如文件信息保存在txt中,则可以通过SparkContext读取文件生成RDD,并通过头DF()接口将RDD转换成DataFrame方便下一步计算;
(3)通过DataFrame将数据存入Graphx,使用GraphX进行图计算;
(4)将计算所得结果保存到HDFS中或HBASE中,或生成文本文件保存到外部系统。
本发明将传统结构化和非结构化数据库中的数据完整的保存到SparkSQL或GraphX中,将源文件保存到HBASE中,提供随即读写功能,与Spark同时运行,支持实时的数据分析,进而提供了做并行图计算和各种算法的可能。
本发明可将计算结果保存到分布式系统中或SQL/NoSQL数据库中,这样可把Spark数据分析单独抽取出来,不影响之前的系统运行,将计算结果实时的进行反馈,提高运行效率。
附图说明
图1是本发明采用的数据转换流程图。
具体实施方式
如图1所示,本发明的具体实现方式如下:
(1)根据文件存储的数据库,将文件信息到文件中,如将保存在MySQL中的先行数据导出到txt文件中;
(2)通过文件创建SparkRDD,例如文件信息保存在txt中,则可以通过SparkContext读取文件生成RDD,并通过头DF()接口将RDD转换成DataFrame方便下一步计算;
(3)通过DataFrame将数据存入Graphx,使用GraphX进行图计算;
(4)将计算所得结果保存到HDFS中或HBASE中,或生成文本文件保存到外部系统。

Claims (1)

1.一种基于图数据结构的数据映射方法,其特征在于:
(1)根据文件存储的数据库,将文件信息到文件中,如将保存在MySQL中的先行数据导出到txt文件中;
(2)通过文件创建SparkRDD,例如文件信息保存在txt中,则可以通过SparkContext读取文件生成RDD,并通过头DF()接口将RDD转换成DataFrame方便下一步计算;
(3)通过DataFrame将数据存入Graphx,使用GraphX进行图计算;
(4)将计算所得结果保存到HDFS中或HBASE中,或生成文本文件保存到外部系统。
CN201611001980.2A 2016-11-14 2016-11-14 一种基于图数据结构的数据映射方法 Pending CN108073619A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611001980.2A CN108073619A (zh) 2016-11-14 2016-11-14 一种基于图数据结构的数据映射方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611001980.2A CN108073619A (zh) 2016-11-14 2016-11-14 一种基于图数据结构的数据映射方法

Publications (1)

Publication Number Publication Date
CN108073619A true CN108073619A (zh) 2018-05-25

Family

ID=62161926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611001980.2A Pending CN108073619A (zh) 2016-11-14 2016-11-14 一种基于图数据结构的数据映射方法

Country Status (1)

Country Link
CN (1) CN108073619A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021047021A1 (zh) * 2019-09-09 2021-03-18 平安科技(深圳)有限公司 信息挖掘方法、装置、设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021047021A1 (zh) * 2019-09-09 2021-03-18 平安科技(深圳)有限公司 信息挖掘方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
MY195917A (en) Blockchain-Based Data Processing Method And Device
Yang et al. A system architecture for manufacturing process analysis based on big data and process mining techniques
EP4239500A3 (en) Data content filter
PH12018501058A1 (en) Order clustering and malicious information combating method and apparatus
CN105354314B (zh) 数据迁移方法及装置
CN109165202A (zh) 一种多源异构大数据的预处理方法
GB201011179D0 (en) Method of optimizing data flow between a software application and a database server
CN104036025A (zh) 一种基于分布式的海量日志采集系统
EP3070547A3 (en) Cloud-based analytics for industrial automation
IN2014DN09363A (zh)
US20140244654A1 (en) Data migration
WO2021108454A3 (en) Systems and methods to analyze customer contacts
CA3101497A1 (en) System and method for analyzing and modeling content
PH12016501202A1 (en) Discovering a business relationship network, and assessing a relevance of a relationship
SG10201901932XA (en) Data module management for data processing system
PH12017000312A1 (en) Virtual currency system
GB2568845A (en) Method and system for preforming real-time analytics on a plurality of data streams
CN103942707B8 (zh) 基于实时竞价的广告效果优化系统
GB2583636A8 (en) Facilitation of domain and client-specific application program interface recommendations
CN108073619A (zh) 一种基于图数据结构的数据映射方法
WO2014150368A3 (en) Systems, devices, and methods for generating location establishment severity identification
CN105243277A (zh) 一种计算机辅助医疗数据处理系统及方法
MY179263A (en) System and method for provisioning credit
GB2534481A (en) Data analytics for oilfield data repositories
GB2565014A (en) Providing analytics in real-time based on unstructured electronic documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180525