CN108073619A - 一种基于图数据结构的数据映射方法 - Google Patents

一种基于图数据结构的数据映射方法 Download PDF

Info

Publication number
CN108073619A
CN108073619A CN201611001980.2A CN201611001980A CN108073619A CN 108073619 A CN108073619 A CN 108073619A CN 201611001980 A CN201611001980 A CN 201611001980A CN 108073619 A CN108073619 A CN 108073619A
Authority
CN
China
Prior art keywords
file
data
stored
graphx
saved
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611001980.2A
Other languages
English (en)
Inventor
李筱川
张宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Changfeng Science Technology Industry Group Corp
Original Assignee
China Changfeng Science Technology Industry Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Changfeng Science Technology Industry Group Corp filed Critical China Changfeng Science Technology Industry Group Corp
Priority to CN201611001980.2A priority Critical patent/CN108073619A/zh
Publication of CN108073619A publication Critical patent/CN108073619A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于图数据结构的数据映射方法,包括:(1)根据文件存储的数据库,将文件信息到文件中,如将保存在MySQL中的先行数据导出到txt文件中;(2)通过文件创建SparkRDD,例如文件信息保存在txt中,则可以通过SparkContext读取文件生成RDD,并通过头DF()接口将RDD转换成DataFrame方便下一步计算;(3)通过DataFrame将数据存入Graphx,使用GraphX进行图计算;(4)将计算所得结果保存到HDFS中或HBASE中,或生成文本文件保存到外部系统。

Description

一种基于图数据结构的数据映射方法
技术领域
本发明涉及计算机数据处理技术领域,具体涉及一种基于图数据结构的数据映射方法。
背景技术
Spark GraphX是一个分布式图处理框架,Spark GraphX基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口,极大的方便了大家对分布式图处理的需求。
社交网络中人与人之间有很多关系链,例如Twitter、Facebook、微博、微信,这些都是大数据产生的地方,都需要图计算。
发明内容
本发明的的目的在于提出一种新的数据分析方案,对于不同的结构化或非结构化数据,存储在SQL或NOSQL数据库等DBMS中、文件系统中的数据映射到GraphX或SparkSQL中进行实时的数据分析,进行并行处理,并根据需要将结果选择性的持久化到HDFS或HBASE中,且并不影响原系统的运行,提高对数据的使用效率。
本发明的技术方案如下:
一种基于图数据结构的数据映射方法,其特征在于:
(1)根据文件存储的数据库,将文件信息到文件中,如将保存在MySQL中的先行数据导出到txt文件中;
(2)通过文件创建SparkRDD,例如文件信息保存在txt中,则可以通过SparkContext读取文件生成RDD,并通过头DF()接口将RDD转换成DataFrame方便下一步计算;
(3)通过DataFrame将数据存入Graphx,使用GraphX进行图计算;
(4)将计算所得结果保存到HDFS中或HBASE中,或生成文本文件保存到外部系统。
本发明将传统结构化和非结构化数据库中的数据完整的保存到SparkSQL或GraphX中,将源文件保存到HBASE中,提供随即读写功能,与Spark同时运行,支持实时的数据分析,进而提供了做并行图计算和各种算法的可能。
本发明可将计算结果保存到分布式系统中或SQL/NoSQL数据库中,这样可把Spark数据分析单独抽取出来,不影响之前的系统运行,将计算结果实时的进行反馈,提高运行效率。
附图说明
图1是本发明采用的数据转换流程图。
具体实施方式
如图1所示,本发明的具体实现方式如下:
(1)根据文件存储的数据库,将文件信息到文件中,如将保存在MySQL中的先行数据导出到txt文件中;
(2)通过文件创建SparkRDD,例如文件信息保存在txt中,则可以通过SparkContext读取文件生成RDD,并通过头DF()接口将RDD转换成DataFrame方便下一步计算;
(3)通过DataFrame将数据存入Graphx,使用GraphX进行图计算;
(4)将计算所得结果保存到HDFS中或HBASE中,或生成文本文件保存到外部系统。

Claims (1)

1.一种基于图数据结构的数据映射方法,其特征在于:
(1)根据文件存储的数据库,将文件信息到文件中,如将保存在MySQL中的先行数据导出到txt文件中;
(2)通过文件创建SparkRDD,例如文件信息保存在txt中,则可以通过SparkContext读取文件生成RDD,并通过头DF()接口将RDD转换成DataFrame方便下一步计算;
(3)通过DataFrame将数据存入Graphx,使用GraphX进行图计算;
(4)将计算所得结果保存到HDFS中或HBASE中,或生成文本文件保存到外部系统。
CN201611001980.2A 2016-11-14 2016-11-14 一种基于图数据结构的数据映射方法 Pending CN108073619A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611001980.2A CN108073619A (zh) 2016-11-14 2016-11-14 一种基于图数据结构的数据映射方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611001980.2A CN108073619A (zh) 2016-11-14 2016-11-14 一种基于图数据结构的数据映射方法

Publications (1)

Publication Number Publication Date
CN108073619A true CN108073619A (zh) 2018-05-25

Family

ID=62161926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611001980.2A Pending CN108073619A (zh) 2016-11-14 2016-11-14 一种基于图数据结构的数据映射方法

Country Status (1)

Country Link
CN (1) CN108073619A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021047021A1 (zh) * 2019-09-09 2021-03-18 平安科技(深圳)有限公司 信息挖掘方法、装置、设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021047021A1 (zh) * 2019-09-09 2021-03-18 平安科技(深圳)有限公司 信息挖掘方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
MY195917A (en) Blockchain-Based Data Processing Method And Device
AU2018212531A8 (en) Data content filter
PH12019501499A1 (en) Blockchain consensus method and device
PH12018501058A1 (en) Order clustering and malicious information combating method and apparatus
CN105354314B (zh) 数据迁移方法及装置
MY190598A (en) Blockchain data processing method and apparatus
MX2020010311A (es) Integracion de datos biometricos en un sistema de cadena de bloques.
GB201011179D0 (en) Method of optimizing data flow between a software application and a database server
CN104036025A (zh) 一种基于分布式的海量日志采集系统
CN110399268B (zh) 一种异常数据检测的方法、装置及设备
WO2017040632A3 (en) Event categorization and key prospect identification from storylines
WO2014150250A3 (en) Method and apparatus for substitution scheme for anonymizing personally identifiable information
PH12016501202A1 (en) Discovering a business relationship network, and assessing a relevance of a relationship
MX2014010373A (es) Derivaciones agregadas flexibles basadas en tiempo para analisis avanzado.
MY188175A (en) Virtual currency system
IN2014MU03392A (zh)
SG10201901932XA (en) Data module management for data processing system
CN103942707B8 (zh) 基于实时竞价的广告效果优化系统
CN103440197B (zh) 一种基于对比测试自动生成差异测试报告的方法
US20130325890A1 (en) Leveraging persisted data queries in stream-based complex event processing
GB2565482A (en) Attribute matching
CN108073619A (zh) 一种基于图数据结构的数据映射方法
Harth et al. On-the-fly integration of static and dynamic sources
WO2015036843A3 (en) Sales order data collection and management system
MY179263A (en) System and method for provisioning credit

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180525