CN108073619A - 一种基于图数据结构的数据映射方法 - Google Patents
一种基于图数据结构的数据映射方法 Download PDFInfo
- Publication number
- CN108073619A CN108073619A CN201611001980.2A CN201611001980A CN108073619A CN 108073619 A CN108073619 A CN 108073619A CN 201611001980 A CN201611001980 A CN 201611001980A CN 108073619 A CN108073619 A CN 108073619A
- Authority
- CN
- China
- Prior art keywords
- file
- data
- stored
- graphx
- saved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/113—Details of archiving
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于图数据结构的数据映射方法,包括:(1)根据文件存储的数据库,将文件信息到文件中,如将保存在MySQL中的先行数据导出到txt文件中;(2)通过文件创建SparkRDD,例如文件信息保存在txt中,则可以通过SparkContext读取文件生成RDD,并通过头DF()接口将RDD转换成DataFrame方便下一步计算;(3)通过DataFrame将数据存入Graphx,使用GraphX进行图计算;(4)将计算所得结果保存到HDFS中或HBASE中,或生成文本文件保存到外部系统。
Description
技术领域
本发明涉及计算机数据处理技术领域,具体涉及一种基于图数据结构的数据映射方法。
背景技术
Spark GraphX是一个分布式图处理框架,Spark GraphX基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口,极大的方便了大家对分布式图处理的需求。
社交网络中人与人之间有很多关系链,例如Twitter、Facebook、微博、微信,这些都是大数据产生的地方,都需要图计算。
发明内容
本发明的的目的在于提出一种新的数据分析方案,对于不同的结构化或非结构化数据,存储在SQL或NOSQL数据库等DBMS中、文件系统中的数据映射到GraphX或SparkSQL中进行实时的数据分析,进行并行处理,并根据需要将结果选择性的持久化到HDFS或HBASE中,且并不影响原系统的运行,提高对数据的使用效率。
本发明的技术方案如下:
一种基于图数据结构的数据映射方法,其特征在于:
(1)根据文件存储的数据库,将文件信息到文件中,如将保存在MySQL中的先行数据导出到txt文件中;
(2)通过文件创建SparkRDD,例如文件信息保存在txt中,则可以通过SparkContext读取文件生成RDD,并通过头DF()接口将RDD转换成DataFrame方便下一步计算;
(3)通过DataFrame将数据存入Graphx,使用GraphX进行图计算;
(4)将计算所得结果保存到HDFS中或HBASE中,或生成文本文件保存到外部系统。
本发明将传统结构化和非结构化数据库中的数据完整的保存到SparkSQL或GraphX中,将源文件保存到HBASE中,提供随即读写功能,与Spark同时运行,支持实时的数据分析,进而提供了做并行图计算和各种算法的可能。
本发明可将计算结果保存到分布式系统中或SQL/NoSQL数据库中,这样可把Spark数据分析单独抽取出来,不影响之前的系统运行,将计算结果实时的进行反馈,提高运行效率。
附图说明
图1是本发明采用的数据转换流程图。
具体实施方式
如图1所示,本发明的具体实现方式如下:
(1)根据文件存储的数据库,将文件信息到文件中,如将保存在MySQL中的先行数据导出到txt文件中;
(2)通过文件创建SparkRDD,例如文件信息保存在txt中,则可以通过SparkContext读取文件生成RDD,并通过头DF()接口将RDD转换成DataFrame方便下一步计算;
(3)通过DataFrame将数据存入Graphx,使用GraphX进行图计算;
(4)将计算所得结果保存到HDFS中或HBASE中,或生成文本文件保存到外部系统。
Claims (1)
1.一种基于图数据结构的数据映射方法,其特征在于:
(1)根据文件存储的数据库,将文件信息到文件中,如将保存在MySQL中的先行数据导出到txt文件中;
(2)通过文件创建SparkRDD,例如文件信息保存在txt中,则可以通过SparkContext读取文件生成RDD,并通过头DF()接口将RDD转换成DataFrame方便下一步计算;
(3)通过DataFrame将数据存入Graphx,使用GraphX进行图计算;
(4)将计算所得结果保存到HDFS中或HBASE中,或生成文本文件保存到外部系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611001980.2A CN108073619A (zh) | 2016-11-14 | 2016-11-14 | 一种基于图数据结构的数据映射方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611001980.2A CN108073619A (zh) | 2016-11-14 | 2016-11-14 | 一种基于图数据结构的数据映射方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108073619A true CN108073619A (zh) | 2018-05-25 |
Family
ID=62161926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611001980.2A Pending CN108073619A (zh) | 2016-11-14 | 2016-11-14 | 一种基于图数据结构的数据映射方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108073619A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021047021A1 (zh) * | 2019-09-09 | 2021-03-18 | 平安科技(深圳)有限公司 | 信息挖掘方法、装置、设备和存储介质 |
-
2016
- 2016-11-14 CN CN201611001980.2A patent/CN108073619A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021047021A1 (zh) * | 2019-09-09 | 2021-03-18 | 平安科技(深圳)有限公司 | 信息挖掘方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
MY195917A (en) | Blockchain-Based Data Processing Method And Device | |
AU2018212531A8 (en) | Data content filter | |
PH12019501499A1 (en) | Blockchain consensus method and device | |
PH12018501058A1 (en) | Order clustering and malicious information combating method and apparatus | |
CN105354314B (zh) | 数据迁移方法及装置 | |
MY190598A (en) | Blockchain data processing method and apparatus | |
MX2020010311A (es) | Integracion de datos biometricos en un sistema de cadena de bloques. | |
GB201011179D0 (en) | Method of optimizing data flow between a software application and a database server | |
CN104036025A (zh) | 一种基于分布式的海量日志采集系统 | |
CN110399268B (zh) | 一种异常数据检测的方法、装置及设备 | |
WO2017040632A3 (en) | Event categorization and key prospect identification from storylines | |
WO2014150250A3 (en) | Method and apparatus for substitution scheme for anonymizing personally identifiable information | |
PH12016501202A1 (en) | Discovering a business relationship network, and assessing a relevance of a relationship | |
MX2014010373A (es) | Derivaciones agregadas flexibles basadas en tiempo para analisis avanzado. | |
MY188175A (en) | Virtual currency system | |
IN2014MU03392A (zh) | ||
SG10201901932XA (en) | Data module management for data processing system | |
CN103942707B8 (zh) | 基于实时竞价的广告效果优化系统 | |
CN103440197B (zh) | 一种基于对比测试自动生成差异测试报告的方法 | |
US20130325890A1 (en) | Leveraging persisted data queries in stream-based complex event processing | |
GB2565482A (en) | Attribute matching | |
CN108073619A (zh) | 一种基于图数据结构的数据映射方法 | |
Harth et al. | On-the-fly integration of static and dynamic sources | |
WO2015036843A3 (en) | Sales order data collection and management system | |
MY179263A (en) | System and method for provisioning credit |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180525 |