CN111274213B - 一种分布式文件系统HDFS跨Insight集群实时数据传输方法与系统 - Google Patents

一种分布式文件系统HDFS跨Insight集群实时数据传输方法与系统 Download PDF

Info

Publication number
CN111274213B
CN111274213B CN202010091366.XA CN202010091366A CN111274213B CN 111274213 B CN111274213 B CN 111274213B CN 202010091366 A CN202010091366 A CN 202010091366A CN 111274213 B CN111274213 B CN 111274213B
Authority
CN
China
Prior art keywords
line
file
data
offset
add
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010091366.XA
Other languages
English (en)
Other versions
CN111274213A (zh
Inventor
李二真
张东东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010091366.XA priority Critical patent/CN111274213B/zh
Publication of CN111274213A publication Critical patent/CN111274213A/zh
Application granted granted Critical
Publication of CN111274213B publication Critical patent/CN111274213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/176Support for shared access to files; File sharing support
    • G06F16/1767Concurrency control, e.g. optimistic or pessimistic approaches
    • G06F16/1774Locking methods, e.g. locking methods for file systems allowing shared and concurrent access to files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/119Details of migration of file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种分布式文件系统HDFS跨Insight集群实时数据传输方法与系统,本发明提供实现云海Insight平台分布式文件系统HDFS跨Insight集群实时数据传输的自动化方法,通过执行jar包,将HDFS文件在不同Insight集群间进行实时传输,设置add线路和update线路,利用add线路进行数据文件的实时传输,利用update线路监测源文件与目标文件的差异数据,当存在差异数据时,利用锁定机制将add线路进行锁定,待update线路执行完成后,add线路解锁,从而实现数据文件的自动化传输,提高执行效率,节约人力资源,保证产品质量。

Description

一种分布式文件系统HDFS跨Insight集群实时数据传输方法 与系统
技术领域
本发明涉及云平台数据传输技术领域,特别是一种分布式文件系统HDFS跨Insight集群实时数据传输方法与系统。
背景技术
云海Insight平台的分布式文件系统HDFS(Hadoop Distributed File System)在不同集群之间的数据传输时集群海量数据迁移的重要一项工作。传统方式传输海量数据方式为人工操作,需将海量数据下载至本地,再通过人工操作逐个迁移海量数据文件上传至另一个集群,达到集群间横向传输数据的目的。
但手工的跨集群数据传输操作方式都存在人工操作的不确定性、数据丢失风险性和时耗性,且操作过程存在重复性操作,过程繁琐,人工记录信息容易出错,且不容易分辨,成为云海Insight平台的分布式文件系统HDFS跨集群数据传输过程中要求很高的一项工作,且整个过程没有日志记录,一旦操作失败,则需要重新复盘操作,极为耗时耗力。
发明内容
本发明的目的是提供一种分布式文件系统HDFS跨Insight集群实时数据传输方法与系统,旨在解决现有技术中手工跨集群数据传输存在不确定性、数据丢失风险性以及时耗性的问题,实现数据文件的自动化传输,提高执行效率。
为达到上述技术目的,本发明提供了一种分布式文件系统HDFS跨Insight集群实时数据传输方法,所述方法包括以下操作:
获取源文件属性,设置目标文件属性以及文件读取策略;
设置add线路,每秒传输lines行数据至目标文件,且每执行一次其offset行数值加lines,当源文件总行数小于offset值时,停止传输数据,而当源文件总行数增加时,继续执行该线路;
设置update线路,每秒对比源文件和目标文件的前offset行数据,如果不一致,则将add线路锁定,并将差异数据更新至目标文件,待无差异后,解锁add线路。
优选地,所述源文件属性包括源文件当前总行数,所述目标文件属性包括文件偏移量offset、每秒读取行数。
优选地,所述add线路和update线路的检测为并行进行,当update线路检测需要执行任务,则add线路将处于锁定状态,待update线路执行完成后,add线路解锁。
本发明还提供了一种分布式文件系统HDFS跨Insight集群实时数据传输系统,所述系统包括:
文件属性获取模块,用于获取源文件属性,设置目标文件属性以及文件读取策略;
数据添加模块,用于设置add线路,每秒传输lines行数据至目标文件,且每执行一次其offset行数值加lines,当源文件总行数小于offset值时,停止传输数据,而当源文件总行数增加时,继续执行该线路;
数据更新模块,用于设置update线路,每秒对比源文件和目标文件的前offset行数据,如果不一致,则将add线路锁定,并将差异数据更新至目标文件,待无差异后,解锁add线路。
优选地,所述源文件属性包括源文件当前总行数,所述目标文件属性包括文件偏移量offset、每秒读取行数。
优选地,所述add线路和update线路的检测为并行进行,当update线路检测需要执行任务,则add线路将处于锁定状态,待update线路执行完成后,add线路解锁。
本发明还提供了一种分布式文件系统HDFS跨Insight集群实时数据传输设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现所述的分布式文件系统HDFS跨Insight集群实时数据传输方法。
本发明还提供了一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现所述的分布式文件系统HDFS跨Insight集群实时数据传输方法。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
与现有技术相比,本发明提供实现云海Insight平台分布式文件系统HDFS跨Insight集群实时数据传输的自动化方法,通过执行jar包,将HDFS文件在不同Insight集群间进行实时传输,设置add线路和update线路,利用add线路进行数据文件的实时传输,利用update线路监测源文件与目标文件的差异数据,当存在差异数据时,利用锁定机制将add线路进行锁定,待update线路执行完成后,add线路解锁,从而实现数据文件的自动化传输,提高执行效率,节约人力资源,保证产品质量。
附图说明
图1为本发明实施例中所提供的一种分布式文件系统HDFS跨Insight集群实时数据传输方法流程图;
图2为本发明实施例中所提供的一种分布式文件系统HDFS跨Insight集群实时数据传输系统框图。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
下面结合附图对本发明实施例所提供的一种分布式文件系统HDFS跨Insight集群实时数据传输方法与系统进行详细说明。
如图1所示,本发明公开了一种分布式文件系统HDFS跨Insight集群实时数据传输方法,所述方法包括以下操作:
获取源文件属性,设置目标文件属性以及文件读取策略;
设置add线路,每秒传输lines行数据至目标文件,且每执行一次其offset行数值加lines,当源文件总行数小于offset值时,停止传输数据,而当源文件总行数增加时,继续执行该线路;
设置update线路,每秒对比源文件和目标文件的前offset行数据,如果不一致,则将add线路锁定,并将差异数据更新至目标文件,待无差异后,解锁add线路。
本发明实施例通过以脚本形式,在Insight集群中执行jar包的方式来进行HDFS文件实时传输任务的执行,实时展现调度过程及结果。
首先进行源文件属性获取以及目标文件属性设置,以此为执行策略提供执行数据支撑。实时获取源文件当前总行数为count,设置目标文件读取文件偏移量offset,其默认值为0,设置目标文件每秒读取行数为lines,设置文件读取策略,默认值为both。
读取策略并行,其执行利用锁机制串行。
线程一add线路,每秒传输lines行数据至目标文件,每执行一次,线路读取文件偏移量offset值加上行数lines,当源文件总行数count<offset时,停止传输数据,每秒获取一次总行数count,并与上一次获取的总行数count进行对比,一旦增加,则继续执行该线路。
线程二update线路,每秒对比一次源文件和目标文件的前offset行数据,一旦检测到结果不一致,则进行add线路锁定,并将差异行的数据更新至目标文件,待检测到前offset行数据无差异行后,则进行add线路解锁。
add线路和update线路的检测机制是并行的,一旦update线路检测需要执行任务,则add线路将处于锁定状态,待update线路执行完成后,add线路解锁。
本发明提供实现云海Insight平台分布式文件系统HDFS跨Insight集群实时数据传输的自动化方法,通过执行jar包,将HDFS文件在不同Insight集群间进行实时传输,设置add线路和update线路,利用add线路进行数据文件的实时传输,利用update线路监测源文件与目标文件的差异数据,当存在差异数据时,利用锁定机制将add线路进行锁定,待update线路执行完成后,add线路解锁,从而实现数据文件的自动化传输,提高执行效率,节约人力资源,保证产品质量。
如图2所示,本发明实施例还公开了一种分布式文件系统HDFS跨Insight集群实时数据传输系统,所述系统包括:
文件属性获取模块,用于获取源文件属性,设置目标文件属性以及文件读取策略;
数据添加模块,用于设置add线路,每秒传输lines行数据至目标文件,且每执行一次线路读取文件offset行数值加lines,当源文件总行数小于offset值时,停止传输数据,而当源文件总行数增加时,继续执行该线路;
数据更新模块,用于设置update线路,每秒对比源文件和目标文件的前offset行数据,如果不一致,则将add线路锁定,并将差异数据更新至目标文件,待无差异后,解锁add线路。
首先进行源文件属性获取以及目标文件属性设置,以此为执行策略提供执行数据支撑。实时获取源文件当前总行数为count,设置目标文件读取文件偏移量offset,其默认值为0,设置目标文件每秒读取行数为lines,设置文件读取策略,默认值为both。
读取策略并行,其执行利用锁机制串行。
线程一add线路,每秒传输lines行数据至目标文件,每执行一次,其偏移量offset值加上行数lines,当源文件总行数count<offset时,停止传输数据,每秒获取一次总行数count,并与上一次获取的总行数count进行对比,一旦增加,则继续执行该线路。
线程二update线路,每秒对比一次源文件和目标文件的前offset行数据,一旦检测到结果不一致,则进行add线路锁定,并将差异行的数据更新至目标文件,待检测到前offset行数据无差异行后,则进行add线路解锁。
add线路和update线路的检测机制是并行的,一旦update线路检测需要执行任务,则add线路将处于锁定状态,待update线路执行完成后,add线路解锁。
本发明实施例还提供了一种分布式文件系统HDFS跨Insight集群实时数据传输设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现所述的分布式文件系统HDFS跨Insight集群实时数据传输方法。
本发明实施例还提供了一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现所述的分布式文件系统HDFS跨Insight集群实时数据传输方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种分布式文件系统HDFS跨Insight集群实时数据传输方法,其特征在于,所述方法包括以下操作:
获取源文件属性,设置目标文件属性以及文件读取策略;
设置add线路,每秒传输lines行数据至目标文件,且每执行一次其offset行数值加lines,当源文件总行数小于offset值时,停止传输数据,而当源文件总行数增加时,继续执行该线路;
设置update线路,每秒对比源文件和目标文件的前offset行数据,如果不一致,则将add线路锁定,并将差异数据更新至目标文件,待无差异后,解锁add线路;
所述add线路和update线路的检测为并行进行,当update线路检测需要执行任务,则add线路将处于锁定状态,待update线路执行完成后,add线路解锁。
2.根据权利要求1所述的一种分布式文件系统HDFS跨Insight集群实时数据传输方法,其特征在于,所述源文件属性包括源文件当前总行数,所述目标文件属性包括文件偏移量offset、每秒读取行数。
3.一种分布式文件系统HDFS跨Insight集群实时数据传输系统,其特征在于,所述系统包括:
文件属性获取模块,用于获取源文件属性,设置目标文件属性以及文件读取策略;
数据添加模块,用于设置add线路,每秒传输lines行数据至目标文件,且每执行一次其offset行数值加lines,当源文件总行数小于offset值时,停止传输数据,而当源文件总行数增加时,继续执行该线路;
数据更新模块,用于设置update线路,每秒对比源文件和目标文件的前offset行数据,如果不一致,则将add线路锁定,并将差异数据更新至目标文件,待无差异后,解锁add线路;所述add线路和update线路的检测为并行进行,当update线路检测需要执行任务,则add线路将处于锁定状态,待update线路执行完成后,add线路解锁。
4.根据权利要求3所述的一种分布式文件系统HDFS跨Insight集群实时数据传输系统,其特征在于,所述源文件属性包括源文件当前总行数,所述目标文件属性包括文件偏移量offset、每秒读取行数。
5.一种分布式文件系统HDFS跨Insight集群实时数据传输设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现根据权利要求1或2所述的分布式文件系统HDFS跨Insight集群实时数据传输方法。
6.一种可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现根据权利要求1或2所述的分布式文件系统HDFS跨Insight集群实时数据传输方法。
CN202010091366.XA 2020-02-13 2020-02-13 一种分布式文件系统HDFS跨Insight集群实时数据传输方法与系统 Active CN111274213B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010091366.XA CN111274213B (zh) 2020-02-13 2020-02-13 一种分布式文件系统HDFS跨Insight集群实时数据传输方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010091366.XA CN111274213B (zh) 2020-02-13 2020-02-13 一种分布式文件系统HDFS跨Insight集群实时数据传输方法与系统

Publications (2)

Publication Number Publication Date
CN111274213A CN111274213A (zh) 2020-06-12
CN111274213B true CN111274213B (zh) 2022-07-15

Family

ID=71002443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010091366.XA Active CN111274213B (zh) 2020-02-13 2020-02-13 一种分布式文件系统HDFS跨Insight集群实时数据传输方法与系统

Country Status (1)

Country Link
CN (1) CN111274213B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239493A (zh) * 2014-09-09 2014-12-24 北京京东尚科信息技术有限公司 跨集群数据迁移方法和系统
CN105718507A (zh) * 2016-01-06 2016-06-29 杭州数梦工场科技有限公司 一种数据迁移方法和装置
CN106294445A (zh) * 2015-05-27 2017-01-04 华为技术有限公司 基于跨机房Hadoop集群的数据存储的方法及装置
CN110162517A (zh) * 2019-05-30 2019-08-23 深圳前海微众银行股份有限公司 数据迁移方法、装置、设备及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239493A (zh) * 2014-09-09 2014-12-24 北京京东尚科信息技术有限公司 跨集群数据迁移方法和系统
CN106294445A (zh) * 2015-05-27 2017-01-04 华为技术有限公司 基于跨机房Hadoop集群的数据存储的方法及装置
CN105718507A (zh) * 2016-01-06 2016-06-29 杭州数梦工场科技有限公司 一种数据迁移方法和装置
CN110162517A (zh) * 2019-05-30 2019-08-23 深圳前海微众银行股份有限公司 数据迁移方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN111274213A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
KR102136941B1 (ko) 분산 데이터베이스 시스템을 갖는 네트워크에서 데이터베이스 접근 제어를 제공하기 위한 방법 및 아키텍처
US9875186B2 (en) System and method for data caching in processing nodes of a massively parallel processing (MPP) database system
CN104036029B (zh) 大数据一致性对比方法和系统
CN108595664B (zh) 一种hadoop环境下的农业数据监控方法
CN112286941B (zh) 一种基于Binlog+HBase+Hive的大数据同步方法和装置
US20130227194A1 (en) Active non-volatile memory post-processing
CN109933632B (zh) 一种数据库的数据迁移方法、装置及设备
Abramova et al. Testing cloud benchmark scalability with cassandra
CN107515874A (zh) 一种分布式非关系型数据库中同步增量数据的方法与设备
CN112910724B (zh) 区块链网络的压力测试方法及装置、系统
EP3678030A1 (en) Distributed system for executing machine learning, and method therefor
CN108519987A (zh) 一种数据持久化方法和装置
CN107193494A (zh) 一种基于ssd和hdd混合存储系统的rdd持久化方法
CN108021431B (zh) 基于Web数据交互管理Hive的方法及其系统
CN111274213B (zh) 一种分布式文件系统HDFS跨Insight集群实时数据传输方法与系统
CN103488564A (zh) 一种分布式实时测试系统多路测试数据压缩与归并方法
CN105868283B (zh) 一种应用于舰船结构应力监测与评估的数据处理方法
CN112558869A (zh) 基于大数据遥感影像缓存方法
CN107179883A (zh) 一种基于SSD和HDD的混合存储系统的Spark架构优化方法
Fiannaca et al. Benchmarking of relational and nosql databases to determine constraints for querying robot execution logs
WO2022253165A1 (zh) 调度方法、系统、服务器和计算机可读存储介质
US11294885B2 (en) Transactional integrity in a segmented database architecture
CN105279103A (zh) 一种数据管理方法及装置
CN116932779B (zh) 知识图谱的数据处理方法和装置
DE112010004013T5 (de) Prozessintegrität in einem Mehrprozessorsystem

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant