CN111061812B - 大数据分布式存储方法、装置、电子设备、存储介质 - Google Patents

大数据分布式存储方法、装置、电子设备、存储介质 Download PDF

Info

Publication number
CN111061812B
CN111061812B CN201911297666.7A CN201911297666A CN111061812B CN 111061812 B CN111061812 B CN 111061812B CN 201911297666 A CN201911297666 A CN 201911297666A CN 111061812 B CN111061812 B CN 111061812B
Authority
CN
China
Prior art keywords
stored
data
icon
data source
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911297666.7A
Other languages
English (en)
Other versions
CN111061812A (zh
Inventor
董延峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Manyun Software Technology Co Ltd
Original Assignee
Jiangsu Manyun Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Manyun Software Technology Co Ltd filed Critical Jiangsu Manyun Software Technology Co Ltd
Priority to CN201911297666.7A priority Critical patent/CN111061812B/zh
Publication of CN111061812A publication Critical patent/CN111061812A/zh
Application granted granted Critical
Publication of CN111061812B publication Critical patent/CN111061812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0486Drag-and-drop
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种大数据分布式存储方法、装置、电子设备、存储介质,大数据分布式存储方法包括:接收第一用户于用户交互界面输入的待储存数据源及该待储存数据源的存储地址;利用storm接入所述第一用户输入的待储存数据源,并消费待储存数据源的数据,将经消费的所述待储存数据源的数据写入大数据集群的分布式文件系统;以及所述分布式文件系统根据该待储存数据源的存储地址将所写入的待储存数据源的数据储存至大数据集群中。本发明提供的方法及装置在大数据储存过程中不存在缓存,从而实现实时的大数据分布式存储。

Description

大数据分布式存储方法、装置、电子设备、存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种大数据分布式存储方法、装置、电子设备、存储介质。
背景技术
近年来,随着信息时代的到来,对于大数据的相关数据处理能力对信息技术的发展尤为重要。
在大数据早期,对大数据的计算能力没有太多时间上的要求,对关系型数据库解决不了的海量数据计算,只要能够稳定计算完成即可,但是随着大数据技术栈的发展和原有技术的向前迭代,大数据用户对数据计算效率有了新的要求。
大数据技术目前主要使用分布式的模式在多台机器上并行计算,解决了以前关系型数据库解决不了的海量数据问题,利用hive(基于Hadoop的一个数据仓库工具)或spark(专为大规模数据处理而设计的快速通用的计算引擎)等计算引擎可以很快且稳定的输出结果。
目前,大数据集群使用多台物理机提供分布式的数据存储能力,数据要存储在大数据文件系统,使用文件上传的方式将单个或多个文件上传至分布式文件系统(hdfs)中,但是这种方式存在一定的数据延迟,要提前将文件写完才能上传;如果一个文件过大,那么可能会有小时级别的数据延迟。例如,在一些现有技术中,采用spark streaming技术来实现这一个功能的。然而,由于spark steaming技术是微批处理,这种微批的处理方式在spark内部也会延迟一个批次,没有实现真正的实时数据写入;即存在一定程度的数据延迟,批次间隔越大,数据量越大,延迟就越大。由此可见,spark streaming技术实际上是一种伪实时的储存方式。如此,海量数据传输到大数据平台上非常耗时,如果计算耗时很快,但是数据传输很慢,则会使大数据产出很慢,整体性能得不到提升。
由此可见,在大数据的相关数据处理能力中,大数据的存储传输能力是大数据算法的基石。如何实现数据存储的实时性提升,以带动整条链路的计算效率,从而满足用户对数据时效的要求是本领域亟待解决的问题。
发明内容
本发明为了克服上述相关技术存在的缺陷,提供一种大数据分布式存储方法、装置、电子设备、存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本发明的一个方面,提供一种大数据分布式存储方法,包括:
接收第一用户于用户交互界面输入的待储存数据源及该待储存数据源的存储地址;
利用storm接入所述第一用户输入的待储存数据源,并消费待储存数据源的数据,将经消费的所述待储存数据源的数据写入大数据集群的分布式文件系统;以及
所述分布式文件系统根据该待储存数据源的存储地址将所写入的待储存数据源的数据储存至大数据集群中。
在本发明的一些实施例中,所述用户交互界面于网页上提供。
在本发明的一些实施例中,所述接收第一用户于用户交互界面输入的待储存数据源及该待储存数据源的存储地址之后,且所述利用storm接入所述第一用户输入的待储存数据源,并消费待储存数据源的数据,将经消费的所述待储存数据源的数据写入大数据集群的分布式文件系统之前,还包括:
接收第二用户对所述第一用户输入的待储存数据源及该待储存数据源的存储地址的审核数据。
在本发明的一些实施例中,所述利用storm接入所述第一用户输入的待储存数据源,并消费待储存数据源的数据,将经消费的所述待储存数据源的数据写入大数据集群的分布式文件系统包括:
基于ack机制消费待储存数据源的数据,并将经消费的所述待储存数据源的数据写入大数据集群的分布式文件系统;和/或
基于反压机制消费待储存数据源的数据,并将经消费的所述待储存数据源的数据写入大数据集群的分布式文件系统。
在本发明的一些实施例中,所述用户交互界面提供待储存数据源及该待储存数据源的存储地址关联关系的可视化展示,所述大数据分布式存储方法还包括:
实时接收第一用户于所述用户交互界面对待储存数据源及该待储存数据源的存储地址之间关联关系的修改,以使所述分布式文件系统根据经修改的待储存数据源及该待储存数据源的存储地址之间关联关系,将待储存数据源的数据储存至大数据集群中。
在本发明的一些实施例中,所述待储存数据源以第一图标显示于所述用户交互界面,所述存储地址以第二图标显示于所述用户交互界面,
其中,接收第一用户对所述第一图标的拖曳操作,当所述第一图标与一第二图标之间的距离小于第一预定距离时,生成该第一图标与该第二图标之间的可视化连线,并使自动使该第一图标显示于该第二图标的第二预定距离处,从而生成该第一图标的待储存数据源与该第二图标的存储地址之间的关联关系,
其中,当该第二图标的存储地址对应关联多个待储存数据源时,各第一图标基于关联关系建立的时间,按顺时针顺序,以放射状显示于第二图标的周围。
在本发明的一些实施例中,所述实时接收第一用户于所述用户交互界面对待储存数据源及该待储存数据源的存储地址之间关联关系的修改包括:
实时接收所述第一用户于所述用户交互界面对已呈放射状显示于第二图标周围的第一图标的选择,释放该第一图标的待储存数据源与该第二图标的存储地址之间的关联关系,消除该第一图标与该第二图标之间的可视化连线,并使该第二图标的存储地址在该第一图标的待储存数据源重新关联一第二图标的存储地址之前,对该第一图标的待储存数据源保持锁定;
接收第一用户对该第一图标的拖曳操作,当该第一图标与另一第二图标之间的距离小于所述第一预定距离时,生成该第一图标与该另一第二图标之间的可视化连线,并使自动使该第一图标显示于该另一第二图标的第二预定距离处,从而生成该第一图标的待储存数据源与该另一第二图标的存储地址之间的关联关系。
根据本发明的又一方面,还提供一种大数据分布式存储装置,包括:
接收模块,用于接收第一用户于用户交互界面输入的待储存数据源及该待储存数据源的存储地址;
Storm模块,用于利用storm接入所述第一用户输入的待储存数据源,并消费待储存数据源的数据,将经消费的所述待储存数据源的数据写入大数据集群的分布式文件系统;以及
分布式文件系统模块,用于根据该待储存数据源的存储地址将所写入的待储存数据源的数据储存至大数据集群中。
根据本发明的又一方面,还提供一种电子设备,所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如上所述的步骤。
根据本发明的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述的步骤。
相比现有技术,本发明的优势在于:
一方面,本发明通过采用storm技术自数据员读取数据写入大数据集群,在链路上没有任何一个环节缓存数据,所以写入数据更快,由此,提升数据写入大数据的速率,相对与spark真正实现了流处理;另一方面,本发明通过用户交互界面输入待储存数据源及该待储存数据源的存储地址,简化了部署流程,便于用户操作以能够尽快上线应用于生产。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1示出了根据本发明实施例的大数据分布式存储方法的流程图。
图2至图7示出了根据本发明实施例的大数据分布式存储中待储存数据源及存储地址的关联关系的生产与修改的示意图。
图8示出了根据本发明实施例的大数据分布式存储装置的模块图。
图9示意性示出本发明示例性实施例中一种计算机可读存储介质示意图。
图10示意性示出本发明示例性实施例中一种电子设备示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此,实际执行的顺序有可能根据实际情况改变。
图1示出了根据本发明实施例的大数据分布式存储方法的流程图。大数据分布式存储方法包括如下步骤:
步骤S110:接收第一用户于用户交互界面输入的待储存数据源及该待储存数据源的存储地址;
步骤S120:利用storm接入所述第一用户输入的待储存数据源,并消费待储存数据源的数据,将经消费的所述待储存数据源的数据写入大数据集群的分布式文件系统;以及
步骤S130:所述分布式文件系统根据该待储存数据源的存储地址将所写入的待储存数据源的数据储存至大数据集群中。
在本发明提供的大数据分布式存储方法中,一方面,本发明通过采用storm技术自数据员读取数据写入大数据集群,在链路上没有任何一个环节缓存数据,所以写入数据更快,由此,提升数据写入大数据的速率,相对与spark真正实现了流处理;另一方面,本发明通过用户交互界面输入待储存数据源及该待储存数据源的存储地址,简化了部署流程,便于用户操作以能够尽快上线应用于生产。
在本发明的一些实施例中,所述用户交互界面于网页上提供。由此,第一用户可以在网页提供的用户交互界面上,自主部署实时任务。优选地,在用户交互界面仅显示业务数据的输入,以便第一用户仅关注业务数据。所述的业务数据至少包括数据源及存储地。
在本发明的上述实施例中,还可以包括管理员审核的步骤。具体而言,在步骤S110接收第一用户于用户交互界面输入的待储存数据源及该待储存数据源的存储地址之后,且在步骤S120利用storm接入所述第一用户输入的待储存数据源,并消费待储存数据源的数据,将经消费的所述待储存数据源的数据写入大数据集群的分布式文件系统之前,还可以包括:接收第二用户对所述第一用户输入的待储存数据源及该待储存数据源的存储地址的审核数据。在该实施例中,第二用户具有管理员权限,第二用户审批通过之后,可以通过点击发布等操作以允许步骤S110中输入的任务的发布上线的执行。
在本发明的一些实施例中,利用storm技术实现数据源的读取中可支持的数据源的类型可以包括mysql、kafka、rabbitMQ、rocketMQ等。
前述的步骤S120利用storm接入所述第一用户输入的待储存数据源,并消费待储存数据源的数据,将经消费的所述待储存数据源的数据写入大数据集群的分布式文件系统包括:基于ack机制消费待储存数据源的数据,并将经消费的所述待储存数据源的数据写入大数据集群的分布式文件系统。ack机制中,storm的spout发送出去的每一条消息,都可以确定是被成功处理或失败处理,从而可以让开发者采取动作。因此,通过Ack机制,很容易做到保证所有数据均被处理,一条都不漏。具体而言,spout发送的每一条消息,在规定的时间内,spout收到Acker的ack响应,即认为该条数据被成功处理;在规定的时间内,没有收到Acker的ack响应的数据,就触发失败动作,即认为该条数据处理失败;收到Acker发送的失败响应数据,也认为失败,触发失败动作。
前述的步骤S120利用storm接入所述第一用户输入的待储存数据源,并消费待储存数据源的数据,将经消费的所述待储存数据源的数据写入大数据集群的分布式文件系统还可以包括:基于反压机制消费待储存数据源的数据,并将经消费的所述待储存数据源的数据写入大数据集群的分布式文件系统。反压机制通过监听降低数据的写入速度。
上述两个实施例可以单独或组合来实现,从而实现程序的稳定运行,本发明并非以此为限制。
在本发明的一些实施例中,上述步骤S130中可以根据数据时间区分写入数据的文件路径和文件。例如,可以在数据中解析出日志的时间,根据时间生成路径,如下述示意性代码:
${base_path}/${table_name}/dt=${yyyy-MM-dd}/hour=${hour},并写入文件到该目录下;
注释:base_path为固定的根目录
table_name为传入的参数
yyyy-MM-dd为从时间字段中解析出的年-月-日
hour从时间字段中解析出的小时
在本发明的一些具体实现中,上述步骤主要使用Spring Boot+Mybatis技术进行业务逻辑开发。开发可以分为三个模块,common模块、job模块及web模块。Web模块主要是跟前端交互提供模板管理、项目管理、任务增删改及发布的接口,由此,通过前端界面进行任务的提交及发布。Common模块包括通用的工具类、项目中使用的常量及配置信息等。Job模块则主要根据用户提交的任务信息,最终在拼接程相应的.properties配置文件以及.sh的执行脚本,并通过jdk自带的ProcessBuilder启动相应的线程,执行任务。以上仅仅是本发明的一个具体实现方式,本发明并非以此为限制。
为了便于用户能够直观得进行操作,本发明还进一步优化专用于待储存数据源及存储地址的输入、其关联关系的生成、修改的用户交互界面,下面结合图2至图7对本发明实施例的用户交互界面进行描述。
在本实施例中,所述用户交互界面200提供待储存数据源及该待储存数据源的存储地址关联关系的可视化展示。具体而言,所述待储存数据源以第一图标210显示于所述用户交互界面200,所述存储地址以第二图标220显示于所述用户交互界面200。用户交互界面200例如还可以划分为两个区域,以在各自的区域内分别显示第一图标210和第二图标220,从而在后续的关联步骤中,仅当第一图标210进入第二图标220的区域内,再触发关联步骤的操作/触控判断。
在本实施例中,上述步骤S110中,可以在用户交互界面200提供多个数据源的第一图标210和多个存储地址的第二图标220,根据第一用户的如下操作,以将第一图标210和第二图标220关联,从而生成存储任务以便步骤S120和步骤S130的执行。
具体而言,可以接收第一用户对所述第一图标210的拖曳操作,当所述第一图标210与一第二图标220之间的距离小于第一预定距离D1时,生成该第一图标210与该第二图标220之间的可视化连线,并使自动使该第一图标210显示于该第二图标220的第二预定距离D2处,从而生成该第一图标210的待储存数据源与该第二图标220的存储地址之间的关联关系。当该第二图标220的存储地址对应关联多个待储存数据源时,各第一图标210基于关联关系建立的时间,按顺时针顺序,以放射状显示于第二图标220的周围。由此,通过可视化显示的方式展示待储存数据源和存储地址之间的对应关系,进一步地,当各第一图标210以布满第二图标220的周围时,新关联的第一图标210可以按顺时针顺序,以第二层放射状显示于第二图标220的周围。在一些变化例中,也可以减少各第一图标210的尺寸,以便新关联的第一图标210的加入显示。在本发明的一个具体实现中,在第二图标220的周围还可以扇形显示该存储地址的数据存储的已储存容量(例如扇形的圆心角显示该存储地址的数据存储的已储存容量,360度的圆表示该存储地址的数据存储已满),根据该扇形显示及放射状的第一图标210的显示对比,供用户直观了解存储的数据源、存储的数据源的顺序及已储存容量。在该实施例中,各第二图标220之间的距离大于2D1。第二预定距离D2小于第一预定距离D1。
在上述实施例中,所述大数据分布式存储方法还可以包括如下步骤:实时接收第一用户于所述用户交互界面对待储存数据源及该待储存数据源的存储地址之间关联关系的修改,以使所述分布式文件系统根据经修改的待储存数据源及该待储存数据源的存储地址之间关联关系,将待储存数据源的数据储存至大数据集群中。具体而言,所述实时接收第一用户于所述用户交互界面对待储存数据源及该待储存数据源的存储地址之间关联关系的修改包括:实时接收所述第一用户于所述用户交互界面200对已呈放射状显示于第二图标220周围的第一图标210的选择,释放该第一图标210的待储存数据源与该第二图标220的存储地址之间的关联关系(此时,缓存来自该第一图标210的数据源),消除该第一图标210与该第二图标220之间的可视化连线,并使该第二图标220的存储地址在该第一图标210的待储存数据源重新关联一第二图标220的存储地址之前,对该第一图标210的待储存数据源保持锁定(锁定表示该第一图标210与该第二图标220无法关联),然后,接收第一用户对该第一图标210的拖曳操作,当该第一图标210与另一第二图标220之间的距离小于所述第一预定距离D1时,生成该第一图标210与该另一第二图标220之间的可视化连线,并使自动使该第一图标210显示于该另一第二图标220的第二预定距离D2处,从而生成该第一图标210的待储存数据源与该另一第二图标220的存储地址之间的关联关系(此时,将所缓存的来自该第一图标210的数据源存入另一第二图标220的存储地址)。由此,结合用户在用户交互界面上对可视化的第一图标和第二图标的操作使得其关联关系发生变化的同时,实时进行的数据读取和数据存储仍然能够实时进行。
上仅仅是本发明提供的一个或多个具体实现方式,本发明并非以为限制。
根据本发明的又一方面,还提供一种大数据分布式存储装置,图3示出了根据本发明实施例的大数据分布式存储装置的模块图。大数据分布式存储装置300包括接收模块310Storm模块320以及分布式文件系统模块330。
接收模块310用于接收第一用户于用户交互界面输入的待储存数据源及该待储存数据源的存储地址;
Storm模块320用于利用storm接入所述第一用户输入的待储存数据源,并消费待储存数据源的数据,将经消费的所述待储存数据源的数据写入大数据集群的分布式文件系统;以及
分布式文件系统模块330用于根据该待储存数据源的存储地址将所写入的待储存数据源的数据储存至大数据集群中。
在本发明提供的大数据分布式存储装置中,一方面,本发明通过采用storm技术自数据员读取数据写入大数据集群,在链路上没有任何一个环节缓存数据,所以写入数据更快,由此,提升数据写入大数据的速率,相对与spark真正实现了流处理;另一方面,本发明通过用户交互界面输入待储存数据源及该待储存数据源的存储地址,简化了部署流程,便于用户操作以能够尽快上线应用于生产。
图8仅仅是示意性的示出本发明提供的大数据分布式存储装置300,在不违背本发明构思的前提下,模块的拆分、合并、增加都在本发明的保护范围之内。本发明提供的大数据分布式存储装置300可以由软件、硬件、固件、插件及他们之间的任意组合来实现,本发明并非以此为限。
在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被例如处理器执行时可以实现上述任意一个实施例中所述大数据分布式存储方法及大数据分布式存储方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述大数据分布式存储方法及大数据分布式存储方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图9所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在租户计算设备上执行、部分地在租户设备上执行、作为一个独立的软件包执行、部分在租户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到租户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本发明的示例性实施例中,还提供一种电子设备,该电子设备可以包括处理器,以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中所述大数据分布式存储方法及大数据分布式存储方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图10来描述根据本发明的这种实施方式的电子设备500。图10显示的电子设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:至少一个处理单元510、至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530、显示单元540等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书上述大数据分布式存储方法及大数据分布式存储方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元510可以执行如图1或图2所示的步骤。
所述存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(ROM)5203。
所述存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备500也可以与一个或多个外部设备600(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得租户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。并且,电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器560可以通过总线530与电子设备500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明实施方式的上述大数据分布式存储方法及大数据分布式存储方法。
相比现有技术,本发明的优势在于:
一方面,本发明通过采用storm技术自数据员读取数据写入大数据集群,在链路上没有任何一个环节缓存数据,所以写入数据更快,由此,提升数据写入大数据的速率,相对与spark真正实现了流处理;另一方面,本发明通过用户交互界面输入待储存数据源及该待储存数据源的存储地址,简化了部署流程,便于用户操作以能够尽快上线应用于生产。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。

Claims (8)

1.一种大数据分布式存储方法,其特征在于,包括:
接收第一用户于用户交互界面输入的待储存数据源及该待储存数据源的存储地址;
利用storm接入所述第一用户输入的待储存数据源,并消费待储存数据源的数据,将经消费的所述待储存数据源的数据写入大数据集群的分布式文件系统;以及
所述分布式文件系统根据该待储存数据源的存储地址将所写入的待储存数据源的数据储存至大数据集群中,
其中,所述用户交互界面提供待储存数据源及该待储存数据源的存储地址关联关系的可视化展示,所述大数据分布式存储方法还包括:
实时接收第一用户于所述用户交互界面对待储存数据源及该待储存数据源的存储地址之间关联关系的修改,以使所述分布式文件系统根据经修改的待储存数据源及该待储存数据源的存储地址之间关联关系,将待储存数据源的数据储存至大数据集群中,
所述待储存数据源以第一图标显示于所述用户交互界面,所述存储地址以第二图标显示于所述用户交互界面,
其中,接收第一用户对所述第一图标的拖曳操作,当所述第一图标与一第二图标之间的距离小于第一预定距离时,生成该第一图标与该第二图标之间的可视化连线,并使自动使该第一图标显示于该第二图标的第二预定距离处,从而生成该第一图标的待储存数据源与该第二图标的存储地址之间的关联关系,
其中,当该第二图标的存储地址对应关联多个待储存数据源时,各第一图标基于关联关系建立的时间,按顺时针顺序,以放射状显示于第二图标的周围。
2.如权利要求1所述的大数据分布式存储方法,其特征在于,所述用户交互界面于网页上提供。
3.如权利要求1所述的大数据分布式存储方法,其特征在于,所述接收第一用户于用户交互界面输入的待储存数据源及该待储存数据源的存储地址之后,且所述利用storm接入所述第一用户输入的待储存数据源,并消费待储存数据源的数据,将经消费的所述待储存数据源的数据写入大数据集群的分布式文件系统之前,还包括:
接收第二用户对所述第一用户输入的待储存数据源及该待储存数据源的存储地址的审核数据。
4.如权利要求1所述的大数据分布式存储方法,其特征在于,所述利用storm接入所述第一用户输入的待储存数据源,并消费待储存数据源的数据,将经消费的所述待储存数据源的数据写入大数据集群的分布式文件系统包括:
基于ack机制消费待储存数据源的数据,并将经消费的所述待储存数据源的数据写入大数据集群的分布式文件系统;和/或
基于反压机制消费待储存数据源的数据,并将经消费的所述待储存数据源的数据写入大数据集群的分布式文件系统。
5.如权利要求1所述的大数据分布式存储方法,其特征在于,所述实时接收第一用户于所述用户交互界面对待储存数据源及该待储存数据源的存储地址之间关联关系的修改包括:
实时接收所述第一用户于所述用户交互界面对已呈放射状显示于第二图标周围的第一图标的选择,释放该第一图标的待储存数据源与该第二图标的存储地址之间的关联关系,消除该第一图标与该第二图标之间的可视化连线,并使该第二图标的存储地址在该第一图标的待储存数据源重新关联一第二图标的存储地址之前,对该第一图标的待储存数据源保持锁定;
接收第一用户对该第一图标的拖曳操作,当该第一图标与另一第二图标之间的距离小于所述第一预定距离时,生成该第一图标与该另一第二图标之间的可视化连线,并使自动使该第一图标显示于该另一第二图标的第二预定距离处,从而生成该第一图标的待储存数据源与该另一第二图标的存储地址之间的关联关系。
6.一种大数据分布式存储装置,其特征在于,包括:
接收模块,用于接收第一用户于用户交互界面输入的待储存数据源及该待储存数据源的存储地址;
Storm模块,用于利用storm接入所述第一用户输入的待储存数据源,并消费待储存数据源的数据,将经消费的所述待储存数据源的数据写入大数据集群的分布式文件系统;以及
分布式文件系统模块,用于根据该待储存数据源的存储地址将所写入的待储存数据源的数据储存至大数据集群中,
其中,所述用户交互界面提供待储存数据源及该待储存数据源的存储地址关联关系的可视化展示,所述大数据分布式存储装置还用于:
实时接收第一用户于所述用户交互界面对待储存数据源及该待储存数据源的存储地址之间关联关系的修改,以使所述分布式文件系统根据经修改的待储存数据源及该待储存数据源的存储地址之间关联关系,将待储存数据源的数据储存至大数据集群中,
所述待储存数据源以第一图标显示于所述用户交互界面,所述存储地址以第二图标显示于所述用户交互界面,
其中,接收第一用户对所述第一图标的拖曳操作,当所述第一图标与一第二图标之间的距离小于第一预定距离时,生成该第一图标与该第二图标之间的可视化连线,并使自动使该第一图标显示于该第二图标的第二预定距离处,从而生成该第一图标的待储存数据源与该第二图标的存储地址之间的关联关系,
其中,当该第二图标的存储地址对应关联多个待储存数据源时,各第一图标基于关联关系建立的时间,按顺时针顺序,以放射状显示于第二图标的周围。
7.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如权利要求1至5任一项所述的大数据分布式存储方法。
8.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至5任一项所述的大数据分布式存储方法。
CN201911297666.7A 2019-12-17 2019-12-17 大数据分布式存储方法、装置、电子设备、存储介质 Active CN111061812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911297666.7A CN111061812B (zh) 2019-12-17 2019-12-17 大数据分布式存储方法、装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911297666.7A CN111061812B (zh) 2019-12-17 2019-12-17 大数据分布式存储方法、装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN111061812A CN111061812A (zh) 2020-04-24
CN111061812B true CN111061812B (zh) 2022-09-02

Family

ID=70301231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911297666.7A Active CN111061812B (zh) 2019-12-17 2019-12-17 大数据分布式存储方法、装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN111061812B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102681781A (zh) * 2012-04-27 2012-09-19 华为技术有限公司 一种集群重组的方法及装置
CN106502772A (zh) * 2016-10-09 2017-03-15 国网浙江省电力公司信息通信分公司 基于分布式离线技术的电量数据批量高速处理方法及系统
CN108153828A (zh) * 2017-12-12 2018-06-12 顺丰科技有限公司 一种实时数据的持久化方法、装置及设备、存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102681781A (zh) * 2012-04-27 2012-09-19 华为技术有限公司 一种集群重组的方法及装置
CN106502772A (zh) * 2016-10-09 2017-03-15 国网浙江省电力公司信息通信分公司 基于分布式离线技术的电量数据批量高速处理方法及系统
CN108153828A (zh) * 2017-12-12 2018-06-12 顺丰科技有限公司 一种实时数据的持久化方法、装置及设备、存储介质

Also Published As

Publication number Publication date
CN111061812A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
KR102493449B1 (ko) 엣지 컴퓨팅 테스트 방법, 장치, 전자 장치 및 컴퓨터 판독 가능 매체
US10528585B2 (en) ETL tool interface for remote mainframes
US8676848B2 (en) Configuring cloud resources
US9122793B2 (en) Distributed debugging of an application in a distributed computing environment
CN111163096B (zh) 提供数据接口服务的方法、装置、电子设备、存储介质
US20210157716A1 (en) Pre-populating continuous delivery test cases
JP2023027042A (ja) 業務データ処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム
US10649752B2 (en) Sharing data and applications across computing systems
CN111295648A (zh) 数据处理系统中的作业管理
WO2024001240A1 (zh) 多种技术栈的任务集成方法及装置
US9384120B2 (en) Testing of transaction tracking software
US8280950B2 (en) Automatic client-server code generator
CN111061812B (zh) 大数据分布式存储方法、装置、电子设备、存储介质
US20230164210A1 (en) Asynchronous workflow and task api for cloud based processing
US10564950B1 (en) Disassembly code generation during debugging
US9400663B2 (en) Managing middleware using an application manager
US20200081700A1 (en) Intention-based command optimization
JP2021513137A (ja) 階層型ストレージ管理システムにおけるデータ・マイグレーション
US11178216B2 (en) Generating client applications from service model descriptions
CN111193785B (zh) 一种文件切割传输方法、装置和电子设备
CN110928940B (zh) 基于kafka集群的数据写入方法、装置、电子设备、存储介质
US20210141562A1 (en) Output management in command line interface
US20160103725A1 (en) Correlating multiple disjoint events via an operation identifier
CN111562958A (zh) 页面数据展示管理方法以及装置
US11971805B2 (en) Intelligent automated feature toggle system using annotations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant