CN117056303B - 适用于军事行动大数据的数据存储方法及装置 - Google Patents

适用于军事行动大数据的数据存储方法及装置 Download PDF

Info

Publication number
CN117056303B
CN117056303B CN202311323752.7A CN202311323752A CN117056303B CN 117056303 B CN117056303 B CN 117056303B CN 202311323752 A CN202311323752 A CN 202311323752A CN 117056303 B CN117056303 B CN 117056303B
Authority
CN
China
Prior art keywords
data
storage
distributed
structured
storing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311323752.7A
Other languages
English (en)
Other versions
CN117056303A (zh
Inventor
臧义华
马兴民
郝韫宏
郭阳
王楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 15 Research Institute
Original Assignee
CETC 15 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 15 Research Institute filed Critical CETC 15 Research Institute
Priority to CN202311323752.7A priority Critical patent/CN117056303B/zh
Publication of CN117056303A publication Critical patent/CN117056303A/zh
Application granted granted Critical
Publication of CN117056303B publication Critical patent/CN117056303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种适用于军事行动大数据的数据存储方法及装置,其中方法包括:将面向军事行动大数据的数据分散存储在多台独立的存储服务器上,实现分布式存储;利用多台独立的存储服务器构成可扩展的分布式存储架构,分布式存储架构包括多层,分层存储数据;采用分布式存储架构中的数据模型存储结果数据,结果数据包括结构化数据、半结构化数据和非结构化数据。本公开利用多台存储服务器构成可扩展的分布式存储架构,分层存储数据,提高了系统的可靠性、可用性和存储效率,提高了系统面向海量数据的可扩展存储能力,实现了对结构化数据、半结构化数据、非结构化数据的统一存储,解决了集中存储服务器无法满足大规模数据存储需求的问题。

Description

适用于军事行动大数据的数据存储方法及装置
技术领域
本公开涉及大数据技术领域,具体涉及一种适用于军事行动大数据的数据存储方法及装置。
背景技术
根据国际数据公司的研究报告,全球数据量每两年翻一番,全世界数据量已由21世纪初的EB级增长到如今的ZB级,年增长率超过40%。面对如此巨大的数据量上升趋势,如何高效存储数据成为各应用领域亟待解决的问题。例如,在国防军事领域,决策方案的优劣很大程度上决定了各项军事行动的成败,优秀的决策方案离不开对于态势信息的全面感知,而感知信息越全面,数据量越大,如何更高效地存储海量数据成为军事行动决策的刚性需求。
传统的网络存储方案中,往往采用集中存储服务器存放所有数据,存储服务器成为性能瓶颈,也是可靠性和安全性的焦点,然而,这种集中存储服务器无法满足大规模数据存储的需求。
针对相关技术中集中存储服务器无法满足大规模数据存储需求的问题,目前尚未提出有效的技术解决方案。
发明内容
本公开的主要目的在于提供一种适用于军事行动大数据的数据存储方法及装置,以解决相关技术中集中存储服务器无法满足大规模数据存储需求的问题。
为了实现上述目的,本公开的第一方面提供了一种适用于军事行动大数据的数据存储方法,包括:
将面向军事行动大数据的数据分散存储在多台独立的存储服务器上,实现分布式存储;
利用多台独立的存储服务器构成可扩展的分布式存储架构,其中,分布式存储架构包括多层,分层存储数据;以及
采用分布式存储架构中的数据模型存储结果数据,其中,结果数据包括结构化数据、半结构化数据和非结构化数据。
可选地,分布式存储架构包括至少三层,其中,第一层用于集中存储引接的面向军事行动大数据的原始数据,第二层用于对数据模型进行统一管理,第可选地,采用分布式存储架构中的数据模型存储结构化数据,包括:
通过数据分类管理构建标准的数据分类体系,以树形结构展示数据分类,对数据分类进行添加、修改、删除和检索;
基于数据分类管理设计第一数据模型,其中,第一数据模型包括并行载入、分布式执行、向量化执行、资源管理和自动故障检测中的任意一个或多个;
多个第一数据模型进行协同分析,存储结构化数据。
进一步地,基于数据分类管理设计并行载入,包括:
通过数据加载机上的数据并行加载工具读取磁盘上的文件,将文件按照预设大小分片并将分片后的数据下发至各个数据节点,其中,数据并行加载工具包括GDS;
由数据节点接收分片后的数据并进行重分布,充分利用各个数据节点的能力执行分布式并行载入;
资料节点直连并行批量加载,通过使各个数据节点都参与数据汇聚接入,充分利用各个存储服务器的计算能力和网络带宽。
进一步地,基于数据分类管理设计分布式执行,包括:
协调端解析和优化数据查询请求,并向数据节点下发任务;
数据节点上运行的查询执行进程基于数据节点存储的数据执行任务;
分布式执行过程中的每个片段均为接收下级任务输入的数据,并向上级任务输出数据。
可选地,采用分布式存储架构中的数据模型存储半结构化数据,包括:
采用第二数据模型存储半结构化数据,其中,第二数据模型包括扁平数据结构、元数据散列和无状态集群中的任意一个或多个。
进一步地,采用元数据散列存储半结构化数据,包括:
所有接入节点均可以提供元数据服务,元数据分片按照相同的散列算法均匀分散保存在存储节点上;
在系统并发性要求增加时,对元数据服务的请求由接入节点集群分摊,并根据需要增加接入节点的个数。
进一步地,采用无状态集群存储半结构化数据,包括:
对象存储接入节点以集群方式组网;
基于对象存储和一次简单寻址的分布式哈希算法,建立接入节点和存储节点之间的松耦合关系,使得接入节点成为无状态服务节点;
任何服务请求均可以通过负荷分担机制由任一无状态服务节点提供服务。
可选地,采用分布式存储架构中的数据模型存储非结构化数据,包括:
设计基于Elasticsearch的分布式文件系统,存储非结构化数据;
其中,分布式文件系统采用主从分离的读写方式,将耗费资源的文件访问、读写操作分离到文件系统服务器,以降低服务器压力,分担服务器的I/O操作和流量负载。
本公开的第二方面提供了一种适用于军事行动大数据的数据存储装置,包括:
分散存储单元,用于将面向军事行动大数据的数据分散存储在多台独立的存储服务器上,实现分布式存储;
分层存储单元,用于利用多台独立的存储服务器构成可扩展的分布式存储架构,其中,分布式存储架构包括多层,分层存储数据;以及
结果数据存储单元,用于采用分布式存储架构中的数据模型存储结果数据,其中,结果数据包括结构化数据、半结构化数据和非结构化数据。
本公开的第三方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行第一方面任意一项提供的适用于军事行动大数据的数据存储方法。
本公开的第四方面提供了一种电子设备,电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行第一方面任意一项提供的适用于军事行动大数据的数据存储方法。
在本公开实施例提供的适用于军事行动大数据的数据存储方法中,将面向军事行动大数据的数据分散存储在多台独立的存储服务器上,实现分布式存储;利用多台存储服务器分担存储负荷,提高了系统的可靠性、可用性和存储效率;
利用多台独立的存储服务器构成可扩展的分布式存储架构,其中,分布式存储架构包括多层,分层存储数据;通过可扩展的分布式存储架构分层存储数据,提高了系统面向海量数据的可用性和可扩展存储能力;
采用分布式存储架构中的数据模型存储结果数据,其中,结果数据包括结构化数据、半结构化数据和非结构化数据。通过分布式存储环境,实现了对结构化数据、半结构化数据、非结构化数据的统一存储,解决了集中存储服务器无法满足大规模数据存储需求的问题。
附图说明
为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的适用于军事行动大数据的数据存储方法流程示意图;
图2为本公开实施例提供的并行载入示意图;
图3为本公开实施例提供的分布式执行示意图;
图4为本公开实施例提供的向量化执行示意图;
图5为本公开实施例提供的资源管理示意图;
图6为本公开实施例提供的自动故障检测示意图;
图7为本公开实施例提供的适用于军事行动大数据的数据存储装置框图;
图8为本公开实施例提供的电子设备框图。
具体实施方式
为了使本技术领域的人员更好地理解本公开方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
传统的网络存储方案中,往往采用集中存储服务器存放所有数据,存储服务器成为性能瓶颈,也是可靠性和安全性的焦点,然而,这种集中存储服务器无法满足大规模数据存储的需求。
为了解决上述问题,本公开实施例提供了一种适用于军事行动大数据的数据存储方法,如图1所示,该方法包括如下的步骤S101至步骤S103:
步骤S101:将面向军事行动大数据的数据分散存储在多台独立的存储服务器上,实现分布式存储;利用多台存储服务器分担存储负荷,提高了系统的可靠性、可用性和存储效率;
步骤S102:利用多台独立的存储服务器构成可扩展的分布式存储架构,其中,分布式存储架构包括多层,分层存储数据;通过可扩展的分布式存储架构分层存储数据,避免了单点故障导致的数据丢失,提高了系统面向海量数据的可靠性、可用性和可扩展存储能力;
在本公开一种可选的实施方式中,分布式存储架构包括至少三层,其中,第一层用于集中存储引接的面向军事行动大数据的原始数据,第二层用于对数据模型进行统一管理,第三层用于存储通过数据模型智能分析原始数据产生的结果数据。
步骤S103:采用分布式存储架构中的数据模型存储结果数据,其中,结果数据包括结构化数据、半结构化数据和非结构化数据。通过分布式存储环境,实现了对结构化数据、半结构化数据、非结构化数据的统一存储,包括各类SQL数据库、NoSQL数据库、XML文件、Word文件等,保证了系统面向海量数据的高可用性、高吞吐量、高容错性和可扩展存储能力,解决了集中存储服务器无法满足大规模数据存储需求的问题。
本公开针对军事行动大数据的实际需求,采用分布式数据库及分布式文件存储机制,存储应用产生的结构化数据、半结构化数据和非结构化数据。
在本公开一种可选的实施方式中,存储结构化数据,主要针对Oracle数据库、MySQL数据库和postgres数据库;
步骤S103中,采用分布式存储架构中的数据模型存储结构化数据,包括:
通过数据分类管理构建标准的数据分类体系,以树形结构展示数据分类,对数据分类进行添加、修改、删除和检索;通过构建标准的数据分类体系,可以形成标准的数据存储规范和数据格式规范,在此基础上可以构建数据接入系统,为大数据挖掘与分析提供基础;数据分类管理提供对全局数据资源的分类管理功能,支持数据分类管理人员对数据分类进行增删改查等功能,为数据检索、管理维护和数据资源关联分析提供支撑;
基于数据分类管理设计第一数据模型,其中,第一数据模型包括并行载入、分布式执行、向量化执行、资源管理和自动故障检测中的任意一个或多个;第一数据模型还包括跨库访问Oracle和MPP DB,其中,MPP DB为MassivelyParallel Processing Databases,即大规模并行处理数据库;
多个第一数据模型进行协同分析,存储结构化数据。
通过数据分类管理设计第一数据模型,多个第一数据模型进行协同分析,提高了结构化数据存储效率和性能。
在本公开一种优选的实施方式中,基于数据分类管理设计并行载入,包括:
通过数据加载机上的数据并行加载工具读取磁盘上的文件,将文件按照预设大小分片并将分片后的数据下发至各个数据节点,其中,数据并行加载工具包括GDS;数据并行加载工具GDS(General Data Service)从远端服务器导入数据,帮助分发待导入的用户数据及实现数据的高速导入;
由数据节点接收分片后的数据并进行重分布,充分利用各个数据节点的能力执行分布式并行载入;使得性能可以达到10T/小时,实现数据快速入库。
资料节点直连并行批量加载(Bulk Load),通过使各个数据节点都参与数据汇聚接入,充分利用各个存储服务器的计算能力和网络带宽。
本公开实施例提供的并行载入示意图如图2所示,其中,PT file server为PT文件服务器,Source file为原始文件,Spliter为分片器,Blocks为物理块,Data node为数据节点。
在本公开一种优选的实施方式中,基于数据分类管理设计分布式执行,包括:
协调端解析和优化数据查询请求,并向数据节点下发任务;
数据节点上运行的查询执行(Query Executer)进程基于数据节点存储的数据执行任务;
分布式执行过程中的每个片段(Fragment)均为接收下级任务输入的数据,并向上级任务输出数据,是生产端-消费端的流水线工作模型。
分布式执行是MPP DB中最核心的技术,关键在于尽量降低查询中节点之间的数据流动,以提升查询效率。
本公开实施例提供的分布式执行示意图如图3所示,其中,Coordinator为协调端,用于解析和优化数据查询请求,并向数据节点进行任务下发;Cell为单元格,Cell1和Cell2分别为第一单元格和第二单元格;
Crew为工作组,Crew1、Crew2、Crew3分别为第一工作组、第二工作组和第三工作组;
Dispatcher为任务分发器;Worker为工作单元,用于运行查询执行进程,基于本数据节点存储的数据执行任务,Worker1和Worker2分别为第一工作单元和第二工作单元;
分布式执行是生产端-消费端的流水线工作模型,数据流向为从下级任务到上级任务,每个片段均为接收下级任务输入的数据,并向上级任务输出数据;
图3中,Seq Scan(on persons)为对小表数据的全表扫描或顺序扫描,其中persons为小表数据;Broadcast Flow(source)为生产端广播流,用于将广播分布到所有数据节点;
Broadcast Flow(collector)为消费端广播流,用于收集各个小表发布的广播;Hash为散列;Seq Scan(on scores)为对大表数据的全表扫描或顺序扫描,其中scores为大表数据;Hash Join(source.id=Person.id)为散列连接,Gather Flow(source)为生产端收集流,用于通过网络传输向消费端收集流发送数据节点的运行结果;
Gather Flow(collector)为消费端收集流,用于收集各个数据节点的运行结果。
在本公开一种优选的实施方式中,基于数据分类管理设计向量化执行,包括:
向量化执行采用迭代执行模型,一次返回一批元组,配合列存特性,可以带来巨大的性能提升。
本公开实施例提供的向量化执行示意图如图4所示,应用程序APP产生的结构化数据,依次通过统一的SQL引擎和分布式执行引擎后,分别通过行储存引擎进行行存,或者通过列存、向量化执行引擎进行列存;其中,采用统一的SQL引擎实现对业务透明。
在本公开一种优选的实施方式中,基于数据分类管理设计资源管理,包括:
通过资源管理特性限定用户SQL的执行优先级;
根据作业的执行优先级,对资源进行分配和调度,确保重要作业优先执行,其中,资源包括中央处理器CPU、磁盘I/O和内存Mem;
并发控制;
限制客户端的连接数,防止单个客户端占用过多资源或系统资源耗尽。
本公开实施例提供的资源管理示意图如图5所示,图5中不同的方块表示不同执行优先级的作业,多个作业到达Arrival后,通过查询语句队列进行任务控制,在等待池中按照作业的执行优先级进行调度,根据作业的执行优先级对资源(CPU、Mem、I/O)进行分配,并且执行控制,控制客户端的连接数和单个客户端占用的资源,生成搜索类目QueryCategories和响应时间Resp Time、吞吐量Thruput之间的函数对应关系,资源管理完成后作业离开Departure。
在本公开一种优选的实施方式中,基于数据分类管理设计自动故障检测,包括:
当数据库集群管理组件检测到集群状态正常时,继续检测;
当数据库集群管理组件检测到节点故障时,尝试重新拉起节点服务;
如果重新拉起节点成功,则集群状态恢复正常;
如果重新拉起节点失败,则进行故障节点切换,并将负载均匀分摊到多个节点。每个节点上具有多个数据库实例,当发生故障切换时,负载均匀分摊到多个节点,保证集群性能下降最小。
本公开实施例提供的自动故障检测示意图如图6所示,通过自动故障检测处理,使得运维更为方便和快捷。
在本公开一种可选的实施方式中,存储半结构化数据,主要针对excel文件、xml文件和eml文件等文件;
步骤S103中,采用分布式存储架构中的数据模型存储半结构化数据,包括:
采用第二数据模型存储半结构化数据,其中,第二数据模型包括扁平数据结构、元数据散列和无状态集群中的任意一个或多个。第二数据模型还包括“热温冷”数据生命周期管理技术,通过第二数据模型存储半结构化数据,提高半结构化数据存储的拓展性和效率。
在本公开一种优选的实施方式中,针对对象存储过程中扩展性不足的问题,采用扁平数据结构存储半结构化数据,包括:
设计“用户-桶-对象”的三层数据模型(如ceph 对象存储系统),相比于文件系统舍弃了可嵌套的目录结构,单个桶支持亿级对象数量,易于扩展;这种扁平的结构对半结构化的数据提供了更好的支持,并具有高扩展性,解决了对象存储过程中扩展性不足的问题。
在本公开一种优选的实施方式中,针对对象存储过程中单节点存在瓶颈的问题,采用元数据散列存储半结构化数据,包括:
所有接入节点均可以提供元数据服务,元数据分片按照相同的散列算法均匀分散保存在存储节点上;由于对象存储没有单独的物理元数据节点,即没有类似于元数据服务器的几种元数据管理服务,所有接入节点都可以提供元数据服务;元数据存储与资料存储机制一样,元数据分片按照相同的散列算法规则均匀分散保存在存储节点上;
在系统并发性要求增加时,对元数据服务的请求由接入节点集群分摊,并根据需要增加接入节点的个数。提升了数据请求处理能力,避免出现瓶颈,解决了对象存储过程中单节点存在瓶颈的问题。
在本公开一种优选的实施方式中,针对对象存储过程中由于状态同步等导致的扩展瓶颈问题,采用无状态集群存储半结构化数据,包括:
设计集群组网模型,对象存储接入节点以集群方式组网;
基于对象存储和一次简单寻址的分布式哈希算法,建立接入节点和存储节点之间的松耦合关系,使得接入节点成为无状态服务节点;
任何服务请求均可以通过负荷分担机制由任一无状态服务节点提供服务。不存在传统存储由于状态同步、锁定机制导致的接入节点数目扩展瓶颈,因此,接入节点集群内的节点数目理论上可以无限扩展,支撑容量线性扩展,不存在架构上的瓶颈,解决了对象存储过程中由于状态同步等导致的扩展瓶颈问题。
Elasticsearch为分布式搜索和分析引擎,Lucene为全文检索引擎工具包,提供了完整的查询引擎、索引引擎和文本分析引擎;本公开基于Elasticsearch设计的系统,兼具搜索引擎和NoSQL数据库功能,使其具有强大的全文检索能力;此外,基于JAVA/Lucene构建,该系统兼具有开源和分布式特点,支持RestFul请求,支持分布式实时存储和实时分析以及多样化搜索;同时,Elasticsearch对Lucene进行了扩展,提供了比Lucene更为丰富的查询语言,实现了系统的可配置、可扩展,并对查询性能进行了优化,并提供了一个完善的功能管理接口,使其可以扩展到上百台服务器,处理PB级结构化或半结构化数据。
在本公开一种可选的实施方式中,存储非结构化数据,主要针对办公文档、各类报表、网页和文本等;
步骤S103中,采用分布式存储架构中的数据模型存储非结构化数据,包括:
设计基于Elasticsearch的分布式文件系统,存储非结构化数据,非结构化数据包括图片、视频和xml格式文档等;
其中,分布式文件系统采用主从分离的读写方式,将耗费资源的文件访问、读写操作分离到文件系统服务器,以降低服务器压力,分担服务器的I/O操作和流量负载,提高了服务器的性能和稳定性。采用主从分离的读写方案,保证了数据库I/O操作的高并发性。
从以上的描述中,可以看出,本公开实现了如下技术效果:
本公开利用多台存储服务器分担存储负荷,提高了系统的可靠性、可用性和存储效率;
通过可扩展的分布式存储架构分层存储数据,避免了单点故障导致的数据丢失,提高了系统面向海量数据的可靠性、可用性和可扩展存储能力;
通过分布式存储环境,实现了对结构化数据、半结构化数据、非结构化数据的统一存储,保证了系统面向海量数据的高可用性、高吞吐量、高容错性和可扩展存储能力,解决了集中存储服务器无法满足大规模数据存储需求的问题。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本公开实施例还提供了一种用于实施上述方法的适用于军事行动大数据的数据存储装置,如图7所示,数据存储装置70包括:
分散存储单元71,用于将面向军事行动大数据的数据分散存储在多台独立的存储服务器上,实现分布式存储;
分层存储单元72,用于利用多台独立的存储服务器构成可扩展的分布式存储架构,其中,分布式存储架构包括多层,分层存储数据;以及
结果数据存储单元73,用于采用分布式存储架构中的数据模型存储结果数据,其中,结果数据包括结构化数据、半结构化数据和非结构化数据。
上述装置实施例中各单元的执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处不做详细阐述说明。
本公开实施例还提供了一种电子设备,如图8所示,该电子设备包括一个或多个处理器81以及存储器82,图8中以一个处理器81为例。
该控制器还可以包括:输入装置83和输出装置84。
处理器81、存储器82、输入装置83和输出装置84可以通过总线或者其他方式连接,图8中以通过总线连接为例。
处理器81可以为中央处理器(Central Processing Unit,简称为CPU),处理器81还可以为其他通用处理器、数字信号处理器(DigitalSignal Processor,简称为DSP)、专用集成电路(ApplicatI/O操作n Specific Integrated Circuit,简称为ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称为FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合,通用处理器可以是微处理器或者任何常规的处理器。
存储器82作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本公开实施例中的控制方法对应的程序指令/模块。处理器81通过运行存储在存储器82中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的适用于军事行动大数据的数据存储方法。
存储器82可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器82可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器82可选包括相对于处理器81远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置83可接收输入的数字或字符信息,以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置84可包括显示屏等显示设备。
一个或者多个模块存储在存储器82中,当被一个或者多个处理器81执行时,执行如图1所示的方法。
本领域技术人员可以理解,实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述方法实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,简称为ROM)、随机存储记忆体(RandomAccess Memory,简称为RAM)、快闪存储器(Flash Memory,简称为FM)、硬盘(HardDisk Drive,简称为HDD)或固态硬盘(Solid-State Drive,简称为SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本公开的实施方式,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (8)

1.一种适用于军事行动大数据的数据存储方法,其特征在于,包括:
将面向军事行动大数据的数据分散存储在多台独立的存储服务器上,实现分布式存储;
利用所述多台独立的存储服务器构成可扩展的分布式存储架构,其中,所述分布式存储架构包括多层,分层存储所述数据;以及
采用所述分布式存储架构中的数据模型存储结果数据,其中,所述结果数据包括结构化数据、半结构化数据和非结构化数据;
其中,所述分布式存储架构包括至少三层,其中,第一层用于集中存储引接的面向军事行动大数据的原始数据,第二层用于对数据模型进行统一管理,第三层用于存储通过所述数据模型智能分析原始数据产生的所述结果数据;
其中,针对Oracle数据库、MySQL数据库和postgres数据库,存储结构化数据;
采用所述分布式存储架构中的数据模型存储结构化数据,包括:
通过数据分类管理构建标准的数据分类体系,以树形结构展示数据分类,对所述数据分类进行添加、修改、删除和检索;
基于所述数据分类管理设计第一数据模型,其中,所述第一数据模型包括并行载入、分布式执行、向量化执行、资源管理和自动故障检测中的任意一个或多个,第一数据模型还包括跨库访问Oracle数据库和MPP DB;
多个第一数据模型进行协同分析,存储结构化数据。
2.根据权利要求1所述的方法,其特征在于,基于所述数据分类管理设计并行载入,包括:
通过数据加载机上的数据并行加载工具读取磁盘上的文件,将所述文件按照预设大小分片并将分片后的数据下发至各个数据节点,其中,所述数据并行加载工具包括GDS;
由所述数据节点接收所述分片后的数据并进行重分布,充分利用各个数据节点的能力执行分布式并行载入;
资料节点直连并行批量加载,通过使各个数据节点都参与数据汇聚接入,充分利用各个存储服务器的计算能力和网络带宽。
3.根据权利要求1所述的方法,其特征在于,基于所述数据分类管理设计分布式执行,包括:
协调端解析和优化数据查询请求,并向数据节点下发任务;
所述数据节点上运行的查询执行进程基于所述数据节点存储的数据执行所述任务;
分布式执行过程中的每个片段均为接收下级任务输入的数据,并向上级任务输出数据。
4.根据权利要求1所述的方法,其特征在于,采用所述分布式存储架构中的数据模型存储半结构化数据,包括:
采用第二数据模型存储半结构化数据,其中,所述第二数据模型包括扁平数据结构、元数据散列和无状态集群中的任意一个或多个。
5.根据权利要求4所述的方法,其特征在于,采用所述元数据散列存储半结构化数据,包括:
所有接入节点均可以提供元数据服务,元数据分片按照相同的散列算法均匀分散保存在存储节点上;
在系统并发性要求增加时,对所述元数据服务的请求由接入节点集群分摊,并根据需要增加所述接入节点的个数。
6.根据权利要求4所述的方法,其特征在于,采用所述无状态集群存储半结构化数据,包括:
对象存储接入节点以集群方式组网;
基于对象存储和一次简单寻址的分布式哈希算法,建立接入节点和存储节点之间的松耦合关系,使得所述接入节点成为无状态服务节点;
任何服务请求均可以通过负荷分担机制由任一无状态服务节点提供服务。
7.根据权利要求1所述的方法,其特征在于,采用所述分布式存储架构中的数据模型存储非结构化数据,包括:
设计基于Elasticsearch的分布式文件系统,存储非结构化数据;
其中,所述分布式文件系统采用主从分离的读写方式,将耗费资源的文件访问、读写操作分离到文件系统服务器,以降低服务器压力,分担服务器的I/O操作和流量负载。
8.一种适用于军事行动大数据的数据存储装置,其特征在于,包括:
分散存储单元,用于将面向军事行动大数据的数据分散存储在多台独立的存储服务器上,实现分布式存储;
分层存储单元,用于利用所述多台独立的存储服务器构成可扩展的分布式存储架构,其中,所述分布式存储架构包括多层,分层存储所述数据;以及
结果数据存储单元,用于采用所述分布式存储架构中的数据模型存储结果数据,其中,所述结果数据包括结构化数据、半结构化数据和非结构化数据;
其中,所述分布式存储架构包括至少三层,其中,第一层用于集中存储引接的面向军事行动大数据的原始数据,第二层用于对数据模型进行统一管理,第三层用于存储通过所述数据模型智能分析原始数据产生的所述结果数据;
其中,针对Oracle数据库、MySQL数据库和postgres数据库,存储结构化数据;
采用所述分布式存储架构中的数据模型存储结构化数据,包括:
通过数据分类管理构建标准的数据分类体系,以树形结构展示数据分类,对所述数据分类进行添加、修改、删除和检索;
基于所述数据分类管理设计第一数据模型,其中,所述第一数据模型包括并行载入、分布式执行、向量化执行、资源管理和自动故障检测中的任意一个或多个,第一数据模型还包括跨库访问Oracle数据库和MPP DB;
多个第一数据模型进行协同分析,存储结构化数据。
CN202311323752.7A 2023-10-13 2023-10-13 适用于军事行动大数据的数据存储方法及装置 Active CN117056303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311323752.7A CN117056303B (zh) 2023-10-13 2023-10-13 适用于军事行动大数据的数据存储方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311323752.7A CN117056303B (zh) 2023-10-13 2023-10-13 适用于军事行动大数据的数据存储方法及装置

Publications (2)

Publication Number Publication Date
CN117056303A CN117056303A (zh) 2023-11-14
CN117056303B true CN117056303B (zh) 2024-01-16

Family

ID=88655842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311323752.7A Active CN117056303B (zh) 2023-10-13 2023-10-13 适用于军事行动大数据的数据存储方法及装置

Country Status (1)

Country Link
CN (1) CN117056303B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117787924A (zh) * 2024-02-28 2024-03-29 中国航空工业集团公司西安飞机设计研究所 一种飞机设计数据发放数据包发放方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103491187A (zh) * 2013-09-30 2014-01-01 华南理工大学 一种基于云计算的大数据统一分析处理方法
CN107943867A (zh) * 2017-11-10 2018-04-20 中国电子科技集团公司第三十二研究所 支持异构存储的高性能层次化存储系统
CN113886331A (zh) * 2021-12-03 2022-01-04 苏州浪潮智能科技有限公司 分布式对象存储方法、装置、电子设备及可读存储介质
CN114443798A (zh) * 2022-02-10 2022-05-06 数字广东网络建设有限公司 一种面向地理信息数据的分布式管理系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103491187A (zh) * 2013-09-30 2014-01-01 华南理工大学 一种基于云计算的大数据统一分析处理方法
CN107943867A (zh) * 2017-11-10 2018-04-20 中国电子科技集团公司第三十二研究所 支持异构存储的高性能层次化存储系统
CN113886331A (zh) * 2021-12-03 2022-01-04 苏州浪潮智能科技有限公司 分布式对象存储方法、装置、电子设备及可读存储介质
CN114443798A (zh) * 2022-02-10 2022-05-06 数字广东网络建设有限公司 一种面向地理信息数据的分布式管理系统及方法

Also Published As

Publication number Publication date
CN117056303A (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
CN107679192B (zh) 多集群协同数据处理方法、系统、存储介质及设备
Vora Hadoop-HBase for large-scale data
US9336263B2 (en) Data loading systems and methods
CN111327681A (zh) 一种基于Kubernetes的云计算数据平台构建方法
Padhy Big data processing with Hadoop-MapReduce in cloud systems
CN103246749B (zh) 面向分布式计算的矩阵数据库系统及其查询方法
CN109933631A (zh) 基于Infiniband网络的分布式并行数据库系统及数据处理方法
CN104021194A (zh) 一种面向行业大数据多样性应用的混合型处理系统及处理方法
US9460151B2 (en) System and methods to configure a query language using an operator dictionary
CN112307037A (zh) 一种数据同步方法和装置
CN117056303B (zh) 适用于军事行动大数据的数据存储方法及装置
CN102937964B (zh) 基于分布式系统的智能数据服务方法
CN110245134B (zh) 一种应用于搜索服务的增量同步方法
CN105005611A (zh) 一种文件管理系统及文件管理方法
CN112269887A (zh) 一种基于图数据库的分布式系统
CN111913837A (zh) 大数据环境下实现分布式中间件消息恢复策略管理的系统
Fu et al. The survey of big data
CN117093367B (zh) 一种业务数据的处理方法、装置及存储介质
Ding et al. Commapreduce: An improvement of mapreduce with lightweight communication mechanisms
Fanibhare et al. Smartgrids: Mapreduce framework using hadoop
CN114003580A (zh) 一种运用于分布式调度系统的数据库构建方法及装置
Suguna et al. Improvement of Hadoop ecosystem and their pros and cons in Big data
Vardhan et al. Improving the performance of heterogeneous Hadoop cluster
Shou-Qiang et al. Research and design of hybrid collaborative filtering algorithm scalability reform based on genetic algorithm optimization
CN111190991A (zh) 一种非结构化数据传输系统及交互方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant