CN117076545A - 适用于军事行动大数据的数据处理方法及装置 - Google Patents

适用于军事行动大数据的数据处理方法及装置 Download PDF

Info

Publication number
CN117076545A
CN117076545A CN202311323753.1A CN202311323753A CN117076545A CN 117076545 A CN117076545 A CN 117076545A CN 202311323753 A CN202311323753 A CN 202311323753A CN 117076545 A CN117076545 A CN 117076545A
Authority
CN
China
Prior art keywords
data
processing
format
message middleware
source heterogeneous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311323753.1A
Other languages
English (en)
Inventor
臧义华
马兴民
郝韫宏
郭阳
王楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 15 Research Institute
Original Assignee
CETC 15 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 15 Research Institute filed Critical CETC 15 Research Institute
Priority to CN202311323753.1A priority Critical patent/CN117076545A/zh
Publication of CN117076545A publication Critical patent/CN117076545A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/547Messaging middleware
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种适用于军事行动大数据的数据处理方法及装置,其中方法包括:实时接入面向军事行动大数据的多源异构数据,多源异构数据包括多个来源、不同结构的数据;采用架构可扩展的消息中间件对多源异构数据进行缓存,消息中间件包括Kafka;根据多源异构数据对应的处理方式设计数据流,按照数据流从消息中间件中读取数据;采用分布式的数据处理引擎,对读取的数据进行预处理,实现数据整合。本公开可以通过简单增加节点横向扩展Kafka的集群容量,并且通过Kafka将数据持久化到硬盘上,防止数据的丢失,此外,架构可扩展的消息中间件具有高性能,每秒钟能处理数以千计生产者生产的消息,解决了相关技术中无法高效处理数据的问题。

Description

适用于军事行动大数据的数据处理方法及装置
技术领域
本公开涉及大数据技术领域,具体涉及一种适用于军事行动大数据的数据处理方法及装置。
背景技术
随着计算机软硬件技术的高速发展,数据处理的需求呈指数级增长。根据国际数据公司的研究报告,全球数据量每两年翻一番,全世界数据量已由21世纪初的EB级增长到如今的ZB级,年增长率超过40%。面对如此巨大的数据量上升趋势,如何高效处理数据成为各应用领域亟待解决的问题。
例如,在国防军事领域,决策方案的优劣很大程度上决定了各项军事行动的成败,优秀的决策方案离不开对于态势信息的全面感知,而感知信息越全面,数据量越大,如何更高效地处理海量数据成为军事行动决策的刚性需求。
针对相关技术中无法高效处理数据的问题,目前尚未提出有效的技术解决方案。
发明内容
本公开的主要目的在于提供一种适用于军事行动大数据的数据处理方法及装置,以解决相关技术中无法高效处理数据的问题。
为了实现上述目的,本公开的第一方面提供了一种适用于军事行动大数据的数据处理方法,包括:
实时接入面向军事行动大数据的多源异构数据,其中,多源异构数据包括多个来源、不同结构的数据;
采用架构可扩展的消息中间件对多源异构数据进行缓存,其中,消息中间件包括Kafka;
根据多源异构数据对应的处理方式设计数据流,按照数据流从消息中间件中读取数据,其中,处理方式包括流式处理和批量处理;以及
采用分布式的数据处理引擎,对读取的数据进行预处理,实现数据整合。
可选地,实时接入面向军事行动大数据的多源异构数据,包括:
接入面向军事行动大数据的非结构化数据,其中,非结构化数据包括普通文本文件、CSV文本文件、JSON格式数据和XML格式数据;
基于接入的非结构化数据,执行多数据库抽取源适配,其中,多数据库抽取源适配包括Oracle表数据抽取、MySQL表数据抽取、SQLServer表数据抽取、POSTGresql表数据抽取和表数据全量数据抽取。
进一步地,接入面向军事行动大数据的非结构化数据,包括:
根据非结构化数据所属文件的后缀,识别文件的类型;
基于文件的类型,对文件的格式进行处理;
利用服务总线提供的适配器,通过各适配器之间的连接和服务引擎,对格式处理后文件的各种类型、数据服务标准和通讯协议进行接入或转换,实现转换配置;
在实现转换配置之后,利用数据总线接入非结构化数据。
可选地,根据多源异构数据对应的处理方式设计数据流,按照数据流从消息中间件中读取数据,包括:
如果数据需要进行流式处理,则直接使用实时流处理计算框架从消息中间件中读取数据;
如果数据需要进行批量处理,则:
使用数据采集系统从消息中间件中读取数据,并将数据写入文件系统中;以及
使用离线批处理计算框架或预设单机系统,根据配置从文件系统中读取数据。
可选地,采用分布式的数据处理引擎,对读取的数据进行预处理,实现数据整合,包括:
采用分布式的数据处理引擎,对读取的流式数据在有边界和无边界的数据流上进行有状态计算;
对读取的数据进行数据清洗;以及
对读取的数据进行数据格式转换。
进一步地,对读取的数据进行数据清洗,包括:
从读取的数据中选择需要进行分析的数据集中的数据列,对不需要进行分析的数据列进行隐藏,并对选择的数据列进行命名;
删除数据中的重复值,去除数据冗余;
通过定位条件查询查找数据中的缺失值,对缺失值进行补全,检查数据的完备性;
将数据进行一致化处理,以保证数据的标准化;
对选择的数据列中的数据进行筛选排序;以及
过滤数据中的异常值,去除噪点数据。
进一步地,对读取的数据进行数据格式转换,包括:
利用ETL工具,针对读取的数据中的同类数据,按照预设数据标准进行数据格式转换,将数据中的非标格式数据转换为标准格式数据;
其中,数据格式转换包括:时间日期格式转换、IP地址格式转换、字符串灵活多样转换、字母大小写转换、全半角转换、度量衡单位格式转换和代码转换。
本公开的第二方面提供了一种适用于军事行动大数据的数据处理装置,包括:
数据接入单元,用于实时接入面向军事行动大数据的多源异构数据,其中,多源异构数据包括多个来源、不同结构的数据;
数据缓冲单元,用于采用架构可扩展的消息中间件对多源异构数据进行缓存,其中,消息中间件包括Kafka;
数据流设计单元,用于根据多源异构数据对应的处理方式设计数据流,按照数据流从消息中间件中读取数据,其中,处理方式包括流式处理和批量处理;以及
数据预处理单元,用于采用分布式的数据处理引擎,对读取的数据进行预处理,实现数据整合。
本公开的第三方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行第一方面任意一项提供的适用于军事行动大数据的数据处理方法。
本公开的第四方面提供了一种电子设备,电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行第一方面任意一项提供的适用于军事行动大数据的数据处理方法。
在本公开实施例提供的适用于军事行动大数据的数据处理方法中,采用架构可扩展的消息中间件对多源异构数据进行缓存,消息中间件包括Kafka;可以通过简单的增加节点横向扩展Kafka的集群容量,并且通过Kafka将数据持久化到硬盘上,防止数据的丢失,此外,架构可扩展的消息中间件具有高性能,每秒钟能处理数以千计生产者生产的消息,解决了相关技术中无法高效处理数据的问题。
附图说明
为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的适用于军事行动大数据的数据处理方法流程示意图;
图2为本公开实施例提供的数据缓冲区的作用示意图;
图3为本公开实施例提供的数据接入和数据预处理的数据流向示意图;
图4为本公开实施例提供的数据清洗的流程示意图;
图5为本公开实施例提供的适用于军事行动大数据的数据处理装置框图;
图6为本公开实施例提供的电子设备框图。
具体实施方式
为了使本技术领域的人员更好地理解本公开方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
随着计算机软硬件技术的高速发展,数据处理的需求呈指数级增长。根据国际数据公司(IDC)的研究报告,全球数据量每两年翻一番,全世界数据量已由21世纪初的EB级增长到如今的ZB级,年增长率超过40%。面对如此巨大的数据量上升趋势,如何高效处理数据成为各应用领域亟待解决的问题。例如,在国防军事领域,决策方案的优劣很大程度上决定了各项军事行动的成败,优秀的决策方案离不开对于态势信息的全面感知,而感知信息越全面,数据量越大,如何更高效地处理海量数据成为军事行动决策的刚性需求。
为了解决上述问题,本公开实施例提供了一种适用于军事行动大数据的数据处理方法,如图1所示,该方法包括如下的步骤S101至步骤S104:
步骤S101:实时接入面向军事行动大数据的多源异构数据,其中,多源异构数据包括多个来源、不同结构的数据;通过实时接入数据完成对军事行动相关数据的引接汇聚,是开展数据分析的前提,在处理军事行动大数据时,不仅要解决海量数据与实时处理之间的矛盾,还需兼顾数据管理平台对多源海量数据的兼容性。本公开可以实现多种数据源的数据接入,多种数据源的异构数据的离线接入和在线接入。
在本公开一种可选的实施方式中,步骤S101包括:
接入面向军事行动大数据的非结构化数据,其中,非结构化数据包括普通文本文件、CSV文本文件、JSON格式数据和XML格式数据;接入非结构化数据,可以实时或定时读取本地或分布式存储的文本格式文件,实现文本文件的在线接入和离线接入,对不同编码的原始文本进行格式转换,并可以对编码进行自动识别,以确保数据能正常解析与读取。
在本公开一种优选的实施方式中,接入面向军事行动大数据的非结构化数据,包括:
根据非结构化数据所属文件的后缀,识别文件的类型;获取非结构化数据所属的文件后,根据文件的后缀识别出文件的类型,本公开支持多种类型的文件导入和识别,包括结构化数据、半结构化数据和非结构化数据,文件的类型还包括普通文本、CSV文本、JSON格式和XML格式;
基于文件的类型,对文件的格式进行处理;对于原始文本文件使用的分隔符、换行符进行批量转换,并识别文件的编码格式,将文件统一转码;对于CSV类型的文件,对错行或非规则换行进行分析处理,对乱码进行识别;对于JSON格式数据,需检查是否符合JSON标准的格式要求,并将其转为JSON对象;对于XML格式数据,对不符合XML规范的字符进行替换或过滤处理;
利用服务总线提供的适配器,通过各适配器之间的连接和服务引擎,对格式处理后文件的各种类型、数据服务标准和通讯协议进行接入或转换,实现转换配置;服务总线提供了大量的基于JCA规范(Java加密体系结构)的适配器,如文件系统、各种数据库、消息中间件、Web Service、HTTP等适配器,通过适配器之间的连接与服务引擎以及流程模块,可实现各种类型、数据服务标准及通讯协议的服务之间的接入和转换,真正实现了适配器的重用。
在实现转换配置之后,利用数据总线接入非结构化数据。数据接入,根据用户从既定数据上传文件模板下载,并参照模板样例从界面上传数据文件到系统,系统根据已约定好的数据上传的存储格式及数据上传文件交换协议说明文档,结合系统自身数据接入流程规范,对数据上传文件进行相应规则配置开发、特殊处理、提取配置、维护管理等开发环节并纳入到数据接入流程中。
非结构化数据接入可以满足普通文本文件接入、CSV文本文件接入、JSON格式数据接入等多种需求;
其中,对于普通文本文件接入,实时或定时读取本地或异地的文本格式文件,并对原始文本文件中的分隔符、换行符等进行批量转换和处理;对分隔符和换行符采用定制化模板配置,确保能对普通文本文件的各种格式进行快速接入并适配;对不同编码的原始文本文件进行格式转换,对编码进行自动识别,确保数据能正常解析与读取;
对于CSV文本文件接入,从FTP服务器或远程服务器读取CSV文件,对各种系统来源及各种数据格式的CSV文件进行解析;对错行或非规则换行进行分析处理,并形成检验机制,自动化处理;
对于JSON格式数据接入,读取各种系统的JSON格式文件并解析入库,从字符串中解析JSON,从文件中解析JSON;可支持Object(无序的“名称/值”对集合)、Array(Value的有序集合的解析);对任何数据源的JSON格式数据进行定制化无缝对接。
基于接入的非结构化数据,执行多数据库抽取源适配,其中,多数据库抽取源适配包括Oracle表数据抽取、MySQL表数据抽取、SQLServer表数据抽取、POSTGresql表数据抽取和表数据全量数据抽取。
具体的,Oracle表数据抽取包括:通过分析抽取数据是表还是视图,确定适配方式,其中,如果抽取的目标数据存储在数据表中,则通过配置jdbc连接,创建数据库连接实例,获取目标数据库中的数据,如果抽取的目标数据存储在视图中,则在数据库连接池中获取对该视图的连接实例,查询该视图获取目标数据;通过分析数据表的数据量,确定技术抽取方式。
MySQL表数据抽取包括:通过分析版本,调用实现方式;通过分析提供数据表的数据量,采用数据量的区间抽取方式或游标抽取方式,其中,区间抽取方式读取给定的抽取范围,根据抽取的条件筛选抽取的数据,游标抽取方式读取前一次抽取后的数据偏移,确定本次抽取数据的位置;通过分析数据字段个数总量,确定数据生成格式;根据配置的抽取任务,设定抽取频率、抽取并发数和存储周期。
SQLServer表数据抽取包括:对接数据库服务器,开通对应的抽取数据IP和端口;支持多版本数据的表数据抽取,通过分析版本,提供调用实现方式;通过分析抽取数据需求,确定SQL语法和函数抽取数据,其中,对于小批次数据的抽取任务,采用全量数据抽取方式,对于大批次的数据抽取任务,采用分片或分段的数据抽取方式;分析数据服务库索引和分区方式,区别遍历数据的方式和抽取量区间;根据配置的抽取任务,设定抽取频率、抽取并发数和存储周期。
POSTGresql表数据抽取包括:对接数据库服务器,将抽取数据服务器IP加入可信认证;支持多版本数据库的表数据抽取,通过分析版本,提供调用实现方式;通过分析服务器并发规模和压力测试,配置抽取任务的抽取频率和并发数;通过分析数据提供方式是表还是视图,确定采用何种增量和抽取方式,其中,如果抽取的目标数据存储在数据表中,则通过配置jdbc连接,创建数据库连接实例,获取目标数据库中的数据,如果抽取的目标数据存储在视图中,则在数据库连接池中获取对该视图的连接实例,查询该视图获取目标数据;通过分析数据表业务时间字段,保证数据可实时更新且不出现重复抽取。
Hive表抽取包括:通过分析表存储在分布式文件系统上的集群数据量和服务器性能,开发集群适配器,并对数据服务器能提供的支撑能力采用并发数和抽取频率;通过获取数据服务器库、表、区的映射关系,结合版本的分布式存储文件系统,提供适配接口;通过分析库表中的超文本字段结构,转换为16进制字符串存储在抽取的数据文件中。
Mongo表抽取包括:通过分析数据库是单机还是集群方式,设置通过单机采集或集群采集的方式采集目标数据;通过查看数据库的认证方式,建立可信认证,并分析数据库提供的会话时长,保证数据库能完成读取;通过分析数据库数据的增量逻辑,找出业务字段标志,确定采用业务字段偏移量对数据实时或完整读取;通过分析各个表的数据量,采用游标抽取方式进行读取,保证数据快速抽取完成且不影响数据业务。
步骤S102:采用架构可扩展的消息中间件对多源异构数据进行缓存,其中,消息中间件包括Kafka;在数据缓冲区采用消息中间件对多源异构数据进行缓存,数据缓冲区作为连接数据集成和数据预处理的数据通道,根据数据接入类型的特点,数据缓冲区需要同时具备高吞吐和低延迟的特点,因此需要采用架构可扩展的消息中间件来支撑,消息中间件可以为Kafka,采用基于Kafka的数据缓冲技术来应对上述需求,本公开实施例提供的数据缓冲区在上下游系统中的作用示意图如图2所示。
基于Kafka的数据缓冲技术具备高性能,每秒钟能处理数以千计生产者生产的消息;具备高扩展性,可以通过简单的增加节点横向扩展Kafka的集群容量;具备持久性,通过Kafka将数据持久化到硬盘上,防止数据的丢失;以分布式手段代替单机,可以大幅提升数据处理能力,提升数据处理量级和效率。
步骤S103:根据多源异构数据对应的处理方式设计数据流,按照数据流从消息中间件中读取数据,其中,处理方式包括流式处理和批量处理;数据的处理方式既可以采用实时流处理引擎进行实时处理,也可以采用离线批处理引擎或者用户预先定义的单机任务进行批量处理,根据不同的处理方式设计不同的数据流向方式,以不同的数据流向方式从消息中间件中读取数据。
本公开支持多线程任务上传和批量上传功能,用户可一次性上传多个文件,并且可以定时或暂停上传任务。
在本公开一种可选的实施方式中,步骤S103包括:
如果数据需要进行流式处理,则直接使用实时流处理计算框架从消息中间件中读取数据;直接使用系统提供的实时流处理计算框架或流处理计算引擎从Kafka中读取数据,由于接入的数据直接存放于消息中间件中,对于此种情况可以使用流式处理方式,其中,实时流处理计算框架可以为Storm或Flink;
如果数据需要进行批量处理,则:
使用数据采集系统从消息中间件中读取数据,并将数据写入文件系统中;其中,数据采集系统可以为Flume;
使用离线批处理计算框架或预设单机系统,根据配置从文件系统中读取数据。
对于需要批量处理的数据,使用Flume从Kafka中读取数据并写入文件系统中,再由系统提供的离线批处理计算框架或预先定义的单机系统,根据配置从文件系统中读取数据。
综合流式处理和批量处理这两种处理方式,当海量数据传入数据缓冲区后,数据被Kafka缓存下来;对于需要实时处理的数据,可以采用Storm从Kafka中取数据并进行计算处理;对于需要批量处理的数据,可以使用Flume从Kafka中收集数据并传输到指定的存储位置,保证数据处理的实时性和准确性。
步骤S104:采用分布式的数据处理引擎,对读取的数据进行预处理,实现数据整合。分布式的数据处理引擎可以为Flink,数据预处理是通过流水线式的预处理操作,来实现海量数据质量优化整合的过程,数据预处理既可以采用实时流处理引擎对数据进行实时处理,也可以采用离线批处理引擎或者用户预先定义的单机任务对数据进行批量处理。
在本公开一种可选的实施方式中,步骤S104包括:
采用分布式的数据处理引擎,对读取的流式数据在有边界和无边界的数据流上进行有状态计算;其中,分布式的数据处理引擎用于对面向军事行动大数据的数据流进行实时的分布式计算,有边界的数据流为静态数据,如csv格式文件中的数据,无边界的数据流为流数据;采用分布式的流式计算在有边界和无边界的数据流上进行有状态的计算,保证了数据处理的实时性和准确性;
分布式的数据处理引擎底层采用分布式的架构,通过开启多个处理任务,可以实现数据的并行计算,数据处理具有高并发性。
对读取的数据进行数据清洗;数据清洗的目的是过滤掉不符合要求的数据,将过滤的结果提供给相应的系统单元或用户,为了提高过滤效果,在数据清洗过程中需要进行完备性检查、冗余性处理和数据噪点剔除;
对读取的数据进行数据格式转换。数据格式转换是指根据数据标准进行格式统一,将非标格式数据转换成标准格式数据。
本公开实施例提供的数据接入和数据预处理的数据流向示意图如图3所示,图3中,对结构化数据、半结构化数据和非结构化数据进行抽取,抽取出的数据经过初始化执行器,得到结构化数据和半结构化数据,然后经过数据预处理,即经过数据清洗和格式转换,处理结果存储至分布式数据库;
本公开可以将非结构化数据转为结构化数据,并且可以指定导入数据最终格式化后的结构;系统将提供针对特定结构化数据之间的互相转换功能,用户可指定某一结构化数据转为另一种类型的结构化数据,也可指定将半结构化数据转为结构化数据。
在本公开一种优选的实施方式中,对读取的数据进行数据清洗,包括:
从读取的数据中选择需要进行分析的数据集中的数据列,对不需要进行分析的数据列进行隐藏,并对选择的数据列进行命名;
删除数据中的重复值,去除数据冗余,进行冗余性处理;
其中,冗余性处理主要针对重复数据,特别是在维度表中,往往会出现多个来源的同维度数据,存在数据内容、类型以及参考标准不一致的情况。
通过定位条件查询查找数据中的缺失值,对缺失值进行补全,检查数据的完备性;
其中,检查数据的完备性时,主要针对部分数据的信息缺失,如物品名称、物品代号、业务系统中数据不能匹配等,在系统中用户可以自定义过滤规则,把对应类别的数据过滤出来,输出到文本文件或Excel格式文件提交给业务用户,业务用户在人工对数据修改核对后,再写入数据仓库,如果修改的规则是固定的,也可以由系统按照规则自动添加、修改数据;各个数据业务系统在进行数据录入时,可能认为某些属性不重要而将之忽略,但在决策分析中可能要用到这些数据,因而需要人工或者参考其它业务系统相关的值为遗漏的属性值填上空缺的值。
将数据进行一致化处理,以保证数据的标准化;
对选择的数据列中的数据进行筛选排序;
过滤数据中的异常值,去除噪点数据。
其中,去除噪点数据,即数据噪点剔除;噪声数据出现的原因往往是业务系统不够健全或者人为误操作,解决此类数据需要进行分类,针对不同的分类采取不同的处理方式,处理方式包括人工处理和自动处理,之后再更改数据库中的数据;目前被认定为噪音数据的主要是错误数据和重复数据,其中,错误数据产生的原因是各业务系统不够健全,或在接收输入后没有经过判断而直接写入后台数据库所造成的,比如数值数据输入全角数字字符、字符串数据后面带TAB空格、日期格式不正确等;对于重复数据,通过主键或者联合业务主键将数据进行识别,提交业务人员进行确认后处理。
本公开实施例提供的数据清洗的流程示意图如图4所示,包括:
选择数据子集:选择需要进行分析的数据集中数据列,为避免干扰可对其他不参与分析的数据列进行隐藏处理;
数据列命名:对数据集中的列进行命名;
删除重复值:去除数据冗余;
缺失值处理:通过定位条件查询的方式,查找到缺失值,并对缺失值进行人工补全,保证数据的完整性;
一致化处理:按照现有的全军作战数据标准对数据进行一致化处理,保证数据的标准化;
清洗数据排序:对列数据集中的数据进行筛选排序;
异常值处理:过滤出异常数据,去除噪点数据。
在本公开一种优选的实施方式中,对读取的数据进行数据格式转换,包括:
利用ETL工具,针对读取的数据中的同类数据,按照预设数据标准进行数据格式转换,将数据中的非标格式数据转换为标准格式数据;通过发挥ETL工具处理文件的强大性能和稳定性,针对不同业务系统中的同类数据,按照预设统一规则进行转换;在整个数据格式转换过程中需要记录很多诸如出错日志、处理流程监控日志以及一些统计信息,这主要由一些公用的程序模块来完成,保证无论数据是否非法都在ETL工具处理范围之内;
其中,数据格式转换包括:时间日期格式转换、IP地址格式转换、字符串灵活多样转换、字母大小写转换、全半角转换、度量衡单位格式转换和代码转换。各自具体的转换方式分别为:
时间日期格式转换:接入数据的时间格式分为很多种,比如有“年月日”、 “年月日时分秒”、“年月日时分秒毫秒”、“时间戳”、“年-月-日”、“年/月/日”等不同的时间格式,对于接入数据中不同的时间格式,接入平台将日期和时间数据转换为同一的日期和时间格式;
IP地址格式转换:除了对IP地址中的异常字符的处理以外,根据配置规则需求,将IP地址转换为16进制数据的统一接入格式;
字符串灵活多样转换:对接入数据中包含字符串的字段,支持灵活多样的数据转换,包括对接入数据字符串的逻辑替换;根据字符串起始终止位置对字符串做截取;根据配置的正则表达式规则对字符串做转换;并且可以对字段的字符串进行重新组合,例如:组合成JSON串,组合后MD5加密,将选中字段进行简单的合并等;
字母大小写转换:对包含字母的接入数据做统一的大小写转换,实现格式的统一化;
全半角转换:对接入数据做全半角数据转换,对于全角的数据做半角转换,对数据做格式统一化处理;
度量衡单位格式转换:接入数据中有时会存在带有度量衡单位的数据,例如“2.5kg”、“16双”、“3米”等,对于此类数据,结合对应定义的字段单位类型,将其转换为统一的数据单位;
代码转换:例如“1”代表女性,“2”代表男性,字典表包含了性别代码和性别的映射关系,数据接入平台通过字典表,对接入数据的性别字段做性别数据值转换,最终生成统一的数据格式。
本公开一种可选的实施方式中,在步骤S104中对读取的数据进行预处理,实现数据整合之后,该方法还包括:
将数据预处理的结果存储到大数据存储集群或分布式数据库中。
本公开依据数据建设的需求,提供动态数据的接入、数据清洗、数据转换等数据管理能力,提升了面向军事行动大数据的多源异构数据管理能力,为军事行动大数据应用提供统一有序的数据集、标准化的数据清洗流程和一体化的数据处理方式。
从以上的描述中,可以看出,本公开实现了如下技术效果:
本公开可以通过简单的增加节点横向扩展Kafka的集群容量;并且,通过Kafka将数据持久化到硬盘上,防止数据的丢失;此外,架构可扩展的消息中间件具有高性能,每秒钟能处理数以千计生产者生产的消息,解决了相关技术中无法高效处理数据的问题;
本公开支持多数据源的数据接入,支持多种数据源的异构数据的离线接入和在线接入;采用分布式的流式计算在有边界和无边界的数据流上进行有状态的计算,保证了数据处理的实时性和准确性;数据处理引擎底层采用分布式的架构,通过开启多个处理任务,实现数据的并行计算,数据处理时具备高并发性。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本公开实施例还提供了一种用于实施上述方法的适用于军事行动大数据的数据处理装置,如图5所示,数据处理装置50包括:
数据接入单元51,用于实时接入面向军事行动大数据的多源异构数据,其中,多源异构数据包括多个来源、不同结构的数据;
数据缓冲单元52,用于采用架构可扩展的消息中间件对多源异构数据进行缓存,其中,消息中间件包括Kafka;
数据流设计单元53,用于根据多源异构数据对应的处理方式设计数据流,按照数据流从消息中间件中读取数据,其中,处理方式包括流式处理和批量处理;以及
数据预处理单元54,用于采用分布式的数据处理引擎,对读取的数据进行预处理,实现数据整合。
上述装置实施例中各单元的执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处不做详细阐述说明。
本公开实施例还提供了一种电子设备,如图6所示,该电子设备包括一个或多个处理器61以及存储器62,图6中以一个处理器61为例。
该控制器还可以包括:输入装置63和输出装置64。
处理器61、存储器62、输入装置63和输出装置64可以通过总线或者其他方式连接,图6中以通过总线连接为例。
处理器61可以为中央处理器(Central Processing Unit,简称为CPU),处理器61还可以为其他通用处理器、数字信号处理器(DigitalSignal Processor,简称为DSP)、专用集成电路(Application Specific Integrated Circuit,简称为ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称为FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合,通用处理器可以是微处理器或者任何常规的处理器。
存储器62作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本公开实施例中的控制方法对应的程序指令/模块。处理器61通过运行存储在存储器62中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的适用于军事行动大数据的数据处理方法。
存储器62可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器62可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器62可选包括相对于处理器61远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置63可接收输入的数字或字符信息,以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置64可包括显示屏等显示设备。
一个或者多个模块存储在存储器62中,当被一个或者多个处理器61执行时,执行如图1所示的方法。
本领域技术人员可以理解,实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,简称为ROM)、随机存储记忆体(RandomAccess Memory,简称为RAM)、快闪存储器(Flash Memory,简称为FM)、硬盘(HardDisk Drive,简称为HDD)或固态硬盘(Solid-State Drive,简称为SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本公开的实施方式,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种适用于军事行动大数据的数据处理方法,其特征在于,包括:
实时接入面向军事行动大数据的多源异构数据,其中,所述多源异构数据包括多个来源、不同结构的数据;
采用架构可扩展的消息中间件对所述多源异构数据进行缓存,其中,所述消息中间件包括Kafka;
根据所述多源异构数据对应的处理方式设计数据流,按照所述数据流从所述消息中间件中读取数据,其中,所述处理方式包括流式处理和批量处理;以及
采用分布式的数据处理引擎,对读取的数据进行预处理,实现数据整合。
2.根据权利要求1所述的方法,其特征在于,所述实时接入面向军事行动大数据的多源异构数据,包括:
接入面向军事行动大数据的非结构化数据,其中,所述非结构化数据包括普通文本文件、CSV文本文件、JSON格式数据和XML格式数据;
基于接入的非结构化数据,执行多数据库抽取源适配,其中,所述多数据库抽取源适配包括Oracle表数据抽取、MySQL表数据抽取、SQLServer表数据抽取、POSTGresql表数据抽取和表数据全量数据抽取。
3.根据权利要求2所述的方法,其特征在于,所述接入面向军事行动大数据的非结构化数据,包括:
根据非结构化数据所属文件的后缀,识别文件的类型;
基于所述文件的类型,对所述文件的格式进行处理;
利用服务总线提供的适配器,通过各适配器之间的连接和服务引擎,对格式处理后文件的各种类型、数据服务标准和通讯协议进行接入或转换,实现转换配置;
在实现转换配置之后,利用数据总线接入所述非结构化数据。
4.根据权利要求1所述的方法,其特征在于,所述根据所述多源异构数据对应的处理方式设计数据流,按照所述数据流从所述消息中间件中读取数据,包括:
如果数据需要进行所述流式处理,则直接使用实时流处理计算框架从所述消息中间件中读取数据;
如果数据需要进行所述批量处理,则:
使用数据采集系统从所述消息中间件中读取数据,并将所述数据写入文件系统中;以及
使用离线批处理计算框架或预设单机系统,根据配置从所述文件系统中读取数据。
5.根据权利要求1所述的方法,其特征在于,所述采用分布式的数据处理引擎,对读取的数据进行预处理,实现数据整合,包括:
采用分布式的数据处理引擎,对读取的流式数据在有边界和无边界的数据流上进行有状态计算;
对读取的数据进行数据清洗;以及
对读取的数据进行数据格式转换。
6.根据权利要求5所述的方法,其特征在于,所述对读取的数据进行数据清洗,包括:
从读取的数据中选择需要进行分析的数据集中的数据列,对不需要进行分析的数据列进行隐藏,并对选择的数据列进行命名;
删除数据中的重复值,去除数据冗余;
通过定位条件查询查找数据中的缺失值,对缺失值进行补全,检查所述数据的完备性;
将数据进行一致化处理,以保证数据的标准化;
对选择的数据列中的数据进行筛选排序;以及
过滤数据中的异常值,去除噪点数据。
7.根据权利要求5所述的方法,其特征在于,所述对读取的数据进行数据格式转换,包括:
利用ETL工具,针对读取的数据中的同类数据,按照预设数据标准进行数据格式转换,将所述数据中的非标格式数据转换为标准格式数据;
其中,所述数据格式转换包括:时间日期格式转换、IP地址格式转换、字符串灵活多样转换、字母大小写转换、全半角转换、度量衡单位格式转换和代码转换。
8.一种适用于军事行动大数据的数据处理装置,其特征在于,包括:
数据接入单元,用于实时接入面向军事行动大数据的多源异构数据,其中,所述多源异构数据包括多个来源、不同结构的数据;
数据缓冲单元,用于采用架构可扩展的消息中间件对所述多源异构数据进行缓存,其中,所述消息中间件包括Kafka;
数据流设计单元,用于根据所述多源异构数据对应的处理方式设计数据流,按照所述数据流从所述消息中间件中读取数据,其中,所述处理方式包括流式处理和批量处理;以及
数据预处理单元,用于采用分布式的数据处理引擎,对读取的数据进行预处理,实现数据整合。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-7任意一项所述的适用于军事行动大数据的数据处理方法。
10.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-7任意一项所述的适用于军事行动大数据的数据处理方法。
CN202311323753.1A 2023-10-13 2023-10-13 适用于军事行动大数据的数据处理方法及装置 Pending CN117076545A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311323753.1A CN117076545A (zh) 2023-10-13 2023-10-13 适用于军事行动大数据的数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311323753.1A CN117076545A (zh) 2023-10-13 2023-10-13 适用于军事行动大数据的数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN117076545A true CN117076545A (zh) 2023-11-17

Family

ID=88717374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311323753.1A Pending CN117076545A (zh) 2023-10-13 2023-10-13 适用于军事行动大数据的数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN117076545A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160298978A1 (en) * 2015-04-08 2016-10-13 Nec Laboratories America, Inc. WiFi-Based Indoor Positioning and Navigation as a New Mode in Multimodal Transit Applications
CN111124679A (zh) * 2019-12-19 2020-05-08 南京莱斯信息技术股份有限公司 一种面向多源异构海量数据限时自动处理方法
CN111723160A (zh) * 2020-08-24 2020-09-29 国网浙江省电力有限公司 一种多源异构增量数据同步方法及系统
CN113312428A (zh) * 2021-05-28 2021-08-27 中国人民解放军战略支援部队航天工程大学 多源异构训练数据融合方法、装置和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160298978A1 (en) * 2015-04-08 2016-10-13 Nec Laboratories America, Inc. WiFi-Based Indoor Positioning and Navigation as a New Mode in Multimodal Transit Applications
CN111124679A (zh) * 2019-12-19 2020-05-08 南京莱斯信息技术股份有限公司 一种面向多源异构海量数据限时自动处理方法
CN111723160A (zh) * 2020-08-24 2020-09-29 国网浙江省电力有限公司 一种多源异构增量数据同步方法及系统
CN113312428A (zh) * 2021-05-28 2021-08-27 中国人民解放军战略支援部队航天工程大学 多源异构训练数据融合方法、装置和设备

Similar Documents

Publication Publication Date Title
US9984128B2 (en) Managing site-based search configuration data
US9124612B2 (en) Multi-site clustering
US20110191394A1 (en) Method of processing log files in an information system, and log file processing system
CN106951557B (zh) 日志关联方法、装置和应用其的计算机系统
CN105912594B (zh) Sql语句处理方法和系统
CN113360554B (zh) 一种数据抽取、转换和加载etl的方法和设备
US10275449B1 (en) Identification and parsing of a log record in a merged log record stream
CN104572976A (zh) 网站数据更新方法和系统
US20150113008A1 (en) Providing automatable units for infrastructure support
CN112948492A (zh) 一种数据处理系统、方法、装置、电子设备及存储介质
CN112148578A (zh) 基于机器学习的it故障缺陷预测方法
CN114328759A (zh) 一种数据仓库的数据构建与管理方法及终端
US11243942B2 (en) Parallel stream processing of change data capture
CN115757626A (zh) 一种数据质量检测方法、装置、电子设备及存储介质
CN113312376A (zh) 一种用于Nginx日志实时处理分析的方法及终端
CN115328928A (zh) kudu表更新方法、装置、设备及存储介质
CN117251414B (zh) 一种基于异构技术的数据存储及处理方法
Azeroual et al. Combining data lake and data wrangling for ensuring data quality in CRIS
CN114090529A (zh) 一种日志管理方法、装置、系统和存储介质
CN117076545A (zh) 适用于军事行动大数据的数据处理方法及装置
CN116975116A (zh) 一种大数据分析系统的数据条件筛选方法
CN110781647B (zh) 一种基于Flink实现数据格式校验的方法
CN116155689A (zh) 一种基于ClickHouse的高可用Kong网关日志分析方法及系统
EP4105813A1 (en) Method for analyzing data consisting of a large number of individual messages, computer program product and computer system
US11442758B2 (en) Integration flow execution renew

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination