CN113326238A - 一种数据处理方法、装置、设备及存储介质 - Google Patents

一种数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113326238A
CN113326238A CN202110712143.5A CN202110712143A CN113326238A CN 113326238 A CN113326238 A CN 113326238A CN 202110712143 A CN202110712143 A CN 202110712143A CN 113326238 A CN113326238 A CN 113326238A
Authority
CN
China
Prior art keywords
data
processing
original
preset
format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110712143.5A
Other languages
English (en)
Inventor
陈飞
廖子渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202110712143.5A priority Critical patent/CN113326238A/zh
Publication of CN113326238A publication Critical patent/CN113326238A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理方法、装置、设备及存储介质。该方法的步骤包括:获取由日志采集设备传输的多种原始格式数据;通过Flink流式处理程序对所述原始格式数据执行向预设数据结构的数据转化操作,生成目标格式数据以用于日志范化处理。由于Flink流式处理指的是在接收数据的同时对数据进行处理,因此本方法通过流式处理的方式对原始格式数据执行向预设数据结构的数据转化操作,以此生成目标格式数据,能够相对确保由原始格式数据向目标格式数据转化的标准化解析过程的数据处理效率,进而实现日志分析效率的提高。此外,本申请还提供一种数据处理装置、设备及存储介质,有益效果同上所述。

Description

一种数据处理方法、装置、设备及存储介质
技术领域
本申请涉及大数据领域,特别是涉及一种数据处理方法、装置、设备及存储介质。
背景技术
随着大数据时代的到来,网络设备在单位时间内即可产生海量与业务相关的原始格式数据。由于在实际场景下,设备中所运行业务的种类较多,导致原始格式数据的数据格式相对多样,因此当前在使用原始格式数据之前,往往需要先将原始格式数据解析为特定数据结构的格式,即对原始格式数据进行标准化解析,对于原始格式数据的标准化解析,是大数据处理中的重要初始环节。
在大数据场景中,原始格式数据往往是数量众多的网络设备源源不断产生的,对于原始格式数据的处理需要高吞吐、低延迟的数据处理性能,而当前对原始格式数据的标准化解析,往往受制于数据处理组件的处理性能,难以确保数据处理效率。
由此可见,提供一种数据处理方法,以相对确保标准化解析过程的数据处理效率,是本领域技术人员需要解决的问题。
发明内容
本申请的目的是提供一种数据处理方法、装置、设备及存储介质,以相对确保标准化解析过程的数据处理效率。
为解决上述技术问题,本申请提供一种数据处理方法,包括:
获取由日志采集设备传输的多种原始格式数据;
通过Flink流式处理程序对所述原始格式数据执行向预设数据结构的数据转化操作,生成目标格式数据以用于日志范化处理。
优选地,通过Flink流式处理程序对原始格式数据执行向预设数据结构的数据转化操作,包括:
通过Flink流式处理程序根据原始格式数据的目标数据格式提取原始格式数据的数据元素;
将数据元素写入预设数据结构。
优选地,在将数据元素写入预设数据结构之前,方法还包括:
确定字段名以及与字段名对应的字段类型;
根据字段名以及字段类型生成预设数据结构。
优选地,确定字段名以及与字段名对应的字段类型,包括:
根据前端设置的字段配置参数在字段库中确定字段名以及与字段名对应的字段类型。
优选地,在根据字段名以及字段类型生成预设数据结构之后,方法还包括:
基于JEXL程序以表达式的方式对预设数据结构中的字段执行函数处理和/或操作符处理。
优选地,在将数据元素写入预设数据结构之后,方法还包括:
通过Flink Sql对预设数据结构中的数据元素进行过滤。
优选地,通过Flink流式处理程序对原始格式数据执行向预设数据结构的数据转化操作,包括:
通过在Flink流式处理程序的应用程序编排接口中调用FlatMap函数的方式,对原始格式数据执行向预设数据结构的数据转化操作。
此外,本申请还提供一种数据处理装置,包括:
原始数据获取模块,用于获取由日志采集设备传输的多种原始格式数据;
结构转化模块,用于通过Flink流式处理程序对所述原始格式数据执行向预设数据结构的数据转化操作,生成目标格式数据以用于日志范化处理。
此外,本申请还提供一种数据处理设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述的数据处理方法的步骤。
此外,本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的数据处理方法的步骤。
本申请所提供的数据处理方法,首先获取由日志采集设备传输的多种原始格式数据,进而通过Flink流式处理程序对原始格式数据执行向预设数据结构的数据转化操作,生成目标格式数据以进行日志范化处理。由于Flink流式处理指的是在接收数据的同时对数据进行处理,因此本方法通过Flink流式处理的方式对原始格式数据执行向预设数据结构的数据转化操作,以此生成目标格式数据,能够相对确保由原始格式数据向目标格式数据转化的标准化解析过程的数据处理效率,进而实现日志分析效率的提高。此外,本申请还提供一种数据处理装置、设备及存储介质,有益效果同上所述。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种数据处理方法的流程图;
图2为本申请实施例公开的一种数据处理方法的流程图;
图3为本申请实施例公开的一种数据处理方法的流程图;
图4为本申请实施例公开的一种数据处理方法的流程图;
图5为本申请场景实施例公开的大数据解析引擎的架构示意图;
图6为本申请场景实施例中大数据解析引擎的模块功能划分图;
图7为本申请实施例公开一种数据处理装置的结构示意图;
图8为本申请实施例公开的一种数据处理设备的硬件组成结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
在大数据场景中,原始格式数据往往是数量众多的网络设备源源不断产生的,对于原始格式数据的处理需要高吞吐、低延迟的数据处理性能,而当前对原始格式数据的标准化解析,往往受制于数据处理组件的处理性能,难以确保数据处理效率。
为此,本申请的核心是提供一种数据处理方法,以相对确保标准化解析过程的数据处理效率。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
本申请技术方案所使用的场景主要是针对日志采集设备所传输的日志数据进行处理,具体的日志采集设备可以是连接各业务处理服务器的网络设备等。在具体实施中,多种网络设备所传输的日志数据的格式有多种(业务处理服务器运行的业务不同),在进行日志范化处理过程中,往往需要将不同业务运行过程中产生的多种不同格式的原始格式数据解析为具有特定数据结构的数据,进而实现对数据的统一存储、管理或显示。在上述数据处理场景中,进行数据处理操作的执行主体可以为运行有数据处理程序的服务器设备,该服务器设备能够基于数据处理程序对其它网络设备产生并传入的原始格式数据,或对本地业务程序产生的原始格式数据进行向目标格式数据的数据转化。
如图1所示的,本申请实施例公开了一种数据处理方法,包括:
步骤S10:获取由日志采集设备传输的多种原始格式数据。
需要说明的是,本步骤中获取的原始格式数据指的是在后续步骤中需要进行数据转化操作的数据。原始格式数据可以是服务器设备本地运行的业务程序产生的数据,或其它设备运行的业务程序产生的数据,获取原始格式数据包括但不限于接收其它设备传入的原始格式数据,或是在指定的文件访问路径下读取得到原始格式数据等,应根据实际需求而定,在此不做具体限定。
为了让本领域技术人员更加清楚本申请所提到的原始格式数据,下文中将举例说明,图2为本申请实施例提供的一种原始格式数据转换为目标格式数据的示意图。如图2所示,原始格式数据的一种形式就是{"name":
"li","id":2}。
步骤S11:通过Flink流式处理程序对原始格式数据执行向预设数据结构的数据转化操作,生成目标格式数据。
在获取到原始格式数据之后,本步骤进一步通过流式处理的方式对原始格式数据执行向预设数据结构的数据转化操作,进而生成目标格式数据。需要说明的是,本实施例的重点在于通过Flink流式处理程序对原始格式数据执行向预设数据结构的数据转化操作,以此得到目标格式数据。其中,Flink流式处理程序是具有分布式、高性能、随时可用以及数据处理准确的开源流处理框架,流处理的特点是实时处理,流处理方式无需针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作,通常能够用于实时统计。本步骤在对原始格式数据执行向预设数据结构的数据转化操作,生成目标格式数据过程中,对原始数据的接收以及对原始格式数据执行向预设数据结构的数据转化操作是同时执行的,以此能够提高对原始格式数据进行转化得到目标格式数据的整体效率。
如图2所示,在数据转换操作中,首先要对该数据进行解析,如图2所示,要进行JOSN格式解析,解析后,name为li,id为2。预设数据结构,如图2所示,字段名为username,或userid,字段类型为string,或int。以上文中提到的原始格式数据为:{"name":"li","id":2}为例,则经过上述预设数据结构的转换所得到的目标格式数据如图2所示,username为li,type为string,userid为2,type为int。需要说明的是,图2所以的原始格式数据、预设数据结构以及目标格式数据仅仅是举例说明,并不代表只能是这一种数据形式。
本申请所提供的数据处理方法,首先获取由日志采集设备传输的多种原始格式数据,进而通过Flink流式处理程序对原始格式数据执行向预设数据结构的数据转化操作,生成目标格式数据。由于流式处理指的是在接收数据的同时对数据进行处理,因此本方法通过Flink流式处理的方式对原始格式数据执行向预设数据结构的数据转化操作,以此生成目标格式数据,能够相对确保由原始格式数据向目标格式数据转化的标准化解析过程的数据处理效率。
如图3所示的,本申请实施例公开了一种数据处理方法,包括:
步骤S30:获取原始格式数据。
步骤S31:通过Flink流式处理程序根据原始格式数据的目标数据格式提取原始格式数据的数据元素。
步骤S32:将数据元素写入预设数据结构,生成目标格式数据。
需要说明的是,本实施例进一步将通过Flink流式处理程序对原始格式数据执行向预设数据结构的数据转化操作的过程进行了细化,即首先通过Flink流式处理程序根据原始格式数据的目标数据格式提取原始格式数据的数据元素,进而将数据元素写入预设数据结构,以此生成目标格式数据。其中,原始格式数据的目标数据格式根据原始格式数据的实际数据来源包括但不限于JSON(JavaScript Object Notation,JS对象简谱)、KV(key-value,键值对)、CSV(Comma-Separated Values,逗号分隔值)、XML(Extensible MarkupLanguage,可扩展标记语言)以及Grok(正则表达式)等格式。
另外,本实施例中根据原始格式数据提取原始格式数据的数据元素过程,本质上是对原始格式数据中不具有数据格式的数据内容,即数据元素进行提取,以此进一步将不具有数据格式的数据元素写入至预设数据结构,达到由原始格式数据向目标格式数据的数据转化。
本实施方式根据原始格式数据的目标数据格式提取有针对性的对原始格式数据的数据元素进行提取,能够相对确保数据元素的准确性,提高了目标格式数据的准确性。
在将数据元素写入预设数据结构的过程中,可以进一步在预设数据结构中补齐数据元素中缺失的字段,或是对数据元素中满足特定标准的目标数据元素进行过滤,以此进一步确保目标格式数据中数据元素的准确性。
作为一种优选的实施方式,预设数据结构的数据类型可以为XML Schema类型,XMLSchema(XML Schema Definition,XSD)是一套W3C标准,用于定义的语言是一种称为XML模式定义语言(XML Schema Definition Language)的XML语法。预设数据结构的数据类型为XML Schema类型,能够进一步确保将数据元素写入预设数据结构所得到的目标格式数据的可读性以及准确性。
在上述实施例的基础上,作为一种优选的实施方式,在将数据元素写入预设数据结构之前,方法还包括:
确定字段名以及与字段名对应的字段类型;
根据字段名以及字段类型生成预设数据结构。
需要说明的是,本实施方式的重点在于将数据元素写入预设数据结构之前,预先确定字段名以及与字段名对应的字段类型,进而根据字段名以及字段名对应的字段类型生成预设数据结构,即预设数据结构中具有相应字段名的字段,且字段的类型为与该字段名对应的字段类型。本实施方式预先确定字段名以及与字段名对应的字段类型,并基于字段名以及与字段名对应的字段类型生成预设数据结构,能够进一步确保预设数据结构所包含的字段的灵活可控性,进而提高目标格式数据的准确性。
更进一步的,作为一种优选的实施方式,确定字段名以及与字段名对应的字段类型,包括:
根据前端设置的字段配置参数在字段库中确定字段名以及与字段名对应的字段类型。
需要说明的是,本实施方式的重点在于,生成预设数据结构所用的字段名以及字段类型是基于前端设置的字段配置参数在字段库中确定的。此处所指的前端包括但不限于C/S(Client/Server,客户端/服务器)架构中客户端的前端控制页面或前端控制程序,进而字段配置参数可以是由前端的用户进行设置得到的。在确定字段配置参数之后,本实施方式进一步在字段库中匹配与字段配置参数对应的字段名以及与字段名对应的字段类型,字段库中可以预先内置有标准字段名以及与标准字段名对应的字段类型,标准字段名根据实际场景可以进一步囊括防火墙、数据库、威胁情报、攻击检测等常见的组件或领域。进而前端用户可以通过设置字段配置参数,达到使用该字段库快速生成包含有所需字段的预设数据结构。本实施方式进一步确保了生成预设数据结构过程的可靠性以及效率。
更进一步的,作为一种优选的实施方式,在根据字段名以及字段类型生成预设数据结构之后,方法还包括:
基于JEXL程序以表达式的方式对预设数据结构中的字段执行函数处理和/或操作符处理。
需要说明的是,本实施方式中的JEXL(Java Expression Language),是一个表达式语言引擎,可以用来在应用或者框架中使用,本实施方式在根据字段名以及字段类型生成预设数据结构之后,进一步基于JEXL程序以表达式的方式对预设数据结构中的字段执行函数处理和/或操作符处理,即利用JEXL对应的表达式的方式对预设数据结构中的字段执行增加或修改等操作,以此能够相对确保对预设数据结构中字段设置的灵活性。
如图4所示的,本申请实施例公开了一种数据处理方法,包括:
步骤S40:获取原始格式数据。
步骤S41:通过Flink流式处理程序根据原始格式数据的目标数据格式提取原始格式数据的数据元素。
步骤S42:将数据元素写入预设数据结构,生成目标格式数据。
步骤S43:通过Flink Sql对预设数据结构中的数据元素进行过滤。
需要说明的是,Flink Sql是Flink流式处理程序为简化计算模型,降低用户使用实时计算门槛而设计的一套符合标准Sql(Structured Query Language,结构化查询语言)语义的开发语言。本实施例在将数据元素写入预设数据结构生成目标格式数据后,进一步通过Flink Sql对预设数据结构中的数据元素进行过滤,能够过滤掉用户不希望处理的数据,进一步提高目标格式数据的准确性,从而减轻下游数据计算的压力并提高整体性能。
在上述一系列实施例的基础上,作为一种优选的实施方式,通过Flink流式处理程序对原始格式数据执行向预设数据结构的数据转化操作,包括:
通过在Flink流式处理程序的应用程序编排接口中调用FlatMap函数的方式,对原始格式数据执行向预设数据结构的数据转化操作。
需要说明的是,本实施方式的重点在于,在Flink流式处理程序的应用程序编排接口中调用FlatMap函数,以此对原始格式数据执行向预设数据结构的数据转化操作,也就是说,本实施方式是预先将对原始格式数据执行向预设数据结构的数据转化操作的操作代码写入至FlatMap函数中,进而Flink流式处理程序通过执行FlatMap函数的方式实现对每一条原始格式数据执行流式处理,能够相对确保通过Flink流式处理程序对原始格式数据执行向预设数据结构的数据转化操作的可靠性。
为了加深对于本申请上述实施例的理解,本申请还提供一种具体应用场景下的场景实施例进行进一步说明。
本申请场景实施例提供一种大数据解析引擎,大数据解析引擎的架构示意图如图5所示。
数据解析引擎由数据格式解析,Schema标准化,数据过滤三部分构成。数据格式解析负责将多样化的原始数据按照需求解析成多列的样式;Schema标准化负责将格式解析后的数据注入系统支持的标准字段名和字段类型,实现从半结构化的数据转化成结构化的数据,使得后续可以进行Sql操作等高级功能;数据过滤负责将解析后的数据过滤掉部分不需要的数据,减轻后续的数据计算压力。
整个架构分为三层:
第一层为数据格式处理层,该层支持多种格式的原始数据解析,包括json格式,KV格式,XML格式,CSV格式;如果不是这四种标准格式,则支持使用常规正则或Grok正则来处理数据,将其解析成多列的形式。
第二层为Schema规范化层,该层支持用户选择格式解析后的多列数据的具体Schema信息,并提供内置的数据工厂支持的标准列名供其选择。当选择完所有列的标准列名后会自动关联对应的数据类型,并形成一份完整的Schema信息来结构化数据。
第三层为数据过滤层,由于在Schema规范化时可以选择自动补齐部分缺失的字段,并且原始数据中可能存在不需要进行计算处理的脏数据,所以提供数据过滤的功能来屏蔽掉部分脏数据进入数据流,减轻下游的计算压力并提高最终性能。
如图6所示的是本场景实施例中大数据解析引擎的模块功能划分图。
a.数据格式解析模块主要是提供多种格式的数据解析,通过引入fastjson,Grok正则解析等框架,以及自行实现KV格式解析,CSV格式解析等功能,使得原始数据能够正确解析成标准的多列格式,并进入下游进行Schema规范化。
b.Schema标准库模块提供了系统内置的标准字段名和对应的字段类型,使得用户可以自行选择并将格式处理后的数据标准Schema化,同时也支持自行新增需要的字段名和对应的字段类型,最终形成一个完整的Schema标准库。
c.数据结构化模块负责处理数据格式解析后的多列数据,并将其与用户选择的标准列明结合生成结构化数据,并支持通过字段多退少补的策略将半结构化的数据全部统一结构化。另外,在字段操作功能中支持对字段进行新增,删除,重命名等操作,以及集成了JEXL框架支持通过表达式来对字段进行函数处理和操作符处理。
d.数据过滤模块负责处理并过滤掉部分用户不希望处理的数据,减轻下游数据计算的压力并提高整体性能。将结构化的数据转成表结构后使用Flink Sql进行过滤处理,支持in的操作符语义。
另外,大数据解析引擎的整体执行流程如下:
1、用户在前端配置解析算子的输入源和输出目的地,以及解析算子中的解析规则,包括解析格式,字段配置,数据过滤条件等。
2、将完整工作流的JSON文件提交给后端,后端调用客户端程序接口,解析JSON文件中的关键参数,将完整的作业提交到yarn集群。
3、在Flink中,大数据解析引擎通过FlatMap方法对每一条数据进行流式处理,使用指定的格式解析将原始数据解析成多列格式。
4、使用用户选择的字段信息形成一份完整Schema,并用该Schema对数据进行结构化处理。
5、结构化后的数据转成Flink中的表结构,并使用Flink SQL通过in的操作符来过滤数据。
请参见图7所示,本申请实施例公开了一种数据处理装置,包括:
原始数据获取模块10,用于获取由日志采集设备传输的多种原始格式数据;
结构转化模块11,用于通过Flink流式处理程序对原始格式数据执行向预设数据结构的数据转化操作,生成目标格式数据。
在一种具体实施方式中,结构转化模块11,包括:
数据格式提取模块,用于通过Flink流式处理程序根据原始格式数据的目标数据格式提取原始格式数据的数据元素;
元素写入模块,用于将数据元素写入预设数据结构生成目标格式数据。
在一种具体实施方式中,装置还包括:
字段确定模块,用于确定字段名以及与字段名对应的字段类型;
数据结构生成模块,用于根据字段名以及字段类型生成预设数据结构。
在一种具体实施方式中,字段确定模块,包括:
字段库确定模块,用于根据前端设置的字段配置参数在字段库中确定字段名以及与字段名对应的字段类型。
在一种具体实施方式中,装置还包括:
数据结构处理模块,用于基于JEXL程序以表达式的方式对预设数据结构中的字段执行函数处理和/或操作符处理。
在一种具体实施方式中,装置还包括:
数据过滤模块,用于通过Flink Sql对预设数据结构中的数据元素进行过滤。
在一种具体实施方式中,Flink转化模块,包括:
函数转化模块,用于通过在Flink流式处理程序的应用程序编排接口中调用FlatMap函数的方式,对原始格式数据执行向预设数据结构的数据转化操作。
本申请所提供的数据处理装置,首先获取由日志采集设备传输的多种原始格式数据,进而通过Flink流式处理程序对原始格式数据执行向预设数据结构的数据转化操作,生成目标格式数据。由于Flink流式处理指的是在接收数据的同时对数据进行处理,因此本装置通过流式处理的方式对原始格式数据执行向预设数据结构的数据转化操作,以此生成目标格式数据,能够相对确保由原始格式数据向目标格式数据转化的标准化解析过程的数据处理效率。
基于上述程序模块的硬件实现,且为了实现本申请实施例的数据处理方法,本申请实施例还提供了一种数据处理设备,运行有虚拟机且与虚拟机对应的虚拟机磁盘建立有通信连接,图8为本申请实施例数据处理设备的硬件组成结构示意图,如图8所示,数据处理设备包括:
通信接口1,能够与其它设备比如网络设备等进行信息交互;
处理器2,与通信接口1连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的数据处理方法。而所述计算机程序存储在存储器3上。
当然,实际应用时,数据处理设备中的各个组件通过总线系统4耦合在一起。可理解,总线系统4用于实现这些组件之间的连接通信。总线系统4除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图8中将各种总线都标为总线系统4。
本申请实施例中的存储器3用于存储各种类型的数据以支持数据处理设备的操作。这些数据的示例包括:用于在数据处理设备上操作的任何计算机程序。
可以理解,存储器3可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器2旨在包括但不限于这些和任意其它适合类型的存储器。
上述本申请实施例揭示的数据处理方法可以应用于处理器2中,或者由处理器2实现。处理器2可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述数据处理方法的各步骤可以通过处理器2中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器2可以实现或者执行本申请实施例中的公开的各数据处理方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的数据处理方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器3,处理器2读取存储器3中的程序,结合其硬件完成前述数据处理方法的步骤。
处理器2执行所述程序时实现本申请实施例的各个数据处理方法中的相应流程,为了简洁,在此不再赘述。
在示例性实施例中,本申请实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器3,上述计算机程序可由处理器2执行,以完成前述数据处理方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置、终端和数据处理方法,可以通过其它的方式实现。以上所描述的设备实施例仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述数据处理方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述数据处理方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例的数据处理方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的数据处理设备,首先获取由日志采集设备传输的多种原始格式数据,进而通过Flink流式处理程序对原始格式数据执行向预设数据结构的数据转化操作,生成目标格式数据。由于Flink流式处理指的是在接收数据的同时对数据进行处理,因此本设备通过流式处理的方式对原始格式数据执行向预设数据结构的数据转化操作,以此生成目标格式数据,能够相对确保由原始格式数据向目标格式数据转化的标准化解析过程的数据处理效率。
此外,本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的数据处理方法的步骤。
本申请所提供的计算机可读存储介质,首先获取由日志采集设备传输的多种原始格式数据,进而通过Flink流式处理程序对原始格式数据执行向预设数据结构的数据转化操作,生成目标格式数据。由于过Flink流式处理指的是在接收数据的同时对数据进行处理,因此本计算机可读存储介质通过流式处理的方式对原始格式数据执行向预设数据结构的数据转化操作,以此生成目标格式数据,能够相对确保由原始格式数据向目标格式数据转化的标准化解析过程的数据处理效率。
以上对本申请所提供的一种数据处理方法、装置、设备及存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取由日志采集设备传输的多种原始格式数据;
通过Flink流式处理程序对所述原始格式数据执行向预设数据结构的数据转化操作,生成目标格式数据以用于日志范化处理。
2.根据权利要求1所述的数据处理方法,其特征在于,所述通过Flink流式处理程序对所述原始格式数据执行向预设数据结构的数据转化操作,包括:
通过Flink流式处理程序根据所述原始格式数据的目标数据格式提取所述原始格式数据的数据元素;
将所述数据元素写入预设数据结构。
3.根据权利要求2所述的数据处理方法,其特征在于,在所述将所述数据元素写入预设数据结构之前,所述方法还包括:
确定字段名以及与所述字段名对应的字段类型;
根据所述字段名以及所述字段类型生成所述预设数据结构。
4.根据权利要求3所述的数据处理方法,其特征在于,所述确定字段名以及与所述字段名对应的字段类型,包括:
根据前端设置的字段配置参数在字段库中确定所述字段名以及与所述字段名对应的字段类型。
5.根据权利要求3所述的数据处理方法,其特征在于,在所述根据所述字段名以及所述字段类型生成所述预设数据结构之后,所述方法还包括:
基于JEXL程序以表达式的方式对所述预设数据结构中的字段执行函数处理和/或操作符处理。
6.根据权利要求2所述的数据处理方法,其特征在于,在所述将所述数据元素写入预设数据结构之后,所述方法还包括:
通过Flink Sql对所述预设数据结构中的所述数据元素进行过滤。
7.根据权利要求1至6任意一项所述的数据处理方法,其特征在于,所述通过Flink流式处理程序对所述原始格式数据执行向预设数据结构的数据转化操作,包括:
通过在所述Flink流式处理程序的应用程序编排接口中调用FlatMap函数的方式,对所述原始格式数据执行向预设数据结构的数据转化操作。
8.一种数据处理装置,其特征在于,包括:
原始数据获取模块,用于获取由日志采集设备传输的多种原始格式数据;
结构转化模块,通过Flink流式处理程序对所述原始格式数据执行向预设数据结构的数据转化操作,生成目标格式数据以用于日志范化处理。
9.一种数据处理设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据处理方法的步骤。
CN202110712143.5A 2021-06-25 2021-06-25 一种数据处理方法、装置、设备及存储介质 Pending CN113326238A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110712143.5A CN113326238A (zh) 2021-06-25 2021-06-25 一种数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110712143.5A CN113326238A (zh) 2021-06-25 2021-06-25 一种数据处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113326238A true CN113326238A (zh) 2021-08-31

Family

ID=77424803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110712143.5A Pending CN113326238A (zh) 2021-06-25 2021-06-25 一种数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113326238A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168672A (zh) * 2021-12-13 2022-03-11 明觉科技(北京)有限公司 日志数据的处理方法、装置、系统以及介质
CN114398437A (zh) * 2022-01-04 2022-04-26 多点生活(成都)科技有限公司 用户信息处理方法、装置、电子设备和计算机可读介质
CN114969083A (zh) * 2022-06-24 2022-08-30 在线途游(北京)科技有限公司 一种实时数据分析方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558400A (zh) * 2018-11-28 2019-04-02 北京锐安科技有限公司 数据处理方法、装置、设备和存储介质
CN109710731A (zh) * 2018-11-19 2019-05-03 北京计算机技术及应用研究所 一种基于Flink的数据流多向处理系统
CN110858192A (zh) * 2018-08-23 2020-03-03 阿里巴巴集团控股有限公司 一种日志查询方法和系统、日志排查系统和查询终端
CN112100147A (zh) * 2020-07-27 2020-12-18 杭州玳数科技有限公司 基于Flink实现Binlog到HIVE的实时采集方法和系统
CN112925838A (zh) * 2019-12-06 2021-06-08 阿里巴巴集团控股有限公司 一种数据处理方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110858192A (zh) * 2018-08-23 2020-03-03 阿里巴巴集团控股有限公司 一种日志查询方法和系统、日志排查系统和查询终端
CN109710731A (zh) * 2018-11-19 2019-05-03 北京计算机技术及应用研究所 一种基于Flink的数据流多向处理系统
CN109558400A (zh) * 2018-11-28 2019-04-02 北京锐安科技有限公司 数据处理方法、装置、设备和存储介质
CN112925838A (zh) * 2019-12-06 2021-06-08 阿里巴巴集团控股有限公司 一种数据处理方法和装置
CN112100147A (zh) * 2020-07-27 2020-12-18 杭州玳数科技有限公司 基于Flink实现Binlog到HIVE的实时采集方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李建松等: "《地理信息系统原理》", 武汉:武汉大学出版社 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168672A (zh) * 2021-12-13 2022-03-11 明觉科技(北京)有限公司 日志数据的处理方法、装置、系统以及介质
CN114398437A (zh) * 2022-01-04 2022-04-26 多点生活(成都)科技有限公司 用户信息处理方法、装置、电子设备和计算机可读介质
CN114969083A (zh) * 2022-06-24 2022-08-30 在线途游(北京)科技有限公司 一种实时数据分析方法及系统

Similar Documents

Publication Publication Date Title
CN113326238A (zh) 一种数据处理方法、装置、设备及存储介质
CN110908997B (zh) 数据血缘构建方法、装置、服务器及可读存储介质
US9959310B2 (en) Accessing single entities in OData entity sets
WO2020253399A1 (zh) 日志分类规则的生成方法、装置、设备及可读存储介质
WO2018126964A1 (zh) 任务执行方法、装置和服务器
CA2684822A1 (en) Data transformation based on a technical design document
CN112083920A (zh) 一种前端页面设计方法、装置、存储介质及设备
CN110968325A (zh) 一种小程序转换方法及装置
CN110427188B (zh) 单测断言程序的配置方法、装置、设备及存储介质
CN110688544A (zh) 一种查询数据库的方法、设备及存储介质
CN109656951A (zh) 基于表达式查询数据的方法及查询系统
CN111427784B (zh) 一种数据获取方法、装置、设备及存储介质
CN112558940A (zh) 基于表格的网站页面开发方法、装置、设备及存储介质
CN105867886B (zh) 一种写表格的方法及装置
CN113868698A (zh) 一种文件脱敏方法及设备
CN113485909A (zh) 测试方法、装置、计算设备以及介质
CN111984826A (zh) 基于xml的数据自动入库方法、系统、装置和存储介质
CN111143310B (zh) 日志记录方法及装置、可读存储介质
CN116775488A (zh) 异常数据确定方法、装置、设备、介质及产品
CN110908870A (zh) 一种大型机的资源监控方法、装置、存储介质及设备
CN115757174A (zh) 一种数据库的差异检测方法及装置
CN113672233B (zh) 一种基于Redfish的服务器带外管理方法、装置及设备
CN112597179B (zh) 日志信息解析方法及装置
CN111143329A (zh) 一种数据处理方法及装置
CN113377674B (zh) 一种日志代码添加方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210831

RJ01 Rejection of invention patent application after publication