CN116303427A - 数据处理方法及装置、电子设备和存储介质 - Google Patents

数据处理方法及装置、电子设备和存储介质 Download PDF

Info

Publication number
CN116303427A
CN116303427A CN202310068112.XA CN202310068112A CN116303427A CN 116303427 A CN116303427 A CN 116303427A CN 202310068112 A CN202310068112 A CN 202310068112A CN 116303427 A CN116303427 A CN 116303427A
Authority
CN
China
Prior art keywords
metadata
data
image file
attribute
temporary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310068112.XA
Other languages
English (en)
Inventor
李晓明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changxin Memory Technologies Inc
Original Assignee
Changxin Memory Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changxin Memory Technologies Inc filed Critical Changxin Memory Technologies Inc
Priority to CN202310068112.XA priority Critical patent/CN116303427A/zh
Publication of CN116303427A publication Critical patent/CN116303427A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开是关于一种数据处理方法及装置、电子设备以及计算机可读存储介质,涉及大数据技术领域,可以应用于对数据仓库数据表的属性进行分析的场景。该方法包括:获取分布式文件系统中原始数据对应的镜像文件,以及获取原始数据对应的初始元数据;分别创建镜像文件与初始元数据各自对应的镜像文件元数据表与元数据结果表;基于镜像文件元数据表与元数据结果表各自对应的临时表进行合并解析处理,生成原始数据对应的业务属性的属性统计结果表;对属性统计结果表进行数据筛选处理,得到业务属性对应的目标属性统计数据。本公开可以通过整合分布式文件系统中的镜像文件与关系型数据库中的元数据,对原始数据的多维度业务属性进行统计分析。

Description

数据处理方法及装置、电子设备和存储介质
技术领域
本公开涉及大数据运维技术领域,具体而言,涉及一种数据处理方法、数据处理装置、电子设备以及计算机可读存储介质。
背景技术
Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive作为数据仓库主要技术方案之一,其提供的类SQL处理方式已广泛应用到各种大数据离线处理系统上。
由于Hive数据是存储在传统的Hadoop分布式文件系统(Hadoop DistributedFile System,HDFS)上,因此,不合理的使用Hive可能会影响大数据集群性能,例如Hive表Block块大小问题、Hive表小文件问题等诸如此类。同时,Hive数仓运维人员也迫切需要全方位了解当前Hive表的存储状态,以便将未知隐患提前暴露出来。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种数据处理方法、数据处理装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服现有的数据仓库实现方案对于Hive本身的业务表属性统计运维方面缺乏有效方案的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本公开的第一方面,提供一种数据处理方法,包括:获取分布式文件系统中原始数据对应的镜像文件,以及获取所述原始数据对应的初始元数据;分别创建所述镜像文件与所述初始元数据各自对应的镜像文件元数据表与元数据结果表;基于所述镜像文件元数据表与元数据结果表各自对应的临时表进行合并解析处理,生成所述原始数据对应的业务属性的属性统计结果表;对所述属性统计结果表进行数据筛选处理,得到所述业务属性对应的目标属性统计数据。
在本公开的一种示例性实施方案中,所述获取分布式文件系统中原始数据对应的镜像文件,包括:响应于镜像文件提取指令,从所述分布式文件系统中获取所述原始数据对应的镜像文件;对所述进行镜像文件进行文件解析处理,得到解析镜像文件;将所述解析镜像文件存储至所述分布式文件系统的第一存储路径。
在本公开的一种示例性实施方案中,所述获取所述原始数据对应的初始元数据,包括:将分布式文件系统的执行端连接至所述原始数据的元数据存储库;基于所述执行端生成远程交互指令,基于所述远程交互指令从所述元数据存储库中获取所述初始元数据;将所述初始元数据存储至所述分布式文件系统的第二存储路径。
在本公开的一种示例性实施方案中,所述基于所述远程交互指令从所述元数据存储库中获取所述初始元数据,包括:获取预先构建的查询脚本,从所述元数据存储库获取初始元数据表;基于所述查询脚本对所述初始元数据表进行解析处理,得到元数据结果表;获取数据抽取组件,采用数据抽取组件将所述元数据结果表存储至分布式文件系统的第二存储路径,作为所述初始元数据。
在本公开的一种示例性实施方案中,所述分别创建所述镜像文件与所述初始元数据各自对应的镜像文件元数据表与元数据结果表,包括:在数据仓库中创建所述镜像文件对应的元数据表,作为所述镜像文件元数据表;在所述数据仓库中创建所述初始元数据对应的元数据表,作为所述元数据结果表;将所述镜像文件元数据表与所述元数据结果表,作为所述分布式文件系统中数据文件的外部表。
在本公开的一种示例性实施方案中,所述基于所述镜像文件元数据表与元数据结果表各自对应的临时表进行合并解析处理,生成所述原始数据对应的业务属性的属性统计结果表,包括:分别创建所述镜像文件元数据表与元数据结果表,各自对应的镜像文件临时表与元数据临时表;对所述镜像文件临时表与所述元数据临时表进行合并处理,生成合并数据表;对所述合并数据表进行解析处理,生成所述属性统计结果表。
在本公开的一种示例性实施方案中,所述分别创建所述镜像文件元数据表与元数据结果表,各自对应的镜像文件临时表与元数据临时表,包括:对所述镜像文件元数据表进行聚合分组处理,得到所述镜像文件元数据表对应的镜像文件临时表;对所述元数据结果表进行分区聚合处理,得到所述元数据结果表对应的元数据临时表。
在本公开的一种示例性实施方案中,所述对所述镜像文件元数据表进行聚合分组处理,得到所述镜像文件元数据表对应的镜像文件临时表,包括:获取所述镜像文件元数据表的原始表信息,对所述原始表信息进行正则匹配处理,得到所述镜像文件元数据表的有效表信息;对所述镜像文件元数据表中的文件数量进行统计处理,得到所述镜像文件元数据表对应的文件统计信息;基于所述有效表信息与所述文件统计信息,生成所述镜像文件临时表。
在本公开的一种示例性实施方案中,所述对所述镜像文件临时表与所述元数据临时表进行合并处理,生成合并数据表,包括:确定所述镜像文件临时表对应的第一表字段;确定所述元数据临时表对应的第二表字段;基于所述第一表字段与所述第二表字段,对所述镜像文件临时表与所述元数据临时表进行合并处理,得到所述合并数据表。
在本公开的一种示例性实施方案中,所述对所述属性统计结果表进行数据筛选处理,得到所述业务属性对应的目标属性统计数据,包括:获取基于镜像文件临时表与元数据临时表生成的合并数据表;对所述合并数据表与所述属性统计结果表进行合并处理,生成初始统计结果表;获取预先配置的属性排序指标,基于所述属性排序指标对所述初始统计结果表的属性数据进行排序处理,得到所述目标属性统计数据。
在本公开的一种示例性实施方案中,上述方法还包括:获取预先配置的模板引擎;采用所述模板引擎从所述目标属性统计数据中提取待展示数据;将所述待展示数据发送至可视化执行端,通过所述可视化执行端的可视化界面展示所述待展示数据。
在本公开的一种示例性实施方案中,上述方法还包括:获取预先配置的内容截取组件;通过所述内容截取组件对所述可视化界面中的页面内容进行截取处理,得到告警辅助数据;基于所述告警辅助数据生成告警信息。
根据本公开的第二方面,提供一种数据处理装置,包括:数据获取模块,用于获取分布式文件系统中原始数据对应的镜像文件,以及获取所述原始数据对应的初始元数据;元数据表创建模块,用于分别创建所述镜像文件与所述初始元数据各自对应的镜像文件元数据表与元数据结果表;合并处理模块,用于基于所述镜像文件元数据表与元数据结果表各自对应的临时表进行合并解析处理,生成所述原始数据对应的业务属性的属性统计结果表;数据筛选模块,用于对所述属性统计结果表进行数据筛选处理,得到所述业务属性对应的目标属性统计数据。
在本公开的一种示例性实施方案中,所述数据获取模块包括镜像文件获取单元,用于:响应于镜像文件提取指令,从所述分布式文件系统中获取所述原始数据对应的镜像文件;对所述进行镜像文件进行文件解析处理,得到解析镜像文件;将所述解析镜像文件存储至所述分布式文件系统的第一存储路径。
在本公开的一种示例性实施方案中,所述数据获取模块包括元数据获取单元,用于:将分布式文件系统的执行端连接至所述原始数据的元数据存储库;基于所述执行端生成远程交互指令,基于所述远程交互指令从所述元数据存储库中获取所述初始元数据;将所述初始元数据存储至所述分布式文件系统的第二存储路径。
在本公开的一种示例性实施方案中,所述元数据获取单元包括元数据获取子单元,用于:获取预先构建的查询脚本,从所述元数据存储库获取初始元数据表;基于所述查询脚本对所述初始元数据表进行解析处理,得到元数据结果表;获取数据抽取组件,采用数据抽取组件将所述元数据结果表存储至分布式文件系统的第二存储路径,作为所述初始元数据。
在本公开的一种示例性实施方案中,所述元数据创建模块包括元数据创建单元,用于:在数据仓库中创建所述镜像文件对应的元数据表,作为所述镜像文件元数据表;在所述数据仓库中创建所述初始元数据对应的元数据表,作为所述元数据结果表;将所述镜像文件元数据表与所述元数据结果表,作为所述分布式文件系统中数据文件的外部表。
在本公开的一种示例性实施方案中,所述合并处理模块包括合并处理单元,用于:分别创建所述镜像文件元数据表与元数据结果表,各自对应的镜像文件临时表与元数据临时表;对所述镜像文件临时表与所述元数据临时表进行合并处理,生成合并数据表;对所述合并数据表进行解析处理,生成所述属性统计结果表。
在本公开的一种示例性实施方案中,所述合并处理单元包括临时表创建单元,用于:对所述镜像文件元数据表进行聚合分组处理,得到所述镜像文件元数据表对应的镜像文件临时表;对所述元数据结果表进行分区聚合处理,得到所述元数据结果表对应的元数据临时表。
在本公开的一种示例性实施方案中,所述临时表创建单元包括临时表创建子单元,包括:获取所述镜像文件元数据表的原始表信息,对所述原始表信息进行正则匹配处理,得到所述镜像文件元数据表的有效表信息;对所述镜像文件元数据表中的文件数量进行统计处理,得到所述镜像文件元数据表对应的文件统计信息;基于所述有效表信息与所述文件统计信息,生成所述镜像文件临时表。
在本公开的一种示例性实施方案中,所述合并处理单元包括合并处理子单元,用于:确定所述镜像文件临时表对应的第一表字段;确定所述元数据临时表对应的第二表字段;基于所述第一表字段与所述第二表字段,对所述镜像文件临时表与所述元数据临时表进行合并处理,得到所述合并数据表。
在本公开的一种示例性实施方案中,所述数据筛选模块包括数据筛选单元,用于:获取基于镜像文件临时表与元数据临时表生成的合并数据表;对所述合并数据表与所述属性统计结果表进行合并处理,生成初始统计结果表;获取预先配置的属性排序指标,基于所述属性排序指标对所述初始统计结果表的属性数据进行排序处理,得到所述目标属性统计数据。
在本公开的一种示例性实施方案中,所述数据处理装置还包括数据展示模块,用于:获取预先配置的模板引擎;采用所述模板引擎从所述目标属性统计数据中提取待展示数据;将所述待展示数据发送至可视化执行端,通过所述可视化执行端的可视化界面展示所述待展示数据。
在本公开的一种示例性实施方案中,所述数据处理装置还包括告警信息生成模块,用于:获取预先配置的内容截取组件;通过所述内容截取组件对所述可视化界面中的页面内容进行截取处理,得到告警辅助数据;基于所述告警辅助数据生成告警信息。
根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现根据上述任意一项所述的数据处理方法。
根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据上述任意一项所述的数据处理方法。
本公开提供的技术方案可以包括以下有益效果:
本公开的示例性实施例中的数据处理方法,一方面,提供了一种通过整合镜像文件与元数据,以对数据仓库中业务表的属性信息进行分析的方案,避免对单一文件进行分析造成部分指标的信息遗漏。另一方面,通过镜像文件解析表与元数据解析表的临时表进行数据合并与筛选处理,可以对原始数据进行充分解析,且提高最终属性统计结果数据的可信度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性地示出了根据本公开的一些实施例的示例性应用场景的系统架构的示意框图;
图2示意性示出了根据本公开的示例性实施方式的数据处理方法的流程图;
图3示意性示出了根据本公开的示例性实施方式的将镜像文件与初始元数据存储在分布式文件系统的数据流向图;
图4示意性示出了根据本公开的示例性实施方式的通过整合原始数据的镜像文件与初始元数据以进行业务属性分析的流程图;
图5示意性示出了根据本公开的示例性实施方式的数据处理装置的方框图;
图6示意性示出了根据本公开一示例性实施例的电子设备的框图;
图7示意性示出了根据本公开一示例性实施例的计算机可读存储介质的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
在各行各业的生产经营过程中,将产生海量的相关数据,生成的数据可以用于后续的数据分析。例如,半导体行业内不同制程产生的海量技术数据基本都是落地到Hive数仓内,但是还没有一套成熟的技术方案可以快速获取Hive表各种完整的存储属性信息。虽然Hive表的所有元数据信息都已存储在关系型数据库内,例如Oracle数据库、MySQL数据库等,且HDFS也提供了多种统计命令,但是基于成千上万张表的人工统计是不现实的,也是效率最低的。
另外,持续数据保护(Continuous Data Protection,CDP)增加了更多的高级管理、性能调优、密钥管理等新颖特性,且Hive版本同样在不断更新,但是高版本Hive关注的重点是性能提升,例如默认开启数据库事务正确执行的四要素ACID,包括原子性(atomicity,或称不可分割性)、一致性(consistency)、隔离性(isolation,又称独立性)、持久性(durability)、更换执行引擎、开启低延迟分析处理(Live long and process,LLAP)支持等,在围绕Hive本身业务表属性统计运维方面仍欠缺一套成熟的技术方案。
基于此,公开提出了一种数据处理方法、装置、电子设备和计算机可读存储介质。首先参考图1,图1示出了可以应用本公开实施例的一种数据处理方法及装置的示例性应用场景的系统架构的示意框图。
如图1所示,系统架构100可以包括分布式文件存储系统101、关系型数据库102、服务器103、网络104以及可视化执行端105、106、107中的一个或多个。网络104用以在可视化执行端105、106、107和服务器103之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。可视化执行端105、106、107可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器103可以是多个服务器组成的服务器集群等。
本公开实施例所提供的数据处理方法一般由服务器103执行,相应地,数据处理装置一般设置于服务器103中。但本领域技术人员容易理解的是,本公开实施例所提供的数据处理方法也可以由终端设备执行,相应的,数据处理装置也可以设置于终端设备中,本示例性实施例中对此不做特殊限定。举例而言,在一种示例性实施例中,可以从分布式文件存储系统101和关系型数据库102中获取原始数据对应的镜像文件与初始元数据,服务器103通过本公开实施例所提供的数据处理方法对镜像文件与初始元数据进行处理,得到原始数据对应的目标属性统计数据,并将得到的目标属性统计数据通过网络104传输给可视化执行端105、106、107等以使终端设备可视化执行端105、106、107将目标属性统计数据中的待展示数据进行展示。
在本示例实施例中,首先提供了一种数据处理方法,可以利用服务器来实现本公开的数据处理方法,也可以利用终端设备来实现本公开所述的方法,其中,本公开中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(PersonalDigital Assistant,PDA)等移动终端,以及诸如台式计算机等固定终端。图2示意性示出了根据本公开的一些实施例的数据处理方法流程的示意图。参考图2,该数据处理方法可以包括以下步骤:
步骤S210,获取分布式文件系统中原始数据对应的镜像文件,以及获取原始数据对应的初始元数据。
根据本公开的一些示例性实施例,原始数据可以是存储于分布式文件系统的原始业务数据。镜像文件可以是分布式文件系统中原始数据完全相同的副本文件。初始元数据可以是用于描述原始数据的数据,初始元数据主要是描述原始数据的数据属性的信息,用来支持如指示原始数据的存储位置、历史数据、资源查找、文件记录等功能。
在生产生活的各类业务场景中,可以产生大量的技术数据与用户数据,上述数据通常是数量巨大、难于收集、处理、分析的数据集。举例而言,以半导体生产制造场景为例,生产制造过程中产生的海量数据通常可以存储于HDFS中。在进行数据处理之前,可以从分布式文件系统(如HDFS)中获取原始数据,例如,可以获取原始数据对应的镜像文件(fsimage文件)。
另外,对于在HDFS存储的原始数据而言,通常具有描述其数据特性的数据,即原始数据对应的初始元数据。初始元数据主要是描述原始数据的数据属性(property)的信息,它是关于数据的组织、数据域及其关系的信息。对于原始数据的初始元数据而言,根据数据的存储特性可知,初始元数据通常存储于关系型数据库中,因此,可以从关系型数据库中获取初始元数据,并将获取到的镜像文件与初始元数据存储在指定的存储路径中。
步骤S220,分别创建镜像文件与初始元数据各自对应的镜像文件元数据表与元数据结果表。
根据本公开的一些示例性实施例,镜像文件元数据表可以是在数据仓库中创建的镜像文件的元数据对应的数据表。元数据结果表可以是在数据仓库中创建的用于描述初始元数据的数据对应的数据表。
在将获取到的原始数据的镜像文件与初始元数据存储在指定存储路径后,可以分别创建用于描述上述数据的元数据表。具体的,可以在数据仓库中创建镜像文件对应的元数据表,以及在数据仓库中创建初始元数据对应的元数据结果表。
步骤S230,基于镜像文件元数据表与元数据结果表各自对应的临时表进行合并解析处理,生成原始数据对应的业务属性的属性统计结果表。
根据本公开的一些示例性实施例,临时表可以是建立在系统临时文件夹中的镜像文件元数据表与元数据结果表。合并解析处理可以是将镜像文件元数据表与元数据结果表中的相关字段进行合并处理,并进行信息统计等的处理操作。业务属性可以是数据仓库中存储的与原始数据相关的属性。属性统计结果表可以是由原始数据的业务属性的相关统计信息组成的数据表。
在创建得到镜像文件与初始元数据各自对应的镜像文件元数据表与元数据结果表后,为了对原始数据进行充分解析,可以根据分析需求分别对镜像文件元数据表与元数据结果表进行解析处理,得到各自对应的临时表,以基于得到的临时表作为后续对业务属性进行统计分析的数据基础。
在得到镜像文件元数据表与元数据结果表各自对应的临时表后,可以对两个临时表进行合并解析处理,例如,基于表的字段对两个临时表进行合并处理,将表中包含的属性信息进行整合,生成原始数据对应的业务属性的属性统计结果表。
步骤S240,对属性统计结果表进行数据筛选处理,得到业务属性对应的目标属性统计数据。
根据本公开的一些示例性实施例,数据筛选处理可以是根据预先配置的筛选规则从属性统计结果表中筛选出符合要求的属性相关信息的处理操作。目标属性统计数据可以是基于筛选规则匹配得到的符合要求的属性统计数据。
在得到属性统计结果表后,可以根据实际需求对进行性统计结果表数据筛选处理,例如,用户可以自定义属性排序指标,根据自定义的属性排序指标从属性统计结果表中筛选出排序在前N位的业务属性数据,作为业务属性对应的目标属性统计数据,得到用户想要得到的属性统计数据。
根据本示例实施例中的数据处理方法,一方面,提供了一种通过整合镜像文件与元数据,以对数据仓库中业务表的属性信息进行分析的方案,避免对单一文件进行分析造成部分指标的信息遗漏。另一方面,通过镜像文件解析表与元数据解析表的临时表进行数据合并与筛选处理,可以对原始数据进行充分解析,且提高最终属性统计结果数据的可信度。
下面,将对本示例实施例中的数据处理方法进行进一步的说明。
在本公开的一种示例性实施方案中,对于步骤S210,获取分布式文件系统中原始数据对应的镜像文件,包括:响应于镜像文件提取指令,从分布式文件系统中获取原始数据对应的镜像文件;对进行镜像文件进行文件解析处理,得到解析镜像文件;将解析镜像文件存储至分布式文件系统的第一存储路径。
其中,镜像文件提取指令可以是从分布式文件系统中获取镜像文件的操作指令。文件解析处理可以是将镜像文件从原始数据格式转换为指定数据格式的处理操作。解析镜像文件可以是对镜像文件进行文件解析处理后得到的解析文件。第一存储路径可以是分布式文件系统中用于存储解析镜像文件的存储路径。
参考图3,对于存储于HDFS上的原始数据,可以从HDFS分布式存储系统中获取原始数据对应的镜像文件。例如,从HDFS分布式存储系统获取镜像文件可以基于镜像文件提取指令进行。相关技术人员可以通过镜像文件提取指令(如HDFS fetchImage)从HDFS分布式存储系统中离线下载镜像文件310到服务器中,从HDFS分布式存储系统中获取到的镜像文件可以采用二进制形式存储在执行服务器中,即存储在执行服务器中的二进制文件320。
对于获取到的二进制文件320,可以对二进制文件320进行文件解析处理,得到对应的可阅读的文件。例如,使用oiv命令将镜像文件转换为可阅读的文件,在使用oiv命令对镜像文件进行解析处理后,可以得到对应的逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号)文件330,CSV文件以纯文本形式存储表格数据(数字和文本)。
在本公开的其他示例性实施例中,还可以将从HDFS分布式存储系统中获取到的镜像文件转换为其他可阅读的文件格式,并将经过格式转化后的镜像文件上传至HDFS分布式存储系统中,本公开对转换后得到的具体文件格式不做任何特殊限定。
对于得到的CSV文件330,可以将其作为解析镜像文件340存储至分布式文件系统中,具体的,可以将解析镜像文件存储至HDFS分布式存储系统的第一存储路径中,如HDFS的第一存储路径可以是/user/xxx/tb_hdfs_metadata。通过上述步骤,可以从HDFS中获取到原始数据的镜像文件,并将其存储至HDFS中,作为后续数据业务属性分析的数据基础。
在本公开的一种示例性实施方案中,对于步骤S110,获取原始数据对应的初始元数据,包括:将分布式文件系统的执行端连接至原始数据的元数据存储库;基于执行端生成远程交互指令,基于远程交互指令从元数据存储库中获取初始元数据;将初始元数据存储至分布式文件系统的第二存储路径。
其中,分布式文件系统的执行端可以是连接至分布式文件系统的执行操作端,执行端可以运行查询脚本。元数据存储库可以是用于存储原始数据对应的元数据的数据库,元数据存储库通常为关系型数据库。远程交互指令可以是用于连接分布式文件系统的执行端与元数据存储库进行数据交互操作的控制指令。第二存储路径可以是分布式文件系统中存储用于描述初始元数据的数据的路径。
继续参考图3,在HDFS的执行端,如Linux执行服务器350可以连接至元数据存储库,元数据存储库可以用于存储原始数据的元数据,且通常为关系型数据库,如Oracle数据库、mySQL数据库等。通过HDFS的执行端上运行远程交互指令,以基于远程交互指令从元数据存储库中获取初始元数据。例如,执行端可以通过Expect命令从元数据存储库中获取字符串,得到初始元数据。
在得到初始元数据后,可以将初始元数据存储至HDFS分布式存储系统的第二存储路径下。通过上述步骤,可以从关系型数据库中获取到原始数据对应的初始元数据,将其作为后续对业务属性进行统计分析的数据基础,并且,从不同的文件系统中收集原始数据,可以避免使用单一文件造成的部分指标信息遗漏的问题。
在本公开的一种示例性实施方案中,基于远程交互指令从元数据存储库中获取初始元数据,包括:获取预先构建的查询脚本,从元数据存储库获取初始元数据表;基于查询脚本对初始元数据表进行解析处理,得到元数据结果表;获取数据抽取组件,采用数据抽取组件将元数据结果表存储至分布式文件系统的第二存储路径,作为初始元数据。
其中,查询脚本可以是由结构化查询语言(Structured Query Language,SQL)语句组成的执行脚本。初始元数据表可以是用于描述初始元数据的相关数据表。解析处理可以是基于查询脚本对初始元数据表进行解析处理的操作过程。数据抽取组件可以是用于数据迁移的操作组件,数据抽取组件可以用于将关系型数据库中的单表导入分布式文件系统中。
执行服务器350通过远程交互指令从元数据存储库中获取初始元数据的具体实现步骤如下;执行服务器350可以先连接至元数据存储库(如Hive Metadata数据库)360,如元数据存储库可以是关系型数据库Oracle。从元数据存储库获取到原始数据对应的初始元数据表,初始元数据表可以包括主表(dbs表)、与视图相关的元数据表(tbls表)、存储基本信息的元数据表(sds)表和分区表(partitions表)。
在获取到上述初始元数据表后,可以通过执行服务器执行查询脚本(如OracleSQL脚本),联合SQL脚本对初始元数据表进行解析处理,得到元数据结果表tb_hive_metadata_result。对初始元数据表进行解析处理的过程,可以是基于元数据存储库进行的,在得到元数据结果表后,可以获取一种用于在不同存储系统之间进行数据传递的数据抽取组件,采用数据抽取组件将元数据结果表存储至分布式文件系统的第二存储路径,作为初始元数据370。
例如,数据抽取组件可以是Sqoop组件,Sqoop组件是一种数据迁移工具,主要用于在Hadoop((Hive)与传统的数据库(如mysql、postgresql)间进行数据的传递,可以将一个关系型数据库(如MySQL、Oracle、Postgres等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
通过数据抽取组件,可以将得到的元数据结果表上传至HDFS的第二存储路径中,如第二存储路径可以是/user/xxx/tb_hive_metadata。通过上述步骤,可以完成将原始数据的元数据上传至分布式文件系统中,作为后续业务属性分析的数据基础。
在本公开的一种示例性实施方案中,对于步骤S120,分别创建镜像文件与初始元数据各自对应的镜像文件元数据表与元数据结果表,包括:在数据仓库中创建镜像文件对应的元数据表,作为镜像文件元数据表;在数据仓库中创建初始元数据对应的元数据表,作为元数据结果表;将镜像文件元数据表与元数据结果表,作为分布式文件系统中数据文件的外部表。
其中,镜像文件对应的元数据表可以是用于描述镜像文件的数据构成的结果表。初始元数据对应的元数据表可以是用于描述初始元数据的数据构成的结果表。外部表可以是指不存在于分布式文件系统的数据表。
在将镜像文件与初始元数据均存储至HDFS分布式存储系统中后,可以分别创建镜像文件与初始元数据各自对应的镜像文件元数据表与元数据结果表。参考图4,图4示意性示出了根据本公开的示例性实施方式的通过整合原始数据的镜像文件与初始元数据以进行业务属性分析的流程图。图4的HDFS系统中存储有镜像文件与初始元数据等HDFS文件401。
对于存储于HDFS中的镜像文件,可以数据仓库中创建镜像文件对应的元数据表,如该元数据表中可以包含关于镜像文件的组织、数据域及其关系的信息,作为镜像文件元数据表402,镜像文件元数据表402可以用tb_hdfs_metadata表示。镜像文件元数据表402包含的具体内容如表1所示。
表1镜像文件元数据表
字段名称 字段属性 字段说明
PATH STRING 路径
REPL INT 副本数
MODIFICATION_TIME STRING 最近修改时间
ACCESSTIME STRING 最近访问时间
PREFERREDBLOCKSIZE INT 期望块大小
BLOCKCOUNT DOUBLE 块总数
FILESIZE DOUBLE 文件大小
NSQUOTA INT 名称配额
DSQUOTA INT 监控配额
PERMISSION STRING 文件权限
USERNAME STRING 所属用户
GROUPNAME STRING 所属用户组
同样的,对于存储于HDFS中的初始元数据,可以在数据仓库中创建初始元数据对应的元数据表,作为元数据结果表403,元数据结果表403用tb_hive_metadata表示。元数据结果表403包含的具体内容如表2所示。
表2元数据结果表
Figure BDA0004073676740000131
Figure BDA0004073676740000141
对于创建得到的镜像文件元数据表与元数据结果表,可以将其作为分布式文件系统中数据文件的外部表。通过在数据仓库内分别创建镜像文件元数据表与元数据结果表,作为HDFS的外部表,后续可以使用Hive类SQL语句进行数据处理,降低了针对业务属性进行数据分析的处理难度。
在本公开的一种示例性实施方案中,对于步骤S130,基于镜像文件元数据表与元数据结果表各自对应的临时表进行合并解析处理,生成原始数据对应的业务属性的属性统计结果表,包括:分别创建镜像文件元数据表与元数据结果表,各自对应的镜像文件临时表与元数据临时表;对镜像文件临时表与元数据临时表进行合并处理,生成合并数据表;对合并数据表进行解析处理,生成属性统计结果表。
其中,镜像文件临时表可以是对镜像文件元数据表进行聚合分组处理后建立在系统临时文件夹中的数据表。元数据临时表可以是对元数据结果表进行分区聚合处理后建立在系统临时文件夹中的数据表。合并数据表可以是将镜像文件临时表与元数据临时表进行字段融合处理后得到的数据表。
在数据仓库中分别创建镜像文件元数据表tb_hdfs_metadata与元数据结果表tb_hive_metadata后,可以根据具体的数据使用需求分别创建镜像文件元数据表与元数据结果表各自对应的镜像文件临时表与元数据临时表。继续参考图4,对镜像文件元数据表402进行解析处理,得到镜像文件元数据表402对应的镜像文件临时表404,镜像文件临时表404可以用tmp_smallfile_1表示,具体内容如表3所示。对元数据结果表403进行解析处理,得到元数据结果表403对应的元数据临时表405,元数据临时表405可以用tmp_smallfile_2表示,具体内容如表4所示。
表3镜像文件临时表
Figure BDA0004073676740000142
Figure BDA0004073676740000151
表4元数据临时表
字段名称 字段属性 字段说明
DB_NAME STRING 数据库名称
TBL_NAME STRING 表名称
TB_CREATE_TIME STRING 表创建时间
TBL_TYPE STRING 表类型
OWNER STRING 表属主
OWNER_NAME STRING 数据库属主
OWNER_TYPE STRING 数据库属主性
LOCATION STRING 表地址
PAR_CREATE_TIME STRING 分区创建时间
PART_NAME STRING 分区名称
PATH STRING 分区路径
PAR_FLAG INT 判断是否有分区
在本公开的一种示例性实施方案中,分别创建镜像文件元数据表与元数据结果表,各自对应的镜像文件临时表与元数据临时表,包括:对镜像文件元数据表进行聚合分组处理,得到镜像文件元数据表对应的镜像文件临时表;对元数据结果表进行分区聚合处理,得到元数据结果表对应的元数据临时表。
其中,聚合分组处理可以是对镜像文件元数据表中的文件信息进行整合统计的处理过程。分区聚合处理可以是对元数据结果表中不同分区的文件信息进行整合统计的处理过程。
继续参考图4,在创建镜像文件临时表404时,可以对镜像文件元数据表402进行聚合分组处理,例如,对镜像文件元数据表402中的文件数量、文件大小进行统计求和等基本的计算和格式化处理操作。同样的,对于对元数据结果表403而言,可以对元数据结果表403中与数据分区相关的表字段进行整合,进行分区聚合处理,得到元数据结果表403对应的元数据临时表405。通过建立数据表对应的临时表,后续对临时表进行数据处理的机制,可以对原始数据进行充分解析,增加最终得到的属性指标的可信度。
在本公开的一种示例性实施方案中,对镜像文件元数据表进行聚合分组处理,得到镜像文件元数据表对应的镜像文件临时表,包括:获取镜像文件元数据表的原始表信息,对原始表信息进行正则匹配处理,得到镜像文件元数据表的有效表信息;对镜像文件元数据表中的文件数量进行统计处理,得到镜像文件元数据表对应的文件统计信息;基于有效表信息与文件统计信息,生成镜像文件临时表。
其中,原始表信息可以是镜像文件元数据表中包含的原始文件的相关信息。正则匹配处理可以是使用正则表达式对镜像文件元数据表中的原始表信息进行字符匹配的处理过程。有效表信息可以是对原始表信息进行正则匹配处理后得到的表信息。文件数量可以是镜像文件元数据表包含的文件具体数量。文件统计信息可以是对镜像文件元数据表中的文件块以及文件的数量和大小进行统计处理后得到的信息。
在创建镜像文件临时表的过程中,可以获取镜像文件元数据表的原始表信息,例如,原始表信息可以包括镜像文件元数据表中相关表数据的完整HDFS路径(包括协议号、端口号等内容)、数据产生时间、数据更新时间等等。在获取到上述原始表信息后,可以对原始表信息进行正则匹配处理,得到镜像文件元数据表的有效表信息。
例如,对完整HDFS路径进行正则匹配处理,过滤掉路径中的协议号和端口号等信息,得到表数据对应的有效HDFS路径。对于镜像文件元数据表的数据产生时间与数据更新时间,同样可以通过正则匹配的方式,对上述时间进行处理,使其时间格式满足可视化的需求,得到有效时间信息。
进一步的,可以对镜像文件元数据表中的文件数量进行统计处理,确定出镜像文件元数据表所涉及数据的文件数量(file_nums)、文件块数量(blockcounts)、各文件大小(filesize)、平均文件大小(avg_filesize)等等,作为镜像文件元数据表对应的文件统计信息。在获取到上述有效表信息与文件统计信息后,可以基于有效表信息与文件统计信息,生成镜像文件临时表。基于临时表创建机制,技术人员可以根据动态变化的实际需求,确定出符合分析需求的临时表文件,以对原始数据进行不同类型的数据分析。
需要说明的是,对于元数据结果表的分区聚合处理,以及对合并数据表进行解析处理的过程,与对镜像文件元数据表进行聚合分组处理的处理过程类似,相关技术人员可以根据具体需求建立对应的元数据临时表,本公开对基于分区聚合处理以建立元数据临时表的具体处理过程不再进行赘述。
在得到镜像文件临时表与元数据临时表后,对镜像文件临时表tmp_smallfile_1与元数据临时表tmp_smallfile_2进行合并处理,生成合并数据表。例如,可以对镜像文件临时表与元数据临时表中包含的表字段进行整合处理,形成统一的表字段,得到合并数据表406,合并数据表406可以表示为tmp_smallfile_3。合并数据表406具体可以如表5所示。
表5合并数据表
字段名称 字段属性 字段说明
HIVE_DB_NAME STRING 数据库名称
HIVE_TABLE_NAME STRING 表名称
HIVE_TABLE_CREATE_NAME STRING 表创建时间
HIVE_TABLE_TYPE STRING 表类型
TABLE_LOCATION STRING HDFS表路径
PATH STRING 表路径
PAR_LAG INT 判断是否有分区
FILE_NUMS BIGINT 文件数
HDFS_FILE_MAX_MOD_TIME STRING 文件最近修改时间
HDFS_MAX_ACC_TIME STRING 文件最近访问时间
HDFS_BLOCKCOUNTS DOUBLE 块数
HDFS_FILESIZES DOUBLE 文件大小
HDFS_AVG_FILESIZE DOUBLE 平均文件大小
HDFS_DIR_FILE STRING HDFS目录路径
在得到合并数据表tmp_smallfile_3之后,可以对合并数据表tmp_smallfile_3进行解析处理,生成原始数据对应的属性统计结果表,由于属性统计结果表具有相对完整的表字段,基于属性统计结果表可以对业务属性进行较为全面的分析。
例如,合并数据表406可以是使用HDFS路径数据作为过滤条件,将镜像文件临时表tmp_smallfile_1与元数据临时表tmp_smallfile_2进行合并处理,得到属性统计结果表407,属性统计结果表407可以用tb_smallfile_result表示,具体如表6所示。基于属性统计结果表407可以对原始数据的业务属性进行分析,确定出原始数据对应的业务属性的具体情况。
表6属性统计结果表
Figure BDA0004073676740000171
Figure BDA0004073676740000181
在本公开的一种示例性实施方案中,对镜像文件临时表与元数据临时表进行合并处理,生成合并数据表,包括:确定镜像文件临时表对应的第一表字段;确定元数据临时表对应的第二表字段;基于第一表字段与第二表字段,对镜像文件临时表与元数据临时表进行合并处理,得到合并数据表。
其中,第一表字段可以是镜像文件临时表中包含的表字段。第二表字段可以是元数据临时表中包含的表字段。
继续参考图4,在创建得到镜像文件临时表404与元数据临时表405后,可以分别确定镜像文件临时表404对应的第一表字段,以及元数据临时表405对应的第二表字段。在进行表合并处理的时候,可以对第一表字段与第二表字段进行字段对比处理,对重复字段进行整合;并且,可以根据属性分析需求,创建一些镜像文件临时表404与元数据临时表405未包含的新字段,作为合并数据表的表字段。根据整合处理后的表字段,与新增表字段作为合并数据表对应的表字段。通过对上述临时表进行数据整合处理,可以将相关属性数据合并至同一个数据表中,便于后续的业务属性分析,可以提高属性分析的准确性。
在本公开的一种示例性实施方案中,对于步骤S140,对属性统计结果表进行数据筛选处理,得到业务属性对应的目标属性统计数据,包括:获取基于镜像文件临时表与元数据临时表生成的合并数据表;对合并数据表与属性统计结果表进行合并处理,生成初始统计结果表;获取预先配置的属性排序指标,基于属性排序指标对初始统计结果表的属性数据进行排序处理,得到目标属性统计数据。
其中,初始统计结果表可以是对合并数据表与属性统计结果表进行字段融合处理后得到属性统计表。属性排序指标用于对初始统计结果表中包含的属性进行排序处理的判断指标。
继续参考图4,获取得到的合并数据表406以及属性统计结果表407后,可以对合并数据表406与属性统计结果表407进行合并处理,生成初始统计结果表。例如,可以根据上述两表的HDFS路径,表字段等对合并数据表406与属性统计结果表407进行合并处理,生成反映原始数据对应的业务属性的初始统计结果表。
由于初始统计结果表包含多个业务属性,技术人员可以根据具体的属性分析需求配置属性排序指标。将预先配置的属性排序指标作用于初始统计结果表,可以基于属性排序指标对初始统计结果表的属性数据进行排序处理,得到目标属性统计数据,技术人员可以根据数据使用过程中的使用分析需求的动态变化,随时调整自定义排序指标,并基于自定义排序可以对数据表的属性指标进行排序,实现对业务属性进行动态排序分析的业务需求。
目标属性统计数据中可以包括排序在前N位的相关属性数据,目标属性统计数据可以表示为tb_smallfile_result_topN,具体内容如表7所示。
表7目标属性统计数据(Top10)
字段名称 字段属性 字段说明
DB_NAME STRING 数据库名称
TABLE_NAME STRING 表名称
CREATE_TIME DATE 创建时间
MODIFY_TIME DATE 修改时间
ACCESS_TIME DATE 访问时间
TABLE_TYPE STRING 表类型
PAR_FLAG INT 判断是否有分区
FILE_NUMS BIGINT 文件数
BLOCKCOUNTS DOUBLE 块数
FILESIZES STRING 文件总大小
AVG_FILESIZE STRING 平均文件大小
DIR_COUNT BIGINT 目录数
TABLE_LOCATION STRING 表路径
在本公开的一种示例性实施方案中,获取预先配置的模板引擎;采用模板引擎从目标属性统计数据中提取待展示数据;将待展示数据发送至可视化执行端,通过可视化执行端的可视化界面展示待展示数据。
其中,模板引擎可以用于基于标签渲染处理数据并展示给用户。待展示数据可以是待进行可视化展示的相关属性数据。可视化执行端可以是提供可视化界面的设备执行端。可视化界面可以是用于展示数据的设备界面。
在确定出目标属性统计数据后,可以获取预先配置的模板引擎,例如,模板引擎可以是Thymeleaf引擎,Thymeleaf引擎是一种现代的服务器端Java模板引擎,Thymeleaf引擎可以与SpringMvc、springBoot等网页前端(web)框架进行集成,并通过thymeleaf标签渲染处理数据用以展示给用户。
本实施例中,可以将Thymeleaf引擎集成在springBoot框架中,从目标属性统计数据中提取待展示数据。例如,Thymeleaf引擎可以从目标属性统计数据中提取排序在前10位的属性数据作为待展示数据。例如,待展示数据可以包括序号、数据库名称、表明、创建时间、修改时间、访问时间、表类型、是否存在分区、文件数、块数、文件大小、平均文件大小以及目录数等等属性字段对应的属性值。
在获取到待展示数据后,可以将待展示数据发送至可视化执行端,通过可视化执行端的可视化界面的页面中展示待展示数据,以便技术人员通过可视化界面直观的观察到不同业务属性的具体内容,直接锁定需要整改的业务表名称,提高运维效率。
在本公开的一种示例性实施方案中,获取预先配置的内容截取组件;通过内容截取组件对可视化界面中的页面内容进行截取处理,得到告警辅助数据;基于告警辅助数据生成告警信息。
其中,内容截取组件可以是进行特定内容截取的操作组件。截取处理可以是采用内容截取组件获取特定数据内容的处理过程。告警辅助数据可以是用于生成告警信息的相关数据。告警信息可以是生成告警提示的信息。
对于展示在可视化界面中的数据,可以采用内容截取组件对可视化界面中的数据进行截取处理。例如,内容截取组件可以是web应用程序的自动化测试工具selenium,Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。通过内容截取组件Selenium对可视化界面中的页面内容进行截取处理,得到告警辅助数据,如,通过截图方式抓取数据。内容截取组件Selenium可以抓取可视化界面中展示数据中的文件数作为告警辅助数据,分析不同数据库中文件数据的大小。
根据抓取得到的告警辅助数据生成告警信息,并发送生成的告警信息。例如,告警信息中可以包括原始数据对应的业务属性的具体数值,即原始数据的Hive表属性统计集合。通过上述处理步骤,Hive的运维人员可以及时了解到属性变化情况,为解决Hive性能问题提供了数据支撑,并精准定位问题。
需要说明的是,本公开所使用的术语“第一”、“第二”等,仅是为了区分不同数据表的表字段,并不应对本公开造成任何限制。
综上所述,本公开的数据处理方法,获取分布式文件系统中原始数据对应的镜像文件,以及获取原始数据对应的初始元数据;分别创建镜像文件与初始元数据各自对应的镜像文件元数据表与元数据结果表;基于镜像文件元数据表与元数据结果表各自对应的临时表进行合并解析处理,生成原始数据对应的业务属性的属性统计结果表;对属性统计结果表进行数据筛选处理,得到业务属性对应的目标属性统计数据。一方面,提供了一种通过整合镜像文件与元数据,以对数据仓库中业务表的属性信息进行分析的方案,避免对单一文件进行分析造成部分指标的信息遗漏。另一方面,通过镜像文件解析表与元数据解析表的临时表进行数据合并与筛选处理,可以对原始数据进行充分解析,且提高最终属性统计结果数据的可信度。又一方面,通过自定义数据筛选指标,可以实现支持业务属性的动态排序功能,避免在对业务属性分析过程中仅可进行静态排序的缺陷。
需要说明的是,尽管在附图中以特定顺序描述了本发明中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
此外,在本示例实施例中,还提供了一种数据处理装置。参考图5,该数据处理装置500可以包括:数据获取模块510,元数据表创建模块520,合并处理模块530以及数据筛选模块540。
具体的,数据获取模块510,用于获取分布式文件系统中原始数据对应的镜像文件,以及获取原始数据对应的初始元数据;元数据表创建模块520,用于分别创建镜像文件与初始元数据各自对应的镜像文件元数据表与元数据结果表;合并处理模块530,用于基于镜像文件元数据表与元数据结果表各自对应的临时表进行合并解析处理,生成原始数据对应的业务属性的属性统计结果表;数据筛选模块540,用于对属性统计结果表进行数据筛选处理,得到业务属性对应的目标属性统计数据。
在本公开的一种示例性实施方案中,数据获取模块510包括镜像文件获取单元,用于:响应于镜像文件提取指令,从分布式文件系统中获取原始数据对应的镜像文件;对进行镜像文件进行文件解析处理,得到解析镜像文件;将解析镜像文件存储至分布式文件系统的第一存储路径。
在本公开的一种示例性实施方案中,数据获取模块510包括元数据获取单元,用于:将分布式文件系统的执行端连接至原始数据的元数据存储库;基于执行端生成远程交互指令,基于远程交互指令从元数据存储库中获取初始元数据;将初始元数据存储至分布式文件系统的第二存储路径。
在本公开的一种示例性实施方案中,元数据获取单元包括元数据获取子单元,用于:获取预先构建的查询脚本,从元数据存储库获取初始元数据表;基于查询脚本对初始元数据表进行解析处理,得到元数据结果表;获取数据抽取组件,采用数据抽取组件将元数据结果表存储至分布式文件系统的第二存储路径,作为初始元数据。
在本公开的一种示例性实施方案中,元数据创建模块520包括元数据创建单元,用于:在数据仓库中创建镜像文件对应的元数据表,作为镜像文件元数据表;在数据仓库中创建初始元数据对应的元数据表,作为元数据结果表;将镜像文件元数据表与元数据结果表,作为分布式文件系统中数据文件的外部表。
在本公开的一种示例性实施方案中,合并处理模块530包括合并处理单元,用于:分别创建镜像文件元数据表与元数据结果表,各自对应的镜像文件临时表与元数据临时表;对镜像文件临时表与元数据临时表进行合并处理,生成合并数据表;对合并数据表进行解析处理,生成属性统计结果表。
在本公开的一种示例性实施方案中,合并处理单元包括临时表创建单元,用于:对镜像文件元数据表进行聚合分组处理,得到镜像文件元数据表对应的镜像文件临时表;对元数据结果表进行分区聚合处理,得到元数据结果表对应的元数据临时表。
在本公开的一种示例性实施方案中,临时表创建单元包括临时表创建子单元,包括:获取镜像文件元数据表的原始表信息,对原始表信息进行正则匹配处理,得到镜像文件元数据表的有效表信息;对镜像文件元数据表中的文件数量进行统计处理,得到镜像文件元数据表对应的文件统计信息;基于有效表信息与文件统计信息,生成镜像文件临时表。
在本公开的一种示例性实施方案中,合并处理单元包括合并处理子单元,用于:确定镜像文件临时表对应的第一表字段;确定元数据临时表对应的第二表字段;基于第一表字段与第二表字段,对镜像文件临时表与元数据临时表进行合并处理,得到合并数据表。
在本公开的一种示例性实施方案中,数据筛选模块540包括数据筛选单元,用于:获取基于镜像文件临时表与元数据临时表生成的合并数据表;对合并数据表与属性统计结果表进行合并处理,生成初始统计结果表;获取预先配置的属性排序指标,基于属性排序指标对初始统计结果表的属性数据进行排序处理,得到目标属性统计数据。
在本公开的一种示例性实施方案中,数据处理装置500还包括数据展示模块,用于:获取预先配置的模板引擎;采用模板引擎从目标属性统计数据中提取待展示数据;将待展示数据发送至可视化执行端,通过可视化执行端的可视化界面展示待展示数据。
在本公开的一种示例性实施方案中,数据处理装置500还包括告警信息生成模块,用于:获取预先配置的内容截取组件;通过内容截取组件对可视化界面中的页面内容进行截取处理,得到告警辅助数据;基于告警辅助数据生成告警信息。
上述中各数据处理装置的虚拟模块的具体细节已经在对应的数据处理方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了数据处理装置的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施例、完全的软件实施例(包括固件、微代码等),或硬件和软件方面结合的实施例,这里可以统称为“电路”、“模块”或“系统”。
下面参考图6来描述根据本公开的这种实施例的电子设备600。图6显示的电子设备600仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)621和/或高速缓存存储单元622,还可以进一步包括只读存储单元(ROM)623。
存储单元620可以包括具有一组(至少一个)程序模块625的程序/实用工具624,这样的程序模块625包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备670(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器660通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
参考图7所示,描述了根据本发明的实施例的用于实现上述方法的程序产品700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims (15)

1.一种数据处理方法,其特征在于,包括:
获取分布式文件系统中原始数据对应的镜像文件,以及获取所述原始数据对应的初始元数据;
分别创建所述镜像文件与所述初始元数据各自对应的镜像文件元数据表与元数据结果表;
基于所述镜像文件元数据表与元数据结果表各自对应的临时表进行合并解析处理,生成所述原始数据对应的业务属性的属性统计结果表;
对所述属性统计结果表进行数据筛选处理,得到所述业务属性对应的目标属性统计数据。
2.根据权利要求1所述的方法,其特征在于,所述获取分布式文件系统中原始数据对应的镜像文件,包括:
响应于镜像文件提取指令,从所述分布式文件系统中获取所述原始数据对应的镜像文件;
对所述进行镜像文件进行文件解析处理,得到解析镜像文件;
将所述解析镜像文件存储至所述分布式文件系统的第一存储路径。
3.根据权利要求1所述的方法,其特征在于,所述获取所述原始数据对应的初始元数据,包括:
将所述分布式文件系统的执行端连接至所述原始数据的元数据存储库;
基于所述执行端生成远程交互指令,基于所述远程交互指令从所述元数据存储库中获取所述初始元数据;
将所述初始元数据存储至所述分布式文件系统的第二存储路径。
4.根据权利要求3所述的方法,其特征在于,所述基于所述远程交互指令从所述元数据存储库中获取所述初始元数据,包括:
获取预先构建的查询脚本,从所述元数据存储库获取初始元数据表;
基于所述查询脚本对所述初始元数据表进行解析处理,得到元数据结果表;
获取数据抽取组件,采用数据抽取组件将所述元数据结果表存储至所述分布式文件系统的第二存储路径,作为所述初始元数据。
5.根据权利要求1所述的方法,其特征在于,所述分别创建所述镜像文件与所述初始元数据各自对应的镜像文件元数据表与元数据结果表,包括:
在数据仓库中创建所述镜像文件对应的元数据表,作为所述镜像文件元数据表;
在所述数据仓库中创建所述初始元数据对应的元数据表,作为所述元数据结果表;
将所述镜像文件元数据表与所述元数据结果表,作为所述分布式文件系统中数据文件的外部表。
6.根据权利要求1所述的方法,其特征在于,所述基于所述镜像文件元数据表与元数据结果表各自对应的临时表进行合并解析处理,生成所述原始数据对应的业务属性的属性统计结果表,包括:
分别创建所述镜像文件元数据表与元数据结果表,各自对应的镜像文件临时表与元数据临时表;
对所述镜像文件临时表与所述元数据临时表进行合并处理,生成合并数据表;
对所述合并数据表进行解析处理,生成所述属性统计结果表。
7.根据权利要求6所述的方法,其特征在于,所述分别创建所述镜像文件元数据表与元数据结果表,各自对应的镜像文件临时表与元数据临时表,包括:
对所述镜像文件元数据表进行聚合分组处理,得到所述镜像文件元数据表对应的镜像文件临时表;
对所述元数据结果表进行分区聚合处理,得到所述元数据结果表对应的元数据临时表。
8.根据权利要求7所述的方法,其特征在于,所述对所述镜像文件元数据表进行聚合分组处理,得到所述镜像文件元数据表对应的镜像文件临时表,包括:
获取所述镜像文件元数据表的原始表信息,对所述原始表信息进行正则匹配处理,得到所述镜像文件元数据表的有效表信息;
对所述镜像文件元数据表中的文件数量进行统计处理,得到所述镜像文件元数据表对应的文件统计信息;
基于所述有效表信息与所述文件统计信息,生成所述镜像文件临时表。
9.根据权利要求6所述的方法,其特征在于,所述对所述镜像文件临时表与所述元数据临时表进行合并处理,生成合并数据表,包括:
确定所述镜像文件临时表对应的第一表字段;
确定所述元数据临时表对应的第二表字段;
基于所述第一表字段与所述第二表字段,对所述镜像文件临时表与所述元数据临时表进行合并处理,得到所述合并数据表。
10.根据权利要求1所述的方法,其特征在于,所述对所述属性统计结果表进行数据筛选处理,得到所述业务属性对应的目标属性统计数据,包括:
获取基于镜像文件临时表与元数据临时表生成的合并数据表;
对所述合并数据表与所述属性统计结果表进行合并处理,生成初始统计结果表;
获取预先配置的属性排序指标,基于所述属性排序指标对所述初始统计结果表的属性数据进行排序处理,得到所述目标属性统计数据。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取预先配置的模板引擎;
采用所述模板引擎从所述目标属性统计数据中提取待展示数据;
将所述待展示数据发送至可视化执行端,通过所述可视化执行端的可视化界面展示所述待展示数据。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
获取预先配置的内容截取组件;
通过所述内容截取组件对所述可视化界面中的页面内容进行截取处理,得到告警辅助数据;
基于所述告警辅助数据生成告警信息。
13.一种数据处理装置,其特征在于,包括:
数据获取模块,用于获取分布式文件系统中原始数据对应的镜像文件,以及获取所述原始数据对应的初始元数据;
元数据表创建模块,用于分别创建所述镜像文件与所述初始元数据各自对应的镜像文件元数据表与元数据结果表;
合并处理模块,用于基于所述镜像文件元数据表与元数据结果表各自对应的临时表进行合并解析处理,生成所述原始数据对应的业务属性的属性统计结果表;
数据筛选模块,用于对所述属性统计结果表进行数据筛选处理,得到所述业务属性对应的目标属性统计数据。
14.一种电子设备,其特征在于,包括:
处理器;以及
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现根据权利要求1至12中任一项所述的数据处理方法。
15.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据权利要求1至12中任一项所述的数据处理方法。
CN202310068112.XA 2023-01-12 2023-01-12 数据处理方法及装置、电子设备和存储介质 Pending CN116303427A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310068112.XA CN116303427A (zh) 2023-01-12 2023-01-12 数据处理方法及装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310068112.XA CN116303427A (zh) 2023-01-12 2023-01-12 数据处理方法及装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN116303427A true CN116303427A (zh) 2023-06-23

Family

ID=86778807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310068112.XA Pending CN116303427A (zh) 2023-01-12 2023-01-12 数据处理方法及装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN116303427A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076474A (zh) * 2023-10-16 2023-11-17 之江实验室 离线多模态文献数据的更新方法、装置、设备和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076474A (zh) * 2023-10-16 2023-11-17 之江实验室 离线多模态文献数据的更新方法、装置、设备和介质
CN117076474B (zh) * 2023-10-16 2024-03-12 之江实验室 离线多模态文献数据的更新方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN110196871B (zh) 数据入库方法和系统
CN107506451B (zh) 用于数据交互的异常信息监控方法及装置
US9460188B2 (en) Data warehouse compatibility
US9361337B1 (en) System for organizing and fast searching of massive amounts of data
CN110362544B (zh) 日志处理系统、日志处理方法、终端及存储介质
CN110647579A (zh) 数据同步方法及装置、计算机设备与可读介质
CN111324610A (zh) 一种数据同步的方法及装置
CN111709527A (zh) 运维知识图谱库的建立方法、装置、设备及存储介质
US11494395B2 (en) Creating dashboards for viewing data in a data storage system based on natural language requests
CN113312191A (zh) 数据分析方法、装置、设备及存储介质
CN112948492A (zh) 一种数据处理系统、方法、装置、电子设备及存储介质
CN114049927A (zh) 疾病数据处理方法、装置、电子设备及可读介质
CN114218218A (zh) 基于数据仓库的数据处理方法、装置、设备及存储介质
CN113962597A (zh) 一种数据分析方法、装置、电子设备及存储介质
CN114741392A (zh) 数据查询方法、装置、电子设备及存储介质
CN111221698A (zh) 任务数据采集方法与装置
CN116303427A (zh) 数据处理方法及装置、电子设备和存储介质
CN109473178B (zh) 医疗数据整合的方法、系统、设备及存储介质
CN113722296A (zh) 一种农业信息处理方法、装置、电子设备及存储介质
CN113918532A (zh) 画像标签聚合方法、电子设备及存储介质
CN113010208A (zh) 一种版本信息的生成方法、装置、设备及存储介质
EP4216076B1 (en) Method and apparatus of processing an observation information, electronic device and storage medium
CN112579673A (zh) 一种多源数据处理方法及装置
CN112817930A (zh) 一种数据迁移的方法和装置
CN113656445A (zh) 数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination