CN114238264A - 数据处理方法、装置、计算机设备和存储介质 - Google Patents

数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN114238264A
CN114238264A CN202111340322.7A CN202111340322A CN114238264A CN 114238264 A CN114238264 A CN 114238264A CN 202111340322 A CN202111340322 A CN 202111340322A CN 114238264 A CN114238264 A CN 114238264A
Authority
CN
China
Prior art keywords
data
path
preset
decompressed
stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111340322.7A
Other languages
English (en)
Inventor
顾君威
马晨
孙文韬
张霞
廖阳侨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Pudong Development Bank Co Ltd
Original Assignee
Shanghai Pudong Development Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Pudong Development Bank Co Ltd filed Critical Shanghai Pudong Development Bank Co Ltd
Priority to CN202111340322.7A priority Critical patent/CN114238264A/zh
Publication of CN114238264A publication Critical patent/CN114238264A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation

Abstract

本申请涉及一种数据处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:通过数据接入单元接收数据流,数据流中包含压缩数据包。基于预设数据存储路径,将数据流存储至分布式存储空间。按照预设时间间隔以及预设数据存储路径,对已存储的数据流中的数据进行扫描,检测数据流中是否存在信号文件。若存在信号文件,则对数据流中的压缩数据包进行解压缩,并基于预设的数据查询路径将解压缩后的数据存储至分布式存储空间中。采用本方法提高了数据的读写效率。

Description

数据处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据库技术领域,特别是涉及一种数据处理方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机网络与数据库技术的迅速发展和广泛应用,已经使各行各业的信息管理进入到一个崭新的时代。
目前的数据库系统,将报表文件的压缩包解压后,以大字段的方式存储在集中式数据库中,当用户进行数据查询时,在集中式数据库中遍历数据库中的全部数据内容,得到目标报文文件。
然而,集中式数据库的存储位置单一且存储空间有限,针对同一存储位置的数据访问量较大时,导致数据读写性能差,并且当存储的报表文件的数据量逐渐增大时,集中式数据库的存储容量无法满足日益增长的报表数据需求。
发明内容
基于此,有必要针对上述技术问题,提供一种数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种数据处理方法。所述方法包括:
接收数据流,所述数据流中包含压缩数据包;
基于预设数据存储路径,将所述数据流存储至第一分布式存储空间;
按照预设时间间隔以及所述预设数据存储路径,对已存储的所述数据流中的数据进行扫描,检测所述数据流中是否存在信号文件;
若存在所述信号文件,则对所述数据流中的压缩数据包进行解压缩,并基于预设的数据查询路径将解压缩后的数据存储至第二分布式存储空间,以使在所述第二分布式存储空间中进行数据查询。
在其中一个实施例中,所述若存在所述信号文件,则对所述数据流中的压缩数据包进行解压缩,包括:
若存在所述信号文件,响应于所述信号文件的触发,将每一压缩数据包按照预设数据块大小进行拆分,得到多个待解压缩的数据块;
按照预设数据分片大小将每一所述待解压缩的数据块进行拆分,得到多个待解压缩的数据分片;
通过调用数据处理线程,对每一所述数据分片中的压缩数据进行解析计算,得到解压缩后的分片数据;
将所述解压缩后的分片数据进行汇总处理,得到解压缩后的报表文件。
在其中一个实施例中,所述基于预设的数据查询路径将解压缩后的数据存储至第二分布式存储空间,包括:
针对每一解压缩后的报表文件数据匹配对应的数据查询路径,并基于每一所述数据查询路径将所述解压缩后的报表文件数据存储至所述分布式存储空间的目标存储空间;
提取每一所述解压缩后的报表文件数据的特征信息,生成所述报表文件数据的数据标识;
建立包含所述数据标识与所述数据查询路径对应关系的数据查询列表,将所述数据查询列表推送至前端以进行数据查询。
在其中一个实施例中,所述方法还包括:
接收数据查询请求,所述数据查询请求携带目标数据标识;
根据所述目标数据标识,在所述数据查询列表包含的各数据标识与数据查询路径的对应关系中,确定所述目标数据标识对应的目标数据查询路径;
基于所述目标数据查询路径,在所述第二分布式存储空间中获取目标报表文件数据,并以字节流的形式反馈给前端。
第二方面,本申请还提供了一种数据处理装置。所述装置包括:
接收模块,用于接收数据流,所述数据流中包含压缩数据包;
存储模块,用于基于预设数据存储路径,将所述数据流存储至第一分布式存储空间;
检测模块,用于按照预设时间间隔以及所述预设数据存储路径,对已存储的所述数据流中的数据进行扫描,检测所述数据流中是否存在信号文件;
处理模块,用于若存在所述信号文件,则对所述数据流中的压缩数据包进行解压缩,并基于预设的数据查询路径将解压缩后的数据存储至第二分布式存储空间,以使在所述第二分布式存储空间中进行数据查询。
第三方面,本申请还提供了一种数据处理系统,所述数据处理系统包括:
数据接入单元,用于接收数据流,所述数据流中包含压缩数据包;
数据存储单元,用于基于预设数据存储路径,将数据流存储至第一分布式存储空间;
数据处理单元,用于按照预设时间间隔以及所述预设数据存储路径,对已存储的所述数据流中的数据进行扫描,检测所述数据流中是否存在信号文件;若存在所述信号文件,则对所述数据流中的压缩数据包进行解压缩,并基于预设的数据查询路径将解压缩后的数据存储至第二分布式存储空间。
在其中一个实施例中,所述数据处理系统还包括:
报表数据应用单元,用于接收数据查询请求,根据所述数据查询请求携带的目标数据标识,在数据查询列表包含的各数据标识信息与数据查询路径的对应关系中,确定所述目标数据标识对应的目标查询路径;
基于所述目标查询路径,在所述第二分布式存储空间中获取目标报表文件数据,并以字节流的形式反馈给前端。
在其中一个实施例中,所述数据处理单元包括调度模块和资源分配模块;
所述调度模块,用于按照预设时间间隔以及所述预设数据存储路径,对已存储的所述数据流中的数据进行扫描,检测所述数据流中是否存在信号文件;
所述资源分配模块,用于分配数据处理线程,若存在所述信号文件,则通过所述数据处理线程对所述数据流中的压缩数据包进行解压缩,并基于预设的数据查询路径将解压缩后的数据存储至第二分布式存储空间。
第四方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
接收数据流,所述数据流中包含压缩数据包;
基于预设数据存储路径,将所述数据流存储至第一分布式存储空间;
按照预设时间间隔以及所述预设数据存储路径,对已存储的所述数据流中的数据进行扫描,检测所述数据流中是否存在信号文件;
若存在所述信号文件,则对所述数据流中的压缩数据包进行解压缩,并基于预设的数据查询路径将解压缩后的数据存储至第二分布式存储空间,以使在所述第二分布式存储空间中进行数据查询。
第五方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
接收数据流,所述数据流中包含压缩数据包;
基于预设数据存储路径,将所述数据流存储至第一分布式存储空间;
按照预设时间间隔以及所述预设数据存储路径,对已存储的所述数据流中的数据进行扫描,检测所述数据流中是否存在信号文件;
若存在所述信号文件,则对所述数据流中的压缩数据包进行解压缩,并基于预设的数据查询路径将解压缩后的数据存储至第二分布式存储空间,以使在所述第二分布式存储空间中进行数据查询。
第六方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
接收数据流,所述数据流中包含压缩数据包;
基于预设数据存储路径,将所述数据流存储至第一分布式存储空间;
按照预设时间间隔以及所述预设数据存储路径,对已存储的所述数据流中的数据进行扫描,检测所述数据流中是否存在信号文件;
若存在所述信号文件,则对所述数据流中的压缩数据包进行解压缩,并基于预设的数据查询路径将解压缩后的数据存储至第二分布式存储空间,以使在所述第二分布式存储空间中进行数据查询。
上述数据处理方法、装置、计算机设备、存储介质和计算机程序产品,通过数据接入单元接收数据流,其中,所述数据流中包含压缩数据包。然后,数据处理单元基于预设数据存储路径,将所述数据流存储至分布式存储空间;按照预设时间间隔以及所述预设数据存储路径,对已存储的所述数据流中的数据进行扫描,检测所述数据流中是否存在信号文件。若存在所述信号文件,则对所述数据流中的压缩数据包进行解压缩,并基于预设的数据查询路径将解压缩后的数据存储至所述分布式存储空间中。采用本方法,将数据流中的压缩数据包存储至预设数据存储路径下的分布式存储空间,同时,基于信号文件的触发对压缩数据包进行解压缩处理,将解压缩后的数据存储至对应的数据查询路径下,使数据的接入与查询实现解耦,提高数据的读写效率,并且采用分布式存储空间存储数据,可以通过不断接入新的存储节点,增加数据存储能力。
附图说明
图1为一个实施例中数据处理方法的应用环境图;
图2为一个实施例中数据处理方法的流程示意图;
图3为一个实施例中数据拆分处理步骤的流程示意图;
图4为一个实施例中构建数据查询列表步骤的流程示意图;
图5为一个实施例中数据查询步骤的流程示意图;
图6为一个实施例中数据存储步骤的流程示意图;
图7为一个实施例中数据查询方法示例的流程示意图;
图8为一个实施例中数据处理装置的结构框图;
图9为一个实施例中数据处理系统的结构图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上,本申请实施例不做限定。在服务器104中,接收数据流。然后,服务器104基于预设数据存储路径,将数据流存储至第一分布式存储空间中。同时,服务器104中的数据处理单元按照预设时间间隔以及预设数据存储路径,对已存储的数据流进行扫描,检测数据流中是否存在信号文件。若存在信号文件,则数据处理单元对数据流中的压缩数据包进行解压缩,并基于预设的数据查询路径将解压缩后的数据存储至第二分布式存储空间中,以使基于数据查询路径进行数据查询。采用该种数据处理方法,使数据的接入与查询实现解耦,提高数据的读写效率。
可选的,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种数据处理方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤202,接收数据流。其中,数据流中包含压缩数据包。
在实施中,服务器通过数据接入单元调用预设的API(Application ProgrammingInterface,应用程序编程接口)接口,接收由上游源端系统传入的数据流,然后,数据接入单元将接收到的数据流传输至数据存储单元(也可以称为分布式存储系统),以进行数据的存储。
其中,该数据流中可以包括压缩格式的压缩数据包,还可以包括其他文件格式的数据,同时,对于数据流中的数据内容等,可以为报表数据,也可以为其他内容的数据,本申请实施例均不做限定。
步骤204,基于预设数据存储路径,将数据流存储至第一分布式存储空间。
在实施中,根据上游数据提供方预先提供的数据存储信息,服务器制定了数据存储路径,其中,该数据存储路径中指向的地址按照层级划分,并以数据存储目录的格式进行记录。进而,数据流基于该数据存储目录进行传输,传输至数据存储单元的指定存储空间(即第一分布式存储空间)进行存储。
步骤206,按照预设时间间隔以及预设数据存储路径,对已存储的数据流中的数据进行扫描,检测数据流中是否存在信号文件。
在实施中,上游数据提供方传输的数据流中除了包含压缩数据包之外,还包含用于触发数据处理过程的信号文件,数据处理单元基于该信号文件的触发,可以启动对数据流中数据的处理。具体的,伴随着数据流的实时接入,服务器的数据处理单元按照预设时间间隔以及数据存储目标表征的数据存储路径,定期扫描数据存储目录指向的目标分布式存储空间(即第一分布式存储空间)中的数据,对该分布式存储空间中已经存储的数据,检测是否存在信号文件。
其中,信号文件为包含可触发数据处理过程的触发信号的程序代码,另外,该信号文件的文件格式基于上游数据提供方与数据接收方之间的预先定义,因此,对于信号文件的文件格式,本申请实施例不做限定。
步骤208,若存在信号文件,则对数据流中的压缩数据包进行解压缩,并基于预设的数据查询路径将解压缩后的数据存储至第二分布式存储空间中。
在实施中,若服务器中的数据处理单元检测到已存储的数据流的数据中存在信号文件,基于该信号文件的触发,数据处理单元对数据流中包含的压缩格式的数据包进行解压缩处理,并基于预设的数据查询路径,将解压缩后的数据存储至数据查询路径指向的第二分布式存储空间中。其中,该第二分布式存储空间与第一分布式存储空间同属于一个分布式存储系统,但是两个存储空间表征的存储位置不同。
具体的,若压缩数据包中包含的数据是报表数据,所属于同一业务报表的待解压缩的报表数据经过数据处理单元的解压缩处理,得到对应的报表文件,进而,数据处理单元为该报表文件匹配对应的数据查询路径,并基于该数据查询路径将报表文件存储至分布式存储空间的目标存储区域(即第二分布式存储空间)中,以使用户通过终端设备进行数据查询时,可以通过匹配的数据查询路径直接进行数据查询。
上述数据处理方法中,通过数据接入单元接收数据流,数据存储单元基于预设数据存储路径,将数据流存储至分布式存储空间。然后,由数据处理单元按照预设时间间隔以及预设数据存储路径,对已存储的数据流中的数据进行扫描,检测数据流中是否存在信号文件。若存在信号文件,则对数据流中包含的压缩数据包进行解压缩,并基于预设的数据查询路径将解压缩后的数据再次存储至数据存储单元的分布式存储空间中。采用本方法,将数据流中的压缩数据包存储至预设数据存储路径下的分布式存储空间,同时,基于信号文件的触发对压缩数据包进行解压缩处理,将解压缩后的数据存储至对应的数据查询路径下,使数据的接入与查询实现解耦,提高数据的读写效率,并且采用分布式存储空间存储数据,可以通过不断接入新的存储节点,增加数据存储能力。
在一个实施例中,如图3所示,由于本申请中不限制数据流中的压缩数据包的大小,因此,在触发数据处理过程之前,需要对较大的压缩数据包进行拆分,因此,步骤208中的若存在信号文件,则对数据流中的压缩数据包进行解压缩的具体处理过程包括:
步骤302,若存在信号文件,响应于信号文件的触发,将每一压缩数据包按照预设数据块大小进行拆分,得到多个待解压缩的数据块。
在实施中,若数据处理单元检测到数据流中存在信号文件,响应于信号文件的触发,数据处理单元对数据流中的较大(即数据包大小大于预设阈值)的压缩数据包进行拆分处理。
具体的,由于传统的关系型数据库中采用文件存储方式进行存储,对单个文件的大小存在限制要求,较大的文件无法进行存储,而本申请中采用分布式数据包、数据块存储的方式,不限制压缩数据包的大小,提高了数据存储的便捷性。进而,分布式存储空间中可能存在较大的压缩数据包,因此,在进行数据应用之前,数据处理单元需要对较大的压缩数据包进行拆分处理。
数据处理单元预先设有拆分单元,即以M字节为标准的数据块block,以该拆分单元作为压缩数据包拆分单位,对较大的压缩数据包进行拆分,其目的为得到多个block数据块,以便于后续处理。例如,预设的数据拆分单元的字节大小为M等于10,则当数据流中出现大于拆分单元的压缩数据包(例如,当前压缩数据包的大小为100字节)时,以该拆分单元的大小(10字节)为单位,即100÷10=10(个),则拆分该100字节(MB)的压缩数据包得到10个10字节的压缩数据块block。
步骤304,按照预设数据分片大小将每一待解压缩的数据块进行拆分,得到多个待解压缩的数据分片。
在实施中,针对压缩数据包中包含的数据特征,还可以对数据块中的数据进一步拆分处理,例如,当每一数据块block中包含的数据为报表数据时,针对单个报表数据的大小标准,对每一数据块进行数据分片拆分,得到多个待解压缩的数据分片。
步骤306,通过调用数据处理线程,对每一数据分片中的压缩数据进行解析计算,得到解压缩后的分片数据。
在实施中,针对拆分得到的多个待解压缩的数据分片,为了提高数据处理效率,数据处理单元中的资源分配模块基于得到的数据分片的数据量,调用多个数据处理线程并行处理,对每一数据分片中的压缩数据进行解析计算,得到解压缩后的分片数据。
步骤308,将解压缩后的分片数据进行汇总处理,得到解压缩后的报表文件。
在实施中,数据处理单元将属于同一报表文件的解压缩后的分片数据进行汇总处理,得到解压缩后的报表文件。
本实施例中,通过数据块的存储方式,不显示接入的数据流中压缩数据包的大小,而在数据应用之前,对超过预设字节大小的压缩数据包进行拆分处理,并分配对应的数据处理线程,并行处理压缩数据包拆分得到的多个待解压缩的数据分片,使得数据流的接入存储和数据流中数据应用解耦,提高数据读写效率。
在一个实施例中,如图4所示,当对压缩数据包中的数据解压缩处理之后,数据处理单元再将解压缩之后的数据存储至数据存储单元除数据流接入时存储的数据存储空间之外的其他存储空间,则步骤208中的基于预设的数据查询路径将解压缩后的数据存储至分布式存储空间中的具体处理步骤包括:
步骤402,针对每一解压缩后的报表文件数据匹配对应的数据查询路径,并基于每一数据查询路径将解压缩后的报表文件数据存储至分布式存储空间的目标存储空间。
在实施中,服务器中的数据处理单元针对每一解压缩后的报表文件数据匹配对应的数据查询路径,例如,当一个压缩数据包中解压缩得到10个报表文件数据,针对每一报表文件数据匹配对应的数据查询路径,其中,数据查询路径可以以目录的形式按照层级划分对应的存储空间,然后,数据处理单元基于匹配的每一数据查询路径,将对应的解压缩后的报表文件数据存储至分布式存储空间的目标存储空间内。其中,该目标存储空间即为数据查询路径指向的数据存储空间。
步骤404,提取每一解压缩后的报表文件数据的特征信息,生成报表文件数据的数据标识。
在实施中,数据处理单元提取每一解压缩后的报表文件数据的特征信息,生成报表文件数据的数据标识,具体的,数据处理单元针对每一报表文件数据可以提取该报表文件数据的报表题头的名称信息作为该报表文件数据的特征信息,进而,基于该报表文件的名称信息生成对应的报表文件数据的数据标识,例如,报表文件数据的名称信息为“XX报表”,则以该名称信息唯一标识该报表文件数据。
步骤406,建立包含数据标识与数据查询路径对应关系的数据查询列表,将数据查询列表推送至前端以进行数据查询。
在实施中,数据处理单元建立数据标识与数据查询路径对应关系的数据查询列表,将数据查询列表推送至报表应用单元的前端,以提供给用户进行数据查询应用。
另外,数据查询列表中包含报表文件数据1对应数据查询路径1,报表文件数据2对应数据查询路径2,报表文件数据3对应数据查询路径3……其中,各报表文件数据对应的各数据查询路径中可能涉及重合部分,例如,数据查询路径1中指向的存储空间对应为分布式存储系统中节点1的硬盘1,数据查询路径2中指向的存储空间也对应为分布式存储系统中节点1的硬盘1,但是数据查询路径1与数据查询路径2在硬盘1中指向不同的数据存储区域不同,因此,数据查询路径1和数据查询路径2依旧是两条不同的数据查询路径,用户基于不同的数据查询路径可以唯一的查询到目标报文数据。
具体的,服务器后端系统针对每一报表文件数据的数据标识以及匹配的数据查询路径,建立数据标识与数据查询路径的对应关系,生成数据查询列表,将该数据查询列表推送至前端,并以每一报表文件选项列表的形式进行输出显示,以使用户可以基于前端显示出的报表文件选项列表进行数据查询和应用。
可选的,在数据存储单元的分布式存储空间(也称为分布式存储系统)中,为了保证数据的高可用性,还可以设置分布式存储的副本数,同时,为了满足存储容量日益增长的需求,分布式存储空间可以通过接入新的存储节点实现存储能力的横向扩展,并且依托于分布式存储的接口多样性,可以使得数据应用场景多样,提供数据应用便利性。
在一个实施例中,如图5所示,本申请中服务器针对接入的源端数据流,在进行数据存储之后,按照预设时间周期对存储的压缩数据包进行处理,得到解压缩的数据,进而可以向解压缩的数据申请数据查询和应用,具体的,该方法还包括:
步骤502,接收数据查询请求。其中,数据查询请求携带目标数据标识。
在实施中,用户基于报表应用单元中前端提供的数据查询窗口,进行目标数据查询,通过前端输入数据查询请求,该数据查询请求携带目标数据标识。前端将该数据查询请求传输至服务器后端系统(也称为后端服务系统),服务器后端系统中的报表应用单元基于SpringBoot构建,接收前端的数据查询请求,对目标报表文件数据进行查询获取。
步骤504,根据目标数据标识,在数据查询列表包含的各数据标识与数据查询路径的对应关系中,确定目标数据标识对应的目标数据查询路径。
在实施中,服务器的后端系统(也称为后端服务系统)根据接收到的数据查询请求的触发,识别其中携带的目标数据标识,在预先构建的数据查询列表包含的各数据标识和数据查询路径的对应关系中,确定目标数据标识对应的目标数据查询路径。
步骤506,基于目标数据查询路径,在分布式存储空间中获取目标报表文件数据。
在实施中,服务器的后端系统调用对应的数据传输接口,并在目标数据查询路径指向的目标数据存储空间中获取目标报表文件数据,然后,服务器后端系统将获取到的目标报表文件数据以字节流的形式推送至前端进行显示,以使用户进行浏览查阅,避免报表文件数据的二次落地。同时,报表应用单元可以采用容器化部署,支持负载均衡以及横向扩展。
可选的,在数据存储单元中数据查询列表中除了记录数据流中每一报表文件数据的数据标识(数据特征属性信息(描述信息)与数据查询路径的对应关系,还可以进一步记录每种报表文件数据的数据查询频率,根据该数据查询频率,确定数据查询列表的查询优先级,进而,提高数据报表查询效率。
在一个实施例中,如图6所示,提供了一种数据处理方法的示例,具体包括如下步骤:
步骤601,数据接入单元接收来自源端系统的数据流并将该数据流中的数据传输至数据单元,该数据流中包含压缩数据包和信号文件。
步骤602,数据存储单元基于预设的数据存储路径对接收到数据流中的数据进行存储。
步骤603,数据处理单元根据数据存储路径,按照预设时间周期查询数据存储单元中的数据是否存在信号文件,若存在信号文件,则读取压缩数据包,对压缩数据包进行解压缩处理,并将解压缩后的数据以另外的数据查询路径重新存储至数据存储单元的分布式存储空间中。
在一个实施例中,如图7所示,提供了一种数据查询方法的示例,具体包括如下步骤:
步骤701,用户通过报表应用单元中的前端将数据查询请求发送至后端服务系统的报表应用单元,该数据查询请求中携带目标数据标识。
步骤702,报表应用单元根据数据查询请求中携带的目标数据标识,在数据查询列表包含的对应关系中,确定目标数据标识与目标数据查询路径的对应关系。
步骤703,报表应用单元根据确定出的目标数据查询路径在数据存储单元的目标存储空间中获取到目标报表文件数据,并将该目标报表文件数据以字节流的形式推送至前端,进行输出显示。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的数据处理方法的数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个数据处理装置实施例中的具体限定可以参见上文中对于数据处理方法的限定,在此不再赘述。
在一个实施例中,如图8所示,提供了一种数据处理装置800,包括:接收模块801、存储模块802、检测模块803和处理模块804,其中:
接收模块801,用于接收数据流,数据流中包含压缩数据包;
存储模块802,用于基于预设数据存储路径,将数据流存储至第一分布式存储空间;
检测模块803,用于按照预设时间间隔以及预设数据存储路径,对已存储的数据流中的数据进行扫描,检测数据流中是否存在信号文件;
处理模块804,用于若存在信号文件,则对数据流中的压缩数据包进行解压缩,并基于预设的数据查询路径将解压缩后的数据存储至第二分布式存储空间,以使在第二分布式存储空间中进行数据查询。
在其中一个实施例中,处理模块804的具体用于若存在信号文件,响应于信号文件的触发,将每一压缩数据包按照预设数据块大小进行拆分,得到多个待解压缩的数据块;
按照预设数据分片大小将每一待解压缩的数据块进行拆分,得到多个待解压缩的数据分片;
通过调用数据处理线程,对每一数据分片中的压缩数据进行解析计算,得到解压缩后的分片数据;
将解压缩后的分片数据进行汇总处理,得到解压缩后的报表文件。
在其中一个实施例中,处理模块804,还用于针对每一解压缩后的报表文件数据匹配对应的数据查询路径,并基于每一数据查询路径将解压缩后的报表文件数据存储至分布式存储空间的目标存储空间;
提取每一解压缩后的报表文件数据的特征信息,生成报表文件数据的数据标识;
建立包含数据标识与数据查询路径对应关系的数据查询列表,将数据查询列表推送至前端以进行数据查询。
在其中一个实施例中,该装置800还包括:
接收模块,用于接收数据查询请求,数据查询请求携带目标数据标识;
确定模块,用于根据目标数据标识,在数据查询列表包含的各数据标识与数据查询路径的对应关系中,确定目标数据标识对应的目标数据查询路径;
反馈模块,用于基于目标数据查询路径,在第二分布式存储空间中获取目标报表文件数据,并以字节流的形式反馈给前端。
上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图9所示,提供了一种数据处理系统900,包括:数据接入单元901、数据存储单元902和数据处理单元903,其中:
数据接入单元901,用于接收数据流,数据流中包含压缩数据包;
数据存储单元902,用于基于预设数据存储路径,将数据流存储至第一分布式存储空间;
数据处理单元903,用于按照预设时间间隔以及预设数据存储路径,对已存储的数据流中的数据进行扫描,检测数据流中是否存在信号文件;若存在信号文件,则对数据流中的压缩数据包进行解压缩,并基于预设的数据查询路径将解压缩后的数据存储至第二分布式存储空间。
在其中一个实施例中,该数据处理系统900还包括:
报表数据应用单元,用于接收数据查询请求,根据数据查询请求携带的目标数据标识,在数据查询列表包含的各数据标识信息与数据查询路径的对应关系中,确定目标数据标识对应的目标查询路径;
基于目标查询路径,在第二分布式存储空间中获取目标报表文件数据,并以字节流的形式反馈给前端。
在其中一个实施例中,数据处理单元903包括调度模块和资源分配模块;
调度模块,用于按照预设时间间隔以及预设数据存储路径,对已存储的数据流中的数据进行扫描,检测数据流中是否存在信号文件;
资源分配模块,用于分配数据处理线程,若存在信号文件,则通过数据处理线程对数据流中的压缩数据包进行解压缩,并基于预设的数据查询路径将解压缩后的数据存储至第二分布式存储空间。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据查询列表以及接入的数据流中的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
接收数据流,数据流中包含压缩数据包;
基于预设数据存储路径,将数据流存储至第一分布式存储空间;
按照预设时间间隔以及预设数据存储路径,对已存储的数据流中的数据进行扫描,检测数据流中是否存在信号文件;
若存在信号文件,则对数据流中的压缩数据包进行解压缩,并基于预设的数据查询路径将解压缩后的数据存储至第二分布式存储空间,以使在第二分布式存储空间中进行数据查询。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
若存在信号文件,响应于信号文件的触发,将每一压缩数据包按照预设数据块大小进行拆分,得到多个待解压缩的数据块;
按照预设数据分片大小将每一待解压缩的数据块进行拆分,得到多个待解压缩的数据分片;
通过调用数据处理线程,对每一数据分片中的压缩数据进行解析计算,得到解压缩后的分片数据;
将解压缩后的分片数据进行汇总处理,得到解压缩后的报表文件。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
针对每一解压缩后的报表文件数据匹配对应的数据查询路径,并基于每一数据查询路径将解压缩后的报表文件数据存储至分布式存储空间的目标存储空间;
提取每一解压缩后的报表文件数据的特征信息,生成报表文件数据的数据标识;
建立包含数据标识与数据查询路径对应关系的数据查询列表,将数据查询列表推送至前端以进行数据查询。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
接收数据查询请求,数据查询请求携带目标数据标识;
根据目标数据标识,在数据查询列表包含的各数据标识与数据查询路径的对应关系中,确定目标数据标识对应的目标数据查询路径;
基于目标数据查询路径,在第二分布式存储空间中获取目标报表文件数据,并以字节流的形式反馈给前端。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (11)

1.一种数据处理方法,其特征在于,所述方法包括:
接收数据流,所述数据流中包含压缩数据包;
基于预设数据存储路径,将所述数据流存储至第一分布式存储空间;
按照预设时间间隔以及所述预设数据存储路径,对已存储的所述数据流中的数据进行扫描,检测所述数据流中是否存在信号文件;
若存在所述信号文件,则对所述数据流中的压缩数据包进行解压缩,并基于预设的数据查询路径将解压缩后的数据存储至第二分布式存储空间,以使在所述第二分布式存储空间中进行数据查询。
2.根据权利要求1所述的方法,其特征在于,所述若存在所述信号文件,则对所述数据流中的压缩数据包进行解压缩,包括:
若存在所述信号文件,响应于所述信号文件的触发,将每一压缩数据包按照预设数据块大小进行拆分,得到多个待解压缩的数据块;
按照预设数据分片大小将每一所述待解压缩的数据块进行拆分,得到多个待解压缩的数据分片;
通过调用数据处理线程,对每一所述数据分片中的压缩数据进行解析计算,得到解压缩后的分片数据;
将所述解压缩后的分片数据进行汇总处理,得到解压缩后的报表文件。
3.根据权利要求2所述的方法,其特征在于,所述基于预设的数据查询路径将解压缩后的数据存储至第二分布式存储空间,包括:
针对每一解压缩后的报表文件数据匹配对应的数据查询路径,并基于每一所述数据查询路径将所述解压缩后的报表文件数据存储至所述分布式存储空间的目标存储空间;
提取每一所述解压缩后的报表文件数据的特征信息,生成所述报表文件数据的数据标识;
建立包含所述数据标识与所述数据查询路径对应关系的数据查询列表,将所述数据查询列表推送至前端以进行数据查询。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
接收数据查询请求,所述数据查询请求携带目标数据标识;
根据所述目标数据标识,在所述数据查询列表包含的各数据标识与数据查询路径的对应关系中,确定所述目标数据标识对应的目标数据查询路径;
基于所述目标数据查询路径,在所述第二分布式存储空间中获取目标报表文件数据,并以字节流的形式反馈给前端。
5.一种数据处理装置,其特征在于,所述装置包括:
接收模块,用于接收数据流,所述数据流中包含压缩数据包;
存储模块,用于基于预设数据存储路径,将所述数据流存储至第一分布式存储空间;
检测模块,用于按照预设时间间隔以及所述预设数据存储路径,对已存储的所述数据流中的数据进行扫描,检测所述数据流中是否存在信号文件;
处理模块,用于若存在所述信号文件,则对所述数据流中的压缩数据包进行解压缩,并基于预设的数据查询路径将解压缩后的数据存储至第二分布式存储空间,以使在所述第二分布式存储空间中进行数据查询。
6.一种数据处理系统,其特征在于,所述数据处理系统包括:
数据接入单元,用于接收数据流,所述数据流中包含压缩数据包;
数据存储单元,用于基于预设数据存储路径,将数据流存储至第一分布式存储空间;
数据处理单元,用于按照预设时间间隔以及所述预设数据存储路径,对已存储的所述数据流中的数据进行扫描,检测所述数据流中是否存在信号文件;若存在所述信号文件,则对所述数据流中的压缩数据包进行解压缩,并基于预设的数据查询路径将解压缩后的数据存储至第二分布式存储空间。
7.根据权利要求6所述的系统,其特征在于,所述数据处理系统还包括:
报表数据应用单元,用于接收数据查询请求,根据所述数据查询请求携带的目标数据标识,在数据查询列表包含的各数据标识信息与数据查询路径的对应关系中,确定所述目标数据标识对应的目标查询路径;
基于所述目标查询路径,在所述第二分布式存储空间中获取目标报表文件数据,并以字节流的形式反馈给前端。
8.根据权利要求6所述的系统,其特征在于,所述数据处理单元包括调度模块和资源分配模块;
所述调度模块,用于按照预设时间间隔以及所述预设数据存储路径,对已存储的所述数据流中的数据进行扫描,检测所述数据流中是否存在信号文件;
所述资源分配模块,用于分配数据处理线程,若存在所述信号文件,则通过所述数据处理线程对所述数据流中的压缩数据包进行解压缩,并基于预设的数据查询路径将解压缩后的数据存储至第二分布式存储空间。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN202111340322.7A 2021-11-12 2021-11-12 数据处理方法、装置、计算机设备和存储介质 Pending CN114238264A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111340322.7A CN114238264A (zh) 2021-11-12 2021-11-12 数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111340322.7A CN114238264A (zh) 2021-11-12 2021-11-12 数据处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN114238264A true CN114238264A (zh) 2022-03-25

Family

ID=80749259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111340322.7A Pending CN114238264A (zh) 2021-11-12 2021-11-12 数据处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN114238264A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116561230A (zh) * 2023-07-07 2023-08-08 长通智能(深圳)有限公司 一种基于云计算的分布式存储与检索系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116561230A (zh) * 2023-07-07 2023-08-08 长通智能(深圳)有限公司 一种基于云计算的分布式存储与检索系统
CN116561230B (zh) * 2023-07-07 2023-09-01 长通智能(深圳)有限公司 一种基于云计算的分布式存储与检索系统

Similar Documents

Publication Publication Date Title
CN108052675B (zh) 日志管理方法、系统及计算机可读存储介质
US11068441B2 (en) Caseless file lookup in a distributed file system
US10649905B2 (en) Method and apparatus for storing data
WO2022116425A1 (zh) 数据血缘关系解析方法、系统、计算机设备及存储介质
CN110209348B (zh) 数据存储方法、装置、电子设备及存储介质
CN110784498B (zh) 一种个性化数据容灾方法及装置
CN113806300B (zh) 数据存储方法、系统、装置、设备及存储介质
CN110851474A (zh) 数据查询方法、数据库中间件、数据查询设备及存储介质
CN115470156A (zh) 基于rdma的内存使用方法、系统、电子设备和存储介质
CN111339057A (zh) 减少回源请求的方法、装置及计算机可读存储介质
CN112579595A (zh) 数据处理方法、装置、电子设备及可读存储介质
CN114238264A (zh) 数据处理方法、装置、计算机设备和存储介质
CN114398520A (zh) 数据检索方法、系统、装置、电子设备及存储介质
CN114089921A (zh) 电力系统数据存储方法、装置、计算机设备和存储介质
CN116991800A (zh) 文件获取系统、方法、装置、计算机设备和存储介质
CN113905252B (zh) 直播间的数据存储方法、装置、电子设备及存储介质
US10193965B2 (en) Management server and operation method thereof and server system
US20230138113A1 (en) System for retrieval of large datasets in cloud environments
CN114661762A (zh) 嵌入式数据库的查询方法、装置、存储介质及设备
CN114090692A (zh) 全媒资数据同步方法、系统、装置及计算机可读存储介质
CN109857719B (zh) 分布式文件处理方法、装置、计算机设备以及存储介质
CN115129779A (zh) 数据库的同步方法、装置及可读介质
US11423109B2 (en) Information processing method, server and computer program product
CN111078736A (zh) 一种数据聚合处理方法、装置、终端及存储介质
CN110442447B (zh) 基于消息队列的负载均衡方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination