CN112966015A - 大数据分析处理和存储方法、装置、设备及介质 - Google Patents
大数据分析处理和存储方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112966015A CN112966015A CN202110139609.7A CN202110139609A CN112966015A CN 112966015 A CN112966015 A CN 112966015A CN 202110139609 A CN202110139609 A CN 202110139609A CN 112966015 A CN112966015 A CN 112966015A
- Authority
- CN
- China
- Prior art keywords
- data
- processing
- source data
- real
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2272—Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种大数据分析处理和存储方法、装置、电子设备及计算机存储介质,涉及数据处理技术领域,旨在解决非结构化数据无法批量处理的问题。该方法包含以下步骤:接收实时上报数据,其中,实时上报数据包括源数据和分析模板;根据预设分区规则,对实时上报数据中的源数据进行分区;通过相应的分析模板,并行地对各分区中的源数据进行分析处理,提取各源数据的关键信息;将各源数据的关键信息与各源数据对应组成结构化数据;存储该结构化数据。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种大数据分析处理和存储方法、装置、设备及介质。
背景技术
随着移动互联、社交网络和电子商务的普及,互联网的应用领域得到了极大程度的发展,随之信息的产生也呈现出极大的膨胀和爆炸态势。数据作为信息的载体,爆炸的信息量产生了海量的数据,因此,大数据已成为科技时代不可忽视的产物。
数据可以分为结构化数据和非结构化数据两种类型。结构化数据,顾名思义是高度组织和格式化的数据,一般使用关系型数据表示和存储,表现为二维形式。结构化数据因为限制了数据的结构,从而无法很好的兼顾不同类型的数据,如果将不同数据结构的数据组成结构化数据,往往会造成大量的冗余。
但是大数据中的数据往往是庞杂无序的,不同的数据往往拥有不同的生产者,而不同的生产者生产的数据的数据结构常常是不一致的,这样的数据被称为非结构化数据。非结构化数据可以包括种类不一、结构不一的数据,具有很好的可扩展性。但是正是因为非结构化数据的不确定性,导致非结构化数据的批量处理具有较大的难度。
流式数据是指不断产生并实时上报的数据,对于流式数据而言,其价值随着时间的流逝而降低,因此需要在数据上报后尽快进行分析,并实时响应处理结果。
目前,针对非结构化数据无法批量处理的问题,尚未提出有效的解决方法。
发明内容
本发明实施例提供了一种大数据分析处理和存储方法、装置、设备及介质,以至少解决非结构化数据无法批量处理的问题。
第一方面,本发明实施例提供了一种大数据分析处理和存储方法,包括以下步骤:
接收实时上报数据,其中,所述实时上报数据包括源数据和分析模板;
根据预设分区规则,对所述实时上报数据中的源数据进行分区;
通过相应的分析模板,并行地对各分区中的源数据进行分析处理,提取各源数据的关键信息;
将所述各源数据的关键信息与所述各源数据对应组成结构化数据;
存储所述结构化数据。
在其中一些实施例中,所述通过相应的分析模板,并行地对各分区中的源数据进行分析处理,包括:
在每个分区中,通过相同的分析模板,对具有相同数据结构的源数据进行分析处理。
在其中一些实施例中,所述接收实时上报数据,包括:
按照数据结构,对所述实时上报数据中的源数据进行分类存储。
在其中一些实施例中,所述存储所述结构化数据,还包括:
根据相应的分析模板,创建所述结构化数据的关键字段索引。
在其中一些实施例中,所述存储所述结构化数据,包括:
根据日期,分类存储所述结构化数据。
在其中一些实施例中,所述接收实时上报数据之后,还包括:
对所述实时上报数据中的源数据进行备份存储。
在其中一些实施例中,所述分析模板包括源数据的数据结构、关键信息位置和处理方式。
第二方面,本发明实施例提供了一种大数据分析处理和存储装置,包括:
数据接收模块,用于接收实时上报数据,其中,所述实时上报数据包括源数据和分析模板;
数据分区模块,用于根据预设分区规则,对所述实时上报数据中的源数据进行分区;
并行处理模块,用于通过相应的分析模板,并行地对各分区中的源数据进行分析处理,提取各源数据的关键信息;
数据存储模块,用于将所述各源数据的关键信息与所述各源数据对应组成结构化数据;存储所述结构化数据。
第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的大数据分析处理和存储方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的大数据分析处理和存储方法。
相比于现有技术,本发明实施例提供一种大数据分析处理和存储方法、装置、设备及介质,对源数据进行分区后,在各分区使用源数据对应的分析模板对源数据进行并行处理,从而实现非结构化数据的批量处理。
本发明的一个或多个实施例的细节在以下附图和描述中提出,以使本发明的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明大数据分析处理和存储方法的流程图;
图2是本发明实施例中源数据分区处理的流程示意图;
图3是本发明实施例中数据分析处理的流程示意图;
图4是本发明实施例的大数据分析处理和存储装置的结构框图;
图5是本发明实施例的电子设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案更加清楚明白,以下结合附图及实施例,对本发明进行描述和说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。基于本发明提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
实施例1
本实施例提供一种对大数据分析处理和存储方法,图1是本发明大数据分析处理和存储方法的流程图。
如图1所示,大数据分析处理和存储方法,包括以下步骤:
S101、接收实时上报数据,其中,该实时上报数据包括源数据和分析模板。
上述实时上报数据为不同数据生产者实时上报的流式数据。不同的数据生产者往往产生数据结构不同的非结构化数据,为了能够准确地解析结构不同的数据,在上报源数据时,要求同时上报该类源数据的分析模板。其中,上述提及的源数据为非结构化数据。
S102、根据预设分区规则,对实时上报数据中的源数据进行分区。
为了加快对实时上报数据的处理速度,采用对实时上报数据进行分区的方式,实现调用多服务并行处理实时上报数据,即实现并行处理源数据,从而降低流式数据对单个数据处理服务以及单个数据存储服务的压力。其中,预设分区规则可以为根据源数据生产的地域、源数据生成类型等属性进行分区。源数据分区后,调用多个数据处理服务并行地对各分区中的源数据进行分析处理。
通过对实时上报数据中的源数据进行分区,可以将源数据划分到多个区域中,划分到区域中的源数据可以来自不同的数据生产者,例如,源数据被划分到区域A、区域B和区域C,如图2所示,区域A、区域B和区域C各自独立且并行地对划分到各自区域(分区)内的数据流进行数据处理和存储。因各区域内的数据流(源数据)不一定来自同一个数据生成者,因此数据流中的数据结构不一定统一,需调用多个数据处理服务对数据流处理。在图2的三个区域中,区域A的数据流来自数据生产者a、数据生产者b,区域B的数据流来自数据生产者c、数据生产者d,区域C的数据流来自数据生产者e、数据生产者f;在每个区域中,均存在来自两个数据生产者的源数据,因此数据流中至少具有两种数据结构的数据,因此调用了两个数据处理服务进行分析处理,最后存储在数据库中。
S103、通过相应的分析模板,并行地对各分区中的源数据进行分析处理,提取各源数据的关键信息。
在各分区(各区域中)中,基于分析模板对源数据进行分析处理,以提取各源数据中的关键信息。需要说明的是,具有相同数据结构的源数据,采用同一分析模板进行分析处理,而基于同一分析模板提取到的目标数据(关键信息)具有相同的数据结构。其中,上述分析模板提供了源数据分析的指引或说明,从而通过分析模板可准确、快速地对非结构化数据中的关键信息进行提取。
并行地对各分区中的源数据进行分析处理时,可采用多个数据处理服务器对源数据进行分流处理,以到达降低数据处理压力的目的。
S104、将各源数据的关键信息与各源数据对应组成结构化数据;
S105、存储上述结构化数据。
因基于同一分析模板提取到的关键信息的数据结构是一致的,所以可以将提取到的关键信息和原来的非结构化的源数据一起组成一个新的结构化数据进行存储,通过结构化数据,降低后续说句查询中的检索匹配难度。
本实施例的大数据分析处理和存储方法,可用于解决数据量庞大且数据结构不一致时,无法对数据进行批量统一处理和存储的问题,实现了快速分析、存储数据。本实施例对于数据结构不一致的非结构化数据,通过不同的分析模板,确定了符合各源数据数据结构的处理方式,实现对不同数据结构的源数据进行分析处理。将分析处理得到源数据中的有效关键信息与源数据共同组成结构化数据,便于后续采选相关源数据与其包含的关键信息。
在实际执行源数据的分析处理时,如图3所示,源数据和数据分析模板由数据生产者上报,接收数据分析模板存储至模板数据库,调用数据处理服务从模板数据库中获取对应的分析模板,对源数据进行分析处理,得到有效信息(即上述关键信息),将有效信息和源数据一同存储至数据库中,供多个数据查询服务查询。
优选地,通过相应的分析模板,并行地对各分区中的源数据进行分析处理,包括:
在每个分区中,通过相同的分析模板,对具有相同数据结构的源数据进行分析处理。
通过使用各源数据(非结构化数据)对应的分析模板,对源数据进行快速精确处理,降低了数据处理难度。
优选地,分析模板包括源数据的数据结构、关键信息位置和处理方式等,该处理方式包括但限于解码、截取、扩充等操作。基于分析模板的信息,可明确该分析模板能处理的源数据的数据结构、需要提取的关键信息(提取目标)位置以及分析处理时采用的数据处理方式。
优选地,接收实时上报数据,包括:
按照数据结构,对所述实时上报数据中的源数据进行分类存储。
为将源数据进行分类存储,一般采用将不同数据结构的源数据存储在不同的表中,降低了单个分析模板所处理数据的差异。那么在后续执行分析处理操作时,可采用同一分析模板对单个表中的源数据进行批量处理。
优选地,将各源数据的关键信息与各源数据对应组成结构化数据后,存储结构化数据,还包括:
根据相应的分析模板,创建结构化数据的关键字段索引。
一般结构化数据采用关系型数据库进行存储,建立存储结构化数据的表的关键字段索引,可以实现数据的快速定位和查询。在本实施例中,通过在分析模板中预设查询索引、查询显示等条件,从而根据相应的分析模板创建对应结构化数据的关键字段索引,提高后续数据查询的效率。
优选地,将各源数据的关键信息与各源数据对应组成结构化数据后,存储结构化数据,包括:
根据日期,分类存储结构化数据。
将分析处理后得到的所有结构化数据按照日期分类存储,即按照日期将结构化数据存储在不同的表中,从而降低单个表的数据容量,从而进一步地实现数据的快速定位和查询。
需要注意的是,在较优的实施例中,在数据查询时,同样采用多服务并行查询的方式,调用多个数据查询服务,实现多入口并发查询,降低单个数据查询服务的压力,进一步地提高数据查询效率。
优选地,接收实时上报数据之后,还包括:
对实时上报数据中的源数据进行备份存储。
对于源数据,在执行数据分析处理之前,将源数据进行存储备份,使得在完成数据分析处理之后,可定期视情况进行过期数据的清理,从而减轻数据存储压力。
通过本实施例的大数据分析处理和存储方法,在流数据处理过程中,采用分区、分流并行处理的方式,有效降低了单个处理服务的压力,根据不同的数据上报类型将源数据进行分类,能在较大程度上将类似的数据进行统一处理,降低了处理结构化数据的难度;且基于分析模板,可准确的分析处理对应的上报数据,进一步地降低了数据处理难度,按照分析模板进行索引建立,同时根据日期分表存储,提高了后续数据查询的效率。
在其他实施例中,在数据分流过程中,可使用负载均衡(SLB)对所有数据进行分流处理。也可以将数据进行分类,不同的数据使用指定数据处理服务分析处理,从而达到降低单数据处理服务数据流压力的目的。
需要说明的是,对于数据模板的上报,可以由数据生产者定期上报,也可以使用配置文件的方式提前设定。对于处理后数据的分表存储,不仅可以根据日期,还可以视情况根据上报地址、上报对象等各种标志性属性来进行分表存储。
实施例2
本实施例提供一种大数据分析处理和存储装置,该装置用于实现上述实施例及优选实施例方式,已经进行过说明的不再赘述,如下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能实现并被构想的。
图4是本发明实施例的大数据分析处理和存储装置的结构框图,如图2所示,该装置包括:
数据接收模块41,用于接收实时上报数据,其中,实时上报数据包括源数据和分析模板;
数据分区模块42,用于根据预设分区规则,对实时上报数据中的源数据进行分区;
并行处理模块43,用于通过相应的分析模板,并行地对各分区中的源数据进行分析处理,提取各源数据的关键信息;
数据存储模块44,用于将各源数据的关键信息与各源数据对应组成结构化数据,存储该结构化数据。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
实施例3
图5为本发明实施例的一种电子设备的结构示意图,如图5所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图5所示。该电子设备包括处理器、存储器、输入装置和输出装置;其中该电子设备中处理器的数量可以是一个或多个,图5中以一个处理器为例;电子设备中的处理器、存储器、输入装置和输出装置可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器作为一种计算机可读存储介质,可以包括高速随机存取存储器、非易失性存储器等,可用于存储操作系统、软件程序、计算机可执行程序和数据库,如本发明实施例1的大数据分析处理和存储方法对应的程序指令/模块,还可以包括内存,可用于为操作系统和计算机程序提供运行环境。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。
处理器用于提供计算和控制能力,可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。处理器通过运行存储在存储器中的计算机可执行程序、软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现实施例1的大数据分析处理和存储方法。
该电子设备的输出装置可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
该电子设备还可包括网络接口/通信接口,该电子设备的网络接口用于与外部的终端通过网络连接通信。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所述更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现实施例1的大数据分析处理和存储方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
实施例4
本发明实施例提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于实现大数据分析处理和存储方法,该方法包括:
接收实时上报数据,其中,实时上报数据包括源数据和分析模板;
根据预设分区规则,对实时上报数据中的源数据进行分区;
通过相应的分析模板,并行地对各分区中的源数据进行分析处理,提取各源数据的关键信息;
将各源数据的关键信息与各源数据对应组成结构化数据;
存储该结构化数据。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述实施例的大数据分析处理和存储方法操作,还可以执行本发明任意实施例所提供的大数据分析处理和存储方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的大数据分析处理和存储方法。
值得注意的是,上述大数据分析处理和存储方法的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
Claims (10)
1.一种大数据分析处理和存储方法,其特征在于,包括以下步骤:
接收实时上报数据,其中,所述实时上报数据包括源数据和分析模板;
根据预设分区规则,对所述实时上报数据中的源数据进行分区;
通过相应的分析模板,并行地对各分区中的源数据进行分析处理,提取各源数据的关键信息;
将所述各源数据的关键信息与所述各源数据对应组成结构化数据;
存储所述结构化数据。
2.如权利要求1所述的大数据分析处理和存储方法,其特征在于,所述通过相应的分析模板,并行地对各分区中的源数据进行分析处理,包括:
在每个分区中,通过相同的分析模板,对具有相同数据结构的源数据进行分析处理。
3.如权利要求1所述的大数据分析处理和存储方法,其特征在于,所述接收实时上报数据,包括:
按照数据结构,对所述实时上报数据中的源数据进行分类存储。
4.如权利要求1所述的大数据分析处理和存储方法,其特征在于,所述存储所述结构化数据,还包括:
根据相应的分析模板,创建所述结构化数据的关键字段索引。
5.如权利要求1所述的大数据分析处理和存储方法,其特征在于,所述存储所述结构化数据,包括:
根据日期,分类存储所述结构化数据。
6.如权利要求1所述的大数据分析处理和存储方法,其特征在于,所述接收实时上报数据之后,还包括:
对所述实时上报数据中的源数据进行备份存储。
7.如权利要求1所述的大数据分析处理和存储方法,其特征在于,所述分析模板包括源数据的数据结构、关键信息位置和处理方式。
8.一种大数据分析处理和存储装置,其特征在于,包括:
数据接收模块,用于接收实时上报数据,其中,所述实时上报数据包括源数据和分析模板;
数据分区模块,用于根据预设分区规则,对所述实时上报数据中的源数据进行分区;
并行处理模块,用于通过相应的分析模板,并行地对各分区中的源数据进行分析处理,提取各源数据的关键信息;
数据存储模块,用于将所述各源数据的关键信息与所述各源数据对应组成结构化数据,存储所述结构化数据。
9.一种电子设备,包括存储器、处理器以及存储所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的大数据分析处理和存储方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的大数据分析处理和存储方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110139609.7A CN112966015B (zh) | 2021-02-01 | 2021-02-01 | 大数据分析处理和存储方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110139609.7A CN112966015B (zh) | 2021-02-01 | 2021-02-01 | 大数据分析处理和存储方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112966015A true CN112966015A (zh) | 2021-06-15 |
CN112966015B CN112966015B (zh) | 2023-08-15 |
Family
ID=76273012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110139609.7A Active CN112966015B (zh) | 2021-02-01 | 2021-02-01 | 大数据分析处理和存储方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112966015B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116109441A (zh) * | 2023-02-24 | 2023-05-12 | 北明天时能源科技(北京)有限公司 | 基于物联网数据流式处理的热网数据治理系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101017546A (zh) * | 2007-03-12 | 2007-08-15 | 中国建设银行股份有限公司 | 一种用于可分类数据批处理的方法及装置 |
CN106294873A (zh) * | 2016-08-24 | 2017-01-04 | 北京互利科技有限公司 | 一种机器数据的分析装置及分析方法 |
WO2017201012A1 (en) * | 2016-05-18 | 2017-11-23 | Vatbox, Ltd. | Providing analytics in real-time based on unstructured electronic documents |
US20170357694A1 (en) * | 2016-06-14 | 2017-12-14 | Fuji Xerox Co., Ltd. | Data processing system and data processing method |
CN109344298A (zh) * | 2018-10-31 | 2019-02-15 | 南方电网科学研究院有限责任公司 | 一种将非结构化数据转化为结构化数据的方法及装置 |
CN109857803A (zh) * | 2018-12-13 | 2019-06-07 | 杭州数梦工场科技有限公司 | 数据同步方法、装置、设备、系统及计算机可读存储介质 |
US20190188192A1 (en) * | 2017-12-19 | 2019-06-20 | Exxonmobil Research And Engineering Company | Data analysis platform |
US20190243841A1 (en) * | 2018-02-06 | 2019-08-08 | Thomson Reuters (Professional) UK Ltd. | Systems and method for generating a structured report from unstructured data |
US20190339688A1 (en) * | 2016-05-09 | 2019-11-07 | Strong Force Iot Portfolio 2016, Llc | Methods and systems for data collection, learning, and streaming of machine signals for analytics and maintenance using the industrial internet of things |
US20200019484A1 (en) * | 2018-07-16 | 2020-01-16 | Red Hat Israel, Ltd. | Log record analysis based on reverse engineering of log record formats |
CN110851495A (zh) * | 2019-10-24 | 2020-02-28 | 长城计算机软件与系统有限公司 | 异构源数据处理方法、装置、存储介质和电子设备 |
US20200104465A1 (en) * | 2018-10-01 | 2020-04-02 | International Business Machines Corporation | Real-Time Prediction of Chemical Properties Through Combining Calculated, Structured and Unstructured Data at Large Scale |
CN111897947A (zh) * | 2020-07-30 | 2020-11-06 | 杭州橙鹰数据技术有限公司 | 一种基于开源信息的数据分析处理方法及装置 |
CN111966726A (zh) * | 2020-07-22 | 2020-11-20 | 武汉极意网络科技有限公司 | 基于不同类型客户的自适应数据分析报告生成系统及方法 |
-
2021
- 2021-02-01 CN CN202110139609.7A patent/CN112966015B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101017546A (zh) * | 2007-03-12 | 2007-08-15 | 中国建设银行股份有限公司 | 一种用于可分类数据批处理的方法及装置 |
US20190339688A1 (en) * | 2016-05-09 | 2019-11-07 | Strong Force Iot Portfolio 2016, Llc | Methods and systems for data collection, learning, and streaming of machine signals for analytics and maintenance using the industrial internet of things |
WO2017201012A1 (en) * | 2016-05-18 | 2017-11-23 | Vatbox, Ltd. | Providing analytics in real-time based on unstructured electronic documents |
US20170357694A1 (en) * | 2016-06-14 | 2017-12-14 | Fuji Xerox Co., Ltd. | Data processing system and data processing method |
CN106294873A (zh) * | 2016-08-24 | 2017-01-04 | 北京互利科技有限公司 | 一种机器数据的分析装置及分析方法 |
US20190188192A1 (en) * | 2017-12-19 | 2019-06-20 | Exxonmobil Research And Engineering Company | Data analysis platform |
US20190243841A1 (en) * | 2018-02-06 | 2019-08-08 | Thomson Reuters (Professional) UK Ltd. | Systems and method for generating a structured report from unstructured data |
US20200019484A1 (en) * | 2018-07-16 | 2020-01-16 | Red Hat Israel, Ltd. | Log record analysis based on reverse engineering of log record formats |
US20200104465A1 (en) * | 2018-10-01 | 2020-04-02 | International Business Machines Corporation | Real-Time Prediction of Chemical Properties Through Combining Calculated, Structured and Unstructured Data at Large Scale |
CN109344298A (zh) * | 2018-10-31 | 2019-02-15 | 南方电网科学研究院有限责任公司 | 一种将非结构化数据转化为结构化数据的方法及装置 |
CN109857803A (zh) * | 2018-12-13 | 2019-06-07 | 杭州数梦工场科技有限公司 | 数据同步方法、装置、设备、系统及计算机可读存储介质 |
CN110851495A (zh) * | 2019-10-24 | 2020-02-28 | 长城计算机软件与系统有限公司 | 异构源数据处理方法、装置、存储介质和电子设备 |
CN111966726A (zh) * | 2020-07-22 | 2020-11-20 | 武汉极意网络科技有限公司 | 基于不同类型客户的自适应数据分析报告生成系统及方法 |
CN111897947A (zh) * | 2020-07-30 | 2020-11-06 | 杭州橙鹰数据技术有限公司 | 一种基于开源信息的数据分析处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
王梅;张四平;: "基于分布式系统的大数据管理平台技术架构研究", 电脑与电信, no. 10 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116109441A (zh) * | 2023-02-24 | 2023-05-12 | 北明天时能源科技(北京)有限公司 | 基于物联网数据流式处理的热网数据治理系统 |
CN116109441B (zh) * | 2023-02-24 | 2024-03-19 | 北明天时能源科技(北京)有限公司 | 基于物联网数据流式处理的热网数据治理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112966015B (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112910945B (zh) | 请求链路跟踪方法和业务请求处理方法 | |
CN107515878B (zh) | 一种数据索引的管理方法及装置 | |
US20220335086A1 (en) | Full-text indexing method and system based on graph database | |
US10496645B1 (en) | System and method for analysis of a database proxy | |
CN110784498B (zh) | 一种个性化数据容灾方法及装置 | |
CN110943934A (zh) | 服务请求处理方法、系统、终端及可读存储介质 | |
CN111723148A (zh) | 数据存储方法及装置、存储介质、电子装置 | |
CN111209310A (zh) | 基于流计算的业务数据处理方法、装置和计算机设备 | |
Sena et al. | Characterizing big data software architectures: a systematic mapping study | |
CN111209061B (zh) | 用户信息的填写方法、装置、计算机设备和存储介质 | |
CN110866011B (zh) | 数据表同步方法、装置、计算机设备和存储介质 | |
CN112966015A (zh) | 大数据分析处理和存储方法、装置、设备及介质 | |
CN113268530A (zh) | 海量异构数据采集方法、系统、计算机设备和存储介质 | |
CN114969047A (zh) | 一种数据处理系统及方法 | |
CN109033184B (zh) | 数据处理方法及装置 | |
CN113157734B (zh) | 基于搜索框架的数据处理方法、装置、设备及存储介质 | |
CN114090589A (zh) | 基于HBase的数据查询方法、装置和计算机设备 | |
CN110515979B (zh) | 数据查询方法、装置、设备和存储介质 | |
CN111259012B (zh) | 数据均匀化方法、装置、计算机设备及存储介质 | |
CN116737838A (zh) | 一种数据同步方法、装置,计算机设备和存储介质 | |
CN110609707B (zh) | 在线数据处理系统生成方法、装置及设备 | |
CN108460116B (zh) | 搜索方法、装置、计算机设备、存储介质及搜索系统 | |
CN114844771A (zh) | 微服务系统的监测方法、装置、存储介质、程序产品 | |
CN114461726A (zh) | 用户行为数据写入方法、装置、计算机设备和存储介质 | |
CN112765190A (zh) | Ip数据更新方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |