CN109739828A - 一种数据处理方法、设备及计算机可读存储介质 - Google Patents

一种数据处理方法、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109739828A
CN109739828A CN201811646447.0A CN201811646447A CN109739828A CN 109739828 A CN109739828 A CN 109739828A CN 201811646447 A CN201811646447 A CN 201811646447A CN 109739828 A CN109739828 A CN 109739828A
Authority
CN
China
Prior art keywords
data
pending data
storage mode
value information
key value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811646447.0A
Other languages
English (en)
Other versions
CN109739828B (zh
Inventor
李宗祥
严国友
孙一波
张文启
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Migu Cultural Technology Co Ltd
Original Assignee
Migu Cultural Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Migu Cultural Technology Co Ltd filed Critical Migu Cultural Technology Co Ltd
Priority to CN201811646447.0A priority Critical patent/CN109739828B/zh
Publication of CN109739828A publication Critical patent/CN109739828A/zh
Application granted granted Critical
Publication of CN109739828B publication Critical patent/CN109739828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据处理方法,该方法包括:设置Hive表的分区,并设置Hive对应的分布式文件系统HDFS的主节点中存储待处理数据的元数据的存储方式为第一存储方式;其中,第一存储方式包括按照待处理数据的属性存储的方式;设置HDFS的数据节点中存储待处理数据的存储方式为第二存储方式;其中,第二存储方式包括按照待处理数据的属性字段存储的方式;建立Hive、主节点和数据节点之间的映射关系,并基于映射关系设置键值信息;其中,键值信息存储在主节点中;按照第一存储方式和第二存储方式,并基于键值信息对待处理数据执行预定处理。本发明的实施例还公开了一种数据处理设备和计算机可读存储介质。

Description

一种数据处理方法、设备及计算机可读存储介质
技术领域
本发明涉及计算机技术领域中的数据处理,尤其涉及一种数据处理方法、设备及计算机可读存储介质。
背景技术
随着大数据处理技术地日渐成熟,Hive框架成为企业构建海量数据仓库的重要工具。Hive框架构建在Hadoop的基础之上,为开发者提供了一套操作Hadoop的结构化查询语言(Structured Query Language,SQL)接口;开发者可以像使用关系型数据库一样使用Hadoop,这极大地简化了海量数据仓库的开发过程,优化了Hadoop大数据处理的性能。Hive的数据存储依赖于Hadoop的HDFS的数据存储机制。Hive将所有的数据都存储在数据表中,但是Hive的表只是逻辑上的概念,Hive中的表实际对应分布式文件系统(HadoopDistributed File System,HDFS)里的一个目录,通过Hive框架将一个HDFS目录里的数据作为一个表来进行处理,当数据存入Hive表中时仍将按照HDFS的存储策略进行存储。
实际开发中Hive处理的数据量会很大,例如有些系统每次需要处理千万级甚至亿级的数据,对Hive的处理性能要求较高;而且,处理的数据都来自于采集的数据文件,这些文件往往非常多而且容量不大,容易形成Hadoop小文件进而导致系统性能的降低。针对上述问题,相对技术中有如下解决方案:第一种是直接使用Hadoop自身的存储机制,第二种是使用SequenceFile机制进行预处理;但是,第一种方案中Hive表对应的目录下会存储所有的数据文件,从而造成Hadoop小文件的问题且系统的性能不高;第二种方案不能直接应用到Hive上;SequenceFile合并后的文件不能反映字段之间的分区信息,所处理的数据集仍然很大;此外,上述两种方案系统加载数据时会加载大量无用的数据,增大了系统的输入/输出(input/output,I/O)开销且降低了系统性能。
发明内容
有鉴于此,本发明实施例期望提供一种数据处理方法、设备及计算机可读存储介质,解决了相对技术中的数据处理方法存在的处理的数据集较大且系统性能不高的问题,降低了系统的I/O开销。
为达到上述目的,本发明的技术方案是这样实现的:
一种数据处理方法,所示方法包括:
设置Hive表的分区,并设置Hive对应的分布式文件系统HDFS的主节点中存储待处理数据的元数据的存储方式为第一存储方式;其中,所述第一存储方式包括按照所述待处理数据的属性存储的方式;
设置所述HDFS的数据节点中存储所述待处理数据的存储方式为第二存储方式;其中,所述第二存储方式包括按照所述待处理数据的属性字段存储的方式;
建立所述Hive、所述主节点和所述数据节点之间的映射关系,并基于所述映射关系设置键值信息;其中,所述键值信息存储在所述主节点中;
按照所述第一存储方式和所述第二存储方式,并基于所述键值信息对所述待处理数据执行预定处理。
可选的,所述方法还包括:
所述数据节点的每个数据块中存储有同一属性字段对应的同一类别的待处理数据;
所述主节点的每个文件中存储有同一属性对应的同一类别的待处理数据的元数据。
可选的,所述建立所述Hive、所述主节点和所述数据节点之间的映射关系,并基于所述映射关系设置键值信息,包括:
建立所述Hive表中的每个分区与所述主节点中的文件之间的第一映射关系;
建立所述主节点中的文件与所述数据节点的数据块之间的第二映射关系;
基于所述第一映射关系、所述第二映射关系和所述元数据,设置所述键值信息。
可选的,所述基于所述第一映射关系、所述第二映射关系和所述元数据,设置所述键值信息,包括:
确定所述Hive表中的每个分区的标识,并基于所述第一映射关系确定每个分区对应的所述属性字段的信息;
基于所述第一映射关系和每个所述分区的标识,设置所述键值信息中的键;
确定所述主节点中的每个文件对应的属性字段序列;
基于所述第二映射关系和所述属性字段序列,设置所述键值信息中的值。
可选的,所述按照所述第一存储方式和所述第二存储方式,并基于所述键值信息对所述待处理数据执行预定处理,包括:
获取所述待处理数据,并将所述待处理数据录入分区后的所述Hive表中;
按照所述待处理数据的属性将所述待处理数据进行第一分类,并基于所述键值信息将进行第一分类后的所述待处理数据对应的元数据存储在所述主节点中;
按照所述待处理数据的属性字段对所述待处理数据进行第二分类,并基于所述键值信息将进行第二分类后的所述待处理数据存储在所述数据节点中。
可选的,所述按照所述待处理数据的属性将所述待处理数据进行第一分类,并基于所述键值信息将进行第一分类后的所述待处理数据对应的元数据存储在所述主节点中,包括:
获取所述待处理数据的属性,并基于所述属性对所述待处理数据进行第一分类;
按照每一第一分类的待处理数据的元数据存储在一个文件的存储关系,并基于所述键值信息将所述元数据存储在所述主节点中。
可选的,所述按照所述待处理数据的属性字段对所述待处理数据进行第二分类,并基于所述键值信息将进行第二分类后的所述待处理数据存储在所述数据节点中,包括:
获取所述待处理数据的属性字段的值,并基于所述待处理数据的属性字段的值对所述待处理数据进行第二分类;
基于所述键值信息采用列存储方式,并按照每一第二分类的待处理数据存储在数据节点的一个数据块的存储关系,将进行第二分类后的所述待处理数据存储在所述数据节点中。
可选的,所述按照所述第一存储方式和所述第二存储方式,并基于所述键值信息对所述待处理数据执行预定处理,包括:
解析对所述待处理数据的执行请求,获取目标Hive表的标识、目标分区标识和待处理数据的字段信息;
基于所述目标Hive表的标识、所述目标分区标识和所述键值信息,获取所述待处理数据的目标元数据;
基于所述待处理数据的字段信息、所述目标元数据和所述键值信息,确定所述待处理数据对应的数据块;
获取所述数据块中的待处理数据,并对所述待处理数据进行预定处理。
一种数据处理设备,所述设备包括:处理器、存储器和通信总线;
所述通信总线用于实现处理器和存储器之间的通信连接;
所述处理器用于执行存储器中存储的数据处理程序,以实现以下步骤:
设置Hive表的分区,并设置Hive对应的HDFS的主节点中存储待处理数据的元数据的存储方式为第一存储方式;其中,所述第一存储方式包括按照所述待处理数据的属性存储的方式;
设置所述HDFS的数据节点中存储所述待处理数据的存储方式为第二存储方式;其中,所述第二存储方式包括按照所述待处理数据的属性字段存储的方式;
建立所述Hive、所述主节点和所述数据节点之间的映射关系,并基于所述映射关系设置键值信息;其中,所述键值信息存储在所述主节点中;
按照所述第一存储方式和所述第二存储方式,并基于所述键值信息对所述待处理数据执行预定处理。
可选的,所述数据节点的每个数据块中存储有同一属性字段对应的同一类别的待处理数据;
所述主节点的每个文件中存储有同一属性对应的同一类别的待处理处理的元数据。
一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述所述的数据处理方法的步骤。
本发明的实施例所提供的数据处理方法、设备及计算机可读存储介质,设置Hive表的分区,并设置Hive对应的分布式文件系统HDFS的主节点中存储待处理数据的元数据的存储方式为第一存储方式,第一存储方式包括按照待处理数据的属性存储的方式,设置HDFS的数据节点中存储待处理数据的存储方式为第二存储方式,第二存储方式包括按照待处理数据的属性字段存储的方式,建立Hive、主节点和数据节点之间的映射关系,并基于该映射关系设置键值信息,键值信息存储在主节点中,最后按照第一存储方式和第二存储方式,并基于键值信息对待处理数据执行预定处理,如此,按照待处理数据的属性存储的方式,将元数据存储在HDFS的主节点中,并按照待处理数据的属性字段存储的方式,将待处理数据存储在HDFS的数据节点,之后按照建立的Hive、主节点和数据节点之间的映射关系对应的键值信息对待处理数据进行处理,而不是如相对技术中那样在HDFS的主节点和数据节点中存储数据,从而解决了相对技术中的数据处理方法存在的处理的数据集较大且系统性能不高的问题,降低了系统的I/O开销。
附图说明
图1为本发明实施例提供的一种数据处理方法的流程示意图;
图2为本发明实施例提供的另一种数据处理方法的流程示意图;
图3为本发明实施例提供的一种Hive、主节点和数据节点的整体架构示意图;
图4为本发明实施例提供的一种Hive中的表与主节点中的文件之间的对应关系图;
图5为本发明实施例提供的一种数据节点的结构示意图;
图6为本发明实施例提供的一种Hive中的表、主节点中的文件和数据节点中的数据块之间的对应关系图;
图7为本发明实施例提供的又一种数据处理方法的流程示意图;
图8为本发明的实施例提供的一种数据处理设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的实施例提供一种数据处理方法,参照图1所示,该方法包括以下步骤:
步骤101、设置Hive表的分区,并设置Hive对应的分布式文件系统HDFS的主节点中存储待处理数据的元数据的存储方式为第一存储方式。
其中,第一存储方式包括按照待处理数据的属性存储的方式。
需要说明的是,步骤设置Hive表的分区,并设置Hive对应的分布式文件系统HDFS的主节点中存储待处理数据的元数据的存储方式为第一存储方式可以由数据处理设备来实现;待处理数据可以是面向Hive的数据。
步骤102、设置HDFS的数据节点中存储待处理数据的存储方式为第二存储方式。
其中,第二存储方式包括按照待处理数据的属性字段存储的方式。
需要说明的是,步骤102设置HDFS的数据节点中存储待处理数据的存储方式为第二存储方式可以由数据处理设备来实现。
步骤103、建立Hive、主节点和数据节点之间的映射关系,并基于映射关系设置键值信息。
其中,键值信息存储在主节点中。
在本发明实施例中,步骤103建立Hive、主节点和数据节点之间的映射关系,并基于映射关系设置键值信息可以由数据处理设备来实现;待处理数据是按Hive表进行存储的,并且存储在Hive表中的待处理数据是按照Hive表本身的分区机制来划分所要存储的数据。而且,本发明实施例中可以将Hive表的每个分区所包含的文件合并成一个大文件;此时,建立的映射关系是主节点中的文件与数据节点中的数据块之间的映射关系。
步骤104、按照第一存储方式和第二存储方式,并基于键值信息对待处理数据执行预定处理。
其中,步骤104按照第一存储方式和第二存储方式,并基于键值信息对待处理数据执行预定处理可以由数据处理设备来实现;设置按照第一存储方式存储待处理数据的元数据在HDFS的主节点中,并按照第二存储方式存储待处理数据在HDFS的数据节点中后,可以通过Hive表、HDFS的数据节点、HDFS的主节点,并按照预设设置的Hive表、HDFS的数据节点和HDFS的主节点对应的键值信息,对待处理数据进行存储、读取或修改等操作。
本发明的实施例所提供的数据处理方法,按照待处理数据的属性存储的方式,将元数据存储在HDFS的主节点中,并按照待处理数据的属性字段存储的方式,将待处理数据存储在HDFS的数据节点,之后按照建立的Hive、主节点和数据节点之间的映射关系对应的键值信息对待处理数据进行处理,而不是如相对技术中那样在HDFS的主节点和数据节点中存储数据,从而解决了相对技术中的数据处理方法存在的处理的数据集较大且系统性能不高的问题,降低了系统的I/O开销。
基于前述实施例,本发明的实施例提供一种数据处理方法,参照图2所示,该方法包括以下步骤:
步骤201、数据处理设备设置Hive表的分区,并设置Hive对应的分布式文件系统HDFS的主节点中存储待处理数据的元数据的存储方式为第一存储方式。
其中,第一存储方式包括按照待处理数据的属性存储的方式。
需要说明的是,HDFS的主节点的每个文件中存储有同一属性对应的同一类别的待处理数据的元数据。将Hive表按分区映射到对应的文件上,每个文件就包含了Hive表在该分区的所有数据。
步骤202、数据处理设备设置HDFS的数据节点中存储待处理数据的存储方式为第二存储方式。
其中,第二存储方式包括按照待处理数据的属性字段存储的方式。
数据节点的每个数据块中存储有同一属性字段对应的同一类别的待处理数据。
在本发明的实施例中,Hive表、HDFS的数据节点和HDFS的主节点中存储相应的信息,且建立Hive表、HDFS的数据节点和HDFS的主节点之间的映射关系后,Hive表、HDFS的数据节点和HDFS的主节点整体的结构为图3中所示的架构。且,如图3中所示,Hive表中存储的是各个表,HDFS的主节点中存储的是对待处理数据分类后的元数据得到的各个文件夹,HDFS的数据节点中存储的是对待处理数据进行分类后得到的各个数据块。
如图3中所示,Hive中已有表Table1、Table2、Table3等;HDFS的主节点(NameNode)的文件元数据存储结构将Hive表的每个分区都进行合并形成一个大文件,这样每个文件就可以对应于Hive表的一个分区;表Table1对应了文件File1、File2、File3等,其中File1、File2、File3等文件则对应表Table1的每个分区;NameNode只存储文件的元数据,真实的文件数据则存储在数据节点(DataNode)集群上;每个文件对应多个数据块(Block),数据块与文件的对应关系存储在NameNode中,数据块本身则按HDFS的存储规则均匀分布于HDFS集群里。
其中,如图5所示,一个DataNode节点中可以存储多个数据块,这些数据块可以关联不同的文件,其中File1-Attr1-Block1表示该数据块存储了文件File1的Attr1属性的数据且为该属性的第一个数据块,而File1-Attr1-Block2则表示存储文件File1的Attr1属性的第二个数据块,以此类推,File2-Attr1-Block2则表示文件File2的Attr1属性的数据存储的数据块。此时,可以将数据块的标识表示为一个三元组:<File_id,Attr_id,Block_id>;其中,File_id是数据块所属文件的ID,实际上对应于一个Hive表的分区;Attr_id表示属性ID,其对应的也是Hive表的属性字段;Block_id表示存储数据块的ID。
步骤203、数据处理设备建立Hive表中的每个分区与主节点中的文件之间的第一映射关系。
其中,第一映射关系可以指的是Hive表中的每个分区与主节点中的文件之间的对应关系;在一种可行的实现方式中,可以按照如下形式呈现:<Table_Id+Partition_Info,File_Meta_Info>;其中,Table_Id标识Hive表的ID,Partition_Info表示该表的分区字段信息,File_Meta_Info表示主节点中的文件对应的相关信息。
步骤204、数据处理设备建立主节点中的文件与数据节点的数据块之间的第二映射关系。
其中,File_meta_info的结构可以如下:<File_Meta,Block_Map,Attr_list>。可以看出File_meta_info也是一个三元组:File_Meta包含了文件的元数据,例如文件名称、创建时间、拥有者、访问权限等;Attr_list是该文件的属性字段序列,其中包含了每个属性的数据量等;此时,Block_Map则表示数据节点的数据块与主节点的文件之间的映射关系,Block_Ma中包含了该文件实际存储数据的数块和这些数据块存储在哪些DataNode上的位置信息。
步骤205、数据处理设备基于第一映射关系、第二映射关系和元数据,设置键值信息。
其中,步骤205可以通过以下方式来实现:
步骤205a、数据处理设备确定Hive表中的每个分区的标识,并基于第一映射关系确定每个分区对应的属性字段的信息。
其中,Hive中的每个分区的标识可以用Table_Id表示,每个分区对应的属性字段的信息可以用Partition_Info表示。
步骤205b、数据处理设备基于第一映射关系和每个分区的标识,设置键值信息中的键。
其中,键值中的键可以指的是<Table_Id+Partition_Info,File_Meta_Info>中的Table_id+Partition_info。
步骤205c、数据处理设备确定主节点中的每个文件对应的属性字段序列。
其中,每个文件对应的属性字段序列可以用Attr_list。
步骤205d、数据处理设备基于第二映射关系和属性字段序列,设置键值信息中的值。
其中,键值中的值可以指的是<Table_Id+Partition_Info,File_Meta_Info>中的File_Meta_Info。
步骤206、数据处理设备获取待处理数据,并将待处理数据录入分区后的Hive表中。
其中,将待处理数据录入分区后的Hive表中,可以是通过将待处理数据录入Hive表的每一个分区中来实现的。
步骤207、数据处理设备按照待处理数据的属性将待处理数据进行第一分类,并基于键值信息将进行第一分类后的待处理数据对应的元数据存储在主节点中。
需要说明的是,在主节点中存储元数据时可以是将进行第一分类后的同一类别的待处理数据对应的元数据存储在主节点中的一个或者多个文件中;也就是说,HDFS的主节点的每个文件中存储有同一属性对应的同一类别的待处理数据的元数据。
其中,步骤207可以通过以下方式来实现:
步骤207a、数据处理设备获取待处理数据的属性,并基于属性对待处理数据进行第一分类。
步骤207b、数据处理设备按照每一第一分类的待处理数据的元数据存储在一个文件的存储关系,并基于键值信息将元数据存储在主节点中。
其中,在进行元数据存储时可以按照之前建立好的键值信息来确定主节点的每个文件中存储哪些待处理数据的元数据。
步骤208、数据处理设备按照待处理数据的属性字段对待处理数据进行第二分类,并基于键值信息将进行第二分类后的待处理数据存储在数据节点中。
需要说明的是,在数据节点中存储待处理数据时可以是将进行第二分类后的同一类别的待处理数据存储在数据节点中的一个或者多个数据块中;也就是说,HDFS的数据节点的每个数据块中存储有同一属性字段对应的同一类别的待处理数据。待处理数据对应的元数据写入NameNode的文件中,Hive中的分区与NameNode中的文件之间的对应关系可以如图4所示。
其中,步骤208可以通过以下方式来实现:
步骤208a、数据处理设备获取待处理数据的属性字段的值,并基于待处理数据的属性字段的值对待处理数据进行第二分类。
步骤208b、数据处理设备基于键值信息采用列存储方式,并按照每一第二分类的待处理数据存储在数据节点的一个数据块的存储关系,将进行第二分类后的待处理数据存储在数据节点中。
其中,本发明实施例中将待处理数据进行列存储;将Hive表的属性字段作为列的划分标准,将同一个属性字段的所有数据存储到一起作为一个完整的数据块进行存储。DataNode负责存储文件的实际数据,DataNode是按数据块来存储数据的。本方案设计的是列存储方式,将Hive表的数据按字段属性分区,每个属性字段的数据分别存储;在进行列存储时,某个数据块只存储一列的数据,当某个数据块达到存储上限时则申请新的数据块进行写入。待处理数据写入DataNode的数据块中,得到的DataNode结构可以如图5所示。并且,Hive中的分区、NameNode中的文件与DataNode的数据块之间整体的对应关系可以如图6所示。
以待处理数据为咪咕一致性比对系统的数据为例进行说明:A1,从数据源端下载所要存储的数据文件,咪咕一致性比对系统是从子公司、咪咕平台、内容计费平台等多个数据源处通过安全文件传输协议(Secure File Transfer Protocol,SFTP)接口下载数据,所下载的数据在逻辑上都应该录入同一张Hive表;B1,按照分区字段对分区文件的内容进行划分,将相同分区的文件内容划分到一起;C1,获取分区文件元数据的信息,包括分区字段信息、对应的Hive表信息、分区文件名称、文件字段信息等;D1,将数据根据分区写入不同的HDFS文件,我们根据Hive表的属性将不同属性的数据写入不同的数据块,从而实现数据列存储,数据块则依赖于HDFS自身的机制分布存储于集群中;E1,在NameNode中回填相应的元数据信息,将分区文件与Hive表的映射关系以及分区文件与数据块之间的映射关系存储于NameNode内存中。F1,数据存储完成。
需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
本发明的实施例所提供的数据处理方法,按照待处理数据的属性存储的方式,将元数据存储在HDFS的主节点中,并按照待处理数据的属性字段存储的方式,将待处理数据存储在HDFS的数据节点,之后按照建立的Hive、主节点和数据节点之间的映射关系对应的键值信息对待处理数据进行处理,而不是如相对技术中那样在HDFS的主节点和数据节点中存储数据,从而解决了相对技术中的数据处理方法存在的处理的数据集较大且系统性能不高的问题,降低了系统的I/O开销。
基于前述实施例,本发明的实施例提供一种数据处理方法,参照图7所示,该方法包括以下步骤:
步骤301、数据处理设备设置Hive表的分区,并设置Hive对应的分布式文件系统HDFS的主节点中存储待处理数据的元数据的存储方式为第一存储方式。
其中,第一存储方式包括按照待处理数据的属性存储的方式。
主节点的每个文件中存储有同一属性对应的同一类别的待处理数据的元数据。
步骤302、数据处理设备设置HDFS的数据节点中存储待处理数据的存储方式为第二存储方式。
其中,第二存储方式包括按照待处理数据的属性字段存储的方式。
数据节点的每个数据块中存储有同一属性字段对应的同一类别的待处理数据。
步骤303、数据处理设备建立Hive表中的每个分区与主节点中的文件之间的第一映射关系。
步骤304、数据处理设备建立主节点中的文件与数据节点的数据块之间的第二映射关系。
步骤305、数据处理设备基于第一映射关系、第二映射关系和元数据,设置键值信息。
其中,步骤305可以通过以下方式来实现:
步骤305a、数据处理设备确定Hive表中的每个分区的标识,并基于第一映射关系确定每个分区对应的属性字段的信息。
步骤305b、数据处理设备基于第一映射关系和每个分区的标识,设置键值信息中的键。
步骤305c、数据处理设备确定主节点中的每个文件对应的属性字段序列。
步骤305d、数据处理设备基于第二映射关系和属性字段序列,设置键值信息中的值。
步骤306、数据处理设备解析对待处理数据的执行请求,获取目标Hive表的标识、目标分区标识和待处理数据的字段信息。
其中,执行请求可以是对待处理数据进行读取或修改等操作的请求。目标Hive表的标识和目标分区标识可以指的是需要进行读取或修改操作的Hive表的标识和Hive表的分区标识。
步骤307、数据处理设备基于目标Hive表的标识、目标分区标识和键值信息,获取待处理数据的目标元数据。
其中,在得到需要进行读取或修改操作的Hive表的标识和Hive表的分区标识后,可以按照之前建立的键值信息确定需要进行读取或修改操作的元数据。
步骤308、数据处理设备基于待处理数据的字段信息、目标元数据和键值信息,确定待处理数据对应的数据块。
其中,在得到需要进行读取或修改操作的待处理数据的字段信息和对应的元数据后,可以按照之前建立的键值信息确定需要进行读取或修改操作的数据对应的数据块。
步骤309、数据处理设备获取数据块中的待处理数据,并对待处理数据进行预定处理。
其中,对待处理数据进行预订处理可以指的是对待处理数据进行读取或修改操作。
本发明中将Hive表的分区里的小文件合并为一个大文件,可以有效地解决Hadoop小文件问题;按照分区来进行合并则兼顾了Hive的分区机制,保证了Hive分区机制对数据过滤的作用;最后属性进行列存储则有效的优化了Hadoop的读写效率、提升了系统性能。
需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
本发明的实施例所提供的数据处理方法,按照待处理数据的属性存储的方式,将元数据存储在HDFS的主节点中,并按照待处理数据的属性字段存储的方式,将待处理数据存储在HDFS的数据节点,之后按照建立的Hive、主节点和数据节点之间的映射关系对应的键值信息对待处理数据进行处理,而不是如相对技术中那样在HDFS的主节点和数据节点中存储数据,从而解决了相对技术中的数据处理方法存在的处理的数据集较大且系统性能不高的问题,降低了系统的I/O开销。
基于前述实施例,本发明的实施例提供一种数据处理设备,该数据处理设备可以应用于图1~2和7对应的实施例提供的数据处理方法中,参照图8所示,该设备4包括:处理器41、存储器42和通信总线43;
通信总线43用于实现处理器41和存储器42之间的通信连接;
处理器41用于执行存储器42中存储的数据处理程序,以实现以下步骤:
设置Hive表的分区,并设置Hive对应的HDFS的主节点中存储待处理数据的元数据的存储方式为第一存储方式;
其中,第一存储方式包括按照待处理数据的属性存储的方式;
设置HDFS的数据节点中存储待处理数据的存储方式为第二存储方式;
其中,第二存储方式包括按照待处理数据的属性字段存储的方式;
建立Hive、主节点和数据节点之间的映射关系,并基于映射关系设置键值信息;
其中,键值信息存储在主节点中;
按照第一存储方式和第二存储方式,并基于键值信息对待处理数据执行预定处理。
在本发明的其它实施例中,数据节点的每个数据块中存储有同一属性字段对应的同一类别的待处理数据;
主节点的每个文件中存储有同一属性对应的同一类别的待处理数据的元数据。
在本发明的其它实施例中,处理器41用于执行存储器42中存储的数据处理程序,以实现以下步骤:
建立Hive表中的每个分区与主节点中的文件之间的第一映射关系;
建立主节点中的文件与数据节点的数据块之间的第二映射关系;
基于第一映射关系、第二映射关系和元数据,设置键值信息。
在本发明的其它实施例中,处理器41用于执行存储器42中存储的数据处理程序,以实现以下步骤:
确定Hive表中的每个分区的标识,并基于第一映射关系确定每个分区对应的属性字段的信息;
基于第一映射关系和每个分区的标识,设置键值信息中的键;
确定主节点中的每个文件对应的属性字段序列;
基于第二映射关系和属性字段序列,设置键值信息中的值。
在本发明的其它实施例中,处理器41用于执行存储器42中存储的数据处理程序,以实现以下步骤:
获取待处理数据,并将待处理数据录入分区后的所述Hive表中;
按照待处理数据的属性将待处理数据进行第一分类,并基于键值信息将进行第一分类后的待处理数据对应的元数据存储在主节点中;
按照待处理数据的属性字段对待处理数据进行第二分类,并基于键值信息将进行第二分类后的待处理数据存储在数据节点中。
在本发明的其它实施例中,处理器41用于执行存储器42中存储的数据处理程序,以实现以下步骤:
获取待处理数据的属性,并基于属性对待处理数据进行第一分类;
按照每一第一分类的待处理数据的元数据存储在一个文件的存储关系,并基于键值信息将元数据存储在主节点中。
在本发明的其它实施例中,处理器41用于执行存储器42中存储的数据处理程序,以实现以下步骤:
获取待处理数据的属性字段的值,并基于待处理数据的属性字段的值对待处理数据进行第二分类;
基于键值信息采用列存储方式,并按照每一第二分类的待处理数据存储在数据节点的一个数据块的存储关系,将进行第二分类后的待处理数据存储在数据节点中。
在本发明的其它实施例中,处理器41用于执行存储器42中存储的数据处理程序,以实现以下步骤:
解析对待处理数据的执行请求,获取目标Hive表的标识、目标分区标识和待处理数据的字段信息;
基于目标Hive表的标识、目标分区标识和键值信息,获取待处理数据的目标元数据;
基于待处理数据的字段信息、目标元数据和键值信息,确定待处理数据对应的数据块;
获取数据块中的待处理数据,并对待处理数据进行预定处理。
本发明的实施例所提供的数据处理设备,按照待处理数据的属性存储的方式,将元数据存储在HDFS的主节点中,并按照待处理数据的属性字段存储的方式,将待处理数据存储在HDFS的数据节点,之后按照建立的Hive、主节点和数据节点之间的映射关系对应的键值信息对待处理数据进行处理,而不是如相对技术中那样在HDFS的主节点和数据节点中存储数据,从而解决了相对技术中的数据处理方法存在的处理的数据集较大且系统性能不高的问题,降低了系统的I/O开销。
基于前述实施例,本发明的实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现如下步骤:
设置Hive表的分区,并设置Hive对应的HDFS的主节点中存储待处理数据的元数据的存储方式为第一存储方式;
其中,第一存储方式包括按照待处理数据的属性存储的方式;
设置HDFS的数据节点中存储待处理数据的存储方式为第二存储方式;
其中,第二存储方式包括按照待处理数据的属性字段存储的方式;
建立Hive、主节点和数据节点之间的映射关系,并基于映射关系设置键值信息;
其中,键值信息存储在主节点中;
按照第一存储方式和第二存储方式,并基于键值信息对待处理数据执行预定处理。
在本发明的其它实施例中,数据节点的每个数据块中存储有同一属性字段对应的同一类别的待处理数据;
主节点的每个文件中存储有同一属性对应的同一类别的待处理数据的元数据。
在本发明的其它实施例中,该一个或者多个程序可被一个或者多个处理器执行,以实现如下步骤:
建立Hive表中的每个分区与主节点中的文件之间的第一映射关系;
建立主节点中的文件与数据节点的数据块之间的第二映射关系;
基于第一映射关系、第二映射关系和元数据,设置键值信息。
在本发明的其它实施例中,该一个或者多个程序可被一个或者多个处理器执行,以实现如下步骤:
确定Hive表中的每个分区的标识,并基于第一映射关系确定每个分区对应的属性字段的信息;
基于第一映射关系和每个分区的标识,设置键值信息中的键;
确定主节点中的每个文件对应的属性字段序列;
基于第二映射关系和属性字段序列,设置键值信息中的值。
在本发明的其它实施例中,该一个或者多个程序可被一个或者多个处理器执行,以实现如下步骤:
获取待处理数据,并将待处理数据录入分区后的Hive表中;
按照待处理数据的属性将待处理数据进行第一分类,并基于键值信息将进行第一分类后的待处理数据对应的元数据存储在主节点中;
按照待处理数据的属性字段对待处理数据进行第二分类,并基于键值信息将进行第二分类后的待处理数据存储在数据节点中。
在本发明的其它实施例中,该一个或者多个程序可被一个或者多个处理器执行,以实现如下步骤:
获取待处理数据的属性,并基于属性对待处理数据进行第一分类;
按照每一第一分类的待处理数据的元数据存储在一个文件的存储关系,并基于键值信息将元数据存储在主节点中。
在本发明的其它实施例中,该一个或者多个程序可被一个或者多个处理器执行,以实现如下步骤:
获取待处理数据的属性字段的值,并基于待处理数据的属性字段的值对待处理数据进行第二分类;
基于键值信息采用列存储方式,并按照每一第二分类的待处理数据存储在数据节点的一个数据块的存储关系,将进行第二分类后的待处理数据存储在数据节点中。
在本发明的其它实施例中,该一个或者多个程序可被一个或者多个处理器执行,以实现如下步骤:
解析对待处理数据的执行请求,获取目标Hive表的标识、目标分区标识和待处理数据的字段信息;
基于目标Hive表的标识、目标分区标识和键值信息,获取待处理数据的目标元数据;
基于待处理数据的字段信息、目标元数据和键值信息,确定待处理数据对应的数据块;
获取数据块中的待处理数据,并对待处理数据进行预定处理。
需要说明的是,上述计算机可读存储介质可以是只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器;也可以是包括上述存储器之一或任意组合的各种电子设备,如移动电话、计算机、平板设备、个人数字助理等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所描述的方法。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (11)

1.一种数据处理方法,其特征在于,所示方法包括:
设置Hive表的分区,并设置Hive对应的分布式文件系统HDFS的主节点中存储待处理数据的元数据的存储方式为第一存储方式;其中,所述第一存储方式包括按照所述待处理数据的属性存储的方式;
设置所述HDFS的数据节点中存储所述待处理数据的存储方式为第二存储方式;其中,所述第二存储方式包括按照所述待处理数据的属性字段存储的方式;
建立所述Hive、所述主节点和所述数据节点之间的映射关系,并基于所述映射关系设置键值信息;其中,所述键值信息存储在所述主节点中;
按照所述第一存储方式和所述第二存储方式,并基于所述键值信息对所述待处理数据执行预定处理。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述数据节点的每个数据块中存储有同一属性字段对应的同一类别的待处理数据;
所述主节点的每个文件中存储有同一属性对应的同一类别的待处理数据的元数据。
3.根据权利要求1或2所述的方法,其特征在于,所述建立所述Hive、所述主节点和所述数据节点之间的映射关系,并基于所述映射关系设置键值信息,包括:
建立所述Hive表中的每个分区与所述主节点中的文件之间的第一映射关系;
建立所述主节点中的文件与所述数据节点的数据块之间的第二映射关系;
基于所述第一映射关系、所述第二映射关系和所述元数据,设置所述键值信息。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一映射关系、所述第二映射关系和所述元数据,设置所述键值信息,包括:
确定所述Hive表中的每个分区的标识,并基于所述第一映射关系确定每个分区对应的所述属性字段的信息;
基于所述第一映射关系和每个所述分区的标识,设置所述键值信息中的键;
确定所述主节点中的每个文件对应的属性字段序列;
基于所述第二映射关系和所述属性字段序列,设置所述键值信息中的值。
5.根据权利要求1所述的方法,其特征在于,所述按照所述第一存储方式和所述第二存储方式,并基于所述键值信息对所述待处理数据执行预定处理,包括:
获取所述待处理数据,并将所述待处理数据录入分区后的所述Hive表中;
按照所述待处理数据的属性将所述待处理数据进行第一分类,并基于所述键值信息将进行第一分类后的所述待处理数据对应的元数据存储在所述主节点中;
按照所述待处理数据的属性字段对所述待处理数据进行第二分类,并基于所述键值信息将进行第二分类后的所述待处理数据存储在所述数据节点中。
6.根据权利要求5所述的方法,其特征在于,所述按照所述待处理数据的属性将所述待处理数据进行第一分类,并基于所述键值信息将进行第一分类后的所述待处理数据对应的元数据存储在所述主节点中,包括:
获取所述待处理数据的属性,并基于所述属性对所述待处理数据进行第一分类;
按照每一第一分类的待处理数据的元数据存储在一个文件的存储关系,并基于所述键值信息将所述元数据存储在所述主节点中。
7.根据权利要求5所述的方法,其特征在于,所述按照所述待处理数据的属性字段对所述待处理数据进行第二分类,并基于所述键值信息将进行第二分类后的所述待处理数据存储在所述数据节点中,包括:
获取所述待处理数据的属性字段的值,并基于所述待处理数据的属性字段的值对所述待处理数据进行第二分类;
基于所述键值信息采用列存储方式,并按照每一第二分类的待处理数据存储在数据节点的一个数据块的存储关系,将进行第二分类后的所述待处理数据存储在所述数据节点中。
8.根据权利要求1所述的方法,其特征在于,所述按照所述第一存储方式和所述第二存储方式,并基于所述键值信息对所述待处理数据执行预定处理,包括:
解析对所述待处理数据的执行请求,获取目标Hive表的标识、目标分区标识和待处理数据的字段信息;
基于所述目标Hive表的标识、所述目标分区标识和所述键值信息,获取所述待处理数据的目标元数据;
基于所述待处理数据的字段信息、所述目标元数据和所述键值信息,确定所述待处理数据对应的数据块;
获取所述数据块中的待处理数据,并对所述待处理数据进行预定处理。
9.一种数据处理设备,其特征在于,所述设备包括:处理器、存储器和通信总线;
所述通信总线用于实现处理器和存储器之间的通信连接;
所述处理器用于执行存储器中存储的数据处理程序,以实现以下步骤:
设置Hive表的分区,并设置Hive对应的HDFS的主节点中存储待处理数据的元数据的存储方式为第一存储方式;其中,所述第一存储方式包括按照所述待处理数据的属性存储的方式;
设置所述HDFS的数据节点中存储所述待处理数据的存储方式为第二存储方式;其中,所述第二存储方式包括按照所述待处理数据的属性字段存储的方式;
建立所述Hive、所述主节点和所述数据节点之间的映射关系,并基于所述映射关系设置键值信息;其中,所述键值信息存储在所述主节点中;
按照所述第一存储方式和所述第二存储方式,并基于所述键值信息对所述待处理数据执行预定处理。
10.根据权利要求9所述的设备,其特征在于,
所述数据节点的每个数据块中存储有同一属性字段对应的同一类别的待处理数据;
所述主节点的每个文件中存储有同一属性对应的同一类别的待处理处理的元数据。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至8中任一项所述的数据处理方法的步骤。
CN201811646447.0A 2018-12-29 2018-12-29 一种数据处理方法、设备及计算机可读存储介质 Active CN109739828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811646447.0A CN109739828B (zh) 2018-12-29 2018-12-29 一种数据处理方法、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811646447.0A CN109739828B (zh) 2018-12-29 2018-12-29 一种数据处理方法、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109739828A true CN109739828A (zh) 2019-05-10
CN109739828B CN109739828B (zh) 2021-06-29

Family

ID=66362736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811646447.0A Active CN109739828B (zh) 2018-12-29 2018-12-29 一种数据处理方法、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109739828B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222017A (zh) * 2019-05-13 2019-09-10 北京百度网讯科技有限公司 实时数据的处理方法、装置、设备及计算机可读存储介质
CN110505278A (zh) * 2019-07-19 2019-11-26 联想(北京)有限公司 一种数据流处理方法、服务器及计算机存储介质
CN111538789A (zh) * 2020-04-27 2020-08-14 咪咕文化科技有限公司 数据同步方法、装置、电子设备及存储介质
CN113010616A (zh) * 2021-04-26 2021-06-22 广州小鹏汽车科技有限公司 数据处理方法和数据处理系统
CN113111038A (zh) * 2021-03-31 2021-07-13 北京达佳互联信息技术有限公司 文件存储方法、装置、服务器及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105681397A (zh) * 2015-12-30 2016-06-15 曙光信息产业(北京)有限公司 一种网络流量数据存储方法及系统、查询方法及装置
CN106528717A (zh) * 2016-10-26 2017-03-22 中国电子产品可靠性与环境试验研究所 数据处理方法和系统
CN106709010A (zh) * 2016-12-26 2017-05-24 上海斐讯数据通信技术有限公司 一种基于海量小文件高效上传hdfs的方法及系统
CN107204998A (zh) * 2016-03-16 2017-09-26 华为技术有限公司 处理数据的方法和装置
CN107784026A (zh) * 2016-08-31 2018-03-09 杭州海康威视数字技术股份有限公司 一种etl数据处理方法及装置
CN107844258A (zh) * 2016-09-18 2018-03-27 中国移动通信集团公司 数据处理方法、客户端、节点服务器及分布式文件系统
WO2018059441A1 (zh) * 2016-09-30 2018-04-05 华为技术有限公司 数据处理方法和系统及装置
CN107943668A (zh) * 2017-12-15 2018-04-20 江苏神威云数据科技有限公司 计算机服务器集群日志监控方法及监控平台
CN108804711A (zh) * 2018-06-27 2018-11-13 郑州云海信息技术有限公司 一种数据处理的方法、装置和计算机可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105681397A (zh) * 2015-12-30 2016-06-15 曙光信息产业(北京)有限公司 一种网络流量数据存储方法及系统、查询方法及装置
CN107204998A (zh) * 2016-03-16 2017-09-26 华为技术有限公司 处理数据的方法和装置
CN107784026A (zh) * 2016-08-31 2018-03-09 杭州海康威视数字技术股份有限公司 一种etl数据处理方法及装置
CN107844258A (zh) * 2016-09-18 2018-03-27 中国移动通信集团公司 数据处理方法、客户端、节点服务器及分布式文件系统
WO2018059441A1 (zh) * 2016-09-30 2018-04-05 华为技术有限公司 数据处理方法和系统及装置
CN106528717A (zh) * 2016-10-26 2017-03-22 中国电子产品可靠性与环境试验研究所 数据处理方法和系统
CN106709010A (zh) * 2016-12-26 2017-05-24 上海斐讯数据通信技术有限公司 一种基于海量小文件高效上传hdfs的方法及系统
CN107943668A (zh) * 2017-12-15 2018-04-20 江苏神威云数据科技有限公司 计算机服务器集群日志监控方法及监控平台
CN108804711A (zh) * 2018-06-27 2018-11-13 郑州云海信息技术有限公司 一种数据处理的方法、装置和计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张鹏远: "大数据分类存储及检索方法研究", 《中国优秀硕士学位论文全文数据库硕士 信息科技辑》 *
王建辉: "基于Hive的日志分析系统的实现与优化", 《中国优秀硕士学位论文全文数据库硕士 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222017A (zh) * 2019-05-13 2019-09-10 北京百度网讯科技有限公司 实时数据的处理方法、装置、设备及计算机可读存储介质
CN110222017B (zh) * 2019-05-13 2021-09-21 北京百度网讯科技有限公司 实时数据的处理方法、装置、设备及计算机可读存储介质
CN110505278A (zh) * 2019-07-19 2019-11-26 联想(北京)有限公司 一种数据流处理方法、服务器及计算机存储介质
CN111538789A (zh) * 2020-04-27 2020-08-14 咪咕文化科技有限公司 数据同步方法、装置、电子设备及存储介质
CN111538789B (zh) * 2020-04-27 2023-08-15 咪咕文化科技有限公司 数据同步方法、装置、电子设备及存储介质
CN113111038A (zh) * 2021-03-31 2021-07-13 北京达佳互联信息技术有限公司 文件存储方法、装置、服务器及存储介质
CN113111038B (zh) * 2021-03-31 2024-01-19 北京达佳互联信息技术有限公司 文件存储方法、装置、服务器及存储介质
CN113010616A (zh) * 2021-04-26 2021-06-22 广州小鹏汽车科技有限公司 数据处理方法和数据处理系统

Also Published As

Publication number Publication date
CN109739828B (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN109739828A (zh) 一种数据处理方法、设备及计算机可读存储介质
US11169978B2 (en) Distributed pipeline optimization for data preparation
US9223817B2 (en) Virtual repository management
US10860603B2 (en) Visualization customization
US10860602B2 (en) Autolayout of visualizations based on contract maps
US10698916B1 (en) Data preparation context navigation
US20200210399A1 (en) Signature-based cache optimization for data preparation
CN106970958B (zh) 一种流文件的查询与存储方法和装置
US20200065313A1 (en) Extensible content object metadata
US20090083336A1 (en) Search based data management
JPH03191467A (ja) 文書属性の識別方法
CN113297320A (zh) 分布式数据库系统及数据处理方法
CN1848849A (zh) 复制目录修改的方法和装置
CN109902114A (zh) Es集群数据复用方法、系统、计算机装置及存储介质
CN106855861A (zh) 一种文件合并方法、装置及电子设备
CN103795811A (zh) 一种基于元数据保存存储信息及统计管理数据的方法
US20170109389A1 (en) Step editor for data preparation
EP3362808B1 (en) Cache optimization for data preparation
CN116414801A (zh) 数据迁移方法、装置、计算机设备和存储介质
CN103914487A (zh) 文档的采集、标识及关联的系统
CN110109866A (zh) 一种文件系统目录的管理方法及设备
CN114860727A (zh) 拉链表更新方法及装置
CN113553458A (zh) 图数据库中的数据导出方法及装置
CN110019306A (zh) 一种基于xml格式文件的sql语句查找方法及系统
CN111913926A (zh) 一种基于Hadoop的云平台存储方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant