CN101957863A - 数据并行处理方法、装置及系统 - Google Patents

数据并行处理方法、装置及系统 Download PDF

Info

Publication number
CN101957863A
CN101957863A CN 201010512591 CN201010512591A CN101957863A CN 101957863 A CN101957863 A CN 101957863A CN 201010512591 CN201010512591 CN 201010512591 CN 201010512591 A CN201010512591 A CN 201010512591A CN 101957863 A CN101957863 A CN 101957863A
Authority
CN
China
Prior art keywords
data
processing
partition
request
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010512591
Other languages
English (en)
Other versions
CN101957863B (zh
Inventor
温文全
喻先兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
SNRISE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SNRISE Corp filed Critical SNRISE Corp
Priority to CN2010105125912A priority Critical patent/CN101957863B/zh
Publication of CN101957863A publication Critical patent/CN101957863A/zh
Application granted granted Critical
Publication of CN101957863B publication Critical patent/CN101957863B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及数据并行处理方法、装置及系统,所述方法包括:实时检测数据采集服务器中需要处理的数据;对检测到的数据进行分区和/或聚合处理,使其形成大小为预定值的数据分区;建立与各数据分区对应的描述信息,并将所述描述信息依次存入数据分区队列中;收到Hadoop系统中处理节点的Map任务的请求后,从所述数据分区队列中读取一个描述信息,并根据所述描述信息获取对应的数据分区中的数据;将获取的数据传送到Map任务的输入源。利用本发明,可以将数据从采集服务器上直接传送到MapReduce节点上进行处理,从而节省了存储空间,简化了处理流程,提高了数据处理效率及数据处理的可靠性。

Description

数据并行处理方法、装置及系统
技术领域
本发明涉及数据处理技术,具体涉及一种数据并行处理方法、装置及系统。
背景技术
Hadoop是基于shared-nothing架构的海量数据存储和计算的分布式系统,它由若干个成员组成,主要包括:HDFS(Hadoop Distributed File System,分布式文件系统)、MapReduce(并行计算框架),HBase(Google BigTable的开源实现)等。其中,MapReduce作为一套开放式的并行计算框架能够与目前流行的各种分布式产品结合实现灵活的并行计算和分布式计算功能,可以将HDFS、HBase、Cassandra(一个混合型的非关系的数据库)等平台的数据作为MapReduce的输入源进行并行加工处理,并将处理后的数据输出到HDFS、HBase、Cassandra等输出源中。
MapReduce的计算过程简而言之,就是将大数据集分解为成百上千的小数据集,每个或若干个数据集分别由集群中的一个节点(通常是一台普通的计算机)进行处理并生成中间结果,然后这些中间结果又由大量的节点进行合并,形成最终结果。
MapReduce计算模型的原理是:利用一个输入key/value对来产生一个或一批输出的key/value对,其核心是利用两个函数即Map和Reduce来表达这个计算,而函数Map和Reduce由用户来实现。
在MapReduce框架中,每一次计算请求被称为作业。在分布式计算MapReduce框架中,分两步完成这个作业。首先是将该作业拆分成若干个Map任务,分配到不同的机器上去执行,每一个Map任务将输入文件的一部分作为自己的输入,经过一些计算,生成某种格式的中间文件,其格式与最终所需的文件格式完全一致,但是仅仅包含一部分数据。等到所有Map任务完成后,进入下一个步骤,用以合并这些中间文件获得最后的输出文件。此时,系统会生成若干个Reduce任务,同样也是分配到不同的机器去执行,它的目标就是将若干个Map任务生成的中间文件为汇总到最后的输出文件中去。经过如上步骤,作业完成,所需的目标文件生成。整个算法的关键,就在于增加了一个中间文件生成的流程,大大提高了灵活性,使其分布式扩展性得到了保证。
目前,要实现数据的分布式加工处理,由于采集系统采集文件存储在本地,无法直接通过并行计算框架MapReduce进行处理,需要先将文件从采集服务器拷贝到HDFS上,然后再通过MapReduce进行数据加工处理。这种处理方式至少存在以下缺点:
1.需要将文件从本地文件系统拷贝到分布式文件系统中;
2.需要在分布式文件系统和本地文件系统中保留两份相同的数据,增加了不必要的存储空间;
3.对于数据一致性要求高的系统,需要确定拷贝过程中没有丢失数据和重复数据,增加了数据一致性检查的难度;
4.由于处理大量小文件的时候,需要为每个小文件启动一个任务来进行处理,增加了任务多次启动和停止的额外开销,处理效率非常低。
发明内容
本发明实施例针对上述现有技术存在的缺点,提供一种数据并行处理方法、装置及系统,以简化处理流程,节省存储空间,并提高数据处理效率及数据处理的可靠性。
为此,本发明实施例提供如下技术方案:
一种数据并行处理方法,包括:
实时检测数据采集服务器中需要处理的数据;
对检测到的数据进行分区和/或聚合处理,使其形成大小为预定值的数据分区;
建立与各数据分区对应的描述信息,并将所述描述信息依次存入数据分区队列中;
收到Hadoop系统中处理节点的Map任务的请求后,从所述数据分区队列中读取一个描述信息,并根据所述描述信息获取对应的数据分区中的数据;
将获取的数据传送到Map任务的输入源。
一种数据并行处理装置,包括:
检测单元,用于实时检测数据采集服务器中需要处理的数据;
数据分区生成单元,用于对所述检测单元检测到的数据进行分区和/或聚合处理,使其形成大小为预定值的数据分区;
描述信息建立单元,用于建立与各数据分区对应的描述信息,并将所述描述信息依次存入数据分区队列中;
请求接收单元,用于接收Hadoop系统中处理节点的Map任务的请求;
数据流处理器,用于在所述请求接收单元收到Hadoop系统中处理节点的Map任务的请求后,从所述数据分区队列中读取一个描述信息,并根据所述描述信息获取对应的数据分区中的数据;
数据传送单元,用于将所述数据流处理器获取的数据传送到Map任务的输入源。
一种数据并行处理系统,包括:数据采集服务器、并行加载平台和Hadoop系统,所述Hadoop系统包括处理节点和管理节点,其中:
所述数据采集服务器,用于采集需要处理的数据;
所述并行加载平台,用于实时检测数据采集服务器中需要处理的数据;对检测到的数据进行分区和/或聚合处理,使其形成大小为预定值的数据分区;建立与各数据分区对应的描述信息,并将所述描述信息依次存入数据分区队列中;收到Hadoop系统中处理节点的Map任务的请求后,从所述数据分区队列中读取一个描述信息,并根据所述描述信息获取对应的数据分区中的数据;将获取的数据传送到Map任务的输入源。
所述Hadoop系统,用于并行处理各处理节点的Map任务的输入源收到的数据,并将处理后的数据输出。
本发明实施例数据并行处理方法、装置及系统,应用于Hadoop系统的并行计算框架MapReduce,将数据从采集服务器上直接传送到MapReduce节点上进行处理,无需将文件从采集服务器拷贝到HDFS上,从而节省了存储空间,简化了处理流程,提高了数据处理效率及数据处理的可靠性。
进一步地,可以将MapReduce的输入扩展到应用程序的输出上,在不需将应用程序的输出首先输出到文件系统的情况下,就可以并行处理应用程序的输出;并且可以将MapReduce的输出扩展到应用程序的输入上,使MapReduce任务直接将处理后的数据输出到应用程序。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是现有技术中MapReduce的一个典型处理流程示意图;
图2是本发明实施例数据并行处理方法的流程图;
图3是本发明实施例数据并行处理装置的一种结构示意图;
图4是本发明实施例数据并行处理系统的组网示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和实施方式对本发明作进一步的详细说明。
本发明实施例数据并行处理方法、装置及系统应用于Hadoop的并行计算框架MapReduce,为了更好地理解本发明方案,首先对现有技术中MapReduce的处理流程做简单说明。
在后面实施例的描述中,将保存在采集服务器端的文件称作本地文件。
如图1所示,是现有技术中MapReduce的一个典型处理流程,其中:
Map任务通过相应的输入源类读取需要处理的数据,经过对数据进行收敛/聚合处理后,由Reduce任务通过相应的输出源类输出。
Hadoop可以处理多种不同的数据格式,存储在分布式文件系统上的文件到数据库,但其无法直接提供对采集服务器端的本地文件系统(如日志式文件系统ext3(Third extended file system))的文件进行处理,也无法将处理后的数据直接输出到本地文件系统中。
为此,本发明实施例数据并行处理方法、装置及系统,将数据从采集服务器上直接传送到MapReduce节点上进行处理,避免了文件拷贝的操作,从而节省存储空间,简化处理流程,提高数据处理效率及数据处理的可靠性。
如图2所示,是本发明实施例数据并行处理方法的流程图,包括以下基本步骤:
步骤201,实时检测数据采集服务器中需要处理的数据。
所述需要处理的数据可以是以下任意一种或多种:磁盘上存储的文件中的数据,实时数据、应用程序输出的数据等。
对于磁盘上存储的文件中的数据,可以周期性地对其进行检测,比如周期性地扫描磁盘上的文件;对于实时数据和应用程序输出的数据,可以通过对其输出接口实时监测获得,对此将在后面详细说明。
步骤202,对检测到的数据进行分区和/或聚合处理,使其形成大小为预定值的数据分区。
所述分区是指对检测到的较大文件中的数据进行拆分,相反,所述聚合是指对检测到小文件中的数据块进行合并。
比如,对检测到的数据进行分区和/或聚合处理后,使其形成一个个稳定大小的数据分区,比如64Mbit的数据分区,这样在后续将其传送到MapReduce节点上处理时,可以使每个Map任务一次处理一个所述数据分区中的数据,从而提高Hadoop对小文件的处理效率。
步骤203,建立与各数据分区对应的描述信息,并将所述描述信息依次存入数据分区队列中。
对于形成的每个数据分区,可以建立与其对应的描述信息,以便在需要将数据传送给MapReduce节点时,根据该描述信息获得相应分区中的数据。
数据分区的描述信息可以包括:文件名、偏移量、数据块大小等信息,比如可以采用以下形式的描述信息:
List of {
    struct FileSplit{
        String fileName;//文件名
          long offset;    //偏移量
          long size;     //大小
    }
          }
步骤204,收到Hadoop系统中处理节点的Map任务的请求后,从所述数据分区队列中读取一个描述信息,并根据所述描述信息获取对应的数据分区中的数据。
在Hadoop系统中,管理节点可以获知采集服务器集群中需要处理的数据量,并根据该数据量为各MapReduce节点分配任务,以使不同的MapReduce节点对采集服务器集群中需要处理的数据进行并行处理。
每个MapReduce节点启动后,Map任务通过输入源请求数据,Reduce任务通过输出源输出处理后的数据。
在本发明实施例的应用系统与MapReduce节点建立连接后,会接收到Map任务发送的请求信号,此时,可以根据所述数据分区队列中的描述信息,获得相对应的数据分区中的数据。
需要说明的是,在从所述数据分区队列中读取一个描述信息时,可以依次读取,当然也可以任意选择其中之一,但读取的描述信息应该是还未处理的数据分区对应的描述信息。为此,可以通过设置一个读取标记来实现。如果一个描述信息已被读取,则将其标记为已读取,则在下一次接收到Map任务的请求信号后,从所述数据分区队列中未被标记的描述信息中进行选择。
步骤205,将获取的数据传送到Map任务的输入源。
在本发明实施例中,为了防止数据被重复处理,在数据处理完成后,可以将已经处理完的文件(该文件的所有数据分区都已被处理完成)删除和/或备份起来。具体地,如果所述数据分区是经过分区处理形成的,则在该数据分区以及与该数据分区同属于一个文件的其他数据分区都已被读取后,才可删除和/或备份所述文件;如果所述数据分区是经过聚合处理形成的,则在该数据分区被读取后,即可删除和/或备份该数据分区中的数据所属的文件。
本发明实施例数据并行处理方法,将数据从采集服务器上直接传送到MapReduce节点上进行处理,避免了文件拷贝的操作,从而节省了存储空间,简化了处理流程,提高了数据处理效率及数据处理的可靠性。而且,将MapReduce的输入扩展到了应用程序的输出上,在不需将应用程序的输出首先输出到文件系统的情况下,就可以并行处理应用程序的输出。
在本发明实施例中,还可进一步包括以下步骤:
收到Reduce任务的请求信号后,获取Reduce任务的输出源输出的数据;
将输出的数据写到文件或者应用程序中。
也就是说,本发明实施例数据并行处理方法,不仅可以将MapReduce的输入扩展到应用程序中,而且可以将MapReduce并行计算后的输出直接输出到应用程序中,这对于某些查询应用来说非常有利,提高了处理的响应速度。
为了配合实时数据和应用程序加载服务,实现本地实时数据和应用程序数据的并行计算功能,需要实现输入输出源。在本发明实施例中,所述输入输出源可以通过与实时数据和应用程序加载服务建立TCP连接,通过网络实现数据的传输功能。
对于输入源,可以通过以下方式实现:
Hadoop系统中管理节点获取数据流处理线程池中空闲的线程数;
根据所述空闲的线程数为一个或多个所述处理节点分配任务,并指定该任务需要侦听的IP地址和端口号;
Hadoop系统中处理节点根据所述IP地址和端口号获取实时数据或者应用程序输出的数据。
具体的实现可以从Hadoop的输入数据格式基类继承,并实现其中的虚方法。
MapReduce提供的输入格式基类如下所示:
public abstract class InputFormat<K,V>{
  public abstract
    List<InputSplit>getSplits(JobContext context
                                         )throws    IOException,
  InterruptedException;
        public abstract
          RecordReader<K,V>createRecordReader(InputSplit split,
                                                  TaskAttemptContext
  context
                                                  )throws IOException,
InterruptedException;
}
该类中提供了两个函数,可以在继承类中实现,其中:
第一个函数getSplits的实现逻辑为:
1)与实时数据和应用数据加载服务建立连接;
2)获取数据流处理线程池中空闲置线程数N;
3)根据获取的空闲线程数,建立List<InputSplit>并插入N条记录,每条InputSplit中指定服务的侦听IP和端口号,用来在后续实现N个任务同时运行,这样可以使得有N个任务同时从实时数据和应用数据加载服务中获取数据。
第二个函数createRecordReader,用来创建一个记录读取器,该记录读取器的实现逻辑为:
1)每个任务通过InputSplit中指定的信息,建立与实时数据和应用数据加载服务的连接;
2)实时数据和应用数据加载服务为每个连接分配一个线程;
3)分配的线程将数据传输到任务中,任务对收到的数据进行处理。
对于输出源,同样可以从Hadoop的输出数据格式基类继承,并实现其中的虚方法。
MapReduce提供的输出格式基类如下所示:
public abstract class OutputFormat<K,V>{
  public abstract RecordWriter<K,V>
    getRecordWriter(TaskAttemptContext context
                      )throws IOException,InterruptedException;
  public abstract void checkOutputSpecs(JobContext context
                                              )throws IOException,
InterruptedException;
  public abstract
  OutputCommitter getOutputCommitter(TaskAttemptContext context
                                         )throws IOException,
   InterruptedException;
}
输出源的实现需要继承OutputFormat基类,实现其中的虚方法。其中:
函数getRecordWriter用来创建一个写入器,写入数据到文件或者应用程序中,写入器的实现逻辑如下:
1)连接到实时数据和应用数据加载服务;
2)通过网络将要写入的输入传输到实时数据和应用数据加载服务中;
3)实时数据和应用数据加载服务分配一个线程来接收数据,并写到本地文件系统中。
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如:ROM/RAM、磁碟、光盘等。
在具体应用中,可以设置多个线程,通过调度不同的线程来完成对Map任务的请求及Reduce任务的请求的处理等操作。
另外,在本发明实施例中,为了保证处理资源的平衡性,还可以根据整个服务的运行情况,进行动态资源控制。资源控制时需要考虑的因素可以是服务相关的信息,如:线程池数量、队列深度、处理延迟情况,也可以是全局信息,如:CPU繁忙程度、磁盘IO情况等。
比如,为了避免在服务中分配太多的线程,同时也会有足够的线程来满足需要的并行服务,可以根据队列深度来对线程池的数据进行调节。具体实现方式可以如下:
周期性获取数据分区队列的长度;
如果所述长度达到或超过设定的第一阈值,则增加一个数据流处理线程,并暂缓检测需要处理的数据;
如果所述长度达到或超过设定的第二阈值,则删除增加的数据流处理线程,并恢复检测需要处理的数据。
当然,所述动态资源控制并不仅限于上述具体方式,还可以有其他的控制方式,在此不再一一举例说明。
相应地,本发明实施例还提供一种数据并行处理装置,如图3所示,是该装置的一种结构示意图。
在该实施例中,所述数据并行处理装置包括:
检测单元301,用于实时检测数据采集服务器中需要处理的数据;
数据分区生成单元302,用于对所述检测单元301检测到的数据进行分区和/或聚合处理,使其形成大小为预定值的数据分区;
描述信息建立单元303,用于建立与各数据分区对应的描述信息,并将所述描述信息依次存入数据分区队列中;
请求接收单元304,用于接收Hadoop系统中处理节点的Map任务的请求;
数据流处理器305,用于在所述请求接收单元304收到Hadoop系统中处理节点的Map任务的请求后,从所述数据分区队列中读取一个描述信息,并根据所述描述信息获取对应的数据分区中的数据;
数据传送单元306,用于将所述数据流处理器获取的数据传送到Map任务的输入源。
在本发明实施例中,所述需要处理的数据可以是以下任意一种或多种:磁盘上存储的文件中的数据,实时数据、应用程序输出的数据等。对于磁盘上存储的文件中的数据,检测单元301可以周期性地对其进行检测,比如周期性地扫描磁盘上的文件;对于实时数据和应用程序输出的数据,检测单元301可以通过对其输出接口实时监测获得,对此前面已有详细说明,在此不再赘述。
在本发明实施例中,所述请求接收单元304,还可进一步用于接收Hadoop系统中处理节点的Reduce任务的请求;相应地,所述数据流处理器305,还可进一步用于在所述请求接收单元304收到Hadoop系统中处理节点的Reduce任务的请求后,获取Reduce任务的输出源输出的数据,并将获取的数据写到文件或者应用程序中。
本发明实施例数据并行处理装置,可以将数据从采集服务器上直接传送到MapReduce节点上进行处理,避免了文件拷贝的操作,从而节省了存储空间,简化了处理流程,提高了数据处理效率及数据处理的可靠性。而且,可以将MapReduce的输入扩展到了应用程序的输出上,在不需将应用程序的输出首先输出到文件系统的情况下,就可以并行处理应用程序的输出。
另外,在本发明实施例中,所述装置还可进一步包括:文件维护单元(未图示),用于针对经过分区处理形成的数据分区,在该数据分区以及与该数据分区同属于一个文件的其他数据分区都已被读取后,删除和/或备份所述文件;针对经过聚合处理形成的,在该数据分区被读取后,删除和/或备份该数据分区中的数据所属的文件。这样,可以防止数据被重复处理。
在具体实现中,所述数据流处理器305可以设置多个数据流处理线程,通过调度不同的数据流处理线程来完成对Map任务的请求及Reduce任务的请求的处理等操作。
另外,在本发明实施例中,为了保证处理资源的平衡性,还可以根据整个服务的运行情况,进行动态资源控制。资源控制时需要考虑的因素可以是服务相关的信息,如:线程池数量、队列深度、处理延迟情况,也可以是全局信息,如:CPU繁忙程度、磁盘IO情况等。
比如,本发明实施例数据并行处理装置还可进一步包括:资源控制器(未图示),用于周期性获取数据分区队列的长度;并在所述长度达到或超过设定的第一阈值后,增加一个数据流处理线程,并通知所述检测单元暂缓检测需要处理的数据;在所述长度达到或超过设定的第二阈值后,删除增加的数据流处理线程,并通知所述检测单元恢复检测需要处理的数据。
相应地,本发明实施例还提供一种数据并行处理系统,如图4所示,该系统基于Hadoop的并行计算框架实现对数据的并行处理,主要包括:
数据采集服务器、并行加载平台和Hadoop系统,所述Hadoop系统包括处理节点和管理节点,其中:
所述数据采集服务器,用于采集需要处理的数据;
所述并行加载平台,用于实时检测数据采集服务器中需要处理的数据;对检测到的数据进行分区和/或聚合处理,使其形成大小为预定值的数据分区;建立与各数据分区对应的描述信息,并将所述描述信息依次存入数据分区队列中;收到Hadoop系统中处理节点的Map任务的请求后,从所述数据分区队列中读取一个描述信息,并根据所述描述信息获取对应的数据分区中的数据;将获取的数据传送到Map任务的输入源。
所述Hadoop系统,用于并行处理各处理节点的Map任务的输入源收到的数据,并将处理后的数据输出。
在本发明实施例中,所述并行加载平台,还可用于接收Hadoop系统中处理节点的Reduce任务的请求,获取Reduce任务的输出源输出的数据,并将获取的数据写到文件或者应用程序中。
需要说明的是,所述需要处理的数据可以包括以下任意一种或多种:磁盘上存储的文件中的数据,实时数据、应用程序输出的数据;
在实际应用中,所述并行加载平台,可以通过分配一个或多个数据流处理线程处理所述Map任务的请求和Reduce任务的请求;
所述Hadoop系统中的管理节点,除了具有与现有技术中相同的功能(比如为各处理节点分配任务)外,在本发明实施例中,还可以用于获取数据流处理线程池中空闲的线程数;根据所述空闲的线程数为一个或多个所述处理节点分配任务,并指定该任务需要侦听的IP地址和端口号;相应地,所述Hadoop系统中处理节点,用于根据所述IP地址和端口号获取实时数据或者应用程序输出的数据。
在实际应用中,对于海量数据的处理,可以由多个数据采集服务器组成采集服务器集群,每个数据采集服务器上部署一个对应的并行加载平台,由各自的并行加载平台实现输入服务和输出服务。其中,输入服务从采集服务器的文件系统或者应用程序输出读取数据,进行数据的重新分解和合并,变成适合MapReduce任务处理的数据单元,并将相应的数据单元传输给MapReduce任务进行处理;输出服务接收MapReduce任务处理后的结果,并输出到采集服务器的文件系统。
应用本发明实施例数据并行处理系统,可以将需要处理的数据从采集服务器上直接传送到MapReduce节点上进行处理,无需文件拷贝的操作,从而节省了存储空间,简化了处理流程,提高了数据处理效率及数据处理的可靠性。进一步地,通过并行加载平台,将实时数据和应用程序数据的读写能力扩展到Hadoop的输入源,减少了不必要的文件生成的中间环节,结合MapReduce并行计算框架,实现对实时数据和应用程序数据的并行处理;同时,能够将MapReduce并行计算后的数据直接输出到应用程序中,有效地提高了处理的响应速度。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种数据并行处理方法,其特征在于,包括:
实时检测数据采集服务器中需要处理的数据;
对检测到的数据进行分区和/或聚合处理,使其形成大小为预定值的数据分区;
建立与各数据分区对应的描述信息,并将所述描述信息依次存入数据分区队列中;
收到Hadoop系统中处理节点的Map任务的请求后,从所述数据分区队列中读取一个描述信息,并根据所述描述信息获取对应的数据分区中的数据;
将获取的数据传送到Map任务的输入源。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
收到Hadoop系统中处理节点的Reduce任务的请求后,获取Reduce任务的输出源输出的数据;
将输出的数据写到文件或者应用程序中。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
如果所述数据分区是经过分区处理形成的,则在该数据分区以及与该数据分区同属于一个文件的其他数据分区都已被读取后,删除和/或备份所述文件;
如果所述数据分区是经过聚合处理形成的,则在该数据分区被读取后,删除和/或备份该数据分区中的数据所属的文件。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
利用一个或多个数据流处理线程处理所述Map任务的请求信号和Reduce任务的请求信号。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
周期性获取数据分区队列的长度;
如果所述长度达到或超过设定的第一阈值,则增加一个数据流处理线程,并暂缓检测需要处理的数据;
如果所述长度达到或超过设定的第二阈值,则删除增加的数据流处理线程,并恢复检测需要处理的数据。
6.根据权利要求4所述的方法,其特征在于,所述需要处理的数据包括以下任意一种或多种:磁盘上存储的文件中的数据,实时数据、应用程序输出的数据。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
Hadoop系统中管理节点获取数据流处理线程池中空闲的线程数;
根据所述空闲的线程数为一个或多个所述处理节点分配任务,并指定该任务需要侦听的IP地址和端口号;
Hadoop系统中处理节点根据所述IP地址和端口号获取实时数据或者应用程序输出的数据。
8.一种数据并行处理装置,其特征在于,包括:
检测单元,用于实时检测数据采集服务器中需要处理的数据;
数据分区生成单元,用于对所述检测单元检测到的数据进行分区和/或聚合处理,使其形成大小为预定值的数据分区;
描述信息建立单元,用于建立与各数据分区对应的描述信息,并将所述描述信息依次存入数据分区队列中;
请求接收单元,用于接收Hadoop系统中处理节点的Map任务的请求;
数据流处理器,用于在所述请求接收单元收到Hadoop系统中处理节点的Map任务的请求后,从所述数据分区队列中读取一个描述信息,并根据所述描述信息获取对应的数据分区中的数据;
数据传送单元,用于将所述数据流处理器获取的数据传送到Map任务的输入源。
9.根据权利要求8所述的装置,其特征在于,
所述请求接收单元,还用于接收Hadoop系统中处理节点的Reduce任务的请求;
所述数据流处理器,还用于在所述请求接收单元收到Hadoop系统中处理节点的Reduce任务的请求后,获取Reduce任务的输出源输出的数据,并将获取的数据写到文件或者应用程序中。
10.根据权利要求8或9所述的装置,其特征在于,所述装置还包括:
文件维护单元,用于针对经过分区处理形成的数据分区,在该数据分区以及与该数据分区同属于一个文件的其他数据分区都已被读取后,删除和/或备份所述文件;针对经过聚合处理形成的,在该数据分区被读取后,删除和/或备份该数据分区中的数据所属的文件。
11.根据权利要求9所述的装置,其特征在于,所述方法还包括:
所述数据流处理器,具体用于分配一个或多个数据流处理线程处理所述Map任务的请求信号和Reduce任务的请求信号。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
资源控制器,用于周期性获取数据分区队列的长度;并在所述长度达到或超过设定的第一阈值后,增加一个数据流处理线程,并通知所述检测单元暂缓检测需要处理的数据;在所述长度达到或超过设定的第二阈值后,删除增加的数据流处理线程,并通知所述检测单元恢复检测需要处理的数据。
13.一种数据并行处理系统,其特征在于,包括:数据采集服务器、并行加载平台和Hadoop系统,所述Hadoop系统包括处理节点和管理节点,其中:
所述数据采集服务器,用于采集需要处理的数据;
所述并行加载平台,用于实时检测数据采集服务器中需要处理的数据;对检测到的数据进行分区和/或聚合处理,使其形成大小为预定值的数据分区;建立与各数据分区对应的描述信息,并将所述描述信息依次存入数据分区队列中;收到Hadoop系统中处理节点的Map任务的请求后,从所述数据分区队列中读取一个描述信息,并根据所述描述信息获取对应的数据分区中的数据;将获取的数据传送到Map任务的输入源。
所述Hadoop系统,用于并行处理各处理节点的Map任务的输入源收到的数据,并将处理后的数据输出。
14.根据权利要求13所述的系统,其特征在于,
所述并行加载平台,还用于接收Hadoop系统中处理节点的Reduce任务的请求,获取Reduce任务的输出源输出的数据,并将获取的数据写到文件或者应用程序中。
15.根据权利要求13所述的系统,其特征在于,所述需要处理的数据包括以下任意一种或多种:磁盘上存储的文件,实时数据、应用程序输出的数据;
所述并行加载平台,具体通过分配一个或多个数据流处理线程处理所述Map任务的请求和Reduce任务的请求;
所述Hadoop系统中的管理节点,用于获取数据流处理线程池中空闲的线程数;根据所述空闲的线程数为一个或多个所述处理节点分配任务,并指定该任务需要侦听的IP地址和端口号;
Hadoop系统中处理节点,用于根据所述IP地址和端口号获取实时数据或者应用程序输出的数据。
CN2010105125912A 2010-10-14 2010-10-14 数据并行处理方法、装置及系统 Expired - Fee Related CN101957863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010105125912A CN101957863B (zh) 2010-10-14 2010-10-14 数据并行处理方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105125912A CN101957863B (zh) 2010-10-14 2010-10-14 数据并行处理方法、装置及系统

Publications (2)

Publication Number Publication Date
CN101957863A true CN101957863A (zh) 2011-01-26
CN101957863B CN101957863B (zh) 2012-05-09

Family

ID=43485192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105125912A Expired - Fee Related CN101957863B (zh) 2010-10-14 2010-10-14 数据并行处理方法、装置及系统

Country Status (1)

Country Link
CN (1) CN101957863B (zh)

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111301A (zh) * 2011-03-28 2011-06-29 上海云高软件科技有限公司 一种通用文件传输系统及其实现方法
CN102147750A (zh) * 2011-01-27 2011-08-10 中国农业银行股份有限公司 作业处理方法和系统
CN102332027A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种基于Hadoop的海量非独立小文件关联存储方法
CN102638456A (zh) * 2012-03-19 2012-08-15 杭州海康威视系统技术有限公司 基于云计算的海量实时视频码流智能分析方法及其系统
CN102725753A (zh) * 2011-11-28 2012-10-10 华为技术有限公司 优化数据访问的方法及装置、优化数据存储的方法及装置
CN102737114A (zh) * 2012-05-18 2012-10-17 北京大学 基于MapReduce的大图上距离连接查询方法
CN102779025A (zh) * 2012-03-19 2012-11-14 南京大学 一种基于Hadoop的并行化PLSA方法
CN103023995A (zh) * 2012-11-29 2013-04-03 中国电力科学研究院 一种基于Hadoop的分布式云存储自动分级数据管理系统
CN103034698A (zh) * 2012-12-05 2013-04-10 北京奇虎科技有限公司 数据存储方法及装置
CN103455374A (zh) * 2012-06-05 2013-12-18 阿里巴巴集团控股有限公司 一种基于MapReduce的分布式计算方法和装置
CN103617033A (zh) * 2013-11-22 2014-03-05 北京掌阔移动传媒科技有限公司 基于MapReduce的数据处理方法、客户端和系统
CN103646073A (zh) * 2013-12-11 2014-03-19 浪潮电子信息产业股份有限公司 一种基于HBase表的条件查询优化方法
CN103646541A (zh) * 2013-12-16 2014-03-19 电子科技大学 一种基于Hadoop的车辆拥挤度获取方法
CN103748579A (zh) * 2011-04-01 2014-04-23 谷歌公司 在映射化简框架中处理数据
CN103793442A (zh) * 2012-11-05 2014-05-14 北京超图软件股份有限公司 空间数据的处理方法及系统
CN104199963A (zh) * 2014-09-19 2014-12-10 浪潮(北京)电子信息产业有限公司 HBase数据备份恢复的方法和装置
CN104252472A (zh) * 2013-06-27 2014-12-31 国际商业机器公司 用于并行化数据处理的方法和装置
CN104376029A (zh) * 2014-04-10 2015-02-25 亚信科技(中国)有限公司 一种数据的处理方法及系统
CN104407879A (zh) * 2014-10-22 2015-03-11 江苏瑞中数据股份有限公司 一种电网时序大数据并行加载方法
CN104537003A (zh) * 2014-12-16 2015-04-22 北京中交兴路车联网科技有限公司 一种Hbase数据库的通用高性能数据写入方法
CN104731921A (zh) * 2015-03-26 2015-06-24 江苏物联网研究发展中心 Hadoop分布式文件系统针对日志型小文件的存储和处理方法
CN104850591A (zh) * 2015-04-24 2015-08-19 百度在线网络技术(北京)有限公司 一种数据的转换存储方法及装置
CN105578212A (zh) * 2015-12-15 2016-05-11 南京邮电大学 一种大数据中流计算平台下的点对点流媒体实时监测方法
CN106570572A (zh) * 2015-10-12 2017-04-19 中国石油化工股份有限公司 基于MapReduce的旅行时计算方法和装置
CN106648872A (zh) * 2016-12-29 2017-05-10 深圳市优必选科技有限公司 用于多线程处理的方法及装置、服务器
CN106780154A (zh) * 2017-01-23 2017-05-31 国网山东省电力公司电力科学研究院 多线程信息聚合的输变电工程建设过程环保措施监控系统及方法
CN107395669A (zh) * 2017-06-01 2017-11-24 华南理工大学 一种基于流式实时分布式大数据的数据采集方法及系统
CN107391303A (zh) * 2017-06-30 2017-11-24 北京奇虎科技有限公司 数据处理方法、装置、系统、服务器及计算机存储介质
CN108182281A (zh) * 2018-01-26 2018-06-19 阿里巴巴集团控股有限公司 基于流式计算的数据处理控制方法、装置、服务器及介质
CN108241539A (zh) * 2018-01-03 2018-07-03 百度在线网络技术(北京)有限公司 基于分布式系统的交互式大数据查询方法、装置、存储介质和终端设备
CN108491255A (zh) * 2018-02-08 2018-09-04 昆仑智汇数据科技(北京)有限公司 自助式MapReduce数据优化分配方法及系统
CN109582696A (zh) * 2018-10-09 2019-04-05 阿里巴巴集团控股有限公司 扫描任务的生成方法及装置、电子设备
CN109597795A (zh) * 2018-12-06 2019-04-09 南京天辰礼达电子科技有限公司 一种路基压实施工数据高效处理系统
CN110765082A (zh) * 2019-09-06 2020-02-07 深圳平安通信科技有限公司 Hadoop文件处理方法、装置、存储介质及服务器
WO2020034194A1 (zh) * 2018-08-17 2020-02-20 西门子股份公司 分布式数据处理方法、装置及系统和机器可读介质
CN111259047A (zh) * 2018-12-03 2020-06-09 顺丰科技有限公司 数据加载方法、装置、设备及其存储介质
CN111581155A (zh) * 2020-03-30 2020-08-25 平安科技(深圳)有限公司 数据入数据库的方法、装置和计算机设备
CN111625254A (zh) * 2020-05-06 2020-09-04 Oppo(重庆)智能科技有限公司 文件处理方法、装置、终端及存储介质
CN112347052A (zh) * 2020-11-04 2021-02-09 深圳集智数字科技有限公司 一种文件匹配方法及相关装置
CN107247778B (zh) * 2011-06-27 2021-09-03 亚马逊科技公司 用于实施可扩展数据存储服务的系统和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101063973A (zh) * 2006-04-27 2007-10-31 国际商业机器公司 用于多处理环境中的数据聚合的方法和系统
US20080098370A1 (en) * 2006-10-20 2008-04-24 Marcus Felipe Fontoura Formal Language and Translator for Parallel Processing of Data
US20100162230A1 (en) * 2008-12-24 2010-06-24 Yahoo! Inc. Distributed computing system for large-scale data handling
CN101799809A (zh) * 2009-02-10 2010-08-11 中国移动通信集团公司 数据挖掘方法和数据挖掘系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101063973A (zh) * 2006-04-27 2007-10-31 国际商业机器公司 用于多处理环境中的数据聚合的方法和系统
US20080098370A1 (en) * 2006-10-20 2008-04-24 Marcus Felipe Fontoura Formal Language and Translator for Parallel Processing of Data
US20100162230A1 (en) * 2008-12-24 2010-06-24 Yahoo! Inc. Distributed computing system for large-scale data handling
CN101799809A (zh) * 2009-02-10 2010-08-11 中国移动通信集团公司 数据挖掘方法和数据挖掘系统

Cited By (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102147750A (zh) * 2011-01-27 2011-08-10 中国农业银行股份有限公司 作业处理方法和系统
CN102111301A (zh) * 2011-03-28 2011-06-29 上海云高软件科技有限公司 一种通用文件传输系统及其实现方法
US9798831B2 (en) 2011-04-01 2017-10-24 Google Inc. Processing data in a MapReduce framework
CN103748579A (zh) * 2011-04-01 2014-04-23 谷歌公司 在映射化简框架中处理数据
CN107247778B (zh) * 2011-06-27 2021-09-03 亚马逊科技公司 用于实施可扩展数据存储服务的系统和方法
CN102332027A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种基于Hadoop的海量非独立小文件关联存储方法
CN102725753A (zh) * 2011-11-28 2012-10-10 华为技术有限公司 优化数据访问的方法及装置、优化数据存储的方法及装置
WO2013078583A1 (zh) * 2011-11-28 2013-06-06 华为技术有限公司 优化数据访问的方法及装置、优化数据存储的方法及装置
CN102779025A (zh) * 2012-03-19 2012-11-14 南京大学 一种基于Hadoop的并行化PLSA方法
CN102638456A (zh) * 2012-03-19 2012-08-15 杭州海康威视系统技术有限公司 基于云计算的海量实时视频码流智能分析方法及其系统
CN102638456B (zh) * 2012-03-19 2015-09-23 杭州海康威视数字技术股份有限公司 基于云计算的海量实时视频码流智能分析方法及其系统
CN102737114A (zh) * 2012-05-18 2012-10-17 北京大学 基于MapReduce的大图上距离连接查询方法
CN103455374A (zh) * 2012-06-05 2013-12-18 阿里巴巴集团控股有限公司 一种基于MapReduce的分布式计算方法和装置
CN103455374B (zh) * 2012-06-05 2016-10-19 阿里巴巴集团控股有限公司 一种基于MapReduce的分布式计算方法和装置
CN103793442B (zh) * 2012-11-05 2019-05-07 北京超图软件股份有限公司 空间数据的处理方法及系统
CN103793442A (zh) * 2012-11-05 2014-05-14 北京超图软件股份有限公司 空间数据的处理方法及系统
CN103023995A (zh) * 2012-11-29 2013-04-03 中国电力科学研究院 一种基于Hadoop的分布式云存储自动分级数据管理系统
CN103023995B (zh) * 2012-11-29 2015-09-09 中国电力科学研究院 一种基于Hadoop的分布式云存储自动分级数据管理系统
CN103034698A (zh) * 2012-12-05 2013-04-10 北京奇虎科技有限公司 数据存储方法及装置
CN104252472A (zh) * 2013-06-27 2014-12-31 国际商业机器公司 用于并行化数据处理的方法和装置
CN104252472B (zh) * 2013-06-27 2018-01-23 国际商业机器公司 用于并行化数据处理的方法和装置
CN103617033A (zh) * 2013-11-22 2014-03-05 北京掌阔移动传媒科技有限公司 基于MapReduce的数据处理方法、客户端和系统
CN103646073A (zh) * 2013-12-11 2014-03-19 浪潮电子信息产业股份有限公司 一种基于HBase表的条件查询优化方法
CN103646541A (zh) * 2013-12-16 2014-03-19 电子科技大学 一种基于Hadoop的车辆拥挤度获取方法
CN103646541B (zh) * 2013-12-16 2017-05-24 电子科技大学 一种基于Hadoop的车辆拥挤度获取方法
CN104376029A (zh) * 2014-04-10 2015-02-25 亚信科技(中国)有限公司 一种数据的处理方法及系统
CN104199963A (zh) * 2014-09-19 2014-12-10 浪潮(北京)电子信息产业有限公司 HBase数据备份恢复的方法和装置
CN104407879A (zh) * 2014-10-22 2015-03-11 江苏瑞中数据股份有限公司 一种电网时序大数据并行加载方法
CN104407879B (zh) * 2014-10-22 2018-02-02 江苏瑞中数据股份有限公司 一种电网时序大数据并行加载方法
CN104537003A (zh) * 2014-12-16 2015-04-22 北京中交兴路车联网科技有限公司 一种Hbase数据库的通用高性能数据写入方法
CN104537003B (zh) * 2014-12-16 2018-01-09 北京中交兴路车联网科技有限公司 一种Hbase数据库的通用高性能数据写入方法
CN104731921B (zh) * 2015-03-26 2018-03-30 江苏物联网研究发展中心 Hadoop分布式文件系统针对日志型小文件的存储和处理方法
CN104731921A (zh) * 2015-03-26 2015-06-24 江苏物联网研究发展中心 Hadoop分布式文件系统针对日志型小文件的存储和处理方法
CN104850591A (zh) * 2015-04-24 2015-08-19 百度在线网络技术(北京)有限公司 一种数据的转换存储方法及装置
CN104850591B (zh) * 2015-04-24 2019-03-19 百度在线网络技术(北京)有限公司 一种数据的转换存储方法及装置
CN106570572B (zh) * 2015-10-12 2019-12-17 中国石油化工股份有限公司 基于MapReduce的旅行时计算方法和装置
CN106570572A (zh) * 2015-10-12 2017-04-19 中国石油化工股份有限公司 基于MapReduce的旅行时计算方法和装置
CN105578212A (zh) * 2015-12-15 2016-05-11 南京邮电大学 一种大数据中流计算平台下的点对点流媒体实时监测方法
CN105578212B (zh) * 2015-12-15 2019-02-19 南京邮电大学 一种大数据中流计算平台下的点对点流媒体实时监测方法
WO2018121696A1 (zh) * 2016-12-29 2018-07-05 深圳市优必选科技有限公司 用于多线程处理的方法及装置、服务器
CN106648872A (zh) * 2016-12-29 2017-05-10 深圳市优必选科技有限公司 用于多线程处理的方法及装置、服务器
CN106780154B (zh) * 2017-01-23 2020-10-16 国网山东省电力公司电力科学研究院 多线程信息聚合的输变电工程建设过程环保措施监控系统及方法
CN106780154A (zh) * 2017-01-23 2017-05-31 国网山东省电力公司电力科学研究院 多线程信息聚合的输变电工程建设过程环保措施监控系统及方法
CN107395669A (zh) * 2017-06-01 2017-11-24 华南理工大学 一种基于流式实时分布式大数据的数据采集方法及系统
CN107391303B (zh) * 2017-06-30 2021-02-23 北京奇虎科技有限公司 数据处理方法、装置、系统、服务器及计算机存储介质
CN107391303A (zh) * 2017-06-30 2017-11-24 北京奇虎科技有限公司 数据处理方法、装置、系统、服务器及计算机存储介质
CN108241539B (zh) * 2018-01-03 2021-05-07 百度在线网络技术(北京)有限公司 基于分布式系统的交互式大数据查询方法、装置、存储介质和终端设备
CN108241539A (zh) * 2018-01-03 2018-07-03 百度在线网络技术(北京)有限公司 基于分布式系统的交互式大数据查询方法、装置、存储介质和终端设备
CN108182281A (zh) * 2018-01-26 2018-06-19 阿里巴巴集团控股有限公司 基于流式计算的数据处理控制方法、装置、服务器及介质
CN108182281B (zh) * 2018-01-26 2022-02-01 创新先进技术有限公司 基于流式计算的数据处理控制方法、装置、服务器及介质
CN108491255A (zh) * 2018-02-08 2018-09-04 昆仑智汇数据科技(北京)有限公司 自助式MapReduce数据优化分配方法及系统
CN108491255B (zh) * 2018-02-08 2020-11-03 昆仑智汇数据科技(北京)有限公司 自助式MapReduce数据优化分配方法及系统
CN112335217A (zh) * 2018-08-17 2021-02-05 西门子股份公司 分布式数据处理方法、装置及系统和机器可读介质
WO2020034194A1 (zh) * 2018-08-17 2020-02-20 西门子股份公司 分布式数据处理方法、装置及系统和机器可读介质
CN109582696B (zh) * 2018-10-09 2023-07-04 北京奥星贝斯科技有限公司 扫描任务的生成方法及装置、电子设备
CN109582696A (zh) * 2018-10-09 2019-04-05 阿里巴巴集团控股有限公司 扫描任务的生成方法及装置、电子设备
CN111259047A (zh) * 2018-12-03 2020-06-09 顺丰科技有限公司 数据加载方法、装置、设备及其存储介质
CN109597795A (zh) * 2018-12-06 2019-04-09 南京天辰礼达电子科技有限公司 一种路基压实施工数据高效处理系统
CN109597795B (zh) * 2018-12-06 2020-10-16 南京天辰礼达电子科技有限公司 一种路基压实施工数据高效处理系统
WO2020114155A1 (zh) * 2018-12-06 2020-06-11 南京天辰礼达电子科技有限公司 一种路基压实施工数据高效处理系统
CN110765082A (zh) * 2019-09-06 2020-02-07 深圳平安通信科技有限公司 Hadoop文件处理方法、装置、存储介质及服务器
CN110765082B (zh) * 2019-09-06 2023-11-24 深圳平安通信科技有限公司 Hadoop文件处理方法、装置、存储介质及服务器
CN111581155A (zh) * 2020-03-30 2020-08-25 平安科技(深圳)有限公司 数据入数据库的方法、装置和计算机设备
CN111581155B (zh) * 2020-03-30 2023-07-25 平安科技(深圳)有限公司 数据入数据库的方法、装置和计算机设备
CN111625254A (zh) * 2020-05-06 2020-09-04 Oppo(重庆)智能科技有限公司 文件处理方法、装置、终端及存储介质
CN111625254B (zh) * 2020-05-06 2023-09-08 Oppo(重庆)智能科技有限公司 文件处理方法、装置、终端及存储介质
CN112347052A (zh) * 2020-11-04 2021-02-09 深圳集智数字科技有限公司 一种文件匹配方法及相关装置

Also Published As

Publication number Publication date
CN101957863B (zh) 2012-05-09

Similar Documents

Publication Publication Date Title
CN101957863B (zh) 数据并行处理方法、装置及系统
KR101885688B1 (ko) 낮은 지연속도 데이터 액세스를 위한 데이터 스트림의 분할
Dobbelaere et al. Kafka versus RabbitMQ: A comparative study of two industry reference publish/subscribe implementations: Industry Paper
US10990288B2 (en) Systems and/or methods for leveraging in-memory storage in connection with the shuffle phase of MapReduce
US9609050B2 (en) Multi-level data staging for low latency data access
JP2019029019A (ja) 複数のシステムからのデータのブロックチェーンロギング
CN103176849B (zh) 一种基于资源分类的虚拟机集群的部署方法
US8898422B2 (en) Workload-aware distributed data processing apparatus and method for processing large data based on hardware acceleration
CN108469988A (zh) 一种基于异构Hadoop集群的任务调度方法
US20150264002A1 (en) Alerting on dual-queue systems
CN104094232A (zh) 流式数据系统中的处理单元管理
CN106095940A (zh) 一种基于任务负载的数据迁移方法
CN106713396B (zh) 服务器调度方法和系统
US9838467B2 (en) Dynamically instantiating dual-queue systems
US9836358B2 (en) Ephemeral remote data store for dual-queue systems
US11132221B2 (en) Method, apparatus, and computer-readable medium for dynamic binding of tasks in a data exchange
CN110347651A (zh) 基于云存储的数据同步方法、装置、设备及存储介质
CN111381928B (zh) 一种虚拟机迁移方法、云计算管理平台和存储介质
Ubarhande et al. Novel data-distribution technique for Hadoop in heterogeneous cloud environments
WO2018121025A1 (zh) 比较数据表的数据的方法和系统
GB2555682A (en) Repartitioning data in a distributed computing system
Khanna et al. A dynamic scheduling approach for coordinated wide-area data transfers using gridftp
CN107528871A (zh) 存储系统中的数据分析
CN115203133A (zh) 数据处理方法、装置、归约服务器及映射服务器
Khan et al. Computational performance analysis of cluster-based technologies for big data analytics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: CONGXING TECHNOLOGY CO., LTD.

Free format text: FORMER NAME: SNRISE CORPORATION

CP03 Change of name, title or address

Address after: 510070 one of the 83 best and 507 self compiled works in martyrs Middle Road, Yuexiu District, Guangdong, Guangzhou four, 508

Patentee after: Sunrise Technology Co., Ltd.

Address before: 510300, No. 368, Guangzhou Avenue, Guangzhou, Guangdong

Patentee before: Snrise Corporation

ASS Succession or assignment of patent right

Owner name: HONGKONG SHIYE DEVELOPMENT CO., LTD.

Free format text: FORMER OWNER: CONGXING TECHNOLOGY CO., LTD.

Effective date: 20150805

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150805

Address after: Room 32, building 3205, Bank of America, 12 Cecil Harcourt Road, central, Hongkong, China

Patentee after: Hongkong world industry development Co., Ltd.

Address before: 510070 one of the 507 writers in 83 Middle Road, martyrs' road, Guangzhou, Guangdong, four, 508, edited by myself, Yuexiu District

Patentee before: Sunrise Technology Co., Ltd.

ASS Succession or assignment of patent right

Owner name: TELEFON AB L.M. ERICSSON (SE)

Free format text: FORMER OWNER: HONGKONG SHIYE DEVELOPMENT CO., LTD.

Effective date: 20150909

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150909

Address after: Stockholm

Patentee after: Telefon AB L.M. Ericsson [SE]

Address before: Room 32, building 3205, Bank of America, 12 Cecil Harcourt Road, central, Hongkong, China

Patentee before: Hongkong world industry development Co., Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120509

Termination date: 20191014