CN111294371B - 一种数据传输方法、装置、电子设备及存储介质 - Google Patents
一种数据传输方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111294371B CN111294371B CN201811489231.8A CN201811489231A CN111294371B CN 111294371 B CN111294371 B CN 111294371B CN 201811489231 A CN201811489231 A CN 201811489231A CN 111294371 B CN111294371 B CN 111294371B
- Authority
- CN
- China
- Prior art keywords
- data
- server
- transmitted
- original data
- default value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
Abstract
本申请提供了一种数据传输方法、装置、电子设备及存储介质,其中,该方法包括处于第一局域网的HDFS中的服务器获取待传输原始数据;将所述待传输原始数据传输至处于第二局域网的ES服务器中,以使所述ES服务器对所述待传输原始数据进行处理,获得目标数据。装置用于执行上述方法。本发明实施例通过先从HDFS中的服务器中获取待传输原始数据,并将待传输原始数据传输至处于第二局域网中的ES服务器中,然后在ES服务器中再进行处理,使得HDFS向ES服务器传输的数据量较小,因此,能够大大减少传输时间。
Description
技术领域
本申请涉及数据通信技术领域,具体而言,涉及一种数据传输方法、装置、电子设备及存储介质。
背景技术
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
Elastic Search(ES)是一个基于全文搜索引擎(Lucene)的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎。Elastic Search的运行速度快,并且能够简单的使用json通过HTTP来索引数据。
在一些应用场景下,数据存储在一个机房的HDFS中,而需要传输到另一个机房的ES服务器中进行使用,此时可以将HDFS以Hive表的形式读取出来,并对数据进行解压缩以及补齐默认值,然后再将数据传输至ES服务器,其中,Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
由于解压缩并补充默认值后的数据大小比原始数据大很多,且跨机房传输时,其传输速度会受到带宽的影响,从而传输时间较长。
发明内容
有鉴于此,本申请实施例的目的在于提供一种数据传输方法、装置、电子设备及存储介质,能够通过先将原始数据传输到ES服务器中,再在ES服务器中进行解压缩及补齐默认值操作解决现有技术中存在的传输时间长的问题,达到缩短传输时间的效果。
根据本申请的第一个方面,提供一种电子设备,可以包括一个或多个存储介质和一个或多个与存储介质通信的处理器。一个或多个存储介质存储有处理器可执行的机器可读指令。当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行所述机器可读指令,以执行一个或多个以下操作:
处于第一局域网的HDFS中的服务器获取待传输原始数据,所述待传输原始数据为未进行解压缩及默认值补齐处理的数据;
将所述待传输原始数据传输至处于第二局域网的ES服务器中,以使所述ES服务器对所述待传输原始数据进行解压缩及默认值补齐处理,获得目标数据。
本发明实施例通过先从HDFS中的服务器中获取待传输原始数据,并将待传输原始数据传输至处于第二局域网中的ES服务器中,然后在ES服务器中再进行处理,使得HDFS向ES服务器传输的数据量较小,因此,能够大大减少传输时间。
在一些实施例中,所述方法,还包括:
获取默认值配置数据,并将所述默认值配置数据封装成调用接口;
接收所述ES服务器调用所述调用接口的请求;
响应所述请求,并将所述默认值配置数据发送至所述ES服务器。
本发明实施例通预先将默认值配置数据封装成调用接口以供ES服务器调用,能够保证ES服务器有权限进行默认值补齐操作。
在一些实施例中,所述将所述待传输原始数据传输至处于第二局域网的ES服务器中,包括:
将所述待传输原始数据通过消息系统Kafka传输至处于第二局域网的ES服务器中。
由于Kafka是一种高吞吐量的分布式发布订阅消息系统,且能够处理数据量较大的数据,因此本发明实施例通过Kafka能够高效的进行数据传输。
根据本申请的第二个方面,提供另一种电子设备,可以包括一个或多个存储介质和一个或多个与存储介质通信的处理器。一个或多个存储介质存储有处理器可执行的机器可读指令。当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行所述机器可读指令,以执行一个或多个以下操作:
处于第二局域网的ES服务器接收第一局域网的HDFS中一服务器传输的待传输原始数据;
对所述待传输原始数据进行解压缩及默认值补齐处理,获得目标数据。
本发明实施例通过接收处于第一局域网的HDFS传输的待传输原始数据,然后再对原始数据进行处理获得目标数据,避免了现有技术中先对原始数据进行处理获得较大数据量的处理后数据再进行传输导致的传输时间长的问题,因此本发明实施例大大减少了传输时间。
在一些实施例中,所述待传输原始数据为压缩的Hive表形式的数据,所述对所述待传输原始数据进行解压缩及默认值补齐处理,获得目标数据,包括:
所述ES服务器对所述压缩的Hive表形式的数据进行解压缩获得json格式的解压后数据;
对所述解压后数据进行默认值补齐,获得所述目标数据。
本发明实施例通过在ES服务器接收到待传输原始数据后,对待传输原始数据进行解压缩以及默认值补齐操作,在满足了ES服务器中对数据的使用要求的同时,减少了数据传输的时间。
在一些实施例中,所述对所述解压后数据进行默认值补齐,包括:
向所述HDFS中的服务器发送调用接口的请求;
接收所述HDFS中的服务器响应所述请求发送的默认值配置数据;
根据所述默认值配置数据对所述解压后数据进行默认值补齐。
本发明实施例通过调用接口来实现默认值补齐,解决了ES服务器没有权限进行默认值补齐的操作,因此,能够在满足了ES服务器中对数据的使用要求的同时,减少了数据传输的时间。
又一方面,本发明实施例提供一种数据传输装置,所述装置处于第一局域网,包括:
第一获取模块,用于获取待传输原始数据,所述待传输原始数据为未进行解压缩及默认值补齐处理的数据;
传输模块,用于将所述待传输原始数据传输至处于第二局域网的ES服务器中,以使所述ES服务器对所述待传输原始数据进行解压缩及默认值补齐处理,获得目标数据。
在一些实施例中,所述装置,还包括:
接口封装模块,用于获取默认值配置数据,并将所述默认值配置数据封装成调用接口;
接收所述ES服务器调用所述调用接口的请求;
响应所述请求,并将所述默认值配置数据发送至所述ES服务器。
在一些实施例中,所述传输模块,具体用于:
将所述待传输原始数据通过消息系统Kafka传输至处于第二局域网的ES服务器中。
再一方面,本发明实施例提供一种数据传输装置所述装置处于第二局域网,包括:
接收模块,用于接收第一局域网的HDFS传输的待传输原始数据;
处理模块,用于对所述待传输原始数据进行解压缩及默认值补齐处理,获得目标数据。
在一些实施例中,所述待传输原始数据为压缩的Hive表形式的数据,所述处理模块,具体用于:
所述ES服务器对所述压缩的Hive表形式的数据进行解压缩获得json格式的解压后数据;
对所述解压后数据进行默认值补齐,获得所述目标数据。
在一些实施例中,所述处理模块,具体用于:
向所述HDFS中的服务器发送调用接口的请求;
接收所述HDFS中的服务器响应所述请求发送的默认值配置数据;
根据所述默认值配置数据对所述解压后数据进行默认值补齐。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种数据传输方法流程示意图;
图2为本发明实施例提供的一种数据传输方法流程示意图;
图3为本发明实施例提供的另一种一种数据传输方法流程示意图;
图4为本发明实施例提供的一种数据传输装置结构示意图;
图5为本发明实施例提供的一种数据传输装置结构示意图;
图6为本发明实施例提供的电子设备结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本发明实施例提供的一种数据传输方法流程示意图,如图1所示,对于要将处于第一局域网的HDFS中的数据传输到处于第二局域网的ES服务器中,可以通过hive工具从HDFS中将待传输的原始数据读取出来,此时读取出来的待传输原始数据的形式为压缩的hive表的形式。由于ES服务器所需要的数据是经过解压和默认值补齐后的。因此,在将HDFS中的数据传输到ES服务器中,使ES服务器进行使用,需要在获取到待传输原始数据后,将其进行加压缩和默认值补齐处理。
以网约车场景为例,乘客宽表数据比较稀疏,并且采用ORC的格式压缩,每天全量数据在200G左右,经过解压后解析成json格式,并进行默认值补齐,得到的补齐后的数据大小为20T左右,在将20T的数据跨机房从HDFS传输至ES服务器,通过Ping对方机房的节点,单次传输需要40-50毫秒,传输速度受到带宽的影响较为严重,其数据传输时间较长。
为了解决上述问题,本发明实施例提供一种数据传输方法,能够大大减少数据传输的时长,具体方案如下:
图2为本发明实施例提供的一种数据传输方法流程示意图,如图2所示,该方法包括:
步骤201:处于第一局域网的HDFS中的服务器获取待传输原始数据,所述待传输原始数据为未进行解压缩及默认值补齐处理的数据。
在具体的实施过程中,若处于第一局域网中的HDFS中的一个服务器中的数据需要传输到ES服务器中,供ES服务器使用。此时,HDFS中的服务器可以利用hive工具读取到待传输原始数据,应当说明的是,hive工具读取到的待传输原始数据的形式为压缩的hive表的形式,且该待传输原始数据是没有进行解压缩及默认值补齐处理的。
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
步骤202:将所述待传输原始数据传输至处于第二局域网的ES服务器中,以使所述ES服务器对所述待传输原始数据进行解压缩及默认值补齐处理,获得目标数据。
在具体的实施过程中,当通过hive工具将待传输原始数据获取到后,直接将其传输至处于第二局域网的ES服务器中,ES服务器在接收到待传输原始数据后,对待传输原始数据进行处理,从而获得满足使用要求的目标数据。应当说明的是,对待传输原始数据的处理方法可以包括解压缩以及默认值补齐,解压缩的目的是将压缩的hive数据解压并解析为json数据。由于待传输原始数据中包括了多个用户,每个用户中包括多个特征,每个特征有对应的默认值(0,9999,9999等),需要对每个特征进行默认值补齐操作,其目的为获得能够使用的目标数据。
例如:对于时间字段,会将其补充为XXXX-XX-XX的格式,对于数值类型会将其补充为特定默认值,不会将这些数据置空。
本发明实施例通过先从HDFS中的服务器中获取待传输原始数据,并将待传输原始数据传输至处于第二局域网中的ES服务器中,然后在ES服务器中再进行处理,使得HDFS向ES服务器传输的数据量较小,因此,能够大大减少传输时间。
在上述实施例的基础上,所述方法,还包括:
获取默认值配置数据,并将所述默认值配置数据封装成调用接口;
接收所述ES服务器调用所述调用接口的请求;
响应所述请求,并将所述默认值配置数据发送至所述ES服务器。
在具体的实施过程中,由于现有技术中的ES服务器中没有权限对待传输原始数据进行默认值补齐操作,只有HDFS中的服务器具备默认值补齐的操作权限,因此,可以预先在HDFS中的服务器中获取所有的默认值配置数据,然后将默认值配置数据封装成一个调用接口,该调用接口为HTTP调用接口。由于ES服务器可以使用json通过HTTP来索引数据,因此,当ES服务器需要对待传输原始数据进行默认值补齐操作时,可以向HDFS中的服务器发送调用该接口的请求,HDFS中的服务器在接收到该请求后,将默认值数据发送至ES服务器,从而实现默认值补齐操作。
本发明实施例通过预先将默认值配置数据封装成调用接口以供ES服务器调用,能够保证ES服务器有权限进行默认值补齐操作。
在上述实施例的基础上,所述将所述待传输原始数据传输至处于第二局域网的ES服务器中,包括:
将所述待传输原始数据通过消息系统Kafka传输至处于第二局域网的ES服务器中。
在具体的实施过程中,Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。因此,当传输的待传输原始数据的数据量较大时,通过Kafka进行传输能够大大提高数据传输的效率。
图3为本发明实施例提供的另一种一种数据传输方法流程示意图,如图3所示,该方法包括:
步骤301:处于第二局域网的ES服务器接收第一局域网的HDFS中一服务器传输的待传输原始数据;
在具体的实施过程中,若要将第一局域网中HDFS中的一个服务器中的数据传输至ES服务器,并在ES服务器中应用,则可以通过hive工具从该服务器中进行数据读取,获得待传输原始数据,应当说明的是,待传输原始数据的数据形式为压缩的hive表的形式。当获得待传输原始数据后,可以通过Kafka将待传输原始数据传输至第二局域网中的ES服务器。应当说明的是,传输至ES服务器中的待传输原始数据是没有经过解压缩以及默认值补齐的。
步骤302:对所述待传输原始数据进行解压缩及默认值补齐处理,获得目标数据。
在具体的实施过程中,当ES服务器接收到待传输原始数据后,再对待传输原始数据进行解压缩及默认值补齐处理,获得目标数据,此时,获得的目标数据的数据量可能要比待传输原始数据的数据量大很多。
本发明实施例通过接收处于第一局域网的HDFS传输的待传输原始数据,然后再对原始数据进行处理获得目标数据,避免了现有技术中先对原始数据进行处理获得较大数据量的处理后数据再进行传输导致的传输时间长的问题,因此本发明实施例大大减少了传输时间。
在上述实施例的基础上,所述待传输原始数据为压缩的Hive表形式的数据,所述对所述待传输原始数据进行处理,获得目标数据,包括:
所述ES服务器对所述压缩的Hive表形式的数据进行解压缩获得json格式的解压后数据;
对所述解压后数据进行默认值补齐,获得所述目标数据。
在具体的实施过程中,HDFS可以利用hive工具对服务器中的数据进行读取,从而获得到的待传输原始数据的数据形式为Hive表形式的数据。由于ES服务器所需的数据为解压缩后的json数据,且需要对json数据进行默认值补齐操作,因此ES服务器首先可以对压缩的Hive表形式的待传输原始数据进行解压缩操作,解析为json格式的解压后数据。ES服务器然后对解压后数据进行默认值补齐操作,最终得到能够使用的目标数据。
应当说明的是,通过解压缩处理以及默认值补齐处理后的目标数据的数据量远远大于待传输原始数据。因此,相较于现有技术,在HDFS与ES服务器之间传输的数据量大大减少,由于跨局域网的两个装置之间受带宽的影响,其传输速度有限,所以,通过减少要传输的数据量来大大缩短数据传输的时间。
在上述实施例的基础上,所述对所述解压后数据进行默认值补齐,包括:
向所述HDFS中的服务器发送调用接口的请求;
接收所述HDFS中的服务器响应所述请求发送的默认值配置数据;
根据所述默认值配置数据对所述解压后数据进行默认值补齐。
在具体的实施过程中,由于现有技术中的ES服务器中没有权限对待传输原始数据进行默认值补齐操作,只有HDFS中的服务器具备默认值补齐的操作权限,因此,可以预先在HDFS中的服务器中获取所有的默认值配置数据,然后将默认值配置数据封装成一个调用接口,并将给接口暴露给ES服务器,该调用接口为HTTP调用接口。由于ES服务器可以使用json通过HTTP来索引数据,因此,在对解压后数据进行默认值补齐操作时,可以向HDFS中的服务器发送调用该接口的请求,HDFS中的服务器在接收到该请求后,将默认值数据发送至ES服务器,然后根据获取到的默认值配置数据从而实现默认值补齐操作。
本发明实施例通过调用接口来实现默认值补齐,解决了ES服务器没有权限进行默认值补齐的操作,因此,能够在满足了ES服务器中对数据的使用要求的同时,减少了数据传输的时间。
图4为本发明实施例提供的一种数据传输装置结构示意图,如图4所示,该装置包括:第一获取模块401和传输模块402,其中:
第一获取模块401用于获取待传输原始数据,所述待传输原始数据为未进行解压缩及默认值补齐处理的数据;传输模块402用于将所述待传输原始数据传输至处于第二局域网的ES服务器中,以使所述ES服务器对所述待传输原始数据进行解压缩及默认值补齐处理,获得目标数据。
在上述实施例的基础上,所述装置,还包括:
接口封装模块,用于获取默认值配置数据,并将所述默认值配置数据封装成调用接口;
接收所述ES服务器调用所述调用接口的请求;
响应所述请求,并将所述默认值配置数据发送至所述ES服务器。
在上述实施例的基础上,所述传输模块,具体用于:
将所述待传输原始数据通过消息系统Kafka传输至处于第二局域网的ES服务器中。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
综上所述,本发明实施例通过先从HDFS中的服务器中获取待传输原始数据,并将待传输原始数据传输至处于第二局域网中的ES服务器中,然后在ES服务器中再进行处理,使得HDFS向ES服务器传输的数据量较小,因此,能够大大减少传输时间。
图5为本发明实施例提供的一种数据传输装置结构示意图,如图5所示,该装置处于第二局域网,包括:接收模块501和处理模块502,其中:
接收模块501用于接收第一局域网的HDFS传输的待传输原始数据;处理模块502用于对所述待传输原始数据进行解压缩及默认值补齐处理,获得目标数据。
在上述实施例的基础上,所述待传输原始数据为压缩的Hive表形式的数据,所述处理模块,具体用于:
所述ES服务器对所述压缩的Hive表形式的数据进行解压缩获得json格式的解压后数据;
对所述解压后数据进行默认值补齐,获得所述目标数据。
在上述实施例的基础上,所述处理模块,具体用于:
向所述HDFS中的服务器发送调用接口的请求;
接收所述HDFS中的服务器响应所述请求发送的默认值配置数据;
根据所述默认值配置数据对所述解压后数据进行默认值补齐。
本发明实施例通过接收处于第一局域网的HDFS传输的待传输原始数据,然后再对原始数据进行处理获得目标数据,避免了现有技术中先对原始数据进行处理获得较大数据量的处理后数据再进行传输导致的传输时间长的问题,因此本发明实施例大大减少了传输时间。
在一些实施例中,服务器可以是单个服务器,也可以是服务器组。服务器组可以是集中式的,也可以是分布式的(例如,服务器可以是分布式系统)。
在一些实施例中,服务器可以包括处理器。处理器可以处理与服务请求有关的信息和/或数据,以执行本申请中描述的一个或多个功能。在一些实施例中,处理器可以包括一个或多个处理核(例如,单核处理器(S)或多核处理器(S))。仅作为举例,处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、专用指令集处理器(Application Specific Instruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(ReducedInstruction Set Computing,RISC)、或微处理器等,或其任意组合。
图6示出根据本申请的一些实施例的可以实现本申请思想的电子设备的示例性硬件和软件组件的示意图。例如,处理器620可以用于电子设备600上,并且用于执行本申请中的功能。
电子设备600可以是通用计算机或特殊用途的计算机,两者都可以用于实现本申请的数据传输方法。本申请尽管仅示出了一个计算机,但是为了方便起见,可以在多个类似平台上以分布式方式实现本申请描述的功能,以均衡处理负载。其中,该电子设备可以为HDFS,与之通信的计算机可以是ES服务器。另外,电子设备也可以为ES服务器,此时,与之通信的计算机为HDFS。
例如,电子设备600可以包括连接到网络的网络端口610、用于执行程序指令的一个或多个处理器620、通信总线630、和不同形式的存储介质640,例如,磁盘、ROM、或RAM,或其任意组合。示例性地,计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备200还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output,I/O)接口650。
为了便于说明,在电子设备600中仅描述了一个处理器。然而,应当注意,本申请中的电子设备600还可以包括多个处理器,因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如,若电子设备600的处理器执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一处理器和第二处理器共同执行步骤A和B。
上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等,或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接,或其任意组合。两个或更多个模块可以组合为单个模块,并且任何一个模块可以分成两个或更多个单元。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (16)
1.一种数据传输方法,其特征在于,应用于从Hadoop分布式文件系统HDFS中的服务器向Elastic Search服务器的数据传输,包括:
处于第一局域网的HDFS中的服务器获取待传输原始数据,所述待传输原始数据为未进行解压缩及默认值补齐处理的数据;
将所述待传输原始数据传输至处于第二局域网的ES服务器中,以使所述ES服务器对所述待传输原始数据进行解压缩及默认值补齐处理,获得目标数据。
2.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
获取默认值配置数据,并将所述默认值配置数据封装成调用接口;
接收所述ES服务器调用所述调用接口的请求;
响应所述请求,并将所述默认值配置数据发送至所述ES服务器。
3.根据权利要求1所述的方法,其特征在于,所述将所述待传输原始数据传输至处于第二局域网的ES服务器中,包括:
将所述待传输原始数据通过消息系统Kafka传输至处于第二局域网的ES服务器中。
4.一种数据传输方法,其特征在于,应用于从Hadoop分布式文件系统HDFS中的服务器向Elastic Search服务器的数据传输,包括:
处于第二局域网的ES服务器接收第一局域网的HDFS中一服务器传输的待传输原始数据;
对所述待传输原始数据进行解压缩及默认值补齐处理,获得目标数据。
5.根据权利要求4所述的方法,其特征在于,所述待传输原始数据为压缩的Hive表形式的数据,所述对所述待传输原始数据进行解压缩及默认值补齐处理,获得目标数据,包括:
所述ES服务器对所述压缩的Hive表形式的数据进行解压缩获得json格式的解压后数据;
对所述解压后数据进行默认值补齐,获得所述目标数据。
6.根据权利要求5所述的方法,其特征在于,所述对所述解压后数据进行默认值补齐,包括:
向所述HDFS中的服务器发送调用接口的请求;
接收所述HDFS中的服务器响应所述请求发送的默认值配置数据;
根据所述默认值配置数据对所述解压后数据进行默认值补齐。
7.一种数据传输装置,其特征在于,所述装置处于第一局域网,包括:
第一获取模块,用于获取待传输原始数据,所述待传输原始数据为未进行解压缩及默认值补齐处理的数据;
传输模块,用于将所述待传输原始数据传输至处于第二局域网的ES服务器中,以使所述ES服务器对所述待传输原始数据进行解压缩及默认值补齐处理,获得目标数据。
8.根据权利要求7所述的装置,其特征在于,所述装置,还包括:
接口封装模块,用于获取默认值配置数据,并将所述默认值配置数据封装成调用接口;
接收所述ES服务器调用所述调用接口的请求;
响应所述请求,并将所述默认值配置数据发送至所述ES服务器。
9.根据权利要求7所述的装置,其特征在于,所述传输模块,具体用于:
将所述待传输原始数据通过消息系统Kafka传输至处于第二局域网的ES服务器中。
10.一种数据传输装置,其特征在于,所述装置处于第二局域网,包括:
接收模块,用于接收第一局域网的HDFS传输的待传输原始数据;
处理模块,用于对所述待传输原始数据进行解压缩及默认值补齐处理,获得目标数据。
11.根据权利要求10所述的装置,其特征在于,所述待传输原始数据为压缩的Hive表形式的数据,所述处理模块,具体用于:
ES服务器对所述压缩的Hive表形式的数据进行解压缩获得json格式的解压后数据;
对所述解压后数据进行默认值补齐,获得所述目标数据。
12.根据权利要求足11所述的装置,其特征在于,所述处理模块,具体用于:
向所述HDFS中的服务器发送调用接口的请求;
接收所述HDFS中的服务器响应所述请求发送的默认值配置数据;
根据所述默认值配置数据对所述解压后数据进行默认值补齐。
13.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1至3任一所述的数据传输的方法的步骤。
14.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至3任一所述的数据传输的方法的步骤。
15.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求4至6任一所述的数据传输的方法的步骤。
16.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求4至6任一所述的数据传输的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811489231.8A CN111294371B (zh) | 2018-12-06 | 2018-12-06 | 一种数据传输方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811489231.8A CN111294371B (zh) | 2018-12-06 | 2018-12-06 | 一种数据传输方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111294371A CN111294371A (zh) | 2020-06-16 |
CN111294371B true CN111294371B (zh) | 2022-07-05 |
Family
ID=71025200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811489231.8A Active CN111294371B (zh) | 2018-12-06 | 2018-12-06 | 一种数据传输方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111294371B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008142799A1 (ja) * | 2007-05-24 | 2008-11-27 | Fujitsu Limited | 情報検索プログラム、該プログラムを記録した記録媒体、情報検索方法、および情報検索装置 |
CN108039959A (zh) * | 2017-11-29 | 2018-05-15 | 深信服科技股份有限公司 | 一种数据的态势感知方法、系统及相关装置 |
CN108228830A (zh) * | 2018-01-03 | 2018-06-29 | 广东工业大学 | 一种数据处理系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2974345A4 (en) * | 2013-03-15 | 2016-12-28 | Yahoo Inc | COMPUTER SYSTEM DISTRIBUTED BY GEOGRAPHIC LOCATION, SEGMENT AND SINGLE INSTANCE |
US20170024653A1 (en) * | 2015-03-30 | 2017-01-26 | Edgeverve Systems Limited | Method and system to optimize customer service processes |
US10534664B2 (en) * | 2016-02-03 | 2020-01-14 | ScaleFlux | In-memory data storage with adaptive memory fault tolerance |
-
2018
- 2018-12-06 CN CN201811489231.8A patent/CN111294371B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008142799A1 (ja) * | 2007-05-24 | 2008-11-27 | Fujitsu Limited | 情報検索プログラム、該プログラムを記録した記録媒体、情報検索方法、および情報検索装置 |
CN108039959A (zh) * | 2017-11-29 | 2018-05-15 | 深信服科技股份有限公司 | 一种数据的态势感知方法、系统及相关装置 |
CN108228830A (zh) * | 2018-01-03 | 2018-06-29 | 广东工业大学 | 一种数据处理系统 |
Non-Patent Citations (5)
Title |
---|
Real-time clickstream data analytics and visualization;Ramanna Hanamanthrao 等;《IEEE》;20180115;全文 * |
基于Lucene技术的邮件取证技术研究;吴昊;《信息网络安全》;20131010(第10期);全文 * |
基于海量异构数据源的数据分析处理平台设计与实现;王博等;《数字通信世界》;20170801(第08期);全文 * |
基于海量数据统计的定向套牌车检测算法;王妍妍等;《指挥信息系统与技术》;20160706(第03期);全文 * |
实时大数据开放平台;郑博等;《电信科学》;20171220;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111294371A (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180329644A1 (en) | Data Pipeline Architecture for Analytics Processing Stack | |
CN110808922B (zh) | 一种消息处理方法、装置、存储介质及电子设备 | |
US20190004868A1 (en) | System and method for distributed graphics processing unit (gpu) computation | |
CN109918205B (zh) | 一种边缘设备调度方法、系统、装置及计算机存储介质 | |
CA2951618A1 (en) | Data pipeline architecture for cloud processing of structured and unstructured data | |
CN111259037B (zh) | 一种基于规则配置的数据查询方法、装置、存储介质及终端 | |
CN110334074B (zh) | 数据处理方法、装置、服务器及存储介质 | |
CN107506284B (zh) | 日志处理方法及装置 | |
CN110781180B (zh) | 一种数据筛选方法和数据筛选装置 | |
CN105429813A (zh) | docker的监控方法及客户端 | |
CN112532748B (zh) | 消息推送方法、装置、设备、介质和计算机程序产品 | |
CN115567589A (zh) | Json数据的压缩传输方法、装置、设备及存储介质 | |
CN113242244B (zh) | 数据传输方法、装置和系统 | |
CN108062401B (zh) | 应用推荐方法、装置及存储介质 | |
CN111294371B (zh) | 一种数据传输方法、装置、电子设备及存储介质 | |
CN114253798A (zh) | 指标数据采集方法和装置、电子设备、存储介质 | |
CN111831713A (zh) | 一种数据处理方法、装置及设备 | |
CN111612434B (zh) | 用于生成处理流程的方法、装置、电子设备和介质 | |
CN116996363A (zh) | 一种配电网的故障预警方法及相关装置 | |
CN109710604A (zh) | 数据处理方法、装置、系统、计算机可读存储介质 | |
CN110728118B (zh) | 跨数据平台的数据处理方法、装置、设备及存储介质 | |
CN114564249A (zh) | 推荐调度引擎、推荐调度方法及计算机可读存储介质 | |
CN114035861A (zh) | 集群配置方法、装置、电子设备和计算机可读介质 | |
CN111814987A (zh) | 动态反馈方法、模型训练方法、装置、设备及存储介质 | |
CN113691403A (zh) | 拓扑节点配置方法、相关装置及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |