CN113630365B - 海量异构数据的并行传输方法、装置、设备及存储介质 - Google Patents

海量异构数据的并行传输方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113630365B
CN113630365B CN202010376004.5A CN202010376004A CN113630365B CN 113630365 B CN113630365 B CN 113630365B CN 202010376004 A CN202010376004 A CN 202010376004A CN 113630365 B CN113630365 B CN 113630365B
Authority
CN
China
Prior art keywords
data
cluster
parallel processing
processing database
database cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010376004.5A
Other languages
English (en)
Other versions
CN113630365A (zh
Inventor
刘芳
李佳记
杨敬巍
孙川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010376004.5A priority Critical patent/CN113630365B/zh
Publication of CN113630365A publication Critical patent/CN113630365A/zh
Application granted granted Critical
Publication of CN113630365B publication Critical patent/CN113630365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/604Tools and structures for managing or administering access control systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0807Network architectures or network communication protocols for network security for authentication of entities using tickets, e.g. Kerberos
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/133Protocols for remote procedure calls [RPC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0861Generation of secret information including derivation or calculation of cryptographic keys or passwords
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/321Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving a third party or a trusted authority
    • H04L9/3213Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving a third party or a trusted authority using tickets or tokens, e.g. Kerberos
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2141Access rights, e.g. capability lists, access control lists, access tables, access matrices

Abstract

本发明实施例提供了一种海量异构数据的并行传输方法、装置、设备及存储介质,该方法包括:激活分布式集群与并行处理数据库集群的网络认证协议;根据网络认证协议建立分布式集群与并行处理数据库集群的数据认证关系;根据数据认证关系获取分布式集群的访问权限;根据访问权限将HDFS中的第一数据并行传输到并行处理数据库集群。本发明能够将HDFS中的数据直接导入并行处理数据库集群,无需进行二次数据格式转换,提升了海量异构数据的传输效率。

Description

海量异构数据的并行传输方法、装置、设备及存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种海量异构数据的并行传输方法、装置、设备及存储介质。
背景技术
大数据(Big data)通常用来形容一个企业创造的海量非结构化数据、半结构化数据和结构化数据,近年来,随着互联网的快速发展,大数据中非结构化数据的数据量迅速增长,据IDC的调查报告显示:企业中80%的数据都是非结构化数据,因此,非结构化数据已逐渐成为了大数据中的主要组成部分。
传统的大数据平台在进行数据汇总时,非结构化数据、半结构化数据等非关系型数据主要由非关系型大数据集群中的分布式文件系统(Hadoop Distributed FileSystem)进行存储,结构化数据等关系型数据主要由关系型大规模并行处理(MassivelyParallel Processing,MPP)数据库集群进行存储,即数据异构存储。由于两种平台存储数据类型分别为非关系型和关系型,因此当业务数据在两类平台间传输时,需先将分布式文件系统中的非关系型数据导出生成文本文件,再通过文件传输协议(File TransferProtocol,FTP)将文本文件送至接口机,最后将文本文件格式化导入至MPP数据库,采用上述数据传输方式流程比较复杂,严重影响了异构数据的传输效率。
发明内容
本发明实施例提供了一种海量异构数据的并行传输方法、装置、设备及存储介质,能够将HDFS中的数据直接导入并行处理数据库集群,无需进行二次数据格式转换,简化了数据的传输流程,提升了海量异构数据的传输效率。
第一方面,提供了一种海量异构数据的并行传输方法,该方法包括:激活分布式集群与并行处理数据库集群的网络认证协议,并行处理数据库集群包括分布式集群的客户端,分布式集群包括多个第一节点,第一节点上包括分布式文件系统HDFS,HDFS用于存储第一数据,并行处理数据库集群用于存储第二数据,第一数据与第二数据为异构关系;根据网络认证协议建立分布式集群与并行处理数据库集群的数据认证关系;根据数据认证关系获取分布式集群的访问权限;根据访问权限将HDFS中的第一数据并行传输到并行处理数据库集群。
在第一方面的一些可实现方式中,多个第一节点中包括管理节点,在激活分布式集群与并行处理数据库集群的网络认证协议之前,该方法还包括:激活HDFS的超文本传输协议HTTP和安全超文本传输协议HTTPS的兼容模式;激活管理节点的HTTP_ONLY协议;激活分布式集群的远程过程调用RPC服务,RPC服务用于支持数据认证关系的建立。
在第一方面的一些可实现方式中,数据认证关系包括票据认证关系;票据认证关系包括服务票据、主机票据和用户票据。
在第一方面的一些可实现方式中,并行处理数据库集群包括多个第二节点,该方法还包括:根据服务票据、主机票据和用户票据生成密钥文件;将密钥文件分别发送给多个第二节点。
在第一方面的一些可实现方式中,配置密钥文件在每个第二节点上的权限。
在第一方面的一些可实现方式中,并行处理数据库集群与分布式集群的参数配置相同。
在第一方面的一些可实现方式中,分布式集群包括海杜普Hadoop集群;并行处理数据库集群包括MPP数据库集群。
第二方面,提供了一种线程数量调整的装置,该装置包括:激活模块,用于激活分布式集群与并行处理数据库集群的网络认证协议,并行处理数据库集群包括分布式集群的客户端,分布式集群包括多个第一节点,第一节点上包括分布式文件系统HDFS,HDFS用于存储第一数据,并行处理数据库集群用于存储第二数据,第一数据与第二数据为异构关系;认证模块,用于根据网络认证协议建立分布式集群与并行处理数据库集群的数据认证关系;认证模块,还用于根据数据认证关系获取分布式集群的访问权限;数据传输模块,用于根据访问权限将HDFS中的第一数据并行传输到并行处理数据库集群。
在第二方面的一些可实现方式中,多个第一节点中包括管理节点,在激活分布式集群与并行处理数据库集群的网络认证协议之前,激活模块还用于:激活HDFS的超文本传输协议HTTP和安全超文本传输协议HTTPS的兼容模式;激活管理节点的HTTP_ONLY协议;激活分布式集群的远程过程调用RPC服务,RPC服务用于支持数据认证关系的建立。
在第二方面的一些可实现方式中,数据认证关系包括票据认证关系;票据认证关系包括服务票据、主机票据和用户票据。
在第二方面的一些可实现方式中,并行处理数据库集群包括多个第二节点,还包括生成模块,用于:根据服务票据、主机票据和用户票据生成密钥文件;将密钥文件分别发送给多个第二节点。
在第二方面的一些可实现方式中,还包括配置模块,用于配置密钥文件在每个第二节点上的权限。
在第二方面的一些可实现方式中,并行处理数据库集群与分布式集群的参数配置相同。
在第二方面的一些可实现方式中,分布式集群包括海杜普Hadoop集群;并行处理数据库集群包括MPP数据库集群。
第三方面,提供了一种海量异构数据的并行传输设备,该设备包括:处理器,以及存储有计算机程序指令的存储器;处理器读取并执行计算机程序指令时实现第一方面或第一方面的一些可实现方式中的海量异构数据的并行传输方法。
第四方面,提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面或第一方面的一些可实现方式中的海量异构数据的并行传输方法。
本发明实施例的海量异构数据的并行传输方法、装置、设备及计算机存储介质,通过建立分布式集群与并行处理数据库集群的数据认证关系,实现分布式集群与并行处理数据库集群的直连对接,从而能够将HDFS中的数据直接导入并行处理数据库集群,无需进行二次数据格式转换,简化了数据的传输流程,提升了异构数据的传输效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种海量异构数据的并行传输方法的流程示意图;
图2是本发明实施例提供的一种Hadoop集群与MPP数据库集群的认证过程的流程示意图;
图3是本发明实施例提供的一种海量异构数据的并行传输装置的结构示意图;
图4是本发明实施例提供的一种海量异构数据的并行传输设备的结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
传统的大数据平台在汇总数据时,非关系型数据由非关系型大数据集群中的分布式文件系统存储,关系型数据由关系型数据库集群存储。
由于两种平台存储的数据类型为关系型和非关系型,即数据异构存储,因此,当业务数据在两类平台间进行传输、转载、交换时,需要二次数据格式转换才能进入数据库,即需先将非关系型数据导出至文本文件,再将文本文件通过FTP网络传输协议送至接口机,最后将文本文件导入至MPP数据库生成关系型存储格式数据。
上述异构数据的传输方式需要先落地成文件,再进行二次数据格式转换才可执行数据入库,流程复杂,因此数据传输效率较低。
上述异构数据的传输方式仅能实现异构数据的单(节)点对单(节)点传输入库,并且从非关系型数据到关系型数据的解析过程时间较长,最后将解析后的文本文件,通过单点进入关系型数据库集群需要额外的时间,无法利用非关系型大数据集群的多点并行处理能力,传输方法不够灵活。
采用上述异构数据的传输方法时,仅能将数据采集、数据处理、数据转换格式全部完成后,另一端的关系型数据库集群才能够获取到数据,每次获取需要占用较长时间且需批量数据一次性传输,数据获取方式笨拙,无法满足实时性要求,处理实时变化的异构数据效率低。
为了解决传统异构数据的传输方式的传输效率低的问题,本发明实施例提供了一种海量异构数据的并行传输方法、装置、设备及计算机存储介质。下面结合附图对本发明实施例的技术方案进行描述。
图1是本发明实施例提供的一种海量异构数据的并行传输方法的流程示意图,如图1所示,该方法的执行主体可以是海量异构数据的并行传输设备,该海量异构数据的并行传输方法可以包括以下步骤:
S101,激活分布式集群与并行处理数据库集群的网络认证协议。
其中,分布式集群中包括多个第一节点,每个第一节点上包括分布式文件系统,HDFS用于存储第一数据,并行处理数据库集群用于存储第二数据,第一数据与第二数据为异构关系。
在一个实施例中,分布式集群可以包括海杜普Hadoop集群,Hadoop集群中的HDFS上存储的第一数据包括非结构化数据、半结构化数据等基础汇总的非关系型数据。
在一个实施例中,并行处理数据库集群可以包括MPP数据库集群,MPP数据库集群中存储的第二数据包括结构化数据等深度汇总的关系型数据。
在一个实施例中,在激活分布式集群与并行处理数据库集群的网络认证协议之前,需要事先将分布式集群的客户端部署至并行处理数据库集群,部署后的并行处理数据库集群包括分布式集群的客户端。
在一个实施例中,多个第一节点中包括管理节点(Namenode)和工作节点(Datanode),网络认证协议可以为Kerberos,在激活分布式集群与并行处理数据库集群的Kerberos之前,还需要对分布式集群与并行处理数据库集群进行相应的参数配置,具体包括以下几个步骤:
步骤1,激活分布式集群中HDFS的超文本传输协议HTTP和安全超文本传输协议HTTPS的兼容模式。
步骤2,激活管理节点的HTTP_ONLY协议。
步骤3,激活分布式集群的远程过程调用RPC服务,RPC服务用于支持数据认证关系的建立。
步骤4,激活Kerberos的前向配置。
在一个实施例中,并行处理数据库集群中包括多个第二节点,并行处理数据库集群与分布式集群的参数配置相同。
S102,根据网络认证协议建立分布式集群与并行处理数据库集群的数据认证关系。
在一个实施例中,数据认证关系包括票据认证关系,票据认证关系中包括服务票据、主机票据和用户票据。
在一个实施例中,并行处理数据库集群包括多个第二节点,当并行处理数据库集群为MPP数据库集群时,在每个第二节点上都要配置mpp服务票据、mpp主机票据和mpp用户票据;
其中,mpp服务票据的princ主体格式为:
mpp/hostname.hadoop.com@HADOOP.COM;
mpp主机票据的princ主体格式为:
host/hostname.hadoop.com和host/hostname@HADOOP.COM;
mpp用户票据:如若该mpp用户票据已存在,可查看用户属性是否符合allow_renewable、requires_preauth、allow_forwardable要求,其中,allow_renewable可以对主体发出可更新的凭单,requires_preauth在发出凭单之前需要预先对软件进行认证,allow_forwardable可以对主体发出可提前的凭单。
在一个实施例中,根据网络认证协议建立分布式集群与并行处理数据库集群的数据认证关系,还可以包括:
步骤1,根据服务票据、主机票据和用户票据生成密钥文件。
将服务票据、主机票据和用户票据进行合并,生成一个密钥keytab文件。
步骤2,将密钥文件分别发送给多个第二节点。
需将keytab文件复制到并行处理数据库集群中的所有第二节点。
步骤3,配置密钥文件在每个第二节点上的权限。
配置密钥文件在每个第二节点上的文件名和文件路径的对应关系。
在一个实施例中,当分布式集群为Hadoop集群、并行处理数据库集群为MPP数据库集群时,将keytab分别部署至MPP数据库集群中的所有主机,并具备相应可用权限和属主,具体可以通过以下代码实现:
Figure BDA0002480066810000071
Figure BDA0002480066810000081
在一个实施例中,并行处理数据库集群的认证激活,具体可以通过以下代码实现:
Figure BDA0002480066810000082
S103,根据数据认证关系获取分布式集群的访问权限。
在一个实施例中,当数据认证关系为票据认证关系时,根据票据认证关系获取分布式集群的访问权限,包括:首先,根据票据认证关系中的票据去获取分布式集群的令牌;然后,使用分布式集群的令牌就能够对分布式集群中的HDFS进行访问,完成了分布式集群与并行处理数据库集群的安全认证鉴权。通常,令牌上包括时间戳(有效使用期限),当令牌过期后,并行处理数据库集群能够自动更新或替换过期令牌。
图2是本发明实施例提供的一种海杜普集群与大规模并行处理数据库集群的认证过程的流程示意图,如图2所示,由网络认证协议(Kerberos)执行第三方认证服务,客户端用户发送ID到服务器(密钥分发中心)以请求验证,当通过服务器的验证后,客户端用户会获取到票据。开放数据库互连(Open Database Connectivity,ODBC)是为解决异构数据库间的数据共享而产生的,通过向第三方认证服务发送ID,获取到票据,再将票据发送到大规模并行处理MPP数据库集群的MPP节点,MPP节点成功获取到票据后,向海杜普集群中的管理节点发送票据,管理节点将该票据发送给服务器请求验证,当验证通过时,管理节点向大规模并行处理数据库集群的节点发送海杜普令牌,大规模并行处理数据库集群的MPP节点接收到海杜普令牌后,根据海杜普令牌就能够成功访问海杜普集群。
S104,根据访问权限将HDFS中的第一数据并行传输到并行处理数据库集群。
在一个实施例中,根据原生HDFS传输协议将HDFS上的各类数据文件实时并行装载到并行处理数据库集群。使用原生HDFS传输协议能够充分利用并行处理数据库集群的在任何节点上加载数据(Load data on any node)的功能,利用所有第二节点的计算能力并行装载数据,进一步的提升了异构数据的传输与共享速度。
在一个实施例中,获取到分布式集群的访问权限之后,可以直接在并行处理数据库集群中访问分布式集群中的第一数据,从而实现分布式集群中的第一数据与并行处理数据库集群内部列式存储数据以标准SQL方式对外提供关联分析服务,通过外部表和相应的数据源适配器来支持与外部数据源实时关联分析。
表1是采用本发明的海量异构数据的并行传输方法与传统异构数据传输方式的对比效果表,如表1所示,同样对数据量为100.8GB的3亿条数据进行装载,采用传统异构数据传输方式,装载时间为5800s,装载速度为17.80MB/S;而采用本发明的海量异构数据的并行传输方法,装载时间为155.017s,装载速度为665.86MB/S;全流程平均装载效率显著提升10倍以上。
表1
Figure BDA0002480066810000091
Figure BDA0002480066810000101
表2是采用本发明的海量异构数据的并行传输方法与传统异构数据传输方式的对比效果表,如表2所示,采用传统异构数据传输方式来处理2000万条数据,全部装载到并行处理数据库集群中的时间平均在360s左右,每秒入库数据量约为5.556万条;而采用本发明的海量异构数据的并行传输方法,分布式集群中的2000万数据只需20秒即可装载到并行处理数据库集群中,每秒入库数据量达到100万条,为原先装载效率的18倍。
表2
Figure BDA0002480066810000102
在一个实施例中,海量异构数据的并行传输方法可以应用于目前经营分析系统的整体市场分析数据,例如流量风暴、产品销售日报、存量客户套餐升档等各应用程序的处理流程,采用海量异构数据的并行传输方法处理业务数据,能够有力支撑业务部门需求,快速响应市场变化,为公司的市场决策提供了及时准确的数据支撑。
本发明实施例的海量异构数据的并行传输方法,通过优化分布式集群与并行处理集群的参数配置,建立分布式集群与并行处理数据库集群的数据认证关系,构建两个异构平台间的互信关系,实现分布式集群和并行处理数据库集群的直连对接和异构数据的不落地传输,无需进行二次数据格式转换,提升了异构数据的传输与共享速度。
图3是本发明实施例提供的一种海量异构数据的并行传输装置的结构示意图,如图3所示,该海量异构数据的并行传输装置200可以包括:激活模块210、认证模块220、数据传输模块230。
激活模块210,用于激活分布式集群与并行处理数据库集群的网络认证协议,并行处理数据库集群包括分布式集群的客户端,分布式集群包括多个第一节点,第一节点上包括分布式文件系统HDFS,HDFS用于存储第一数据,并行处理数据库集群用于存储第二数据,第一数据与第二数据为异构关系;
认证模块220,用于根据网络认证协议建立分布式集群与并行处理数据库集群的数据认证关系;
认证模块220,还用于根据数据认证关系获取分布式集群的访问权限;
数据传输模块230,用于根据访问权限将HDFS中的第一数据并行传输到并行处理数据库集群。
在一些实施例中,多个第一节点中包括管理节点,在激活分布式集群与并行处理数据库集群的网络认证协议之前,激活模块210还用于:激活HDFS的超文本传输协议HTTP和安全超文本传输协议HTTPS的兼容模式;激活管理节点的HTTP_ONLY协议;激活分布式集群的远程过程调用RPC服务,RPC服务用于支持数据认证关系的建立。
在一些实施例中,数据认证关系包括票据认证关系;票据认证关系包括服务票据、主机票据和用户票据。
在一些实施例中,并行处理数据库集群包括多个第二节点,还包括生成模块240,用于:根据服务票据、主机票据和用户票据生成密钥文件;将密钥文件分别发送给多个第二节点。
在一些实施例中,还包括配置模块250,用于配置密钥文件在每个第二节点上的权限。
在一些实施例中,并行处理数据库集群与分布式集群的参数配置相同。
在一些实施例中,分布式集群包括海杜普Hadoop集群;并行处理数据库集群包括MPP数据库集群。
本发明实施例的海量异构数据的并行传输装置,通过优化分布式集群与并行处理集群的参数配置,建立分布式集群与并行处理数据库集群的数据认证关系,构建两个异构平台间的互信关系,实现分布式集群和并行处理数据库集群的直连对接和异构数据的不落地传输,无需进行二次数据格式转换,提升了异构数据的传输与共享速度。
图4是本发明实施例提供的一种海量异构数据的并行传输设备的硬件结构示意图。
如图4所示,本实施例中的海量异构数据的并行传输设备300包括输入设备301、输入接口302、中央处理器303、存储器304、输出接口305、以及输出设备306。其中,输入接口302、中央处理器303、存储器304、以及输出接口305通过总线310相互连接,输入设备301和输出设备306分别通过输入接口302和输出接口305与总线310连接,进而与海量异构数据的并行传输设备300的其他组件连接。
具体地,输入设备301接收来自外部的输入信息,并通过输入接口302将输入信息传送到中央处理器303;中央处理器303基于存储器304中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器304中,然后通过输出接口305将输出信息传送到输出设备306;输出设备306将输出信息输出到海量异构数据的并行传输设备300的外部供用户使用。
在一个实施例中,图4所示的海量异构数据的并行传输设备300包括:存储器304,用于存储程序;处理器303,用于运行存储器中存储的程序,以执行本发明实施例提供的图1或图2所示实施例的方法。
本发明实施例还提供一种计算机存储介质,该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现本发明实施例提供的图1或图2所示实施例的方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,做出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器(Read-Only Memory,ROM)、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(Radio Frequency,RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种海量异构数据的并行传输方法,其特征在于,所述方法包括:
激活分布式集群与并行处理数据库集群的网络认证协议,所述并行处理数据库集群包括所述分布式集群的客户端,所述分布式集群包括多个第一节点,所述第一节点上包括分布式文件系统HDFS,所述HDFS用于存储第一数据,所述并行处理数据库集群用于存储第二数据,所述第一数据与所述第二数据为异构关系;
根据所述网络认证协议建立所述分布式集群与所述并行处理数据库集群的数据认证关系;
根据所述数据认证关系获取所述分布式集群的访问权限;
根据所述访问权限将所述HDFS中的所述第一数据并行传输到所述并行处理数据库集群。
2.根据权利要求1所述的方法,其特征在于,所述多个第一节点中包括管理节点,在所述激活分布式集群与并行处理数据库集群的网络认证协议之前,所述方法还包括:
激活所述HDFS的超文本传输协议HTTP和安全超文本传输协议HTTPS的兼容模式;
激活所述管理节点的HTTP_ONLY协议;
激活所述分布式集群的远程过程调用RPC服务,所述RPC服务用于支持所述数据认证关系的建立。
3.根据权利要求1所述的方法,其特征在于:
所述数据认证关系包括票据认证关系;
所述票据认证关系包括服务票据、主机票据和用户票据。
4.根据权利要求3所述的方法,其特征在于,所述并行处理数据库集群包括多个第二节点,所述方法还包括:
根据所述服务票据、所述主机票据和所述用户票据生成密钥文件;
将所述密钥文件分别发送给所述多个第二节点。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
配置所述密钥文件在每个所述第二节点上的权限。
6.根据权利要求1所述的方法,其特征在于:
所述并行处理数据库集群与所述分布式集群的参数配置相同。
7.根据权利要求1-6任意一项所述的方法,其特征在于:
所述分布式集群包括海杜普Hadoop集群;
所述并行处理数据库集群包括MPP数据库集群。
8.一种海量异构数据的并行传输装置,其特征在于,所述装置包括:
激活模块,用于激活分布式集群与并行处理数据库集群的网络认证协议,所述并行处理数据库集群包括所述分布式集群的客户端,所述分布式集群包括多个第一节点,所述第一节点上包括分布式文件系统HDFS,所述HDFS用于存储第一数据,所述并行处理数据库集群用于存储第二数据,所述第一数据与所述第二数据为异构关系;
认证模块,用于根据所述网络认证协议建立所述分布式集群与所述并行处理数据库集群的数据认证关系;
所述认证模块,还用于根据所述数据认证关系获取所述分布式集群的访问权限;
数据传输模块,用于根据所述访问权限将所述HDFS中的所述第一数据并行传输到所述并行处理数据库集群。
9.一种海量异构数据的并行传输设备,其特征在于,所述设备包括:处理器,以及存储有计算机程序指令的存储器;
所述处理器读取并执行所述计算机程序指令,以实现如权利要求1-7任意一项所述的海量异构数据的并行传输方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的海量异构数据的并行传输方法。
CN202010376004.5A 2020-05-07 2020-05-07 海量异构数据的并行传输方法、装置、设备及存储介质 Active CN113630365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010376004.5A CN113630365B (zh) 2020-05-07 2020-05-07 海量异构数据的并行传输方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010376004.5A CN113630365B (zh) 2020-05-07 2020-05-07 海量异构数据的并行传输方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113630365A CN113630365A (zh) 2021-11-09
CN113630365B true CN113630365B (zh) 2023-03-21

Family

ID=78376749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010376004.5A Active CN113630365B (zh) 2020-05-07 2020-05-07 海量异构数据的并行传输方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113630365B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116860300B (zh) * 2023-09-01 2023-11-28 武汉理工大学 面向多子网多ecu的车载ota并行升级方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102170440A (zh) * 2011-03-24 2011-08-31 北京大学 适用于存储云间数据安全迁移的方法
CN107025409A (zh) * 2017-06-27 2017-08-08 中经汇通电子商务有限公司 一种数据安全存储平台
CN107483491A (zh) * 2017-09-19 2017-12-15 山东大学 一种云环境下分布式存储的访问控制方法
CN107679192A (zh) * 2017-10-09 2018-02-09 中国工商银行股份有限公司 多集群协同数据处理方法、系统、存储介质及设备
US10404787B1 (en) * 2015-04-06 2019-09-03 EMC IP Holding Company LLC Scalable distributed data streaming computations across multiple data processing clusters

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102170440A (zh) * 2011-03-24 2011-08-31 北京大学 适用于存储云间数据安全迁移的方法
US10404787B1 (en) * 2015-04-06 2019-09-03 EMC IP Holding Company LLC Scalable distributed data streaming computations across multiple data processing clusters
CN107025409A (zh) * 2017-06-27 2017-08-08 中经汇通电子商务有限公司 一种数据安全存储平台
CN107483491A (zh) * 2017-09-19 2017-12-15 山东大学 一种云环境下分布式存储的访问控制方法
CN107679192A (zh) * 2017-10-09 2018-02-09 中国工商银行股份有限公司 多集群协同数据处理方法、系统、存储介质及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
数据库异构集群的性能模型研究;王元珍等;《计算机科学》;20060625(第06期);全文 *

Also Published As

Publication number Publication date
CN113630365A (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
EP3726411B1 (en) Data desensitising method, server, terminal, and computer-readable storage medium
US10769228B2 (en) Systems and methods for web analytics testing and web development
CN111062024B (zh) 一种应用登录方法和装置
US20050278384A1 (en) External authentication against a third-party directory
US10630752B2 (en) Identity service management in limited connectivity environments
US9582594B2 (en) Method and system for centralized issue tracking
US10341509B2 (en) Client device state collection and network-based processing solution
US8868786B1 (en) Apparatus, systems and methods for transformation services
US20120290555A1 (en) Method, System and Apparatus of Hybrid Federated Search
EP3614643B1 (en) Oauth2 saml token service
CN111414381B (zh) 数据处理方法、装置、电子设备及存储介质
CN110895603A (zh) 多系统账号信息整合方法和装置
CN111680092A (zh) 数据导入hive表的方法、系统、服务器和存储介质
CN112866249A (zh) 应用登录管理方法、装置及存储介质
CN104717197A (zh) 会话管理系统、会话管理设备和会话管理方法
CN113630365B (zh) 海量异构数据的并行传输方法、装置、设备及存储介质
CN112235124B (zh) 一种皮基站配置方法、装置、存储介质和电子装置
CN113422796A (zh) 一种信息处理方法及装置、存储介质
JP2013161215A (ja) 情報処理システム、情報処理方法およびプログラム
US20210173729A1 (en) Systems and methods of application program interface (api) parameter monitoring
CN111008220A (zh) 数据源的动态识别方法及装置、存储介质和电子装置
CN112597531A (zh) 一种数据产品管理方法及装置
US20130325926A1 (en) Information processor and information processing method
US20180198768A1 (en) System and method for providing automated keychain grouping and updating
CN113242306B (zh) 一种区块链的共识方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant