CN108920111B - 数据共享方法及分布式数据共享系统 - Google Patents

数据共享方法及分布式数据共享系统 Download PDF

Info

Publication number
CN108920111B
CN108920111B CN201810848343.1A CN201810848343A CN108920111B CN 108920111 B CN108920111 B CN 108920111B CN 201810848343 A CN201810848343 A CN 201810848343A CN 108920111 B CN108920111 B CN 108920111B
Authority
CN
China
Prior art keywords
sharing
cluster
data
requester
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810848343.1A
Other languages
English (en)
Other versions
CN108920111A (zh
Inventor
徐争莉
苏飞
王振亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201810848343.1A priority Critical patent/CN108920111B/zh
Publication of CN108920111A publication Critical patent/CN108920111A/zh
Application granted granted Critical
Publication of CN108920111B publication Critical patent/CN108920111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0631Configuration or reconfiguration of storage systems by allocating resources to storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Abstract

本申请提供一种数据共享方法及分布式数据共享系统,涉及通信技术领域,用于解决现有数据共享系统中存在的共享方式不能定制和数据共享效率较低的问题。其中,分布式数据共享系统还包括共享处理集群、数据传输集群和数据存储区。该方法包括:共享处理集群接收请求方发送的第一共享任务;其中,第一共享任务携带有多种共享方式;然后,共享处理集群为可用共享方式分配系统资源,并指示数据传输集群使用为可用共享方式分配的系统资源,向请求方发送数据存储集群中存储的数据。其中,可用共享方式为第一共享任务携带的,且系统资源占用率小于预设资源阈值的共享方式。

Description

数据共享方法及分布式数据共享系统
技术领域
本申请涉及通信技术领域,尤其涉及一种数据共享方法及分布式数据共享系统。
背景技术
随着分布式文件系统的大规模应用,数据共享的应用场景越来越复杂,即数据不仅需要在不同用户之间共享,还需要在不同应用、不同设备和不同应用系统等访问主体之间共享。例如,用户A和B、应用C、设备D和E,以及应用系统F均需要访问数据G。
实际应用中,同一访问主体需要访问的数据,往往位于分布式文件系统的不同位置,而不同位置的数据的实时性(实时、非实时)、数据类型(流式数据、历史数据)和安全性(是否加密)往往不同,这就需要同一访问主体采用不同的共享方式分别访问不同位置的数据。同理,同一位置的数据,也可能需要采用不同的共享方式,分别提供给不同的访问主体。
然而,访问主体采用何种共享方式访问哪个位置的数据,以及该共享方式所需要的系统资源,均是由管理员在共享任务中预设的,访问主体不能定制。若该共享方式所需要的系统资源不足,则数据共享系统不得不延迟处理该共享任务,从而对数据共享的处理效率产生不良影响。
发明内容
本申请提供一种数据共享方法及分布式数据共享系统,用于解决现有数据共享系统中共享方式不能定制和数据共享效率较低的问题。
为达到上述目的,本申请采用如下技术方案:
第一方面,提供一种数据共享方法。该方法应用于分布式数据共享系统。其中,分布式数据共享系统包括共享处理集群、数据传输集群和数据存储集群。该方法可以包括:共享处理集群接收请求方发送的第一共享任务;其中,第一共享任务携带有如下至少一种共享方式:Web服务、文件传输协议(File Transfer Protocol,FTP)服务、数据库直连服务、邮件服务、实时数据订阅-发布服务和Hadoop分布式文件系统(Hadoop Distributed FileSystem,HDFS)直连服务。然后,共享处理集群为可用共享方式分配系统资源,以及指示数据传输集群使用为可用共享方式分配的系统资源,向请求方发送数据存储集群中存储的数据;其中,可用共享方式为第一共享任务携带的,且系统资源占用率小于预设资源阈值的共享方式。
第二方面,提供一种分布式数据共享系统。该系统可以包括:共享处理集群、数据传输集群和数据存储集群。其中,共享处理集群,用于接收请求方发送的第一共享任务;其中,第一共享任务携带有如下至少一种共享方式:Web服务、文件传输协议FTP服务、数据库直连服务、邮件服务、实时数据订阅-发布服务和Hadoop分布式文件系统HDFS直连服务。共享处理集群,还用于为可用共享方式分配系统资源,以及指示数据传输集群使用为可用共享方式分配的系统资源,向请求方发送数据存储集群中存储的数据。其中,可用共享方式为第一共享任务携带的,且系统资源占用率小于预设资源阈值的共享方式。
第三方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机可执行指令,当计算机执行该计算机可执行指令时,该计算机执行上述第一方面及其各种可选的实现方式中任意之一所述的数据共享方法。
本申请提供的数据共享方法及分布式数据共享系统,共享处理集群能够为第一共享任务携带的各种共享方式中系统资源占用率小于预设资源阈值的共享方式分配系统资源,并指示数据传输集群使用分配的系统资源,向请求方发送数据存储集群中存储的数据,可以避免现有数据共享系统中必须由管理员事先针对数据存储集群中的每个数据源,分别手动配置共享任务和启动数据传输的问题,使得请求方能够根据自身需求灵活定制数据存储集群中每个需要访问的数据源的共享方式,从而能够提高数据共享的灵活性和效率。
附图说明
图1为本申请实施例提供的分布式数据共享系统的结构示意图一;
图2为本申请实施例提供的数据共享方法的流程示意图一;
图3为本申请实施例提供的数据共享方法的流程示意图二;
图4为本申请实施例提供的数据共享方法的流程示意图三;
图5为本申请实施例提供的数据共享方法的流程示意图四;
图6为本申请实施例提供的数据共享方法的流程示意图五;
图7为本申请实施例提供的数据共享方法的流程示意图六;
图8为本申请实施例提供的数据共享方法的流程示意图七;
图9为本申请实施例提供的数据共享方法的流程示意图八;
图10为本申请实施例提供的分布式数据共享系统的结构示意图二;
图11为本申请实施例提供的能够执行共享处理集群所执行的功能的一种网络设备的结构示意图。
具体实施方式
下面结合附图对本申请实施例提供的数据共享方法及分布式数据共享系统进行详细地描述。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
本申请的说明书以及附图中的术语“第一”和“第二”等是用于区别不同的对象,或者用于区别对同一对象的不同处理,而不是用于描述对象的特定顺序。
此外,本申请的描述中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本申请的描述中,除非另有说明,“多个”的含义是指两个或两个以上。
本申请实施例提供的数据共享方法适用于一种分布式数据共享系统。如图1所示,该分布式数据共享系统为提供方,可以包括:共享处理集群、数据传输集群和数据存储集群。其中,共享处理集群主要用于接收诸如客户端、FTP数据库、Hadoop集群等请求方发送的共享任务,并为系统资源占用率小于预设资源阈值的共享方式分配系统资源,以及指示数据传输集群利用分配的系统资源,向请求方发送数据存储集群存储的数据。数据存储集群主要用于存储数据。上述共享处理集群、数据传输集群和数据存储集群均可以包括至少一台网络设备,且上述至少一台网络设备可能位于相同或不同的地理位置,并通过有线或无线的方式相互连接。
示例性地,共享处理集群可以是由至少一台Web服务器组成的Web服务器集群。该Web服务器集群通常会提供诸如图形用户界面(Graphic User Interface,GUI)、命令行接口等人机接口,用于接收请求方定制的共享任务。
示例性地,数据传输集群是指为请求方提供数据存储集群存储的数据的传输服务的网络设备或网络设备集合。例如,数据传输集群可以是FTP共享数据库,也可以是包含有ZooKeeper服务器集群和实时数据共享集群的网络设备集合。其中,FTP共享数据库通常包括至少一台FTP服务器,以便为请求方提供拉取和推送两种方式的FTP服务。实时数据共享集群通常为基于Kafka集群架构建立的,且与Hadoop集群共用ZooKeeper服务器集群。其中,ZooKeeper服务器集群通常用于把请求方的标识如IP地址和请求的流式数据的主题加入消费者列表,监测Hadoop集群中是否存在请求的流式数据。若是,则指示Hadoop集群向实时数据共享集群推送请求的流式数据,并通知请求方从实时数据共享集群中拉取请求的流式数据。
示例性地,数据存储集群可以是大规模并行处理(Massively ParallelProcessing,MPP)数据库、内存数据库和Hadoop集群中的至少一种。
需要说明的是,上述共享处理集群、数据传输集群和数据存储集群仅仅是逻辑功能上的划分,并不代表每个集群包含的网络设备只能执行一种功能。例如,当共享方式为Web服务时,Web服务器集群不仅可以执行共享处理集群的共享任务处理功能,还可以执行数据传输集群的数据传输功能。又例如,当共享方式为数据库直连服务、邮件服务和HDFS直连服务中的一种时,数据存储集群也可以执行数据传输集群的数据传输功能。
此外,如图1所示,上述分布式数据共享系统还可以包括关系数据库,主要用于存储请求方定制的共享任务,以及请求方的身份信息和访问权限等配置信息。其中,身份信息主要用于区分不同的请求方。例如,身份信息可以是通过客户端登录上述分布式数据共享系统的用户的账号、密码,也可以是与上述分布式数据共享系统存在信号连接的网络设备的设备标识码、互联网协议(Internet Protocol,IP)地址、端口号等,还可以是与上述分布式数据共享系统存在信号连接的FTP数据库、Hadoop集群的IP地址、端口号等,本申请实施例对此不作限制。访问权限是指请求方所能访问的数据的种类、数量、位置和授权操作类型。其中,授权操作类型可以包括禁止访问、只读、可写、可执行中的至少一种。
可以理解,关系数据库可以位于上述共享处理集群包含的网络设备中,也可以位于与上述共享处理集群存在信号连接的网络设备中,本申请实施例对此不作限制。
需要说明的是,图1仅为示例性架构图,除图1中所示功能单元之外,该分布式数据共享系统还可以包括其他功能单元,本申请实施例对此不作限制。
本申请实施例提供一种数据共享方法。该方法可以应用于图1所示的分布式数据共享系统中。其中,该分布式数据共享系统包括共享处理集群、数据传输集群和数据存储集群。如图2所示,该方法可以包括S201-S203:
S201、共享处理集群接收请求方发送的第一共享任务。
其中,第一共享任务携带有如下至少一种共享方式:Web服务、文件传输协议FTP服务、数据库直连服务、邮件服务、实时数据订阅-发布服务和Hadoop分布式文件系统HDFS直连服务。
示例性地,Web服务是指,提供方通过浏览器(Explorer),为请求方提供文件浏览服务的共享方式。例如,用户通过客户端显示的浏览器GUI输入账号、密码等身份信息登录Web服务器集群,浏览数据存储集群中存储的文件。
示例性地,FTP服务是指,数据传输集群中的FTP共享数据库根据请求方定制的共享任务,采用FTP推送或FTP拉取的方式,向请求方传输文件的共享方式。其中,FTP推送是指FTP共享数据库根据请求方定制的共享任务(包括源地址、目的地址、FTP推送),从数据存储集群中获取文件,并主动向请求方发送。FTP拉取是指,FTP共享数据库根据请求方定制的共享任务(包括源地址、目的地址、FTP拉取)从数据存储集群中获取文件后,向请求方发送通知;相应地,请求方接收到该通知后,主动连接FTP共享数据库(例如,使用ping命令)并下载获取到的文件。
示例性地,数据库直连服务是指,请求方通过网页或者客户端的过程化的结构化查询语言(Procedural Language/Structured Query Language,PL/SQL)开发环境,或者命令行模式,输入统一资源定位符(Uniform Resource Locator,URL)、账号、密码等息息后,直接连接数据存储集群中的数据库,并由该数据库直接向请求方发送数据的共享方式。
示例性地,邮件服务是指,提供方采用电子邮件的方式为请求方传输数据的共享方式。
示例性地,实时数据订阅-发布服务是指,ZooKeeper服务器集群根据请求方通过登录Web服务器集群定制的共享任务,获知请求方的标识和请求的流式数据的主题。之后,ZooKeeper服务器集群将请求方的服务器标识和请求的流式数据的主题加入消费者列表,并实时监测Hadoop集群中是否存在请求的流式数据。若是,则指示Hadoop集群向实时数据共享集群推送请求的流式数据,并通知请求方从实时数据共享集群中拉取请求的流式数据。可以理解,不同请求方可以订阅同一文件,同一请求方也可以订阅不同文件。因此,与FTP服务采用的一对一发送方式不同,实时数据订阅-发布服务可以是一对一的,也可以是一对多的。
示例性地,HDFS直连服务是指,利用数据存储集群中的HDFS集群与请求方中的HDFS集群之间的直连端口传输数据的共享方式。
示例性地,请求方需要访问的数据可以包括2G(2nd Generation,2G)/3G(3rdGeneration,3G)/4G(4th Generation,4G)工参图层(网格、扇区、小区等图层)、2G/3G/4GGn数据、2G/3G/4G B侧数据、2G/3G/4G XDR数据、2G/3G/4G Counter数据、2G/3G/4G MR数据、2G/3G/4G关键性能指示(Key Performance Indicator,KPI)数据中的至少一种。源地址是指请求数据在提供方侧的存储位置,目的地址是指请求数据在请求方侧的存储位置。例如,若数据存储集群包括MPP数据库,则源地址可以是该MPP数据库的IP地址、端口号等;若请求方为客户端,则目的地址可以是该客户端的IP地址和存储路径。鉴于源地址和目的地址为现有技术,本申请实施例不再赘述。
S202、共享处理集群为可用共享方式分配系统资源。
其中,可用共享方式为第一共享任务携带的,且系统资源占用率小于预设资源阈值的共享方式。
具体地,共享处理集群会实时监测第一共享任务携带的每种共享方式的系统资源占用率,并将系统资源占用率小于预设资源阈值的共享方式确定为可用共享方式。其中,系统资源占用率可以采用配置表的形式保存在共享处理集群中。需要说明的是,不同共享方式所需要的系统资源的种类可能不同,导致不同共享方式对应的配置表记录的内容也可能不同。
示例性地,对于Web服务,在共享处理集群接收到请求方发起的第一共享任务之后,共享处理集群即可建立请求方与数据存储集群之间的Java数据库连接(Java DataBaseConnectivity,JDBC),并周期性地统计不同数据存储集群提供的JDBC接口的IP地址资源池ResN的占用情况。其中,ResN即为Web服务采用的配置表,其数据格式如下所示:
{IP:10.100.28.217,linknum:100,flag:0;
IP:10.100.28.218,linknum:55,flag:1;}。
其中,IP地址为数据存储集群中能够提供Web服务的数据源的IP地址,linknum为该数据源已使用的JDBC连接数,Flag为标志位,用于指示该数据源是否还存在可用连接(可复用连接或空闲连接)。可以理解,实际应用中,可以用二进制数字1和0依次表示该数据源存在可用连接和不存在可用连接,也可以用二进制数字0和1依次表示该数据源存在可用连接和不存在可用连接,本申请实施例不作限制。
示例性地,对于数据库直连方式,配置表用于存储数据共享集群中各直连数据库为请求方分配的账号、密码等信息。具体地,配置表可以为采用如下数据格式的账号池(Account Pool,AP):
{
Type:Hadoop,
Accounnum:2,
TotalResource:1T,
Acoountlist:
[
{username:test1,password:111111,resource:100G},
{username:test2,password:111111,resource:100G}
]
}
其中,Type用于表示该直连数据库的类型,TotalResource用于表示该直连数据库的资源总量,Accounnum和Acoountlist依次用于表示已与该直连数据库建立直连关系的账号数量和账号列表,账号列表详细列出了每个账号的账号名、密码和占用的资源量。
当然,除上述连接数和存储资源之外,与共享方式相对应,配置表还可以统计其他类型的系统资源,本申请实施例不再赘述。
S203、共享处理集群指示数据传输集群使用为可用共享方式分配的系统资源,向请求方发送数据存储集群中存储的数据。
具体地,共享处理集群可以调用数据传输集群可执行的脚本文件、应用程序、进程等,向请求方发送数据存储集群中存储的数据。
可选地,若可用共享方式包括Web服务,则共享处理集群和数据传输集群均可以为Web服务器集群。结合图2,如图3所示,S203共享处理集群指示数据传输集群使用为可用共享方式分配的系统资源,向请求方发送数据存储集群中存储的数据,可以包括S301:
S301、Web服务器集群使用为Web服务分配的系统资源,向请求方发送数据存储集群中存储的数据。
可选地,若可用共享方式包括FTP服务,则数据传输集群可以为FTP共享数据库。此时,第一共享任务由Web服务器集群处理,而数据传输则由FTP共享数据库处理,以便实现任务处理与数据传输相分离,降低Web服务器集群的工作量和系统资源占用率,从而使得Web服务器集群可以处理更多的共享任务,提高数据共享效率。具体地,结合图2,如图4所示,S203共享处理集群指示数据传输集群使用为可用共享方式分配的系统资源,向请求方发送数据存储集群中存储的数据,可以包括S401:
S401、Web服务器集群指示FTP共享数据库使用为FTP服务分配的系统资源,向请求方发送数据存储集群中存储的数据。
可选地,若可用共享方式包括数据库直连服务、邮件服务和HDFS直连服务中的至少一种,则数据传输集群可以为数据存储集群,即由数据存储集群直接向请求方发送数据,以减少数据传输过程中的转发工作量,降低数据传输时延,从而提高数据共享效率。具体地,结合图2,如图5所示,S203共享处理集群指示数据传输集群使用为可用共享方式分配的系统资源,向请求方发送数据存储集群中存储的数据,可以包括S501:
S501、Web服务器集群指示数据存储集群使用为数据库直连服务、邮件服务和HDFS直连服务中的至少一种可用共享方式分配的系统资源,向请求方发送数据存储集群中存储的数据。
可选地,若可用共享方式包括实时数据订阅-发布服务,则数据传输集群包括ZooKeeper服务器集群和实时数据共享集群,数据存储集群包括Hadoop集群。具体地,结合图2,如图6所示,S203共享处理集群指示数据传输集群使用为可用共享方式分配的系统资源,向请求方发送数据存储集群中存储的数据,可以包括S601-S604:
S601、Web服务器集群指示ZooKeeper服务器集群将请求方的标识和请求的流式数据的主题加入消费者列表。
例如,ZooKeeper服务器集群可以将请求方的IP地址、MAC地址、端口号等存入消费者列表。当然,消费者列表还可以存储请求方请求的流式数据的主题(topic),以便ZooKeeper服务器集群实时监测Hadoop集群中是否存在请求方请求的流式数据。
S602、ZooKeeper服务器集群根据请求的流式数据的主题,确定Hadoop集群中存在请求的流式数据。
其中,请求的流式数据即为与请求的流式数据的主题相同的流式数据。
S603、ZooKeeper服务器集群指示Hadoop集群向实时数据共享集群推送(push)请求的流式数据。
S604、ZooKeeper服务器集群根据请求方的标识,通知请求方从实时数据共享集群中拉取(pull)请求的流式数据。
其中,通知的内容可以包括实时数据共享集群的地址,以及请求的流式数据的存储位置等。之后,请求方可以主动访问实时数据共享集群获取请求的流式数据。
可选地,结合图2-6中的任一项,以图2为例,如图7所示,在执行S201共享处理集群为可用共享方式分配系统资源之后,该方法还可以包括S701:
S701、共享处理集群向请求方发送任务处理响应。
其中,任务处理响应携带有如下至少一项:位于数据存储集群中,且与可用共享方式对应的数据源的访问方式,以及位于数据存储集群中,且与不可用共享方式对应的数据源的不可访问指示,不可用共享方式为第一共享任务携带的,且系统资源占用率大于等于预设资源阈值的共享方式。
示例性地,访问方式可以包括:与可用共享方式对应的数据源的源地址、用户账号、密码、请求方的目的地址等信息,以便请求方根据上述信息访问该数据源。相应地,不可访问指示通常可以携带不可用共享方式的标识、不可用共享方式对应的数据源的源地址等信息,以便请求方根据上述信息再次申请共享任务。
具体地,若第一共享任务携带的所有共享方式均为可用共享方式,则任务处理响应不会携带失败指示。同理,若第一共享任务携带的所有共享方式均为不可用共享方式,则任务处理响应不会携带访问方式。当然,若第一共享任务携带的所有共享方式既存在可用共享方式,也存在不可用共享方式,则任务处理响应会同时携带有访问方式和失败指示。
需要说明的是,任务处理响应可以采用邮件的形式,也可以采用共享处理集群与请求方均支持的通信协议所规定的信令的形式,本申请实施例对此不作限定。
可选地,结合图7,如图8所示,在执行S701共享处理集群向请求方发送任务处理响应之后,该方法还可以包括S801:
S801、数据传输集群接收请求方根据访问方式发起的数据传输请求。
需要说明的是,对于FTP服务中的拉取方式,即使FTP共享数据库已经根据Web服务器集群的指示为请求方准备好了所需数据,也需要请求方根据访问请求登录FTP共享数据库后,才能通过拉取方式获取所需数据。
可以理解,若可用共享方式不需要数据传输集群验证请求方的登录信息,也可以不执行S701和S801,即S701和S801为可选步骤。
实际应用中,在请求方申请第一共享任务之后的一段时间内,第一共享任务中的不可用共享方式此时可能已经处于可用状态,即其系统资源占用率可能已经低于预设资源阈值。基于这种可能性,请求方可以再次申请共享任务,以便利用此时可能处于可用状态的共享方式获取数据。相应地,结合图7,如图9所示,在执行S701共享处理集群向请求方发送任务处理响应之后,该方法还可以包括S901:
S901、共享处理集群接收请求方发送的第二共享任务。
其中,第二共享任务携带有第一共享任务携带的不可用共享方式。
本申请实施例提供的数据共享方法,共享处理集群能够为第一共享任务携带的各种共享方式中系统资源占用率小于预设资源阈值的共享方式分配系统资源,并指示数据传输集群使用分配的系统资源,向请求方发送数据存储集群中存储的数据,可以避免现有数据共享系统中必须由管理员事先针对数据存储集群中的每个数据源,分别手动配置共享任务和启动数据传输的问题,使得请求方能够根据自身需求灵活定制数据存储集群中每个需要访问的数据源的共享方式,从而能够提高数据共享的灵活性和效率。
本申请实施例可以根据上述方法示例对分布式数据共享系统进行功能模块或者功能单元的划分,例如,可以对应各个功能划分各个功能模块或者功能单元,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块或者功能单元的形式实现。其中,本申请实施例中对模块或者单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图10示出了上述实施例中所涉及的分布式数据共享系统的一种可能的结构示意图。如图10所示,该系统可以包括:共享处理集群1001、数据传输集群1002和数据存储集群1003。
其中,共享处理集群1001,用于接收请求方发送的第一共享任务;其中,第一共享任务携带有如下至少一种共享方式:Web服务、文件传输协议FTP服务、数据库直连服务、邮件服务、实时数据订阅-发布服务和Hadoop分布式文件系统HDFS直连服务;
共享处理集群1001,还用于为可用共享方式分配系统资源;其中,可用共享方式为第一共享任务携带的,且系统资源占用率小于预设资源阈值的共享方式;
共享处理集群1001,还用于指示数据传输集群使用为可用共享方式分配的系统资源,向请求方发送数据存储集群中存储的数据;
数据存储集群1003,用于存储数据。
可选地,可用共享方式可以包括Web服务;共享处理集群1001和数据传输集群1002均可以为Web服务器集群;
Web服务器集群,用于使用为Web服务分配的系统资源,向请求方发送数据存储集群1003中存储的数据。
可选地,可用共享方式可以为FTP服务;数据传输集群1002可以为FTP共享数据库;
Web服务器集群,还用于指示FTP共享数据库使用为FTP服务分配的系统资源,向请求方发送数据存储集群1003中存储的数据。
可选地,可用共享方式可以包括数据库直连服务、邮件服务和HDFS直连服务中的至少一种;数据传输集群1002可以为数据存储集群1003;其中,
Web服务器集群,还用于指示数据存储集群1003使用为数据库直连服务、邮件服务和HDFS直连服务中的至少一种可用共享方式分配的系统资源,向请求方发送数据存储集群1003中存储的数据。
可选地,第一共享任务还携带有请求方的标识和请求的流式数据的主题;可用共享方式可以包括实时数据订阅-发布服务;数据传输集群1002包括ZooKeeper服务器集群和实时数据共享集群,数据存储集群1003为Hadoop集群;
Web服务器集群,还用于指示ZooKeeper服务器集群将请求方的标识和请求的流式数据的主题加入消费者列表;
ZooKeeper服务器集群,用于根据请求的流式数据的主题,确定Hadoop集群中存在请求方请求的流式数据;
ZooKeeper服务器集群,还用于指示Hadoop集群向实时数据共享集群推送请求的流式数据。
ZooKeeper服务器集群,还用于根据请求方的标识,通知请求方从实时数据共享集群中拉取请求的流式数据。
可选地,共享处理集群1001,还用于向请求方发送任务处理响应;其中,任务处理响应携带有如下至少一项:可用共享方式对应的数据存储集群1003的访问方式,以及不可用共享方式对应的失败指示,不可用共享方式为系统资源占用率大于等于预设资源阈值的共享方式。
可选地,数据传输集群1002,还用于接收请求方根据访问方式发起的数据传输请求;
共享处理集群1001,还用于接收请求方发送的第二共享任务;其中,第二共享任务携带有第一共享任务携带的不可用共享方式。
本申请实施例提供的分布式数据共享系统,共享处理集群能够为第一共享任务携带的,且系统资源占用率小于预设资源阈值的共享方式分配系统资源,并指示数据传输集群使用分配的系统资源,向请求方发送数据存储集群中存储的数据,可以避免现有数据共享系统中必须由管理员事先针对数据存储集群中的每个数据源,分别手动配置共享任务和启动数据传输的问题,使得请求方能够根据自身需求灵活定制数据存储集群中每个需要访问的数据源的共享方式,从而能够提高数据共享的灵活性和效率。
图11示出了能够执行上述实施例中所涉及的共享处理集群所执行的功能的一种网络设备的可能的结构示意图。例如,该网络设备可以为Web服务器。该网络设备可以包括:处理单元1101和通信单元1102。处理单元1101用于对该网络设备的动作进行控制管理,例如,执行上述共享处理集群1001执行的S202、S203等步骤。通信单元1102用于支持该网络设备与其他网络实体的通信,例如,执行S201、S701、S801、S901等步骤。此外,该装置还可以包括存储单元1103和总线1104,存储单元1103用于存储该网络设备的程序代码和数据。
其中,上述处理单元1101可以是该网络设备中的处理器或控制器,该处理器或控制器可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。该处理器或控制器可以是中央处理器,通用处理器,数字信号处理器,专用集成电路,现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
通信单元1102可以是该网络设备中的收发器、收发电路或通信接口等。
存储单元1103可以是该网络设备中的存储器等,该存储器可以包括易失性存储器,例如随机存取存储器;该存储器也可以包括非易失性存储器,例如只读存储器,快闪存储器,硬盘或固态硬盘;该存储器还可以包括上述种类的存储器的组合。
总线1104可以是扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。总线1104可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将该系统或网络设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当计算机执行该指令时,该计算机执行上述方法实施例所示的方法流程中共享处理集群所执行的各个步骤。
其中,计算机可读存储介质,例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、寄存器、硬盘、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合、或者本领域熟知的任何其它形式的计算机可读存储介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于特定用途集成电路(Application Specific Integrated Circuit,ASIC)中。在本申请实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (14)

1.一种数据共享方法,其特征在于,应用于分布式数据共享系统中,所述分布式数据共享系统包括共享处理集群、数据传输集群和数据存储集群,所述数据共享方法包括:
所述共享处理集群接收请求方发送的第一共享任务;其中,所述第一共享任务携带有如下至少一种共享方式:Web服务、文件传输协议FTP服务、数据库直连服务、邮件服务、实时数据订阅-发布服务和Hadoop分布式文件系统HDFS直连服务;
所述共享处理集群为可用共享方式分配系统资源;其中,所述可用共享方式为所述第一共享任务携带的,且系统资源占用率小于预设资源阈值的共享方式;
所述共享处理集群指示所述数据传输集群使用为所述可用共享方式分配的系统资源,向所述请求方发送所述数据存储集群中存储的数据。
2.根据权利要求1所述的数据共享方法,其特征在于,所述可用共享方式包括所述Web服务;所述共享处理集群和所述数据传输集群均为Web服务器集群;
所述共享处理集群指示所述数据传输集群使用为所述可用共享方式分配的系统资源,向所述请求方发送所述数据存储集群中存储的数据,包括:
所述Web服务器集群使用为所述Web服务分配的系统资源,向所述请求方发送所述数据存储集群中存储的数据。
3.根据权利要求2所述的数据共享方法,其特征在于,所述可用共享方式包括所述FTP服务;所述数据传输集群为FTP共享数据库;
所述共享处理集群指示所述数据传输集群使用为所述可用共享方式分配的系统资源,向所述请求方发送所述数据存储集群中存储的数据,包括:
所述Web服务器集群指示所述FTP共享数据库使用为所述FTP服务分配的系统资源,向所述请求方发送所述数据存储集群中存储的数据。
4.根据权利要求2所述的数据共享方法,其特征在于,所述可用共享方式包括所述数据库直连服务、所述邮件服务和所述HDFS直连服务中的至少一种;所述数据传输集群为所述数据存储集群;
所述共享处理集群指示所述数据传输集群使用为所述可用共享方式分配的系统资源,向所述请求方发送所述数据存储集群中存储的数据,包括:
所述Web服务器集群指示所述数据存储集群使用为所述数据库直连服务、所述邮件服务和所述HDFS直连服务中至少一种可用共享方式分配的系统资源,向所述请求方发送所述数据存储集群中存储的数据。
5.根据权利要求2所述的数据共享方法,其特征在于,所述第一共享任务还携带有所述请求方的标识和请求的流式数据的主题,所述可用共享方式包括所述实时数据订阅-发布服务;所述数据传输集群包括ZooKeeper服务器集群和实时数据共享集群,所述数据存储集群为Hadoop集群;
所述共享处理集群指示所述数据传输集群使用为所述可用共享方式分配的系统资源,向所述请求方发送所述数据存储集群中存储的数据,包括:
所述共享处理集群指示所述ZooKeeper服务器集群将所述请求方的标识和请求的流式数据的主题加入消费者列表;
所述ZooKeeper服务器集群根据请求的流式数据的主题,确定所述Hadoop集群中存在请求的流式数据;
所述ZooKeeper服务器集群指示所述Hadoop集群向所述实时数据共享集群推送请求的流式数据;
所述ZooKeeper服务器集群根据所述请求方的标识,通知所述请求方从所述实时数据共享集群中拉取请求的流式数据。
6.根据权利要求1-5任一项所述的数据共享方法,其特征在于,在所述共享处理集群为可用共享方式分配系统资源之后,所述数据共享方法还包括:
所述共享处理集群向所述请求方发送任务处理响应;其中,所述任务处理响应携带有如下至少一项:位于所述数据存储集群中,且与所述可用共享方式对应的数据源的访问方式,以及位于所述数据存储集群中,且与不可用共享方式对应的数据源的不可访问指示,所述不可用共享方式为所述第一共享任务携带的,且所述系统资源占用率大于等于所述预设资源阈值的共享方式。
7.根据权利要求6所述的数据共享方法,其特征在于,在所述共享处理集群向所述请求方发送任务处理响应之后,所述数据共享方法还包括如下至少一项:
所述数据传输集群接收所述请求方根据所述访问方式发起的数据传输请求;
所述共享处理集群接收所述请求方发送的第二共享任务;其中,所述第二共享任务携带有所述不可用共享方式。
8.一种分布式数据共享系统,其特征在于,所述分布式数据共享系统包括:共享处理集群、数据传输集群和数据存储集群;其中,
所述共享处理集群,用于接收请求方发送的第一共享任务;其中,所述第一共享任务携带有如下至少一种共享方式:Web服务、文件传输协议FTP服务、数据库直连服务、邮件服务、实时数据订阅-发布服务和Hadoop分布式文件系统HDFS直连服务;
所述共享处理集群,还用于为可用共享方式分配系统资源;其中,所述可用共享方式为所述第一共享任务携带的,且系统资源占用率小于预设资源阈值的共享方式;
所述共享处理集群,还用于指示所述数据传输集群使用为所述可用共享方式分配的系统资源,向所述请求方发送所述数据存储集群中存储的数据。
9.根据权利要求8所述的分布式数据共享系统,其特征在于,所述可用共享方式包括所述Web服务;所述共享处理集群和所述数据传输集群均为Web服务器集群;
所述Web服务器集群,用于使用为所述Web服务分配的系统资源,向所述请求方发送所述数据存储集群中存储的数据。
10.根据权利要求9所述的分布式数据共享系统,其特征在于,所述可用共享方式包括所述FTP服务;所述数据传输集群为FTP共享数据库;
所述Web服务器集群,还用于指示所述FTP共享数据库使用为所述FTP服务分配的系统资源,向所述请求方发送所述数据存储集群中存储的数据。
11.根据权利要求9所述的分布式数据共享系统,其特征在于,所述可用共享方式包括所述数据库直连服务、所述邮件服务和所述HDFS直连服务中的至少一种;所述数据传输集群为所述数据存储集群;
所述Web服务器集群,还用于指示所述数据存储集群使用为所述数据库直连服务、所述邮件服务和所述HDFS直连服务中至少一种可用共享方式分配的系统资源,向所述请求方发送所述数据存储集群中存储的数据。
12.根据权利要求9所述的分布式数据共享系统,其特征在于,所述第一共享任务还携带有所述请求方的标识和请求的流式数据的主题;所述可用共享方式包括所述实时数据订阅-发布服务;所述数据传输集群包括ZooKeeper服务器集群和实时数据共享集群,所述数据存储集群为Hadoop集群;
所述Web服务器集群,还用于指示所述ZooKeeper服务器集群将所述请求方的标识和请求的流式数据的主题加入消费者列表;
所述ZooKeeper服务器集群,用于根据请求的流式数据的主题,确定所述Hadoop集群中存在请求的流式数据;
所述ZooKeeper服务器集群,还用于指示所述Hadoop集群向所述实时数据共享集群推送请求的流式数据;
所述ZooKeeper服务器集群,还用于根据所述请求方的标识,通知所述请求方从所述实时数据共享集群中拉取请求的流式数据。
13.根据权利要求8-12任一项所述的分布式数据共享系统,其特征在于,
所述共享处理集群,还用于向所述请求方发送任务处理响应;其中,所述任务处理响应携带有如下至少一项:位于所述数据存储集群中,且与所述可用共享方式对应的数据源的访问方式,以及位于所述数据存储集群中,且与不可用共享方式对应的数据源的不可访问指示,所述不可用共享方式为所述第一共享任务携带的,且所述系统资源占用率大于等于所述预设资源阈值的共享方式。
14.根据权利要求13所述的分布式数据共享系统,其特征在于,
所述数据传输集群,还用于接收所述请求方根据所述访问方式发起的数据传输请求;
所述共享处理集群,还用于接收所述请求方发送的第二共享任务;其中,所述第二共享任务携带有所述不可用共享方式。
CN201810848343.1A 2018-07-27 2018-07-27 数据共享方法及分布式数据共享系统 Active CN108920111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810848343.1A CN108920111B (zh) 2018-07-27 2018-07-27 数据共享方法及分布式数据共享系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810848343.1A CN108920111B (zh) 2018-07-27 2018-07-27 数据共享方法及分布式数据共享系统

Publications (2)

Publication Number Publication Date
CN108920111A CN108920111A (zh) 2018-11-30
CN108920111B true CN108920111B (zh) 2021-05-28

Family

ID=64417579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810848343.1A Active CN108920111B (zh) 2018-07-27 2018-07-27 数据共享方法及分布式数据共享系统

Country Status (1)

Country Link
CN (1) CN108920111B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2023003629A (es) * 2020-09-30 2023-06-23 Huawei Tech Co Ltd Circuito, chip y dispositivo electronico.
CN112804335B (zh) * 2021-01-18 2022-11-22 中国邮政储蓄银行股份有限公司 数据处理方法、装置、计算机可读存储介质和处理器
CN114584555A (zh) * 2022-03-08 2022-06-03 浪潮云信息技术股份公司 一种分布式云场景下的全域事件分发方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1182551A2 (en) * 2000-08-21 2002-02-27 Texas Instruments France Address space priority arbitration
CN102164177A (zh) * 2011-03-11 2011-08-24 浪潮(北京)电子信息产业有限公司 一种集群共享存储池的方法、装置及系统
CN107038677A (zh) * 2017-04-17 2017-08-11 山东辰华科技信息有限公司 基于大数据的科技成果转化服务系统
CN107920110A (zh) * 2017-10-27 2018-04-17 江苏飞搏软件股份有限公司 一种数据共享的方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7290260B2 (en) * 2003-02-20 2007-10-30 International Business Machines Corporation Dynamic processor redistribution between partitions in a computing system
CN101895520B (zh) * 2009-05-20 2013-06-12 华为技术有限公司 微技系统的数据共享方法、服务器以及数据共享系统
CN104461740B (zh) * 2014-12-12 2018-03-20 国家电网公司 一种跨域集群计算资源聚合和分配的方法
US9934257B2 (en) * 2015-07-14 2018-04-03 American Express Travel Related Services Company, Inc. System and method for recursive metadata layers on big data sets
CN107222430A (zh) * 2016-03-22 2017-09-29 阿里巴巴集团控股有限公司 一种资源分配方法及装置
CN107688492B (zh) * 2016-08-05 2021-11-09 阿里巴巴集团控股有限公司 资源的控制方法、装置和集群资源管理系统
CN106484329B (zh) * 2016-09-26 2019-01-08 浪潮电子信息产业股份有限公司 一种基于多级存储的大数据传输完整性保护方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1182551A2 (en) * 2000-08-21 2002-02-27 Texas Instruments France Address space priority arbitration
CN102164177A (zh) * 2011-03-11 2011-08-24 浪潮(北京)电子信息产业有限公司 一种集群共享存储池的方法、装置及系统
CN107038677A (zh) * 2017-04-17 2017-08-11 山东辰华科技信息有限公司 基于大数据的科技成果转化服务系统
CN107920110A (zh) * 2017-10-27 2018-04-17 江苏飞搏软件股份有限公司 一种数据共享的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Novel Resource Scheduling Approach in Container Based Clouds;Xin Xu et al.;《IEEE Xplore》;20150129;全文 *
分布式业务集成部署平台的设计与实现;王瑞雪;《万方学位论文数据库》;20151203;全文 *
基于共享内存多通道网络通信的集群通讯技术研究;王毅;《万方学位论文数据库》;20120604;全文 *

Also Published As

Publication number Publication date
CN108920111A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
JP7197612B2 (ja) オンデマンドネットワークコード実行システム上での補助機能の実行
US9251040B2 (en) Remote debugging in a cloud computing environment
US9753786B2 (en) Client server communication system
US20050108394A1 (en) Grid-based computing to search a network
CN106712981B (zh) 一种节点变更通知方法及装置
CN108920111B (zh) 数据共享方法及分布式数据共享系统
WO2018058998A1 (zh) 一种数据加载方法、终端和计算集群
CN104750690A (zh) 一种查询处理方法、装置及系统
US20200287974A1 (en) System and method for switching between publish/subscribe services
CN115428514A (zh) 在多个运营商的相邻mec主机之间共享地理集中的工作负荷
CN113794652A (zh) 数据处理方法、装置、电子设备及存储介质
US10715605B2 (en) System and method for limiting active sessions
CN111597024A (zh) 跨域集群处理方法、装置、电子设备及存储介质
CN111225003B (zh) 一种nfs节点配置方法和装置
US9760412B2 (en) Client server communication system
CN114143090A (zh) 基于网络安全架构的防火墙部署方法、装置、设备及介质
US11595471B1 (en) Method and system for electing a master in a cloud based distributed system using a serverless framework
CN111600755A (zh) 上网行为管理系统和方法
TWI571077B (zh) 整合網路裝置及其服務整合方法
CN107404504B (zh) 通信方法、装置及系统
CN112653539B (zh) 一种待存储数据的存储方法、装置以及设备
CN111857548B (zh) 数据读取方法、装置及系统
US9456024B1 (en) Content sharing in mobile ad hoc networks
US20200021631A1 (en) Stream processing without central transportation planning
US11720507B2 (en) Event-level granular control in an event bus using event-level policies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant