CN108762683B - 在分布式大数据存储系统内进行数据传输的方法及系统 - Google Patents

在分布式大数据存储系统内进行数据传输的方法及系统 Download PDF

Info

Publication number
CN108762683B
CN108762683B CN201810559925.8A CN201810559925A CN108762683B CN 108762683 B CN108762683 B CN 108762683B CN 201810559925 A CN201810559925 A CN 201810559925A CN 108762683 B CN108762683 B CN 108762683B
Authority
CN
China
Prior art keywords
data
storage node
storage
transmission
sequence number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810559925.8A
Other languages
English (en)
Other versions
CN108762683A (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen tiantianlaiwan Technology Co.,Ltd.
Original Assignee
Shenzhen Tiantianlaiwan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tiantianlaiwan Technology Co ltd filed Critical Shenzhen Tiantianlaiwan Technology Co ltd
Priority to CN202110387561.1A priority Critical patent/CN113220226A/zh
Priority to CN201810559925.8A priority patent/CN108762683B/zh
Publication of CN108762683A publication Critical patent/CN108762683A/zh
Application granted granted Critical
Publication of CN108762683B publication Critical patent/CN108762683B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0656Data buffering arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/105Multiple levels of security
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种在分布式大数据存储系统内进行数据传输的方法及系统,所述方法包括:接收来自数据请求方的数据获取请求,确定数据获取请求所涉及的数据集合,促使服务存储节点创建包括至少两个缓冲存储段的缓冲存储区;按照从数据项的最高传输级别到最低传输级别的降序顺序依次对每个传输级别的数据项进行传输:从环状传输队列中位于队首的目标存储节点开始到位于队尾的目标存储节点为止,按照环状传输队列的队列顺序依次将每个目标存储节点所存储的多个数据项中当前传输级别的至少一个数据项传输到所述服务存储节点;以及所述服务存储节点按照数据项的接收时间将接收到的数据项按照缓冲存储段的顺序号保存到当前顺序号的缓冲存储段中。

Description

在分布式大数据存储系统内进行数据传输的方法及系统
技术领域
本发明涉及大数据计算和大数据存储领域,并且更具体地,涉及一种在分布式大数据存储系统内进行数据传输的方法及系统。
背景技术
目前,在大数据计算和大数据存储领域,用户所需求的通常存储在分布式大数据存储系统内多个存储节点上。在特定情况下,由于分布式大数据存储系统内部的网络传输延迟较低,而分布式大数据存储系统内存储节点与用户所在网络或所使用的设备的网络延迟较高。为此,现有技术需要能够针对用户的大量数据获取请求提供低延迟传输的方案。并且另一方面,在分布式大数据存储系统需要对各个存储节点上的数据进行协调,以保证各个存储节点能够以较为平衡、均匀的方式进行数据传输
发明内容
根据本发明的一个方面,提供一种在分布式大数据存储系统内进行数据传输的方法,所述方法包括:
接收来自数据请求方的数据获取请求,其中所述数据获取请求包括:数据请求方标识、数据请求方地址以及数据检索条件;
根据数据请求方标识对所述数据请求方进行身份验证,根据身份验证的结果确定所述数据请求方是否具有使用所述数据获取请求中的数据检索条件来获取数据的权限;
当身份验证的结果指示所述数据请求方具有使用所述数据获取请求中的数据检索条件来获取数据的权限时,根据所述数据检索条件来确定所述数据获取请求所涉及的包括多个数据项的数据集合;
确定所述数据集合中的所有数据项的总尺寸,根据所述总尺寸和所述数据请求方地址从所述分布式大数据存储系统内多个存储节点中选择一个存储节点以作为所述数据请求方选择服务存储节点;
向所述服务存储节点发送所述数据请求方地址和所述总尺寸,促使所述服务存储节点根据所述数据请求方地址和所述总尺寸来创建缓冲存储区并将所述缓冲存储区分为至少两个缓冲存储段,并且为每个缓冲存储段设置用于指示存储顺序的顺序号;
从所述服务存储节点接收包括缓冲存储段的数量和尺寸的响应消息,并对所述数据集合中每个数据项所归属的目标存储节点进行统计,以确定所述数据集合所涉及的多个目标存储节点;
将包括所述数据集合中每个数据项的目录信息以及所述缓冲存储段的尺寸和数量的数据传输指示消息发送给多个目标存储节点中的每个目标存储节点;
每个目标存储节点根据目录信息确定自身所存储的并与数据传输相关联的多个数据项,确定多个数据项中每个数据项的尺寸并且基于每个数据项的尺寸计算每个目标存储节点自身所存储的多个数据项的总尺寸;
每个目标存储节点根据自身所存储的多个数据项的总尺寸和所述缓冲存储段的尺寸为每个数据项设置传输级别,其中传输级别的数量小于所述缓冲存储段的数量并且不同的传输级别用于指示向服务存储节点发送数据项时不同的传输顺序;
响应于每个目标存储节点为自身所存储的每个数据项设置传输级别的完成,按照每个目标存储节点与服务存储节点的网络延迟为每个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列;
按照从数据项的最高传输级别到最低传输级别的降序顺序依次对每个传输级别的数据项进行传输:从环状传输队列中位于队首的目标存储节点开始到位于队尾的目标存储节点为止,按照环状传输队列的队列顺序依次将每个目标存储节点所存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;其中当前传输级别是从最高传输级别到最低传输级别的多个传输级别中的一个,并且其中在当前的目标存储节点将当前传输级别的至少一个数据项全部传输到所述服务存储节点之后,促使环状传输队列中所述当前的目标存储节点的下一目标存储节点开始进行数据传输;以及
所述服务存储节点按照数据项的接收时间将接收到的数据项按照缓冲存储段的顺序号保存到当前顺序号的缓冲存储段中:在判断当前顺序号的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间时,将所述当前顺序号的缓冲存储段中的所有数据项发送给数据请求方,将所述当前接收的数据项存储到下一顺序号的缓冲存储段中,并且将所述下一顺序号作为当前顺序号;当所述缓冲存储区中当前顺序号的缓冲存储段在预定时间内没有接收到数据项时,将所述当前顺序号的缓冲存储段的所有数据项发送给数据请求方。
所述分布式大数据系统包括系统节点和多个存储节点,其中所述系统节点用于为数据请求方提供与所述分布式大数据系统进行数据交互的通信接口,由所述系统节点通过通信接口接收来自数据请求方的数据获取请求,其中多个存储节点中的每个存储节点用于存储多个数据项。
其中数据请求方标识是能够唯一地标识数据请求方的标识符,数据请求方地址是数据请求方的网络地址以及数据检索条件是至少一个数据检索式,其中通过每个数据检索式能够从分布式大数据存储系统的所有数据项中确定一个或多个数据项。
其中根据数据请求方标识对所述数据请求方进行身份验证包括:基于所述数据请求方标识在验证数据库的验证列表中进行查询,根据查询结果确定身份验证的结果,其中所述身份验证的结果用于指示所述数据请求方的访问权限;所述访问权限包括:禁止访问、限制访问和完全访问。
确定所述数据检索条件的检索级别,所述检索级别包括高级检索和普通检索,其中当数据检索条件的至少一个数据检索式中任意数据检索式为高级检索式时,确定所述数据检索条件的检索级别为高级检索;当数据检索条件的至少一个数据检索式中所有数据检索式均为普通检索式时,确定所述数据检索条件的检索级别为普通检索。
其中根据身份验证的结果确定所述数据请求方是否具有使用所述数据获取请求中的数据检索条件来获取数据的权限包括:
当身份验证的结果指示所述数据请求方的访问权限为完全访问时,确定所述数据请求方具有使用所述数据获取请求中的数据检索条件来获取数据的权限;
当身份验证的结果指示所述数据请求方的访问权限为限制访问并且数据检索条件的检索级别为普通检索时,确定所述数据请求方具有使用所述数据获取请求中的数据检索条件来获取数据的权限;
当身份验证的结果指示所述数据请求方的访问权限为限制访问并且数据检索条件的检索级别为高级检索时,确定所述数据请求方不具有使用所述数据获取请求中的数据检索条件来获取数据的权限;以及
当身份验证的结果指示所述数据请求方的访问权限为禁止访问时,确定所述数据请求方不具有使用所述数据获取请求中的数据检索条件来获取数据的权限。
根据所述数据检索条件来确定所述数据获取请求所涉及的包括多个数据项的数据集合包括:根据所述数据检索条件的至少一个数据检索式中的每个数据检索式来获取包括至少一个数据项的数据子集合,将所获取的至少一个数据子集合的并集确定为所述数据获取请求所涉及的包括多个数据项的数据集合。
其中确定所述数据集合中的所有数据项的总尺寸包括:将所述数据集合中每个数据项的尺寸求和以确定所有数据项的总尺寸。
其中根据所述总尺寸和所述数据请求方地址从所述分布式大数据存储系统内多个存储节点中选择一个存储节点以作为所述数据请求方选择服务存储节点包括:
确定所述分布式大数据存储系统内多个存储节点中每个存储节点的剩余存储容量,将剩余存储容量大于所述总尺寸的五倍以上的存储节点确定为候选存储节点,将多个候选存储节点中与所述数据请求方地址的网络延迟最小的候选存储节点确定为服务存储节点。
促使所述服务存储节点根据所述数据请求方地址和所述总尺寸来创建缓冲存储区并将所述缓冲存储区分为至少两个缓冲存储段包括:
所述服务存储节点确定与所述数据请求方地址在预定时间段内的平均网络延迟;
当所述平均网络延迟大于或等于延迟阈值时,创建存储容量为所述总尺寸的1.2倍的缓冲存储区并且以缓冲存储段的尺寸为所述总尺寸的1/50将所述缓冲存储区划分为60个缓冲存储段;
当所述平均网络延迟小于延迟阈值时,创建存储容量为所述总尺寸的1.1倍的缓冲存储区并且以缓冲存储段的尺寸为所述总尺寸的1/10将所述缓冲存储区划分为11个缓冲存储段。
其中为每个缓冲存储段设置用于指示存储顺序的顺序号包括:按照缓冲存储段的地址的升序顺序设置用于指示存储顺序的顺序号;或者,按照缓冲存储段的地址的降序顺序设置用于指示存储顺序的顺序号;或者按照随机方式为每个缓冲存储段设置用于指示存储顺序的顺序号。
其中目标存储节点是存储了多个数据项的存储节点。
所述目录信息包括多个条目,每个条目包括数据项的名称和目标存储节点的标识。
所述数据传输指示消息用于指示目标存储节点开始进行数据传输。
其中每个目标存储节点根据目录信息确定自身所存储的并与数据传输相关联的多个数据项包括:
每个目标存储节点对目录信息中的所有条目进行识别,以确定包括自身标识的多个条目,通过所确定多个条目来确定自身所存储的并与数据传输相关联的多个数据项。
其中所述传输级别包括传输顺序依次降低的至少三个传输级别;
其中所述传输级别包括高传输级别、中传输级别和低传输级别;
其中每个目标存储节点根据自身所存储的多个数据项的总尺寸和所述缓冲存储段的尺寸为每个数据项设置传输级包括:
当所存储的多个数据项的总尺寸小于或等于所述缓冲存储段的尺寸时,高传输级别的数据项、中传输级别的数据项和低传输级别的数据项的数量比例为1:1:1;
当所存储的多个数据项的总尺寸大于所述缓冲存储段的尺寸并且小于或等于所述缓冲存储段的尺寸的2倍时,高传输级别的数据项、中传输级别的数据项和低传输级别的数据项的数量比例为0.5:1:0.5;以及
当所存储的多个数据项的总尺寸大于所述缓冲存储段的尺寸的2倍时,高传输级别的数据项、中传输级别的数据项和低传输级别的数据项的数量比例为0.25:1:0.25。
其中为多个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列包括:
按照每个目标存储节点与服务存储节点的网络延迟的升序顺序为多个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列,其中环状传输队列队首的目标存储节点与服务存储节点的网络延迟最小,环状传输队列队尾的目标存储节点与服务存储节点的网络延迟最大;或者
按照每个目标存储节点与服务存储节点的网络延迟的降序顺序为多个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列,其中环状传输队列队首的目标存储节点与服务存储节点的网络延迟最大,环状传输队列队尾的目标存储节点与服务存储节点的网络延迟最小;或者
按照随机方式为多个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列。
在所述环状传输队列中随机选择一个目标存储节点,以作为位于队首的目标存储节点,将以位于队首的目标存储节点开始的顺时针方向作为所述环状传输队列的队列顺序,将从位于队首的目标存储节点开始逆时针方向的相邻目标存储节点作为位于队尾的目标存储节点。
在所述环状传输队列中随机选择一个目标存储节点,以作为位于队首的目标存储节点,将以位于队首的目标存储节点开始的逆时针方向作为所述环状传输队列的队列顺序,将从位于队首的目标存储节点开始顺时针方向的相邻目标存储节点作为位于队尾的目标存储节点。
所述传输级别包括传输顺序依次降低的至少三个传输级别;所述传输级别包括:第一传输级别、第二传输级别、第三传输级别、第四传输级别和第五传输级别。
对于多个传输级别中除最低传输级别之外的任意传输级别,在任意传输级别的所有数据项全部被传输到服务存储节点之后,开始进行比所述任意传输级别低一个级别的传输级别的数据项的传输;
对于最低传输级别,在最低传输级别的所有数据项全部被传输到服务存储节点之后,任何目标存储节点不再向服务存储节点传输数据。
所述环状传输队列包括第一目标存储节点、第二目标存储节点、第三目标存储节点、第四目标存储节点和第五目标存储节点,其中第一目标存储节点是位于队首的目标存储节点并且第五目标存储节点是位于队尾的目标存储节点;
所述传输级别包括:第一传输级别、第二传输级别、第三传输级别、第四传输级别和第五传输级别。其中第一传输级别、第二传输级别、第三传输级别、第四传输级别和第五传输级别的传输顺序依次降低;
A1、将第一传输级别作为当前传输级别:
A2、第一目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;
A3、第二目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;
A4、第三目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;
A5、第四目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;以及
A6、第五目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;
A7、在第五目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点之后,确定当前传输级别是否为第五传输级别,如果是,则结束;如果否,则将下一传输级别作为当前传输级别,进行步骤A2。
其中最高传输级别是对数据项进行传输时的最高级别,并且最低传输级别是对数据项进行传输时的最低级别。
其中当前传输级别是从最高传输级别到最低传输级别的多个传输级别中的一个包括:将多个传输级别中每个传输级别按照从最高传输级别到最低传输级别的降序顺序依次选择作为当前传输级别。
所述当前的目标存储节点是从位于队首的目标存储节点开始到位于队尾的目标存储节点为止的多个目标存储节点中的一个,并且当前的目标存储节点是从位于队首的目标存储节点开始到位于队尾的目标存储节点为止的多个目标存储节点中的一个包括:将环状传输队列中多个目标传输节点中每个目标传输节点按照从位于队首的目标存储节点开始到位于队尾的目标存储节点为止的队列顺序依次选择作为当前的目标传输节点。
在当前的目标存储节点是位于队尾的目标存储节点的情况下,环状传输队列中所述当前的目标存储节点的下一目标存储节点是位于队首的目标存储节点;
在当前的目标存储节点不是位于队尾的目标存储节点的情况下,环状传输队列中所述当前的目标存储节点的下一目标存储节点是环状传输队列中顺时针方向或逆时针方向的相邻节点。
其中所述服务存储节点按照数据项的接收时间将接收到的数据项按照缓冲存储段的顺序号保存到缓冲存储段包括:
在多个缓冲存储段之间,所述服务存储节点按照缓冲存储段的顺序号选择所接收到的数据项进行缓存的缓冲存储段;
在缓冲存储段内,所述服务存储节点按照数据项的接收时间将接收到的数据项缓存到缓冲存储段中。
所述当前顺序号是从缓冲存储段的最早顺序号到最末顺序号之间的一个,并且当前顺序号是从缓冲存储段的最早顺序号到最末顺序号之间的一个包括:将多个顺序号中每个顺序号按照顺序号的顺序依次选择作为当前顺序号。
还包括确定如果将当前接收的数据项存储到当前顺序号的缓冲存储段后,会导致当前顺序号的缓冲存储段的存储内容超出存储容量的情况下,判断当前顺序号的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间;
包括确定如果将当前接收的数据项存储到当前顺序号的缓冲存储段后,不会导致当前顺序号的缓冲存储段的存储内容超出存储容量的情况下,判断当前顺序号的缓冲存储段具有对当前接收的数据项进行存储的剩余存储空间。
将所述当前顺序号的缓冲存储段中的所有数据项发送给数据请求方包括:将所述当前顺序号的缓冲存储段中的所有数据项封装成至少两个数据包,并且将所述至少两个数据包发送给数据请求方。
其中下一顺序号的缓冲存储段是缓冲存储段的顺序号中与当前顺序号的缓冲存储段相邻并且顺序号为后一位的缓冲存储段;其中在缓冲存储段时最末顺序号的缓冲存储段的情况下,不存在下一顺序号的缓冲存储段。
其中缓冲存储器包括10个缓冲存储段,所述10个缓冲存储段的顺序号为1、2、3、4、5、6、7、8、9和10;
B1、将顺序号为1的缓冲存储段作为当前顺序号的缓冲存储段:
B2、服务存储节点按照数据项的接收时间将接收到的数据项保存到当前顺序号缓冲存储段中;
B3、判断当前顺序号的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间时,判断当前顺序号是否为10,如果是,则结束,否则将下一顺序号作为当前顺序号,进行步骤B2。
所述当前顺序号的缓冲存储段是服务存储节点将所接收的数据项保存到其中的当前缓冲存储段。
根据本发明的一个方面,提供一种在分布式大数据存储系统内进行数据传输的方法,所述方法包括:
步骤1、接收来自数据请求方的数据获取请求,其中所述数据获取请求包括:数据请求方标识、数据请求方地址以及数据检索条件;
步骤2、根据数据请求方标识对所述数据请求方进行身份验证,根据身份验证的结果确定所述数据请求方是否具有使用所述数据获取请求中的数据检索条件来获取数据的权限;
步骤3、当身份验证的结果指示所述数据请求方具有使用所述数据获取请求中的数据检索条件来获取数据的权限时,根据所述数据检索条件来确定所述数据获取请求所涉及的包括多个数据项的数据集合;
步骤4、确定所述数据集合中的所有数据项的总尺寸,根据所述总尺寸和所述数据请求方地址从所述分布式大数据存储系统内多个存储节点中选择一个存储节点以作为所述数据请求方选择服务存储节点;
步骤5、向所述服务存储节点发送所述数据请求方地址和所述总尺寸,促使所述服务存储节点根据所述数据请求方地址和所述总尺寸来创建缓冲存储区并将所述缓冲存储区分为至少两个缓冲存储段,并且为每个缓冲存储段设置用于指示存储顺序的顺序号;
步骤6、从所述服务存储节点接收包括缓冲存储段的数量和尺寸的响应消息,并对所述数据集合中每个数据项所归属的目标存储节点进行统计,以确定所述数据集合所涉及的多个目标存储节点;
步骤7、将包括所述数据集合中每个数据项的目录信息以及所述缓冲存储段的尺寸和数量的数据传输指示消息发送给多个目标存储节点中的每个目标存储节点;
步骤8、每个目标存储节点根据目录信息确定自身所存储的并与数据传输相关联的多个数据项,确定多个数据项中每个数据项的尺寸并且基于每个数据项的尺寸计算每个目标存储节点自身所存储的多个数据项的总尺寸;
步骤9、每个目标存储节点根据自身所存储的多个数据项的总尺寸和所述缓冲存储段的尺寸为每个数据项设置传输级别,其中传输级别的数量小于所述缓冲存储段的数量并且不同的传输级别用于指示向服务存储节点发送数据项时不同的传输顺序;
步骤10、响应于每个目标存储节点为自身所存储的每个数据项设置传输级别的完成,按照每个目标存储节点与服务存储节点的网络延迟为每个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列;
步骤11、将多个传输级别中的最高传输级别确定为当前传输级别;
步骤12、;从环状传输队列中位于队首的目标存储节点开始到位于队尾的目标存储节点为止,按照环状传输队列的队列顺序依次将每个目标存储节点所存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;
步骤13、在确定环状传输队列中位于队尾的目标存储节点所存储的多个数据项中当前传输级别的至少一个数据项全部被传输到所述服务存储节点时,确定是否存在比当前传输级别低一个级别的传输级别,如果是,则将比当前传输级别低一个级别的传输级别确定为当前传输级别,并且进行步骤12;如果否,则进行步骤15;
步骤15,所述服务存储节点按照数据项的接收时间将接收到的数据项按照缓冲存储段的顺序号保存到当前顺序号的缓冲存储段中:在判断当前顺序号的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间时,将所述当前顺序号的缓冲存储段中的所有数据项发送给数据请求方,并且将所述当前接收的数据项存储到下一顺序号的缓冲存储段中,并且将所述下一顺序号作为当前顺序号;当所述缓冲存储区中当前顺序号的缓冲存储段在预定时间内没有接收到数据项时,将所述当前顺序号的缓冲存储段的所有数据项发送给数据请求方。
根据本发明的一个方面,提供一种在分布式大数据存储系统内进行数据传输的系统,所述系统包括:
接收单元,接收来自数据请求方的数据获取请求,其中所述数据获取请求包括:数据请求方标识、数据请求方地址以及数据检索条件;
验证单元,根据数据请求方标识对所述数据请求方进行身份验证,根据身份验证的结果确定所述数据请求方是否具有使用所述数据获取请求中的数据检索条件来获取数据的权限;
检索单元,当身份验证的结果指示所述数据请求方具有使用所述数据获取请求中的数据检索条件来获取数据的权限时,根据所述数据检索条件来确定所述数据获取请求所涉及的包括多个数据项的数据集合;
选择单元,确定所述数据集合中的所有数据项的总尺寸,根据所述总尺寸和所述数据请求方地址从所述分布式大数据存储系统内多个存储节点中选择一个存储节点以作为所述数据请求方选择服务存储节点;
第一发送单元,向所述服务存储节点发送所述数据请求方地址和所述总尺寸,促使所述服务存储节点根据所述数据请求方地址和所述总尺寸来创建缓冲存储区并将所述缓冲存储区分为至少两个缓冲存储段,并且为每个缓冲存储段设置用于指示存储顺序的顺序号;
统计单元,获取通过接收单元从所述服务存储节点接收包括缓冲存储段的数量和尺寸的响应消息,并对所述数据集合中每个数据项所归属的目标存储节点进行统计,以确定所述数据集合所涉及的多个目标存储节点;
第二发送单元,将包括所述数据集合中每个数据项的目录信息以及所述缓冲存储段的尺寸和数量的数据传输指示消息发送给多个目标存储节点中的每个目标存储节点;
处理单元,每个目标存储节点根据目录信息确定自身所存储的并与数据传输相关联的多个数据项,确定多个数据项中每个数据项的尺寸并且基于每个数据项的尺寸计算每个目标存储节点自身所存储的多个数据项的总尺寸;促使每个目标存储节点根据自身所存储的多个数据项的总尺寸和所述缓冲存储段的尺寸为每个数据项设置传输级别,其中传输级别的数量小于所述缓冲存储段的数量并且不同的传输级别用于指示向服务存储节点发送数据项时不同的传输顺序;响应于每个目标存储节点为自身所存储的每个数据项设置传输级别的完成,按照每个目标存储节点与服务存储节点的网络延迟为每个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列;
所述处理单元按照从数据项的最高传输级别到最低传输级别的降序顺序依次对每个传输级别的数据项进行传输:从环状传输队列中位于队首的目标存储节点开始到位于队尾的目标存储节点为止,按照环状传输队列的队列顺序依次将每个目标存储节点所存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;其中当前传输级别是从最高传输级别到最低传输级别的多个传输级别中的一个,并且其中在当前的目标存储节点将当前传输级别的至少一个数据项全部传输到所述服务存储节点之后,促使环状传输队列中所述当前的目标存储节点的下一目标存储节点开始进行数据传输;以及
传输单元,所述服务存储节点按照数据项的接收时间将接收到的数据项按照缓冲存储段的顺序号保存到当前顺序号的缓冲存储段中:在判断当前顺序号的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间时,将所述当前顺序号的缓冲存储段中的所有数据项发送给数据请求方,将所述当前接收的数据项存储到下一顺序号的缓冲存储段中,并且将所述下一顺序号作为当前顺序号;当所述缓冲存储区中当前顺序号的缓冲存储段在预定时间内没有接收到数据项时,将所述当前顺序号的缓冲存储段的所有数据项发送给数据请求方。
所述分布式大数据系统包括系统节点和多个存储节点,其中所述系统节点用于为数据请求方提供与所述分布式大数据系统进行数据交互的通信接口,由所述系统节点通过通信接口接收来自数据请求方的数据获取请求,其中多个存储节点中的每个存储节点用于存储多个数据项。
其中数据请求方标识是能够唯一地标识数据请求方的标识符,数据请求方地址是数据请求方的网络地址以及数据检索条件是至少一个数据检索式,其中通过每个数据检索式能够从分布式大数据存储系统的所有数据项中确定一个或多个数据项。
其中根据数据请求方标识对所述数据请求方进行身份验证包括:基于所述数据请求方标识在验证数据库的验证列表中进行查询,根据查询结果确定身份验证的结果,其中所述身份验证的结果用于指示所述数据请求方的访问权限;所述访问权限包括:禁止访问、限制访问和完全访问。
确定所述数据检索条件的检索级别,所述检索级别包括高级检索和普通检索,其中当数据检索条件的至少一个数据检索式中任意数据检索式为高级检索式时,确定所述数据检索条件的检索级别为高级检索;当数据检索条件的至少一个数据检索式中所有数据检索式均为普通检索式时,确定所述数据检索条件的检索级别为普通检索。
其中根据身份验证的结果确定所述数据请求方是否具有使用所述数据获取请求中的数据检索条件来获取数据的权限包括:
当身份验证的结果指示所述数据请求方的访问权限为完全访问时,确定所述数据请求方具有使用所述数据获取请求中的数据检索条件来获取数据的权限;
当身份验证的结果指示所述数据请求方的访问权限为限制访问并且数据检索条件的检索级别为普通检索时,确定所述数据请求方具有使用所述数据获取请求中的数据检索条件来获取数据的权限;
当身份验证的结果指示所述数据请求方的访问权限为限制访问并且数据检索条件的检索级别为高级检索时,确定所述数据请求方不具有使用所述数据获取请求中的数据检索条件来获取数据的权限;以及
当身份验证的结果指示所述数据请求方的访问权限为禁止访问时,确定所述数据请求方不具有使用所述数据获取请求中的数据检索条件来获取数据的权限。
根据所述数据检索条件来确定所述数据获取请求所涉及的包括多个数据项的数据集合包括:根据所述数据检索条件的至少一个数据检索式中的每个数据检索式来获取包括至少一个数据项的数据子集合,将所获取的至少一个数据子集合的并集确定为所述数据获取请求所涉及的包括多个数据项的数据集合。
其中确定所述数据集合中的所有数据项的总尺寸包括:将所述数据集合中每个数据项的尺寸求和以确定所有数据项的总尺寸。
其中根据所述总尺寸和所述数据请求方地址从所述分布式大数据存储系统内多个存储节点中选择一个存储节点以作为所述数据请求方选择服务存储节点包括:
确定所述分布式大数据存储系统内多个存储节点中每个存储节点的剩余存储容量,将剩余存储容量大于所述总尺寸的五倍以上的存储节点确定为候选存储节点,将多个候选存储节点中与所述数据请求方地址的网络延迟最小的候选存储节点确定为服务存储节点。
促使所述服务存储节点根据所述数据请求方地址和所述总尺寸来创建缓冲存储区并将所述缓冲存储区分为至少两个缓冲存储段包括:
所述服务存储节点确定与所述数据请求方地址在预定时间段内的平均网络延迟;
当所述平均网络延迟大于或等于延迟阈值时,创建存储容量为所述总尺寸的1.2倍的缓冲存储区并且以缓冲存储段的尺寸为所述总尺寸的1/50将所述缓冲存储区划分为60个缓冲存储段;
当所述平均网络延迟小于延迟阈值时,创建存储容量为所述总尺寸的1.1倍的缓冲存储区并且以缓冲存储段的尺寸为所述总尺寸的1/10将所述缓冲存储区划分为11个缓冲存储段。
其中为每个缓冲存储段设置用于指示存储顺序的顺序号包括:按照缓冲存储段的地址的升序顺序设置用于指示存储顺序的顺序号;或者,按照缓冲存储段的地址的降序顺序设置用于指示存储顺序的顺序号;或者按照随机方式为每个缓冲存储段设置用于指示存储顺序的顺序号。
根据权利要求1所述的系统,其中目标存储节点是存储了多个数据项的存储节点。
所述目录信息包括多个条目,每个条目包括数据项的名称和目标存储节点的标识。
所述数据传输指示消息用于指示目标存储节点开始进行数据传输。
其中每个目标存储节点根据目录信息确定自身所存储的并与数据传输相关联的多个数据项包括:
每个目标存储节点对目录信息中的所有条目进行识别,以确定包括自身标识的多个条目,通过所确定多个条目来确定自身所存储的并与数据传输相关联的多个数据项。
其中所述传输级别包括传输顺序依次降低的至少三个传输级别;
其中所述传输级别包括高传输级别、中传输级别和低传输级别;
其中每个目标存储节点根据自身所存储的多个数据项的总尺寸和所述缓冲存储段的尺寸为每个数据项设置传输级包括:
当所存储的多个数据项的总尺寸小于或等于所述缓冲存储段的尺寸时,高传输级别的数据项、中传输级别的数据项和低传输级别的数据项的数量比例为1:1:1;
当所存储的多个数据项的总尺寸大于所述缓冲存储段的尺寸并且小于或等于所述缓冲存储段的尺寸的2倍时,高传输级别的数据项、中传输级别的数据项和低传输级别的数据项的数量比例为0.5:1:0.5;以及
当所存储的多个数据项的总尺寸大于所述缓冲存储段的尺寸的2倍时,高传输级别的数据项、中传输级别的数据项和低传输级别的数据项的数量比例为0.25:1:0.25。
其中为多个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列包括:
按照每个目标存储节点与服务存储节点的网络延迟的升序顺序为多个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列,其中环状传输队列队首的目标存储节点与服务存储节点的网络延迟最小,环状传输队列队尾的目标存储节点与服务存储节点的网络延迟最大;或者
按照每个目标存储节点与服务存储节点的网络延迟的降序顺序为多个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列,其中环状传输队列队首的目标存储节点与服务存储节点的网络延迟最大,环状传输队列队尾的目标存储节点与服务存储节点的网络延迟最小;或者
按照随机方式为多个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列。
在所述环状传输队列中随机选择一个目标存储节点,以作为位于队首的目标存储节点,将以位于队首的目标存储节点开始的顺时针方向作为所述环状传输队列的队列顺序,将从位于队首的目标存储节点开始逆时针方向的相邻目标存储节点作为位于队尾的目标存储节点。
在所述环状传输队列中随机选择一个目标存储节点,以作为位于队首的目标存储节点,将以位于队首的目标存储节点开始的逆时针方向作为所述环状传输队列的队列顺序,将从位于队首的目标存储节点开始顺时针方向的相邻目标存储节点作为位于队尾的目标存储节点。
所述传输级别包括传输顺序依次降低的至少三个传输级别;所述传输级别包括:第一传输级别、第二传输级别、第三传输级别、第四传输级别和第五传输级别。
对于多个传输级别中除最低传输级别之外的任意传输级别,在任意传输级别的所有数据项全部被传输到服务存储节点之后,开始进行比所述任意传输级别低一个级别的传输级别的数据项的传输;
对于最低传输级别,在最低传输级别的所有数据项全部被传输到服务存储节点之后,任何目标存储节点不再向服务存储节点传输数据。
所述环状传输队列包括第一目标存储节点、第二目标存储节点、第三目标存储节点、第四目标存储节点和第五目标存储节点,其中第一目标存储节点是位于队首的目标存储节点并且第五目标存储节点是位于队尾的目标存储节点;
所述传输级别包括:第一传输级别、第二传输级别、第三传输级别、第四传输级别和第五传输级别。其中第一传输级别、第二传输级别、第三传输级别、第四传输级别和第五传输级别的传输顺序依次降低;
A1、将第一传输级别作为当前传输级别:
A2、第一目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;
A3、第二目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;
A4、第三目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;
A5、第四目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;以及
A6、第五目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;
A7、在第五目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点之后,确定当前传输级别是否为第五传输级别,如果是,则结束;如果否,则将下一传输级别作为当前传输级别,进行步骤A2。
其中最高传输级别是对数据项进行传输时的最高级别,并且最低传输级别是对数据项进行传输时的最低级别。
其中当前传输级别是从最高传输级别到最低传输级别的多个传输级别中的一个包括:将多个传输级别中每个传输级别按照从最高传输级别到最低传输级别的降序顺序依次选择作为当前传输级别。
所述当前的目标存储节点是从位于队首的目标存储节点开始到位于队尾的目标存储节点为止的多个目标存储节点中的一个,并且当前的目标存储节点是从位于队首的目标存储节点开始到位于队尾的目标存储节点为止的多个目标存储节点中的一个包括:将环状传输队列中多个目标传输节点中每个目标传输节点按照从位于队首的目标存储节点开始到位于队尾的目标存储节点为止的队列顺序依次选择作为当前的目标传输节点。
在当前的目标存储节点是位于队尾的目标存储节点的情况下,环状传输队列中所述当前的目标存储节点的下一目标存储节点是位于队首的目标存储节点;
在当前的目标存储节点不是位于队尾的目标存储节点的情况下,环状传输队列中所述当前的目标存储节点的下一目标存储节点是环状传输队列中顺时针方向或逆时针方向的相邻节点。
其中所述服务存储节点按照数据项的接收时间将接收到的数据项按照缓冲存储段的顺序号保存到缓冲存储段包括:
在多个缓冲存储段之间,所述服务存储节点按照缓冲存储段的顺序号选择所接收到的数据项进行缓存的缓冲存储段;
在缓冲存储段内,所述服务存储节点按照数据项的接收时间将接收到的数据项缓存到缓冲存储段中。
所述当前顺序号是从缓冲存储段的最早顺序号到最末顺序号之间的一个,并且当前顺序号是从缓冲存储段的最早顺序号到最末顺序号之间的一个包括:将多个顺序号中每个顺序号按照顺序号的顺序依次选择作为当前顺序号。
还包括确定如果将当前接收的数据项存储到当前顺序号的缓冲存储段后,会导致当前顺序号的缓冲存储段的存储内容超出存储容量的情况下,判断当前顺序号的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间;
包括确定如果将当前接收的数据项存储到当前顺序号的缓冲存储段后,不会导致当前顺序号的缓冲存储段的存储内容超出存储容量的情况下,判断当前顺序号的缓冲存储段具有对当前接收的数据项进行存储的剩余存储空间。
将所述当前顺序号的缓冲存储段中的所有数据项发送给数据请求方包括:将所述当前顺序号的缓冲存储段中的所有数据项封装成至少两个数据包,并且将所述至少两个数据包发送给数据请求方。
其中下一顺序号的缓冲存储段是缓冲存储段的顺序号中与当前顺序号的缓冲存储段相邻并且顺序号为后一位的缓冲存储段;其中在缓冲存储段时最末顺序号的缓冲存储段的情况下,不存在下一顺序号的缓冲存储段。
其中缓冲存储器包括10个缓冲存储段,所述10个缓冲存储段的顺序号为1、2、3、4、5、6、7、8、9和10;
B1、将顺序号为1的缓冲存储段作为当前顺序号的缓冲存储段:
B2、服务存储节点按照数据项的接收时间将接收到的数据项保存到当前顺序号缓冲存储段中;
B3、判断当前顺序号的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间时,判断当前顺序号是否为10,如果是,则结束,否则将下一顺序号作为当前顺序号,进行步骤B2。
所述当前顺序号的缓冲存储段是服务存储节点将所接收的数据项保存到其中的当前缓冲存储段。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明实施方式的在分布式大数据存储系统内进行数据传输的方法的流程图;
图2为根据本发明实施方式的分布式大数据存储系统的结构示意图;
图3为根据本发明实施方式的目标存储节点确定传输级别的示意图;
图4为根据本发明实施方式的服务存储节点的缓冲存储区的示意图;以及
图5为根据本发明实施方式的在分布式大数据存储系统内进行数据传输的系统的结构示意图。
具体实施方式
图1为根据本发明实施方式的在分布式大数据存储系统内进行数据传输的方法100的流程图。如图1所示,方法100从步骤101处开始。
在步骤101,分布式大数据存储系统的系统节点接收来自数据请求方的数据获取请求。其中所述数据获取请求包括:数据请求方标识、数据请求方地址以及数据检索条件。图2为根据本发明实施方式的分布式大数据存储系统200的结构示意图。下面参照图2来介绍方法100。
分布式大数据系统200包括系统节点201和多个存储节点203-210。系统节点201用于为数据请求方202(或者数据请求方的设备、用户设备、用户终端)提供与分布式大数据系统200进行数据交互的通信接口。由系统节点201通过通信接口接收来自数据请求方202的数据获取请求。多个存储节点203-210中的每个存储节点用于存储多个数据项。其中数据项可以是各种类型的文件,例如,音频文件、视频文件、文本文件等,并且数据项可以是文件集、文件组、文件压缩包等类似的集合。
其中数据请求方标识是能够唯一地标识数据请求方201的标识符。数据请求方地址是数据请求方201的网络地址以及数据检索条件是至少一个数据检索式。其中通过每个数据检索式能够从分布式大数据存储系统的所有数据项中确定一个或多个数据项。数据检索式例如是:通信和系统和(上行或下行)。
在步骤102,根据数据请求方标识对所述数据请求方进行身份验证,根据身份验证的结果确定所述数据请求方是否具有使用所述数据获取请求中的数据检索条件来获取数据的权限。
系统节点201根据数据请求方标识对所述数据请求方进行身份验证包括:系统节点201基于所述数据请求方标识在验证数据库的验证列表中进行查询,根据查询结果确定身份验证的结果。其中所述身份验证的结果用于指示所述数据请求方的访问权限。所述访问权限包括:禁止访问、限制访问和完全访问。
系统节点201确定所述数据检索条件的检索级别。所述检索级别包括高级检索和普通检索。其中当数据检索条件的至少一个数据检索式中任意数据检索式为高级检索式时,确定所述数据检索条件的检索级别为高级检索。当数据检索条件的至少一个数据检索式中所有数据检索式均为普通检索式时,确定所述数据检索条件的检索级别为普通检索。例如,在摘要数据库中进行搜索,则检索式-(通信和系统和(上行或下行))/-为普通检索式,在全文数据库中进行检索,则检索式-通信和系统和(上行或下行)-为高级检索式。
系统节点201根据身份验证的结果确定所述数据请求方202是否具有使用所述数据获取请求中的数据检索条件来获取数据的权限包括:当身份验证的结果指示所述数据请求方的访问权限为完全访问时,确定所述数据请求方具有使用所述数据获取请求202中的数据检索条件来获取数据的权限;当身份验证的结果指示所述数据请求方202的访问权限为限制访问并且数据检索条件的检索级别为普通检索时,确定所述数据请求方202具有使用所述数据获取请求中的数据检索条件来获取数据的权限;当身份验证的结果指示所述数据请求方202的访问权限为限制访问并且数据检索条件的检索级别为高级检索时,确定所述数据请求方202不具有使用所述数据获取请求中的数据检索条件来获取数据的权限;以及当身份验证的结果指示所述数据请求方202的访问权限为禁止访问时,确定所述数据请求方202不具有使用所述数据获取请求中的数据检索条件来获取数据的权限。
在步骤103,当身份验证的结果指示所述数据请求方具有使用所述数据获取请求中的数据检索条件来获取数据的权限时,系统节点201根据所述数据检索条件来确定所述数据获取请求所涉及的包括多个数据项的数据集合。系统节点201根据所述数据检索条件来确定所述数据获取请求所涉及的包括多个数据项的数据集合包括:根据所述数据检索条件的至少一个数据检索式中的每个数据检索式来获取包括至少一个数据项的数据子集合,将所获取的至少一个数据子集合的并集确定为所述数据获取请求所涉及的包括多个数据项的数据集合。还包括,对包括多个数据项的数据集合中的数据项进行去重处理。
在步骤104,系统节点201确定所述数据集合中的所有数据项的总尺寸,根据所述总尺寸和所述数据请求方地址从所述分布式大数据存储系统内多个存储节点中选择一个存储节点以作为所述数据请求方选择服务存储节点。系统节点201根据所述总尺寸和所述数据请求方地址从所述分布式大数据存储系统内多个存储节点中选择一个存储节点以作为所述数据请求方选择服务存储节点包括:系统节点201确定所述分布式大数据存储系统200内多个存储节点203-210中每个存储节点的剩余存储容量。将剩余存储容量大于所述总尺寸的五倍以上的存储节点确定为候选存储节点。例如,所有数据项的总尺寸为10GB,存储节点203的剩余存储容量为1TB、存储节点204的剩余存储容量为100GB并且存储节点205的剩余存储容量为500GB,则将存储节点203-205确定为候选存储节点。将多个候选存储节点203-205中与所述数据请求方地址的网络延迟最小的候选存储节点确定为服务存储节点,例如,候选存储节点205确定为服务存储节点。
系统节点201确定所述数据集合中的所有数据项的总尺寸包括:系统节点201将所述数据集合中每个数据项的尺寸求和以确定所有数据项的总尺寸。
在步骤105,系统节点201向所述服务存储节点205发送所述数据请求方地址和所述总尺寸,促使所述服务存储节点205根据所述数据请求方地址和所述总尺寸来创建缓冲存储区并将所述缓冲存储区分为至少两个缓冲存储段,并且为每个缓冲存储段设置用于指示存储顺序的顺序号。
系统节点201促使所述服务存储节点205根据所述数据请求方地址和所述总尺寸来创建缓冲存储区并将所述缓冲存储区分为至少两个缓冲存储段包括:所述服务存储节点205确定与所述数据请求方地址在预定时间段内的平均网络延迟。当所述平均网络延迟大于或等于延迟阈值时,创建存储容量为所述总尺寸的1.2倍的缓冲存储区并且以缓冲存储段的尺寸为所述总尺寸的1/50将所述缓冲存储区划分为60个缓冲存储段。当所述平均网络延迟小于延迟阈值时,创建存储容量为所述总尺寸的1.1倍的缓冲存储区并且以缓冲存储段的尺寸为所述总尺寸的1/10将所述缓冲存储区划分为11个缓冲存储段,如图4所示。
图4为根据本发明实施方式的服务存储节点内存储结构的示意图。缓冲存储区包括缓冲存储段401-1、401-2、401-3、401-4、401-5、……、401-N。通常,为了避免尺寸较大的数据项在缓冲存储段之间跨界的情况,即特定的大尺寸数据项无法被存储到缓冲存储段401-1(由于缓冲存储段401-1的剩余存储空间小于特定的大尺寸数据项的存储空间)时,只能被存储到缓冲存储段401-2中,为此,通常将缓冲存储区的存储空间设置为比总尺寸大。此外,当服务存储节点205与所述数据请求方地址(或数据请求方202)在预定时间段内的平均网络延迟较大时,可以将缓冲存储段的尺寸设置为较小,以降低数据重传的开销。当服务存储节点205与所述数据请求方地址(或数据请求方202)在预定时间段内的平均网络延迟较小时,可以将缓冲存储段的尺寸设置为较大,以减少网络开销并且提升网络传输速度。
系统节点201或服务存储节点205为每个缓冲存储段设置用于指示存储顺序的顺序号包括:按照缓冲存储段的地址的升序顺序设置用于指示存储顺序的顺序号;或者,按照缓冲存储段的地址的降序顺序设置用于指示存储顺序的顺序号;或者按照随机方式为每个缓冲存储段设置用于指示存储顺序的顺序号。
在步骤106,系统节点201从所述服务存储节点205接收包括缓冲存储段的数量和尺寸的响应消息,并对所述数据集合中每个数据项所归属的目标存储节点进行统计,以确定所述数据集合所涉及的多个目标存储节点。其中目标存储节点是存储了多个数据项的存储节点(当存储节点存储了所述数据集合中的数据项时,将存储节点确定为目标存储节点),即本申请的目标存储节点是至少存储了两个数据项的存储节点。每个数据集合对应于至少两个目标存储节点。
在步骤107,系统节点201将包括所述数据集合中每个数据项的目录信息以及所述缓冲存储段的尺寸和数量的数据传输指示消息发送给多个目标存储节点中的每个目标存储节点。目录信息包括多个条目,每个条目包括数据项的名称和目标存储节点的标识。数据传输指示消息用于指示目标存储节点开始进行数据传输。
在步骤108,每个目标存储节点206-210根据目录信息确定自身所存储的并与数据传输相关联的多个数据项,确定多个数据项中每个数据项的尺寸并且基于每个数据项的尺寸计算每个目标存储节点206-210自身所存储的多个数据项的总尺寸。通常,每个数据项的尺寸进行求和以确定每个目标存储节点206-210自身所存储的多个数据项的总尺寸。
在步骤109,与服务存储节点301连接的每个目标存储节点302-306根据自身所存储的多个数据项的总尺寸和所述缓冲存储段的尺寸为每个数据项设置传输级别,其中传输级别的数量小于所述缓冲存储段的数量并且不同的传输级别用于指示向服务存储节点发送数据项时不同的传输顺序,如图3所示。图3为根据本发明实施方式的目标存储节点确定传输级别的示意图。传输级别包括传输顺序依次降低的至少三个传输级别,级别1、级别2和级别3。可替换地,三个传输级别可以分别被称为高传输级别、中传输级别和低传输级别。通常,每个目标存储节点302-306可以确定不同传输级别(例如,三个传输级别)的比例,并且根据所存储的多个数据项的数量和比例来确定每个传输级别所包括的数据项的数量。即,每个目标存储节点302-306内不同传输级别的数据项的比例是数量比例。此外,每个目标存储节点302-306均具有相同数量的传输级别。
举例来说,每个目标存储节点根据自身所存储的多个数据项的总尺寸和所述缓冲存储段的尺寸为每个数据项设置传输级包括:当所存储的多个数据项的总尺寸小于或等于所述缓冲存储段的尺寸时,高传输级别的数据项、中传输级别的数据项和低传输级别的数据项的数量比例为1:1:1;当所存储的多个数据项的总尺寸大于所述缓冲存储段的尺寸并且小于或等于所述缓冲存储段的尺寸的2倍时,高传输级别的数据项、中传输级别的数据项和低传输级别的数据项的数量比例为0.5:1:0.5;以及当所存储的多个数据项的总尺寸大于所述缓冲存储段的尺寸的2倍时,高传输级别的数据项、中传输级别的数据项和低传输级别的数据项的数量比例为0.25:1:0.25。应当了解的是,高传输级别的数据项、中传输级别的数据项和低传输级别的数据项的数量比例可以是任何合理的比例,并且高传输级别的数据项、中传输级别的数据项和低传输级别的数据项的数量均不为零。
在步骤110,响应于每个目标存储节点206-210为自身所存储的每个数据项设置传输级别的完成,为多个目标存储节点206-210设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列。其中为多个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列包括:按照每个目标存储节点与服务存储节点的网络延迟的升序顺序为多个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列,其中环状传输队列队首的目标存储节点与服务存储节点的网络延迟最小,环状传输队列队尾的目标存储节点与服务存储节点的网络延迟最大;或者按照每个目标存储节点与服务存储节点的网络延迟的降序顺序为多个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列,其中环状传输队列队首的目标存储节点与服务存储节点的网络延迟最大,环状传输队列队尾的目标存储节点与服务存储节点的网络延迟最小;或者按照随机方式为多个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列。
在步骤111,按照从数据项的最高传输级别到最低传输级别的降序顺序依次对每个传输级别的数据项进行传输:从环状传输队列中位于队首的目标存储节点开始到位于队尾的目标存储节点为止,按照环状传输队列的队列顺序依次将每个目标存储节点所存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;其中当前传输级别是从最高传输级别到最低传输级别的多个传输级别中的一个,并且其中在当前的目标存储节点将当前传输级别的至少一个数据项全部传输到所述服务存储节点之后,促使环状传输队列中所述当前的目标存储节点的下一目标存储节点开始进行数据传输。
在所述环状传输队列中随机选择一个目标存储节点,例如,目标存储节点206,以作为位于队首的目标存储节点,将以位于队首的目标存储节点开始的顺时针方向作为所述环状传输队列的队列顺序,即目标存储节点206、207、208、209和210的顺序,将从位于队首的目标存储节点开始逆时针方向的相邻目标存储节点作为位于队尾的目标存储节点,例如,目标存储节点210。在所述环状传输队列中随机选择一个目标存储节点,以作为位于队首的目标存储节点例如,目标存储节点206,将以位于队首的目标存储节点开始的逆时针方向作为所述环状传输队列的队列顺序,即目标存储节点206、210、209、208和207的顺序,将从位于队首的目标存储节点开始顺时针方向的相邻目标存储节点作为位于队尾的目标存储节点,例如,目标存储节点207。
通常,传输级别包括传输顺序依次降低的至少三个传输级别。例如,传输级别包括:第一传输级别、第二传输级别、第三传输级别、第四传输级别和第五传输级别。对于多个传输级别中除最低传输级别之外的任意传输级别,在任意传输级别的所有数据项全部被传输到服务存储节点205之后,开始进行比所述任意传输级别低一个级别的传输级别的数据项的传输;对于最低传输级别,例如第五传输级别,在最低传输级别的所有数据项全部被传输到服务存储节点205之后,任何目标存储节点不再向服务存储节点传输数据。
具体地,环状传输队列包括第一目标存储节点、第二目标存储节点、第三目标存储节点、第四目标存储节点和第五目标存储节点,其中第一目标存储节点是位于队首的目标存储节点并且第五目标存储节点是位于队尾的目标存储节点。传输级别包括:第一传输级别、第二传输级别、第三传输级别、第四传输级别和第五传输级别。其中第一传输级别、第二传输级别、第三传输级别、第四传输级别和第五传输级别的传输顺序依次降低。
A1、将第一传输级别作为当前传输级别;
A2、第一目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;
A3、第二目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;
A4、第三目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;
A5、第四目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;以及
A6、第五目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;
A7、在第五目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点之后,确定当前传输级别是否为第五传输级别,如果是,则结束;如果否,则将下一传输级别作为当前传输级别,进行步骤A2。
最高传输级别是对数据项进行传输时的最高级别,并且最低传输级别是对数据项进行传输时的最低级别。当前传输级别是从最高传输级别到最低传输级别的多个传输级别中的一个包括:将多个传输级别中每个传输级别按照从最高传输级别到最低传输级别的降序顺序依次选择作为当前传输级别。
所述当前的目标存储节点是从位于队首的目标存储节点开始到位于队尾的目标存储节点为止的多个目标存储节点中的一个,并且当前的目标存储节点是从位于队首的目标存储节点开始到位于队尾的目标存储节点为止的多个目标存储节点中的一个包括:将环状传输队列中多个目标传输节点中每个目标传输节点206-210按照从位于队首的目标存储节点206开始到位于队尾的目标存储节点200为止的队列顺序依次选择作为当前的目标传输节点,即依次序选择目标存储节点206、207、208、209和210。
在当前的目标存储节点是位于队尾的目标存储节点(例如,目标存储节点210)的情况下,环状传输队列中所述当前的目标存储节点的下一目标存储节点是位于队首的目标存储节点,即,目标存储节点206。在当前的目标存储节点不是位于队尾的目标存储节点(例如目标存储节点208)的情况下,环状传输队列中所述当前的目标存储节点的下一目标存储节点是环状传输队列中顺时针方向或逆时针方向的相邻节点,即目标存储节点209。
在步骤112,所述服务存储节点按照数据项的接收时间将接收到的数据项按照缓冲存储段的顺序号保存到当前顺序号的缓冲存储段中:在判断当前顺序号的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间时,将所述当前顺序号的缓冲存储段中的所有数据项发送给数据请求方,将所述当前接收的数据项存储到下一顺序号的缓冲存储段中,并且将所述下一顺序号作为当前顺序号;当所述缓冲存储区中当前顺序号的缓冲存储段在预定时间内没有接收到数据项时,将所述当前顺序号的缓冲存储段的所有数据项发送给数据请求方。
其中所述服务存储节点205按照数据项的接收时间将接收到的数据项按照缓冲存储段的顺序号保存到缓冲存储段包括:在多个缓冲存储段之间,所述服务存储节点按照缓冲存储段的顺序号选择所接收到的数据项进行缓存的缓冲存储段。在缓冲存储段内,所述服务存储节点按照数据项的接收时间将接收到的数据项缓存到缓冲存储段中。例如,在缓冲存储器包括11个缓冲存储段(顺序号为1、2、3、4、5、6、7、8、9、10、11)的情况下,服务存储节点205按照数据项的接收时间将接收到的数据项首先保存到顺序号为1的缓冲存储段中。当顺序号为1的缓冲存储段中的剩余空间无法容纳当前接收的数据项时,将顺序号为1的缓冲存储段中的所有数据项发送给数据请求方,并且将从(包括)当前接收的数据项开始,将所接收的数据项存储到顺序号为2的缓冲存储段中,以此类推。
所述当前顺序号是从缓冲存储段的最早顺序号到最末顺序号之间的一个,并且当前顺序号是从缓冲存储段的最早顺序号到最末顺序号之间的一个包括:将多个顺序号中每个顺序号按照顺序号的顺序依次选择作为当前顺序号。
还包括确定如果将当前接收的数据项存储到当前顺序号的缓冲存储段后,会导致当前顺序号的缓冲存储段的存储内容超出存储容量的情况下,判断当前顺序号的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间。包括确定如果将当前接收的数据项存储到当前顺序号的缓冲存储段后,不会导致当前顺序号的缓冲存储段的存储内容超出存储容量的情况下,判断当前顺序号的缓冲存储段具有对当前接收的数据项进行存储的剩余存储空间。例如,顺序号为1的缓冲存储段中的剩余空间为5M,当前接收的数据项的尺寸为6M,则判断当前顺序号1的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间。顺序号为1的缓冲存储段中的剩余空间为5M,当前接收的数据项的尺寸为3M,则判断当前顺序号1的缓冲存储段具有对当前接收的数据项进行存储的剩余存储空间,并且据此将当前接收的数据项保存到顺序号为1的缓冲存储段中并且继续判断是否可以容纳或存储下一个接收的数据项。
将所述当前顺序号的缓冲存储段中的所有数据项发送给数据请求方包括:将所述当前顺序号的缓冲存储段中的所有数据项封装成至少两个数据包,并且将所述至少两个数据包发送给数据请求方。其中下一顺序号的缓冲存储段是缓冲存储段的顺序号中与当前顺序号的缓冲存储段相邻并且顺序号为后一位的缓冲存储段;其中在缓冲存储段时最末顺序号的缓冲存储段的情况下,不存在下一顺序号的缓冲存储段。
在另一个实例中,缓冲存储器包括10个缓冲存储段,所述10个缓冲存储段的顺序号为1、2、3、4、5、6、7、8、9和10;
B1、将顺序号为1的缓冲存储段作为当前顺序号的缓冲存储段:
B2、服务存储节点按照数据项的接收时间将接收到的数据项保存到当前顺序号缓冲存储段中;
B3、判断当前顺序号的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间时,判断当前顺序号是否为10,如果是,则结束,否则将下一顺序号作为当前顺序号,进行步骤B2。
当前顺序号的缓冲存储段是服务存储节点将所接收的数据项保存到其中的当前缓冲存储段。
当所述缓冲存储区中当前顺序号的缓冲存储段在预定时间内没有接收到数据项时,将所述当前顺序号的缓冲存储段的所有数据项发送给数据请求方。例如是,当顺序号为9(当前顺序号)的缓冲存储段在预定时间(5分钟、10分钟、15分钟等)内没有接收到(来自任意目标存储节点的)数据项时,将所述当前顺序号的缓冲存储段的所有数据项发送给数据请求方,并且结束数据传输过程。
图5为根据本发明实施方式的在分布式大数据存储系统内进行数据传输的系统500的结构示意图。如图5所示,系统500包括:接收单元501、验证单元502、检索单元503、选择单元504、第一发送单元505、统计单元506、第二发送单元507、处理单元508以及传输单元509。
接收单元501接收来自数据请求方的数据获取请求,其中所述数据获取请求包括:数据请求方标识、数据请求方地址以及数据检索条件。例如,分布式大数据存储系统的系统节点的接收单元接收来自数据请求方的数据获取请求。其中所述数据获取请求包括:数据请求方标识、数据请求方地址以及数据检索条件。
分布式大数据系统200包括系统节点201和多个存储节点203-210。系统节点201用于为数据请求方202(或者数据请求方的设备、用户设备、用户终端)提供与分布式大数据系统200进行数据交互的通信接口。由系统节点201通过通信接口接收来自数据请求方202的数据获取请求。多个存储节点203-210中的每个存储节点用于存储多个数据项。其中数据项可以是各种类型的文件,例如,音频文件、视频文件、文本文件等,并且数据项可以是文件集、文件组、文件压缩包等类似的集合。
其中数据请求方标识是能够唯一地标识数据请求方201的标识符。数据请求方地址是数据请求方201的网络地址以及数据检索条件是至少一个数据检索式。其中通过每个数据检索式能够从分布式大数据存储系统的所有数据项中确定一个或多个数据项。数据检索式例如是:通信和系统和(上行或下行)。
验证单元502,根据数据请求方标识对所述数据请求方进行身份验证,根据身份验证的结果确定所述数据请求方是否具有使用所述数据获取请求中的数据检索条件来获取数据的权限。根据数据请求方标识对所述数据请求方进行身份验证包括:基于所述数据请求方标识在验证数据库的验证列表中进行查询,根据查询结果确定身份验证的结果。其中所述身份验证的结果用于指示所述数据请求方的访问权限。所述访问权限包括:禁止访问、限制访问和完全访问。
确定所述数据检索条件的检索级别。所述检索级别包括高级检索和普通检索。其中当数据检索条件的至少一个数据检索式中任意数据检索式为高级检索式时,确定所述数据检索条件的检索级别为高级检索。当数据检索条件的至少一个数据检索式中所有数据检索式均为普通检索式时,确定所述数据检索条件的检索级别为普通检索。例如,在摘要数据库中进行搜索,则检索式-(通信和系统和(上行或下行))/-为普通检索式,在全文数据库中进行检索,则检索式-通信和系统和(上行或下行)-为高级检索式。
根据身份验证的结果确定所述数据请求方202是否具有使用所述数据获取请求中的数据检索条件来获取数据的权限包括:当身份验证的结果指示所述数据请求方的访问权限为完全访问时,确定所述数据请求方具有使用所述数据获取请求202中的数据检索条件来获取数据的权限;当身份验证的结果指示所述数据请求方202的访问权限为限制访问并且数据检索条件的检索级别为普通检索时,确定所述数据请求方202具有使用所述数据获取请求中的数据检索条件来获取数据的权限;当身份验证的结果指示所述数据请求方202的访问权限为限制访问并且数据检索条件的检索级别为高级检索时,确定所述数据请求方202不具有使用所述数据获取请求中的数据检索条件来获取数据的权限;以及当身份验证的结果指示所述数据请求方202的访问权限为禁止访问时,确定所述数据请求方202不具有使用所述数据获取请求中的数据检索条件来获取数据的权限。
检索单元503,当身份验证的结果指示所述数据请求方具有使用所述数据获取请求中的数据检索条件来获取数据的权限时,根据所述数据检索条件来确定所述数据获取请求所涉及的包括多个数据项的数据集合。根据所述数据检索条件来确定所述数据获取请求所涉及的包括多个数据项的数据集合包括:根据所述数据检索条件的至少一个数据检索式中的每个数据检索式来获取包括至少一个数据项的数据子集合,将所获取的至少一个数据子集合的并集确定为所述数据获取请求所涉及的包括多个数据项的数据集合。还包括,对包括多个数据项的数据集合中的数据项进行去重处理。
选择单元504,确定所述数据集合中的所有数据项的总尺寸,根据所述总尺寸和所述数据请求方地址从所述分布式大数据存储系统内多个存储节点中选择一个存储节点以作为所述数据请求方选择服务存储节点。根据所述总尺寸和所述数据请求方地址从所述分布式大数据存储系统内多个存储节点中选择一个存储节点以作为所述数据请求方选择服务存储节点包括:系统节点201确定所述分布式大数据存储系统200内多个存储节点203-210中每个存储节点的剩余存储容量。将剩余存储容量大于所述总尺寸的五倍以上的存储节点确定为候选存储节点。例如,所有数据项的总尺寸为10GB,存储节点203的剩余存储容量为1TB、存储节点204的剩余存储容量为100GB并且存储节点205的剩余存储容量为500GB,则将存储节点203-205确定为候选存储节点。将多个候选存储节点203-205中与所述数据请求方地址的网络延迟最小的候选存储节点确定为服务存储节点,例如,候选存储节点205确定为服务存储节点。确定所述数据集合中的所有数据项的总尺寸包括:系统节点201将所述数据集合中每个数据项的尺寸求和以确定所有数据项的总尺寸。
第一发送单元505,向所述服务存储节点发送所述数据请求方地址和所述总尺寸,促使所述服务存储节点根据所述数据请求方地址和所述总尺寸来创建缓冲存储区并将所述缓冲存储区分为至少两个缓冲存储段,并且为每个缓冲存储段设置用于指示存储顺序的顺序号;系统节点201促使所述服务存储节点205根据所述数据请求方地址和所述总尺寸来创建缓冲存储区并将所述缓冲存储区分为至少两个缓冲存储段包括:所述服务存储节点205确定与所述数据请求方地址在预定时间段内的平均网络延迟。当所述平均网络延迟大于或等于延迟阈值时,创建存储容量为所述总尺寸的1.2倍的缓冲存储区并且以缓冲存储段的尺寸为所述总尺寸的1/50将所述缓冲存储区划分为60个缓冲存储段。当所述平均网络延迟小于延迟阈值时,创建存储容量为所述总尺寸的1.1倍的缓冲存储区并且以缓冲存储段的尺寸为所述总尺寸的1/10将所述缓冲存储区划分为11个缓冲存储段。
缓冲存储区包括缓冲存储段401-1、401-2、401-3、401-4、401-5、……、401-N。通常,为了避免尺寸较大的数据项在缓冲存储段之间跨界的情况,即特定的大尺寸数据项无法被存储到缓冲存储段401-1(由于缓冲存储段401-1的剩余存储空间小于特定的大尺寸数据项的存储空间)时,只能被存储到缓冲存储段401-2中,为此,通常将缓冲存储区的存储空间设置为比总尺寸大。此外,当服务存储节点205与所述数据请求方地址(或数据请求方202)在预定时间段内的平均网络延迟较大时,可以将缓冲存储段的尺寸设置为较小,以降低数据重传的开销。当服务存储节点205与所述数据请求方地址(或数据请求方202)在预定时间段内的平均网络延迟较小时,可以将缓冲存储段的尺寸设置为较大,以减少网络开销并且提升网络传输速度。
系统节点201或服务存储节点205为每个缓冲存储段设置用于指示存储顺序的顺序号包括:按照缓冲存储段的地址的升序顺序设置用于指示存储顺序的顺序号;或者,按照缓冲存储段的地址的降序顺序设置用于指示存储顺序的顺序号;或者按照随机方式为每个缓冲存储段设置用于指示存储顺序的顺序号。
统计单元506,获取通过接收单元从所述服务存储节点接收包括缓冲存储段的数量和尺寸的响应消息,并对所述数据集合中每个数据项所归属的目标存储节点进行统计,以确定所述数据集合所涉及的多个目标存储节点;其中目标存储节点是存储了多个数据项的存储节点(当存储节点存储了所述数据集合中的数据项时,将存储节点确定为目标存储节点),即本申请的目标存储节点是至少存储了两个数据项的存储节点。每个数据集合对应于至少两个目标存储节点。
第二发送单元507,将包括所述数据集合中每个数据项的目录信息以及所述缓冲存储段的尺寸和数量的数据传输指示消息发送给多个目标存储节点中的每个目标存储节点;目录信息包括多个条目,每个条目包括数据项的名称和目标存储节点的标识。数据传输指示消息用于指示目标存储节点开始进行数据传输。
处理单元508,每个目标存储节点206-210根据目录信息确定自身所存储的并与数据传输相关联的多个数据项,确定多个数据项中每个数据项的尺寸并且基于每个数据项的尺寸计算每个目标存储节点206-210自身所存储的多个数据项的总尺寸。通常,每个数据项的尺寸进行求和以确定每个目标存储节点206-210自身所存储的多个数据项的总尺寸。
促使每个目标存储节点根据自身所存储的多个数据项的总尺寸和所述缓冲存储段的尺寸为每个数据项设置传输级别,其中传输级别的数量小于所述缓冲存储段的数量并且不同的传输级别用于指示向服务存储节点发送数据项时不同的传输顺序.如图3所示。图3为根据本发明实施方式的目标存储节点确定传输级别的示意图。传输级别包括传输顺序依次降低的至少三个传输级别,级别1、级别2和级别3。可替换地,三个传输级别可以分别被称为高传输级别、中传输级别和低传输级别。通常,每个目标存储节点302-306可以确定不同传输级别(例如,三个传输级别)的比例,并且根据所存储的多个数据项的数量和比例来确定每个传输级别所包括的数据项的数量。即,每个目标存储节点302-306内不同传输级别的数据项的比例是数量比例。此外,每个目标存储节点302-306均具有相同数量的传输级别。
举例来说,每个目标存储节点根据自身所存储的多个数据项的总尺寸和所述缓冲存储段的尺寸为每个数据项设置传输级包括:当所存储的多个数据项的总尺寸小于或等于所述缓冲存储段的尺寸时,高传输级别的数据项、中传输级别的数据项和低传输级别的数据项的数量比例为1:1:1;当所存储的多个数据项的总尺寸大于所述缓冲存储段的尺寸并且小于或等于所述缓冲存储段的尺寸的2倍时,高传输级别的数据项、中传输级别的数据项和低传输级别的数据项的数量比例为0.5:1:0.5;以及当所存储的多个数据项的总尺寸大于所述缓冲存储段的尺寸的2倍时,高传输级别的数据项、中传输级别的数据项和低传输级别的数据项的数量比例为0.25:1:0.25。
响应于每个目标存储节点为自身所存储的每个数据项设置传输级别的完成,为多个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列。其中为多个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列包括:按照每个目标存储节点与服务存储节点的网络延迟的升序顺序为多个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列,其中环状传输队列队首的目标存储节点与服务存储节点的网络延迟最小,环状传输队列队尾的目标存储节点与服务存储节点的网络延迟最大;或者按照每个目标存储节点与服务存储节点的网络延迟的降序顺序为多个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列,其中环状传输队列队首的目标存储节点与服务存储节点的网络延迟最大,环状传输队列队尾的目标存储节点与服务存储节点的网络延迟最小;或者按照随机方式为多个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列。
所述处理单元按照从数据项的最高传输级别到最低传输级别的降序顺序依次对每个传输级别的数据项进行传输:从环状传输队列中位于队首的目标存储节点开始到位于队尾的目标存储节点为止,按照环状传输队列的队列顺序依次将每个目标存储节点所存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;其中当前传输级别是从最高传输级别到最低传输级别的多个传输级别中的一个,并且其中在当前的目标存储节点将当前传输级别的至少一个数据项全部传输到所述服务存储节点之后,促使环状传输队列中所述当前的目标存储节点的下一目标存储节点开始进行数据传输。
在所述环状传输队列中随机选择一个目标存储节点,例如,目标存储节点206,以作为位于队首的目标存储节点,将以位于队首的目标存储节点开始的顺时针方向作为所述环状传输队列的队列顺序,即目标存储节点206、207、208、209和210的顺序,将从位于队首的目标存储节点开始逆时针方向的相邻目标存储节点作为位于队尾的目标存储节点,例如,目标存储节点210。在所述环状传输队列中随机选择一个目标存储节点,以作为位于队首的目标存储节点例如,目标存储节点206,将以位于队首的目标存储节点开始的逆时针方向作为所述环状传输队列的队列顺序,即目标存储节点206、210、209、208和207的顺序,将从位于队首的目标存储节点开始顺时针方向的相邻目标存储节点作为位于队尾的目标存储节点,例如,目标存储节点207。
通常,传输级别包括传输顺序依次降低的至少三个传输级别。例如,传输级别包括:第一传输级别、第二传输级别、第三传输级别、第四传输级别和第五传输级别。对于多个传输级别中除最低传输级别之外的任意传输级别,在任意传输级别的所有数据项全部被传输到服务存储节点205之后,开始进行比所述任意传输级别低一个级别的传输级别的数据项的传输;对于最低传输级别,例如第五传输级别,在最低传输级别的所有数据项全部被传输到服务存储节点205之后,任何目标存储节点不再向服务存储节点传输数据。
具体地,环状传输队列包括第一目标存储节点、第二目标存储节点、第三目标存储节点、第四目标存储节点和第五目标存储节点,其中第一目标存储节点是位于队首的目标存储节点并且第五目标存储节点是位于队尾的目标存储节点。传输级别包括:第一传输级别、第二传输级别、第三传输级别、第四传输级别和第五传输级别。其中第一传输级别、第二传输级别、第三传输级别、第四传输级别和第五传输级别的传输顺序依次降低。
A1、将第一传输级别作为当前传输级别;A2、第一目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;A3、第二目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;A4、第三目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;A5、第四目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;以及A6、第五目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;A7、在第五目标存储节点将存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点之后,确定当前传输级别是否为第五传输级别,如果是,则结束;如果否,则将下一传输级别作为当前传输级别,进行步骤A2。
最高传输级别是对数据项进行传输时的最高级别,并且最低传输级别是对数据项进行传输时的最低级别。当前传输级别是从最高传输级别到最低传输级别的多个传输级别中的一个包括:将多个传输级别中每个传输级别按照从最高传输级别到最低传输级别的降序顺序依次选择作为当前传输级别。
所述当前的目标存储节点是从位于队首的目标存储节点开始到位于队尾的目标存储节点为止的多个目标存储节点中的一个,并且当前的目标存储节点是从位于队首的目标存储节点开始到位于队尾的目标存储节点为止的多个目标存储节点中的一个包括:将环状传输队列中多个目标传输节点中每个目标传输节点206-210按照从位于队首的目标存储节点206开始到位于队尾的目标存储节点200为止的队列顺序依次选择作为当前的目标传输节点,即依次序选择目标存储节点206、207、208、209和210。
在当前的目标存储节点是位于队尾的目标存储节点(例如,目标存储节点210)的情况下,环状传输队列中所述当前的目标存储节点的下一目标存储节点是位于队首的目标存储节点,即,目标存储节点206。在当前的目标存储节点不是位于队尾的目标存储节点(例如目标存储节点208)的情况下,环状传输队列中所述当前的目标存储节点的下一目标存储节点是环状传输队列中顺时针方向或逆时针方向的相邻节点,即目标存储节点209。
传输单元509,所述服务存储节点按照数据项的接收时间将接收到的数据项按照缓冲存储段的顺序号保存到当前顺序号的缓冲存储段中:在判断当前顺序号的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间时,将所述当前顺序号的缓冲存储段中的所有数据项发送给数据请求方,将所述当前接收的数据项存储到下一顺序号的缓冲存储段中,并且将所述下一顺序号作为当前顺序号;当所述缓冲存储区中当前顺序号的缓冲存储段在预定时间内没有接收到数据项时,将所述当前顺序号的缓冲存储段的所有数据项发送给数据请求方。
其中所述服务存储节点205按照数据项的接收时间将接收到的数据项按照缓冲存储段的顺序号保存到缓冲存储段包括:在多个缓冲存储段之间,所述服务存储节点按照缓冲存储段的顺序号选择所接收到的数据项进行缓存的缓冲存储段。在缓冲存储段内,所述服务存储节点按照数据项的接收时间将接收到的数据项缓存到缓冲存储段中。例如,在缓冲存储器包括11个缓冲存储段(顺序号为1、2、3、4、5、6、7、8、9、10、11)的情况下,服务存储节点205按照数据项的接收时间将接收到的数据项首先保存到顺序号为1的缓冲存储段中。当顺序号为1的缓冲存储段中的剩余空间无法容纳当前接收的数据项时,将顺序号为1的缓冲存储段中的所有数据项发送给数据请求方,并且将从(包括)当前接收的数据项开始,将所接收的数据项存储到顺序号为2的缓冲存储段中,以此类推。
所述当前顺序号是从缓冲存储段的最早顺序号到最末顺序号之间的一个,并且当前顺序号是从缓冲存储段的最早顺序号到最末顺序号之间的一个包括:将多个顺序号中每个顺序号按照顺序号的顺序依次选择作为当前顺序号。
还包括确定如果将当前接收的数据项存储到当前顺序号的缓冲存储段后,会导致当前顺序号的缓冲存储段的存储内容超出存储容量的情况下,判断当前顺序号的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间。包括确定如果将当前接收的数据项存储到当前顺序号的缓冲存储段后,不会导致当前顺序号的缓冲存储段的存储内容超出存储容量的情况下,判断当前顺序号的缓冲存储段具有对当前接收的数据项进行存储的剩余存储空间。例如,顺序号为1的缓冲存储段中的剩余空间为5M,当前接收的数据项的尺寸为6M,则判断当前顺序号1的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间。顺序号为1的缓冲存储段中的剩余空间为5M,当前接收的数据项的尺寸为3M,则判断当前顺序号1的缓冲存储段具有对当前接收的数据项进行存储的剩余存储空间,并且据此将当前接收的数据项保存到顺序号为1的缓冲存储段中并且继续判断是否可以容纳或存储下一个接收的数据项。
将所述当前顺序号的缓冲存储段中的所有数据项发送给数据请求方包括:将所述当前顺序号的缓冲存储段中的所有数据项封装成至少两个数据包,并且将所述至少两个数据包发送给数据请求方。其中下一顺序号的缓冲存储段是缓冲存储段的顺序号中与当前顺序号的缓冲存储段相邻并且顺序号为后一位的缓冲存储段;其中在缓冲存储段时最末顺序号的缓冲存储段的情况下,不存在下一顺序号的缓冲存储段。
在另一个实例中,缓冲存储器包括10个缓冲存储段,所述10个缓冲存储段的顺序号为1、2、3、4、5、6、7、8、9和10;B1、将顺序号为1的缓冲存储段作为当前顺序号的缓冲存储段:B2、服务存储节点按照数据项的接收时间将接收到的数据项保存到当前顺序号缓冲存储段中;B3、判断当前顺序号的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间时,判断当前顺序号是否为10,如果是,则结束,否则将下一顺序号作为当前顺序号,进行步骤B2。当前顺序号的缓冲存储段是服务存储节点将所接收的数据项保存到其中的当前缓冲存储段。
当所述缓冲存储区中当前顺序号的缓冲存储段在预定时间内没有接收到数据项时,将所述当前顺序号的缓冲存储段的所有数据项发送给数据请求方。例如是,当顺序号为9(当前顺序号)的缓冲存储段在预定时间(5分钟、10分钟、15分钟等)内没有接收到(来自任意目标存储节点的)数据项时,将所述当前顺序号的缓冲存储段的所有数据项发送给数据请求方,并且结束数据传输过程。

Claims (10)

1.一种在分布式大数据存储系统内进行数据传输的方法,所述方法包括:
接收来自数据请求方的数据获取请求,其中所述数据获取请求包括:数据请求方标识、数据请求方地址以及数据检索条件;
根据数据请求方标识对所述数据请求方进行身份验证,根据身份验证的结果确定所述数据请求方是否具有使用所述数据获取请求中的数据检索条件来获取数据的权限;
当身份验证的结果指示所述数据请求方具有使用所述数据获取请求中的数据检索条件来获取数据的权限时,根据所述数据检索条件来确定所述数据获取请求所涉及的包括多个数据项的数据集合;
确定所述数据集合中的所有数据项的总尺寸,根据所述总尺寸和所述数据请求方地址从所述分布式大数据存储系统内多个存储节点中选择一个存储节点以作为所述数据请求方选择服务存储节点;
向所述服务存储节点发送所述数据请求方地址和所述总尺寸,促使所述服务存储节点根据所述数据请求方地址和所述总尺寸来创建缓冲存储区并将所述缓冲存储区分为至少两个缓冲存储段,并且为每个缓冲存储段设置用于指示存储顺序的顺序号;
从所述服务存储节点接收包括缓冲存储段的数量和尺寸的响应消息,并对所述数据集合中每个数据项所归属的目标存储节点进行统计,以确定所述数据集合所涉及的多个目标存储节点;
将包括所述数据集合中每个数据项的目录信息以及所述缓冲存储段的尺寸和数量的数据传输指示消息发送给多个目标存储节点中的每个目标存储节点;
每个目标存储节点根据目录信息确定自身所存储的并与数据传输相关联的多个数据项,确定多个数据项中每个数据项的尺寸并且基于每个数据项的尺寸计算自身所存储的多个数据项的总尺寸;
每个目标存储节点根据自身所存储的多个数据项的总尺寸和所述缓冲存储段的尺寸为每个数据项设置传输级别,其中传输级别的数量小于所述缓冲存储段的数量并且不同的传输级别用于指示向服务存储节点发送数据项时不同的传输顺序;
响应于每个目标存储节点为自身所存储的每个数据项设置传输级别的完成,为多个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列;
按照从数据项的最高传输级别到最低传输级别的降序顺序依次对每个传输级别的数据项进行传输:从环状传输队列中位于队首的目标存储节点开始到位于队尾的目标存储节点为止,按照环状传输队列的队列顺序依次将每个目标存储节点所存储的多个数据项中当前传输级别的至少一个数据项全部传输到所述服务存储节点;其中当前传输级别是从最高传输级别到最低传输级别的多个传输级别中的一个,并且其中在当前的目标存储节点将当前传输级别的至少一个数据项全部传输到所述服务存储节点之后,促使环状传输队列中所述当前的目标存储节点的下一目标存储节点开始进行数据传输;以及
所述服务存储节点按照数据项的接收时间将接收到的数据项按照缓冲存储段的顺序号保存到当前顺序号的缓冲存储段中:在判断当前顺序号的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间时,将所述当前顺序号的缓冲存储段中的所有数据项发送给数据请求方,将所述当前接收的数据项存储到下一顺序号的缓冲存储段中,并且将所述下一顺序号作为当前顺序号;当所述缓冲存储区中当前顺序号的缓冲存储段在预定时间内没有接收到数据项时,将所述当前顺序号的缓冲存储段的所有数据项发送给数据请求方。
2.根据权利要求1所述的方法,所述分布式大数据系统包括系统节点和多个存储节点,其中所述系统节点用于为数据请求方提供与所述分布式大数据系统进行数据交互的通信接口,由所述系统节点通过通信接口接收来自数据请求方的数据获取请求,其中多个存储节点中的每个存储节点用于存储多个数据项。
3.根据权利要求1-2中任意一项所述的方法,其中数据请求方标识是能够唯一地标识数据请求方的标识符,数据请求方地址是数据请求方的网络地址以及数据检索条件是至少一个数据检索式,其中通过每个数据检索式能够从分布式大数据存储系统的所有数据项中确定一个或多个数据项。
4.根据权利要求1-2中任意一项所述的方法,其中根据所述总尺寸和所述数据请求方地址从所述分布式大数据存储系统内多个存储节点中选择一个存储节点以作为所述数据请求方选择服务存储节点包括:
确定所述分布式大数据存储系统内多个存储节点中每个存储节点的剩余存储容量,将剩余存储容量大于所述总尺寸的五倍以上的存储节点确定为候选存储节点,将多个候选存储节点中与所述数据请求方地址的网络延迟最小的候选存储节点确定为服务存储节点。
5.根据权利要求1-2中任意一项所述的方法,还包括确定如果将当前接收的数据项存储到当前顺序号的缓冲存储段后,会导致当前顺序号的缓冲存储段的存储内容超出存储容量的情况下,判断当前顺序号的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间;
包括确定如果将当前接收的数据项存储到当前顺序号的缓冲存储段后,不会导致当前顺序号的缓冲存储段的存储内容超出存储容量的情况下,判断当前顺序号的缓冲存储段具有对当前接收的数据项进行存储的剩余存储空间。
6.一种在分布式大数据存储系统内进行数据传输的系统,所述系统包括:
接收单元,接收来自数据请求方的数据获取请求,其中所述数据获取请求包括:数据请求方标识、数据请求方地址以及数据检索条件;
验证单元,根据数据请求方标识对所述数据请求方进行身份验证,根据身份验证的结果确定所述数据请求方是否具有使用所述数据获取请求中的数据检索条件来获取数据的权限;
检索单元,当身份验证的结果指示所述数据请求方具有使用所述数据获取请求中的数据检索条件来获取数据的权限时,根据所述数据检索条件来确定所述数据获取请求所涉及的包括多个数据项的数据集合;
选择单元,确定所述数据集合中的所有数据项的总尺寸,根据所述总尺寸和所述数据请求方地址从所述分布式大数据存储系统内多个存储节点中选择一个存储节点以作为所述数据请求方选择服务存储节点;
第一发送单元,向所述服务存储节点发送所述数据请求方地址和所述总尺寸,促使所述服务存储节点根据所述数据请求方地址和所述总尺寸来创建缓冲存储区并将所述缓冲存储区分为至少两个缓冲存储段,并且为每个缓冲存储段设置用于指示存储顺序的顺序号;
统计单元,获取通过接收单元从所述服务存储节点接收包括缓冲存储段的数量和尺寸的响应消息,并对所述数据集合中每个数据项所归属的目标存储节点进行统计,以确定所述数据集合所涉及的多个目标存储节点;
第二发送单元,将包括所述数据集合中每个数据项的目录信息以及所述缓冲存储段的尺寸和数量的数据传输指示消息发送给多个目标存储节点中的每个目标存储节点;
处理单元,每个目标存储节点根据目录信息确定自身所存储的并与数据传输相关联的多个数据项,确定多个数据项中每个数据项的尺寸并且基于每个数据项的尺寸计算自身所存储的多个数据项的总尺寸;促使每个目标存储节点根据自身所存储的多个数据项的总尺寸和所述缓冲存储段的尺寸为每个数据项设置传输级别,其中传输级别的数量小于所述缓冲存储段的数量并且不同的传输级别用于指示向服务存储节点发送数据项时不同的传输顺序;响应于每个目标存储节点为自身所存储的每个数据项设置传输级别的完成,为多个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列;
所述处理单元按照从数据项的最高传输级别到最低传输级别的降序顺序依次对每个传输级别的数据项进行传输:从环状传输队列中位于队首的目标存储节点开始到位于队尾的目标存储节点为止,按照环状传输队列的队列顺序依次将每个目标存储节点所存储的多个数据项中当前传输级别的至少一个数据项全部传输到所述服务存储节点;其中当前传输级别是从最高传输级别到最低传输级别的多个传输级别中的一个,并且其中在当前的目标存储节点将当前传输级别的至少一个数据项全部传输到所述服务存储节点之后,促使环状传输队列中所述当前的目标存储节点的下一目标存储节点开始进行数据传输;以及
传输单元,所述服务存储节点按照数据项的接收时间将接收到的数据项按照缓冲存储段的顺序号保存到当前顺序号的缓冲存储段中:在判断当前顺序号的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间时,将所述当前顺序号的缓冲存储段中的所有数据项发送给数据请求方,将所述当前接收的数据项存储到下一顺序号的缓冲存储段中,并且将所述下一顺序号作为当前顺序号;当所述缓冲存储区中当前顺序号的缓冲存储段在预定时间内没有接收到数据项时,将所述当前顺序号的缓冲存储段的所有数据项发送给数据请求方。
7.根据权利要求6所述的系统,所述分布式大数据系统包括系统节点和多个存储节点,其中所述系统节点用于为数据请求方提供与所述分布式大数据系统进行数据交互的通信接口,由所述系统节点通过通信接口接收来自数据请求方的数据获取请求,其中多个存储节点中的每个存储节点用于存储多个数据项。
8.根据权利要求6-7中任意一项所述的系统,其中数据请求方标识是能够唯一地标识数据请求方的标识符,数据请求方地址是数据请求方的网络地址以及数据检索条件是至少一个数据检索式,其中通过每个数据检索式能够从分布式大数据存储系统的所有数据项中确定一个或多个数据项。
9.根据权利要求6-7中任意一项所述的系统,其中根据所述总尺寸和所述数据请求方地址从所述分布式大数据存储系统内多个存储节点中选择一个存储节点以作为所述数据请求方选择服务存储节点包括:
确定所述分布式大数据存储系统内多个存储节点中每个存储节点的剩余存储容量,将剩余存储容量大于所述总尺寸的五倍以上的存储节点确定为候选存储节点,将多个候选存储节点中与所述数据请求方地址的网络延迟最小的候选存储节点确定为服务存储节点。
10.根据权利要求6-7中任意一项所述的系统,还包括确定如果将当前接收的数据项存储到当前顺序号的缓冲存储段后,会导致当前顺序号的缓冲存储段的存储内容超出存储容量的情况下,判断当前顺序号的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间;
包括确定如果将当前接收的数据项存储到当前顺序号的缓冲存储段后,不会导致当前顺序号的缓冲存储段的存储内容超出存储容量的情况下,判断当前顺序号的缓冲存储段具有对当前接收的数据项进行存储的剩余存储空间。
CN201810559925.8A 2018-06-02 2018-06-02 在分布式大数据存储系统内进行数据传输的方法及系统 Active CN108762683B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110387561.1A CN113220226A (zh) 2018-06-02 2018-06-02 分布式大数据存储系统内的数据传输方法及系统
CN201810559925.8A CN108762683B (zh) 2018-06-02 2018-06-02 在分布式大数据存储系统内进行数据传输的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810559925.8A CN108762683B (zh) 2018-06-02 2018-06-02 在分布式大数据存储系统内进行数据传输的方法及系统

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202110387561.1A Division CN113220226A (zh) 2018-06-02 2018-06-02 分布式大数据存储系统内的数据传输方法及系统

Publications (2)

Publication Number Publication Date
CN108762683A CN108762683A (zh) 2018-11-06
CN108762683B true CN108762683B (zh) 2021-06-01

Family

ID=64001994

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110387561.1A Pending CN113220226A (zh) 2018-06-02 2018-06-02 分布式大数据存储系统内的数据传输方法及系统
CN201810559925.8A Active CN108762683B (zh) 2018-06-02 2018-06-02 在分布式大数据存储系统内进行数据传输的方法及系统

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202110387561.1A Pending CN113220226A (zh) 2018-06-02 2018-06-02 分布式大数据存储系统内的数据传输方法及系统

Country Status (1)

Country Link
CN (2) CN113220226A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732769A (zh) * 2018-12-27 2021-04-30 王梅 对互联网内的数据获取请求进行分级扩展的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103747073A (zh) * 2013-12-30 2014-04-23 乐视网信息技术(北京)股份有限公司 一种分布式缓存的方法和系统
CN105760553A (zh) * 2016-03-25 2016-07-13 北京奇虎科技有限公司 数据管理方法和装置
US20170085640A1 (en) * 2015-09-21 2017-03-23 Facebook, Inc. Data replication using ephemeral tree structures
CN106603632A (zh) * 2016-11-25 2017-04-26 国云科技股份有限公司 一种降低云平台启动风暴的虚拟机管理方法
CN106657365A (zh) * 2016-12-30 2017-05-10 清华大学 一种基于rdma的高并发数据传输方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103747073A (zh) * 2013-12-30 2014-04-23 乐视网信息技术(北京)股份有限公司 一种分布式缓存的方法和系统
US20170085640A1 (en) * 2015-09-21 2017-03-23 Facebook, Inc. Data replication using ephemeral tree structures
CN105760553A (zh) * 2016-03-25 2016-07-13 北京奇虎科技有限公司 数据管理方法和装置
CN106603632A (zh) * 2016-11-25 2017-04-26 国云科技股份有限公司 一种降低云平台启动风暴的虚拟机管理方法
CN106657365A (zh) * 2016-12-30 2017-05-10 清华大学 一种基于rdma的高并发数据传输方法

Also Published As

Publication number Publication date
CN108762683A (zh) 2018-11-06
CN113220226A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
US8068512B2 (en) Efficient utilization of cache servers in mobile communication system
US9083764B2 (en) Content caching device for managing contents based on content usage features
CN109117275B (zh) 基于数据分片的对账方法、装置、计算机设备及存储介质
US20100161780A1 (en) Hot data management method based on hit counter
US7676553B1 (en) Incremental web crawler using chunks
CN109033462B (zh) 在大数据存储的存储设备中确定低频数据项的方法及系统
CN109766318B (zh) 文件读取方法及装置
US10067719B1 (en) Methods and systems for storing and accessing data in a distributed data storage system
CN106649150B (zh) 一种缓存管理方法及装置
CN109873855B (zh) 一种基于区块链网络的资源获取方法和系统
CN112016030B (zh) 消息推送的方法、装置、服务器和计算机存储介质
CN104915148A (zh) 用于串流存储装置中的高效内容高速缓冲存储的系统和方法
CN106973021A (zh) 网络系统中负载均衡的方法和节点
CN108762683B (zh) 在分布式大数据存储系统内进行数据传输的方法及系统
US8984100B2 (en) Data downloading method, terminal, server, and system
CN108920282B (zh) 一种支持负载均衡的内容副本生成、放置及更新方法
CN110309229A (zh) 分布式系统的数据处理方法和分布式系统
CN107659626B (zh) 面向临时元数据的分离存储方法
CN111190861B (zh) 热点文件管理方法、服务器及计算机可读存储介质
US9762696B2 (en) Data storage communication apparatus, and data transmission and management methods using the same
US20140025630A1 (en) Data-store management apparatus, data providing system, and data providing method
CN106549983B (zh) 一种数据库的访问方法及终端、服务器
CN105025042B (zh) 一种确定数据信息的方法及系统、代理服务器
CN110032528A (zh) 存储系统的内存数据查找方法、装置、设备及存储介质
CN112035498B (zh) 数据块调度方法、装置、调度层节点及存储层节点

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210511

Address after: 518052 unit 10, 13 / F, Changhong technology building, 18 Keji South 12 road, high tech community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen tiantianlaiwan Technology Co.,Ltd.

Address before: 110034 gate 2, 14th floor, unit 1, building 6, No.10 Xianglushan Road, Shenyang City, Liaoning Province

Applicant before: Wang Mei

GR01 Patent grant
GR01 Patent grant