CN116233115A - 一种海量数据文件高效持续受控共享分发方法及系统 - Google Patents

一种海量数据文件高效持续受控共享分发方法及系统 Download PDF

Info

Publication number
CN116233115A
CN116233115A CN202310158792.4A CN202310158792A CN116233115A CN 116233115 A CN116233115 A CN 116233115A CN 202310158792 A CN202310158792 A CN 202310158792A CN 116233115 A CN116233115 A CN 116233115A
Authority
CN
China
Prior art keywords
file
user
data
information
data file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310158792.4A
Other languages
English (en)
Other versions
CN116233115B (zh
Inventor
何晓涛
刘学敏
李翀
柯勇
曾丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN202310158792.4A priority Critical patent/CN116233115B/zh
Publication of CN116233115A publication Critical patent/CN116233115A/zh
Application granted granted Critical
Publication of CN116233115B publication Critical patent/CN116233115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种海量数据文件高效持续受控共享分发方法,其步骤包括:1)选取多个服务器作为接收数据的文件服务器,选取一服务器作为中央服务器,其上设置一数据库,包含一数据文件信息表、一用户表、一用户数据文件类别授权表、一用户数据文件请求特征表、一用户数据文件下载队列表;2)文件服务器实时监控到达的数据文件并将其元数据发送到数据文件信息表中;3)将每一文件服务器上的文件目录进行网络共享形成一数据资源目录;4)根据用户表、授权表、用户数据文件请求特征表,设置每一用户的共享分发范围和过滤特征;5)中央服务器根据用户对应的范围、过滤特征形成用户下载队列信息;6)用户通过客户端接收对应文件。

Description

一种海量数据文件高效持续受控共享分发方法及系统
技术领域
本发明涉及数据信息处理技术领域,尤其是涉及一种海量文件持续交换汇聚后准实时同步分发共享给多客户端的场景下如何及时发现新到的文件以及可以按照一定的设置规则过滤所需的文件给客户端发现和持续同步分发的系统及方法。
背景技术
在气象水文等领域存在多种采集来源的观测数据,为了共享数据,通常由组织的特定部门收集然后分发,这些文件的文件名都是按照一定的业务规范的要求命名,包含着数据特征信息,这些文件会持续密集的到达采集服务器,到达文件的个数每小时达几百万乃至上千万的级别,同时由于使用这些数据的应用的时效性的要求,需要尽可能快的受控共享分发出去。通常采用的技术是网页段发布某一目录下对应的数据的业务含义,然后建立FTP服务器,给相应的应用客户端授权,应用端通过FTP的方式查找、挑选文件下载,或者应用客户端基于目录的全量下载应用时按照一定的文件名特征选择数据,存在时效性差、下载量大但是有效性和效率差的技术问题。如何能够及时发现需要的文件并自动同步分发到多客户端,是需要在传统的FTP技术的基础上进一步解决的技术问题。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种海量数据文件高效持续受控共享分发方法及系统。
本发明包括:文件到达监控模块,以分布式监控服务的方式及时发现到达文件的相关信息,并保存到数据库中,为用户分发下载的过滤与控制提供基础信息;元数据设置模块,用于设置每一级目录下对应数据文件的元数据信息,将目录结构和每一级目录上元数据描述结合起来展示就形成了用户可以查看的数据资源目录;数据信息浏览模块,用户可以浏览数据资源目录,查找需要的数据的类别;共享权限与特征设置模块,设置要分发共享文件的客户端获取数据的权限和基于文件名称过滤的规则;数据分发客户端模块,定时查询当前用户的下载队列并给下载组件发指令持续下载相关的到达的共享文件。本发明实现了海量数据到达文件的自动的发现和受控的持续分发,管理员仅需要设置客户端的共享权限和特征即可。
本发明海量数据文件高效持续受控共享分发方法及系统,适用于一个数据库(包含一数据文件信息表、一用户表、一用户数据文件类别授权表、一用户数据文件请求特征表、一用户数据文件下载队列表、一监控服务配置表)以及一系列文件到达监控服务、一个数据文件分发客户端的系统,其步骤包括:
1)每个来源的数据文件到达一个文件服务器,文件服务器上安装有文件达到监控服务,实时监控到达的数据文件,文件达到监控服务将数据文件的元数据记录到数据文件信息表中;
2)将每一个文件服务器上的文件目录进行网络共享,在一台中央服务器上配置获得所有的共享目录,按照大类别聚合,形成一个包含所有文件资源的“虚拟目录”。元数据设置模块设置所述虚拟目录中每一级目录下对应数据文件的元数据信息,将目录结构和每一级目录上元数据描述结合起来展示就形成了用户可以查看的数据资源目录;
3)共享权限与特征设置模块根据用户表、用户数据文件类别授权表、用户数据文件请求特征表,获取每一用户可以共享分发的范围和文件名称特征;
4)中央服务器根据用户可共享分发的范围和文件名特征以及数据文件信息表中记录的文件信息,持续不断的向该用户的所属的用户数据文件下载队列表中添加该用户可以下载的文件信息,形成用户下载队列信息,根据用户下载队列信息形成下载指令;
用户安装数据分发客户端,登录后,客户端会持续从所述用户数据文件下载队列表中获取下载指令,并将对应文件下载到用户指定的位置,形成持续不断进行数据文件准实时分发的方法;
5)后端访问控制模块根据所述的下载队列信息,拦截该用户的可能非法下载操作,即有可能出现的超出当前用户现在权限范围内的下载指令。
本发明为了解决海量数据文件同步到达及时发现和高效同步共享分发的系统问题,不是在FTP下载的时候,才对文件进行过滤,也不是简单的共享特定的静态的数据文件,而是要随着文件的动态到达,能够高效的、持续的、动态的将文件共享出去。本发明可以随着文件的到达及时发现文件,存储到数据库中,建立文件的元数据信息,对文件的查找、过滤和授权在数据库中进行;文件发现时,为了提高效率,对于已经发现的文件移动到其他的已发现的目录下,这样保持目标文件下的文件数目保持最小的集合。在数据库获文件目录信息的基础上,根据用户设置的过滤特征,可以自动的为用户设置个性化的、专属的下载队列,实现对用户的精准服务。对于文件的分发共享,不需要用户通过FTP的方式人工去发现、过滤,而是在用户下载客户端中内嵌的FTP客户端功能,通过接受下载指令的方式来持续、自动、高效、受控的进行数据文件的准实时的共享下载,大大的提升了海量数据文件下分发共享的自动化水平和效率。
本发明的实施例的第一方面是提供文件文件到达监控服务。海量的气象水文数据文件是按照类别通过各种方法汇聚到几台物理服务器上,目录的层次代表分类的级别。可以通过网络目录映射的方式,将这些目录集中到一台服务器上做总的逻辑映射。对于海量的文件的来说,这种监控在每台物理服务器上安装文件到达监控,配置要监控的目录,通过定时循环检测或者结合操作系统对文件操作的回调函数的方式来实现对文件变化的监听。对于海量的文件的来说,这种监控的任务是繁重的,要配置多个服务,同时对已经发现的文件,从当前的监控目标目录移动到发现结果目录。当服务第一次运行或者重新启动时,需要对监控的目录做一次遍历,对目录下的文件进行记录;由于已发现的文件已经被移动到已发现结果目录下,这样的遍历会提高效率。
本发明的实施例的第二方面是确定用户共享分发的授权及规则。用户通过浏览数据资源目录,确定需要文件数据资源,申请资源获得数据分类权限。同时,可以在数据的某一级别上根据业务需要设置文件过滤规则,设置的规则包括文件名包含某字符串、文件名以某字符串开始、文件名以某字符串结束、文件后缀名以及上述条件的与、或的逻辑组合以及单独的正则表达式。在要获取的数据资源类别,进行资源的订阅,指定开始获取数据资源的时间。
本发明的实施例的第三方面是形成下载指令队列。用户订阅数据时指定的时间到达后,系统根据设置,定时检查设置共享的数据类别或者子类别是否在授权范围类别范围内,直接是授权类别或者是授权类别的子类别都可以,过滤掉不在授权范围内的类别;如果用户的类别授权有变化,当前的队列生成会停止生成。对于所述授权范围内的类别,周期性的从数据文件信息表中获取新到达的文件信息,并且校验是否符合文件名过滤规则,符合规则的加入到所述的用户数据文件下载队列表中,包括用户标识、文件的位置、文件名、扩展名、来源时间、到达时间信息记录、文件下载路径、下载状态(未下载、已下载、下载错误)、下载开始时间、下载结束时间、不成功重试次数、下载次数,形成面向每个用户的个性化的下载指令队列。
本发明的实施例的第四方面是形成持续不断进行数据文件准实时分发的方法。用户登录下载客户端后,设置下载文件存放目录。系统的后台会根据用户下载负荷的大小,设置多台下载FTP服务器,并监控下载负荷的大小。下载客户端周期性从服务器获取系统根据下载服务器负荷情况分配的具体的下载的服务器的地址信息、用户名、密码信息,以加密的方式传递到下载客户端,具有动态的负载均衡的能力。下载客户端从用户数据文件下载队列表周期性获取要下载的数据文件的指令,按照生成的顺序开始自动下载,记录下载的开始时间,状态为下载中;下载完成,状态为已下载。如果出现下载失败,则重试3次,均失败则记录状态为下载错误。
本发明的技术方案为:
一种海量数据文件高效持续受控共享分发方法,其步骤包括:
1)选取多个服务器作为接收数据的文件服务器,选取一服务器作为中央服务器;在每一所述文件服务器上部署一文件到达监控模块;在所述中央服务器上部署元数据设置模块、数据信息浏览模块、共享权限与特征设置模块、数据分发客户端模块;在所述中央服务器上设置一数据库,所述数据库包含一数据文件信息表、一用户表、一用户数据文件类别授权表、一用户数据文件请求特征表、一用户数据文件下载队列表;
2)所述文件服务器上的文件到达监控模块实时监控到达的数据文件,并将所述数据文件的元数据发送到所述数据文件信息表中;
3)将每一所述文件服务器上的文件目录进行网络共享,所述中央服务器对各共享目录进行聚合,形成一个包含所有文件资源的虚拟目录;所述元数据设置模块设置所述虚拟目录中每一级目录下对应数据文件的元数据信息,将目录结构和每一级目录上元数据描述结合形成一数据资源目录;数据信息浏览模块接收用户通过浏览所述数据资源目录所请求的文件数据资源,并将请求信息保存到所述用户数据文件请求特征表;
4)所述共享权限与特征设置模块根据用户表、用户数据文件类别授权表、用户数据文件请求特征表,设置每一用户的共享分发范围和过滤特征;
5)中央服务器根据用户对应的共享分发范围、过滤特征以及所述数据文件信息表,向该用户所属的用户数据文件下载队列表中添加该用户可下载的文件信息,形成用户下载队列信息;所述数据分发客户端模块根据用户下载队列信息形成下载指令;
6)该用户通过客户端接收所述下载指令,并将对应文件下载到指定位置。
进一步的,所述用户表中的信息包括用户id、用户姓名、所属单位、用户角色;所述用户数据文件类别授权表中的信息包括用户id、数据类别、对应文件目录;所述用户数据文件请求特征表中的信息包括用户id、数据类别id、是否正则表达式、表达式内容、表达式之间逻辑关系类型。
进一步的,形成所述用户下载队列信息的方法为:
31)所述中央服务器根据用户的标识,在所述用户数据文件类别授权表查询得到该用户被授权范围内的数据类别,根据该数据类别确定对应的共享分发范围;
32)根据该用户的标识,获取用户数据文件请求特征表中的过滤特征;
33)根据所获取的共享分发范围和过滤特征,循环递归检查设置共享的数据类别或者子类别是否在授权范围类别范围内,过滤掉不在授权范围内的数据类别;
34)对于所述授权范围内的数据类别,周期性的从所述数据文件信息表中获取新到达的文件信息,并且校验是否符合文件名过滤规则,将符合规则的文件信息加入到该用户的用户数据文件下载队列表中,形成该用户的所述用户下载队列信息。
进一步的,所述元数据包括文件名、扩展名、文件位置、文件大小、来源时间、到达时间信息、文件下载路径、所属类别。
进一步的,所述用户数据文件下载队列表中的信息包括用户id、文件id、下载状态、下载开始时间、下载结束时间、不成功重试次数、下载次数。
进一步的,所述数据库还包含一监控服务配置表;所述监控服务配置表中的信息包括监控服务id、监控配置路径。
进一步的,步骤6)中,用户登录客户端并设置下载文件存放目录;所述中央服务器根据下载负荷的大小设置多台FTP服务器,并监控下载负荷的大小;客户端周期性从所述中央服务器获取根据下载负荷分配更新后的FTP服务器的地址信息,获取待下载的文件。
一种海量数据文件高效持续受控共享分发系统,其特征在于,包括多个用于接收数据的文件服务器,一中央服务器;在每一所述文件服务器上部署一文件到达监控模块;在所述中央服务器上部署元数据设置模块、数据信息浏览模块、共享权限与特征设置模块、数据分发客户端模块;在所述中央服务器上设置一数据库,所述数据库包含一数据文件信息表、一用户表、一用户数据文件类别授权表、一用户数据文件请求特征表、一用户数据文件下载队列表;将每一所述文件服务器上的文件目录进行网络共享,所述中央服务器对各共享目录进行聚合,形成一个包含所有文件资源的虚拟目录;
所述文件到达监控模块,用于实时监控到达文件服务器上的数据文件,并将所述数据文件的元数据发送到所述数据文件信息表中;
所述元数据设置模块,用于设置所述虚拟目录中每一级目录下对应数据文件的元数据信息,将目录结构和每一级目录上元数据描述结合形成一数据资源目录;数据信息浏览模块接收用户通过浏览所述数据资源目录所请求的文件数据资源,并将请求信息保存到所述用户数据文件请求特征表;
所述共享权限与特征设置模块,用于根据用户表、用户数据文件类别授权表、用户数据文件请求特征表,设置每一用户的共享分发范围和过滤特征;
所述中央服务器根据用户对应的共享分发范围、过滤特征以及所述数据文件信息表,向该用户所属的用户数据文件下载队列表中添加该用户可下载的文件信息,形成用户下载队列信息;
所述数据分发客户端模块,用于根据用户下载队列信息形成下载指令。
一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法中各步骤的指令。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明的优点如下:
本发明能够帮助用户及时发现需要的文件,以及使用目录授权、允许客户端预先设置自己需要下载的文件的特征,从而实现根据到来的文件的特征准实时的高效发现和自动同步分发到多客户端。
附图说明
图1是本发明的流程图。
具体实施方式
为了进一步说明实施案例,本发明提供附图进行配合说明。这些附图为本发明展示内容的一部分,可配合说明书的相关描述对运行原理进行解释。配合这些内容,领域内的相关技术人员可以了解本发明的具体实施部署方式以及其优点。
本发明一种海量数据文件高效持续受控共享分发方法,包括如下步骤:
S1:建立数据库,数据库需包括:
一个用户表、一个数据文件信息表、一个用户数据文件类别授权表、一个用户数据文件请求特征表、一个用户数据文件下载队列表、一个监控服务配置表。
一个用于保存用户信息的“用户表”,包括用户id、用户姓名、所属单位、用户角色等信息。
一个用于保存数据文件信息的“数据文件信息表”,包括文件名、扩展名、文件的位置、文件大小、来源时间、到达时间信息、文件下载路径、所属类别等信息。
一个用于保存用户权限的“用户数据文件类别授权表”,包括用户id、数据类别、对应文件目录。一个用户id可以有多条记录,某个数据类别,也允许对应多个文件目录。
一个用于保存用户数据文件请求特征的“用户数据文件请求特征表”,包括用户id、数据类别id、是否正则表达式(即表达式的内容是按照正则表达式来解释,还是按照其他的规则来解释)、表达式内容、表达式之间逻辑关系类型,其中表达式之间逻辑关系类型取值为“与”“或”之一。一个用户id和某个数据类别id,可以有多条特征记录。
一个用于保存用户数据文件下载队列的“用户数据文件下载队列表”,包括用户id、文件id(引用自“数据文件信息表”)、下载状态(未下载、已下载、下载错误)、下载开始时间、下载结束时间、不成功重试次数、下载次数等。一个用户id具有多条记录。由于海量的数据文件不断到达,下载完成后的,间隔一定的时间如10天之后,可以挪到历史记录库,以提高效率。
一个用于保存监控服务配置信息的“监控服务配置表”包括监控服务id、监控配置路径。每个服务具有唯一的id,每个服务可以同时监控多个目录,在表中可以有多条记录。
S2:设置共享权限和文件过滤规则
根据业务需要,确定用户共享分发的授权及文件分发共享下载时的过滤规则,为每位用户分配权限。用户通过浏览数据资源目录,确定自己需要的文件数据资源,通常是指定某一类别或者某一层级的子类别,申请资源获得此分类下数据文件的共享权限。同时,可以在数据的所述的分类上根据业务需要设置文件过滤规则,设置的规则包括文件名包含某字符串、文件名以某字符串开始、文件名以某字符串结束、文件后缀名以及上述条件的与、或的逻辑组合以及单独的正则表达式。在要获取的数据资源类别,进行资源的订阅,指定开始获取数据资源的时间。
S3:监控
监控服务实时监控到达的数据文件,监控服务将发现到达文件的信息记录到数据文件信息表中。具体步骤包括:
1)对于部署在某一文件服务器上的监控服务,配置其服务id;根据监控服务id,从监控服务配置表中读取该监控服务需要监控的文件目录的配置,根据文件量的大小配置多个监控服务,所监控的文件目录是互不隶属的。
2)根据操作系统的文件创建、修改、删除等事件通知,实时发现新文件,当文件大小不再发生变化时,意味着汇聚文件已经全部拷贝过来,将文件的位置、文件大小、文件名、扩展名、来源时间、到达时间信息记录、文件下载路径到数据文件信息表中。
3)对于已经发现的文件,将其移动到另外一个具有相同子目录结构的文件夹下(称之为已发现结果目录),这个位置也是所述的数据文件信息表中的文件下载路径字段信息;这个目录应和当前目录在同一存储介质下,这样文件的移动只是文件系统信息的修改,是非常快速的。
4)当服务第一次运行或者重新启动时,需要对监控的目录做一次遍历,对目录下的文件进行记录;由于已发现的文件已经被移动到已发现结果目录下,这样的遍历会提高效率。
S4:分发
根据所属用户表、用户数据文件类别授权表、用户数据文件请求特征表,获取用户可以共享分发的范围和文件名称特征。根据分发的范围和文件名特征以及数据文件信息表中获取的文件信息,持续不断的向所述的用户数据文件下载队列表中添加用户可以下载的文件的队列信息,形成用户下载的指令队列。具体步骤包括:
1)查询该用户登陆信息在所述用户表中的标识。
2)根据该用户的标识,通过用户数据文件类别授权表查询得到用户被授权范围内的类别,对应着下载的相应的目录,即确定共享分发的范围。
3)根据该用户的标识,获取用户数据文件请求特征表中设置的要下载的数据类别或者子类别以及文件名的过滤特征,包括文件名包含某字符串、文件名以某字符串开始、文件名以某字符串结束、文件后缀名以及上述条件的与、或的逻辑组合以及单独的正则表达式。
4)根据所述的获取的共享分发的范围和文件名称特征,首先循环递归检查设置共享的数据类别或者子类别是否在授权范围类别范围内,直接是授权类别或者是授权类别的子类别都是可以的,过滤掉不在授权范围内的类别。
5)对于所述授权范围内的类别,周期性的从所述的数据文件信息表中获取新到达的文件信息,并且校验是否符合文件名过滤规则,符合规则的加入到所述的用户数据文件下载队列表中,包括用户标识、文件的位置、文件名、扩展名、来源时间、到达时间信息记录、文件下载路径、下载状态(未下载、已下载、下载错误)、下载开始时间、下载结束时间、不成功重试次数、下载次数,形成面向每个用户的个性化的下载指令队列。
S5:下载
用户安装数据分发客户端,登录后,客户端会持续从所述的用户数据文件下载队列表中获取下载指令,并将文件下载到用户指定的位置,形成持续不断进行数据文件准实时分发的方法。后端根据所述的下载队列信息,拦截该用户的可能非法下载操作。具体步骤包括:
1)用户登录下载客户端后,设置文件下载存放目录;
2)下载客户端周期性从服务器获取系统根据下载服务器负荷情况分配的具体的下载的服务器的地址信息、用户名、密码信息,以加密的方式传递到下载客户端;
3)下载客户端从所述用户数据文件下载队列表周期性获取要下载的数据文件的指令,并且开始下载,记录下载的开始时间,状态为下载中;下载完成,状态为已下载。如果出现下载失败,则重试3此,均失败则记录状态为下载错误。
尽管为说明目的公开了本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (10)

1.一种海量数据文件高效持续受控共享分发方法,其步骤包括:
1)选取多个服务器作为接收数据的文件服务器,选取一服务器作为中央服务器;在每一所述文件服务器上部署一文件到达监控模块;在所述中央服务器上部署元数据设置模块、数据信息浏览模块、共享权限与特征设置模块、数据分发客户端模块;在所述中央服务器上设置一数据库,所述数据库包含一数据文件信息表、一用户表、一用户数据文件类别授权表、一用户数据文件请求特征表、一用户数据文件下载队列表;
2)所述文件服务器上的文件到达监控模块实时监控到达的数据文件,并将所述数据文件的元数据发送到所述数据文件信息表中;
3)将每一所述文件服务器上的文件目录进行网络共享,所述中央服务器对各共享目录进行聚合,形成一个包含所有文件资源的虚拟目录;所述元数据设置模块设置所述虚拟目录中每一级目录下对应数据文件的元数据信息,将目录结构和每一级目录上元数据描述结合形成一数据资源目录;数据信息浏览模块接收用户通过浏览所述数据资源目录所请求的文件数据资源,并将请求信息保存到所述用户数据文件请求特征表;
4)所述共享权限与特征设置模块根据用户表、用户数据文件类别授权表、用户数据文件请求特征表,设置每一用户的共享分发范围和过滤特征;
5)中央服务器根据用户对应的共享分发范围、过滤特征以及所述数据文件信息表,向该用户所属的用户数据文件下载队列表中添加该用户可下载的文件信息,形成用户下载队列信息;所述数据分发客户端模块根据用户下载队列信息形成下载指令;
6)该用户通过客户端接收所述下载指令,并将对应文件下载到指定位置。
2.根据权利要求1所述的方法,其特征在于,所述用户表中的信息包括用户id、用户姓名、所属单位、用户角色;所述用户数据文件类别授权表中的信息包括用户id、数据类别、对应文件目录;所述用户数据文件请求特征表中的信息包括用户id、数据类别id、是否正则表达式、表达式内容、表达式之间逻辑关系类型。
3.根据权利要求2所述的方法,其特征在于,形成所述用户下载队列信息的方法为:
31)所述中央服务器根据用户的标识,在所述用户数据文件类别授权表查询得到该用户被授权范围内的数据类别,根据该数据类别确定对应的共享分发范围;
32)根据该用户的标识,获取用户数据文件请求特征表中的过滤特征;
33)根据所获取的共享分发范围和过滤特征,循环递归检查设置共享的数据类别或者子类别是否在授权范围类别范围内,过滤掉不在授权范围内的数据类别;
34)对于所述授权范围内的数据类别,周期性的从所述数据文件信息表中获取新到达的文件信息,并且校验是否符合文件名过滤规则,将符合规则的文件信息加入到该用户的用户数据文件下载队列表中,形成该用户的所述用户下载队列信息。
4.根据权利要求1或2或3所述的方法,其特征在于,所述元数据包括文件名、扩展名、文件位置、文件大小、来源时间、到达时间信息、文件下载路径、所属类别。
5.根据权利要求1或2或3所述的方法,其特征在于,所述用户数据文件下载队列表中的信息包括用户id、文件id、下载状态、下载开始时间、下载结束时间、不成功重试次数、下载次数。
6.根据权利要求1或2或3所述的方法,其特征在于,所述数据库还包含一监控服务配置表;
所述监控服务配置表中的信息包括监控服务id、监控配置路径。
7.根据权利要求1或2或3所述的方法,其特征在于,步骤6)中,用户登录客户端并设置下载文件存放目录;所述中央服务器根据下载负荷的大小设置多台FTP服务器,并监控下载负荷的大小;客户端周期性从所述中央服务器获取根据下载负荷分配更新后的FTP服务器的地址信息,获取待下载的文件。
8.一种海量数据文件高效持续受控共享分发系统,其特征在于,包括多个用于接收数据的文件服务器,一中央服务器;在每一所述文件服务器上部署一文件到达监控模块;在所述中央服务器上部署元数据设置模块、数据信息浏览模块、共享权限与特征设置模块、数据分发客户端模块;在所述中央服务器上设置一数据库,所述数据库包含一数据文件信息表、一用户表、一用户数据文件类别授权表、一用户数据文件请求特征表、一用户数据文件下载队列表;将每一所述文件服务器上的文件目录进行网络共享,所述中央服务器对各共享目录进行聚合,形成一个包含所有文件资源的虚拟目录;
所述文件到达监控模块,用于实时监控到达文件服务器上的数据文件,并将所述数据文件的元数据发送到所述数据文件信息表中;
所述元数据设置模块,用于设置所述虚拟目录中每一级目录下对应数据文件的元数据信息,将目录结构和每一级目录上元数据描述结合形成一数据资源目录;数据信息浏览模块接收用户通过浏览所述数据资源目录所请求的文件数据资源,并将请求信息保存到所述用户数据文件请求特征表;
所述共享权限与特征设置模块,用于根据用户表、用户数据文件类别授权表、用户数据文件请求特征表,设置每一用户的共享分发范围和过滤特征;
所述中央服务器根据用户对应的共享分发范围、过滤特征以及所述数据文件信息表,向该用户所属的用户数据文件下载队列表中添加该用户可下载的文件信息,形成用户下载队列信息;
所述数据分发客户端模块,用于根据用户下载队列信息形成下载指令。
9.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至7任一所述方法中各步骤的指令。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法的步骤。
CN202310158792.4A 2023-02-14 2023-02-14 一种海量数据文件高效持续受控共享分发方法及系统 Active CN116233115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310158792.4A CN116233115B (zh) 2023-02-14 2023-02-14 一种海量数据文件高效持续受控共享分发方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310158792.4A CN116233115B (zh) 2023-02-14 2023-02-14 一种海量数据文件高效持续受控共享分发方法及系统

Publications (2)

Publication Number Publication Date
CN116233115A true CN116233115A (zh) 2023-06-06
CN116233115B CN116233115B (zh) 2023-09-19

Family

ID=86578198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310158792.4A Active CN116233115B (zh) 2023-02-14 2023-02-14 一种海量数据文件高效持续受控共享分发方法及系统

Country Status (1)

Country Link
CN (1) CN116233115B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170109370A1 (en) * 2015-01-30 2017-04-20 Dropbox, Inc. Selective Downloading of Shared Content Items in a Constrained Synchronization System
CN111131441A (zh) * 2019-12-21 2020-05-08 西安天互通信有限公司 一种实时文件共享系统及方法
CN113923208A (zh) * 2021-09-29 2022-01-11 北京轻舟智航科技有限公司 一种下载海量路测数据的处理方法
CN115630025A (zh) * 2022-12-21 2023-01-20 深圳市傲冠软件股份有限公司 用于监控共享文件系统内文件变动的系统和方法
CN115687255A (zh) * 2022-10-31 2023-02-03 武汉兆格信息技术有限公司 硬盘数据访问方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170109370A1 (en) * 2015-01-30 2017-04-20 Dropbox, Inc. Selective Downloading of Shared Content Items in a Constrained Synchronization System
CN111131441A (zh) * 2019-12-21 2020-05-08 西安天互通信有限公司 一种实时文件共享系统及方法
CN113923208A (zh) * 2021-09-29 2022-01-11 北京轻舟智航科技有限公司 一种下载海量路测数据的处理方法
CN115687255A (zh) * 2022-10-31 2023-02-03 武汉兆格信息技术有限公司 硬盘数据访问方法、装置、设备及介质
CN115630025A (zh) * 2022-12-21 2023-01-20 深圳市傲冠软件股份有限公司 用于监控共享文件系统内文件变动的系统和方法

Also Published As

Publication number Publication date
CN116233115B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
US11375008B2 (en) Consumption of data services provisioned in cloud infrastructures
JP6621543B2 (ja) ハイブリッドアプリケーションの自動更新
JP4240930B2 (ja) 複数ネットワークストレージの仮送想一元化方法及び装置
CN106576078B (zh) 用于在云存储系统中路由数据流的方法和系统
US8255420B2 (en) Distributed storage
KR100974149B1 (ko) 네임스페이스에 대한 정보 유지 방법, 시스템 및 컴퓨터 판독가능 저장 매체
CN102239476B (zh) 用于存储集群的共享名称空间
US8301654B2 (en) Geographical distributed storage system based on hierarchical peer to peer architecture
US8126986B2 (en) Advanced content and data distribution techniques
CN107247778B (zh) 用于实施可扩展数据存储服务的系统和方法
US20070038697A1 (en) Multi-protocol namespace server
US20030220985A1 (en) System and method for virtualizing network storages into a single file system view
US6363375B1 (en) Classification tree based information retrieval scheme
KR101366220B1 (ko) 분산형 저장소
JP4743726B1 (ja) サーバ復旧システム
US10579597B1 (en) Data-tiering service with multiple cold tier quality of service levels
WO2013157042A1 (ja) 分散アプリケーション及びデータホスティングシステム
US11151095B2 (en) Cloud-scale file-based filesystem for hybrid cloud storage
CN111209259B (zh) Nas分布式文件系统及数据处理方法
KR101236477B1 (ko) 비대칭 클러스터 파일 시스템의 데이터 처리 방법
US8627446B1 (en) Federating data between groups of servers
US10984444B2 (en) Systems and methods for generating intelligent account reconfiguration offers
CN116233115B (zh) 一种海量数据文件高效持续受控共享分发方法及系统
JP5367470B2 (ja) ストレージサーバー装置及びコンピュータプログラム
JP4005102B2 (ja) ゲートウェイ装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant