CN105069024A - 面向并行数据采集的分布式文件系统写访问方法 - Google Patents

面向并行数据采集的分布式文件系统写访问方法 Download PDF

Info

Publication number
CN105069024A
CN105069024A CN201510420189.4A CN201510420189A CN105069024A CN 105069024 A CN105069024 A CN 105069024A CN 201510420189 A CN201510420189 A CN 201510420189A CN 105069024 A CN105069024 A CN 105069024A
Authority
CN
China
Prior art keywords
metadata
data acquisition
client
data server
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510420189.4A
Other languages
English (en)
Other versions
CN105069024B (zh
Inventor
舒继武
陆游游
张广艳
郑纬民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201510420189.4A priority Critical patent/CN105069024B/zh
Publication of CN105069024A publication Critical patent/CN105069024A/zh
Application granted granted Critical
Publication of CN105069024B publication Critical patent/CN105069024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/183Provision of network file services by network file servers, e.g. by using NFS, CIFS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向并行数据采集的分布式文件系统写访问方法,同步运行状态下的元数据处理过程与传统方法一致;模式发现运行状态的元数据处理过程与同步运行状态一致,但该状态下的所有元数据请求及其处理结果都要记录,根据记录结果进行统计分析;在异步运行状态下,客户端根据存储的记录,预测元数据的处理结果,并直接将预测的结果返回给数据采集程序,随后再将元数据请求发送至元数据服务器进行处理,若处理结果与预测结果一致,则不用作任何额外的处理,否则立即进入异常处理模式。本发明具有如下优点:能够大量降低数据采集程序在等待元数据处理结果时的网络延迟,从而进一步提升系统的写性能。

Description

面向并行数据采集的分布式文件系统写访问方法
技术领域
本发明涉及分布式存储领域,尤其涉及一种面向并行数据采集的分布式文件系统写访问方法。
背景技术
随着智能城市的推广,各种并行数据采集设备已经被广泛地应用到人们的生活中,例如交通网络中的摄像头等。这类设备通常安装在城市的各个角落,使用硬件采集数据,并将所采集到的数据存放在分布式文件系统中,让用户能够很方便地从文件系统里读取相关的数据。分布式文件系统通常包含客户端、服务器和元数据服务器三部分,其中客户端部署在应用程序所在计算机中,为用户提供数据的读写接口;数据服务器通常部署在数据中心的服务器中,用来存放文件内容;元数据服务器也通常部署在数据中心的服务器中,它是整个分布式文件系统的控制中心,对整个系统中的文件布局等元数据信息进行统一的管理。
目前,由于各种数据采集设备的升级,这类设备每秒钟采集到的数据量变得越来越大,例如高清摄像头每秒钟都会产生到大量的数据等,而传统的分布式文件系统已难以满足这些设备的I/O需求;针对此问题,一种解决办法是在分布式文件系统中融入数据采集设备和相应的数据采集程序,并辅以特殊的物理布局和特殊的算法与数据结构,从而产生一种面向并行数据采集的分布式文件系统,在一定程度上满足数据采集程序对带宽的需求。然而,在实际处理过程中,由于分布式文件系统的元数据处理过程通常采用同步的模式,应用程序在写数据之前需要等待元数据服务器的响应,从而影响了整个写操作的效率。在数据采集的应用场景中,每秒钟需要写入的数据量非常大,而这一影响很容易导致数据的产生速度大于写速度,从而导致一些数据的必然丢失。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的目的在于提出一种面向并行数据采集的分布式文件系统写访问方法。
为了实现上述目的,本发明的实施例公开了一种面向并行数据采集的分布式文件系统写访问方法,由数据采集设备、数据采集程序、客户端、数据服务器程序、元数据服务器构成的面向并行数据采集的分布式文件系统,所述方法包括以下步骤:S1:对所述数据采集设备、所述数据采集程序、所述客户端、所述数据服务器程序和所述元数据服务器进行配置,实现所述数据采集设备、所述数据采集程序、所述客户端程序、所述数据服务器程序和所述元数据服务器部署于一套通过网络互联的服务器集群之上;S2:对所述数据采集设备、所述数据采集程序、所述客户端、所述数据服务器程序和所述元数据服务器进行初始化;S3:在同步运行模式下,所述数据采集程序通过所述客户端完成元数据的处理,其中,所述同步运行模式为所述客户端每次向所述元数据服务器发起请求后,等待元数据请求返回后进行下一步操作;S4:在模式发现运行模式下,所述数据采集程序通过所述客户端完成元数据的处理,其中,所述模式发现运行模式为所述客户端每次向所述元数据服务器发起请求后,等待元数据请求返回后进行下一步操作,所述客户端收集每次元数据的请求信息和处理结果,并将所述请求信息和所述处理结果对应存储;以及S5:在异步运行模式下,所述数据采集程序通过所述客户端完成元数据的处理,其中,所述异步运行模式为所述客户端根据对应存储的所述请求信息和所述处理结果对新请求信息的进行预判,并按照预判结果对新请求信息进行操作。
根据本发明实施例的面向并行数据采集的分布式文件系统写访问方法,使得面向并行数据采集的分布式文件系统能够降低写操作的延迟,从而提供更好的写性能。
另外,根据本发明上述实施例的面向并行数据采集的分布式文件系统写访问方法,还可以具有如下附加的技术特征:
进一步地,所述步骤S1进一步包括:所述客户端部署于一个物理节点之上,该物理节点与集群内其它节点通过所述网络互联;所述元数据服务器部署于所述服务器集群中的任一所述物理节点上,通过所述网络进行通信;所述数据服务器部署于所述服务器集群中的任一所述物理节点上,负责管理所述物理节点本地的存储资源并提供数据读写服务;所述数据采集程序与所述客户端部署于同一物理节点上;以及所述数据采集设备,每个所述数据采集设备与所述数据采集程序对应设置。
进一步地,所述步骤S2进一步包括:所述数据采集程序接收来自所述数据采集设备发送数据,确定数据写入的文件路径,所述文件路径为所述客户端在所述文件路径为所述客户端在文件系统的挂载点或所述挂载点的文件子目录;对所述客户端的所述在同步运行模式、所述模式发现运行模式和所述异步运行模式进行初始化;所述元数据服务器从本地存储设备上加载的元数据信息,建立数据服务器列表,所述数据服务器列表用于记录所有所述数据服务器的信息;以及所述数据服务器获取所在所述物理节点的唯一标识,初始化所有所述数据服务器的存储资源,建立与所述元数据服务器之间的通信,将所述存储资源和所述唯一标识报告给所述元数据服务器。
进一步地,所述步骤S3进一步包括:S301:所述数据采集程序从所述数据采集设备上采集所述数据,采集的所述数据以文件的形式写入所述分布式文件系统,在写入所述分布式文件系统之前,所述数据采集程序向所述客户端的挂载目录发起文件数据的元数据请求并等待处理结果;S302:所述客户端接收所述元数据请求,将所述元数据请求包装成一个面向元数据服务器的请求,并通过所述网络发送至所述元数据服务器;S303:所述元数据服务器接收所述元数据请求,根据所述元数据请求的类型,在所述本地存储空间上完成元数据的修改,或发现所述元数据请求无法执行并记录错误信息,所述元数据服务器将所述元数据请求的处理结果包装成响应,返送回所述客户端;S304:所述客户端接收所述响应后,将所述相应的结果返回给所述数据采集程序;S305:所述数据采集程序接收所述响应结果,如果元数据操作成功,则完成相关操作;若操作失败,则按照应用的内部逻辑进行处理。
进一步地,所述步骤S4进一步包括:S401:所述数据采集程序从所述数据采集设备上采集所述数据,采集的所述数据以文件的形式写入所述分布式文件系统,在写入所述分布式文件系统之前,所述数据采集程序向所述客户端的挂载目录发起文件数据的元数据请求并等待处理结果;S402:所述客户端接收所述元数据请求,将所述元数据请求包装成一个面向元数据服务器的请求,并通过所述网络发送至所述元数据服务器;S403:所述元数据服务器接收所述元数据请求,根据所述元数据请求的类型,在所述本地存储空间上完成元数据的修改,或发现所述元数据请求无法执行并记录错误信息,所述元数据服务器将所述元数据请求的处理结果包装成响应,返送回所述客户端;S404:所述客户端接收响应,将所述元数据操作的操作类型、典型参数和处理结果存储在所述客户端的元数据操作统计结构中;
S405:所述客户端接收所述响应后,将所述相应的结果返回给所述数据采集程序;所述数据采集程序接收所述响应结果,
如果元数据操作成功,则完成相关操作;
若操作失败,则按照应用的内部逻辑进行处理;
S406,当所述客户端所收集的元数据请求数量达到预先条件后,停止收集元数据操作信息,并根据当前收集的结果进行统计分析;S407,获取统计结果,并对所述统计结果进行处理,将处理后的所述统计结果保存在所述元数据服务器中,如果从所述统计结果中无法获得有效的元数据访问模式,则丢弃所述统计结果;S408,如果所述统计结果已触发配置文件中进入异步运行模式的条件,或根据用户指令进入异步运行模式,所述客户端将运行状态切换至所述异步运行模式。
进一步地,所述步骤S5进一步包括:S501:所述数据采集程序从所述数据采集设备上采集所述数据,采集的所述数据以文件的形式写入所述分布式文件系统,在写入所述分布式文件系统之前,所述数据采集程序向所述客户端的挂载目录发起文件数据的元数据请求并等待处理结果;S502:所述客户端根据当前的元数据操作,判断本地元数据操作统计结构中是否有该元数据操作类型所依赖的处理信息,如果不存在,则进入步骤S503,否则进入步骤S504;S503:所述客户端接收所述元数据请求,将所述元数据请求包装成一个面向元数据服务器的请求,并通过所述网络发送至所述元数据服务器;所述元数据服务器接收所述元数据请求,根据所述元数据请求的类型,在所述本地存储空间上完成元数据的修改,或发现所述元数据请求无法执行并记录错误信息,所述元数据服务器将所述元数据请求的处理结果包装成响应,返送回所述客户端;所述客户端接收所述响应后,将所述相应的结果返回给所述数据采集程序;所述数据采集程序接收所述响应结果,如果元数据操作成功,则完成相应操作;若操作失败,则按照应用的内部逻辑进行处理;S504:所述客户端根据所述本地元数据操作统计结构中的记录,根据用户预设的配置,选择一条与当前操作相同或最相近的记录,并以所述记录为依据来计算本次操作的结果,将计算出的结果直接返回给所述数据采集程序,所有已执行的后续操作均写入系统的执行日志;S505:用户在设置客户端的元数据访问模式时,同时也对出现错误后的处理机制进行了设定,可以选择在随后的元数据操作中直接返回错误,并附带错误信息,以供上层应用进行用户自定义的错误处理,也可以选择直接忽略该错误;错误发生后,与该错误相关的元数据信息将从元数据缓存中剔除;S506:所述客户端接收所述元数据请求,将所述元数据请求包装成一个面向元数据服务器的请求,并通过所述网络发送至所述元数据服务器;所述元数据服务器接收所述元数据请求,根据所述元数据请求的类型,在所述本地存储空间上完成元数据的修改,或发现所述元数据请求无法执行并记录错误信息,所述元数据服务器将所述元数据请求的处理结果包装成响应,返送回所述客户端;S507:所述元数据服务器接收所述响应,所述客户端将所述处理结果与所述预测结果相比较,如果结果相同,则在执行日志中清除所述数据采集程序已执行的操作,如果结果不同,通知所述数据采集程序,返回S505。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例的各运行模式间转换示意图;
图2是本发明一个实施例的同步运行模式下的元数据处理流程图;
图3是本发明一个实施例的模式发现运行模式下的元数据处理流程图;
图4是本发明一个实施例的异步运行模式下的元数据处理流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
以下结合附图描述根据本发明实施例的面向并行数据采集的分布式文件系统写访问方法。
面向并行数据采集的分布式文件系统写方法是在面向并行数据采集的分布式文件系统基础上,辅以特殊的元数据处理算法和数据结构对数据采集程序,对客户端二次开发而形成。面向并行数据采集的分布式文件系统通常包含五个组件,它们分别是数据采集设备、数据采集程序、客户端、数据服务器和元数据服务器,其中,数据采集设备、客户端和数据服务器部署在同一物理计算机中。数据采集设备与数据采集程序相连,数据采集设备也可以通过数据采集程序来调用客户端所提供的接口,将其所采集到的数据写入分布式文件系统中。客户端与数据服务器可通过网络向元数据服务器发起请求,以处理写入时所需的元数据信息。
在系统运行前,我们先按照以下流程初始化上述组件:
1)数据采集设备初始化:开始采集数据,并将采集到的数据发送至数据采集程序;
2)数据采集程序初始化:开始接收来自数据采集设备所采集到的内容,并确定写入文件的本地路径,该路径为分布式文件系统客户端在本节点的挂载点或其子目录;
3)客户端初始化:启动客户端;客户端有三种不同的运行模式,它们分别是同步运行模式、模式发现运行模式和异步运行模式;
同步运行模式是指客户端按照传统的模式完成元数据操作,即:客户端每次向元数据服务器发起请求后,必须同步的等待每一个元数据请求返回,之后才能再进行下一步操作;
模式发现运行模式是特殊的同步运行状态,在这种运行模式下,虽然客户端还是按照传统的模式完成元数据操作,但它还要收集每次元数据请求的信息与处理结果,并将这些数据记录在案,为之后的异步运行模式提供数据支持;
异步运行模式下,客户端可根据模式发现运行模式下所积累的数据,对元数据操作的成功与否进行预判,并按照预测结果将当前请求返回,从而实现元数据请求的异步执行;
4)元数据服务器初始化:元数据服务器启动后,从本地存储设备上加载必要的元数据信息,随后等待来自客户端和数据服务器的状态初始化请求;
5)数据服务器初始化:数据服务器启动时,首先初始化所有自身所管理的存储资源,计算磁盘的总容量和可用容量并进行汇总;随后建立与元数据服务器之间的通信,将存储资源信息报告给元数据服务器,随后进入服务状态,等待来自客户端和元数据服务器的数据访问请求;
初始化完成后,系统按照将根据不同的设置,切换客户端的运行模式:客户端启动后,默认进入同步运行模式,若客户端但发现本地早已积累了足够的元数据信息及其处理结果,则自动跳转至异步运行模式,否则根据用户的配置进入模式发现运行模式,然后再根据用户配置,在积累足够的元数据处理结果后进入异步运行模式;若异步运行模式下元数据预测结果与实际处理结果的误差率较高,系统则重新切换至模式发现运行状态,继续积累所需的元数据信息及其处理结果。此外,用户可通过客户端配置文件,配置客户端启动时最终进入的运行模式及运行参数,或者通过客户端管理工具,在线改变正在运行的客户端的运行模式;客户端运行模式的切换条件如图1所示。
在同步运行模式下,客户端接收到数据采集程序发起的元数据处理请求后,首先创建元数据缓存,随后与元数据服务器建立通信,获取必要的文件系统元数据信息,并依据这些信息将分布式文件系统挂载至用户指定的本地目录。所有后续数据采集程序发起的元数据读写将通过该本地目录进行,操作模式与节点的本地文件系统模式一致;同步运行模式下的元数据处理流程如图2所示。
在模式发现运行模式下,客户端在按照上述同步运行模式处理元数据请求的同时,在内部建立元数据操作统计结构,将该元数据操作的操作类型、典型参数、处理结果,记录与客户端的元数据操作统计结构中,为后续的预测元数据处理结果提供依据。模式发现运行模式下的元数据处理流程如图3所示。
在异步运行模式下,客户端根据模式发现运行模式下积累的经验,对所有的元数据请求的结果进行预测,并直接将预测结果返回给数据采集程序,从而执行下一环节的操作;随后,客户端将元数据请求发送至元数据服务器,并等待元数据服务器的处理结果,若元数据服务器的处理结果与预测结果一致,则不做任何额外处理,否则立即开启异常处理模式,并根据数据采集程序的操作日志,进行一定程度上的补救,例如,若所请求的文件名与元数据服务器所返回的文件名不一致,则只需将写入的文件重命名即可。此外,由于预测的正确率通常较高,客户端在收到元数据请求后,可稍事等待,然后将多个不同的元数据请求封装在同一个请求中,打包发给元数据服务器并等待响应结果。异步运行模式下的元数据处理流程如图4所示。
另外,本发明实施例的面向并行数据采集的分布式文件系统写访问方法的其它构成以及作用对于本领域的技术人员而言都是已知的,为了减少冗余,不做赘述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同限定。

Claims (6)

1.一种面向并行数据采集的分布式文件系统写访问方法,其特征在于,由数据采集设备、数据采集程序、客户端、数据服务器程序、元数据服务器构成的面向并行数据采集的分布式文件系统,所述方法包括以下步骤:
S1:对所述数据采集设备、所述数据采集程序、所述客户端、所述数据服务器程序和所述元数据服务器进行配置,实现所述数据采集设备、所述数据采集程序、所述客户端程序、所述数据服务器程序和所述元数据服务器部署于一套通过网络互联的服务器集群之上;
S2:对所述数据采集设备、所述数据采集程序、所述客户端、所述数据服务器程序和所述元数据服务器进行初始化;
S3:在同步运行模式下,所述数据采集程序通过所述客户端完成元数据的处理,其中,所述同步运行模式为所述客户端每次向所述元数据服务器发起请求后,等待元数据请求返回后进行下一步操作;
S4:在模式发现运行模式下,所述数据采集程序通过所述客户端完成元数据的处理,其中,所述模式发现运行模式为所述客户端每次向所述元数据服务器发起请求后,等待元数据请求返回后进行下一步操作,所述客户端收集每次元数据的请求信息和处理结果,并将所述请求信息和所述处理结果对应存储;以及
S5:在异步运行模式下,所述数据采集程序通过所述客户端完成元数据的处理,其中,所述异步运行模式为所述客户端根据对应存储的所述请求信息和所述处理结果对新请求信息的进行预判,并按照预判结果对新请求信息进行操作。
2.根据权利要求1所述的面向并行数据采集的分布式文件系统写访问方法,其特征在于,所述步骤S1进一步包括:
所述客户端部署于一个物理节点之上,该物理节点与集群内其它节点通过所述网络互联;
所述元数据服务器部署于所述服务器集群中的任一所述物理节点上,通过所述网络进行通信;
所述数据服务器部署于所述服务器集群中的任一所述物理节点上,负责管理所述物理节点本地的存储资源并提供数据读写服务;
所述数据采集程序与所述客户端部署于同一物理节点上;以及
所述数据采集设备,每个所述数据采集设备与所述数据采集程序对应设置。
3.根据权利要求1所述的面向并行数据采集的分布式文件系统写访问方法,其特征在于,所述步骤S2进一步包括:
所述数据采集程序接收来自所述数据采集设备发送数据,确定数据写入的文件路径,所述文件路径为所述客户端在文件系统的挂载点或所述挂载点的文件子目录;
对所述客户端的所述在同步运行模式、所述模式发现运行模式和所述异步运行模式进行初始化;
所述元数据服务器从本地存储设备上加载的元数据信息,建立数据服务器列表,所述数据服务器列表用于记录所有所述数据服务器的信息;以及
所述数据服务器获取所在所述物理节点的唯一标识,初始化所有所述数据服务器的存储资源,建立与所述元数据服务器之间的通信,将所述存储资源和所述唯一标识报告给所述元数据服务器。
4.根据权利要求1所述的面向并行数据采集的分布式文件系统写访问方法,其特征在于,所述步骤S3进一步包括:
S301:所述数据采集程序从所述数据采集设备上采集所述数据,采集的所述数据以文件的形式写入所述分布式文件系统,在写入所述分布式文件系统之前,所述数据采集程序向所述客户端的挂载目录发起文件数据的元数据请求并等待处理结果;
S302:所述客户端接收所述元数据请求,将所述元数据请求包装成一个面向元数据服务器的请求,并通过所述网络发送至所述元数据服务器;
S303:所述元数据服务器接收所述元数据请求,根据所述元数据请求的类型,
在所述本地存储空间上完成元数据的修改,
或发现所述元数据请求无法执行并记录错误信息,
所述元数据服务器将所述元数据请求的处理结果包装成响应,返送回所述客户端;
S304:所述客户端接收所述响应后,将所述相应的结果返回给所述数据采集程序;
S305:所述数据采集程序接收所述响应结果,
如果元数据操作成功,则完成相关操作;
若操作失败,则按照应用的内部逻辑进行处理。
5.根据权利要求1所述的面向并行数据采集的分布式文件系统写访问方法,其特征在于,所述步骤S4进一步包括:
S401:所述数据采集程序从所述数据采集设备上采集所述数据,采集的所述数据以文件的形式写入所述分布式文件系统,在写入所述分布式文件系统之前,所述数据采集程序向所述客户端的挂载目录发起文件数据的元数据请求并等待处理结果;
S402:所述客户端接收所述元数据请求,将所述元数据请求包装成一个面向元数据服务器的请求,并通过所述网络发送至所述元数据服务器;
S403:所述元数据服务器接收所述元数据请求,根据所述元数据请求的类型,
在所述本地存储空间上完成元数据的修改,
或发现所述元数据请求无法执行并记录错误信息,
所述元数据服务器将所述元数据请求的处理结果包装成响应,返送回所述客户端;
S404:所述客户端接收响应,将所述元数据操作的操作类型、典型参数和处理结果存储在所述客户端的元数据操作统计结构中;
S405:所述客户端接收所述响应后,将所述相应的结果返回给所述数据采集程序;所述数据采集程序接收所述响应结果,
如果元数据操作成功,则完成相关操作;
若操作失败,则按照应用的内部逻辑进行处理;
S406,当所述客户端所收集的元数据请求数量达到预先条件后,停止收集元数据操作信息,并根据当前收集的结果进行统计分析;
S407,获取统计结果,并对所述统计结果进行处理,将处理后的所述统计结果保存在所述元数据服务器中,如果从所述统计结果中无法获得有效的元数据访问模式,则丢弃所述统计结果;
S408,如果所述统计结果已触发配置文件中进入异步运行模式的条件,或根据用户指令进入异步运行模式,所述客户端将运行状态切换至所述异步运行模式。
6.根据权利要求1所述的面向并行数据采集的分布式文件系统写访问方法,其特征在于,所述步骤S5进一步包括:
S501:所述数据采集程序从所述数据采集设备上采集所述数据,采集的所述数据以文件的形式写入所述分布式文件系统,在写入所述分布式文件系统之前,所述数据采集程序向所述客户端的挂载目录发起文件数据的元数据请求并等待处理结果;
S502:所述客户端根据当前的元数据操作,判断本地元数据操作统计结构中是否有该元数据操作类型所依赖的处理信息,如果不存在,则进入步骤S503,否则进入步骤S504;
S503:所述客户端接收所述元数据请求,将所述元数据请求包装成一个面向元数据服务器的请求,并通过所述网络发送至所述元数据服务器;
所述元数据服务器接收所述元数据请求,根据所述元数据请求的类型,
在所述本地存储空间上完成元数据的修改,
或发现所述元数据请求无法执行并记录错误信息,
所述元数据服务器将所述元数据请求的处理结果包装成响应,返送回所述客户端;
所述客户端接收所述响应后,将所述相应的结果返回给所述数据采集程序;
所述数据采集程序接收所述响应结果,
如果元数据操作成功,则完成相应操作;
若操作失败,则按照应用的内部逻辑进行处理;
S504:所述客户端根据所述本地元数据操作统计结构中的记录,根据用户预设的配置,选择一条与当前操作相同或最相近的记录,并以所述记录为依据来计算本次操作的结果,将计算出的结果直接返回给所述数据采集程序,所有已执行的后续操作均写入系统的执行日志;
S505:用户在设置客户端的元数据访问模式时,同时也对出现错误后的处理机制进行了设定,可以选择在随后的元数据操作中直接返回错误,并附带错误信息,以供上层应用进行用户自定义的错误处理,也可以选择直接忽略该错误;错误发生后,与该错误相关的元数据信息将从元数据缓存中剔除;
S506:所述客户端接收所述元数据请求,将所述元数据请求包装成一个面向元数据服务器的请求,并通过所述网络发送至所述元数据服务器;
所述元数据服务器接收所述元数据请求,根据所述元数据请求的类型,
在所述本地存储空间上完成元数据的修改,
或发现所述元数据请求无法执行并记录错误信息,
所述元数据服务器将所述元数据请求的处理结果包装成响应,返送回所述客户端;
S507:所述元数据服务器接收所述响应,所述客户端将所述处理结果与所述预测结果相比较,
如果结果相同,则在执行日志中清除所述数据采集程序已执行的操作,
如果结果不同,通知所述数据采集程序,返回S505。
CN201510420189.4A 2015-07-16 2015-07-16 面向并行数据采集的分布式文件系统写访问方法 Active CN105069024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510420189.4A CN105069024B (zh) 2015-07-16 2015-07-16 面向并行数据采集的分布式文件系统写访问方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510420189.4A CN105069024B (zh) 2015-07-16 2015-07-16 面向并行数据采集的分布式文件系统写访问方法

Publications (2)

Publication Number Publication Date
CN105069024A true CN105069024A (zh) 2015-11-18
CN105069024B CN105069024B (zh) 2018-08-03

Family

ID=54498397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510420189.4A Active CN105069024B (zh) 2015-07-16 2015-07-16 面向并行数据采集的分布式文件系统写访问方法

Country Status (1)

Country Link
CN (1) CN105069024B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599046A (zh) * 2016-11-09 2017-04-26 深圳市中博睿存科技有限公司 分布式文件系统的写入方法及装置
CN113448292A (zh) * 2020-03-26 2021-09-28 株式会社安川电机 生产系统、数据发送方法和程序
CN113496155A (zh) * 2020-03-20 2021-10-12 北京京东振世信息技术有限公司 信息处理的方法、装置、设备和计算机可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012933A (zh) * 2010-12-02 2011-04-13 清华大学 分布式文件系统及利用其存储数据和提供服务的方法
CN102104494A (zh) * 2009-12-18 2011-06-22 华为技术有限公司 元数据服务器、带外网络文件系统及其处理方法
US20130297969A1 (en) * 2012-05-04 2013-11-07 Electronics And Telecommunications Research Institute File management method and apparatus for hybrid storage system
US8788628B1 (en) * 2011-11-14 2014-07-22 Panzura, Inc. Pre-fetching data for a distributed filesystem
CN104580437A (zh) * 2014-12-30 2015-04-29 创新科存储技术(深圳)有限公司 一种云存储客户端及其高效数据访问方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102104494A (zh) * 2009-12-18 2011-06-22 华为技术有限公司 元数据服务器、带外网络文件系统及其处理方法
CN102012933A (zh) * 2010-12-02 2011-04-13 清华大学 分布式文件系统及利用其存储数据和提供服务的方法
US8788628B1 (en) * 2011-11-14 2014-07-22 Panzura, Inc. Pre-fetching data for a distributed filesystem
US20130297969A1 (en) * 2012-05-04 2013-11-07 Electronics And Telecommunications Research Institute File management method and apparatus for hybrid storage system
CN104580437A (zh) * 2014-12-30 2015-04-29 创新科存储技术(深圳)有限公司 一种云存储客户端及其高效数据访问方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YOUYOU LU ET AL: "Accelerating Distributed Updates with Asynchronous Ordered Writes", 《2012 IEEE INTERNATIONAL CONFERENCE ON CLUSTER COMPUTING》 *
李学明: "基于3-gram 模型和数据挖掘技术的元数据预取", 《重庆大学学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599046A (zh) * 2016-11-09 2017-04-26 深圳市中博睿存科技有限公司 分布式文件系统的写入方法及装置
CN113496155A (zh) * 2020-03-20 2021-10-12 北京京东振世信息技术有限公司 信息处理的方法、装置、设备和计算机可读介质
CN113496155B (zh) * 2020-03-20 2023-09-29 北京京东振世信息技术有限公司 信息处理的方法、装置、设备和计算机可读介质
CN113448292A (zh) * 2020-03-26 2021-09-28 株式会社安川电机 生产系统、数据发送方法和程序

Also Published As

Publication number Publication date
CN105069024B (zh) 2018-08-03

Similar Documents

Publication Publication Date Title
CN105068758A (zh) 面向并行数据采集的分布式文件系统数据i/o优化方法
US8918392B1 (en) Data storage mapping and management
CN105204979B (zh) 安卓日志的记录方法及移动终端
US11314444B1 (en) Environment-sensitive distributed data management
CN106856489A (zh) 一种分布式存储系统的服务节点切换方法和装置
US11030038B2 (en) Fault prediction and detection using time-based distributed data
CN110580198B (zh) OpenStack计算节点自适应切换为控制节点的方法及装置
CN107368369B (zh) 分布式容器管理方法及系统
CN111818159A (zh) 数据处理节点的管理方法、装置、设备及存储介质
CN112202853B (zh) 数据同步方法、系统、计算机设备和存储介质
CN103440290A (zh) 大数据加载系统和方法
CN103078906A (zh) 文件透明迁移方法
CN105069024A (zh) 面向并行数据采集的分布式文件系统写访问方法
CN105095103A (zh) 用于云环境下的存储设备管理方法和装置
CN113515316A (zh) 一种新型边缘云操作系统
CN115396291A (zh) 一种基于kubernetes托管的redis集群故障自愈方法
CN112199176B (zh) 一种业务处理方法、装置及相关设备
CN110209693A (zh) 高并发数据查询方法、装置、系统、设备及可读存储介质
CN114610567A (zh) 容器监控方法、网络设备及存储介质
US11824922B2 (en) Operating cloud-managed remote edge sites at reduced disk capacity
CN109408230A (zh) 基于能耗优化的Docker容器部署方法及系统
CN115809072A (zh) 一种升级进程的方法、装置、设备及存储介质
CN110266790A (zh) 边缘集群管理方法、装置、边缘集群及可读存储介质
Dias et al. Runtime microservice self-distribution for fine-grain resource allocation
CN108491167A (zh) 一种工业过程工况数据快速随机分布存储方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant