CN111897792A

CN111897792A - 一种分布式文件存取方法、系统、介质及设备

Info

Publication number: CN111897792A
Application number: CN202010801434.7A
Authority: CN
Inventors: 崔迪; 张磊; 段晓杰
Original assignee: Beijing Institute of Radio Measurement
Current assignee: Beijing Institute of Radio Measurement
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2020-11-06

Abstract

本发明涉及一种分布式文件存取方法、系统、介质及设备，存储方法包括：采集原始数据；对原始数据进行解析，并提取原始数据的元数据；根据原始数据的解析结果为原始数据分配指定的存储路径，并将指定的存储路径添加到元数据中，将元数据存储至数据库；根据指定的存储路径向HDFS文件系统相应路径下存储相应文件名的原始数据。本发明实施例采用基于元数据的分布式文件存储方法和系统，能够根据简洁的元数据信息来直观的获取对于大数据量的原始信息的描述，便于管理，并且元数据中包含了原始文件的存储路径信息，简化了文件的检索流程，提高了文件效率。

Description

一种分布式文件存取方法、系统、介质及设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种分布式文件存取方法、系统、介质及设备。

背景技术

目前常见的存储方式有本地存储和分布式存储。

本地文件系统是基于单主机单操作系统管理本地存储资源。数据信息存储在磁盘中，可以在需要时重新格式化或重新配置，也可以增加磁盘数量以扩大存储限制。

相对于传统的本地文件系统而言，分布式文件系统是一种通过网络实现文件在多台主机上进行分布式存储的文件系统。分布式文件系统的设计一般采用“客户/服务机”模式，客户端以特定的通信协议通过网络与服务器建立连接，提出文件访问请求，客户端服务器可以通过设置访问权限来限制请求方对底层数据存储块的访问。

目前，已经得到广泛应用的分布式文件系统主要包括GFS(Google File System，Google公司为了存储海量搜索数据而设计的专用文件系统)和HDFS(Hadoop分布式文件系统)等，后者是针对前者的开源实现。

传统存储的扩展能力有限，一般以几百个磁盘为上限，达到最大扩展能力后，性能反而会下降。分布式存储在达到一定规模后，其性能会远超传统存储，可以达到非常高的聚合带宽，但是扩展节点后可能会对整个系统的布局造成比较大的影响。而且目前的分布式存储系统在存储时大多采用直接在索引表中存储位置的定位方式，这种方式具备高效查询定位的能力，但是数据过滤容错能力差，无法应对用户无意或者故意存储大量假文件或空文件的情况。

发明内容

本发明所要解决的技术问题是针对现有技术存在的问题，提供一种分布式文件存取方法、系统、介质及设备。

为解决上述技术问题，本发明实施例提供一种分布式文件存取方法，包括：

采集原始数据；

对所述原始数据进行解析，并提取所述原始数据的元数据；

根据所述原始数据的解析结果为所述原始数据分配指定的存储路径，并将所述指定的存储路径添加到元数据中，将所述元数据存储至数据库；

根据所述指定的存储路径向HDFS文件系统相应路径下存储相应文件名的所述原始数据。

为解决上述技术问题，本发明实施例还提供一种分布式文件存取系统，包括：

信息采集模块，用于采集原始数据；

数据接入处理模块，用于对所述原始数据进行解析，并提取所述原始数据的元数据；

还用于根据所述原始数据的解析结果为所述原始数据分配指定的存储路径，并将所述指定的存储路径添加到元数据中，将所述元数据存储至数据库模块；根据所述指定的存储路径向HDFS文件系统相应路径下存储相应文件名的所述原始数据。

为解决上述技术问题，本发明实施例还提供一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使所述计算机执行上述技术方案所述的分布式文件存取方法。

为解决上述技术问题，本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述技术方案所述的分布式文件存取方法。

本发明的有益效果是：采用基于元数据的分布式文件存储方法和系统，能够根据简洁的元数据信息来直观的获取对于大数据量的原始信息的描述，便于管理，并且元数据中包含了原始文件的存储路径信息，简化了文件的检索流程，提高了文件效率。

本发明附加的方面及其的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

图1为本发明实施例提供的分布式文件存储方法流程图；

图2为本发明实施例提供的分布式文件读取方法流程图；

图3为本发明实施例提供的分布式文件读取系统结构框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的分布式文件存取方法流程图。如图1所示，该方法包括：

S10，采集原始数据；

该实施例中，采集的数据为需要存储的信息。

具体地，确定发送端和接收端的IP(Internet Protocol，网际互连协议)和端口，通过网络收集特定的信息。

例如，通过监听一个特定端口(8888)，发送方在具备权限的条件下以UDP(UserDatagram Protocol，用户数据报协议)/TCP(Transmission Control Protocol，传输控制协议)协议向该端口发送数据，监听到的数据即为原始数据。

S20，对所述原始数据进行解析，并提取所述原始数据的元数据；

元数据指的是一种对于原始数据的描述信息，包含唯一性标识和一些必要的信息，例如该数据的ID、发送方、发送时间、接收时间和内容大小等。

例如，软件收到一条有效数据，解析后提取以下信息：该数据的类型(设备状态/信息1/信息2/...)，标识(使用原始数据中的ID信息或根据时间+类型编制ID)，发送时间和接收时间(20**/0*/**，时分秒)，长度为256字节。

该实施例中，对原始数据进行解析，以了解其内容，从而对原始数据进行高效存储。

S30，根据所述原始数据的解析结果为所述原始数据分配指定的存储路径，并将所述指定的存储路径添加到元数据中，将所述元数据存储至数据库；

例如，分配指定的存储路径如：数据类型/时间/文件名。

S40，根据所述指定的存储路径向HDFS文件系统相应路径下存储相应文件名的所述原始数据。

上述实施例提供的基于元数据的分布式文件存储方法，能够根据简洁的元数据信息来直观的获取对于大数据量的原始信息的描述，便于管理，并且元数据中包含了原始文件的存储路径信息，简化了文件的检索流程，提高了文件效率。

可选地，所述原始数据的数据格式为服务端已知的，服务端根据已知的数据格式对所述原始数据进行解析，并根据解析结果将不符合标准的原始数据过滤掉。

该实施例中，原始数据的数据格式为服务端已知的，服务端根据已知的数据格式对所述原始数据进行解析，根据解析结果将不符合标准的原始数据过滤掉，能够准确对接收到数据进行高效存储，满足速度和准确性的需求，提高数据过滤容错能力。

可选地，所述元数据包括数据标识，所述将所述元数据存储至数据库之前，还包括：根据所述数据标识对对数原始数据进行整合，并且所述元数据中记录更新次数信息。

例如，如果是第一次收到该标识的信息，更新次数为零，否则，该项进行加一操作。将提取的信息整合到相应的元数据(ID与原始数据ID一致或具有唯一相关性)。

原始数据与元数据更新一致，如果是第一次收到该标识的数据，则直接存储，否则，对同名文件进行追加写入操作。

上述实施例中，根据数据标识对对数原始数据进行整合，并且元数据中记录更新次数信息，有效解决了HDFS系统不适合大量存储小文件的技术问题，实现在HDFS文件系统中高效存储大量小文件。

可选地，所述数据库中预先建立不同数据类型的数据库表，所述原始数据的元数据根据数据类型存储至数据库中对应的数据库表中。该实施例中，数据库中预先建立不同数据类型的数据库表，提高存储效率。

图2为本发明实施例提供的分布式文件读取方法流程图。该方法包括：

S50，接收数据读取请求；

当用户需要查看或使用存储系统中的数据或文件时，则发送数据读取请求，请求内容可以是以数据类型和时间段来确定，也可以指定某个文件(提前知道文件标识)。该实施例中，请求方可以是数据服务中心，数据请求中心具有自动推送数据和文件的功能。请求方也可以是客户端，用户手动从客户端查询。

S60，根据所述数据读取请求从数据库中相应数据库表查找所述读取请求对应元数据中的文件路径和文件文件名；

S70，根据所述文件名和文件路径，从HDFS文件系统相应路径下查找相应文件名的原始数据并送回给请求方。

上述实施例提供的分布式文件读取方法，利用数据读取请求中的信息查询对应的元数据，进而确定匹配的文件路径和文件名，根据文件路径和文件名从HDFS文件系统相应路径下查找相应文件名的原始数据，提高了数据读取效率。

上文结合图1至图2，详细描述了根据本发明实施例提供的分布式文件存取方法。下面结合图3，详细描述本发明实施例提供的分布式文件存取系统。

如图3所示，本发明实施例还提供一种分布式文件存取系统，包括：信息采集模块100、数据接入处理模块200和数据库模块300。

信息采集模块100，用于采集原始数据，并发送给数据接入处理模块200；

采集的信息类型可以包括设备本身的状态信息(如温度、使用率等)、车辆(如机动或非机动等)、行人的基本信息(如车牌号、行人ID等)、运动信息(如速度、方向)，外观信息(如颜色直方图、深度学习提取特征和光流信息)以及位置信息(如区域内坐标位置)等。

数据接入处理模块200，用于对所述原始数据进行解析，并提取所述原始数据的元数据；还用于根据所述原始数据的解析结果为所述原始数据分配指定的存储路径，并将所述指定的存储路径添加到元数据中，将所述元数据存储至数据库模块300；根据所述指定的存储路径向HDFS文件系统500相应路径下存储相应文件名的所述原始数据。

数据接入处理模块200适用UDP/TCP报文接受协议，能被接入且解析成功的即为有效原始数据，从中提取的元数据中包括该数据的类型(如行人/机动车/非机动车/...)、数据标识(车牌号、行人ID)、发送时间和接收时间(20**/0*/**，时分秒)以及数据长度。生成路径如：行人/时间/文件名，元数据更新次数等。数据库存储元数据信息，

上述实施例提供的基于元数据的分布式文件存取系统，能够根据简洁的元数据信息来直观的获取对于大数据量的原始信息的描述，便于管理，并且元数据中包含了原始文件的存储路径信息，简化了文件的检索流程，提高了文件效率。

可选地，所述元数据包括数据标识，所述数据接入处理模块200还用于：根据所述数据标识对对数原始数据进行整合，并且所述元数据中记录更新次数信息。

可选地，所述数据库模块300中预先建立不同数据类型的数据库表，所述原始数据的元数据根据数据类型存储至数据库中对应的数据库表中。

可选地，如图3所示，分布式文件存取系统还包括数据调度模块400，用于接收数据读取请求，根据所述数据读取请求从数据库模块300中相应数据库表查找所述读取请求对应元数据中的文件路径和文件文件名；根据所述文件名和文件路径，从HDFS文件系统500相应路径下查找相应文件名的原始数据并送回给请求方。

本发明实施例还提供一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使所述计算机执行上述实施例提供的分布式文件存取方法。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施例提供的分布式文件存取方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分布式文件存取方法，其特征在于，存储方法包括：

采集原始数据；

对所述原始数据进行解析，并提取所述原始数据的元数据；

2.根据权利要求1所述的方法，其特征在于，所述原始数据的数据格式为服务端已知的，服务端根据已知的数据格式对所述原始数据进行解析，并根据解析结果将不符合标准的原始数据过滤掉。

3.根据权利要求1所述的方法，其特征在于，所述元数据包括数据标识，所述将所述元数据存储至数据库之前，还包括：根据所述数据标识对对数原始数据进行整合，并且所述元数据中记录更新次数信息。

4.根据权利要求1所述的方法，其特征在于，所述数据库中预先建立不同数据类型的数据库表，所述原始数据的元数据根据数据类型存储至数据库中对应的数据库表中。

5.根据权利要求1至4任一项所述的方法，其特征在于，还包括读取步骤：接收数据读取请求，根据所述数据读取请求从数据库中相应数据库表查找所述读取请求对应元数据中的文件路径和文件文件名；

根据所述文件名和文件路径，从HDFS文件系统相应路径下查找相应文件名的原始数据并送回给请求方。

6.一种分布式文件存取系统，其特征在于，包括：

信息采集模块，用于采集原始数据；

7.根据权利要求6所述的系统，其特征在于，所述元数据包括数据标识，所述数据接入处理模块还用于：根据所述数据标识对对数原始数据进行整合，并且所述元数据中记录更新次数信息。

8.根据权利要求6所述的系统，其特征在于，还包括数据调度模块，用于接收数据读取请求，根据所述数据读取请求从数据库中相应数据库表查找所述读取请求对应元数据中的文件路径和文件文件名；

9.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在计算机上运行时，使所述计算机执行根据权利要求1至5任一项所述的分布式文件存取方法。

10.一种计算机设备，包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述的分布式文件存取方法。