CN110515916A - 一种主从分布式文件处理方法、主节点、从节点及系统 - Google Patents

一种主从分布式文件处理方法、主节点、从节点及系统 Download PDF

Info

Publication number
CN110515916A
CN110515916A CN201910683133.6A CN201910683133A CN110515916A CN 110515916 A CN110515916 A CN 110515916A CN 201910683133 A CN201910683133 A CN 201910683133A CN 110515916 A CN110515916 A CN 110515916A
Authority
CN
China
Prior art keywords
node
listed files
file
database
master
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910683133.6A
Other languages
English (en)
Other versions
CN110515916B (zh
Inventor
刘洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Jinan data Technology Co ltd
Original Assignee
Inspur Jinan data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Jinan data Technology Co ltd filed Critical Inspur Jinan data Technology Co ltd
Priority to CN201910683133.6A priority Critical patent/CN110515916B/zh
Publication of CN110515916A publication Critical patent/CN110515916A/zh
Application granted granted Critical
Publication of CN110515916B publication Critical patent/CN110515916B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种主从分布式文件处理方法、主节点、从节点、系统及计算机可读存储介质,其中,应用于主节点的方法包括:发送文件扫描命令至从节点,以使从节点根据扫描命令进行扫描;接收从节点发送的从节点的节点信息及从节点通过扫描得到的文件列表;判断自身所包含的数据库中是否存在与文件列表相重复的文件列表,若存在,则进行去重操作;将节点信息和文件列表存放到数据库中。本申请公开的上述技术方案,利用从节点进行扫描得到文件列表,并利用主节点部署数据库和维护文件列表,以降低文件处理的繁琐程度和所占据的空间资源,并提高文件处理的准确性。

Description

一种主从分布式文件处理方法、主节点、从节点及系统
技术领域
本申请涉及分布式集群系统技术领域,更具体地说,涉及一种主从分布式文件处理方法、主节点、从节点、系统及计算机可读存储介质。
背景技术
随着云技术、大数据的快速发展,数据增长越来越快,分布式集群系统应用越来越广泛。分布式集群系统由若干或成千上百个节点组成,其中,这些节点分为主节点和从节点,各节点之间需要协作进行文件的处理,以便于后续可以对处理后的文件进行相应的操作。
目前,在主从分布式文件处理过程中,一般是依靠从节点进行文件列表的维护和数据库的部署,其中,这里提及的维护具体指的是文件列表的获取、去重和存储等操作。但是,由于从节点的数量比较多,且在进行维护和部署时需要各从节点之间进行信息的交互,以保证文件列表和数据库的完整性,因此,采用从节点进行维护和部署不仅会增加文件处理的繁琐程度,而且会降低文件处理的准确性。另外,由于每个从节点中均部署有数据库,而且数据库中均存储有文件列表,因此,则会占据比较大的磁盘空间和内存空间,从而会耗费比较大的空间资源。
综上所述,如何降低主从分布式文件处理的繁琐程度和所占用的空间资源,并提高文件处理的准确性,是目前本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本申请的目的是提供一种主从分布式文件处理方法、主节点、从节点、系统及计算机可读存储介质,以降低主从分布式文件处理的繁琐程度和所占用的空间资源,并提高文件处理的准确性。
为了实现上述目的,本申请提供如下技术方案:
一种主从分布式文件处理方法,应用于主节点,包括:
发送文件扫描命令至从节点,以使所述从节点根据所述扫描命令进行扫描;
接收所述从节点发送的所述从节点的节点信息及所述从节点通过扫描得到的文件列表;
判断自身所包含的数据库中是否存在与所述文件列表相重复的文件列表,若存在,则进行去重操作;
将所述节点信息和所述文件列表存放到所述数据库中。
优选的,进行去重操作,包括:
通过Redis去除所述数据库中与从所述从节点接收到的文件列表完全相同的文件列表。
优选的,在进行去重操作时,还包括:
若所述数据库中存在与从所述从节点接收到的文件列表相一致且状态不同的文件列表,则将所述数据库中的文件列表与从所述从节点接收到的文件列表进行对比,并将对比结果发送至所述从节点。
优选的,将所述节点信息和所述文件列表存放到所述数据库中,包括:
将所述节点信息和所述文件列表按照预先设定的记录文件信息的字段存放到所述数据库中。
一种主从分布式文件处理方法,应用于从节点,包括:
接收主节点发送的文件扫描命令;
根据所述扫描命令进行扫描,并获取文件列表;
将自身的节点信息及获取到的所述文件列表发送给所述主节点,以使所述主节点进行去重操作,并将所述节点信息和所述文件列表存放到数据库中。
优选的,在将自身的节点信息及获取到的所述文件列表发送给所述主节点之前,还包括:
将扫描到的文件移动到备份文件夹中,并保持原有文件层级目录关系,以对扫描到的文件进行备份。
一种主节点,包括:
第一发送模块,用于发送文件扫描命令至从节点,以使所述从节点根据所述扫描命令进行扫描;
第一接收模块,用于接收所述从节点发送的所述从节点的节点信息及所述从节点通过扫描得到的文件列表;
判断模块,用于判断自身所包含的数据库中是否存在与所述文件列表相重复的文件列表,若存在,则进行去重操作;
存放模块,用于将所述节点信息和所述文件列表存放到所述数据库中。
一种从节点,包括:
第二接收模块,用于接收主节点发送的文件扫描命令;
扫描模块,用于根据所述扫描命令进行扫描,并获取文件列表;
第二发送模块,用于将自身的节点信息及获取到的所述文件列表发送给所述主节点,以使所述主节点进行去重操作,并将所述节点信息和所述文件列表存放到数据库中。
一种主从分布式文件处理系统,包括主节点、从节点,其中:
所述主节点,用于发送文件扫描命令至从节点,以使所述从节点根据所述扫描命令进行扫描;接收所述从节点发送的所述从节点的节点信息及所述从节点通过扫描得到的文件列表;判断自身所包含的数据库中是否存在与所述文件列表相重复的文件列表,若存在,则进行去重操作;将所述节点信息和所述文件列表存放到所述数据库中;
所述从节点,用于接收主节点发送的文件扫描命令;根据所述扫描命令进行扫描,并获取文件列表;将自身的节点信息及获取到的所述文件列表发送给所述主节点,以使所述主节点进行去重操作,并将所述节点信息和所述文件列表存放到数据库中。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的应用于主节点的主从分布式文件处理方法的步骤和/或如上述任一项所述的应用于从节点的主从分布式文件处理方法的步骤。
本申请提供了一种主从分布式文件处理方法、主节点、从节点、系统及计算机可读存储介质,其中,应用于主节点的方法包括:发送文件扫描命令至从节点,以使从节点根据扫描命令进行扫描;接收从节点发送的从节点的节点信息及从节点通过扫描得到的文件列表;判断自身所包含的数据库中是否存在与文件列表相重复的文件列表,若存在,则进行去重操作;将节点信息和文件列表存放到数据库中。
本申请公开的上述技术方案,利用从节点进行扫描得到文件列表,并利用主节点根据自身所包含的数据库进行去重操作,且将文件列表和从节点的节点信息存放到主节点所包含的数据库中,以通过主节点部署数据库,并通过主节点对文件列表进行维护,因此,则无需通过各节点之间进行信息的交互而实现文件列表的维护和数据库的部署,从而可以降低文件处理的繁琐程度,提高文件处理的准确性,而且由于只需在主节点中部署数据库即可,因此,则可以降低文件列表所耗费的空间资源。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种应用于主节点的主从分布式文件处理方法的流程图;
图2为本申请实施例提供的一种应用于从节点的主从分布式文件处理方法的流程图;
图3为本申请实施例提供的一种主节点的结构示意图;
图4为本申请实施例提供的一种从节点的结构示意图;
图5为本申请实施例提供的一种主从分布式文件处理系统的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,其示出了本申请实施例提供的一种应用于主节点的主从分布式文件处理方法的流程图,可以包括:
S11:发送文件扫描命令至从节点,以使从节点根据扫描命令进行扫描。
在Master(主)-Worker(从)的主从模式中或者Master(主)-Slave(仆)的主从模式中,主节点向从节点发送文件扫描命令。其中,该文件扫描命令中包括但不限于从节点需要扫描的监控目录、扫描间隔、扫描时的过滤条件。
从节点在接收到文件扫描命令之后,遍历需要扫描的监控目录,获取文件相关信息,最终得到文件列表(文件列表中包含有文件相关信息)。需要说明的是,这里提及的文件相关信息包括但不限于文件路径、文件大小、文件最后修改时间、当前状态。
另外,从节点在获取到文件列表之后,可以将文件列表存放在队列中,以供多线程使用。
S12:接收从节点发送的从节点的节点信息及从节点通过扫描得到的文件列表。
从节点在根据扫描命令进行扫描之后,可以将从节点的节点信息以及扫描得到的文件列表发送给主节点,相应地,主节点可以接收从节点所发送的从节点的节点信息以及从节点通过扫描得到的文件列表。
其中,从节点可以通过Netty将从节点的节点信息及文件列表发送给主节点,主节点可以对通过Netty发送的信息进行解析、还原,以得到节点信息和文件列表,这种通过Netty进行信息发送的方式具有简单、安全、可靠等特点。
S13:判断自身所包含的数据库中是否存在与文件列表相重复的文件列表,若存在,则进行去重操作。
主节点在接收到文件列表之后,判断自身所包含的数据库中是否存在与此次接收到的文件列表相重复的文件列表,若存在相重复的文件列表,则进行去重操作,以避免数据库中存储过多相重复的文件列表而造成空间资源的浪费,并避免给文件列表的后续操作带来不必要的麻烦,在进行去重操作之后,则可以执行步骤S14;若不存在相重复的文件列表,则直接执行步骤S14。
其中,数据库中的文件列表具体为从节点之前所发送的文件列表(即从节点在此次发送之前所发送且存储在数据库中的文件列表)。
S14:将节点信息和文件列表存放到数据库中。
将节点信息和文件列表存放在数据库中,以便于后续可以直接从主节点的数据库中获取文件列表、从节点的节点信息,并便于根据文件列表对文件信息进行处理。
从上述可知,在本申请所提供的主从分布式文件处理过程中,只需从节点根据扫描命令进行扫描和将扫描得到的文件列表和节点信息发送给主节点即可,而文件列表的去重、存储及数据库的部署则由主节点完成,即文件列表的维护和数据库的部署主要是由主节点负责完成的,因此,则无需各从节点之间进行信息的交互而进行文件列表的维护和数据库的部署,从而则可以降低文件处理的繁琐程度,并可以提高文件处理的准确性,而且由于仅需在主节点中部署数据库,并仅需在主节点的数据库中存储文件列表,因此,则可以降低磁盘空间和内存空间的占据量,从而可以降低所耗费的空间资源。另外,由于本申请主要是通过主节点进行文件列表的维护和数据库的部署的,因此,则具有文件处理的全局性,并且主节点和从节点分工明确,条理清晰,而且还可以缩减文件处理的成本,减少文件列表维护成本。
本申请公开的上述技术方案,利用从节点进行扫描得到文件列表,并利用主节点根据自身所包含的数据库进行去重操作,且将文件列表和从节点的节点信息存放到主节点所包含的数据库中,以通过主节点部署数据库,并通过主节点对文件列表进行维护,因此,则无需通过各节点之间进行信息的交互而实现文件列表的维护和数据库的部署,从而可以降低文件处理的繁琐程度,提高文件处理的准确性,而且由于只需在主节点中部署数据库即可,因此,则可以降低文件列表所耗费的空间资源。
本申请实施例提供的一种主从分布式文件处理方法,进行去重操作,可以包括:
通过Redis去除数据库中与从从节点接收到的文件列表完全相同的文件列表。
主节点在判断出自身所包含的数据库中存在与从从节点接收到的文件列表相重复的文件列表时,则可以使用Redis去除数据库中与从从节点接收到的文件列表完全相同的文件列表,以避免造成空间资源的浪费,并避免给文件列表的后续操作带来不必要的麻烦。
其中,这里提到的完全相同指所属从节点、绝对路径、文件名、文件大小、最后修改时间、当前状态等信息完全相同。
本申请实施例提供的一种主从分布式文件处理方法,在进行去重操作时,还可以包括:
若数据库中存在与从从节点接收到的文件列表相一致且状态不同的文件列表,则将数据库中的文件列表与从从节点接收到的文件列表进行对比,并将对比结果发送至从节点。
在进行去重操作时,若主节点的数据库中存在与从从节点接收到的文件列表相一致且状态不同的文件列表,则将数据库中的文件列表与从从节点接收到的文件列表进行对比,以对比出数据库中已存在但状态不同(如:该文件列表或该文件列表中的某个(或某些)文件经过修改、备份失败、传输失败等处理操作状态)的文件列表,并得到对比结果,然后,将对比结果发送给从节点,以便从节点根据对比结果做相应的处理。其中,对比结果中可以包括各文件的状态。
本申请实施例提供的一种主从分布式文件处理方法,将节点信息和文件列表存放到数据库中,可以包括:
将节点信息和文件列表按照预先设定的记录文件信息的字段存放到数据库中。
在将节点信息和文件列表存放到数据库中时,可以按照预先设定的记录文件信息的字段进行存放。其中,预先设定的记录文件信息的字段包括但不限于文件ID、从节点IP、扫描时间、文件路径、文件大小、最后修改时间、从节点向主节点发送时间、当前状态、入库时间。
另外,可以根据去重操作的情况确定不同的数据库记录策略:若为全新的文件,则将文件列表及从节点的节点信息存放到数据库中,并为其设置唯一标志符,以便查询更新;若是数据库中已存在但已更新或状态已发生变化的文件,则可以更新该文件的相关信息。
参见图2,其示出了本申请实施例提供的一种应用于从节点的主从分布式文件处理方法的流程图,可以包括:
S21:接收主节点发送的文件扫描命令。
S22:根据扫描命令进行扫描,并获取文件列表。
S23:将自身的节点信息及获取到的文件列表发送给主节点,以使主节点进行去重操作,并将节点信息和文件列表存放到数据库中。
需要说明的是,本申请实施例提供的一种应用于从节点的主从分布式文件处理方法中的步骤S21至步骤S23的具体说明可以对应参照本申请实施例提供的一种应用于主节点的主从分布式文件处理方法中的步骤S11至步骤S14中的对应说明,在此不再赘述。
本申请公开的上述技术方案,利用从节点进行扫描得到文件列表,并利用主节点根据自身所包含的数据库进行去重操作,且将文件列表和从节点的节点信息存放到主节点所包含的数据库中,以通过主节点部署数据库,并通过主节点对文件列表进行维护,因此,则无需通过各节点之间进行信息的交互而实现文件列表的维护和数据库的部署,从而可以降低文件处理的繁琐程度,提高文件处理的准确性,而且由于只需在主节点中部署数据库即可,因此,则可以降低文件列表所耗费的空间资源。
本申请实施例提供的一种主从分布式文件处理方法,在将自身的节点信息及获取到的文件列表发送给主节点之前,还可以包括:
将扫描到的文件移动到备份文件夹中,并保持原有文件层级目录关系,以对扫描到的文件进行备份。
从节点在根据扫描命令进行扫描,并获取文件列表之后,且在将自身的节点信息及获取到的文件列表发送给主节点之前,还可以对扫描到的文件进行备份,其中,该备份属于移动备份,即将监控目录中的文件移动到备份文件夹中,并保持原有文件层级目录关系,以尽量避免对文件进行重复扫描而得到重复的文件列表。
在对扫描到的文件进行备份时,备份在备份文件夹中的文件可以按照不同的状态设置不同的后缀名,如:备份后在原有文件名后追加“.tmp”后缀,当后续操作后根据当前不同状态修改该后缀名,如:当文件需要传输操作时,就可以根据是否传输成功将“.tmp”后缀修改为“.suc”或者“.fail”等。当后续操作全部完成后可以选择恢复文件名或删除该文件等操作。
参见图3,其示出了本申请实施例提供的一种主节点的结构示意图,可以包括:
第一发送模块11,用于发送文件扫描命令至从节点,以使从节点根据扫描命令进行扫描;
第一接收模块12,用于接收从节点发送的从节点的节点信息及从节点通过扫描得到的文件列表;
判断模块13,用于判断自身所包含的数据库中是否存在与文件列表相重复的文件列表,若存在,则进行去重操作;
存放模块14,用于将节点信息和文件列表存放到数据库中。
本申请实施例提供的一种主节点,判断模块13可以包括:
去重单元,用于通过Redis去除数据库中与从从节点接收到的文件列表完全相同的文件列表。
本申请实施例提供的一种主节点,还可以包括:
对比模块,用于若数据库中存在与从从节点接收到的文件列表相一致且状态不同的文件列表,则将数据库中的文件列表与从从节点接收到的文件列表进行对比,并将对比结果发送至从节点。
本申请实施例提供的一种主节点中相关部分的说明可以参见本申请实施例提供的一种应用于主节点的主从分布式文件处理方法中对应部分的详细说明,在此不再赘述。
参见图4,其示出了本申请实施例提供的一种从节点的结构示意图,可以包括:
第二接收模块21,用于接收主节点发送的文件扫描命令;
扫描模块22,用于根据扫描命令进行扫描,并获取文件列表;
第二发送模块23,用于将自身的节点信息及获取到的文件列表发送给主节点,以使主节点进行去重操作,并将节点信息和文件列表存放到数据库中。
本申请实施例提供的一种从节点,还可以包括:
备份模块,用于在将自身的节点信息及获取到的文件列表发送给主节点之前,将扫描到的文件移动到备份文件夹中,并保持原有文件层级目录关系,以对扫描到的文件进行备份。
本申请实施例提供的一种从节点中相关部分的说明可以参见本申请实施例提供的一种应用于从节点的主从分布式文件处理方法中对应部分的详细说明,在此不再赘述。
本申请实施例还提供了一种主从分布式文件处理系统,参见图5,其示出了本申请实施例提供的一种主从分布式文件处理系统的结构示意图,可以包括主节点1、从节点2,其中:
主节点1,用于发送文件扫描命令至从节点2,以使从节点2根据扫描命令进行扫描;接收从节点2发送的从节点2的节点信息及从节点2通过扫描得到的文件列表;判断自身所包含的数据库中是否存在与文件列表相重复的文件列表,若存在,则进行去重操作;将节点信息和文件列表存放到数据库中;
从节点2,用于接收主节点1发送的文件扫描命令;根据扫描命令进行扫描,并获取文件列表;将自身的节点信息及获取到的文件列表发送给主节点1,以使主节点1进行去重操作,并将节点信息和文件列表存放到数据库中。
本申请实施例提供的一种主从分布式文件处理系统中相关部分的说明可以参见本申请实施例提供的一种应用于主节点的主从分布式文件处理方法及一种应用于从节点的主从分布式文件处理方法中对应部分的详细说明,在此不再赘述。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述任一种应用于主节点的主从分布式文件处理方法的步骤和/或上述任一种应用于从节点的主从分布式文件处理方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例提供的一种计算机可读存储介质中相关部分的说明可以参见本申请实施例提供的一种应用于主节点的主从分布式文件处理方法和/或一种应用于从节点的主从分布式文件处理方法中对应部分的详细说明,在此不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种主从分布式文件处理方法,其特征在于,应用于主节点,包括:
发送文件扫描命令至从节点,以使所述从节点根据所述扫描命令进行扫描;
接收所述从节点发送的所述从节点的节点信息及所述从节点通过扫描得到的文件列表;
判断自身所包含的数据库中是否存在与所述文件列表相重复的文件列表,若存在,则进行去重操作;
将所述节点信息和所述文件列表存放到所述数据库中。
2.根据权利要求1所述的主从分布式文件处理方法,其特征在于,进行去重操作,包括:
通过Redis去除所述数据库中与从所述从节点接收到的文件列表完全相同的文件列表。
3.根据权利要求2所述的主从分布式文件处理方法,其特征在于,在进行去重操作时,还包括:
若所述数据库中存在与从所述从节点接收到的文件列表相一致且状态不同的文件列表,则将所述数据库中的文件列表与从所述从节点接收到的文件列表进行对比,并将对比结果发送至所述从节点。
4.根据权利要求1所述的主从分布式文件处理方法,其特征在于,将所述节点信息和所述文件列表存放到所述数据库中,包括:
将所述节点信息和所述文件列表按照预先设定的记录文件信息的字段存放到所述数据库中。
5.一种主从分布式文件处理方法,其特征在于,应用于从节点,包括:
接收主节点发送的文件扫描命令;
根据所述扫描命令进行扫描,并获取文件列表;
将自身的节点信息及获取到的所述文件列表发送给所述主节点,以使所述主节点进行去重操作,并将所述节点信息和所述文件列表存放到数据库中。
6.根据权利要求5所述的主从分布式文件处理方法,其特征在于,在将自身的节点信息及获取到的所述文件列表发送给所述主节点之前,还包括:
将扫描到的文件移动到备份文件夹中,并保持原有文件层级目录关系,以对扫描到的文件进行备份。
7.一种主节点,其特征在于,包括:
第一发送模块,用于发送文件扫描命令至从节点,以使所述从节点根据所述扫描命令进行扫描;
第一接收模块,用于接收所述从节点发送的所述从节点的节点信息及所述从节点通过扫描得到的文件列表;
判断模块,用于判断自身所包含的数据库中是否存在与所述文件列表相重复的文件列表,若存在,则进行去重操作;
存放模块,用于将所述节点信息和所述文件列表存放到所述数据库中。
8.一种从节点,其特征在于,包括:
第二接收模块,用于接收主节点发送的文件扫描命令;
扫描模块,用于根据所述扫描命令进行扫描,并获取文件列表;
第二发送模块,用于将自身的节点信息及获取到的所述文件列表发送给所述主节点,以使所述主节点进行去重操作,并将所述节点信息和所述文件列表存放到数据库中。
9.一种主从分布式文件处理系统,其特征在于,包括主节点、从节点,其中:
所述主节点,用于发送文件扫描命令至从节点,以使所述从节点根据所述扫描命令进行扫描;接收所述从节点发送的所述从节点的节点信息及所述从节点通过扫描得到的文件列表;判断自身所包含的数据库中是否存在与所述文件列表相重复的文件列表,若存在,则进行去重操作;将所述节点信息和所述文件列表存放到所述数据库中;
所述从节点,用于接收主节点发送的文件扫描命令;根据所述扫描命令进行扫描,并获取文件列表;将自身的节点信息及获取到的所述文件列表发送给所述主节点,以使所述主节点进行去重操作,并将所述节点信息和所述文件列表存放到数据库中。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的应用于主节点的主从分布式文件处理方法的步骤和/或如权利要求5至6任一项所述的应用于从节点的主从分布式文件处理方法的步骤。
CN201910683133.6A 2019-07-26 2019-07-26 一种主从分布式文件处理方法、主节点、从节点及系统 Active CN110515916B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910683133.6A CN110515916B (zh) 2019-07-26 2019-07-26 一种主从分布式文件处理方法、主节点、从节点及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910683133.6A CN110515916B (zh) 2019-07-26 2019-07-26 一种主从分布式文件处理方法、主节点、从节点及系统

Publications (2)

Publication Number Publication Date
CN110515916A true CN110515916A (zh) 2019-11-29
CN110515916B CN110515916B (zh) 2022-12-23

Family

ID=68624098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910683133.6A Active CN110515916B (zh) 2019-07-26 2019-07-26 一种主从分布式文件处理方法、主节点、从节点及系统

Country Status (1)

Country Link
CN (1) CN110515916B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115906749A (zh) * 2023-02-09 2023-04-04 深圳鸿芯微纳技术有限公司 数据处理方法、装置、终端设备及存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1489052A (zh) * 2002-10-11 2004-04-14 鸿富锦精密工业(深圳)有限公司 多节点文件同步系统及方法
CN102137125A (zh) * 2010-01-26 2011-07-27 复旦大学 在分布式网络系统中处理跨任务数据的方法
CN102419766A (zh) * 2011-11-01 2012-04-18 西安电子科技大学 基于hdfs分布式文件系统的数据冗余及文件操作方法
CN102916963A (zh) * 2012-10-26 2013-02-06 中国人民解放军信息工程大学 一种数据安全交换方法、装置、节点及系统
CN102939740A (zh) * 2010-04-23 2013-02-20 Ilt制造公司 分布式数据存储
US20150127608A1 (en) * 2013-11-01 2015-05-07 Cloudera, Inc. Manifest-based snapshots in distributed computing environments
US20150234712A1 (en) * 2014-02-18 2015-08-20 Ca, Inc. Methods of synchronizing files including synchronized hash map linked lists and related data processing nodes
CN105956110A (zh) * 2016-05-04 2016-09-21 北京思特奇信息技术股份有限公司 一种分布式文件同步系统及方法
CN107209714A (zh) * 2015-03-16 2017-09-26 株式会社日立制作所 分布式存储系统及分布式存储系统的控制方法
CN107239480A (zh) * 2016-03-28 2017-10-10 阿里巴巴集团控股有限公司 用于分布式文件系统执行重命名操作的方法和设备
CN107577434A (zh) * 2017-09-14 2018-01-12 郑州云海信息技术有限公司 存储节点的容量获取方法、装置、设备及可读存储介质
CN107632926A (zh) * 2017-09-18 2018-01-26 郑州云海信息技术有限公司 业务数量统计方法、装置、设备及计算机可读存储介质
CN107704633A (zh) * 2017-11-01 2018-02-16 郑州云海信息技术有限公司 一种文件迁移的方法和系统
CN108696595A (zh) * 2018-05-28 2018-10-23 郑州云海信息技术有限公司 分布式集群数据同步方法、主节点、从节点、系统及介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1489052A (zh) * 2002-10-11 2004-04-14 鸿富锦精密工业(深圳)有限公司 多节点文件同步系统及方法
CN102137125A (zh) * 2010-01-26 2011-07-27 复旦大学 在分布式网络系统中处理跨任务数据的方法
CN102939740A (zh) * 2010-04-23 2013-02-20 Ilt制造公司 分布式数据存储
CN102419766A (zh) * 2011-11-01 2012-04-18 西安电子科技大学 基于hdfs分布式文件系统的数据冗余及文件操作方法
CN102916963A (zh) * 2012-10-26 2013-02-06 中国人民解放军信息工程大学 一种数据安全交换方法、装置、节点及系统
US20150127608A1 (en) * 2013-11-01 2015-05-07 Cloudera, Inc. Manifest-based snapshots in distributed computing environments
US20150234712A1 (en) * 2014-02-18 2015-08-20 Ca, Inc. Methods of synchronizing files including synchronized hash map linked lists and related data processing nodes
CN107209714A (zh) * 2015-03-16 2017-09-26 株式会社日立制作所 分布式存储系统及分布式存储系统的控制方法
CN107239480A (zh) * 2016-03-28 2017-10-10 阿里巴巴集团控股有限公司 用于分布式文件系统执行重命名操作的方法和设备
CN105956110A (zh) * 2016-05-04 2016-09-21 北京思特奇信息技术股份有限公司 一种分布式文件同步系统及方法
CN107577434A (zh) * 2017-09-14 2018-01-12 郑州云海信息技术有限公司 存储节点的容量获取方法、装置、设备及可读存储介质
CN107632926A (zh) * 2017-09-18 2018-01-26 郑州云海信息技术有限公司 业务数量统计方法、装置、设备及计算机可读存储介质
CN107704633A (zh) * 2017-11-01 2018-02-16 郑州云海信息技术有限公司 一种文件迁移的方法和系统
CN108696595A (zh) * 2018-05-28 2018-10-23 郑州云海信息技术有限公司 分布式集群数据同步方法、主节点、从节点、系统及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DEEPAVALI BHAGWAT等: "Extreme Binning: Scalable, parallel deduplication for chunk-based file backup", 《IEEE》 *
冯周等: "大数据存储技术进展", 《科研信息化技术与应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115906749A (zh) * 2023-02-09 2023-04-04 深圳鸿芯微纳技术有限公司 数据处理方法、装置、终端设备及存储介质
CN115906749B (zh) * 2023-02-09 2023-06-27 深圳鸿芯微纳技术有限公司 数据处理方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
CN110515916B (zh) 2022-12-23

Similar Documents

Publication Publication Date Title
CN102982067B (zh) 以可重复方式遍历数据
US7117294B1 (en) Method and system for archiving and compacting data in a data storage array
US9767177B1 (en) System and method for optimizing data recovery in a parallel database
CN110096891B (zh) 对象库中的对象签名
US7672981B1 (en) Object classification and indexing of very large name spaces using grid technology
US8738668B2 (en) System and method for creating a de-duplicated data set
US8725687B2 (en) Systems and methods for byte-level or quasi byte-level single instancing
US20060218435A1 (en) Method and system for a consumer oriented backup
CN102360410B (zh) 一种文件系统的用户操作发现方法和装置
US8335900B2 (en) Converting backup copies of objects created using a first backup program to backup copies created using a second backup program
CN107908503A (zh) 从备份系统流式恢复数据库
CN105718548A (zh) 基于去重复存储系统中用于可扩展引用管理的系统和方法
US20090276476A1 (en) Peer-to-peer data archiving and retrieval system
JP2009522677A (ja) ノードの番号付けによるファイル・システムのダンプ/復元のための方法、システム、およびデバイス
CN105302922B (zh) 一种分布式文件系统快照实现方法
CN111522791B (zh) 一种分布式文件重复数据删除系统及方法
US20060026567A1 (en) Distribution of data/metadata in a version control system
EP3830709B1 (en) Distributed recovery of server information
CN110515916A (zh) 一种主从分布式文件处理方法、主节点、从节点及系统
US20050114323A1 (en) Computer systems and methods for operating a computer system
CN106250265A (zh) 用于对象存储的数据备份方法和系统
EP2372552A1 (en) Automated relocation of in-use multi-site protected data storage
CN108829813A (zh) 一种基于分布式存储系统的文件快照方法及系统
CN107291579A (zh) 一种基于静态子树分区的元数据集群文件快照方法
US10061654B1 (en) Depth first search of summary change log records for backup

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant