CN111913925A - 一种分布式存储系统中的数据处理方法及系统 - Google Patents

一种分布式存储系统中的数据处理方法及系统 Download PDF

Info

Publication number
CN111913925A
CN111913925A CN201910379417.6A CN201910379417A CN111913925A CN 111913925 A CN111913925 A CN 111913925A CN 201910379417 A CN201910379417 A CN 201910379417A CN 111913925 A CN111913925 A CN 111913925A
Authority
CN
China
Prior art keywords
fragment
current
operation log
statistical information
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910379417.6A
Other languages
English (en)
Other versions
CN111913925B (zh
Inventor
孙细妹
苏学敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Wangsu Co Ltd
Original Assignee
Xiamen Wangsu Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Wangsu Co Ltd filed Critical Xiamen Wangsu Co Ltd
Priority to CN201910379417.6A priority Critical patent/CN111913925B/zh
Publication of CN111913925A publication Critical patent/CN111913925A/zh
Application granted granted Critical
Publication of CN111913925B publication Critical patent/CN111913925B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1724Details of de-fragmentation performed by the file system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式存储系统中的数据处理方法及系统,所述方法包括:分别创建各个分片的元数据处理任务,其中,当前分片的元数据处理任务中至少包括所述当前分片的分片标识;在执行所述当前分片的元数据处理任务时,读取所述当前分片的分片统计信息,并基于所述当前分片的分片标识,从操作日志集合中读取属于所述当前分片的操作日志;依次处理读取的各个所述操作日志,并根据处理结果更新所述当前分片的分片统计信息。本申请提供的技术方案,能够提高系统的稳定性和整体性能。

Description

一种分布式存储系统中的数据处理方法及系统
技术领域
本发明涉及互联网技术领域,特别涉及一种分布式存储系统中的数据处理方法及系统。
背景技术
在当前的分布式存储系统中,存储桶(bucket)的元数据可以存储于bucket index的数据结构中。在传统的分布式存储系统中,单个存储桶的元数据可以全部存储于同一个分片(shard)文件中。然而,随着存储桶中文件数据的不断增加,分片文件的数据量也在不断增加。过大体积的分片文件,会导致底层存储性能消耗严重、一致性校验过程耗时较长等一系列问题。
鉴于此,目前可以将同一个存储桶划分为多个分片,并在这多个分片中分别存储一部分元数据。具体地,如图1所示,现有的分布式存储系统可以通过omap来实现不同的分片,omap可以存放元数据的文件,当用户想要上传某个目标文件时,分布式存储系统可以选定一个文件存储网关(RGW,Rados GateWay),并通过选定的文件存储网关来确定,该目标文件的元数据应当被存放入哪个omap中。
现有的这种通过omap来实现分片的方式,在创建存储桶的时候,就需要确定应当创建多少个omap对象,后续可以根据创建的omap对象来管理各个分片的数据。随着存储桶内数据的不断变化,后期很可能会需要增加或者减少omap对象。然而在增加或者减少omap对象时,为了不影响正常的分片数据业务,需要将整个系统设置为离线状态,这样无疑会影响用户的使用体验。此外,一开始需要创建的omap对象的数量也很难确定:omap对象的数量过少,会影响文件并发上传的性能;omap对象的数量过多,会影响存储桶的列表性能。因此,现有的通过omap来实现分片的方式,会导致系统不够稳定,而且系统的整体性能很难调整至最优状态。
发明内容
本申请的目的在于提供一种分布式存储系统中的数据处理方法及系统,能够提高系统的稳定性和整体性能。
为实现上述目的,本申请一方面提供一种分布式存储系统中的数据处理方法,所述分布式存储系统中包含至少一个存储桶,每个所述存储桶被划分为预设数量的分片,并且各个所述分片具备各自的分片统计信息;所述方法包括:分别创建各个所述分片的元数据处理任务,其中,当前分片的元数据处理任务中至少包括所述当前分片的分片标识;在执行所述当前分片的元数据处理任务时,读取所述当前分片的分片统计信息,并基于所述当前分片的分片标识,从操作日志集合中读取属于所述当前分片的操作日志;依次处理读取的各个所述操作日志,并根据处理结果更新所述当前分片的分片统计信息。
为实现上述目的,本申请另一方面还提供一种分布式存储系统中的数据处理系统,所述分布式存储系统中包含至少一个存储桶,每个所述存储桶被划分为预设数量的分片,并且各个所述分片具备各自的分片统计信息;所述数据处理系统包括:任务创建单元,用于分别创建各个所述分片的元数据处理任务,其中,当前分片的元数据处理任务中至少包括所述当前分片的分片标识;任务执行单元,用于在执行所述当前分片的元数据处理任务时,读取所述当前分片的分片统计信息,并基于所述当前分片的分片标识,从操作日志集合中读取属于所述当前分片的操作日志;日志处理单元,用于依次处理读取的各个所述操作日志,并根据处理结果更新所述当前分片的分片统计信息。
由上可见,本申请提供的技术方案,并不需要通过omap的方式来实现分片,因此在创建存储桶时,可以自由定义分片的数量。另外,各个分片可以通过分片统计信息进行管理,在调整分片数量时,只需对应地增加或者删除分片统计信息即可。在对分片的元数据进行处理时,可以分别创建各个分片的元数据处理任务,然后,在执行当前分片的元数据处理任务时,可以读取当前分片的分片统计信息,并可以从操作日志集合中读取属于所述当前分片的操作日志。最终,可以依次处理读取的各个所述操作日志,并根据处理结果更新所述当前分片的分片统计信息,从而完成对分片的元数据进行更新的过程。因此,本申请提供的技术方案,能够提高系统的稳定性和整体性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术中的分布式存储系统的结构示意图;
图2是本发明实施方式中分布式存储系统的结构示意图;
图3是本发明实施方式中的分片示意图;
图4是本发明实施方式中的数据处理方法步骤图;
图5是本发明实施方式中的分片区间示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本申请提供一种分布式存储系统中的数据处理方法。请参阅图2,所述分布式存储系统中各个文件的元数据均可以存储于持久化数据库中。该持久化数据库例如可以是MongoDB。如图2所示,所述分布式存储系统中可以包括多个RGW,当用户客户端需要上传某个文件时,可以通过其中的一个RGW提供的接口,将文件的实际数据以及文件的元数据存储于所述持久化数据库中。
在所述分布式存储系统中,用户可以创建和管理自身的存储桶,所述存储桶可以被划分为预设数量的分片。与所述存储桶相关的各项信息,均可以存储于上述的持久化数据库中。具体地,与所述存储桶相关的信息可以包括:操作日志集合、元数据信息集合、用于记载指定参数统计信息的头部字段、各个分片的分片统计信息等。所述指定参数可以指文件数量和/或文件所占的数据量。该指定参数也可以被称为存储桶的总计费值。其中,当该用户的客户端向分布式存储系统发送文件处理请求时,分布式存储系统可以针对该文件处理请求生成操作日志,并且可以将该操作日志存放于用户的存储桶对应的操作日志集合中。所述元数据信息集合中,可以记录位于所述存储桶内的各个文件的元数据信息。所述元数据信息可以包括文件大小、文件修改时间、文件拥有者、文件标签等多种信息。所述头部字段则可以记录所述存储桶的总计费值。所述总计费值例如可以包括所述存储桶内的文件总数、所述存储桶内文件所占的总数据空间等。所述各个分片的分片统计信息,则可以记录各个分片的计费值。例如,所述分片统计信息可以记录当前分片内的文件总数,以及当前分片内文件所占的总数据空间等。
请参阅图3,操作日志集合中的操作日志,可以根据当前的分片数量进行分组。如图3所示,假设存储桶当前被划分为两个分片,而该存储桶的操作日志集合中有8条待处理的操作日志,那么这8条待处理的操作日志可以被分为两组,分别对应划分的两个分片。
在本实施方式中,当分布式存储系统接收到用户客户端发来的指向目标文件的文件处理请求后,可以通过哈希算法计算所述目标文件的哈希值。然后,在针对该文件处理请求生成操作日志时,可以将计算得到的所述哈希值写入所述操作日志的指定字段中。所述指定字段例如可以是key_hash字段。这样便可以生成一条携带哈希值的操作日志,该携带哈希值的操作日志可以被写入上述的操作日志集合中。
请参阅图4,本申请提供的一种分布式存储系统中的数据处理方法,可以包括以下步骤。
S11:分别创建各个所述分片的元数据处理任务,其中,当前分片的元数据处理任务中至少包括所述当前分片的分片标识。
在本实施方式中,负责处理操作日志的调度线程可以针对所述存储桶划分的各个分片,分别创建元数据处理任务。在创建的各个所述元数据处理任务中,均可以携带所述存储桶的描述信息。该描述信息例如可以包括所述存储桶的创建者、创建时间等。此外,针对当前分片的元数据处理任务而且,还可以携带所述当前分片的分片标识。这样,通过分片标识可以区分不同的元数据处理任务。
在本实施方式中,所述分片标识可以是分片的编号。在一个应用示例中,所述分片的编号可以从0开始逐渐递增。例如,第一个分片的分片标识可以是0,第二个分片的分片标识可以是1,以此类推。当然,随着实际应用场景的变化,所述分片标识的形式也可以多种多样,本申请对此并不做限定。
S13:在执行所述当前分片的元数据处理任务时,读取所述当前分片的分片统计信息,并基于所述当前分片的分片标识,从操作日志集合中读取属于所述当前分片的操作日志。
在本实施方式中,存储桶的每个分片,都可以具备各自的worker线程(工作线程),该worker线程可以接收并执行当前分片的元数据处理任务。具体地,具体地,多个分片可以由多个worker线程负责处理,假设有1-20个分片,配置的worker线程数是40,那么同时并发执行的worker线程有20,还有20个worker线程当前会空闲。所以在同一时刻,各个分片的元数据处理任务由自身唯一的工作线程执行。在执行当前分片的元数据处理任务时,首先可以根据元数据处理任务中携带的分片标识,从分片统计信息集合中查询所述当前分片的分片标识指向的分片统计信息,并将查询得到的所述分片统计信息作为所述当前分片的分片统计信息。这样,worker线程可以读取到所述当前分片的分片统计信息。此外,worker线程还可以根据所述当前分片的分片标识,从操作日志集合中筛选出属于所述当前分片的操作日志。操作日志集合中的每条操作日志,均可以携带计算得到的哈希值,worker线程可以根据该哈希值,来判断当前的操作日志是否属于当前分片。具体地,worker线程可以遍历所述操作日志集合中的每条操作日志,并针对当前操作日志,识别所述当前操作日志的指定字段中填写的哈希值。然后,可以将识别的所述哈希值对所述预设数量进行取模运算(mod),若分片标识是按照从0开始的编号方式,那么取模运算的结果只可能是多个分片标识中的一个。那么,若取模运算的结果与所述当前分片的分片标识相匹配,则可以将所述当前操作日志作为属于所述当前分片的操作日志。相反,若取模运算的结果与所述当前分片的分片标识不匹配,则表示所述当前操作日志不属于所述当前分片。
S15:依次处理读取的各个所述操作日志,并根据处理结果更新所述当前分片的分片统计信息。
在本实施方式中,按照上述的方式,worker线程可以从操作日志集合中筛选出属于当前分片的各个操作日志,并可以按照操作日志的生成时间,依次处理各个操作日志。
具体地,在对操作日志进行处理时,针对读取的当前操作日志,可以从所述当前操作日志中提取待处理的目标文件的元数据信息,该元数据信息可以表示经过所述当前操作日志处理之后的目标文件的元数据信息。这样,在提取出所述目标文件的元数据信息后,可以将提取的所述元数据信息写入所述存储桶的元数据信息集合中。
此外,根据当前操作日志的类型的不同,还可以对当前分片的分片统计信息进行不同的处理。具体地,若当前操作日志为上传新文件的上传操作日志,那么可以在所述当前操作日志中识别所述新文件的指定参数统计值,并将识别出的所述指定参数统计值累加至所述当前分片的分片统计信息中。所述当前分片的分片统计信息中可以记录处于所述当前分片内的各个文件的指定参数统计总值,因此,当需要在所述当前分片内写入新文件时,则需要将该新文件的指定参数统计值累加至分片统计信息中。类似地,若读取的当前操作日志为修改已存储文件的修改操作日志,则可以在所述当前操作日志中识别所述已存储文件修改后的指定参数统计值,并在所述当前分片的分片统计信息中,将所述已存储文件当前的指定参数统计值修改为识别出的所述修改后的指定参数统计值。另外,若读取的当前操作日志为删除已存储文件的删除操作日志,则可以在所述当前操作日志中识别待删除的所述已存储文件的指定参数统计值,并在所述当前分片的分片统计信息中,将识别出的所述指定参数统计值扣除。上述的指定参数统计值,在实际应用中可以指文件的数据量。
在本实施方式中,当前分片的分片统计信息还可以统计处于所述当前分片内的文件的总数量。因此,若读取的当前操作日志为上传新文件的上传操作日志,可以在所述当前分片的分片统计信息中增加文件个数。具体地,如果上传的新文件的数量为1,那么便可以在分片统计新型中将文件个数加1。若读取的当前操作日志为修改已存储文件的修改操作日志,可以保持所述当前分片的分片统计信息中的文件总数不变。若读取的当前操作日志为删除已存储文件的删除操作日志,可以在所述当前分片的分片统计信息中减少文件个数。具体地,如果删除的新文件的数量为1,那么便可以在分片统计新型中将文件个数减1。
这样,当worker线程逐一处理完属于当前分片的各个操作日志后,可以同步地对当前分片的分片统计信息完成更新。最终,worker线程可以将更新后的分片统计信息写入分片统计信息集合中,以替换所述当前分片更新前的分片统计信息。至此,worker线程便完成了所述当前分片的元数据处理任务,此时,worker线程可以通知上述的调度线程,表示本次的元数据处理任务已经完成,并等待接收所述当前分片的下一个元数据处理任务。
在一个实施方式中,上述的worker线程还可以处理一个分片区间内的多个分片的元数据处理任务。这样,每个worker线程可以具备自身的分片区间,每个worker线程可以执行属于自身的分片区间内的元数据处理任务。具体地,所述存储桶的分片可以进一步划分为多个分片区间,每个分片区间可以由起始分片标识和终止分片标识来限定。例如,存储桶当前共划分为8个分片,而这8个分片可以进一步划分为3个分片区间,这3个分片区间可以表示为[0,2]、[3,5]、[6,7]。这样,最终可以通过三个worker线程来处理这8个分片的元数据处理任务。请参阅图5,操作日志集合中的操作日志,最终便可以由这3个worker线程来执行。
在实际应用中,分片区间的范围可以灵活设置。例如,当系统的处理性能不足时,可以适当减小分片区间的范围,使得每个worker线程需要执行的元数据处理任务不会过多。而当系统的处理性能充足时,可以适当增加分片区间的范围,使得每个worker线程需要执行的元数据处理任务增多。
本申请还提供一种分布式存储系统中的数据处理系统,所述分布式存储系统中包含至少一个存储桶,每个所述存储桶被划分为预设数量的分片,并且各个所述分片具备各自的分片统计信息;所述数据处理系统包括:
任务创建单元,用于分别创建各个所述分片的元数据处理任务,其中,当前分片的元数据处理任务中至少包括所述当前分片的分片标识;
任务执行单元,用于在执行所述当前分片的元数据处理任务时,读取所述当前分片的分片统计信息,并基于所述当前分片的分片标识,从操作日志集合中读取属于所述当前分片的操作日志;
日志处理单元,用于依次处理读取的各个所述操作日志,并根据处理结果更新所述当前分片的分片统计信息。
在一个实施方式中,所述任务执行单元包括:
哈希值识别模块,用于遍历所述操作日志集合中的每条操作日志,并针对当前操作日志,识别所述当前操作日志的指定字段中填写的哈希值;
取模运算模块,用于将识别的所述哈希值对所述预设数量进行取模运算,若取模运算的结果与所述当前分片的分片标识相匹配,将所述当前操作日志属于所述当前分片的操作日志。
在一个实施方式中,所述任务执行单元包括:
分片标识查询模块,用于在分片统计信息集合中查询所述当前分片的分片标识指向的分片统计信息,并将查询得到的所述分片统计信息作为所述当前分片的分片统计信息。
在一个实施方式中,所述日志处理单元包括:
元数据信息写入模块,用于针对读取的当前操作日志,从所述当前操作日志中提取待处理的目标文件的元数据信息,并将提取的所述元数据信息写入所述存储桶的元数据信息集合中。
在一个实施方式中,所述系统还包括:
多线程处理单元,用于将各个所述分片的元数据处理任务通过多个工作线程执行;其中,同一时刻,各个分片的元数据处理任务由自身唯一的工作线程执行。
由上可见,本申请提供的技术方案,并不需要通过omap的方式来实现分片,因此在创建存储桶时,可以自由定义分片的数量。另外,各个分片可以通过分片统计信息进行管理,在调整分片数量时,只需对应地增加或者删除分片统计信息即可。在对分片的元数据进行处理时,可以分别创建各个分片的元数据处理任务,然后,在执行当前分片的元数据处理任务时,可以读取当前分片的分片统计信息,并可以从操作日志集合中读取属于所述当前分片的操作日志。最终,可以依次处理读取的各个所述操作日志,并根据处理结果更新所述当前分片的分片统计信息,从而完成对分片的元数据进行更新的过程。因此,本申请提供的技术方案,能够提高系统的稳定性和整体性能。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种分布式存储系统中的数据处理方法,所述分布式存储系统中包含至少一个存储桶,其特征在于,每个所述存储桶被划分为预设数量的分片,并且各个所述分片具备各自的分片统计信息;所述方法包括:
分别创建各个所述分片的元数据处理任务,其中,当前分片的元数据处理任务中至少包括所述当前分片的分片标识;
在执行所述当前分片的元数据处理任务时,读取所述当前分片的分片统计信息,并基于所述当前分片的分片标识,从操作日志集合中读取属于所述当前分片的操作日志;
依次处理读取的各个所述操作日志,并根据处理结果更新所述当前分片的分片统计信息。
2.根据权利要求1所述的方法,其特征在于,所述操作日志集合中的操作日志按照以下方式生成:
接收用户客户端发来的指向目标文件的文件处理请求,并计算所述目标文件的哈希值;
生成所述文件处理请求对应的操作日志,并将计算得到的所述哈希值写入所述操作日志的指定字段中。
3.根据权利要求1或2所述的方法,其特征在于,基于所述当前分片的分片标识,从操作日志集合中读取属于所述当前分片的操作日志包括:
遍历所述操作日志集合中的每条操作日志,并针对当前操作日志,识别所述当前操作日志的指定字段中填写的哈希值;
将识别的所述哈希值对所述预设数量进行取模运算,若取模运算的结果与所述当前分片的分片标识相匹配,将所述当前操作日志作为属于所述当前分片的操作日志。
4.根据权利要求1所述的方法,其特征在于,读取所述当前分片的分片统计信息包括:
在分片统计信息集合中查询所述当前分片的分片标识指向的分片统计信息,并将查询得到的所述分片统计信息作为所述当前分片的分片统计信息。
5.根据权利要求1所述的方法,其特征在于,根据处理结果更新所述当前分片的分片统计信息包括:
若读取的当前操作日志为上传新文件的上传操作日志,在所述当前操作日志中识别所述新文件的指定参数统计值,并将识别出的所述指定参数统计值累加至所述当前分片的分片统计信息中;
若读取的当前操作日志为修改已存储文件的修改操作日志,在所述当前操作日志中识别所述已存储文件修改后的指定参数统计值,并在所述当前分片的分片统计信息中,将所述已存储文件当前的指定参数统计值修改为识别出的所述修改后的指定参数统计值;
若读取的当前操作日志为删除已存储文件的删除操作日志,在所述当前操作日志中识别待删除的所述已存储文件的指定参数统计值,并在所述当前分片的分片统计信息中,将识别出的所述指定参数统计值扣除。
6.根据权利要求1或5所述的方法,其特征在于,根据处理结果更新所述当前分片的分片统计信息还包括:
若读取的当前操作日志为上传新文件的上传操作日志,在所述当前分片的分片统计信息中增加文件个数;
若读取的当前操作日志为修改已存储文件的修改操作日志,保持所述当前分片的分片统计信息中的文件个数不变;
若读取的当前操作日志为删除已存储文件的删除操作日志,在所述当前分片的分片统计信息中减少文件个数。
7.根据权利要求1所述的方法,其特征在于,依次处理读取的各个所述操作日志包括:
针对读取的当前操作日志,从所述当前操作日志中提取待处理的目标文件的元数据信息,并将提取的所述元数据信息写入所述存储桶的元数据信息集合中。
8.根据权利要求1所述的方法,其特征在于,各个所述分片的元数据处理任务通过多个工作线程执行;其中,同一时刻,各个分片的元数据处理任务由自身唯一的工作线程执行。
9.一种分布式存储系统中的数据处理系统,所述分布式存储系统中包含至少一个存储桶,其特征在于,每个所述存储桶被划分为预设数量的分片,并且各个所述分片具备各自的分片统计信息;所述数据处理系统包括:
任务创建单元,用于分别创建各个所述分片的元数据处理任务,其中,当前分片的元数据处理任务中至少包括所述当前分片的分片标识;
任务执行单元,用于在执行所述当前分片的元数据处理任务时,读取所述当前分片的分片统计信息,并基于所述当前分片的分片标识,从操作日志集合中读取属于所述当前分片的操作日志;
日志处理单元,用于依次处理读取的各个所述操作日志,并根据处理结果更新所述当前分片的分片统计信息。
10.根据权利要求9所述的系统,其特征在于,所述任务执行单元包括:
哈希值识别模块,用于遍历所述操作日志集合中的每条操作日志,并针对当前操作日志,识别所述当前操作日志的指定字段中填写的哈希值;
取模运算模块,用于将识别的所述哈希值对所述预设数量进行取模运算,若取模运算的结果与所述当前分片的分片标识相匹配,将所述当前操作日志属于所述当前分片的操作日志。
11.根据权利要求9所述的系统,其特征在于,所述任务执行单元包括:
分片标识查询模块,用于在分片统计信息集合中查询所述当前分片的分片标识指向的分片统计信息,并将查询得到的所述分片统计信息作为所述当前分片的分片统计信息。
12.根据权利要求9所述的系统,其特征在于,所述日志处理单元包括:
元数据信息写入模块,用于针对读取的当前操作日志,从所述当前操作日志中提取待处理的目标文件的元数据信息,并将提取的所述元数据信息写入所述存储桶的元数据信息集合中。
13.根据权利要求9所述的系统,其特征在于,所述系统还包括:
多线程处理单元,用于将各个所述分片的元数据处理任务通过多个工作线程执行;其中,同一时刻,各个分片的元数据处理任务由自身唯一的工作线程执行。
CN201910379417.6A 2019-05-08 2019-05-08 一种分布式存储系统中的数据处理方法及系统 Active CN111913925B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910379417.6A CN111913925B (zh) 2019-05-08 2019-05-08 一种分布式存储系统中的数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910379417.6A CN111913925B (zh) 2019-05-08 2019-05-08 一种分布式存储系统中的数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN111913925A true CN111913925A (zh) 2020-11-10
CN111913925B CN111913925B (zh) 2023-08-18

Family

ID=73242056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910379417.6A Active CN111913925B (zh) 2019-05-08 2019-05-08 一种分布式存储系统中的数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN111913925B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380276A (zh) * 2021-01-15 2021-02-19 四川新网银行股份有限公司 一种分布式系统分库分表后非分片键字段查询数据的方法
CN113419828A (zh) * 2021-05-31 2021-09-21 济南浪潮数据技术有限公司 一种对象存储的生命周期管理方法和系统
CN114546977A (zh) * 2022-02-17 2022-05-27 苏州浪潮智能科技有限公司 一种提高分布式对象存储系统中桶日志性能的方法及系统
CN116132458A (zh) * 2022-12-09 2023-05-16 网易(杭州)网络有限公司 业务数据的处理方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140055489A (ko) * 2012-10-31 2014-05-09 삼성에스디에스 주식회사 메타데이터 및 트랜잭션 발생량을 고려한 동적 샤딩 기능을 지원하는 분산 데이터베이스 관리 방법 및 그 구성 노드
CN105260136A (zh) * 2015-09-24 2016-01-20 北京百度网讯科技有限公司 数据读写方法及分布式存储系统
CN106372160A (zh) * 2016-08-31 2017-02-01 天津南大通用数据技术股份有限公司 一种分布式数据库及管理方法
CN106534261A (zh) * 2016-10-09 2017-03-22 乐视控股(北京)有限公司 数据写入方法、装置及系统
CN109144785A (zh) * 2018-08-27 2019-01-04 北京百度网讯科技有限公司 用于备份数据的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140055489A (ko) * 2012-10-31 2014-05-09 삼성에스디에스 주식회사 메타데이터 및 트랜잭션 발생량을 고려한 동적 샤딩 기능을 지원하는 분산 데이터베이스 관리 방법 및 그 구성 노드
CN105260136A (zh) * 2015-09-24 2016-01-20 北京百度网讯科技有限公司 数据读写方法及分布式存储系统
CN106372160A (zh) * 2016-08-31 2017-02-01 天津南大通用数据技术股份有限公司 一种分布式数据库及管理方法
CN106534261A (zh) * 2016-10-09 2017-03-22 乐视控股(北京)有限公司 数据写入方法、装置及系统
CN109144785A (zh) * 2018-08-27 2019-01-04 北京百度网讯科技有限公司 用于备份数据的方法和装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380276A (zh) * 2021-01-15 2021-02-19 四川新网银行股份有限公司 一种分布式系统分库分表后非分片键字段查询数据的方法
CN112380276B (zh) * 2021-01-15 2021-09-07 四川新网银行股份有限公司 一种分布式系统分库分表后非分片键字段查询数据的方法
CN113419828A (zh) * 2021-05-31 2021-09-21 济南浪潮数据技术有限公司 一种对象存储的生命周期管理方法和系统
CN113419828B (zh) * 2021-05-31 2022-07-29 济南浪潮数据技术有限公司 一种对象存储的生命周期管理方法和系统
CN114546977A (zh) * 2022-02-17 2022-05-27 苏州浪潮智能科技有限公司 一种提高分布式对象存储系统中桶日志性能的方法及系统
CN114546977B (zh) * 2022-02-17 2024-01-16 苏州浪潮智能科技有限公司 一种提高分布式对象存储系统中桶日志性能的方法及系统
CN116132458A (zh) * 2022-12-09 2023-05-16 网易(杭州)网络有限公司 业务数据的处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN111913925B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN111913909B (zh) 一种分布式存储系统中的重新分片方法及系统
CN111913925B (zh) 一种分布式存储系统中的数据处理方法及系统
US10740308B2 (en) Key_Value data storage system
CN108874803B (zh) 数据存储方法、装置及存储介质
CN102495894A (zh) 重复数据查找方法、装置及系统
WO2020263371A1 (en) Metadata compaction in a distributed storage system
EP4105793A1 (en) Signature-based cache optimization for data preparation
US10642815B2 (en) Step editor for data preparation
KR101744892B1 (ko) 시계열 계층 인덱싱을 이용한 데이터 검색 시스템 및 데이터 검색 방법
CN111782134B (zh) 数据处理方法、装置、系统和计算机可读存储介质
CN106407224A (zh) 一种键值存储系统中文件压实的方法和装置
CN108241615A (zh) 数据去重方法和装置
CN110955704A (zh) 一种数据管理方法、装置、设备及存储介质
US20240104059A1 (en) Method for Service Processing and System, Device, and Medium
CN106708822B (zh) 一种文件存储方法和装置
US20170031959A1 (en) Scheduling database compaction in ip drives
CN111694505B (zh) 数据存储管理方法、装置和计算机可读存储介质
CN103858125A (zh) 重复数据处理方法、装置及存储控制器和存储节点
CN102724301B (zh) 云数据库系统以及云数据读写处理方法、设备
CN102760168B (zh) 碎片文件扫描的方法及装置
CN101923553A (zh) Fat文件系统的安装方法
JP5655764B2 (ja) サンプリング装置、サンプリングプログラム、およびその方法
CN102567544A (zh) 数据库查询方法及装置
CN113360551B (zh) 一种靶场中时序数据的存储与快速统计方法及系统
CN113835613B (zh) 一种文件读取方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant