CN111782632A - 数据处理方法、装置、设备和存储介质 - Google Patents

数据处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN111782632A
CN111782632A CN202010600582.2A CN202010600582A CN111782632A CN 111782632 A CN111782632 A CN 111782632A CN 202010600582 A CN202010600582 A CN 202010600582A CN 111782632 A CN111782632 A CN 111782632A
Authority
CN
China
Prior art keywords
data
physical
physical address
group
fragments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010600582.2A
Other languages
English (en)
Inventor
张安站
曲晶莹
刘伟
刘畅
陈正亮
万广弟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010600582.2A priority Critical patent/CN111782632A/zh
Priority to JP2021546329A priority patent/JP7279174B2/ja
Priority to US17/593,128 priority patent/US11847161B2/en
Priority to KR1020227036112A priority patent/KR20220154228A/ko
Priority to PCT/CN2020/121143 priority patent/WO2022000851A1/zh
Priority to EP20916237.9A priority patent/EP3958141A4/en
Publication of CN111782632A publication Critical patent/CN111782632A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/278Data partitioning, e.g. horizontal or vertical partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了数据处理方法、装置、设备和存储介质,涉及云计算和云平台技术领域。具体实现方案为:根据从排序工具获取的第一数据的逻辑信息,确定第一物理地址;其中,所述第一物理地址为与所述第一数据关联的物理数据群组中数据分片的物理地址;向所述排序工具发送所述第一物理地址,使所述排序工具根据所述第一物理地址对所述第一数据进行排序。本申请能够提高数据处理效率。

Description

数据处理方法、装置、设备和存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及云计算和云平台技术领域,具体涉及一种数据处理方法、装置、设备和存储介质。
背景技术
目前搜索、推荐成为用户内容消费的主流方式,不管是图文内容,还是小视频、短视频和长视频等新媒体内容,都需要将这些超大规模的海量数据存储起来、索引起来,以高效的通过搜索、推荐等方式分发给用户使用。随着内容数据的快速增长,传统的数据管理方式的可扩展性受到制约,不得不通过更高的机器成本、更高的运维成本来保证线上的高可用和高性能。
发明内容
本公开提供了一种用于数据处理方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种数据处理方法,包括:
根据从排序工具获取的第一数据的逻辑信息,确定第一物理地址;其中,所述第一物理地址为与所述第一数据关联的物理数据群组中数据分片的物理地址;
向所述排序工具发送所述第一物理地址,使所述排序工具根据所述第一物理地址对所述第一数据进行排序。
根据本公开的一方面,提供了一种数据处理方法,包括:
向数据处理方发送第一数据的逻辑信息,使所述数据处理方根据所述第一数据的逻辑信息确定第一物理地址;其中,所述第一物理地址为与所述第一数据关联的物理数据群组中数据分片的物理地址;
根据所述第一物理地址对所述第一数据进行排序。
根据本公开的一方面,提供了一种数据处理装置,包括:
第一地址确定模块,用于根据从排序工具获取的第一数据的逻辑信息,确定第一物理地址;其中,所述第一物理地址为与所述第一数据关联的物理数据群组中数据分片的物理地址;
第一地址发送模块,用于向所述排序工具发送所述第一物理地址,使所述排序工具根据所述第一物理地址对所述第一数据进行排序。
根据本公开的一方面,提供了一种数据处理装置,包括:
逻辑信息发送模块,用于向数据处理方发送第一数据的逻辑信息,使所述数据处理方根据所述第一数据的逻辑信息确定第一物理地址;其中,所述第一物理地址为与所述第一数据关联的物理数据群组中数据分片的物理地址;
数据排序模块,用于根据所述第一物理地址对所述第一数据进行排序。
根据第五方面,提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本申请实施例中任一项所述的数据处理方法。
根据第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如本申请实施例中任一项所述的数据处理方法。
根据本申请的技术能够提高数据处理的效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1a是根据本申请实施例提供的数据处理方法的流程示意图;
图1b是根据本申请实施例提供的物理资源池的结构示意图;
图2a是根据本申请实施例提供的一种数据处理方法的流程示意图;
图2b是根据本申请实施例提供的一种数据处理方的结构示意图;
图3a是根据本申请实施例提供的一种数据处理方法的流程示意图;
图3b是根据本申请实施例提供的一种数据处理方的结构示意图;
图4是根据本申请实施例提供的一种数据处理方法的流程示意图;
图5是根据本申请实施例提供的一种数据处理方法的流程示意图;
图6是根据本申请实施例提供的一种数据处理装置的结构示意图;
图7是根据本申请实施例提供的一种数据处理装置的结构示意图;
图8是根据本申请实施例提供的一种数据处理系统的结构示意图;
图9是用来实现本申请实施例的数据处理方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1a是根据本申请实施例提供的数据处理方法的流程示意图。本实施例可适用于提高数据的资源占用率情况。本实施例公开的数据处理方法可以由电子设备执行,具体可以由数据处理装置来执行,该装置可以由软件和/或硬件的方式实现,配置于电子设备中。参见图1a,本实施例提供的数据处理方法包括:
S110、根据从排序工具获取的第一数据的逻辑信息,确定第一物理地址;其中,所述第一物理地址为与所述第一数据关联的物理数据群组中数据分片的物理地址。
其中,排序工具可以为搜索引擎或推荐引擎中的排序模块,用于响应于用户访问请求,召回数据,且对召回的数据进行排序。为了便于召回,第一数据可以为业务内容的正排索引数据或倒排索引数据。其中,第一数据的逻辑信息可以为第一数据所属的业务领域下的业务类别信息。以诸如商品和小说之类的业务领域为例,商品可以进一步包括诸如购买、文章和大咖图像之类的业务类别,小说也进一步可以包括诸如玄幻、武侠和言情之类的业务类别。
本申请实施例中,每一业务领域可以有唯一的虚拟数据群组(data group),且可以为业务领域下不同业务类别分别构建不同物理数据群组,即一个虚拟数据群组可以关联有多个物理数据群组。物理数据群组用于存储关联业务类别下的内容数据;虚拟数据群组为逻辑概念,为了便于查看业务领域中各业务类别的整理数据量,没有具体内容数据。
根据物理数据群组的数据量,一个物理数据群组可以包括一个数据分片(datashard),也可以包括多个数据分片,每个数据分片用于存储一组索引数据。可以为数据分片分配实际的物理存储区,以及计算的CPU逻辑核,数据分片为可以独立提供服务的最小单位。需要说明的是,为数据分片分配的物理存储区的物理地址即为数据分片的物理地址,例如可以为数据分片所在物理存储区的id标识和IP(Internet Protocol,网际互连协议)地址。
具体的,排序工具可以根据用户访问请求确定待访问的第一数据的逻辑信息,且将第一数据的逻辑信息发送给数据处理方;数据处理方确定与第一数据关联的物理数据群组,且将该物理数据群组中数据分片的物理地址作为第一物理地址。通过提出虚拟数据群组、物理数据群组和数据分片之类的新数据形态,且确定新数据形态之间关联关系,能够简化数据的处理过程,从而提高数据处理效率。并且后续还能够便于动态对数据进行资源调整,提高资源利用率。
S120、向所述排序工具发送所述第一物理地址,使所述排序工具根据所述第一物理地址对所述第一数据进行排序。
其中,第一物理地址可以为与第一数据关联的物理数据群组中一个数据分片的物理地址,也可以为多个数据分片的物理地址。具体的,排序工具可以访问与第一物理地址关联的数据存储区,召回第一数据,且对召回的第一数据进行排序。
图1b是根据本申请实施例提供的物理资源池的结构示意图。参考图1b,物理资源池可以包括多个数据存储区(data store),一个数据容器(container)可以运行一个数据存储区,也可以运行多个数据存储区。根据资源的不同分配策略,一个数据存储区可以存储一个数据分片,也可以存储多个数据分片,且存储的多个数据分片可以属于不同物理数据群组。需要说明的是,数据的存储和数据容器是解耦的,因此数据实现了动态化管理,无需依赖人工操作,降低人力成本。
在一种可选实施方式中,相同所述物理数据群组中的数据分片存储于不同数据存储区中;相同所述数据存储区中存储有不同所述物理数据群组中的数据分片。通过采用亲和策略,为物理数据群组分配数据分片,无需受数据分组或数据存储区的约束,只需要从资源本身出发为数据分片分配数据存储区,能够提高数据处理的便捷性。
本申请实施例的技术方案,通过新数据形态对数据进行处理,能够提高数据处理的便捷性,并且提高数据的资源利用率。
图2a是根据本申请实施例提供的一种数据处理方法的流程示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图2a,本实施例提供的数据处理方法包括:
S210、通过数据控制器,根据从所述排序工具获取的第一数据的逻辑信息,确定所述第一数据的元数据,并向所述排序工具发送所述第一数据的元数据。
图2b是根据本申请实施例提供的一种数据处理方的结构示意图。如图2b所示,数据处理方可以包括数据控制器(data control panel)和数据库,其中数据控制器可以用于管理物理数据群组和数据分片,例如一个物理数据群组需要划分为几个数据分片,一个数据分片需要多少存储资源和计算资源。在数据量、流量调整时,数据控制器可以确定最佳分配方案,便于根据最佳分配方案动态进行物理资源的部署调整。具体的,数据控制器可以通过DCP SDK(Software Development Kit,软件开发工具包)与请求索引数据部分(如排序工具)和构建索引数据部分(如下文数据构建器)通信,进行物理数据群组中数据分片的调整,以及管理用户请求和物理数据群组的关联关系。
其中,第一数据的元数据可以为第一数据的元数据逻辑信息,第一数据的元数据不同,第一数据分片可以不同,即第一物理地址不同。
在一种可选实施方式中,第一数据的元数据为与所述第一数据关联的物理数据群组中数据分片的版本信息。具体的,在初始化过程中,根据与物理数据群组关联的业务类别的预估数据量,为物理数据群组分配n1个数据分片,随着数据量的动态调整或访问量的动态调整,将该物理数据群组中的数据分片调整为n2个,即该物理数据群组有两个不同数据分片的版本信息。需要说明的是,本申请实施例对物理数据群组的数据分片版本数量不作具体限定,可以以最新版本为准,也可以结合全量版本和增量版本配合使用。通过数据分片的版本信息便于在数据资源动态调整过程中快速确定数据的资源,从而进一步提高数据的处理效率。
具体的,数据控制器从排序工具获取第一数据的逻辑信息,并根据预设的逻辑信息与物理数据群组之间关联关系,确定与第一数据关联的物理数据群组(可以简称为第一物理数据群组),且确定第一物理数据群组的元数据。
S220、通过数据库,根据从所述排序工具获取的第一数据的元数据,确定所述第一物理地址。
参考图2b,数据库用于存储虚拟数据群组、物理数据群组、数据分片和物理地址之间的关联关系,数据的逻辑信息、数据的元数据和数据的物理地址之间关联关系。通过将元数据或逻辑信息与物理数据和数据控制器解耦,便于通过数据库快速管理资源,例如通过数据库快速查询虚拟数据群组的数据量,快速获取物理数据群组中最新版本数据分片,以及最新版本数据分片的物理地址。
具体的,将第一数据的元数据,与数据库中存储的关联关系进行匹配得到第一物理地址。
S230、向所述排序工具发送所述第一物理地址,使所述排序工具根据所述第一物理地址对所述第一数据进行排序。
本申请实施例的技术方案,通过数据控制器与数据库配合,能够进一步提高数据处理效率。
图3a是根据本申请实施例提供的一种数据处理方法的流程示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图3a,本实施例提供的数据处理方法包括:
S310、根据从排序工具获取的第一数据的逻辑信息,确定第一物理地址;其中,所述第一物理地址为与所述第一数据关联的物理数据群组中数据分片的物理地址。
S320、向所述排序工具发送所述第一物理地址,使所述排序工具根据所述第一物理地址对所述第一数据进行排序。
在一种可选实施方式中,所述第一物理地址包括与所述第一数据关联的物理数据分组中全量数据分片的全量物理地址和增量数据分片的增量物理地址,用于使所述排序工具根据所述增量物理地址和所述全量物理地址对所述第一数据进行排序。其中,增量数据分片可以为热点数据分配的新数据分片。通过将热点数据写入新数据分片,而无需进行整个物理数据群组的数据迁移。在线访问和离线数据构建时,返回热点数据的物理地址,排序工具可以优先访问增量数据分片,从而提高热点数据的访问效率。并且,还能够减少非热点数据的副本数量,从而减少资源占用。
S330、根据从数据构建器获取的第二数据的逻辑信息,确定第二物理地址;其中,所述第二物理地址为与所述第二数据关联的物理数据群组中数据分片的物理地址。
其中,数据构建器可以为索引内容构建器,第二数据的逻辑信息可以为。具体的,数据构建器从业务方获取第二数据(即业务数据)后,向数据处理方发送第二数据的逻辑信息可以为第二数据所属的业务领域下的业务类别信息。第二数据可以为第一数据,也可以为其他数据。
S340、向所述数据构建器发送所述第二物理地址,使所述数据构建器根据所述第二物理地址写入所述第二数据。
其中,第二物理地址可以为与第二数据关联的物理数据群组(简称为第二物理数据群组)中一个数据分片的物理地址,也可以为多个数据分片的物理地址。具体的,数据构建器对业务数据进行诸如数据解析、数据格式转换、策略计算和字段权重确定之类的处理得到业务数据的索引数据,且将索引数据写入第二物理地址关联的数据存储区中。需要说明的是,第二物理地址可以有多个数据分片的物理地址,可以基于负载均衡,将索引数据写入第二物理数据群的至少一个数据分片中。
通过根据物理数据群组、数据分片之类新数据形态写入索引数据,可以提高索引数据的写入效率,从而提高索引数据的访问效率。需要说明的是,S310和S320为数据访问操作,S330和S340为数据构建操作,数据访问操作与数据构建操作之间可以根据业务需求配合执行。
在一种可选实施方式中,S330包括:通过存储控制器,根据从所述数据构建器获取的第二数据的逻辑信息,确定所述第二数据的元数据,并向所述数据构建器发送所述第二数据的元数据;通过数据库,根据从所述数据构建器获取的第二数据的元数据,确定所述第二物理地址。
图3b是根据本申请实施例提供的一种数据处理方的结构示意图。如图3b所示,数据处理方可以包括数据控制器、数据库和存储控制器(store control panel),其中存储控制器用于根据数据控制器的资源分配方案动态进行物理资源的部署调整。通过数据控制器进行资源分配,存储控制器根据资源分配调整物理资源,数据库用于存储资源分配方案与物理资源方案,即将数据控制策略、数据物理分配和元数据解耦,进一步提高数据处理效率,使得业务无需关注物理存储。
在一种可选实施方式中,第二数据的元数据为与所述第二数据关联的物理数据群组中数据分片的版本信息。
需要说明的是,在业务领域或业务领域中业务类别初始化过程中,数据控制器确定资源分配方案,即确定业务领域的虚拟数据群组信息,为虚拟数据群组分配物理数据群组,为物理数据群组分配数据分片;存储控制器根据资源分配方案部署物理资源,即确定数据分片的物理地址。并且将资源分配方案和物理资源部署信息,即将虚拟数据群组、物理数据群组、数据分片和物理地址之间关联关系写入数据库中供构建器或排序工具使用。
本申请实施例的技术方案,通过数据处理方分别与排序工具和数据构建器配合,以虚拟数据群组、物理数据群组和数据分片等数据形态进行数据访问和数据构建,能够提高数据处理效率,且提高数据处理的便捷性。
图4是根据本申请实施例提供的一种数据处理方法的流程示意图。参见图4,本实施例提供的数据处理方法包括:
S410、根据从排序工具获取的第一数据的逻辑信息,确定第一物理地址;其中,所述第一物理地址为与所述第一数据关联的物理数据群组中数据分片的物理地址。
S420、向所述排序工具发送所述第一物理地址,使所述排序工具根据所述第一物理地址对所述第一数据进行排序。
S430、若检测到数据存储资源调整事件,则更新所述物理数据群组的存储资源,且更新所述物理数据群组中数据分片的物理地址。
根据数据的资源利用率或流量,确定是否生成数据存储资源调整事件。具体的,根据获取数据存储区的资源利用率、数据分片的资源利用率和数据的热度,确定是否进行物理资源扩容或缩容。若数据处理方包括数据控制器、数据库和存储控制器,数据控制器可以用于确定资源调整方案,存储控制器用于根据资源调整方案部署物理资源。通过动态更新数据资源,在数据规模有变化、用户消费流量有变化时,能够实现弹性自适应,在保障系统高可用和高性能的前提下,能够实现机器成本的极大降低,并且无需投入人力。
在一种可选实施方式中,S430包括:若检测到所述物理数据群组中原数据分片的资源利用率大于第一资源利用率阈值,则为所述物理数据群组中原数据分片创建关联的新数据分片;将所述原数据分片中的数据划分到所述原数据分片和所述新数据分片中,且将所述原数据分片和所述新数据分片的物理地址均作为所述物理数据群组中数据分片的物理地址。
其中,第一资源利用率阈值为资源利用率上限值,可以预先设置,例如可以为85%。若检测到物理数据群组中原数据分片的资源利用率大于第一资源利用率阈值,则增加物理数据群组的数据分片。为了实现低成本的不停服数据迁移,对数据分片数量按照倍数扩容,即新数据分片数量为原数据分片数量的整数倍,且每一原数据分片关联有至少一个新数据分片。通过将原数据分片中数据划分到原数据分片和关联的新数据分片中,在原数据分片中任一数据更新时,能够将该数据与该数据的更新数据写入同一数据分片,避免将该数据与该数据的更新数据写入不同数据分片导致的数据版本错乱,使得排序工具无需执行去重操作,即简化排序工具。
在数据迁移即数据分片扩容过程中,若数据构建器生成新内容数据,则对新内容数据双写,即将新内容数据既写入原数据分片又写入新数据分片。从而使原数据分片和新数据分片中均有新内容数据,即数据迁移过程中,以及数据迁移完成后均能够访问新内容数据。需要说明的是,若数据迁移完成,则将原数据分片和新数据分片的物理地址均作为物理数据群组中数据分片的物理地址,即更新物理数据群组中数据分片的版本信息。
在一种可选实施方式中,S430包括:若检测到所述物理数据群组中数据分片的资源利用率小于第二资源利用率阈值,则将所述物理数据群组中至少一个数据分片的数据合并到所述物理数据群组中其他数据分片中,且从所述物理数据群组中数据分片的物理地址中删除所述至少一个数据分片的物理地址。
其中,第二资源利用率阈值为资源利用率下限值,小于第一资源利用率阈值。若检测到物理数据群组中数据分片的资源利用率小于第二资源利用率阈值,则通过将物理数据群组中至少一个数据分片的数据合并到物理数据分组中其他数据分片中,缩减物理数据群组的数据分片数量,减少物理数据群组的资源占用。
需要说明的是,若数据迁移(即数据分片扩容或缩容)完成,则调整物理数据群组中数据分片的物理地址,相应地更新物理数据群组中数据分片的版本信息。
在一种可选实施方式中,S430包括:若所述物理数据分组中存在热点数据,则检测到所述数据存储资源调整事件;为所述物理数据群组创建增量数据分片,将所述热点数据写入所述增量数据分片中,且将所述物理数据群组中原数据分片作为所述物理数据群组的全量数据分片;添加所述物理数据群组中所述增量数据分片的物理地址。
通过将热点数据写入新数据分片,而无需进行整个物理数据群组的数据迁移。在线访问和离线数据构建时,数据控制器和存储控制器检测热点数据,会返回热点数据的物理地址,而无需返回物理数据群组中全量数据的物理地址,从而提高访问和写入的效率。并且,能够减少非热点数据的副本数量,从而减少资源占用。以某一流行玄幻小说为例,可以在玄幻小说关联的物理数据群组中为该流行玄幻小说构建增量数据分片,从而提高该流行玄幻小说的访问效率。
在一种可选实施方式中,S430包括:若检测到数据存储区的资源利用率大于第三资源利用率阈值,则创建新数据存储区;在所述新数据存储区中创建所述物理数据群组的新数据分片,且将所述新数据存储区的物理地址作为所述物理数据群组中新数据分片的物理地址。
其中,第三资源利用率阈值为资源利用率上限值。具体的,若检测到数据存储区资源较少时,即物理数据群组需要的物理存储空间超过当前数据存储区实际能够提供的存储空间阈值时,存储控制器能够动态扩建新数据存储区,并做动态数据的再平衡,从而实现数据存储区的动态调整。
本申请实施例的技术方案,通过在数据规模变化或用户流量变化时,通过弹性自适应性进行数据调整,提高数据资源利用率,降低机器成本。
图5是根据本申请实施例提供的一种数据处理方法的流程示意图。本实施例可适用于提高数据访问效率的情况。本实施例公开的数据处理方法可以由电子设备执行,具体可以由数据处理装置来执行,该装置可以由软件和/或硬件的方式实现,配置于电子设备中。参见图5,本实施例提供的数据处理方法包括:
S510、向数据处理方发送第一数据的逻辑信息,使所述数据处理方根据所述第一数据的逻辑信息确定第一物理地址;其中,所述第一物理地址为与所述第一数据关联的物理数据群组中数据分片的物理地址。
其中,第一数据的逻辑信息可以为第一数据所属的业务领域下的业务类别信息。以诸如商品和小说之类的业务领域为例,商品可以进一步包括诸如购买、文章和大咖图像之类的业务类别,小说也进一步可以包括诸如玄幻、武侠和言情之类的业务类别。
具体的,可以响应于用户访问请求,确定第一数据的逻辑信息,且向数据处理方发送所述第一数据的逻辑信息。
在一种可选实施方式中,S510可以包括:向所述数据处理方中数据控制器发送所述第一数据的逻辑信息,使所述数据控制器根据所述第一数据的逻辑信息确定所述第一数据的元数据;向所述数据处理方中数据库发送所述第一数据的元数据,使所述数据库根据所述第一数据的元数据确定所述第一物理地址。
其中,第一数据的元数据可以为第一数据的元数据逻辑信息,第一数据的元数据不同,第一数据分片可以不同,即第一物理不同。
在一种可选实施方式中,所述第一数据的元数据为与所述第一数据关联的物理数据群组中数据分片的版本信息。具体的,在每次重新调整物理数据群组的物理资源后,物理数据群组中数据分片的版本信息更新。
S520、根据所述第一物理地址对所述第一数据进行排序。
在一种可选实施方式中,所述第一物理地址包括与所述第一数据关联的物理数据分组中全量数据分片的全量物理地址和增量数据分片的增量物理地址;相应地,S520包括:根据所述增量物理地址获取所述第一数据;若获取失败,则根据所述全量物理地址获取所述第一数据;对获取的第一数据进行排序。
具体的,若第一数据为热点数据,则预先为第一数据构建增量数据分片,排序工具优先访问增量数据分片,若从增量数据分片中获取第一数据失败,再访问全量数据分片。若从增量数据分片中成功获取第一数据,则无需再访问全量数据分片,从而提高数据访问效率。需要说明的是,第一物理地址也可以只包括增量数据分片的增量物理地址。
本申请实施例的技术方案,排序工具根据新数据形态之间关系访问数据,能够提高数据访问效率,并且通过优先访问热点数据的增量数据分片进一步提高热点数据的访问效率,降低资源占用。
图6是根据本申请实施例提供的数据处理装置的结构示意图。参见图6,本申请实施例公开了数据处理装置600,该装置600可以配置于数据处理方中,该装置600可以包括:
第一地址确定模块601,用于根据从排序工具获取的第一数据的逻辑信息,确定第一物理地址;其中,所述第一物理地址为与所述第一数据关联的物理数据群组中数据分片的物理地址;
第一地址发送模块602,用于向所述排序工具发送所述第一物理地址,使所述排序工具根据所述第一物理地址对所述第一数据进行排序。
可选的,相同所述物理数据群组中的数据分片存储于不同数据存储区中;相同所述数据存储区中存储有不同所述物理数据群组中的数据分片。
可选的,第一地址确定模块601包括:
第一元数据单元,用于通过数据控制器,根据从所述排序工具获取的第一数据的逻辑信息,确定所述第一数据的元数据,并向所述排序工具发送所述第一数据的元数据;
第一地址确定单元,用于通过数据库,根据从所述排序工具获取的第一数据的元数据,确定所述第一物理地址。
可选的,所述第一数据的元数据为与所述第一数据关联的物理数据群组中数据分片的版本信息。
可选的,所述第一物理地址包括与所述第一数据关联的物理数据分组中全量数据分片的全量物理地址和增量数据分片的增量物理地址,用于使所述排序工具根据所述增量物理地址和所述全量物理地址对所述第一数据进行排序。
可选的,所述装置600还包括:
第二地址确定模块,用于根据从数据构建器获取的第二数据的逻辑信息,确定第二物理地址;其中,所述第二物理地址为与所述第二数据关联的物理数据群组中数据分片的物理地址;
第二地址发送模块,用于向所述数据构建器发送所述第二物理地址,使所述数据构建器根据所述第二物理地址写入所述第二数据。
可选,第二地址确定模块包括:
第二元数据单元,用于通过存储控制器,根据从所述数据构建器获取的第二数据的逻辑信息,确定所述第二数据的元数据,并向所述数据构建器发送所述第二数据的元数据;
第二地址确定单元,用于通过数据库,根据从所述数据构建器获取的第二数据的元数据,确定所述第二物理地址。
可选的,所述装置600还包括:
资源调整模块,用于若检测到数据存储资源调整事件,则更新所述物理数据群组的存储资源,且更新所述物理数据群组中数据分片的物理地址。
可选的,资源调整模块具体用于:
若检测到所述物理数据群组中原数据分片的资源利用率大于第一资源利用率阈值,则为所述物理数据群组中原数据分片创建关联的新数据分片;
将所述原数据分片中的数据划分到所述原数据分片和所述新数据分片中,且将所述原数据分片和所述新数据分片的物理地址均作为所述物理数据群组中数据分片的物理地址。
可选的,资源调整模块具体用于:
若检测到所述物理数据群组中数据分片的资源利用率小于第二资源利用率阈值,则将所述物理数据群组中至少一个数据分片的数据合并到所述物理数据群组中其他数据分片中,且从所述物理数据群组中数据分片的物理地址中删除所述至少一个数据分片的物理地址。
可选的,资源调整模块具体用于:
若所述物理数据分组中存在热点数据,则检测到所述数据存储资源调整事件;
为所述物理数据群组创建增量数据分片,将所述热点数据写入所述增量数据分片中,且将所述物理数据群组中原数据分片作为所述物理数据群组的全量数据分片;
添加所述物理数据群组中所述增量数据分片的物理地址。
可选的,资源调整模块具体用于:
若检测到数据存储区的资源利用率大于第三资源利用率阈值,则创建新数据存储区;
在所述新数据存储区中创建所述物理数据群组的新数据分片,且将所述新数据存储区的物理地址作为所述物理数据群组中新数据分片的物理地址。
本申请实施例的技术方案,通过数据处理方分别与排序工具和数据构建器配合,以虚拟数据群组、物理数据群组和数据分片等数据形态进行数据访问和数据构建,能够提高数据处理效率,且提高数据处理的便捷性。并且,通过在数据规模变化或用户流量变化时,通过弹性自适应性进行数据调整,提高数据资源利用率,降低机器成本。
图7是根据本申请实施例提供的数据处理装置的结构示意图。参见图7,本申请实施例公开了数据处理装置700,该装置700可以配置于排序工具中,该装置700可以包括:
逻辑信息发送模块701,用于向数据处理方发送第一数据的逻辑信息,使所述数据处理方根据所述第一数据的逻辑信息确定第一物理地址;其中,所述第一物理地址为与所述第一数据关联的物理数据群组中数据分片的物理地址;
数据排序模块702,用于根据所述第一物理地址对所述第一数据进行排序。
可选的,逻辑信息发送模块701包括:
逻辑信息发送单元,用于向所述数据处理方中数据控制器发送所述第一数据的逻辑信息,使所述数据控制器根据所述第一数据的逻辑信息确定所述第一数据的元数据;
元数据发送单元,用于向所述数据处理方中数据库发送所述第一数据的元数据,使所述数据库根据所述第一数据的元数据确定所述第一物理地址。
可选的,所述第一数据的元数据为与所述第一数据关联的物理数据群组中数据分片的版本信息。
可选的,所述第一物理地址包括与所述第一数据关联的物理数据分组中全量数据分片的全量物理地址和增量数据分片的增量物理地址;
相应地,数据排序模块702具体用于:根据所述增量物理地址获取所述第一数据;若获取失败,则根据所述全量物理地址获取所述第一数据;对获取的第一数据进行排序。
本申请实施例的技术方案,排序工具根据新数据形态之间关系访问数据,能够提高数据访问效率,并且通过优先访问热点数据的增量数据分片进一步提高热点数据的访问效率,降低资源占用。
图8是根据本申请实施例提供的数据处理系统的结构示意图。参见图8,数据处理系统包括排序工具、数据构建器、数据处理方、物理资源池和容器管理器,数据处理方包括数据控制器、数据库和存储控制器。
其中,排序工具可以为搜索引擎或推送引擎中排序模块,数据构建器用于构建内容数据,即构建索引数据。容器管理器用于管理数据容器。
在业务领域初始化过程中,数据控制器为业务领域构建位于虚拟数据群组,且为业务领域中每一业务类别分别构建唯一物理数据群组,根据该业务类别的数据量为与该业务类别关联的物理数据群组分配数据分片。数据控制器可以将上述资源分配信息写入数据库中,存储控制器根据数据库中的资源分配信息部署物理资源,具体的,存储控制器与容器管理器配合确定资源分配信息中每一数据分片的数据存储区,即确定每一数据分片的物理地址,且也可以将物理资源部署信息写入数据库中供后续数据写入或数据访问使用。
在数据写入阶段,内容构建器向存储控制器发送待写入数据的逻辑信息,存储控制器返回待写入数据的元数据,例如待写入数据关联的物理分片的版本信息。内容构建器使用元数据从数据库中获取待写入数据的物理地址,即与待写入数据关联的物理数据群组中各数据分片的物理地址。内容构建器基于负载均衡,根据各数据分片的物理地址将待写入数据写入任一数据分片中。
在数据访问阶段,排序工具向数据控制器发送待访问数据的逻辑信息,数据控制器返回待访问数据的元数据,例如待访问数据关联的物理分片的版本信息。排序工具使用元数据从数据库中获取待访问数据的物理地址,使用该物理地址召回待访问数据,且对召回数据进行排序。
数据控制器或存储控制器若检测到数据资源需要扩容或缩容,具体的,若检测到物理数据分组中数据分片的资源利用率达到上限,则为物理数据群组增加数据分片;若检测到物理数据分组中数据分片的资源利用率小于下限,则为物理数据群组缩减数据分片;若检测到数据存储空间不足,还可以添加新数据存储区。
通过数据管理和物理存储的解耦,实现了数据的云原生架构和完全自动的数据管理方式,以实现机器成本的降低和运维成本的极大降低。根据数据的特点,按照在线访问的实际需求选择合适的存储介质和存储管理方式,在数据规模、用户消费流量有巨大变化时,弹性自适应性进行数据调整,在保障系统搞可用和高性能的前提下,能够实现机器成本的极大降低,无需依赖人工。
本申请实施例的技术方案,通过数据处理方分别与排序工具和数据构建器配合,以虚拟数据群组、物理数据群组和数据分片等数据形态进行数据访问和数据构建,能够提高数据处理效率,且提高数据处理的便捷性。并且,通过在数据规模变化或用户流量变化时,通过在多元异构场景下,流量和数据量的巨大差异面前,弹性自适应性进行数据调整,提高了数据资源利用率,降低了机器成本。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图9所示,是根据本申请实施例的数据处理的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图9所示,该电子设备包括:一个或多个处理器901、存储器902,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。
存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的数据处理的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的数据处理的方法。
存储器902作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的数据处理的方法对应的程序指令/模块(例如,附图6所示的第一地址确定模块601和第一地址发送模块602;又如,附图7所示的逻辑信息发送模块701和数据排序模块702)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的数据处理的方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据数据处理的电子设备的使用所创建的数据等。此外,存储器902可以包括高速随机存储存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至数据处理的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
数据处理的方法的电子设备还可以包括:输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接,图9中以通过总线连接为例。
输入装置903可接收输入的数字或字符信息,以及产生与数据处理的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
本申请实施例的技术方案,通过数据处理方分别与排序工具和数据构建器配合,以虚拟数据群组、物理数据群组和数据分片等数据形态进行数据访问和数据构建,能够提高数据处理效率,且提高数据处理的便捷性。并且,通过在数据规模变化或用户流量变化时,通过弹性自适应性进行数据调整,提高数据资源利用率,降低机器成本。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (20)

1.一种数据处理方法,包括:
根据从排序工具获取的第一数据的逻辑信息,确定第一物理地址;其中,所述第一物理地址为与所述第一数据关联的物理数据群组中数据分片的物理地址;
向所述排序工具发送所述第一物理地址,使所述排序工具根据所述第一物理地址对所述第一数据进行排序。
2.根据权利要求1所述的方法,其中,相同所述物理数据群组中的数据分片存储于不同数据存储区中;相同所述数据存储区中存储有不同所述物理数据群组中的数据分片。
3.根据权利要求1所述的方法,其中,所述根据从排序工具获取的第一数据的逻辑信息,确定第一物理地址,包括:
通过数据控制器,根据从所述排序工具获取的第一数据的逻辑信息,确定所述第一数据的元数据,并向所述排序工具发送所述第一数据的元数据;
通过数据库,根据从所述排序工具获取的第一数据的元数据,确定所述第一物理地址。
4.根据权利要求3所述的方法,其中,所述第一数据的元数据为与所述第一数据关联的物理数据群组中数据分片的版本信息。
5.根据权利要求1所述的方法,其中,所述第一物理地址包括与所述第一数据关联的物理数据分组中全量数据分片的全量物理地址和增量数据分片的增量物理地址,用于使所述排序工具根据所述增量物理地址和所述全量物理地址对所述第一数据进行排序。
6.根据权利要求1所述的方法,其中,所述方法还包括:
根据从数据构建器获取的第二数据的逻辑信息,确定第二物理地址;其中,所述第二物理地址为与所述第二数据关联的物理数据群组中数据分片的物理地址;
向所述数据构建器发送所述第二物理地址,使所述数据构建器根据所述第二物理地址写入所述第二数据。
7.根据权利要求6所述的方法,其中,所述根据从数据构建器获取的第二数据的逻辑信息,确定第二物理地址,包括:
通过存储控制器,根据从所述数据构建器获取的第二数据的逻辑信息,确定所述第二数据的元数据,并向所述数据构建器发送所述第二数据的元数据;
通过数据库,根据从所述数据构建器获取的第二数据的元数据,确定所述第二物理地址。
8.根据权利要求1所述的方法,还包括:
若检测到数据存储资源调整事件,则更新所述物理数据群组的存储资源,且更新所述物理数据群组中数据分片的物理地址。
9.根据权利要求8所述的方法,其中,所述若检测到数据存储资源调整事件,则更新所述物理数据群组的存储资源,且更新所述物理数据群组中数据分片的物理地址,包括:
若检测到所述物理数据群组中原数据分片的资源利用率大于第一资源利用率阈值,则为所述物理数据群组中原数据分片创建关联的新数据分片;
将所述原数据分片中的数据划分到所述原数据分片和所述新数据分片中,且将所述原数据分片和所述新数据分片的物理地址均作为所述物理数据群组中数据分片的物理地址。
10.根据权利要求8所述的方法,其中,所述若检测到数据存储资源调整事件,则更新所述物理数据群组的存储资源,且更新所述物理数据群组中数据分片的物理地址,包括:
若检测到所述物理数据群组中数据分片的资源利用率小于第二资源利用率阈值,则将所述物理数据群组中至少一个数据分片的数据合并到所述物理数据群组中其他数据分片中,且从所述物理数据群组中数据分片的物理地址中删除所述至少一个数据分片的物理地址。
11.根据权利要求8所述的方法,其中,所述若检测到数据存储资源调整事件,则更新所述物理数据群组的存储资源,且更新所述物理数据群组中数据分片的物理地址,包括:
若所述物理数据分组中存在热点数据,则检测到所述数据存储资源调整事件;
为所述物理数据群组创建增量数据分片,将所述热点数据写入所述增量数据分片中,且将所述物理数据群组中原数据分片作为所述物理数据群组的全量数据分片;
添加所述物理数据群组中所述增量数据分片的物理地址。
12.根据权利要求8所述的方法,其中,所述若检测到数据存储资源调整事件,则更新所述物理数据群组的存储资源,且更新所述物理数据群组中数据分片的物理地址,包括:
若检测到数据存储区的资源利用率大于第三资源利用率阈值,则创建新数据存储区;
在所述新数据存储区中创建所述物理数据群组的新数据分片,且将所述新数据存储区的物理地址作为所述物理数据群组中新数据分片的物理地址。
13.一种数据处理方法,包括:
向数据处理方发送第一数据的逻辑信息,使所述数据处理方根据所述第一数据的逻辑信息确定第一物理地址;其中,所述第一物理地址为与所述第一数据关联的物理数据群组中数据分片的物理地址;
根据所述第一物理地址对所述第一数据进行排序。
14.根据权利要求13所述的方法,包括:向数据处理方发送第一数据的逻辑信息,使所述数据处理方根据所述第一数据的逻辑信息确定第一物理地址,包括:
向所述数据处理方中数据控制器发送所述第一数据的逻辑信息,使所述数据控制器根据所述第一数据的逻辑信息确定所述第一数据的元数据;
向所述数据处理方中数据库发送所述第一数据的元数据,使所述数据库根据所述第一数据的元数据确定所述第一物理地址。
15.根据权利要求14所述的方法,其中,所述第一数据的元数据为与所述第一数据关联的物理数据群组中数据分片的版本信息。
16.根据权利要求13所述方法,所述第一物理地址包括与所述第一数据关联的物理数据分组中全量数据分片的全量物理地址和增量数据分片的增量物理地址;
相应地,根据所述第一物理地址对所述第一数据进行排序,包括:
根据所述增量物理地址获取所述第一数据;若获取失败,则根据所述全量物理地址获取所述第一数据;
对获取的第一数据进行排序。
17.一种数据处理装置,包括:
第一地址确定模块,用于根据从排序工具获取的第一数据的逻辑信息,确定第一物理地址;其中,所述第一物理地址为与所述第一数据关联的物理数据群组中数据分片的物理地址;
第一地址发送模块,用于向所述排序工具发送所述第一物理地址,使所述排序工具根据所述第一物理地址对所述第一数据进行排序。
18.一种数据处理装置,包括:
逻辑信息发送模块,用于向数据处理方发送第一数据的逻辑信息,使所述数据处理方根据所述第一数据的逻辑信息确定第一物理地址;其中,所述第一物理地址为与所述第一数据关联的物理数据群组中数据分片的物理地址;
数据排序模块,用于根据所述第一物理地址对所述第一数据进行排序。
19.一种电子设备,其中,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-16中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-16中任一项所述的方法。
CN202010600582.2A 2020-06-28 2020-06-28 数据处理方法、装置、设备和存储介质 Pending CN111782632A (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN202010600582.2A CN111782632A (zh) 2020-06-28 2020-06-28 数据处理方法、装置、设备和存储介质
JP2021546329A JP7279174B2 (ja) 2020-06-28 2020-10-15 データ処理方法、装置、機器および記憶媒体
US17/593,128 US11847161B2 (en) 2020-06-28 2020-10-15 Data processing method and apparatus, device, and storage medium
KR1020227036112A KR20220154228A (ko) 2020-06-28 2020-10-15 데이터 처리 방법, 장치, 설비 및 저장매체
PCT/CN2020/121143 WO2022000851A1 (zh) 2020-06-28 2020-10-15 数据处理方法、装置、设备和存储介质
EP20916237.9A EP3958141A4 (en) 2020-06-28 2020-10-15 DATA PROCESSING METHOD AND EQUIPMENT, DEVICE AND STORAGE MEDIUM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010600582.2A CN111782632A (zh) 2020-06-28 2020-06-28 数据处理方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN111782632A true CN111782632A (zh) 2020-10-16

Family

ID=72760695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010600582.2A Pending CN111782632A (zh) 2020-06-28 2020-06-28 数据处理方法、装置、设备和存储介质

Country Status (6)

Country Link
US (1) US11847161B2 (zh)
EP (1) EP3958141A4 (zh)
JP (1) JP7279174B2 (zh)
KR (1) KR20220154228A (zh)
CN (1) CN111782632A (zh)
WO (1) WO2022000851A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240041141A (ko) * 2022-09-22 2024-03-29 주식회사 블룸테크놀로지 블록체인 네트워크에서 어카운트 디렉토리 변경 시스템 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014101420A1 (zh) * 2012-12-28 2014-07-03 华为技术有限公司 一种元数据的构建系统及其方法
US20140379960A1 (en) * 2011-12-05 2014-12-25 Niklas Linkewitsch Background reordering - a preventive wear-out control mechanism with limited overhead
US20160004631A1 (en) * 2014-07-03 2016-01-07 Pure Storage, Inc. Profile-Dependent Write Placement of Data into a Non-Volatile Solid-State Storage
CN106933935A (zh) * 2015-12-31 2017-07-07 北京国双科技有限公司 任务存储方法和装置
US20190036703A1 (en) * 2017-07-28 2019-01-31 Nexenta Systems, Inc. Shard groups for efficient updates of, and access to, distributed metadata in an object storage system

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4409655A (en) * 1980-04-25 1983-10-11 Data General Corporation Hierarchial memory ring protection system using comparisons of requested and previously accessed addresses
JPH0566980A (ja) * 1991-09-09 1993-03-19 Hitachi Ltd フアイル制御方式
US6871011B1 (en) * 2000-09-28 2005-03-22 Matsushita Electric Industrial Co., Ltd. Providing quality of service for disks I/O sub-system with simultaneous deadlines and priority
US7158996B2 (en) * 2003-01-27 2007-01-02 International Business Machines Corporation Method, system, and program for managing database operations with respect to a database table
JP2005190047A (ja) * 2003-12-25 2005-07-14 Hitachi Ltd データソート機能を持つストレージシステム
JP2007164240A (ja) * 2005-12-09 2007-06-28 Funai Electric Co Ltd ファイル管理システムおよびストレージの自動管理方法、並びに自動管理プログラム
US9021175B2 (en) * 2010-08-24 2015-04-28 International Business Machines Corporation Method for reordering access to reduce total seek time on tape media
US9645758B2 (en) * 2011-07-22 2017-05-09 Sandisk Technologies Llc Apparatus, system, and method for indexing data of an append-only, log-based structure
US8489163B2 (en) * 2011-08-12 2013-07-16 Northrop Grumman Systems Corporation Superconducting latch system
US9195666B2 (en) * 2012-01-17 2015-11-24 Apple Inc. Location independent files
US8898376B2 (en) * 2012-06-04 2014-11-25 Fusion-Io, Inc. Apparatus, system, and method for grouping data stored on an array of solid-state storage elements
WO2014031114A1 (en) * 2012-08-22 2014-02-27 Empire Technology Development Llc Partitioning sorted data sets
CN102955861B (zh) * 2012-11-30 2017-04-12 华为技术有限公司 一种基于备份文件的索引文件生成方法和装置
CN102968498B (zh) * 2012-12-05 2016-08-10 华为技术有限公司 数据处理方法及装置
US9250819B2 (en) * 2013-03-04 2016-02-02 Dell Products L.P. Learning machine to optimize random access in a storage system
US10216949B1 (en) * 2013-09-20 2019-02-26 Amazon Technologies, Inc. Dynamic quorum membership changes
US10043208B2 (en) 2014-05-30 2018-08-07 Walmart Apollo, Llc Smart order management and database sharding
US10545667B1 (en) * 2015-03-04 2020-01-28 Amazon Technologies, Inc. Dynamic data partitioning for stateless request routing
US10545935B2 (en) 2015-04-20 2020-01-28 Oracle International Corporation System and method for providing access to a sharded database using a cache and a shard technology
WO2017153351A1 (en) * 2016-03-08 2017-09-14 Thomson Licensing Method and device for decoding data segments derived from oligonucleotides and related sequencer
CN107528871B (zh) * 2016-06-22 2020-05-26 伊姆西Ip控股有限责任公司 存储系统中的数据分析
CN106202441A (zh) 2016-07-13 2016-12-07 腾讯科技(深圳)有限公司 基于关系型数据库的数据处理方法、装置和系统
US10761750B2 (en) * 2017-03-09 2020-09-01 Netapp Inc. Selectively storing data into allocation areas using streams
CN106940715B (zh) * 2017-03-09 2019-11-15 星环信息科技(上海)有限公司 一种基于索引表的查询的方法及设备
CN107733709A (zh) * 2017-10-17 2018-02-23 北京奇虎科技有限公司 数据存储方法、装置及电子设备
US20190392047A1 (en) * 2018-06-25 2019-12-26 Amazon Technologies, Inc. Multi-table partitions in a key-value database
CN112486860A (zh) * 2019-09-11 2021-03-12 伊姆西Ip控股有限责任公司 管理存储系统的地址映射的方法、设备和计算机程序产品

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140379960A1 (en) * 2011-12-05 2014-12-25 Niklas Linkewitsch Background reordering - a preventive wear-out control mechanism with limited overhead
WO2014101420A1 (zh) * 2012-12-28 2014-07-03 华为技术有限公司 一种元数据的构建系统及其方法
US20160004631A1 (en) * 2014-07-03 2016-01-07 Pure Storage, Inc. Profile-Dependent Write Placement of Data into a Non-Volatile Solid-State Storage
CN106933935A (zh) * 2015-12-31 2017-07-07 北京国双科技有限公司 任务存储方法和装置
US20190036703A1 (en) * 2017-07-28 2019-01-31 Nexenta Systems, Inc. Shard groups for efficient updates of, and access to, distributed metadata in an object storage system

Also Published As

Publication number Publication date
EP3958141A4 (en) 2022-05-11
JP7279174B2 (ja) 2023-05-22
JP2022544430A (ja) 2022-10-19
KR20220154228A (ko) 2022-11-21
US11847161B2 (en) 2023-12-19
EP3958141A1 (en) 2022-02-23
WO2022000851A1 (zh) 2022-01-06
US20220342929A1 (en) 2022-10-27

Similar Documents

Publication Publication Date Title
KR102549821B1 (ko) 서버 리소스 할당 방법, 장치, 전자 기기 및 저장 매체
US10360199B2 (en) Partitioning and rebalancing data storage
US10140066B2 (en) Smart partitioning of storage access paths in shared storage services
US9280370B2 (en) System structure management device, system structure management method, and program
CN111737361B (zh) 区块链处理方法、装置、设备和存储介质
US10505862B1 (en) Optimizing for infrastructure diversity constraints in resource placement
CN111782365A (zh) 定时任务处理方法、装置、设备及存储介质
CN111259060B (zh) 数据查询的方法及装置
CN111858796A (zh) 地理信息系统引擎系统及实现方法、装置及存储介质
US8903871B2 (en) Dynamic management of log persistence
CN109818880B (zh) 动态分派工作及提供资源的方法、装置及其系统
US10601954B2 (en) Sandboxing requests for web services
CN111737362B (zh) 区块链处理方法、装置、设备和存储介质
CN111782632A (zh) 数据处理方法、装置、设备和存储介质
CN111966471B (zh) 访问方法、装置、电子设备及计算机存储介质
CN111831752A (zh) 分布式数据库的空间整理方法、装置、设备以及存储介质
CN111796940A (zh) 一种资源分配方法、装置和电子设备
US20150189013A1 (en) Adaptive and prioritized replication scheduling in storage clusters
JP7307766B2 (ja) トラフィック調整方法、装置、電子機器、コンピュータ可読記録媒体及びコンピュータプログラム
CN112437125A (zh) 信息并发处理方法、装置、电子设备及存储介质
CN110022348B (zh) 用于动态备份会话的系统和方法
CN111405051B (zh) 应用程序编程接口api信息的处理方法、装置和设备
CN115269497A (zh) 用于配置网络文件系统的方法和装置
CN113313196A (zh) 标注数据处理方法、相关装置及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination