CN113641693B

CN113641693B - 流式计算系统的数据处理方法及装置、电子设备和介质

Info

Publication number: CN113641693B
Application number: CN202110960122.5A
Authority: CN
Inventors: 朱良昌; 石然; 汪婷; 孙英富; 田勇; 龚宓
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2022-05-24
Anticipated expiration: 2041-08-20
Also published as: CN113641693A

Abstract

本公开提供了一种流式计算系统的数据处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品，涉及数据处理领域，尤其涉及流式计算、数据存储技术领域。实现方案为：获取第一数据流分片中的原始数据经处理后所得到的结果数据；确定结果数据的数据类型，其中数据类型包括随机读写类型和顺序读写类型；以及通过原子性写操作将确定的随机读写类型的数据以第一数据块的形式写入存储系统的第一存储区域以及将确定的顺序读写类型的数据以第二数据块的形式写入存储系统的第二存储区域。第一数据块包括指向同一原子性写操作所对应的第二数据块的指针。

Description

流式计算系统的数据处理方法及装置、电子设备和介质

技术领域

本公开涉及数据处理领域，尤其涉及流式计算、数据存储技术领域，具体涉及一种流式计算系统的数据处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

在传统的数据处理流程中，总是先收集数据，然后将数据放到数据库中。当人们需要的时候通过数据库对数据做查询，得到答案或进行相关的处理。但是，传统的数据处理流程在一些实时搜索应用环境中并不能很好地解决问题。由此，产生了一种新的数据计算结构——流计算方式。它可以很好地对大规模流动数据在不断变化的运动过程中实时地进行分析，捕捉到可能有用的信息，并把结果发送到下一计算节点。而在计算过程中，流式计算系统不断产生数据进行实时处理，需要及时处理已完成处理的数据以避免造成数据的堆积和丢失。

发明内容

本公开提供了一种流式计算系统的数据处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的一方面，提供了一种流式计算系统的数据处理方法，包括：获取第一数据流分片中的原始数据经处理后所得到的结果数据；确定所述结果数据的数据类型，其中所述数据类型包括随机读写类型和顺序读写类型；以及通过原子性写操作将所述确定的随机读写类型的数据以第一数据块的形式写入存储系统的第一存储区域以及将所述确定的顺序读写类型的数据以第二数据块的形式写入所述存储系统的第二存储区域。所述第一数据块包括指向同一原子性写操作所对应的所述第二数据块的指针。

根据本公开的另一方面，提供了一种流式计算系统的数据处理装置，包括：获取单元，配置为获取第一数据流分片中的原始数据经处理后所得到的结果数据；确定单元，配置为确定所述结果数据的数据类型，其中所述数据类型包括随机读写类型和顺序读写类型；以及存储单元，配置为通过原子性写操作将所述确定的随机读写类型的数据以第一数据块的形式写入存储系统的第一存储区域以及将所述确定的顺序读写类型的数据以第二数据块的形式写入所述存储系统的第二存储区域。所述第一数据块包括指向同一原子性写操作所对应的所述第二数据块的指针。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够执行本公开所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现本公开所述的方法。

根据本公开的一个或多个实施例，将随机读写类型和顺序读写类型的数据进行分类存储，既通过原子性写操作保证了数据一致性的持久化方案，又大幅降低了流式计算系统的存储成本。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图；

图2示出了根据本公开的实施例的流式计算系统的数据处理方法的流程图；

图3示出了根据本公开的实施例的流式计算系统的数据处理示意图；

图4示出了根据本公开的实施例的随机读写类型和顺序读写类型的目录结构的示意图；

图5示出了根据本公开的实施例的对第一存储区域中的只读文件分片执行压实操作的流程图；

图6示出了根据本公开的实施例的对只读文件分片执行压实操作的示意图；

图7示出了根据本公开另一个实施例的数据处理方法的流程图；

图8示出了根据本公开的实施例的对第一数据流分片所对应的存储区域进行数据扫描的流程图；

图9示出了根据本公开的实施例的流式计算系统的数据处理装置的结构框图；以及

图10示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

下面将结合附图详细描述本公开的实施例。

图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性系统100的示意图。参考图1，该系统100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。客户端设备101、102、103、104、105和106可以被配置为执行一个或多个应用程序。

在本公开的实施例中，服务器120可以运行使得能够执行流式计算系统的数据处理方法的一个或多个服务或软件应用。

在某些实施例中，服务器120还可以提供可以包括非虚拟环境和虚拟环境的其他服务或软件应用。在某些实施例中，这些服务可以作为基于web的服务或云服务提供，例如在软件即服务(SaaS)模型下提供给客户端设备101、102、103、104、105和/或106的用户。

在图1所示的配置中，服务器120可以包括实现由服务器120执行的功能的一个或多个组件。这些组件可以包括可由一个或多个处理器执行的软件组件、硬件组件或其组合。操作客户端设备101、102、103、104、105和/或106的用户可以依次利用一个或多个客户端应用程序来与服务器120进行交互以利用这些组件提供的服务。应当理解，各种不同的系统配置是可能的，其可以与系统100不同。因此，图1是用于实施本文所描述的各种方法的系统的一个示例，并且不旨在进行限制。

用户可以使用客户端设备101、102、103、104、105和/或106来输入相应的数据操作指令或读取相应的数据等。客户端设备可以提供使客户端设备的用户能够与客户端设备进行交互的接口。客户端设备还可以经由该接口向用户输出信息。尽管图1仅描绘了六种客户端设备，但是本领域技术人员将能够理解，本公开可以支持任何数量的客户端设备。

客户端设备101、102、103、104、105和/或106可以包括各种类型的计算机设备，例如便携式手持设备、通用计算机(诸如个人计算机和膝上型计算机)、工作站计算机、可穿戴设备、游戏系统、瘦客户端、各种消息收发设备、传感器或其他感测设备等。这些计算机设备可以运行各种类型和版本的软件应用程序和操作系统，例如MICROSOFT Windows、APPLEiOS、类UNIX操作系统、Linux或类Linux操作系统(例如Google Chrome OS)；或包括各种移动操作系统，例如MICROSOFT Windows Mobile OS、iOS、Windows Phone、Android。便携式手持设备可以包括蜂窝电话、智能电话、平板电脑、个人数字助理(PDA)等。可穿戴设备可以包括头戴式显示器和其他设备。游戏系统可以包括各种手持式游戏设备、支持互联网的游戏设备等。客户端设备能够执行各种不同的应用程序，例如各种与Internet相关的应用程序、通信应用程序(例如电子邮件应用程序)、短消息服务(SMS)应用程序，并且可以使用各种通信协议。

网络110可以是本领域技术人员熟知的任何类型的网络，其可以使用多种可用协议中的任何一种(包括但不限于TCP/IP、SNA、IPX等)来支持数据通信。仅作为示例，一个或多个网络110可以是局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟专用网络(VPN)、内部网、外部网、公共交换电话网(PSTN)、红外网络、无线网络(例如蓝牙、WIFI)和/或这些和/或其他网络的任意组合。

服务器120可以包括一个或多个通用计算机、专用服务器计算机(例如PC(个人计算机)服务器、UNIX服务器、中端服务器)、刀片式服务器、大型计算机、服务器群集或任何其他适当的布置和/或组合。服务器120可以包括运行虚拟操作系统的一个或多个虚拟机，或者涉及虚拟化的其他计算架构(例如可以被虚拟化以维护服务器的虚拟存储设备的逻辑存储设备的一个或多个灵活池)。在各种实施例中，服务器120可以运行提供下文所描述的功能的一个或多个服务或软件应用。

服务器120中的计算单元可以运行包括上述任何操作系统以及任何商业上可用的服务器操作系统的一个或多个操作系统。服务器120还可以运行各种附加服务器应用程序和/或中间层应用程序中的任何一个，包括HTTP服务器、FTP服务器、CGI服务器、JAVA服务器、数据库服务器等。

在一些实施方式中，服务器120可以包括一个或多个应用程序，以分析和合并从客户端设备101、102、103、104、105和106的用户接收的数据馈送和/或事件更新。服务器120还可以包括一个或多个应用程序，以经由客户端设备101、102、103、104、105和106的一个或多个显示设备来显示数据馈送和/或实时事件。

在一些实施方式中，服务器120可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器120也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。云服务器是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual Private Server)服务中存在的管理难度大、业务扩展性弱的缺陷。

系统100还可以包括一个或多个数据库130。所述一个或多个数据库130可以为存储系统。在某些实施例中，这些数据库可以用于存储数据和其他信息。例如，数据库130中的一个或多个可以为分布式文件系统等，以用于持久化流式数据。数据存储库130可以驻留在各种位置。例如，由服务器120使用的数据存储库可以在服务器120本地，或者可以远离服务器120且可以经由基于网络或专用的连接与服务器120通信。数据存储库130可以是不同的类型。在某些实施例中，由服务器120使用的数据存储库可以是数据库，例如关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。

在某些实施例中，数据库130中的一个或多个还可以由应用程序使用来存储应用程序数据。由应用程序使用的数据库可以是不同类型的数据库，例如键值存储库，对象存储库或由文件系统支持的常规存储库。

图1的系统100可以以各种方式配置和操作，以使得能够应用根据本公开所描述的各种方法和装置。

当前业界流行的开源流式计算框架，例如Structure Streaming和Flink，通过将增量数据写入分布式文件系统来实现数据一致性。具体地，1)Structure Streaming是基于微批的流式计算模型，在每个微批(即batch)开始处理前先记录当前的状态，然后在微批运行过程中，以微批为单位记录其产生的增量数据，在微批运行结束后将这部分增量数据进行标记，以此来确定一个微批的完成。当故障切换(failover)或重启发生时，仅对标记的增量数据进行恢复；2)Flink是纯流式的流式计算模型，通过定期从源端插入一个barrier(分组)，当前barrier和上一个barrier之间的数据会以barrier为粒度进行增量存储，当barrier结束时，会对该barrier和上一个barrier之间的增量数据进标记，依次来标识barrier的完成。当故障切换(failover)或重启发生时，仅对标记的增量数据进行恢复。上述两种框架的数据存储方式都是增量存储，当一个实例失败后，需要整个作业重启，无法满足单实例快速重启的功能和优势。

因此，如图2所示，根据本公开的实施例提供了一种流式计算系统的数据处理方法200，包括：获取第一数据流分片中的原始数据经处理后所得到的结果数据(步骤210)；确定该结果数据的数据类型，其中数据类型包括随机读写类型和顺序读写类型(步骤220)；以及通过原子性写操作将确定的随机读写类型的数据以第一数据块的形式写入存储系统的第一存储区域以及将确定的顺序读写类型的数据以第二数据块的形式写入存储系统的第二存储区域(步骤230)。该第一数据块包括指向同一原子性写操作所对应的第二数据块的指针。

根据本公开的实施例，将随机读写类型和顺序读写类型的数据进行分类存储，既通过原子性写操作保证了数据一致性的持久化方案，又大幅降低了流式计算系统的存储成本。

在纯流式场景下，诸如Stream Compute的流式计算系统长久以来通常使用KV-store来持续化数据，以实现at-least once和exactly once的一致性语义。然而StreamCompute存储的绝大部分数据是用后即删的，所以真正的存储开销很小，反而写IO的吞吐成为流式计算的性能瓶颈。然而KV-store当前成本是根据存储容量来计算的。虽然流式计算本身存储开销很小，但是为了保证写IO的吞吐性能，就需要购买很多多余的存储容量，由此导致存储的成本变的很高，且成本会随着业务流量的增长成线性增长。为了减低流式计算的存储成本，根据本公开的方法直接将数据持久化到存储系统，例如分布式文件系统，在保证at-least once和exactly once的一致性语义的情况下，减少了流式计算的存储成本，减低了业务的成本开销。

在根据本公开的数据处理方法中，数据会分为不同的数据流分片(KeyGroup，即通常意义上的Partition)被处理，以在KeyGroup粒度上保证数据一致性。这里的数据流分片(KeyGroup)与上面的微批以及barrier不同，是基于关键字key的分组。例如，根据关键字key进行哈希计算，以基于计算结果划分为相应的数据流分片。

图3示出了根据本公开实施例的流式计算系统的数据处理示意图。如图3所示，流式计算系统中的每个KeyGroup上的数据在被相应的处理器(Processor)上的算子实例处理后经由后端写入分布式文件系统(Distributed File System，DFS)。后端封装了数据写入分布式文件系统的核心逻辑，即用来实现根据本公开的方法的核心逻辑。流式数据被分为相应的KeyGroup被算子实例处理后通过后端被持久化到分布式文件系统中。在一些示例中，每一个处理器中可以包括一个或多个进程，这时每一个进程作为一个算子实例，负责处理一个或多个KeyGroup上的数据。示例地，每一个进程可以包括多个线程，以对多个KeyGroup进行并发处理。如图3所示，处理器A对流式数据进行处理后，其相应的数据被存储到分布式文件系统中；处理器A流向处理器B的数据根据关键字key被分为两个数据流分片(KeyGroup1和KeyGroup2)、处理器B流向处理器C的数据只有一个数据流分片(KeyGroup3)，处理器B和处理器C上产生的数据同样也被存储到分布式文件系统中。

根据本公开的方法以KeyGroup为粒度存储全量的流式数据，保证了单实例故障后快速重启，以保证数据流的高时效性和高可用性。

如上所述，诸如Stream Compute的流式计算系统需要存储的数据根据其自身特点可以分为2大类：1)随机读写类型(Random)的数据，即会被随机写入和随机读取的数据，例如：state、timer、interval join场景中的数据等；2)顺序读写类型(Sequence)的数据，即会被顺序写入和顺序读取的数据，例如：production(发送给下游的数据)、window join场景中的数据等。上述流式计算框架会将全量的数据都写入存储系统中并通过GC(GarbageCollection，垃圾回收)操作来对数据进行清理。通常，上述两类数据均是通过Compaction(压实)操作来完成数据的GC操作。而顺序读写类型数据的数据量占StreamCompute存储数据的绝大部分，有且仅有一个版本，即version始终为1，且顺序读写类型的数据理论上可以被顺序GC。通过Compaction操作对理论上可以被顺序删除的数据进行GC，代价高昂。而且，根据经验来看，Compaction操作占据了存储整体IO带宽的1/3。同时，对于state等会有多版本的随机数据而言，Compaction的确是一个通用且理想的GC方式，但对很多流式作业而言，这部分数据量的占比很小。

因此，通过对流式数据进行分类存储，可以大幅减少GC操作的IO开销，从而节省存储成本。

根据一些实施例，将随机读写类型的数据写入第一存储区域以及将顺序读写类型的数据写入第二存储区域可以包括：分别基于预设的分片规则对第一存储区域和第二存储区域中的包含写入数据的文件进行分片。

根据一些实施例，基于预设的分片规则对所述第一存储区域和所述第二存储区域中的包含写入数据的文件进行分片包括：分别对于第一存储区域和第二存储区域：响应于待写入的文件分片的大小达到预设阈值，将该文件分片标记为只读文件分片；以及创建新的文件分片，以将待写入的数据写入新的文件分片中。

为了避免存储在分布式文件系统等存储系统上的单个文件过大，随机读写类型和顺序读写类型的文件会随着写入数据的增加而进行切片，即一个随机读写类型和顺序读写类型的文件实际由多个文件分片组成。通过将文件进行分片，也可以方便后续的GC操作。

根据一些实施例，将所述随机读写类型的数据和所述顺序读写类型的数据以关键字-值的形式写入所述存储系统中。所述随机读写类型的数据在所述第一存储区域中的位置信息以及相应的关键字保存在预设的第一文件中。

示例地，每一个算子实例(将接收到的当前数据流分片中的一条数据(例如数据A，即原始数据)进行处理后，会生成需发送给下游的数据(production)、state、timer、dedup(上游去重信息)等上下文数据，该上下文数据(结果数据)会以关键字-值(key-value对)的形式，通过一次原子性的写操作持久化到存储系统中。该条数据(即当前处理过程的原始数据)在经上一级算子实例处理后已作为上一级处理过程的结果数据进行存储。即，一条数据产生的上下文数据需要保证要么全部被一次性写入，要么全部写入失败。由此，该算子实例在任何阶段重启均可保证数据的一致性语义。

在一些示例中，可以在内存中维护一个index文件(即第一文件)，以作为随机读写类型的文件在内存中的快照，以使得在故障重启时以便快速查询、快速恢复。示例地，随机读写类型的数据和顺序读写类型的数据均以key-value对的形式写入存储系统，第一文件(即index文件)作为随机读写类型的数据在内存中的快照，用以保存其key值以及该key值相对应的第一数据块的位置信息，可以被用来故障重启时的快速恢复。

根据一些实施例，第二数据块包括相应的原子性写操作所对应的第一数据块的信息。

在根据本公开的示例性实施例中，数据流分片中的每一条数据进行处理后得到的结果数据需要通过一次原子性写操作写入Random文件或Sequence文件中。具体地，先将随机读写类型数据的key-value对以第一数据块(entry)的形式写入Random文件中，同时在第一数据块中记录一个指针指向当前Sequence文件即将写入的位置，并对内存中的index文件进行更新。然后，将顺序读写类型数据的key-value对以第二数据块的形式写入Sequence文件，并在第二数据块中记录本次原子性写操作所涉及到的所有其他文件(即相对应的第一数据块)的信息。当本次原子性写操作所对应的随机读写类型的数据不仅仅写入一个Random文件时，例如某种随机数据以第一数据块1的形式写入Random1文件，其他随机数据以第一数据块2的形式写入Random2文件，相应的第二数据块中便记录了第一数据块1和第一数据块2的信息。

这样，当读取Random文件中的第一数据块时，可以通过指针检查其所指向的Sequence文件中对应的数据是否合法，以确保数据的一致性。写入期间如果发现相应的文件大小已经达到设置的阈值，则可以对文件进行切分，生成新的文件分片；而老的文件分片则会被重新命名为只读文件分片，例如以readonly为后缀进行命名。只读文件分片只会被读取，不会再写入新数据。

因此对Random文件的读取会有额外的随机读取开销，性能较差；而对Sequence文件中数据的读取不需要原子性检查，对文件进行顺序读取即可,性能较好。

根据一些实施例，根据本公开的方法还可以包括：在预设的第二文件中记录该第一数据流分片所对应的文件分片的元信息。如上所述，可以在新的文件分片创建前，先在预设的第二文件(MetaFile)中进行记录，记录成功后才开始创建该新的文件分片。通过在第二文件中记录每个文件分片的信息，可以防止多个进程同时对一个文件分片进行操作，防止写竞争。

示例地，随机读写类型和顺序读写类型的目录结构可以如图4所示，其中，Sequence1.log.0.readonly、Sequence1.log.100.reandonly均是Sequence1顺序读写类型文件的文件分片。

根据一些实施例，根据本公开的方法还可以包括：每隔预定时间段对第一存储区域中的只读文件分片执行压实(Compaction)操作，以删除相应的只读文件分片。如上所述，顺序读写类型的数据不需要通过压实(Compaction)操作来进行GC操作，可以大幅减少IO开销。

根据一些实施例，如图5所示，对第一存储区域中的只读文件分片执行压实操作500可以包括：确定只读文件分片中的待删除文件分片(步骤510)；基于关键字以及第一文件确定待删除文件分片中的留存数据(步骤520)；将属于同一第一数据块的留存数据以该第一数据块的形式重新写入当前正在被写入的文件分片中(步骤530)；以及响应于待删除文件分片中的所有留存数据均已被重新写入，删除待删除文件分片(步骤540)。而且，重新写入的第一数据块可以不再保留相应的指针。

示例地，随机读写类型的数据会定期触发压实操作，以对历史只读文件分片进行压实操作。首先，需要确定只读文件分片中的待删除文件分片。例如，可以每隔预定时间段对只读文件分片进行清理，以保留最新的预定个数的只读文件分片，该预定个数以外的只读文件分片即可通过压实操作删除；或者，也可以只保留预定时间段内的只读文件分片，该预定时间段以外的只读文件分片即可通过压实操作删除，等等。图6示出了根据本公开示例性实施例的对只读文件分片执行压实操作的示意图。如图6所示，在操作610中，确定左侧框601为待删除文件分片、右侧框602为当前正在写入的文件分片。在确定了待删除文件分片之后，即可依次将其中的关键字key与第一文件(index文件)中的相应关键字key进行比较，以获取该关键字key所对应的位置信息以进行数据查询。在一些示例中，在对该关键字key所对应的第一数据块进行数据查询时，可以基于该第一数据块所包含的指针读取所对应顺序读写类型的数据，以进行数据一致性校验。从而，在进行数据查询后即可确定该key所对应的值是否存在更新。如果存在更新，则该待删除文件分片中的该key以及所对应的值即可确定为待删除数据，否则确定为留存数据。

继续参考图6，在操作620中，确定待删除文件分片601中的框603(深灰色部分)为待删除数据，框604(浅灰色部分)为留存数据。然后，在操作630中，将留存数据604写入当前正在写入的文件分片中。当所有留存数据均已被重新写入后，在操作640中对待删除文件601执行删除。需注意的是，待删除文件分片中的留存数据以其所在的第一数据块(entry)的形式重新被写入当前正在写入的文件分片中。即，同一第一数据块中的留存数据作为一个数据块重新被写入当前正在写入的文件分片中。也就是说，留存数据会作为压实操作的结果数据以append(追加)的方式写入当前正在写入的随机读写类型的文件分片中。

在一些示例中，经过压实操作的第一数据块，不需要再保留指向顺序读写类型的文件的指针，因为其已通过数据一致性校验。压实操作过程中删除的文件分片也预先记录在预设的第二文件(MetaFile)中，记录成功后再执行真正的删除。

根据一些实施例，原始数据包括数据标识，并且所述原始数据相对应的结果数据具有相同的数据标识。即，数据流分片中的每一条数据包括相应的数据标识，例如数据ID，以用于唯一标识该数据以及其处理后所得到的结果数据。由此，如图7所示，根据本公开的方法还可以包括操作700：响应于接收到对顺序读写数据的删除指令，确定所述删除指令所对应的第一数据标识(步骤710)；确定第二存储区域中的其包含的最大或最小数据标识小于该第一数据标识的最新的只读文件分片(步骤720)；以及基于所确定的只读文件分片进一步确定待删除文件分片(步骤730)。

根据一些实施例，第二存储区域中的文件分片的文件名可以包括该文件分片所包含的最大或最小数据标识。

示例地，顺序读写类型的文件中的数据本身是有序的，每个数据可以用一个递增且唯一的ID来标识。顺序读写类型的文件在切片变为只读文件分片时或创建了新的文件分片后，可以将该文件分片中的当前最小ID记录在文件名中，例如：文件名为sequence.1.123.readonly的文件分片，其中1是分片编号，123为该文件中的最小ID。每一个KeyGroup上的数据会被下游顺序消费，被成功消费的数据就可以被删除了，因此接收到的删除信息中的数据ID也是递增的。例如：收到的删除信息为：123,124,…，说明数据ID为123、124的数据已经被成功消费且可以被删除了。为了确保性能，当接收到删除信息中的数据ID比一个只读文件分片中的所有数据的ID都大时，这个只读文件分片就可以被标记为可被删除的状态。

具体地，在顺序读写类型的文件分片的文件名中标记了当前文件分片的最小ID的情况下，如果接收的删除信息中的数据ID比一个文件分片中的最小ID大时，至少该文件分片之前的只读文件分片可被标记为可删除的状态。在顺序读写类型的文件分片的文件名中标记了当前文件分片的最大ID的情况下，如果接收的删除信息中的数据ID比一个只读文件分片中的最大ID大时，该只读文件分片以及其之前的只读文件分片可被标记为可删除的状态。

根据一些实施例，根据本公开的方法还可以包括：响应于待删除文件分片中的每一个第二数据块所对应的第一数据块均被删除后，将所述待删除文件进行删除。

在一些示例中，当顺序读写类型的只读文件分片中记录的所有相关的随机读写类型的文件分片都被删除后，这个顺序读写类型的只读文件分片就可以被真正删除了。删除时同样需要先在第二文件(MetaFile)中进行记录，记录成功后再执行真正的删除操作，以保证数据的一致性。

根据一些实施例，根据本公开的方法还可以包括：响应于获取到包含相应关键字的数据读取请求，基于该关键字查询第一文件，以确定该关键字所对应的数据在第一存储区域中的位置信息；以及基于该位置信息获取相应的值。

具体地，随机读写类型的文件用于存储随机读写类型的数据，并且在内存中维护了第一文件(index文件)以便快速查询，支持单个key-value对的增删改操作。对于随机读写类型的数据，支持单个key-value对数据的get操作和scan操作，以进行数据查询。示例地，可以根据关键字(key)通过get操作以获取相应的值(value)：根据用户的get key操作，通过index文件查找到该key所对应value所存储的文件位置，继而从文件中读取到相应的value。也可以根据关键字(key)通过scan操作以获取相应的值(value)：根据用户请求，通过index文件中查找到该key所对应value所存储的文件位置，从而从文件中读取到相应的value。

一条数据及其产生的上下文数据是通过一次原子性的写操作持久化到存储系统(例如分布式文件系统)的，即，要么全部被一次性写入、要么全部写入失败，不能只写入一部分，以保证数据的一致性语义。对于写成功的数据一般认为已通过原子性校验。因此，通常在用户进行读取操作时可以直接进行读取，不必再进行原子性校验。而在故障切换(failover)场景下，在通过扫描以获取相应的第一存储区域中的随机读写类型的数据时，需要对一个或多个第一数据块中的数据进行原子性校验，即在读取相应的第一数据块时需要根据指针读取顺序读写类型的文件中的内容以进行数据一致性校验。

对于顺序读写类型的数据，只支持批量数据的顺序扫描和批量顺序删除。通过批量顺序删除操作来清理历史数据，而不是压实操作，可以大幅减少IO开销。

因此，根据一些实施例，根据本公开的方法还可以包括：响应于接收到针对第二存储区域的扫描操作，获取第二存储区域中的每个文件分片的文件名；以及响应于接收到针对第二存储区域中的一个或多个文件分片的扫描请求，获取所述一个或多个文件分片中的数据。

具体地，对于顺序读写类型的数据，支持scan操作以进行数据查询。顺序读写类型的文件分片中的数据本身是有序的，每个数据可以用一个递增且唯一的ID来标识。通过对顺序读写类型的文件分片进行扫描，可以确定每个文件分片所包含的数据ID范围，即可以确定待查询数据可能处于的分片。然后，可以进一步对所确定的文件分片进行扫描，以查询相应的数据。顺序读写类型的文件在扫描操作时，不需要额外去读取和检查其他文件，直接顺序扫描每个文件切片即可获取数据。

根据一些实施例，根据本公开的方法还可以包括：响应于确定所述第一数据流分片所对应的进程故障，对第一数据流分片所对应的存储系统的存储区域进行数据扫描，以恢复所述进程。

在故障切换(failover)场景下，需要通过对存储系统中的存储区域进行扫描以基于扫描结果恢复相应的进程。

根据一些实施例，如图8所示，对第一数据流分片所对应的存储区域进行数据扫描800可以包括：对第一存储区域中的第一数据块进行扫描(步骤810)；对于一个或多个所述第一数据块，根据相应的指针读取相对应的第二数据块以进行原子性校验(步骤820)；以及基于校验通过的第一数据块中的数据构建新的第一文件，以恢复所述进程(步骤830)。

在一些示例中，扫描随机读写类型文件中的每个第一数据块，对每个未经过压实操作(compaction)的第一数据块均需要根据其指针读取顺序读写类型的文件中的相应内容以进行数据一致性校验；而经过压实操作的第一数据块则可以直接读取，因为在压实操作过程中已进行过校验操作，默认为已校验通过。然后，即可基于校验通过数据重新构建第一文件。顺序读写类型的文件在进行扫描操作时，不需要额外去读取和检查其他文件，直接顺序扫描每个文件切片即可获取相应的数据。

根据一些实施例，根据本公开的方法还可以包括：定期对第一文件进行备份。因此，在对第一存储区域中的第一数据块进行扫描之前可以包括：基于备份的第一文件对原始第一文件进行恢复；确定所述恢复的第一文件中记录的最大的存储地址，以从该最大的存储地址处开始顺序地对所述分布式文件系统的存储区域进行扫描，以在所述恢复的第一文件的基础上构建新的第一文件。

在恢复阶段，可以首先使用备份的第一文件(index)文件来构建内存中的第一文件。在构建完成后，可以获取到当前内存中第一文件所记录的最大存储地址，然后可以从该最大存储地址处开始进行扫描，以恢复还未来得及备份的剩余数据，即最后一次对第一文件进行备份到故障发生时这段时间内的数据。在对剩余数据进行恢复时即可按照上面所述的扫描以及校验过程实现，在此不再赘述。通过定期对第一文件进行备份，可以极大地减少对随机读写类型文件的读取(即校验过程),从而加速数据流的故障恢复。因为，在故障切换(failover)场景下，在通过对随机读写类型的文件进行遍历以恢复第一文件时，需要通过指针额外读取顺序读写类型文件中的信息以对数据一致性进行校验，这样会增加很多读IO，导致恢复速度过慢，性能较差。

根据本公开的实施例，如图9所示，还提供了一种流式计算系统的数据处理装置900，包括：获取单元910，配置为获取第一数据流分片中的原始数据经处理后所得到的结果数据；确定单元920，配置为确定所述结果数据的数据类型，其中所述数据类型包括随机读写类型和顺序读写类型；以及存储单元930，配置为通过原子性写操作将所述确定的随机读写类型的数据以第一数据块的形式写入分布式文件系统的第一存储区域以及将所述确定的顺序读写类型的数据以第二数据块的形式写入所述分布式文件系统的第二存储区域。所述第一数据块包括指向同一原子性写操作所对应的所述第二数据块的指针。

这里，流式计算系统的数据处理装置900的上述各单元910～930的操作分别与前面描述的步骤210～230的操作类似，在此不再赘述。

根据本公开的实施例，还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

参考图10，现将描述可以作为本公开的服务器或客户端的电子设备1000的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006、输出单元1007、存储单元1008以及通信单元1009。输入单元1006可以是能向设备1000输入信息的任何类型的设备，输入单元1006可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入，并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元1007可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1008可以包括但不限于磁盘、光盘。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、802.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如方法200。例如，在一些实施例中，方法200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的方法200的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种流式计算系统的数据处理方法，包括：

获取第一数据流分片中的原始数据经处理后所得到的结果数据；

确定所述结果数据的数据类型，其中所述数据类型包括随机读写类型和顺序读写类型；以及

通过原子性写操作将所述确定的随机读写类型的数据以第一数据块的形式写入存储系统的第一存储区域以及将所述确定的顺序读写类型的数据以第二数据块的形式写入所述存储系统的第二存储区域，

其中，所述第一数据块包括指向同一原子性写操作所对应的所述第二数据块的指针。

2.如权利要求1所述的方法，其中，将所述随机读写类型的数据写入第一存储区域以及将所述顺序读写类型的数据写入第二存储区域包括：

分别基于预设的分片规则对所述第一存储区域和所述第二存储区域中的包含写入数据的文件进行分片。

3.如权利要求2所述的方法，其中，基于预设的分片规则对所述第一存储区域和所述第二存储区域中的包含写入数据的文件进行分片包括：

分别对于所述第一存储区域和所述第二存储区域：

响应于待写入的文件分片的大小达到预设阈值，将所述文件分片标记为只读文件分片；以及

创建新的文件分片，以将待写入的数据写入所述新的文件分片中。

4.如权利要求3所述的方法，其中，

将所述随机读写类型的数据和所述顺序读写类型的数据以关键字-值的形式写入所述存储系统中，并且其中，

所述随机读写类型的数据在所述第一存储区域中的位置信息以及相应的关键字保存在预设的第一文件中。

5.如权利要求1所述的方法，其中，所述第二数据块包括相应的原子性写操作所对应的第一数据块的信息。

6.如权利要求4所述的方法，还包括：

每隔预定时间段对所述第一存储区域中的只读文件分片执行压实操作，以删除相应的只读文件分片。

7.如权利要求6所述的方法，其中，对所述第一存储区域中的只读文件分片执行压实操作包括：

确定所述只读文件分片中的待删除文件分片；

基于所述关键字以及所述第一文件确定所述待删除文件分片中的留存数据；

将属于同一第一数据块的留存数据以所述第一数据块的形式重新写入当前正在被写入的文件分片中；以及

响应于所述待删除文件分片中的所有留存数据均已被重新写入，删除所述待删除文件分片；

其中，所述重新写入的第一数据块不再保留相应的指针。

8.如权利要求3所述的方法，其中，所述原始数据包括数据标识，并且所述原始数据相对应的结果数据具有相同的数据标识，其中，

所述方法还包括：

响应于接收到对顺序读写数据的删除指令，确定所述删除指令所对应的第一数据标识；

确定所述第二存储区域中的其包含的最大或最小数据标识小于所述第一数据标识的最新的只读文件分片；以及

基于所述确定的只读文件分片进一步确定待删除文件分片。

9.如权利要求8所述的方法，其中，所述第二存储区域中的文件分片的文件名包括所述文件分片所包含的最大或最小数据标识。

10.如权利要求9所述的方法，还包括：

响应于所述待删除文件分片中的每一个第二数据块所对应的第一数据块均被删除后，将所述待删除文件进行删除。

11.如权利要求6-9中任一项所述的方法，还包括：

在预设的第二文件中记录所述第一数据流分片所对应的文件分片的元信息。

12.如权利要求4所述的方法，还包括：

响应于获取到包含所述关键字的数据读取请求，基于所述关键字查询所述第一文件，以确定所述关键字所对应的数据在所述第一存储区域中的位置信息；以及

基于所述位置信息获取相应的值。

13.如权利要求9或10所述的方法，还包括：

响应于接收到针对所述第二存储区域的扫描操作，获取所述第二存储区域中的每个文件分片的文件名；以及

响应于接收到针对所述第二存储区域中的一个或多个文件分片的扫描请求，获取所述一个或多个文件分片中的数据。

14.如权利要求4所述的方法，还包括：

响应于确定所述第一数据流分片所对应的进程故障，对所述第一数据流分片所对应的存储系统的存储区域进行数据扫描，以恢复所述进程。

15.如权利要求14所述的方法，其中，对所述第一数据流分片所对应的存储系统的存储区域进行数据扫描包括：

对所述第一存储区域中的第一数据块进行扫描；

对于一个或多个所述第一数据块，根据相应的指针读取相对应的第二数据块以进行原子性校验；以及

基于校验通过的第一数据块中的数据构建新的第一文件，以恢复所述进程。

16.如权利要求15所述的方法，还包括：定期对所述第一文件进行备份，其中，在对所述第一存储区域中的第一数据块进行扫描之前，还包括：

基于所述备份的第一文件对原始第一文件进行恢复；

确定所述恢复的第一文件中记录的最大的存储地址，以从所述最大的存储地址处开始顺序地对所述存储系统的存储区域进行扫描，以在所述恢复的第一文件的基础上构建新的第一文件。

17.一种流式计算系统的数据处理装置，包括：

获取单元，配置为获取第一数据流分片中的原始数据经处理后所得到的结果数据；

确定单元，配置为确定所述结果数据的数据类型，其中所述数据类型包括随机读写类型和顺序读写类型；以及

存储单元，配置为通过原子性写操作将所述确定的随机读写类型的数据以第一数据块的形式写入存储系统的第一存储区域以及将所述确定的顺序读写类型的数据以第二数据块的形式写入所述存储系统的第二存储区域，

18.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-16中任一项所述的方法。

19.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-16中任一项所述的方法。