CN113392081A

CN113392081A - 数据处理系统及方法

Info

Publication number: CN113392081A
Application number: CN202110654375.XA
Authority: CN
Inventors: 申阳; 贾承昆; 张强; 雷冉
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-09-14

Abstract

本发明提供数据处理系统及方法，其中所述数据处理系统包括：业务服务端和数据处理端；所述业务服务端，被配置为获取目标业务对应的数据处理任务；根据所述数据处理任务创建数据处理包，并将所述数据处理包发送至所述数据处理端；所述数据处理端，被配置为接收所述数据处理包；通过对所述数据处理包进行解析获得结构化信息；采集所述目标业务关联的初始数据，并按照所述结构化信息对所述初始数据进行处理，获得目标数据；将所述目标数据回传至所述业务服务端。

Description

数据处理系统及方法

技术领域

本说明书涉及计算机技术领域，特别涉及数据处理系统及方法。

背景技术

随着互联网技术的发展，线上业务成为了大多数业务方主要开展的对象；而由于线上业务的特性，通常都会由多个数据处理节点配合完成，如数据采集节点、数据处理节点和数据存储节点相互配置以支持存储业务运行，实现向用户提供相应的存储服务。而各个节点之间所传输的数据是支持业务运行的基础；通常情况下，数据的采集和处理都是与业务相贴合的，而节点在获得上游下发的数据后，都需要对接收到的数据进行处理，以完成预置的处理任务，再发送给下游节点进行处理；在此过程中，由于数据缺乏采集和处理规范，从数据的格式到数据的大小都没有合理的限制，这就导致各个节点需要提供额外的计算资源对上游节点下发的数据进行处理，因此亟需一种有效的方案以解决上述问题。

发明内容

有鉴于此，本说明书实施例提供了一种数据处理系统。本说明书同时涉及一种数据处理方法，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种数据处理系统，包括：

业务服务端和数据处理端；

所述业务服务端，被配置为获取目标业务对应的数据处理任务；根据所述数据处理任务创建数据处理包，并将所述数据处理包发送至所述数据处理端；

所述数据处理端，被配置为接收所述数据处理包；通过对所述数据处理包进行解析获得结构化信息；采集所述目标业务关联的初始数据，并按照所述结构化信息对所述初始数据进行处理，获得目标数据；将所述目标数据回传至所述业务服务端。

可选地，所述业务服务端，进一步被配置为：

接收业务处理请求，并根据所述业务处理请求创建所述数据处理任务；按照所述数据处理任务构建所述结构化信息，并通过业务代码生成所述结构化信息对应的所述数据处理包。

可选地，所述业务服务端，进一步被配置为：

根据所述业务处理请求确定数据信息、字段信息以及类型信息；基于所述数据信息、所述字段信息以及所述类型信息创建所述数据处理任务。

可选地，所述数据处理端，进一步被配置为：

根据所述结构化信息确定所述数据信息、所述字段信息和所述类型信息；按照所述数据信息、所述字段信息和所述类型信息对所述初始数据进行处理，根据处理结果获得所述目标数据。

可选地，所述数据处理端，进一步被配置为：

基于所述结构化信息对所述初始数据进行校验获得校验数据；对所述校验数据进行字段值设置，获得中间数据；通过对所述中间数据进行序列化处理，获得所述目标数据。

可选地，所述数据处理端，进一步被配置为：

将所述目标数据添加至数据处理列表；在所述目标数据满足回传条件的情况下，在所述数据处理列表中提取所述目标数据，并基于地址调用策略将所述目标数据回传至所述业务服务端；其中，所述数据处理列表将按照预设的缓存条件对所述目标数据进行缓存处理。

可选地，所述数据处理端，进一步被配置为：

将所述目标数据添加至内存中的目标缓冲区；在所述目标缓冲区达到预设回传条件的情况下，通过回传线程将所述目标数据回传至所述业务服务端；其中，所述预设回传条件包括缓存时间回传条件或内存占比回传条件。

可选地，所述业务服务端，还被配置为：

接收所述目标数据，并将所述目标数据写入本地磁盘；检测所述目标业务对应的分布式系统是否存在故障；若否，在所述本地磁盘中提取所述目标数据并写入所述分布式系统。

可选地，所述业务服务端，还被配置为：

在所述本地磁盘的存储空间小于预设阈值的情况下，提取所述本地磁盘中存储时间最长的待删除数据，并对所述待删除数据进行处理；根据处理结果将所述目标数据写入所述本地磁盘。

根据本说明书实施例的第二方面，提供了一种数据处理方法，包括：

业务服务端获取目标业务对应的数据处理任务；根据所述数据处理任务创建数据处理包，并将所述数据处理包发送至所述数据处理端；

数据处理端接收所述数据处理包；通过对所述数据处理包进行解析获得结构化信息；采集所述目标业务关联的初始数据，并按照所述结构化信息对所述初始数据进行处理，获得目标数据；将所述目标数据回传至所述业务服务端。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令：

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述数据处理方法的步骤。

本说明书提供数据处理系统，其包括业务服务端和数据处理端，为了能够保证上下游业务之间传输的数据更加规范，以达到节省计算资源的同时提高数据处理效率，可以在业务服务端获取到目标业务对应的数据处理任务后，根据数据处理任务创建数据处理包，并将其发送到数据处理端，实现数据处理端可以按照数据处理包进行数据的采集和处理；当数据处理端接收到数据处理包后，将从数据处理包中解析出结构化信息，同时采集本地产生的以目标业务关联的初始数据，之后使用结构化信息将初始数据处理为目标数据，再回传给业务服务端，实现了通过规范数据处理端回传数据的结构的方式，保证回传的数据都是业务服务端所需要的数据，从而进一步节省业务服务端对回传的目标数据进行处理的操作，有效的提高了数据处理效率。

附图说明

图1是本说明书一实施例提供的一数据处理系统的结构示意图；

图2是本说明书一实施例提供的第二种数据处理系统的结构示意图；

图3是本说明书一实施例提供的第三种数据处理系统的结构示意图；

图4是本说明书一实施例提供的一种应用于日志审计场景中的数据处理系统的处理流程图；

图5是本说明书一实施例提供的一种数据处理方法的流程图；

图6是本说明书一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

日志：网络设备、系统及服务程序等，在运作时都会产生一个叫log的事件记录；每一行都记载着日期、时间、使用者及动作等相关操作的描述，这部分内容将组成日志。

SDK：(软件开发工具包，Software Development Kit)是一些软件工程师为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件时的开发工具的集合。它可以简单的为某个程序设计语言提供应用程序接口API的一些文件，但也可能包括能与某种嵌入式系统通讯的复杂的硬件。

线程：(thread)是操作系统能够进行运算调度的最小单位。它被包含在进程之中，是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流，一个进程中可以并发多个线程，每条线程并行执行不同的任务。

DB：(Data Base)是依照某种数据模型组织起来并存放二级存储器中的数据集合。这种数据集合具有如下特点：尽可能不重复，以最优方式为某个特定组织的多种应用服务，其数据结构独立于使用它的应用程序，对数据的增、删、改和检索由统一软件进行管理和控制。

HTTP：(超文本传输协议，Hypertext Transfer Protocol)是一个简单的请求-响应协议，它通常运行在TCP之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。请求和响应消息的头以ASCII形式给出；而消息内容则具有一个类似MIME的格式。

数据容灾：是指建立一个异地的数据系统，该系统是本地关键应用数据的一个可用复制。在本地数据及整个应用系统出现灾难时，系统至少在异地保存有一份可用的关键业务的数据。该数据可以是与本地生产数据的完全实时复制，也可以比本地数据略微落后，但一定是可用的。采用的主要技术是数据备份和数据复制技术。

在本说明书中，提供了一种数据处理系统，本说明书同时涉及一种数据处理方法，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

实际应用中，在支持业务运行的基础上，各个节点的数据的采集和处理都是与本地业务相关，其并不会限制上下游节点的数据采集和处理过程，很大程度上会限制各个节点的数据处理效率，并且如果节点需要对数据进行加工，还需要通过运维人员接入，通过配置管理系统进行后续的处理，不仅耗时耗力，还会产生额外的成本，因此亟需一种有效的方案以解决上述问题。

图1示出了根据本说明书一实施例提供的一种数据处理系统的结构示意图，该系统100包括业务服务端110和数据处理端120；

所述业务服务端110，被配置为获取目标业务对应的数据处理任务；根据所述数据处理任务创建数据处理包，并将所述数据处理包发送至所述数据处理端120。

所述数据处理端120，被配置为接收所述数据处理包；通过对所述数据处理包进行解析获得结构化信息；采集所述目标业务关联的初始数据，并按照所述结构化信息对所述初始数据进行处理，获得目标数据；将所述目标数据回传至所述业务服务端110。

具体的，所述业务服务端110具体是指需要对数据进行汇总和分析的一端，其属于所述数据处理端120的下游数据处理节点；相应的，所述数据处理端120具体是指能够进行数据采集和预处理的一端，其属于所述业务服务端110的上游数据处理节点；也就是说，当数据处理端120进行数据的采集和处理后，会将处理后的数据发送到业务服务端110，由业务服务端110对数据进行进一步的处理和操作。

基于此，所述目标业务具体是指向业务参与方所提供的业务服务，如看视频参与抽奖活动，则目标业务可以是本次抽奖活动，相应的，业务参与方即为观看视频并参与抽奖的用户；或者业务方提供多媒体资源供用户浏览，则目标业务可以是多媒体资源浏览业务，相应的，业务参与方即为浏览多媒体资源的浏览者；再或者业务方提供租借资源供企业或用户使用，则目标业务可以是租借业务，相应的，业务参与方即为租借资源的企业或者用户。实际应用中，所述目标业务即为业务方向用户/企业等所提供的业务服务，所述目标业务的具体业务服务内容可以根据实际应用场景设定，本实施例在此不作任何限定。

相应的，所述数据处理任务具体是指获取数据的任务，所述业务服务端110通过所述数据处理任务可以请求数据处理端120进行数据采集并回传，以使用回传的数据完成所述数据处理任务。如所述数据处理任务为业务数据持久化存储任务，则业务服务端110可以请求数据处理端120进行业务数据采集和回传，之后由业务服务端110对回传的业务数据进行持久化存储，以响应所述数据处理任务；或者所述数据处理任务为日志审计任务，则业务服务端110可以请求数据处理端120进行日志采集和回传，之后由业务服务端110对回传的日志进行汇总和审计，以响应所述数据处理任务；实际应用中，所述数据处理任务可以根据实际应用场景设定，本实施例在此不作任何限定。

进一步的，所述数据处理包具体是指规范数据处理端120进行数据采集和处理的程序包，通过所述数据处理包可以确定业务服务端110所需要的数据类型、字段取值等，以方便数据处理端120可以基于该数据处理包进行数据的处理操作，从而避免回传冗余的数据，造成业务服务端110的计算资源的消耗；相应的，所述结构化信息具体是指数据处理包中包含数据采集和数据处理对应信息，通过所述结构化信息可以对数据处理端120采集到的数据进行处理，以整理出业务服务端110所需的数据；即所述目标数据即为按照所述结构化信息进行整理后得到的数据，其可以直接回传给业务服务端110进行处理，达到节省业务服务端110计算资源的目的。

实际应用中，为了能够使得业务服务端110与数据处理端120之间提高数据处理效率，降低业务服务端110对接收到的数据进一步处理的操作，可以在所述业务服务端110获取到所述目标业务对应的数据处理任务后，针对该数据处理任务创建所述数据处理包，以使得所述数据处理端120可以基于所述数据处理包进行数据的采集和处理，从而加快数据处理任务的完成；进一步的，当创建完成所述数据处理包后，即可将所述数据处理包发送至所述数据处理端120。

所述数据处理端120将接收所述数据处理包，之后将通过对所述数据处理包进行解析获得所述结构化信息，此时数据处理端120还将确定需要进行目标业务相关数据的采集，以响应业务服务端110的数据处理任务，即所述数据处理端120当获得所述结构化信息的同时，还将采集所述目标业务关联的初始数据，之后利用所述结构化信息对所述初始数据进行处理获得目标数据，其中，所述初始数据具体是指所述数据处理端120结合数据处理包所采集到的数据，相应的，所述目标数据即为按照所述结构化信息对初始数据进行处理后得到的数据，且所述目标数据能够支持所述业务服务端110完成所述数据处理任务。所述初始数据可以是用户行为日志，业务日志或数据库日志等。最后数据处理端120将所述目标数据回传给所述业务服务端110即可，以使得业务服务端110可以基于所述目标数据直接完成所述数据处理任务，避免调用额外的计算资源对目标数据进行处理，有效的提高了数据处理效率。

实际应用中，所述数据处理包中可以携带有数据采集请求，也就是说，当所述数据处理端120接收到所述数据处理包之后，可以通过解析所述数据处理包获得所述数据采集请求，之后按照该采集请求进行初始数据的采集，再进行后续的处理；也可以在获得所述结构化信息后，按照所述结构化信息进行初始数据的采集，之后再按照所述结构化信息对采集到的数据进行预处理以获得所述目标数据，最后再回传给业务服务端110即可；具体实施时，基于数据处理包进行初始数据采集的启动可以根据实际应用场景设定，本实施例在此不作任何限定。

进一步的，由于所述数据处理包的创建是基于所述数据处理任务完成的，因此为了能够保证数据处理包可以规范所述数据处理端120精准的回传目标数据，则可以通过创建结构化信息的方式构建所述数据处理包，本实施例中，所述业务服务端110，进一步被配置为接收业务处理请求，并根据所述业务处理请求创建所述数据处理任务；按照所述数据处理任务构建所述结构化信息，并通过业务代码生成所述结构化信息对应的所述数据处理包。

具体的，所述业务处理请求具体是指创建所述数据处理任务的请求，且通过所述数据处理请求可以确定业务服务端110所需要的目标数据；相应的，所述业务代码具体是指生成所述数据处理包的底层代码，以使得数据处理端可以从代码层面完成数据的采集和处理并回传。

基于此，当所述业务服务端110接收到所述数据处理请求后，可以确定此时需要联合所述数据处理端120完成数据的采集和处理，而为了能够提高业务服务端110和数据处理端120之间的数据处理效率，所述业务服务端110可以基于所述业务处理请求创建所述数据处理任务，并按照所述数据处理任务构建所述结构化信息，从而初步确定业务服务端110所述的数据内容，最后再结合业务代码生成所述结构化信息对应的所述数据处理包即可，以达到封装所需信息的目的，使得数据处理端120能够快速响应并返回目标数据。

更进一步的，所述业务服务端110在创建所述数据处理任务时，需要充分结合所需才能够精准的完成数据的采集和处理，因此在创建所述数据处理任务时，也需要从更细的粒度触发进行创建，本实施例中，所述业务服务端110，进一步被配置为根据所述业务处理请求确定数据信息、字段信息以及类型信息；基于所述数据信息、所述字段信息以及所述类型信息创建所述数据处理任务。

具体的，所述数据信息具体是指业务服务端110所需要的数据对应的信息，所述字段信息具体是指业务服务端110所需要的数据中包含字段数量的信息和各个字段含义的信息；所述类型信息具体是指业务服务端110所需要的数据对应的类型信息，以及数据中包含的字段对应的类型信息。

基于此，在得到所述业务处理请求后，可以从所述业务处理请求出发确定所述数据信息、所述字段信息以及所述类型信息，从而确定本次数据的采集和处理所述业务服务端110所需要的内容，之后基于所述数据信息、所述字段信息以及所述类型信息创建所述数据处理任务即可，以方便后续能够构建出业务处理请求的结构化信息，从而达到规范数据处理端120进行数据采集和处理的目的。

当基于所述数据信息、字段信息和所述类型信息创建出所述数据处理任务后，会根据所述数据处理任务构建所述结构化信息，以此为基础创建所述数据包发送至所述数据处理端120，所述数据处理端当接收到所述数据处理包后，为了能够快速的响应所述业务服务端110，会按照所述数据处理包中的结构化信息对采集到的初始数据进行处理，以获得所述目标数据回传给所述业务服务端110，本实施例中，所述数据处理端120，进一步被配置为根据所述结构化信息确定所述数据信息、所述字段信息和所述类型信息；按照所述数据信息、所述字段信息和所述类型信息对所述初始数据进行处理，根据处理结果获得所述目标数据。

具体的，在所述数据处理端120接收到所述数据处理包之后，可以通过解析所述数据处理包获得所述结构化信息，而由于所述数据结构化信息是基于数据信息、字段信息和类型信息所构建的，因此在确定所述结构化信息后，可以通过所述结构化信息确定数据信息、字段信息和类型信息，此时所述数据处理端120采集到的初始数据由于体积较大，且可能包含过多冗余的数据；为了能够在回传给所述业务服务端110之后，业务服务端110可以快速的完成后续的处理，此时可以按照所述结构化信息对所述初始数据进行处理，即按照所述数据信息、所述字段信息和所述类型信息对所述初始数据进行处理，以根据处理结果获得所述目标数据，再回传给所述业务服务端110即可，以提高数据处理任务。

实际应用中，在结合所述数据信息、所述字段信息和所述类型信息对所述初始数据进行处理的过程中，实则是对所述初始数据进行规范化，可以理解为剔除初始数据中的冗余数据、规范数据类型、设定字段取值、确定字段含义等。以使得生成的目标数据即为业务服务端110所需要使用的数据，节省业务服务端110的计算资源，提高处理效率。

以业务服务端110为日志审计节点，数据处理端120为日志采集节点为例对数据处理系统进行说明；基于此，当日志审计节点接收到运维人员提交的业务处理请求后，可以根据业务处理请求确定数据信息、字段信息和类型信息，以结合上述三种信息创建日志审计任务。此时为了提高日志审计的效率，可以根据日志审计任务构建日志处理结构化信息，在结合目标业务的业务代码创建出日志处理结构化信息对应的日志处理包SDK_log，并将其发送到日志采集节点。

日志采集节点接收到日志处理包SDK_log后，通过对日志处理包SDK_log进行解析，获得日志处理结构化信息，根据日志处理结构化信息确定需要采集用户行为日志，时间为T0～T1区间，其中需要包含S个字段，分别为字段field_1，field_2……field_s；字段field_1表示用户姓名，字段field_2表示用户ID……field_s表示用户参与业务时间；此时日志采集节点将对目标业务关联的用户行为日志、数据库日志以及业务日志进行全量采集，之后按照结构化信息对采集到的日志进行处理；即日志采集节点首先从全量采集的日志中筛选出用户行为日志，其次选择T0～T1区间的用户行为日志，再次按照字段field_1，field_2……field_s进行筛选，最后根据筛选结果即可得到日志审计节点需要的目标用户行为日志；最后将目标用户行为日志回传给日志审结节点，由该节点进行日志审计操作即可。

综上所述，通过规范数据处理端回传数据的结构的方式，保证回传的数据都是业务服务端所需要的数据，从而进一步节省业务服务端对回传的目标数据进行处理的操作，有效的提高了数据处理效率。

具体实施时，在按照所述结构化信息对所述初始数据进行规范化的同时，为了能够减小目标数据的体积(占用空间较小)，提高传输过程中能够批量传输的数量，以及降低传输前的等待时间，还可以根据所述结构化信息对所述初始数据进行序列化处理，从而更进一步的提高响应所述业务服务端110的速率，以及数据处理效率，本实施例中，参见图2所示，提供第二种数据处理系统的结构示意图，其中，所述数据处理端120，进一步被配置为基于所述结构化信息对所述初始数据进行校验获得校验数据；对所述校验数据进行字段值设置，获得中间数据；通过对所述中间数据进行序列化处理，获得所述目标数据。

具体的，所述校验数据具体是指通过数据处理端120配置的校验器进行校验处理后得到的数据，通过所述校验器可以对数据的架构以及是否缺少进行检测，从而保证后续传输的目标数据的完整性；相应的，所述中间数据具体是指对所述校验数据进行字段值设置后得到的数据，其设置的字段值是检验数据中的公共字段值，从而可以有效的减小后续生成的目标数据的体积。

基于此，在所述数据处理端120通过解析所述数据处理包获得所述结构化信息后，可以根据所述结构化信息对所述初始数据进行校验，以获得所述校验数据，从而避免出现数据处理端120采集数据不完整的问题，之后再对所述校验数据进行字段值设置，获得所述中间数据，达到压缩数据体积的效率；最后通过对所述中间数据进行序列化处理即可得到所述目标数据，将其发送至所述业务服务端110即可，以响应所述数据处理任务。

进一步的，在所述数据处理端120将初始数据处理为目标数据后，由于数据处理端120和业务服务端110之间的传输关系较为复杂，如其他工作线程也在进行数据的传输任务，而二者之间的带宽资源固定，因此为了能够保证目标数据可以成功回传给所述业务服务端110，在得到所述目标数据后，可以将所述目标数据临时写到数据处理列表，并通过判断回传条件的方式完成所述目标数据的回传操作，本实施例中，所述数据处理端120，进一步被配置为将所述目标数据添加至数据处理列表；在所述目标数据满足回传条件的情况下，在所述数据处理列表中提取所述目标数据，并基于地址调用策略将所述目标数据回传至所述业务服务端；其中，所述数据处理列表将按照预设的缓存条件对所述目标数据进行缓存处理。

具体的，所述数据处理列表具体是指能够对所述目标数据进行临时存储的列表，而添加至所述数据处理列表中的数据都将按照处理策略进行回传条件的判断，从而保证业务服务端110收到的目标数据都是可用的；相应的，所述回传条件具体是指判断目标数据是否满足业务服务端110需求的数据，即目标数据是否可以支持所述业务服务端110完成所述数据处理任务；相应的，所述地址调用策略具体是指在进行目标数据发送时，将数据成功发送至所述业务服务端110的策略。其中，所述缓存条件具体是指在所述目标数据添加到所述数据处理列表后，对所述目标数据进行临时缓存的条件，即所述目标数据会临时添加到缓冲区，当目标数据发送完成后，在对缓冲区中的目标数据进行删除，以避免传输失败数据丢失。

基于此，由于数据处理端120所采集的初始数据可能是连续的，即数据处理端120将采集至少一个初始数据，而后续需要针对每个初始数据都进行处理，以获得至少一个目标数据；进而在传输时，也将对每个目标数据都进行回传，而在此过程中，为了能够保证回传的各个目标数据都是满足业务服务端110需求的数据，可以在回传前对各个目标数据均进行回传条件的判断；即：在将所述目标数据添加到所述数据处理列表后，此时可以对所述数据处理列表中的目标数据进行回传条件的判断，若不满足回传条件，可以请求所述数据处理端120重新进行数据的采集和处理，以生成满足需求的目标数据，再进行后续的传输处理；若满足回传条件，则此时可以从所述数据处理列表中提取满足回传条件的目标数据，之后基于所述地址调用策略将所述目标数据回传至所述业务服务端110，以使得业务服务端110可以进行后续的业务处理操作。

此外，在将所述目标数据添加到所述数据处理列表，实则是在内存中申请一块缓冲区，以将目标数据放置到缓冲区中，当缓冲区达到预设条件或数据满足回传条件时，都可以将所述目标数据回传到所述业务服务端110，本实施例中，所述数据处理端120，进一步被配置为将所述目标数据添加至内存中的目标缓冲区；在所述目标缓冲区达到预设回传条件的情况下，通过回传线程将所述目标数据回传至所述业务服务端110；其中，所述预设回传条件包括缓存时间回传条件或内存占比回传条件。

具体的，所述目标缓冲区具体是指在所述数据处理端120的内存中申请的一块专用于存储临时目标数据的区域，相应的，所述目标缓冲区对应的预设回传条件具体是指目标缓冲区存储数据的时间或者数量达到设定值的条件，通过所述预设回传条件可以完成数据快速的传输，以避免占用缓冲区过长的时间。其中，所述回传线程具体是指单线程，如Sender线程。

基于此，当所述目标数据被写到所述目标缓冲区后，此时目标缓冲区中将存在所述目标数据，则可以检测所述目标缓冲区是否达到预设的回传条件，若是，则说明所述目标缓冲区中的目标数据可以向所述业务服务器进行发生，则通过回传线程将所述目标数据回传到所述业务服务端110即可，以使得业务服务端110进行后续的处理操作。

沿用上例，在日志采集节点完成日志采集处理后，将获得数据库日志、用户行为日志以及业务日志，此时从中提取出用户行为日志，并对用户行为日志进行校验、公共字段值设置以及序列化处理，根据处理结果得到目标用户行为日志，在此过程中，将会不断的完成日志采集和处理，即会得到多个目标用户行为日志；之后为了能够向日志审计节点反馈满足审计要求的目标用户行为日志，则可以将各个目标用户行为日志临时添加到日志处理列表(RecordAccumulator)，当列表中的目标用户行为日志满足回传条件的情况下，即可从列表中提取该条目标用户行为日志，启动一个Sender线程，会数据通过HTTP调用的方式发送到日志审计节点，以使得日志审计节点结合目标用户行为日志完成审计处理操作。

实际应用中，Sender线程为单线程，当进行日志回传时，为了避免单线程堵塞，可以减少处理逻辑，使得Sender线程只负责回去满足条件的日志，将较耗时的HTTP请求通过线程池并发实现，每次获取日志时，会计算出下一次发出日志的时间，这中间线程将会被挂起，从而可以让线程不一直空跑，达到充分利用计算资源的目的。

综上，通过采用数据处理列表的方式对目标数据进行临时存储，不仅可以避免数据丢失，还能够提高数据传输效率，从而使得业务服务端110可以快速的完成数据处理任务。

更进一步的，在所述业务服务端110接收到所述目标数据后，可以依据所述目标数据完成所述数据处理任务，而在此过程中，由于回传的目标数据量较大，且这部分数据会被先写到本地的Kafka中，很容易发生设备故障而导致数据丢失的问题，或者目标数据无法正常写到本地的Kafka中，出现数据丢失的问题，很大程度上会降低数据处理效率；因此为了能够有效的提高数据的安全性及完成性，避免数据丢失，可以在业务服务端110接收到所述目标数据后，通过容灾策略对目标数据进行拷贝，从而降低数据丢失的概率；本实施例中，参见图3所示，提供第三种数据处理系统的结构示意图，其中，所述业务服务端110，还被配置为接收所述目标数据，并将所述目标数据写入本地磁盘；检测所述目标业务对应的分布式系统是否存在故障；若否，在所述本地磁盘中提取所述目标数据并写入所述分布式系统；若是，等待故障排除指令，并在接收到所述故障排除指令的情况下，在所述本地磁盘中提取所述目标数据并写入所述分布式系统。

具体的，所述本地磁盘具体是指所述业务服务端可以长时间且大容量存储目标数据的磁盘；相应的，所述分布式系统具体是指部署在所述业务服务端110，且需要通过所述目标数据完成所述数据处理任务的系统。

基于此，所述业务服务端110接收到所述目标数据后，为了避免出现设备故障而导致数据丢失的问题，可以将所述目标数据在写到Kafka之前，将其写到本次磁盘，并对所述目标业务对应的所述分布式系统(Kafka)进行故障检测，若分布式系统未发生故障，则可以从所述本地磁盘中提取所述目标数据写到所述分布式系统，以完成所述数据处理任务；若分布式系统发生故障，则可以告知运维人员，直至故障解除后，再从所述本地磁盘中提取所述目标数据写到所述分布式系统，以完成所述数据处理任务即可。

实际应用中，在将所述目标数据写到所述分布式系统的过程中，由于写入失败的情况下，业务服务端110会采用重试策略不断的进行写操作，这就会导致计算资源的浪费，因此为了避免业务服务端在进行数据写入时频繁操作，可以引入backoff策略，即在写入失败或者无法正确提取所述目标数据时，按照重试次数递增sleep时间，当达到设定时间阈值时，可以关闭写操作，以降低资源的消耗。同时，为了避免设备故障而造成数据丢失，可以持久化记录当前Source的position。当业务服务端110因为故障退出程序且重启时，Source可以读取上一次记录的position，将读取到的position之后的目标数据写到Kafka上，从而降低设备重启而带来的影响。

此外，为了避免业务服务端110出现目标数据重复的问题，可以在传输的数据处理包中添加公共字段logID，以使得数据处理端120根据数据处理包可以完成数据去重的操作。

更进一步的，由于本地磁盘的存储空间有限，如果持续写入可能会造成磁盘被长时间占用的问题，并且会影响其他数据的写入，因此为了能够避免对其他数据的写入产生影响，可以基于降级策略对磁盘进行更新，本实施例中，所述业务服务端110，还被配置为：

具体的，所述预设阈值具体是指判断本地磁盘的存储空间是否需要进行清理的阈值，所述预设阈值的大小可以根据实际场景进行设定，本实施例在此不作任何限定；相应的，所述待删除数据具体是指所述本地磁盘中存储时间过长且不被使用的数据。

基于此，在将所述目标数据写到所述本地磁盘前，可以对所述本地磁盘的存储空间进行检测，若检测到所述本地磁盘的存储空间小于预设阈值，说明本地磁盘当前的存储空间无法满足目标数据的写入，为了避免目标数据丢失，可以从所述本地磁盘中选择存储时间最长，且未被写入分布式系统的待删除数据进行处理，以释放所述本地磁盘的存储空间，之后根据释放结果将所述目标数据写入本地磁盘等待即可。

综上，为了能够保证目标数据可以持久化，可以将所述目标数据写到本地磁盘，之后再异步的将数据写到所述分布式系统，从而避免数据丢失，且保证业务服务端110可以完成所述数据处理任务。

下述结合附图4，以本说明书提供的数据处理系统在日志审计场景中的应用为例，对所述数据处理系统进行进一步说明。其中，图4示出了本说明书一实施例提供的一种应用于日志审计场景中的数据处理系统的处理流程图，具体包括以下步骤：

步骤S402，日志审计节点接收日志审计请求。

步骤S404，日志审计节点根据日志审计请求创建日志审计任务。

步骤S406，日志审计节点根据日志审计任务构建结构化信息。

步骤S408，日志审计节点通过业务代码创建结构化信息对应的日志处理包。

步骤S410，日志审计节点将日志处理包发送至日志采集节点。

步骤S412，日志采集节点接收日志处理包，并根据日志处理包确定日志信息。

步骤S414，日志采集节点根据日志信息采集业务日志。

步骤S416，日志采集节点基于日志处理包中的结构化信息对业务日志进行处理，获得目标业务日志。

步骤S418，日志采集节点调用回传线程将目标业务日志回传到日志审计节点。

步骤S420，日志审计节点将目标业务日志写入本地磁盘。

步骤S422，日志审计节点异步将本地磁盘中的目标业务日志写入Kafka。

本说明书提供数据处理系统，实现了通过规范数据处理端回传数据的结构的方式，保证回传的数据都是业务服务端所需要的数据，从而进一步节省业务服务端对回传的目标数据进行处理的操作，有效的提高了数据处理效率。

与上述系统实施例相对应，本说明书还提供了数据处理实施例，图5示出了本说明书一实施例提供的一种数据处理的流程图。如图5所示，该方法包括以下步骤：

步骤S502，业务服务端获取目标业务对应的数据处理任务；

步骤S504，所述业务服务端根据所述数据处理任务创建数据处理包，并将所述数据处理包发送至所述数据处理端；

步骤S506，所述数据处理端接收所述数据处理包；

步骤S508，所述数据处理端通过对所述数据处理包进行解析获得结构化信息；

步骤S510，所述数据处理端采集所述目标业务关联的初始数据，并按照所述结构化信息对所述初始数据进行处理，获得目标数据；

步骤S512，所述数据处理端将所述目标数据回传至所述业务服务端。

一个可选的实施例中，所述方法还包括：

所述业务服务端接收业务处理请求，并根据所述业务处理请求创建所述数据处理任务；按照所述数据处理任务构建所述结构化信息，并通过业务代码生成所述结构化信息对应的所述数据处理包。

一个可选的实施例中，所述方法还包括：

所述业务服务端根据所述业务处理请求确定数据信息、字段信息以及类型信息；基于所述数据信息、所述字段信息以及所述类型信息创建所述数据处理任务。

一个可选的实施例中，所述方法还包括：

所述数据处理端根据所述结构化信息确定所述数据信息、所述字段信息和所述类型信息；按照所述数据信息、所述字段信息和所述类型信息对所述初始数据进行处理，根据处理结果获得所述目标数据。

一个可选的实施例中，所述方法还包括：

所述数据处理端基于所述结构化信息对所述初始数据进行校验获得校验数据；对所述校验数据进行字段值设置，获得中间数据；通过对所述中间数据进行序列化处理，获得所述目标数据。

一个可选的实施例中，所述方法还包括：

所述数据处理端将所述目标数据添加至数据处理列表；在所述目标数据满足回传条件的情况下，在所述数据处理列表中提取所述目标数据，并基于地址调用策略将所述目标数据回传至所述业务服务端；其中，所述数据处理列表将按照预设的缓存条件对所述目标数据进行缓存处理。

一个可选的实施例中，所述方法还包括：

所述数据处理端将所述目标数据添加至内存中的目标缓冲区；在所述目标缓冲区达到预设回传条件的情况下，通过回传线程将所述目标数据回传至所述业务服务端；其中，所述预设回传条件包括缓存时间回传条件或内存占比回传条件。

一个可选的实施例中，所述方法还包括：

所述业务服务端接收所述目标数据，并将所述目标数据写入本地磁盘；检测所述目标业务对应的分布式系统是否存在故障；若否，在所述本地磁盘中提取所述目标数据并写入所述分布式系统。

一个可选的实施例中，所述方法还包括：

所述业务服务端在所述本地磁盘的存储空间小于预设阈值的情况下，提取所述本地磁盘中存储时间最长的待删除数据，并对所述待删除数据进行处理；根据处理结果将所述目标数据写入所述本地磁盘。

本说明书提供的数据处理方法，为了能够保证上下游业务之间传输的数据更加规范，以达到节省计算资源的同时提高数据处理效率，可以在业务服务端获取到目标业务对应的数据处理任务后，根据数据处理任务创建数据处理包，并将其发送到数据处理端，实现数据处理端可以按照数据处理包进行数据的采集和处理；当数据处理端接收到数据处理包后，将从数据处理包中解析出结构化信息，同时采集本地产生的以目标业务关联的初始数据，之后使用结构化信息将初始数据处理为目标数据，再回传给业务服务端，实现了通过规范数据处理端回传数据的结构的方式，保证回传的数据都是业务服务端所需要的数据，从而进一步节省业务服务端对回传的目标数据进行处理的操作，有效的提高了数据处理效率。

上述为本实施例的一种数据处理方法的示意性方案。需要说明的是，该数据处理方法的技术方案与上述的数据处理系统的技术方案属于同一构思，数据处理方法的技术方案未详细描述的细节内容，均可以参见上述数据处理系统的技术方案的描述。

图6示出了根据本说明书一实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。

计算设备600还包括接入设备640，接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。

其中，处理器620用于执行如下计算机可执行指令：

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的数据处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于：

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的数据处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书并不受所描述的动作顺序的限制，因为依据本说明书，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种数据处理系统，其特征在于，包括：

业务服务端和数据处理端；

2.根据权利要求1所述的数据处理系统，其特征在于，所述业务服务端，进一步被配置为：

3.根据权利要求2所述的数据处理系统，其特征在于，所述业务服务端，进一步被配置为：

4.根据权利要求3所述的数据处理系统，其特征在于，所述数据处理端，进一步被配置为：

5.根据权利要求1所述的数据处理系统，其特征在于，所述数据处理端，进一步被配置为：

6.根据权利要求5所述的数据处理系统，其特征在于，所述数据处理端，进一步被配置为：

7.根据权利要求1述的数据处理系统，其特征在于，所述数据处理端，进一步被配置为：

8.一种数据处理方法，其特征在于，包括：

9.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现下述方法：

10.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求8所述方法的步骤。