CN112835682A

CN112835682A - 一种数据处理方法、装置、计算机设备和可读存储介质

Info

Publication number: CN112835682A
Application number: CN202110224415.7A
Authority: CN
Inventors: 刘栩良
Original assignee: Ping An Consumer Finance Co Ltd
Current assignee: Ping An Consumer Finance Co Ltd
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-05-25
Anticipated expiration: 2041-02-25
Also published as: CN112835682B

Abstract

本发明涉及智能决策技术领域，公开了一种数据处理方法：将业务数据按照业务节点进行划分，获得多个业务节点数据；根据多个用于执行数据分类的线程的数据处理能力，将获得的业务节点数据分批次存储至缓存；根据缓存当前存储的业务节点数据创建多个待分类任务；通过用于执行数据分类的线程从缓存当前存储的业务节点数据中，筛选出与待分类任务对应的业务节点数据作为待分类数据；将待分类数据输入至与待分类任务关联的分类模型，以确定待分类数据的类型；根据预定标识信息确定具有关联关系的待分类数据，并根据具有关联关系的待分类数据的类型，确定业务数据的属性。本发明还涉及区块链技术，将业务数据的属性存储在区块链中，可保证数据安全性。

Description

一种数据处理方法、装置、计算机设备和可读存储介质

技术领域

本发明涉及智能决策技术领域，具体涉及一种数据处理方法、装置、计算机设备和计算机可读存储介质。

背景技术

现有技术在对历史业务数据进行分类处理时，因历史业务数据具有时间线的先后顺序，采用单机单线程的模式进行数据处理，当数据量过大且对数据处理时限要求较为严格时，现有技术的处理能力不足。

针对现有技术中采用单机单线程处理业务数据时处理能力太差的技术问题，目前尚未提供有效的解决方案。

发明内容

本发明的目的在于提供了一种数据归集方法、装置、计算机设备和计算机可读存储介质，能够解决现有技术中采用单机单线程处理业务数据时处理能力太差的技术问题。

本发明的一个方面提供了一种数据处理方法，所述方法包括：将业务数据按照业务节点进行划分，获得多个业务节点数据；根据多个用于执行数据分类的线程的数据处理能力，将获得的业务节点数据分批次存储至缓存，其中，所述多个用于执行数据分类的线程依附在分布式集群的多个服务器节点上；根据所述缓存当前存储的业务节点数据创建多个待分类任务；通过一所述用于执行数据分类的线程从所述缓存当前存储的业务节点数据中，筛选出与一所述待分类任务对应的业务节点数据作为待分类数据；将所述待分类数据输入至与所述待分类任务关联的分类模型，以确定所述待分类数据的类型；根据所述待分类数据的预定标识信息确定具有关联关系的待分类数据，并根据具有关联关系的待分类数据的类型，确定所述业务数据的属性。

可选地，所述根据多个用于执行数据分类的线程的数据处理能力，将获得的业务节点数据分批次存储至缓存，包括：根据所述多个用于执行数据分类的线程的数据处理能力，确定最大可处理数据量；当获得的业务节点数据中的未处理业务节点数据的数据量大于所述最大可处理数据量时，根据预设提取规则从未处理业务节点数据中提取所述最大可处理数据量的数据存储至缓存；当获得的业务节点数据中未处理业务节点数据的数据量小于所述最大可处理数据量时，提取所有未处理业务节点数据存储至缓存。

可选地，在所述根据多个用于执行数据分类的线程的数据处理能力，将获得的业务节点数据分批次存储至缓存之前，所述方法还包括：在所述分布式集群的每个服务器节点中启动一线程池，其中，所述线程池包括多个线程；从启动的所有所述线程池中确定出所述多个用于执行数据分类的线程。

可选地，在所述将所述待分类数据输入至与所述待分类任务关联的分类模型，以确定所述待分类数据的类型之前，所述方法还包括：获取多条样本数据，其中，每条所述样本数据包括一分类样本的特征和所述分类样本的类型；计算各个类型的分类样本在所述多条样本数据中的出现频率；确定每个所述分类样本的特征所属的预定划分属性；计算在各个类型的分类样本条件下，属于各个所述预定划分属性的特征的条件概率；根据各个类型的分类样本的出现频率和属于各个所述预定划分属性的特征的条件概率，确定所述分类模型。

可选地，所述将所述待分类数据输入至与所述待分类任务关联的分类模型，以确定所述待分类数据的类型，包括：将所述分类模型中各个类型的分类样本的出现频率，确定为所述待分类数据属于各个类型时的出现频率；确定所述待分类数据的目标特征和每个目标特征所属的目标预定划分属性；从所述分类模型中筛选出与所述目标特征属于同一类型的特征所对应的条件概率；从筛选出的条件概率中确定与所述目标预定划分属性相同的预定划分属性所对应的条件概率，作为所述目标特征的条件概率；根据所述待分类数据属于各个类型时的出现频率和所述目标特征的条件概率，计算所述待分类数据属于各个类型的概率；将概率最大的类型确定为所述待分类数据的类型。

可选地，所述多个待分类任务存储在缓存中，在所述通过一所述用于执行数据分类的线程从所述缓存当前存储的业务节点数据中，筛选出与一所述待分类任务对应的待分类数据之后，所述方法还包括：通过该用于执行数据分类的线程从所述缓存中删除该待分类任务。

可选地，所述方法还包括：将确定出的所述业务数据的属性上传至区块链中。

本发明的另一个方面提供了一种数据处理装置，所述装置包括：划分模块，用于将业务数据按照业务节点进行划分，获得多个业务节点数据；存储模块，用于根据多个用于执行数据分类的线程的数据处理能力，将获得的业务节点数据分批次存储至缓存，其中，所述多个用于执行数据分类的线程依附在分布式集群的多个服务器节点上；创建模块，用于根据所述缓存当前存储的业务节点数据创建多个待分类任务；筛选模块，用于通过一所述用于执行数据分类的线程从所述缓存当前存储的业务节点数据中，筛选出与一所述待分类任务对应业务节点数据作为的待分类数据；第一确定模块，用于将所述待分类数据输入至与所述待分类任务关联的分类模型，以确定所述待分类数据的类型；第二确定模块，用于根据所述待分类数据的预定标识信息确定具有关联关系的待分类数据，并根据具有关联关系的待分类数据的类型，确定所述业务数据的属性。

本发明的再一个方面提供了一种计算机设备，所述计算机设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述的数据处理方法。

本发明的又一个方面提供了一种计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时实现上述任一实施例所述的数据处理方法。进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明提供的数据处理方法，在将具有时间先后依赖的业务数据拆分后，通过分布式集群分批次处理这些业务节点数据，具体是根据多个用于执行数据分类的线程的数据处理能力，将获得的业务节点数据分批次存储至缓存，然后根据缓存当前存储的业务节点数据创建多个待分类任务，再利用每一个用于执行数据分类的线程从缓存当前存储的业务节点数据中，筛选出与每一个待分类任务对应的待分类数据，然后将待分类数据输入至对应的分类模型，以确定该待分类数据的类型，在处理完所有的业务节点数据之后，再通过待分类数据的预定标识信息追溯各个待分类数据的关联关系，然后根据具有关联关系的待分类数据的类型，确定业务数据的属性。本发明通过将业务数据拆分成多个业务节点数据，每个业务节点数据中包含若干待分类数据，通过预定标识信息标记各个待分类数据之间的关联关系，然后根据分布式集群处理这些业务节点数据中的待分类，最后根据处理结果以及标记的关联关系确定业务数据的属性，提高了数据处理速度，解决了现有技术中采用单机单线程处理业务数据时处理能力太差的技术问题。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示意性示出了根据本发明实施例一的数据处理方法的流程图；

图2示意性示出了根据本发明实施例一的确定待分类数据的类型的示意图；

图3示意性示出了根据本发明实施例二的数据处理装置的框图；

图4示意性示出了根据本发明实施例三的适于实现数据处理方法的计算机设备的框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

实施例一

本实施例一公开了一种数据处理方法，该方法可以应用于分布式集群。如图1所示，图1示意性示出了根据本发明实施例一的数据处理方法的流程图，其中，该数据处理方法可以包括步骤S1～步骤S6，具体地：

步骤S1，将业务数据按照业务节点进行划分，获得多个业务节点数据。

本实施例中，可以将业务数据切割成多个业务节点数据，这些业务节点数据共同组成该业务数据，其中，为保证数据的安全性，可将获得的业务节点数据存储在区块链中。

在将具有时间先后依赖的业务数据拆分后，可以通过预定标识信息标记各个业务节点数据之间的关联关系，然后通过分布式集群分批次处理这些标记了关联关系的业务节点数据。比如通过预定标识信息标记各个业务节点数据之间的时间先后顺序，并通过预定标识信息标记属于同一目标(如用户、企业或者城市等)的业务节点数据。其中，业务数据可以为多个用户在理财APP上的一系列具有时间连续性的操作数据，例如业务数据为多个用户注册理财APP账号并购买一款理财产品后申请维权这一系列操作后产生的数据，相应地，业务节点可以为：注册节点、交易节点和售后节点等，业务节点数据按照时间先后顺序分别为：注册数据、交易数据和售后数据等，属于同一用户1的业务节点数据为：注册数据1、交易数据1和售后数据1；属于同一用户2的业务节点数据为：注册数据2、交易数据2和售后数据2，…，等等。

步骤S2，根据多个用于执行数据分类的线程的数据处理能力，将获得的业务节点数据分批次存储至缓存，其中，所述多个用于执行数据分类的线程依附在分布式集群的多个服务器节点上。

本实施例中，分布式集群可以包括多个服务器节点，每个服务器节点设有一个线程池，每个线程池中包括多个线程。具体地，在步骤S2之前，所述方法还包括步骤A1和步骤A2，其中：

步骤A1，在所述分布式集群的每个服务器节点中启动一线程池，其中，所述线程池包括多个线程；

步骤A2，从启动的所有所述线程池中确定出所述多个用于执行数据分类的线程。

所谓多个用于执行数据分类的线程依附在分布式集群的多个服务器节点上，可以是该多个服务器节点的每个服务器节点上存在一个用于执行数据分类的线程，也可以是该多个服务器节点的每个服务器节点上存在多个用于执行数据分类的线程。若是分布式集群的所有服务器节点中的线程均用于执行数据分类，则将该所有的线程统称为用于执行数据分类的线程。

本实施例中，数据处理能力指的是所有用于执行数据分类的线程作为一个整体的数据处理能力，确定数据处理能力包括如下方案：

方案一，数据处理能力是指线程按照预定处理逻辑，在预定时长T1内处理完的数据量S1，其中，线程处理完的数据量越多，数据处理能力越强；线程处理完的数据量越少，数据处理能力越差。此时可以将该数据量确定为表征线程数据处理能力的参数。

方案二，数据处理能力是指线程按照预定处理逻辑，处理完预定数据量S2的数据所需要的时长T2，其中，线程所需要的时长越短，数据处理能力越强；线程所需要的时长越长，数据处理能力越差。此时可以将该时长确定为表征线程数据处理能力的参数。

方案三，数据处理能力是指在单位时长内线程处理完的数据量S3，即线程的数据处理速度，其中，线程的数据处理速度越快，数据处理能力越强；线程的数据处理速度越慢，数据处理能力越差。此时可以将该数据处理速度确定为表征数据处理能力的参数。

本实施例中，可以根据该多个用于执行数据分类的线程的数据处理能力，确定线程的最大可处理数据量，然后进一步确定出每一次要将哪些业务节点数据存储至缓存。具体地，步骤S2可以包括步骤S21～步骤S23，其中：

步骤S21，根据所述多个用于执行数据分类的线程的数据处理能力，确定最大可处理数据量；

步骤S22，当获得的业务节点数据中的未处理业务节点数据的数据量大于所述最大可处理数据量时，根据预设提取规则从未处理业务节点数据中提取所述最大可处理数据量的数据存储至缓存；

步骤S23，当获得的业务节点数据中未处理业务节点数据的数据量小于所述最大可处理数据量时，提取所有未处理业务节点数据存储至缓存。

本实施例中，在通过上述步骤确定出线程的数据处理能力之后，根据这些线程的数据处理能力，可以确定这些用于执行数据分类的线程的最大可处理数据量(如N)。比如，根据业务需求获知需要在T3时长内处理完数据，则根据方案一确定的最大可处理数据量为：S1/T1*T3；根据方案二确定的最大可处理数据量为：S2/T2*T3；根据方案三确定的最大可处理数据量为：S3*T3。

进一步，可以从获得的业务节点数据的未处理业务节点数据中确定数据量小于等于最大可处理数据量(如N)的数据，存储至缓存，作为本批次待处理的数据。其中，在首次消费获得的业务节点数据时，未处理业务节点数据即为该获得的业务节点数据；在非首次消费获得的业务节点数据时，未处理业务节点数据即为获得的业务节点中去除已消费的业务节点数据。当处理完缓存中当前存储的业务节点数据之后，也即处理完本批次待处理的数据之后，可以根据数据处理能力再次从未处理业务节点数据中确定出分布式集群下次要处理的数据存储至缓存，以实现将获得的时间节点数据分批次存至缓存的目的。

比如，确定出的最大可处理数据量为N，将业务数据按照业务节点划分得到业务节点数据1(数据量为M1)、业务节点数据2(数据量为M2)、业务节点数据3(数据量为M3)和业务节点数据4(数据量为M4)。在首次消费获得的业务节点数据时，若M1、M2、M3和M4之和小于等于N，则将所有的业务节点数据一起存储至缓存，作为本批次待处理的数据。若M1、M2、M3和M4均小于N，M1、M2和M3之和大于N，则可以将业务节点数据1全部存储至缓存，将业务点数据2全部存储至缓存，然后从业务节点数据3中提取N-M1-M2的数据量的数据存储至缓存，作为本批次待处理的数据。若M3和M4之和小于N，当处理完缓存中的这些数据之后，可以将业务节点数据3中剩余的数据存储至缓存，并将业务节点数据4也存储至缓存，作为下批次待处理的数据。

步骤S3，根据所述缓存当前存储的业务节点数据创建多个待分类任务。

在缓存中存入业务节点数据之后，可以根据业务需求创建多个待分类任务。待分类任务例如为：判断某个用户是否为真实用户，判断某个设备是否为真实设备，或者，判断某次交易是否为真实交易，等等。

步骤S4，通过一所述用于执行数据分类的线程从所述缓存当前存储的业务节点数据中，筛选出与一所述待分类任务对应的业务节点数据作为待分类数据。

由于缓存中可能存入了多个业务节点数据，且每个业务节点数据中还可能包括多种类型的数据。如注册数据中包括：用户身份数据和用户所使用的设备数据；交易数据中包括浏览数据、购买数据和退款数据等。假设某个待分类任务为判断是否为真实用户，则通过解析发现只能根据注册数据这个业务节点数据执行该待分类任务，此时可以定位该注册数据，然后从注册数据中获取用于判断是否为真实用户的数据，比如日志数量、注册天数、好友数量以及是否使用真实头像等一系列数据作为待分类数据。其中，每个待分类任务与何种数据关联，可以是预先定义好的，当获取待分类任务并解析之后，直接根据预先定义的关系可以找到待分类任务指向的待分类数据。

可选地，所述多个待分类任务存储在缓存中，在步骤S4之后，所述方法还包括：通过该用于执行数据分类的线程从所述缓存中删除该待分类任务。

具体地，每个用于执行数据分类的线程每次可以从缓存中获取一个待分类任务，在步骤S4之后，该用于执行数据分类的线程从所述缓存中删除该待分类任务，以避免该待分类任务被重复执行，浪费服务器资源。其中，各待分类任务还可以符合幂等性，这样即使待分类任务被重复执行，也可以保证数据最终执行结果一致。并且，当缓存中没有待分类任务后，关闭用于执行数据分类的线程。

步骤S5，将所述待分类数据输入至与所述待分类任务关联的分类模型，以确定所述待分类数据的类型。

本实施例中，不同的待分类任务对应不同的分类模型，比如，某个待分类任务为判断用户是否为真实用户，则该待分类任务指向的分类模型为用于判断是否为真实用户的模型。又或者，某个待分类任务为判断交易是否为真实交易，则该待分类任务指向的分类模型为用于判断是否为真实交易的模型。为保证数据的安全性，可将分类模型和确定的待分类数据的类型存储在区块链中。

每个分类模型均是通过训练得到的，在步骤S5之前，所述方法还可以包括步骤B1～步骤B5，其中：

步骤B1，获取多条样本数据，其中，每条所述样本数据包括一分类样本的特征和所述分类样本的类型；

步骤B2，计算各个类型的分类样本在所述多条样本数据中的出现频率；

步骤B3，确定每个所述分类样本的特征所属的预定划分属性；

步骤B4，计算在各个类型的分类样本条件下，属于各个所述预定划分属性的特征的条件概率；

步骤B5，根据各个类型的分类样本的出现频率和属于各个所述预定划分属性的特征的条件概率，确定所述分类模型。

例如，本次训练分类器模型的目的在于区别是否为真实账号，获取1万个历史账号作为分类样本，分类样本的类型包括真实账号和不真实账号，每个账号对应的特征可以包括：a1-日志数量/注册天数，a2-好友数量/注册天数，a3-是否使用真实头像，特征的预定划分属性为：a1：{a1<＝0.05,0.05<a1<0.2,a1>＝0.2}，即a1对应三个预定划分属性：[0,0.05]，(0.05,0.2)和[0.2,∞)；a2：{a2<＝0.1,0.1<a2<0.8,a2>＝0.8}，即a2对应三个预定划分属性：[0,0.1]，(0.1,0.8)和[0.8,∞)；a3：{a3＝0(不是真实头像),a3＝1(是真实头像)}，即a3对应预定划分属性0时，表示该账号使用的不是真实头像，a3对应另一预定划分属性1时，表示该账号使用的是真实头像。其中，真实账号表示为C＝0，不真实账号表示为C＝1。

真实账号的出现频率为：P(C＝0)＝8900/10000＝0.89，即1万个账号中有8900个真实账号。

不真实账号出现频率为：P(C＝1)＝1100/10000＝0.11，即1万个账号中有1100个不真实账号。

在各个类型的分类样本条件下，属于各个所述预定划分属性的特征的条件概率为：

在真实账号的条件下，属于预定划分属性[0,0.05]的特征a1的条件概率为：P(a1<＝0.05|C＝0)＝0.3。

在真实账号的条件下，属于预定划分属性(0.05,0.2)的特征a1的条件概率为：P(0.05<a1<0.2|C＝0)＝0.5。

在真实账号的条件下，属于预定划分属性[0.2,∞)的特征a1的条件概率为：P(a1>＝0.2|C＝0)＝0.2。

在不真实账号的条件下，属于预定划分属性[0,0.05]的特征a1的条件概率为：P(a1<＝0.05|C＝1)＝0.8。

在不真实账号的条件下，属于预定划分属性(0.05,0.2)的特征a1的条件概率为：P(0.05<a1<0.2|C＝1)＝0.1。

在不真实账号的条件下，属于预定划分属性[0.2,∞)的特征a1的条件概率为：P(a1>＝0.2|C＝1)＝0.1。

在真实账号的条件下，属于预定划分属性[0,0.1]的特征a2的条件概率为：P(a2<＝0.1|C＝0)＝0.1。

在真实账号的条件下，属于预定划分属性(0.1,0.8)的特征a2的条件概率为：P(0.1<a2<0.8|C＝0)＝0.7。

在真实账号的条件下，属于预定划分属性[0.8,∞)的特征a2的条件概率为：P(a2>＝0.8|C＝0)＝0.2。

在不真实账号的条件下，属于预定划分属性[0,0.1]的特征a2的条件概率为：P(a2<＝0.1|C＝1)＝0.7。

在不真实账号的条件下，属于预定划分属性(0.1,0.8)的特征a2的条件概率为：P(0.1<a2<0.8|C＝1)＝0.2。

在不真实账号的条件下，属于预定划分属性[0.8,∞)的特征a2的条件概率为：P(a2>＝0.8|C＝1)＝0.1。

在真实账号的条件下，使用不真实头像的条件概率为：P(a3＝0|C＝0)＝0.2。

在真实账号的条件下，使用真实头像的条件概率为：P(a3＝1|C＝0)＝0.8。

在不真实账号的条件下，使用不真实头像的条件概率为：P(a3＝0|C＝1)＝0.9。

在不真实账号的条件下，使用真实头像的条件概率为：P(a3＝1|C＝1)＝0.1。

进一步，可以将各个类型的分类样本的出现频率和各个分类样本的特征的条件概率作为分类器模型的参数组。

可选地，在使用分类模型对待分类数据进行分类时，可以从上述参数组中筛选出所需的参数，然后经过计算可以确定待分类数据的类型。具体地，步骤S5包括步骤S51～步骤S56，其中：

步骤S51，将所述分类模型中各个类型的分类样本的出现频率，确定为所述待分类数据属于各个类型时的出现频率；

步骤S52，确定所述待分类数据的目标特征和每个目标特征所属的目标预定划分属性；

步骤S53，从所述分类模型中筛选出与所述目标特征属于同一类型的特征所对应的条件概率；

步骤S54，从筛选出的条件概率中确定与所述目标预定划分属性相同的预定划分属性所对应的条件概率，作为所述目标特征的条件概率；

步骤S55，根据所述待分类数据属于各个类型时的出现频率和所述目标特征的条件概率，计算所述待分类数据属于各个类型的概率；

步骤S56，将概率最大的类型确定为所述待分类数据的类型。

例如，结合上述示例，假设使用上面训练得到的分类模型鉴别一个账号，这个账号使用不真实头像(特征a3)，日志数量与注册天数的比率为0.1(特征a1)，好友数与注册天数的比率为0.2(特征a2)。从分类模型中确定出各个类型的出现频率为：真实账号的出现频率P(C＝0)＝-0.89；不真实账号的出现频率P(C＝1)＝0.11。确定特征所属的预设划分属性：特征a1对应(0.05,0.2)，特征a2对应(0.1,0.8)，特征a3＝0。则，特征a1在真实账号条件下的条件概率为：P(0.05<a1<0.2|C＝0)＝0.5，特征a1在不真实账号条件下的条件概率为：P(0.05<a1<0.2|C＝1)＝0.1；特征a2在真实账号条件下的条件概率为：P(0.1<a2<0.8|C＝0)＝0.7，特征a2在不真实账号条件下的条件概率为：P(0.1<a2<0.8|C＝1)＝0.2；特征a3(不真实头像)在真实账号条件下的条件概率为：P(a3＝0|C＝0)＝0.2，特征a3(不真实头像)在不真实账号条件下的条件概率为：P(a3＝0|C＝1)＝0.9。则该账号属于真实账号的概率为：P(C＝0)P(x|C＝0)＝P(C＝0)P(0.05<a1<0.2|C＝0)P(0.1<a2<0.8|C＝0)P(a3＝0|C＝0)＝0.89*0.5*0.7*0.2＝0.0623。该账号属于不真实账号的概率为：P(C＝1)P(x|C＝1)＝P(C＝1)P(0.05<a1<0.2|C＝1)P(0.1<a2<0.8|C＝1)P(a3＝0|C＝1)＝0.11*0.1*0.2*0.9＝0.00198。得出结论，虽然该用户未使用真实头像，但是通过分类模型的鉴别，该账号属于真实账号的概率大于其属于不真实账号的概率，即更倾向于将该账号归入真实账号类型。

下面以一个具体场景示例描述如何根据业务数据确定待分类数据的类型。如图2所示，图2示意性示出了根据本发明实施例一的确定待分类数据的类型的示意图。在图2中，业务数据的数据量的级别为亿级，可称为亿级数据；通过类别分发步骤将业务数据划分为多业务节点数据；通过分类执行步骤将分布式集群的用于处理数据分类的线程将这些业务节点数据分批次存储至缓存；对于缓存当前存储的业务节点数据，各个线程并行从缓存中领取一待分类任务，然后将待分类数据输出至待分类任务对应的分类模型中，以确定待分类数据的类型。

步骤S6，根据所述待分类数据的预定标识信息确定具有关联关系的待分类数据，并根据具有关联关系的待分类数据的类型，确定所述业务数据的属性。

在处理完所有的业务节点数据之后，可以执行本步骤。其中，每个业务节点数据包括若干(一个、两个或多个)待分类数据，每个待分类数据预先设置有预定标识信息，具有关联关系的待分类数据的预定标识信息属于同一类型。所谓关联关系，即预定标识信息可以标记各个待分类数据之间的时间先后顺序，并通过预定标识信息标记属于同一目标(如用户、企业或者城市等)的待分类数据。比如，待分类数据按照时间先后顺序分别为：用于判断是否为真实账号的数据A、用于判断是否为真实交易的数据B和用于判断是否为真实售后的数据C。属于同一用户1的待分类数据为：数据A1、数据B1和数据C1；属于同一用户2的待分类数据为：数据A2、数据B2和数据C2，…，等等。

进一步，已知每个待分类数据的类型，可以从这些类型中确定出具有关联关系的各个待分类数据的类型，然后根据具有关联关系的各个待分类数据的类型，确定业务数据的属性，该属性可用于表征业务数据的风险性、真实性或者有效性。

例如，注册数据中包括待分类数据A1(非真实账号)、待分类数据A2(非真实账号)和待分类数据A3(真实账号)；交易数据中包括待分类数据B1(非真实交易)、待分类数据B2(非真实交易)和待分类数据B3(非真实交易)；售后数据中包括待分类数据C1(非真实售后)和待分类数据C2(非真实售后)。在处理完所有的业务节点数据之后，根据预定标识信息确定具有关联关系的待分类数据为：按照时间先后顺序排序，用户1的待分类数据A1、待分类数据B1和待分类数据C1，用户2的待分类数据A2、待分类数据B2和待分类数据C2，用户3的待分类数据A3和待分类数据B2。根据上述具有关联关系的待分类数据的类型，可以得出，非真实用户1执行了非真实交易和非真实售后，非真实用户2执行了非真实交易和非真实售后，真实用户3执行了非真实交易，可以判定该业务数据中包含虚假操作较多，认定该业务数据风险较高。

可选地，为保证该业务数据的属性的安全性和对用户的公正透明性，所述方法还包括：将确定出的所述业务数据的属性上传至区块链中。在需要使用时，用户可以从区块链中下载得该业务数据的属性，以便查证其是否被篡改。

实施例二

本发明的实施例二提供了一种数据处理装置，该数据处理装置与上述实施例一相对应，相应的技术特征和技术效果在本实施例中不再详述，相关之处可参考上述实施例一。具体地，图3示意性示出了根据本发明实施例二的数据处理装置的框图，如图3所示，该数据处理装置300可以包括划分模块301、存储模块302、创建模块303、筛选模块304、第一确定模块305和第二确定模块306，其中：

划分模块301，用于将业务数据按照业务节点进行划分，获得多个业务节点数据；

存储模块302，用于根据多个用于执行数据分类的线程的数据处理能力，将获得的业务节点数据分批次存储至缓存，其中，所述多个用于执行数据分类的线程依附在分布式集群的多个服务器节点上；

创建模块303，用于根据所述缓存当前存储的业务节点数据创建多个待分类任务；

筛选模块304，用于通过一所述用于执行数据分类的线程从所述缓存当前存储的业务节点数据中，筛选出与一所述待分类任务对应的业务节点数据作为待分类数据；

第一确定模块305，用于将所述待分类数据输入至与所述待分类任务关联的分类模型，以确定所述待分类数据的类型；

第二确定模块306，用于根据所述待分类数据的预定标识信息确定具有关联关系的待分类数据，并根据具有关联关系的待分类数据的类型，确定所述业务数据的属性。

可选地，所述存储模块还用于：根据所述多个用于执行数据分类的线程的数据处理能力，确定最大可处理数据量；当获得的业务节点数据中的未处理业务节点数据的数据量大于所述最大可处理数据量时，根据预设提取规则从未处理业务节点数据中提取所述最大可处理数据量的数据存储至缓存；当获得的业务节点数据中未处理业务节点数据的数据量小于所述最大可处理数据量时，提取所有未处理业务节点数据存储至缓存。

可选地，所述装置还包括：启动模块，用于在所述根据多个用于执行数据分类的线程的数据处理能力，将获得的业务节点数据分批次存储至缓存之前，在所述分布式集群的每个服务器节点中启动一线程池，其中，所述线程池包括多个线程；第三确定模块，用于从启动的所有所述线程池中确定出所述多个用于执行数据分类的线程。

可选地，所述装置还包括：获取模块，用于在所述将所述待分类数据输入至与所述待分类任务关联的分类模型，以确定所述待分类数据的类型之前，获取多条样本数据，其中，每条所述样本数据包括一分类样本的特征和所述分类样本的类型；第一计算模块，用于计算各个类型的分类样本在所述多条样本数据中的出现频率；第四确定模块，用于确定每个所述分类样本的特征所属的预定划分属性；第二计算模块，用于计算在各个类型的分类样本条件下，属于各个所述预定划分属性的特征的条件概率；第五确定模块，用于根据各个类型的分类样本的出现频率和属于各个所述预定划分属性的特征的条件概率，确定所述分类模型。

可选地，所述第一确定模块还用于：将所述分类模型中各个类型的分类样本的出现频率，确定为所述待分类数据属于各个类型时的出现频率；确定所述待分类数据的目标特征和每个目标特征所属的目标预定划分属性；从所述分类模型中筛选出与所述目标特征属于同一类型的特征所对应的条件概率；从筛选出的条件概率中确定与所述目标预定划分属性相同的预定划分属性所对应的条件概率，作为所述目标特征的条件概率；根据所述待分类数据属于各个类型时的出现频率和所述目标特征的条件概率，计算所述待分类数据属于各个类型的概率；将概率最大的类型确定为所述待分类数据的类型。

可选地，所述多个待分类任务存储在缓存中，所述装置还包括：删除模块，用于在所述通过一所述用于执行数据分类的线程从所述缓存当前存储的业务节点数据中，筛选出与一所述待分类任务对应的待分类数据之后，通过该用于执行数据分类的线程从所述缓存中删除该待分类任务。

可选地，所述装置还包括：上传模块，用于将确定出的所述业务数据的属性上传至区块链中。

实施例三

图4示意性示出了根据本发明实施例三的适于实现数据处理方法的计算机设备的框图。本实施例中，计算机设备400可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图4所示，本实施例的计算机设备400至少包括但不限于：可通过系统总线相互通信连接的存储器401、处理器402、网络接口403。需要指出的是，图4仅示出了具有组件401-403的计算机设备400，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器403至少包括一种类型的计算机可读存储介质，可读存储介质包括包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器401可以是计算机设备400的内部存储单元，例如该计算机设备400的硬盘或内存。在另一些实施例中，存储器401也可以是计算机设备400的外部存储设备，例如该计算机设备400上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器401还可以既包括计算机设备400的内部存储单元也包括其外部存储设备。在本实施例中，存储器401通常用于存储安装于计算机设备400的操作系统和各类应用软件，例如数据处理方法的程序代码等。此外，存储器401还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器402在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器402通常用于控制计算机设备400的总体操作。例如执行与计算机设备400进行数据交互或者通信相关的控制和处理等的数据处理方法的程序代码。

在本实施例中，存储于存储器401中的数据处理方法还可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器402)所执行，以完成本发明。

网络接口403可包括无线网络接口或有线网络接口，该网络接口403通常用于在计算机设备400与其他计算机设备之间建立通信链接。例如，网络接口403用于通过网络将计算机设备400与外部终端相连，在计算机设备400与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，简称为GSM)、宽带码分多址(Wideband CodeDivision Multiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

实施例四

本实施例四还提供一种计算机可读存储介质，包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等，其上存储有计算机程序，所述计算机程序被处理器执行时实现数据处理方法。进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

将业务数据按照业务节点进行划分，获得多个业务节点数据；

根据多个用于执行数据分类的线程的数据处理能力，将获得的业务节点数据分批次存储至缓存，其中，所述多个用于执行数据分类的线程依附在分布式集群的多个服务器节点上；

根据所述缓存当前存储的业务节点数据创建多个待分类任务；

通过一所述用于执行数据分类的线程从所述缓存当前存储的业务节点数据中，筛选出与一所述待分类任务对应的业务节点数据作为待分类数据；

将所述待分类数据输入至与所述待分类任务关联的分类模型，以确定所述待分类数据的类型；

根据所述待分类数据的预定标识信息确定具有关联关系的待分类数据，并根据具有关联关系的待分类数据的类型，确定所述业务数据的属性。

2.根据权利要求1所述的方法，其特征在于，所述根据多个用于执行数据分类的线程的数据处理能力，将获得的业务节点数据分批次存储至缓存，包括：

根据所述多个用于执行数据分类的线程的数据处理能力，确定最大可处理数据量；

当获得的业务节点数据中的未处理业务节点数据的数据量大于所述最大可处理数据量时，根据预设提取规则从未处理业务节点数据中提取所述最大可处理数据量的数据存储至缓存；

当获得的业务节点数据中未处理业务节点数据的数据量小于所述最大可处理数据量时，提取所有未处理业务节点数据存储至缓存。

3.根据权利要求1所述的方法，其特征在于，在所述根据多个用于执行数据分类的线程的数据处理能力，将获得的业务节点数据分批次存储至缓存之前，所述方法还包括：

在所述分布式集群的每个服务器节点中启动一线程池，其中，所述线程池包括多个线程；

从启动的所有所述线程池中确定出所述多个用于执行数据分类的线程。

4.根据权利要求1所述的方法，其特征在于，在所述将所述待分类数据输入至与所述待分类任务关联的分类模型，以确定所述待分类数据的类型之前，所述方法还包括：

获取多条样本数据，其中，每条所述样本数据包括一分类样本的特征和所述分类样本的类型；

计算各个类型的分类样本在所述多条样本数据中的出现频率；

确定每个所述分类样本的特征所属的预定划分属性；

计算在各个类型的分类样本条件下，属于各个所述预定划分属性的特征的条件概率；

根据各个类型的分类样本的出现频率和属于各个所述预定划分属性的特征的条件概率，确定所述分类模型。

5.根据权利要求4所述的方法，其特征在于，所述将所述待分类数据输入至与所述待分类任务关联的分类模型，以确定所述待分类数据的类型，包括：

将所述分类模型中各个类型的分类样本的出现频率，确定为所述待分类数据属于各个类型时的出现频率；

确定所述待分类数据的目标特征和每个目标特征所属的目标预定划分属性；

从所述分类模型中筛选出与所述目标特征属于同一类型的特征所对应的条件概率；

从筛选出的条件概率中确定与所述目标预定划分属性相同的预定划分属性所对应的条件概率，作为所述目标特征的条件概率；

根据所述待分类数据属于各个类型时的出现频率和所述目标特征的条件概率，计算所述待分类数据属于各个类型的概率；

将概率最大的类型确定为所述待分类数据的类型。

6.根据权利要求1所述的方法，其特征在于，所述多个待分类任务存储在缓存中，在所述通过一所述用于执行数据分类的线程从所述缓存当前存储的业务节点数据中，筛选出与一所述待分类任务对应的待分类数据之后，所述方法还包括：

通过该用于执行数据分类的线程从所述缓存中删除该待分类任务。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

将确定出的所述业务数据的属性上传至区块链中。

8.一种数据处理装置，其特征在于，所述装置包括：

划分模块，用于将业务数据按照业务节点进行划分，获得多个业务节点数据；

存储模块，用于根据多个用于执行数据分类的线程的数据处理能力，将获得的业务节点数据分批次存储至缓存，其中，所述多个用于执行数据分类的线程依附在分布式集群的多个服务器节点上；

创建模块，用于根据所述缓存当前存储的业务节点数据创建多个待分类任务；

筛选模块，用于通过一所述用于执行数据分类的线程从所述缓存当前存储的业务节点数据中，筛选出与一所述待分类任务对应的业务节点数据作为待分类数据；

第一确定模块，用于将所述待分类数据输入至与所述待分类任务关联的分类模型，以确定所述待分类数据的类型；

第二确定模块，用于根据所述待分类数据的预定标识信息确定具有关联关系的待分类数据，并根据具有关联关系的待分类数据的类型，确定所述业务数据的属性。

9.一种计算机设备，所述计算机设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。