CN116383189A

CN116383189A - 业务数据的处理方法、装置、计算机设备、存储介质

Info

Publication number: CN116383189A
Application number: CN202310399295.3A
Authority: CN
Inventors: 张威; 陈亮亮; 林新建; 刘晓敏; 何逸超
Original assignee: Industrial Bank Co Ltd
Current assignee: Industrial Bank Co Ltd
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-07-04

Abstract

本公开涉及一种业务数据的处理方法、装置、计算机设备、存储介质。所述方法包括：利用至少一种数据采集方式获取业务数据，所述数据采集方式包括：流处理场景下的采集方式；利用数据映射的方式对业务数据进行处理，得到多个子业务数据，数据映射的方式包括：将所述业务数据拆分为多个子数据，将多个子数据和所述子数据对应的数据标识进行分开存储；对各所述子业务数据进行数据筛选，去除各所述子业务数据中与所述业务类型不相关的无效数据，以确定各所述子业务数据中目标业务数据；利用回归分析法对所述目标业务数据进行回归分析，确定所述目标业务数据之间的关系。采用本方法能够在处理大量数据的过程中，减少系统的处理开销，提高处理效率。

Description

业务数据的处理方法、装置、计算机设备、存储介质

技术领域

本公开涉及数据处理技术领域，特别是涉及一种业务数据的处理方法、装置、计算机设备、存储介质。

背景技术

随着计算机和信息技术的迅猛发展和普及应用，各种行业应用系统的规模也得到了扩展，其应用所产生的数据呈爆炸性增长，远远超出了现有传统计算机技术和信息系统的处理能力。

然而，针对爆炸性增长的数据，传统技术中对数据的处理方式需要占用系统大量的CPU(central processing unit)和内存等资源，尤其是I(input)/O(output)资源占用极大。传统技术中对爆炸性增长的数据进行处理的过程中，会额外增加系统的处理开销，并且在分析爆炸性增长的数据时，其效率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种在处理大量数据的过程中，减少系统的处理开销，分析爆炸性增长的数据时，提高处理效率的业务数据的处理方法、装置、计算机设备、存储介质。

第一方面，本公开提供了一种业务数据的处理方法，所述方法包括：

利用至少一种数据采集方式获取业务数据，所述数据采集方式包括：流处理场景下的采集方式；

利用数据映射的方式对业务数据进行处理，得到多个子业务数据，所述数据映射的方式包括：将所述业务数据拆分为多个子数据，将多个子数据和所述子数据对应的数据标识进行分开存储；

对各所述子业务数据进行数据筛选，去除各所述子业务数据中与所述业务类型不相关的无效数据，以确定各所述子业务数据中目标业务数据；

利用回归分析法对所述目标业务数据进行回归分析，确定所述目标业务数据之间的关系。

在其中一个实施例中，所述方法还包括：

响应于需要对第一业务数据进行数据处理，将所述目标业务数据或所述子业务数据划分为多个数据区域；

统计多个所述数据区域中的数据，确定多个数据区域中目标数据区域；

在所述目标数据区域中检索所述第一业务数据，对所述第一业务数据进行数据处理，所述第一业务数据为所述目标业务数据或多个所述子业务数据中的数据。

在其中一个实施例中，所述统计多个所述数据区域中的数据，确定多个数据区域中目标数据区域，包括：

在多个所述数据区域中确定所述第一业务数据所处的第一数据区域；

响应于所述第一数据区域中的目标业务数据或所述子业务数据的数量大于预设的数量阈值，对所述第一数据区域进行数据划分，直至数据划分后得到的第一数据区域中的目标业务数据或所述子业务数据的数量小于等于预设的数量阈值；

根据数据划分后得到的第一数据区域，确定目标数据区域；

响应于所述第一数据区域中的目标业务数据或所述子业务数据的数量小于等于预设的数量阈值，根据所述第一数据区域，确定目标数据区域。

在其中一个实施例中，所述方法还包括：响应于需要对所述目标业务数据或所述子业务数据进行数据处理，对每个所述数据区域进行并行方式的数据处理。

在其中一个实施例中，所述利用数据映射的方式对业务数据进行处理，得到多个子业务数据，包括：

利用链表数组的方式确定所述业务数据中每个数据对应的链表；

利用散列法将所述业务数据中的每个数据转化成数组数据，所述散列法包括：除法散列法、平方散列法和斐波那契散列法；

将所述数组数据存储至对应的链表中，得到子业务数据。

在其中一个实施例中，所述方法还包括：利用布隆过滤器存储所述数组数据，所述布隆过滤器包括：计数布隆过滤器和/或光谱布隆过滤器。

在其中一个实施例中，所述数据采集方式还包括：ETL采集方式和预设规则的采集方式，所述预设规则的采集包括：按照预设的规则从采集目标中获取业务数据。

在其中一个实施例中，所述目标业务数据和/或所述子业务数据存储在私有云中。

在其中一个实施例中，所述方法还包括：

对所述目标业务数据和/或所述子业务数据进行安全处理，所述安全处理包括：数据加密、数据库冗余和数据容灾；

使用双主服务器将所述目标业务数据和/或所述子业务数据存储在私有云中；

响应于客户端需要获取所述目标业务数据和/或所述子业务数据，验证所述客户端的身份信息，并保存日志信息，所述日志信息中包括：客户端获取所述目标业务数据和/或所述子业务数据的信息。

在其中一个实施例中，所述方法还包括：响应于所述子业务数据为非结构化数据，按照所述子业务数据的数据信息进行分类。

第二方面，本公开还提供了一种业务数据的处理装置。所述装置包括：

数据采集模块，用于利用至少一种数据采集方式获取业务数据，所述数据采集方式包括：流处理场景下的采集方式；

数据处理模块，用于利用数据映射的方式对业务数据进行处理，得到多个子业务数据，所述数据映射的方式包括：将所述业务数据拆分为多个子数据，将多个子数据和所述子数据对应的数据标识进行分开存储；

数据筛选模块，用于对各所述子业务数据进行数据筛选，去除各所述子业务数据中与所述业务类型不相关的无效数据，以确定各所述子业务数据中目标业务数据；

数据分析模块，用于利用回归分析法对所述目标业务数据进行回归分析，确定所述目标业务数据之间的关系。

第三方面，本公开还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一方法实施例的步骤。

第四方面，本公开还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法实施例的步骤。

第五方面，本公开还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任一方法实施例的步骤。

上述各实施例中，通过流处理场景下的采集方式来获取业务数据，能够满足大量数据的处理要求，并且实时获取业务数据，以便于后续的处理。能够提高数据的处理速度。另外，针对于大量的业务数据，利用数据映射的方式对业务数据进行处理，得到多个子业务数据。对各所述子业务数据进行数据分析，确定目标业务数据。将大量的业务数据进行映射处理后，依次对各子业务数据进行数据分析，能够提高处理速度。在处理大量业务数据的过程中，可以减少系统的处理开销。最后可以利用回归分析法对所述目标业务数据进行回归分析，确定所述目标业务数据之间的关系，因为目标业务数据是已经经过数据筛选和数据映射方式进行处理后得到的数据，因此能够对大量业务数据进行分析，提高处理效率，并可以直观的确定各个目标业务数据之间的关系，利用目标业务之间的关系能够对后续的数据进行预测。

附图说明

为了更清楚地说明本公开具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中业务数据的处理方法的应用环境示意图；

图2为一个实施例中业务数据的处理方法的流程示意图；

图3为一个实施例中对第一业务数据进行数据处理的流程示意图；

图4为一个实施例中S304步骤的流程示意图；

图5为一个实施例中S204步骤的流程示意图；

图6为一个实施例中业务数据的处理方法中另一部分的流程示意图；

图7为一个实施例中业务数据的处理装置的结构示意框图；

图8为一个实施例中计算机设备的内部结构示意图。

具体实施方式

为了使本公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本公开进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本公开，并不用于限定本公开。

需要说明的是，本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

在一个实施例中，本公开实施例提供了一种业务数据的处理方法，可以应用于如图1所示的应用环境中。其中，终端102与互联网服务器104或者数据服务器106进行通信。终端102利用至少一种数据采集方式获取互联网服务器104或者数据服务器106中的业务数据。终端102利用数据映射的方式对业务数据进行处理，得到子业务数据。所述数据映射的方式包括：终端102将所述业务数据拆分为多个子数据，终端102将多个子数据和所述子数据对应的数据标识进行分开和/或共同存储。终端102可以对各所述子业务数据进行数据筛选，去除各所述子业务数据中与所述业务类型不相关的无效数据，以确定各所述子业务数据中目标业务数据。终端102还可以利用回归分析法对所述目标业务数据进行回归分析，确定所述目标业务数据之间的关系。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑等。互联网服务器104和数据服务器106可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种业务数据的处理方法，以该方法应用于图1中的终端102为例进行说明，包括以下步骤：

S202，利用至少一种数据采集方式获取业务数据，所述数据采集方式包括：流处理场景下的采集方式。

其中，数据采集方式通常可以是采集数据的方式，例如离线采集、互联网采集等等。流处理是一种重要的大数据处理手段，其主要特点是其处理的数据是源源不断且实时到来的。流处理场景下的采集方式通常可以是实时采集数据的方式。

具体地，终端102可以与数据服务器进行连接，数据服务器可以是记录数据源的执行的各种操作活动对应的数据的服务器。例如，网络监控的流量管理产生的数据、金融应用的股票记账产生的数据和Web服务器记录的用户访问行为产生的数据等等。利用实时采集的方式，在流处理场景下，终端102中数据采集会成为Kafka的消费者，可以将上游(数据服务器产生的数据)进行拦截，即获取到了业务数据。另外，本公开实施例所提及的实时采集的方式区别于传统ETL(Extract-Transform-Load)的流处理方式，而非定时的批处理job工具，均采用分布式架构，能满足每秒数百MB的业务数据的采集和传输的需求。另外，在获取业务数据的过程中，数据服务器中通常还会存在一个或多个数据源，这些数据源可以包括同构或异构的数据库、文件系统、服务接口等。

在一些示例性的实施例中，数据质量贯穿于整个业务数据处理的流程，非常的关键。可以说，每一个处理环节都会对业务数据的质量产生影响作用。数据源会影响大数据质量的真实性、完整性数据收集、一致性、准确性和安全性等。因此需要先对收集到的业务数据进行预处理，以保证业务数据的准确性。因此，在获取业务数据的过程中，还可以对获取到的业务数据进行预处理，例如空值处理、异常值处理、不符合业务相关逻辑的数据填充、用户信息脱敏处理等等。例如，可以通过填写缺失的业务数据、进行光滑噪声数据、识别或删除离群的业务数据解决不一致性等方式来处理业务数据，能够将业务数据格式标准化，异常数据清除，错误纠正，重复数据的清除。

S204，利用数据映射的方式对业务数据进行处理，得到多个子业务数据。所述数据映射的方式包括：将所述业务数据拆分为多个子数据，将多个子数据和所述子数据对应的数据标识进行分开存储。

其中，数据映射的方式通常可以是将大数据映射为小数据的方式，例如将大数据拆分为小数据，每个小数据存在一个标志，将小数据拆分存储，将标志也进行存储，后续需要获取大数据时，可以根据每个小数据的标志去匹配对应的小数据，进而得到大数据。每个小数据可以存在相同或者不同的存储空间中。每个标志也可以存储在相同或者不同的存储空间中。小数据和标注的存储空间通常情况不相同。另外小数据子业务数据通常可以是将业务数据拆分后得到的数据，通常情况下其数量至少为两个。

具体地，可以利用数据映射的方式将业务数据进行拆分，拆分得到多个子业务数据，并将子业务数据进行存储。将业务数据拆分的数量可以根据实际的应用场景来确定，在本公开的一些实施例中不对业务数据拆分的数量进行限制。每个子业务数据中通常情况下可以包括：业务拆分后得到的子数据和子数据对应的标识，通常情况下可以存储在不同的存储空间中。这样能够提高数据的存储速度以及利用数据标识获取子数据的速度，也可以存储在相同的空间中。每个子数据通常情况下也可以存储在不同的位置中，以进一步提高数据的存储速度。

在一些示例性的实施例中，例如将业务数据A拆分得到A1、A2、A3三个子数据，然后A1对应的数据标识可以为a，A1-a可以为子业务数据，A2对应的数据标识可以是b，A2-b可以为子业务数据，A3对应的数据标识可以是c，A3-c可以为子业务数据，则可以将A1、A2和A3分别存储。并将数据标识a、b和c一起存储。则当需要获取业务数据A之后，可以利用数据标识a、b和c去匹配A1、A2和A3，进而将A1、A2和A3组合得到业务数据A，可以理解的是，上述仅用于举例说明。

在另一些示例性的实施例中，例如可以将某日访问云平台日志中的IP取出来，逐个写入到一个大文件中。IP通常可以为32位，采用映射的方法把整个大文件映射为1000个小文件。在需要检索频率最高的IP时，可以采用HashMap对1000个文件中的所有IP进行频率统计，然后依次找出每个小文件中出现频率最高的IP及相应的频率，即为所求。

S206，对各所述子业务数据进行数据筛选，去除各所述子业务数据中与所述业务类型不相关的无效数据，以确定各所述子业务数据中目标业务数据，响应于所述子业务数据为非结构化数据，按照所述子业务数据的数据信息进行分类。

其中，数据筛选可以是去除无效数据，提取有效数据的方式。例如，业务数据为登录信息数据，则业务数据中进入系统使用的功能的数据可以是无效数据，可以进行去除。非结构化数据可以是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。可以包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等。

具体地，由于获取的业务数据的种类繁多，并且获取业务数据的方式也可能会出现多种方式，因此可以逐步的对子业务数据进行数据筛选，将子业务数据中的无效数据进行删除，进而得到目标业务数据。另外，当子业务数据为非结构化的数据时，由于非结构化数据结构不完整，因此可以将非结构化数据中的一部分信息提取出来，重新组织，使其变得有一定结构，然后对此有一定结构的数据进行数据筛选，能够进一步提高数据筛选的速度，对非结构化数据进行重新组织的主要目的是为了把数据存储与特定的类型汇总，从而降低数据使用者对数据进行处理的工作量。例如，可以将图片归为一类，可以将视频信息归为一类等等。还可以将按照数据名称对非结构化数据进行归类。在本公开中不对归类的方式进行绝对的限制，只要在归类后可以快速进行处理，能够提高处理速度即可。

在一些示例性的实施例中，例如子业务数据中包括：S1信息、S2信息和S3信息。其中，S3信息为无效的信息，则可以将S3信息进行删除，包含了S1和S2信息的子业务数据可以为目标业务数据。对子业务进行数据筛选的过程中，可以采用并行处理的方式进行数据筛选，即一次对多个子业务数据进行数据筛选，以提高数据筛选的效率。

S208，利用回归分析法对所述目标业务数据进行回归分析，确定所述目标业务数据之间的关系。

其中，业务数据之间的关系可以是函数关系。函数关系可以用来展示目标业务数据之间的联系和区别，从而能够达到分析目标业务数据之间特定依赖程度的目的。函数关系例如可以是一次函数关系、幂函数关系等等，在本公开的一些实施例中不对函数关系进行绝对的限制。

具体地，可以采用回归分析法对目标业务数据之间进行分析，并确定目标业务数据中哪些目标业务数据为因变量，哪些目标业务数据为自变量，并确定自变量和因变量之间的相关关系，建立一个相关性较好的回归方程(函数表达式)。并可以根据回归方程对后续的数据进行预测。通常情况下，函数关系常用的三种表示方法可以包括列表法，解析法，图象法。

上述业务数据的处理方法中，通过流处理场景下的采集方式来获取业务数据，能够满足大量数据的处理要求，并且实时获取业务数据，以便于后续的处理。能够提高数据的处理速度。另外，针对于大量的业务数据，利用数据映射的方式对业务数据进行处理，得到多个子业务数据。对各所述子业务数据进行数据分析，确定目标业务数据。将大量的业务数据进行映射处理后，依次对各子业务数据进行数据分析，能够提高处理速度。在处理大量业务数据的过程中，可以减少系统的处理开销。最后可以利用回归分析法对所述目标业务数据进行回归分析，确定所述目标业务数据之间的关系，因为目标业务数据是已经经过数据筛选和数据映射方式进行处理后得到的数据，因此能够对大量业务数据进行分析，提高处理效率，可以直观的确定各个目标业务数据之间的关系，利用目标业务之间的关系能够对后续的数据进行预测。

在一些实施例中，数据采集方式还可以包括：ETL采集方式和预设规则的采集方式，所述预设规则的采集包括：按照预设的规则从采集目标中获取业务数据。

其中，采集目标例如可以是应用程序或者网页。业务数据在本公开的一些实施例中可以是图片、视频、音频等文件，在本公开中不对业务数据的具体类型进行限制。

具体地，可以使用数据仓库技术的采集方式获取业务数据，数据仓库的采集方式可以包括数据的提取、转换和加载。在转换的过程中，可以针对具体的应用场景对数据进行预处理。例如进行非法数据检测与过滤、格式转换与数据规范化、数据替换、保证数据完整性等。预设规则的采集方式，例如可以是Scribe的采集方式，按照预设的规则自动的抓取网页或者应用程序上的业务数据。预设的规则例如可以是仅采集图片数据或者仅采集视频数据等，还可以是按照预设的顺序来依次采集业务数据，在本公开的一些实施例中不对预设的规则进行绝对限制。

在本实施例中，通过ETL采集方式(离线采集)和预设规则的采集方式(互联网采集)能够在不同的场景下，使用不同的采集方式，能够适应多种场景。

在一个实施例中，如图3所示，所述方法还包括：

S302，响应于需要对第一业务数据进行数据处理，将所述目标业务数据或所述子业务数据划分为多个数据区域。

S304，统计多个所述数据区域中的数据，确定多个数据区域中目标数据区域。

S306，在所述目标数据区域中检索所述第一业务数据，对所述第一业务数据进行数据处理。

其中，所述第一业务数据为所述目标业务数据或多个所述子业务数据中的数据，通常情况下第一业务数据为一条或者一组业务数据。根据不同的处理需求，第一业务数据的类型也不相同。数据处理可以是对第一业务数据进行录入、编辑、汇总、计算、分析、预测、存储管理等方式。目标数据区域中的数据的数量通常小于预设的数量阈值。目标数据区域中数据的数量较少，能够提高检索到第一业务数据的速度。

具体地，子业务数据中的某个数据可以是第一业务数据，此时可以将子业务数据划分为多个数据区域。数据区域的数量可以根据子业务数据的数量来确定，在本公开中不对数据区域的数量进行限制。例如，子业务数据中包括A1、A2、A3和A4，则可以将子业务数据划分为两个数据区域，一个数据区域中包括A1和A2，另一个数据区域包括A3和A4。

目标业务数据中的某个数据可以是第一业务数据。可以将目标业务数据划分为多个数据区域。然后可以通过多线程的方式统计每个数据区域中的数据，看数据区域中是否包括第一业务数据，若包括第一业务数据，则该数据区域可以为目标数据区域。在目标数据区域中检索第一业务数据，然后对第一业务数据进行数据处理。

在一些示例性的实施例中，以检索int类型的数据为例进行说明。需要在5亿个int类型的数据中确定中位数，可以将所有的int数据划分为2^16个数据区域；读取数据统计落到各个数据区域里数的个数；根据统计结果判断中位数落到哪个数据区域；同时知道这个数据区域中的第几大数刚好是中位数。第二次扫描，只统计落在这个数据区域中的那些数即可获取到中位数。经过这样的划分可以数据的数量降低到可以接受的程度，先将数据分成2^24个区域，然后确定区域的第几大数，再将该区域分成2^20个子区域，然后确定是子区域的第几大数，只有2^20时，直接利用direct addr table进行统计得出结果。

其中，direct addr table可以是一个直接地址表，是一种占用空间的table。通过索引其中的key值，来找到key至对应的data，是所有整理key的一个池子。优点是search、insert、delete操作都只需0/1。

如上述实施例所述，通常情况下，每个子业务数据或者说目标业务数据均存在对应的数据标识，因此可以利用数据标识在每个数据区域中进行统计，例如，确定每个数据区域中的每个子业务数据或者目标业务数据对应的数据标识，根据数据标识来确定该数据区域中是否存在第一业务数据，通过该种方式能够提高处理速度。

在本实施例中，当目标业务数据或者子业务数据中数据量很大，直接进行检索数据处理的话会额外的增加检索的时间，因此可以将目标业务数据或子业务数据划分为多个数据区域，逐步确定范围，进而检索得到第一业务数据，进而对第一业务数据进行处理。

在一个实施例中，如图4所示，所述统计多个所述数据区域中的数据，确定多个数据区域中目标数据区域，包括：

S402，在多个所述数据区域中确定所述第一业务数据所处的第一数据区域。

S404，响应于所述第一数据区域中的目标业务数据或所述子业务数据的数量大于预设的数量阈值，对所述第一数据区域进行数据划分，直至数据划分后得到的第一数据区域中的目标业务数据或所述子业务数据的数量小于等于预设的数量阈值。

S406，根据数据划分后得到的第一数据区域，确定目标数据区域。

S408，响应于所述第一数据区域中的目标业务数据或所述子业务数据的数量小于等于预设的数量阈值，根据所述第一数据区域，确定目标数据区域。

具体地，通常情况下目标数据区域中数据的数量比较少，能够进一步提高数据的检索速度。因此，可以在多个数据区域中确定第一业务数据所处的第一数据区域，当第一数据区域中数据的数量大于预设的数量阈值，此时可以确定第一数据区域中数据的数量较多，利用第一数据区域进行检索第一业务数据也会影响检索速度。可以继续对第一数据区域进行数据划分，直至进行数据划分后的第一数据中数据的数量小于预设的数量阈值，可以在进行数据划分后的第一数据中来确定目标数据区域。

在一些示例性的实施例中，例如第一数据区域中存在1000条数据，预设的数量阈值可以为300，则可以将第一数据区域进行拆分为五个数据区域，拆分后可以得到五个第一数据区域，每个数据区域中存在200条数据。然后可以五个数据区域确定目标数据区域。若预设的数量阈值为30，则可以在第一数据区域进行拆分后得到的五个数据区域中，确定第一业务数据所在的数据区域，然后对该数据区域继续进行拆分，直至拆分后的数据区域中数据的数量小于预设的数量阈值，根据拆分后的数据来确定目标数据区域。

在本实施例中，在第一数据区域中数据的数量大于预设的数量阈值时，将第一数据区域进行拆分，能够将第一业务数据所在的范围依次缩小，进而提高处理速度。

在一个实施例中，所述方法还包括：响应于需要对所述目标业务数据或所述子业务数据进行数据处理，对每个所述数据区域进行并行方式的数据处理。

具体地，在本实施例中，对所述目标业务数据或所述子业务数据进行数据处理通常处理的一组或者多组数据。区别于上述仅对一条或一组数据进行处理的方式。在上述公开的一些实施例中，可以将所述目标业务数据或所述子业务数据划分为多个数据区域。因此，当需要对所述目标业务数据或所述子业务数据进行数据处理，可以通过多线程，并且并行的方式来处理每个数据区域中的数据。即同时对多个数据区域中的数据进行数据处理。

在本实施例中，当需要对大量的数据(目标业务数据或子业务数据)进行数据处理时，可以通过并行的方式来对数据区域中的数据进行处理，能够提高处理速度。

在一个实施例中，如图5所示，所述利用数据映射的方式对业务数据进行处理，得到多个子业务数据，包括：

S502，利用链表数组的方式确定所述业务数据中每个数据对应的链表。

S504，利用散列法将所述业务数据中的每个数据转化成数组数据，所述散列法包括：除法散列法、平方散列法和斐波那契散列法。

S506，将所述数组数据存储至对应的链表中，得到子业务数据。

其中，链表数组可以是由链表构成的数组，即数组中的每一个元素都是链表。

具体地，Hash主要用于信息安全领域中加密算法，把一些不同长度的信息转化成杂乱的128位编码，这些编码值叫作hash值，hash是找到一种数据内容和数据存放地址之间的映射关系。面临两个问题：1、寻址容易、插入和删除困难的数组；2、寻址困难、插入和删除困难的链表。因此，基于以上两个问题，需要综合找到一种寻址容易且插入删除也容易的数据结构，即哈希表，因此可以设置链表数组，每个链表数组中通常情况下都会包括一个数组，数组的每个成员都包含一个指针指向一个链表，可以根据业务数据的一些特征(例如名称，应用场景等，在本公开中不对该特征进行绝对限制)把业务数据分配到不同的链表中去，得到子业务数据。在需要获取业务数据时，可以根据这些特征，找到正确的链表，再从链表中找出这个业务数据。在业务数据转变为数组时可以采用散列法。在一些示例性的实施例中，可以采用斐波那契散列法，使用斐波那契散列法既避免了求索引时的频繁操作，又节省了大量的计算时间，然后可以采取“黄金分割法”对数组进行调整。在本实施例中，指针可以是如上述实施例中所提到的标志，数组数据可以是业务数据拆分后得到的子数据。

在一些实施例中，当增加业务数据时，可以将一个哈希表(链表数组)分成长度相等的两半T1和T2，在分别配备一个哈希函数h1和h2，在存储一个新的业务数据时，同时用两个哈希函数进行计算，得出两个地址h1[key]和h2[key]，这个时候需要检查T1中的h1[key]位置和T2中的h2[key]位置，哪一个位置已经存储的业务数据多，然后将新的业务数据存储在负载少的位置，就把新的业务数据存储在另一个左边T1子表中，即2-left。在查找一个业务数据时，需要进行两次hash，同时查找两个位置。通过上述方式，在扩展时也能够针对性的将业务数据通过数据映射的方式进行存储。

本实施例中，通过链表数组的方式，能够快速查找业务数据，并且删除的基本数据结构，解决了业务数据过大，而内存受限的问题。

在一个实施例中，所述方法还包括：利用布隆过滤器存储所述数组数据，所述布隆过滤器包括：计数布隆过滤器和/或光谱布隆过滤器。

其中，布隆过滤器可以是bloom filter。Bloom filter是二进制向量数据结构，它具有空间和时间效率，被用来检测一个元素是不是集合中的一个成员。计数布隆过滤器可以是Counting bloom filter(CBF)。光谱布隆过滤器可以是Spectral Bloom Filter(SBF)。

具体地，在存储数组数据的过程中，还可以使用bloom filter进行存储。可以使用Counting Bloom Filter存储数组数据。Counting Bloom Filte将标准Bloom Filter位数组的每一位扩展为一个小的计数器(Counter)，在插入业务数据时给对应的k(k为哈希函数个数)个Counter的值分别加1，删除业务数据时给对应的k个Counter的值分别减1。Counting Bloom Filter能够支持业务数据的删除操作。另外，也可以使用Spectral BloomFilter进行存储数组数据。Spectral Bloom Filter(SBF)将其与业务数据的出现次数关联。SBF采用counter中的最小值来近似表示业务数据的出现频率。

在一些示例性的实施例中，当需要存储多个数组数据时，此时数组数据中可能会出现重复的数据，如果都进行存储，由于存储空间的限制，可能会无法完全进行存储，并且会浪费不必要的存储空间。例如，A，B两个数组数据文件，各存放50亿条URL，每条URL占用64B，内存限制4G，先计算下内存占用，4G＝340亿bit，存放URL共100亿条，共计625亿bit。因此，此时存放的URL的数据远远超过内存的存储空间。若A和B两个数组数据中存在大量的重复的URL，在此处以所有URL均重复进行举例说明，则可以使用将其中一个文件中的URL使用Bloom filter映射为340亿bit，然后读取另外一个文件的URL，检查是否在Bloom filter，如果是，那么这两个文件中的URL通常可以确定是相同的URL。将相同的文件存储在一个数据空间内。通过该种方式可以使内存的存储空间分配更加合理，利用率更加高效。

在本实施例中，通过bloom filter对数组数据进行存储，能够方便数组数据的查询，并且具有良好的安全性。

在一个实施例中，所述目标业务数据和/或所述子业务数据存储在私有云中。

具体地，在目标业务数据或者子业务数据亦或者是业务数据的存储过程中，可以使用“云存储”的方案，进行存储资源的池化，保证高速读取和写入的同时，提高可靠和稳定性，做到数据一秒不丢，重建秒级恢复。而上述数据中的结构化的数据，可以通过信息的智能匹配与识别，快速检索目标对象。然而，当存储设备不够稳定时，会造成数据的频繁性丢失，无证可查，海量数据存储，检索缓慢、查询效率低下等问题。为避免上述提及问题，可以对数据进行集成化管理，分别从硬件、软件系统协同运行，如有发生也应做到可及时恢复。可以对存储数据的数据库中的数据进行了备份，在本地的硬件存储设备和云空间进行了备份存储。本地的硬件存储设备具有正式的出厂合格证明和权威机构的质量保证。且确保系统可靠，保持24小时不间断服务。在数据存储的可靠性方面主要考虑：网络系统、软件系统和管理服务器方面。随着数据的增长，数据容量将会不断增大，新的业务要求也层出不穷，要求系统本身具备良好的扩展性。可扩展性主要体现在系统横向和纵向的扩展能力上，在系统横向扩展方面，数据应当在满足基础数据的基础上，方便扩容，实现更大容量的存储；纵向扩展方面，有良好的兼容性和通用的软硬件接口，方便在前期的基础上进行二次功能开发。

在另一些实施例中，硬件存储设备可以使用虚拟化的硬件设备，改变了以往传统的软件和硬件的关系，使软件的使用不再局限于硬件，一个应用例如存储软件可以运行在几个地方的硬件上，不局限于某一台DVR或者NVR的硬盘里面。硬件的虚拟化极大地增加了资源的利用效率，同时降低了投资和维护费用。虚拟化硬件的能力可以为提供不同的云服务奠定了好的基础，因此，在此之上可以架构私有云。私有云提供了更好的可靠性、性能以及降低维护成本，即在存储上述数据的过程中，因为通常情况下仅存在一个使用者，因此使用者可以不再关心存储设备和存储空间的计算，无需关心网络设备的配置和学习复杂的网络知识。保证系统的稳定性。

在本实施例中，云存储(私有云的方式)可以实现存储完全虚拟化，节省建设成本，同时提供更强的存储和共享功能，并且保证系统的稳定性。

在一个实施例中，如图6所示，所述方法还包括：

S602，对所述目标业务数据和/或所述子业务数据进行安全处理，所述安全处理包括：数据加密、数据库冗余和数据容灾。

具体地，随着IT技术的发展，数据传输渠道不断增加，造成数据漏洞的途径日益增多。企业针对业务数据安全方面缺少有效的技术管理手段，安全风险相对较高。各种监管机构日益提高对数据安全的重视程度，不断强调增强数据的安全性。因此，需要对目标业务数据和/或子业务数据进行安全处理。例如，可以对目标业务数据和/或所述子业务数据进行加密以及进行脱敏处理。例如，可以对存储目标业务数据和/或子业务数据的数据库进行加密，和/或，对目标业务数据和/或子业务数据的字段进行加密。数据库冗余通常可以是关系数据库中的数据冗余，主要是指关系数据库中同一信息数据的重复存贮。关系数据库中为实现一些功能有些数据冗余是必需的。必需的数据冗余主要用于以下用途：1、数据间建立联系，如两表间通过共同属性建立联系；2、数据恢复，如建立备份文件以备正式文件被破坏时恢复；3、数据核查，如设立数据校验位可以检查数据在存贮、传输等过程中的改变等。数据容灾，对于IT而言，就是为计算机信息系统提供的一个能应付各种灾难的环境。当计算机系统在遭受如火灾、水灾、地震、战争等不可抗拒的自然灾难以及计算机犯罪、计算机病毒、掉电、网络/通信失败、硬件/软件错误和人为操作错误等人为灾难时，可以将保证数据的安全性(数据容灾)。

S604，使用双主服务器将所述目标业务数据和/或所述子业务数据存储在私有云中。

具体地，因为目标业务数据和/或子业务数据是存储在私有云中的，因此可以使用私有云异地双活的方式，即使用双主服务器，来确保数据的更高强度的安全。异地双活通常可以是在两个地区的机房分别部署整套应用，且访问本地存储。异地部署可以进行数据容灾，提高系统可用性，访问本地存储是防止远距离访问带来的网络延迟、网络质量不佳的问题。

S606，响应于客户端需要获取所述目标业务数据和/或所述子业务数据，验证所述客户端的身份信息，并保存日志信息，所述日志信息中包括：客户端获取所述目标业务数据和/或所述子业务数据的信息。

具体地，当客户端需要获取目标业务数据和/或子业务数据时，通常可以对客户端进行多因素认证。多因素认证可以是一种计算机访问控制的方法，要通过两种以上的认证机制之后，才能得到授权，使用计算机资源。可以包括验证码验证、人脸验证等。并且在登录过程中，通过多因素认证而使得客户端无需输入密码，免密功能避免密码泄露，锁定防止密码爆破。除此之外，还可以发放软证书，使登录过程无法抵赖。软证书可以是一种权威性的数字证书，由第三方机构出版，提供在互联网上进行身份验证。对于用户采用临时验证码验证，使用已发送的验证码进行登录。期间对于每次使用的验证码等均有留痕记录。在通过客户端获取目标业务数据和/或子业务数据的过程中，可以保存相应的日志信息，以此来保证所有访问行为都合法执行，有据可查。另外，针对不同敏感度的业务数据可以采用不同的控制手段，在满足合规性的基础上，对数据集进行敏感属性识别，确保隐藏在大段文本中的敏感信息不被纰漏，同时还支持自定义对敏感数据类型的自动发现，满足个性化需求。

除上述过程之外，还可以使用如下方式进行安全处理，1、假冒应用识别和拦截，防止非法人员利用假冒应用登录数据库、窃取数据。2、虚拟补丁库，升级补丁无需下线服务器，种类和数量覆盖所有已公开漏洞。3、SQL注入防御，SQL黑名单阻断防御，SQL白名单优先放行，“黑+白”模式有效阻断防御外部注入攻击。4、业务SQL自动学习，客户端SQL合法语句自动加白，减轻配优人力成本。

在上述提及的一些实施例中，并行处理的方式可以使用多线程，也可以使用分布式。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本公开实施例还提供了一种用于实现上述所涉及的业务数据的处理方法的业务数据的处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个业务数据的处理装置实施例中的具体限定可以参见上文中对于业务数据的处理方法的限定，在此不再赘述。

在一个实施例中，如图7所示，提供了一种业务数据的处理装置700，包括：数据采集模块702、数据处理模块704、数据分析模块706和数据展示模块708，其中：

数据采集模块702，用于利用至少一种数据采集方式获取业务数据，所述数据采集方式包括：流处理场景下的采集方式；

数据处理模块704，用于利用数据映射的方式对业务数据进行处理，得到多个子业务数据，所述数据映射的方式包括：将所述业务数据拆分为多个子数据，将多个子数据和所述子数据对应的数据标识进行分开存储；

数据筛选模块706，用于对各所述子业务数据进行数据筛选，去除各所述子业务数据中与所述业务类型不相关的无效数据，以确定各所述子业务数据中目标业务数据；

数据分析模块708，用于利用回归分析法对所述目标业务数据进行回归分析，确定所述目标业务数据之间的关系。

在所述装置的一个实施例中，所述装置还包括：

数据划分模块，用于响应于需要对第一业务数据进行数据处理，将所述目标业务数据或所述子业务数据划分为多个数据区域。

区域确定模块，用于统计多个所述数据区域中的数据，确定多个数据区域中目标数据区域。

数据处理子模块，用于在所述目标数据区域中检索所述第一业务数据，对所述第一业务数据进行数据处理，所述第一业务数据为所述目标业务数据或多个所述子业务数据中的数据。

在所述装置的一个实施例中，所述区域确定模块，包括：

第一数据区域确定模块，用于在多个所述数据区域中确定所述第一业务数据所处的第一数据区域。

区域划分模块，用于响应于所述第一数据区域中的目标业务数据或所述子业务数据的数量大于预设的数量阈值，对所述第一数据区域进行数据划分，直至数据划分后得到的第一数据区域中的目标业务数据或所述子业务数据的数量小于等于预设的数量阈值。

目标数据区域确定模块，用于根据数据划分后得到的第一数据区域，确定目标数据区域，还用于响应于所述第一数据区域中的目标业务数据或所述子业务数据的数量小于等于预设的数量阈值，根据所述第一数据区域，确定目标数据区域。

在所述装置的一个实施例中，所述数据处理子模块，还用于响应于需要对所述目标业务数据或所述子业务数据进行数据处理，对每个所述数据区域进行并行方式的数据处理。

在所述装置的一个实施例中，所述数据处理模块704，包括：

链表确定模块，用于利用链表数组的方式确定所述业务数据中每个数据对应的链表。

数据转化模块，用于利用散列法将所述业务数据中的每个数据转化成数组数据，所述散列法包括：除法散列法、平方散列法和斐波那契散列法。

链表存储模块，用于将所述数组数据存储至对应的链表中，得到子业务数据。

在所述装置的一个实施例中，所述装置还包括：过滤器存储模块，用于利用布隆过滤器存储所述数组数据，所述布隆过滤器包括：计数布隆过滤器和/或光谱布隆过滤器。

在所述装置的一个实施例中，所述数据采集方式还包括：ETL采集方式和预设规则的采集方式，所述预设规则的采集包括：按照预设的规则从采集目标中获取业务数据。

在所述装置的一个实施例中，所述装置还包括：存储模块，用于将所述目标业务数据和/或所述子业务数据存储在私有云中。

在所述装置的一个实施例中，所述装置还包括：

安全处理模块，用于对所述目标业务数据和/或所述子业务数据进行安全处理，所述安全处理包括：数据加密、数据库冗余和数据容灾。

所述存储模块，还用于使用双主服务器将所述目标业务数据和/或所述子业务数据存储在私有云中。

身份验证模块，用于响应于客户端需要获取所述目标业务数据和/或所述子业务数据，验证所述客户端的身份信息，并保存日志信息，所述日志信息中包括：客户端获取所述目标业务数据和/或所述子业务数据的信息。

上述业务数据的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种业务数据的处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述任一方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任一方法实施例中的步骤。

需要说明的是，本申请所涉及的业务数据，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本公开所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本公开所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本公开所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本公开的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本公开专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本公开构思的前提下，还可以做出若干变形和改进，这些都属于本公开的保护范围。因此，本公开的保护范围应以所附权利要求为准。

Claims

1.一种业务数据的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述统计多个所述数据区域中的数据，确定多个数据区域中目标数据区域，包括：

根据数据划分后得到的第一数据区域，确定目标数据区域；

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：响应于需要对所述目标业务数据或所述子业务数据进行数据处理，对每个所述数据区域进行并行方式的数据处理。

5.根据权利要求1所述的方法，其特征在于，所述利用数据映射的方式对业务数据进行处理，得到多个子业务数据，包括：

将所述数组数据存储至对应的链表中，得到子业务数据。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：利用布隆过滤器存储所述数组数据，所述布隆过滤器包括：计数布隆过滤器和/或光谱布隆过滤器。

7.根据权利要求1所述的方法，其特征在于，所述数据采集方式还包括：ETL采集方式和预设规则的采集方式，所述预设规则的采集包括：按照预设的规则从采集目标中获取业务数据。

8.根据权利要求1所述的方法，其特征在于，所述目标业务数据和/或所述子业务数据存储在私有云中。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：响应于所述子业务数据为非结构化数据，按照所述子业务数据的数据信息进行分类。

11.一种业务数据的处理装置，其特征在于，所述装置包括：

12.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。

14.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。