CN111198904A

CN111198904A - 数据处理方法及装置、处理系统

Info

Publication number: CN111198904A
Application number: CN201811372965.8A
Authority: CN
Inventors: 万景琨
Original assignee: Qianxun Spatial Intelligence Inc
Current assignee: Qianxun Spatial Intelligence Inc; Qianxun Position Network Co Ltd
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2020-05-26

Abstract

本发明适用于数据处理技术领域，提供了一种数据处理方法及装置、处理系统，所述处理方法包括：获取数据库的原始数据的存储状况；对所述原始数据的存储状况进行一次扫描，基于扫描结果构建统计数学模型以进行数据合并；基于合并结果计算实时分位数。本发明中，对原始数据的存储状况进行一次扫描，基于扫描结果构建数学模型以进行数据合并，基于合并结果计算分位数，可提高计算效率。

Description

数据处理方法及装置、处理系统

技术领域

本发明属于车辆管理技术领域，尤其涉及一种数据处理方法及装置、处理系统。

背景技术

随着技术发展，计算机、网络等技术运用到各个行业，在数据库表中存储记录的数据量也越来越巨大，已有的数据处理技术，在运算中会多次扫描数据库表中的所有数据，导致计算机IO极高。其中，IO是指计算机从外围设备(磁盘、网络、磁带等)读取数据到内存时所读取的数据量。

首先，在对数据库表中的数据进行排序时，也会由于过高的计算量，排序记录项多且数据量大，如前述计算分位数时全表整体排序的情形，会降低计算机的运算效率。其次，若数据库表中的数据的值集中在某个数据区间内即数据倾斜严重，会导致负责该数据区间的reduce设备需要排序的数据量过大，增加数据处理时长，甚至无法得到计算结果。再者，在计算分位数时，每次只能计算一个分位数，若想要计算多个分位数，只能通过多次扫描遍历排序后的数据，因此计算机的运算量及存储量较大，成本高；另外，在数据处理过程中由于不同的数据指标处于不同的数量级降低数据指标之间的可比性，降低数据处理的效率。

发明内容

本发明实施例提供了一种数据处理方法及装置、处理系统，旨在解决现有技术的需要通过多次扫描便利排序后的数据来计算分位数，存储量较大、计算量大的问题。

一种数据处理方法，包括：

获取数据库的原始数据的存储状况；

对所述原始数据的存储状况进行一次扫描，基于扫描结果构建统计数学模型以进行数据合并；

基于合并结果计算实时分位数。

优选地，获取数据库的原始数据的存储状况之后、扫描一次所述原始数据的存储状况之前还包括：

对所述数据库的原始数据的存储状况进行归一化处理，得到归一化的数据。

优选地，对所述数据库的原始数据的存储状况进行归一化处理，得到归一化的数据具体为：对HBASE数据库的原始数据的存储状况采用零均值标准化方式进行归一化处理，得到归一化数据，所述原始数据的分布为高斯分布。

优选地，所述对所述原始数据的存储状况进行一次扫描，基于扫描结果构建统计数学模型以进行数据合并：

对所述归一化的数据进行初始化处理；

扫描一次所述初始化处理结果，基于扫描处理结果进行合并得到合并结果。

优选地，所述归一化处理的公式为：

其中：x表示数据的存储状况，μ表示原始数据集的均值，σ表示压缩比。

优选地，对所述归一化的数据进行初始化处理包括：

获取每个数据的存储状况集合；

基于所述存储状况集合获取中心点集合；

基于所述中心点集合获取两个数据之间的距离，得到距离集合。

优选地，扫描一次所述初始化处理结果，基于扫描处理结果进行合并得到合并结果包括：

对所述中心点集合扫描一次，并选择压缩比，从所述中心点集合中获取满足预设条件的集合；

基于所述满足预设条件的集合进行合并，得到合并结果。

本发明还提供一种数据处理装置，包括：

获取单元，用于获取数据库的原始数据的存储状况；

构建合并单元，用于对所述原始数据的存储状况进行一次扫描，基于扫描结果构建统计数学模型以进行数据合并；

计算单元，用于基于合并结果计算实时分位数。

本发明还提供一种处理系统，该处理系统包括一种数据处理装置，所述处理装置包括：

获取单元，用于获取数据库的原始数据的存储状况；

计算单元，用于基于合并结果计算实时分位数。

本发明还提供一种存储器，所述存储器存储有计算机程序，所述计算机程序被处理器执行如下步骤：

获取数据库的原始数据的存储状况；

基于合并结果计算实时分位数。

本发明还提供一种处理终端，包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取数据库的原始数据的存储状况；

基于合并结果计算实时分位数。

本发明实施例中，对原始数据的存储状况进行一次扫描建立数据模型以进行合并，基于合并结果来计算分位数，提高计算效率，降低成本。

附图说明

图1为本发明第一实施例提供的一种数据处理方法的流程图；

图2为本发明第一实施例提供的一种数据处理方法的步骤S2的具体流程图；

图3为本发明第一实施例提供的一种数据处理方法的步骤S21的具体流程图；

图4为本发明第一实施例提供的一种数据处理方法的步骤S22的具体流程图；

图5为本发明第二实施例提供的一种数据处理装置的结构图；

图6为本发明第三实施例提供的一种处理终端的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例中，一种数据处理方法，包括：获取数据库的原始数据的存储状况；对所述原始数据的存储状况进行一次扫描，基于扫描结果构建统计数学模型以进行数据合并；基于合并结果计算实时分位数。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一：

图1示出了本发明第一实施例提供的一种数据处理方法的流程图，该方法包括：

步骤S1，获取数据库的原始数据的存储状况；

具体地，该数据库优选为HBASE服务器的数据库，获取每个服务器的数据的存储状态，该存储状态可包括：当前存储的数据大小、类型、存储时间等，还可包括其他，此处对此不作限制。

步骤S2，对原始数据的存储状况进行一次扫描，基于扫描结果构建统计数学模型以进行数据合并；

具体地，首先对原始数据的存储状况进行一次扫描分析，获得对应的扫描分析结果，基于扫描分析结果构建数学模型，以进行数据的合并。

步骤S3，基于合并结果计算实时分位数；

具体地，基于合并结果实时分位数。

在本实施例中，对原始数据的存储状况进行一次扫描，基于扫描结果构建数学模型以进行数据合并，基于合并结果计算分位数，可提高计算效率。

进一步地，该步骤S3具体为：

基于数据存贮状况收集；

基于数据存贮做的归一化；

建立数据模型进行合并；

扫描模型，计算对应的分位数。

在本实施例的一个优选方案中，该步骤S1之后、步骤S2之前还可包括：

步骤S4，对数据库的原始数据的存储状况进行归一化处理，得到归一化的数据；

具体地，对数据库的原始数据的存储状况进行归一化处理，由于不同评价指标具有不同的量纲和量纲单位，首先对数据进行归一化处理，可消除评价指标之间的量纲影响，提高后续数据处理的可靠性及效率。

进一步地，该步骤S4优选为：对HBASE数据库的原始数据的存储状况采用零均值标准化方式进行归一化处理，得到归一化数据，所述原始数据的分布为高斯分布；

再进一步地，该归一化处理公式为：

其中：x表示数据的存储状况，μ表示原始数据集的均值，σ表示压缩比，该存储状况代表的是存储容量和存储备份的综合考量。

在本实施例的一个优选方案中，该步骤S2具体为：对归一化处理的数据的存储状况进行一次扫描，基于扫描结果构建统计数学模型以进行数据合并。

在本实施例的一个优选方案中，如图2所示，为本发明第一实施例提供的一种数据处理方法的步骤S2的具体流程图，该步骤S2具体包括：

步骤S21，对归一化的数据进行初始化处理；

具体地，对归一化的数据进行初始化处理；

步骤S22，扫描一次初始化处理结果，基于扫描处理结果进行合并得到合并结果。

在本实施例的一个优选方案中，如图3所示，为本发明第一实施例提供的一种数据处理方法的步骤S21的具体流程图，该步骤S21具体包括：

步骤S211，获取每个数据的存储状况集合；

具体地，对每个数据的存储状况即为：X＝{(x₁，w₁)，...(x_N，w_N)}，其中，x₁...x_N为归一化的各个数据的存储状态值，w₁...w_N为对应的权重值，初始值为1，N表示HBASE文件的最小分片的数量；

步骤S212，基于存储状况集合获取中心点集合；

具体地，建立中心点集合C，C＝{c₁，...c_i}，每个元素c_i代表一批x元素与中心节点偏离度，有count代表所有被稀释的节点x₁...x_s之间的权重值之和。对于海量数据，设定一个值σ来定义压缩比例(原始文件大小与压缩文件的大小之间的比例)，将w₁...w_N稀释成c₁...c_m节点，又不失去x分布的特性，对于任意一压缩比σ、分位数q及估值的第k个元素，分位数为q的第k个元素公式为：

步骤S213，基于中心点集合获取两个数据之间的距离，得到距离集合；

具体地，基于中心点集合获取两个数据之间的距离，得到距离集合，例如，对于集合大小等于k的C集合中任意节点c_i满足：

K(i)表示任意两个数据之间的距离，k代表的是整个大的HBASE文件包含最小HBASE文件分片的数量，w_j是每个最小分片的权重，j代表每个压缩前分片小文件的代号，δ代表压缩比；

在本实施例的一个优选方案中，如图4所示，为本发明第一实施例提供的一种数据处理方法的步骤S22的具体流程图，该步骤S22具体包括：

步骤S221，对中心点集合扫描一次，并选择压缩比，从中心点集合中获取满足预设条件的集合；

具体地，逐个遍历扫描输入集合X中的每一元素x，从中心点集合中获取满足预设条件的集合，该预设条件具体为：满足元素z＝mm|c_i.mean-x|，z表示扫描所有文件分片中与中心点集合的，前述公式表示扫描所有文件分片中与中心点集合中各个中心点的算数平均的差值绝对值最小的，且满足S＝{c_i：|c_i.mean-x|＝z^K(c_i+W_n)＜1}，即在C集合中获取满足中心节点在加入元素x_n后与其相邻的数据存储状况节点的值小于1；如果S集合的数量大于零，则根据S集合中心节点的权重值之和由小到大进行排序，并取出第一个中心节点，此时通过公示c.count＝c.count+w_n来更新C.count，及c.mean+(x_n-c.mean)/c.count来更新c.mean，其中，代表多个大HBASE文件中心点集合，满足改成更新，也就是不断更新这个中心点集合的count和mean。如果S等于零，则将(x_n，w_n)直接作为新的中心节点加入到集合C中，循环遍历完X集合中所有元素x后，如果C集合中的元素数量大于K/σ，则需要进行元素合并。选择压缩比例值的过程如下：选取k值作为压缩比例值，可根据实际能利用的存储空间值来进行估算，k必须是小于n，且大于1的整数。

步骤S222，基于满足预设条件的集合进行合并，得到合并结果；

具体地，将满足预设条件的集合进行合并，得到合并结果。

实施例二

如图5所示，为本发明第二实施例提供的一种数据处理装置的结构图，该处理装置包括：获取单元1、与获取单元1连接的构建合并单元2、与构建合并单元2连接的计算单元3，其中：

获取单元1，用于获取数据库的原始数据的存储状况；

构建合并单元2，用于对原始数据的存储状况进行一次扫描，基于扫描结果构建统计数学模型以进行数据合并；

计算单元3，用于基于合并结果计算实时分位数；

具体地，基于合并结果实时分位数。

在本实施例的一个优选方案中，该装置还包括：与获取单元1及构建合并单元2均连接的归一化单元4，其中：

归一化单元4，用于对数据库的原始数据的存储状况进行归一化处理，得到归一化的数据；

进一步地，该归一化单元4具体用于对HBASE数据库的原始数据的存储状况采用零均值标准化方式进行归一化处理，得到归一化数据，所述原始数据的分布为高斯分布；

再进一步地，该归一化处理公式为：

在本实施例的一个优选方案中，在本实施例的一个优选方案中，如图5所示，为本发明第二实施例提供的一种数据处理装置的构造合并单元2的结构图，该构造合并单元2包括：归一化子单元21及与其连接的合并子单元22，其中：

归一化子单元21，用于对归一化的数据进行初始化处理；

具体地，对归一化的数据进行初始化处理；

合并子单元22，用于扫描一次初始化处理结果，基于扫描处理结果进行合并得到合并结果。

在本实施例的一个优选方案中，该归一化子单元21具体用于：

获取每个数据的存储状况集合；

还用于基于存储状况集合获取中心点集合；

还用于：基于中心点集合获取两个数据之间的距离，得到距离集合；

在本实施例的一个优选方案中，该合并子单元具体包括：集合获取子单元、与集合获取子单元连接的集合合并子单元，其中：

集合获取子单元，用于对中心点集合扫描一次，并选择压缩比，从中心点集合中获取满足预设条件的集合；

集合合并子单元，用于基于满足预设条件的集合进行合并，得到合并结果。在本实施例的一个优选方案中，该计算单元3具体用于：

基于数据存贮状况收集；

基于数据存贮做的归一化；

建立数据模型进行合并；

扫描模型，计算对应的分位数；

其次，采用边扫描边计算合并的数学模型，所用空间采用较少的临时空间，提高空间的复用效率。

本发明还提出一种处理系统，该处理系统可包括上述实施例二所述的数据处理装置，该数据处理装置的具体结构、工作原理及所带来的技术效果与上述实施例二的描述一致，此处不再赘述。

优选地，该处理系统可包括4台云计算平台服务器，以对多个数据库进行数据处理。

实施例三：

图6示出了本发明第三实施例提供的一种处理终端的结构图，该处理终端包括：存储器(memory)61、处理器(processor)62、通信接口(Communications Interface)63和总线64，该处理器62、存储器61、通信接口63通过总线64完成相互之间的交互通信。

存储器61，用于存储各种数据；

具体地，存储器61用于存储各种数据，例如通信过程中的数据、接收的数据等，此处对此不作限制，该存储器还包括有多个计算机程序。

通信接口63，用于该检测终端的通信设备之间的信息传输；

处理器62，用于调用存储器61中的各种计算机程序，以执行上述实施例一所提供的一种数据处理方法，例如：

获取数据库的原始数据的存储状况；

基于合并结果计算实时分位数。

本发明还提供一种存储器，该存储器存储有多个计算机程序，该多个计算机程序被处理器调用执行上述实施例一所述的一种数据处理方法。

本发明中，对原始数据的存储状况进行一次扫描，基于扫描结果构建数学模型以进行数据合并，基于合并结果计算分位数，可提高计算效率。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。

专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，包括：

获取数据库的原始数据的存储状况；

基于合并结果计算实时分位数。

2.根据权利要求1所述的处理方法，其特征在于，获取数据库的原始数据的存储状况之后、扫描一次所述原始数据的存储状况之前还包括：

3.根据权利要求2所述的处理方法，其特征在于，对所述数据库的原始数据的存储状况进行归一化处理，得到归一化的数据具体为：

对HBASE数据库的原始数据的存储状况采用零均值标准化方式进行归一化处理，得到归一化数据，所述原始数据的分布为高斯分布。

4.根据权利要求3所述的处理方法，其特征在于，所述对所述原始数据的存储状况进行一次扫描，基于扫描结果构建统计数学模型以进行数据合并：

对所述归一化的数据进行初始化处理；

5.根据权利要求4所述的处理方法，其特征在于，所述归一化处理的公式为：

6.根据权利要求5所述的处理方法，其特征在于，对所述归一化的数据进行初始化处理包括：

获取每个数据的存储状况集合；

基于所述存储状况集合获取中心点集合；

7.根据权利要求6所述的处理方法，其特征在于，扫描一次初始化处理结果，基于扫描处理结果进行合并得到合并结果包括：

基于所述满足预设条件的集合进行合并，得到合并结果。

8.一种数据处理装置，其特征在于，包括：

获取单元，用于获取数据库的原始数据的存储状况；

计算单元，用于基于合并结果计算实时分位数。

9.一种处理系统，其特征在于，包括如权利要求9所述的数据处理装置。

10.一种存储器，所述存储器存储有计算机程序，其特征在于，所述计算机程序被处理器执行如下步骤：

获取数据库的原始数据的存储状况；

基于合并结果计算实时分位数。

11.一种处理终端，包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的数据处理方法的步骤。