CN116628428A

CN116628428A - 一种数据加工方法及系统

Info

Publication number: CN116628428A
Application number: CN202310904520.4A
Authority: CN
Inventors: 刘鲁清; 杨正新; 李栋梁; 孙崇武; 祝家鑫
Original assignee: Huaneng Information Technology Co Ltd
Current assignee: Huaneng Information Technology Co Ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-08-22
Anticipated expiration: 2043-07-24
Also published as: CN116628428B

Abstract

本发明涉及数据处理技术领域，公开了一种数据加工方法及系统，获取初始数据，对初始数据进行数据预处理，并得到待处理数据，提取待处理数据的特征信息，基于特征信息对待处理数据进行异常检测，并得到待加工数据，将待加工数据引入数据池，并确定数据池中数据拆分指针的位置信息，根据数据拆分指针的位置信息确定待加工数据的数据拆分策略，并基于数据拆分策略对待加工数据进行数据拆分，得到加工数据，本发明可以将初始数据进行数据拆分，进而可以把繁杂的数据加工为易处理的数据，提高了数据加工执行效率，满足了数据加工人员的数据加工需求。

Description

一种数据加工方法及系统

技术领域

本发明涉及数据处理技术领域，特别是涉及一种数据加工方法及系统。

背景技术

随着大数据相关领域快速发展，将不同系统、不同数据库的数据进行整合，并应用到新的数据应用软件中进行数据的深度挖掘已成为大数据领域的发展方向。但是数据规模庞大、增长迅速、类型繁多、结构各异已成为无法回避的现实问题，如何把繁杂的大数据变成我们能应付的、有效的“小”数据，即针对特定问题而构建一个干净、完备的数据集，这一过程变得尤为重要。

当前的数据处理中心包括如排序，剔重，过滤等等功能固化，增加特性化数据处理难，功能可扩展性差，数据处理流向无法灵活控制。目前许多的大数据应用平台不能够灵活的配置各种数据源之间的互通，只能单一的从一种数据源同步到另外一种数据源。同时大多数的大数据应用平台不能够支持流式处理，即在一个数据加工治理流程中需要多次的对数据进行读写，这样不仅使得机器的负载过高，而且整个数据加工和治理的速度将大打折扣，在很多时候都不能满足数据的及时性要求，导致数据的统一性、完整性残缺，影响数据的整合和利用。

发明内容

本发明实施例提供一种数据加工方法及系统，用以解决现有技术中无法提高数据加工执行效率，无法满足数据加工人员的数据加工需求的技术问题。

为了实现上述目的，本发明提供了一种数据加工方法，所述方法包括：

获取初始数据，对所述初始数据进行数据预处理，并得到待处理数据；

提取所述待处理数据的特征信息，基于所述特征信息对所述待处理数据进行异常检测，并得到待加工数据；

将所述待加工数据引入数据池，并确定所述数据池中数据拆分指针的位置信息；

根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略，并基于所述数据拆分策略对所述待加工数据进行数据拆分，得到加工数据；

在基于所述特征信息对所述待处理数据进行异常检测，并得到待加工数据时，包括：

获取所述待处理数据的第一维度P；

根据所述第一维度P对所述待处理数据进行维度转换，得到所述待处理数据的第二维度；

将所述第二维度对应的数据导入数据预测模型，得到预测数据；

基于所述预测数据和所述待处理数据对所述待处理数据进行异常检测；

其中，所述第二维度大于所述第一维度；

在根据所述第一维度P对所述待处理数据进行维度转换，得到所述待处理数据的第二维度时，包括：

预设第一维度矩阵G，设定G（G1，G2，G3，G4），其中，G1为第一预设第一维度，G2为第二预设第一维度，G3为第三预设第一维度，G4为第四预设第一维度，且G1＜G2＜G3＜G4；

预设第二维度矩阵D，设定D（D1，D2，D3，D4，D5），其中，D1为第一预设第二维度，D2为第二预设第二维度，D3为第三预设第二维度，D4为第四预设第二维度，D5为第五预设第二维度，且D1＜D2＜D3＜D4＜D5；

根据所述第一维度P与各预设第一维度之间的关系设定所述第二维度：

当P＜G1时，选定所述第一预设第二维度G1作为所述第二维度；

当G1≤P＜G2时，选定所述第二预设第二维度G2作为所述第二维度；

当G2≤P＜G3时，选定所述第三预设第二维度G3作为所述第二维度；

当G3≤P＜G4时，选定所述第四预设第二维度G4作为所述第二维度；

当G4≤P时，选定所述第五预设第二维度G5作为所述第二维度。

在其中一个实施例中，在对所述初始数据进行数据预处理，并得到待处理数据时，包括：

删除所述初始数据中的无效数据；

基于所述无效数据的数据序列位置，确定所有的待插值点位，并基于所述初始数据的数据特征确定所述待插值点位的插入值；

根据所述插入值对相应的待插值点位进行数据插值，得到所述待处理数据。

在其中一个实施例中，在基于所述初始数据的数据特征确定待插值点位的插入值时，包括：

将所述无效数据的前一段数据和所述无效数据的后一段数据分别导入数据熵值计算模型，得到第一数据熵值和第二数据熵值；

根据所述第一数据熵值和所述第二数据熵值计算所述待插值点位的插入值；

其中，所述待插值点位的插入值根据下式进行计算：

；

其中，w为待插值点位的插入值，w1为第一数据熵值，w2为第二数据熵值。

在其中一个实施例中，在基于所述预测数据和所述待处理数据对所述待处理数据进行异常检测时，包括：

获取所述待处理数据的第一离散特征值，并获取所述预测数据的第二离散特征值；

计算所述第一离散特征值和所述第二离散特征值的离散特征差值；

当所述离散特征差值大于预设离散特征差值时，则判断所述待处理数据为异常数据；

当所述离散特征差值小于或等于所述离散特征差值时，则判断所述待处理数据为非异常数据，并将所述待处理数据作为所述待加工数据。

在其中一个实施例中，在根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略，并基于所述数据拆分策略对所述待加工数据进行数据拆分之前，还包括：

获取所述待加工数据的数据量A；

根据所述待加工数据的数据量A对所述待加工数据设定数据分区，并基于所述数据分区对所述待加工数据进行数据拆分。

在其中一个实施例中，在根据所述待加工数据的数据量A对所述待加工数据设定数据分区时，包括：

根据所述待加工数据的数据量A设定所述数据分区的分区数量，

预设待加工数据的数据量矩阵B，设定B（B1，B2，B3，B4），其中，B1为第一预设数据量，B2为第二预设数据量，B3为第三预设数据量，B4为第四预设数据量，且B1＜B2＜B3＜B4；

预设数据分区的分区数量矩阵C，设定C（C1，C2，C3，C4，C5），其中，C1为第一预设分区数量，C2为第二预设分区数量，C3为第三预设分区数量，C4为第四预设分区数量，C5为第五预设分区数量，且C1＜C2＜C3＜C4＜C5；

根据所述待加工数据的数据量A与各预设数据量之间的关系设定所述数据分区的分区数量：

当A＜B1时，选定所述第一预设分区数量C1作为所述数据分区的分区数量；

当B1≤A＜B2时，选定所述第二预设分区数量C2作为所述数据分区的分区数量；

当B2≤A＜B3时，选定所述第三预设分区数量C3作为所述数据分区的分区数量；

当B3≤A＜B4时，选定所述第四预设分区数量C4作为所述数据分区的分区数量；

当B4≤A时，选定所述第五预设分区数量C5作为所述数据分区的分区数量。

在其中一个实施例中，在根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略，并基于所述数据拆分策略对所述待加工数据进行数据拆分时，包括：

当所述数据拆分指针位于所述待加工数据的头部位置时，则基于所述数据分区从所述待加工数据的头部位置开始拆分；

当所述数据拆分指针位于所述待加工数据的尾部位置时，则基于所述数据分区从所述待加工数据的尾部位置开始拆分；

当所述数据拆分指针位于所述待加工数据的中间位置时，则根据所述头部位置和所述中间位置之间的数据生成第一数据集合，根据所述尾部位置和所述中间位置之间的数据生成第二数据集合；

获取所述第一数据集合的第一数据热度，获取所述第二数据集合的第二数据热度；

当所述第一数据热度大于所述第二数据热度时，则基于所述数据分区从所述第一数据集合开始拆分；

当所述第一数据热度小于所述第二数据热度时，则基于所述数据分区从所述第二数据集合开始拆分。

为了实现上述目的，本发明提供了一种数据加工系统，所述系统包括：

处理模块，用于获取初始数据，对所述初始数据进行数据预处理，并得到待处理数据；

检测模块，用于提取所述待处理数据的特征信息，基于所述特征信息对所述待处理数据进行异常检测，并得到待加工数据；

确定模块，用于将所述待加工数据引入数据池，并确定所述数据池中数据拆分指针的位置信息；

拆分模块，用于根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略，并基于所述数据拆分策略对所述待加工数据进行数据拆分，得到加工数据；

所述检测模块具体用于：

所述检测模块用于获取所述待处理数据的第一维度P；

所述检测模块用于根据所述第一维度P对所述待处理数据进行维度转换，得到所述待处理数据的第二维度；

所述检测模块用于将所述第二维度对应的数据导入数据预测模型，得到预测数据；

所述检测模块用于基于所述预测数据和所述待处理数据对所述待处理数据进行异常检测；

其中，所述第二维度大于所述第一维度；

所述检测模块具体用于：

所述检测模块用于预设第一维度矩阵G，设定G（G1，G2，G3，G4），其中，G1为第一预设第一维度，G2为第二预设第一维度，G3为第三预设第一维度，G4为第四预设第一维度，且G1＜G2＜G3＜G4；

所述检测模块用于预设第二维度矩阵D，设定D（D1，D2，D3，D4，D5），其中，D1为第一预设第二维度，D2为第二预设第二维度，D3为第三预设第二维度，D4为第四预设第二维度，D5为第五预设第二维度，且D1＜D2＜D3＜D4＜D5；

所述检测模块用于根据所述第一维度P与各预设第一维度之间的关系设定所述第二维度：

本发明提供了一种数据加工方法及系统，相较现有技术，具有以下有益效果：

本发明公开了一种数据加工方法及系统，获取初始数据，对初始数据进行数据预处理，并得到待处理数据，提取待处理数据的特征信息，基于特征信息对待处理数据进行异常检测，并得到待加工数据，将待加工数据引入数据池，并确定数据池中数据拆分指针的位置信息，根据数据拆分指针的位置信息确定待加工数据的数据拆分策略，并基于数据拆分策略对待加工数据进行数据拆分，得到加工数据，本发明可以将初始数据进行数据拆分，进而可以把繁杂的数据加工为易处理的数据，提高了数据加工执行效率，满足了数据加工人员的数据加工需求。

附图说明

图1示出了本发明实施例中一种数据加工方法的流程示意图；

图2示出了本发明实施例中一种数据加工系统的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式做进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

在本申请的描述中，需要理解的是，术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体的连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

下文是结合附图对本发明的优选的实施例说明。

如图1所示，本发明的实施例公开了一种数据加工方法，所述方法包括：

S110：获取初始数据，对所述初始数据进行数据预处理，并得到待处理数据；

在本申请的一些实施例中，在对所述初始数据进行数据预处理，并得到待处理数据时，包括：

删除所述初始数据中的无效数据；

本实施例中，无效数据是指重复数据和错误数据；

本实施例中，待插值点位是指当删除无效数据时，无效数据所在的数据序列位置会出现数据空白位置，将数据空白位置作为待插值点位；

在本申请的一些实施例中，在基于所述初始数据的数据特征确定待插值点位的插入值时，包括：

其中，所述待插值点位的插入值根据下式进行计算：

；

本实施例中，无效数据的前一段数据是指待插值点位之前的数据，无效数据的后一段数据是指待插值点位之后的数据；

上述技术方案的有益效果是：根据插入值对相应的待插值点位进行数据插值，可以保证数据的连贯性，方便数据的进一步加工处理。

S120：提取所述待处理数据的特征信息，基于所述特征信息对所述待处理数据进行异常检测，并得到待加工数据；

在本申请的一些实施例中，在基于所述特征信息对所述待处理数据进行异常检测，并得到待加工数据时，包括：

获取所述待处理数据的第一维度P；

其中，所述第二维度大于所述第一维度。

本实施例中，维度是判断待处理数据为高维度数据还是低维度数据的一个标准，如512维度，1024维度等；

本实施例中，具体的数据预测模型冗长且成熟，此处不做过多介绍；

上述技术方案的有益效果是：通过进行维度转换，并得到预测数据，可以准确的判断当前的待处理数据是否为异常数据，防止出现加工异常数据的现象。

在本申请的一些实施例中，在根据所述第一维度P对所述待处理数据进行维度转换，得到所述待处理数据的第二维度时，包括：

上述技术方案的有益效果是：本发明可以根据第一维度P与各预设第一维度之间的关系设定第二维度，进而可以实现精准的维度转换，为判断待处理数据是否为异常数据提供可靠的数据支撑。

在本申请的一些实施例中，在基于所述预测数据和所述待处理数据对所述待处理数据进行异常检测时，包括：

本实施例中，离散特征值是用来衡量待处理数据离散程度的值；

本实施例中，预设离散特征差值可以根据实际情况进行设定，当计算得到的离散特征差值小于或等于预设离散特征差值，则可以判定待处理数据不存在异常。

上述技术方案的有益效果是：通过预设离散特征差值和离散特征差值来准确判断待处理数据是否异常，进而为后续数据加工提供可靠的数据支撑。

S130：将所述待加工数据引入数据池，并确定所述数据池中数据拆分指针的位置信息；

本实施例中，数据拆分指针是指数据拆分标识；

S140：根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略，并基于所述数据拆分策略对所述待加工数据进行数据拆分，得到加工数据。

在本申请的一些实施例中，在根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略，并基于所述数据拆分策略对所述待加工数据进行数据拆分之前，还包括：

获取所述待加工数据的数据量A；

在本申请的一些实施例中，在根据所述待加工数据的数据量A对所述待加工数据设定数据分区时，包括：

本实施例中，数据量是指在计算机系统中存储、传输和处理的数据的大小。数据量的大小通常以字节(Byte)、千字节(KB)、兆字节(MB)、吉字节(GB)和太字节(TB)等单位来表示。

本实施例中，数据分区是指可以将待加工数据进行拆分的依据，如数据分区的分区数量为10个，则将待加工数据划分为10个数据分区，每一个数据分区都包含有数据；

上述技术方案的有益效果是：根据待加工数据的数据量A与各预设数据量之间的关系设定数据分区的分区数量，进而可以实现对复杂数据的拆分，将复杂数据拆分为若干个数据分区，进而可以把繁杂的数据加工为易处理的数据，提高了数据加工执行效率，满足了数据加工人员的数据加工需求。

在本申请的一些实施例中，在根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略，并基于所述数据拆分策略对所述待加工数据进行数据拆分时，包括：

本实施例中，数据热度是指根据数据的价值、使用频次、使用方式的不同,对数据生成的数据热度数值；

本实施例中，当第一数据热度等于第二数据热度时，则在第一数据集合和第二数据集合之中，随机选取一个数据集合进行优先拆分；

上述技术方案的有益效果是：通过判断数据拆分指针的位置，可以提供不同的数据拆分策略，进而保证数据拆分的有序性，避免在进行数据拆分时，出现数据混乱的现象。

为了进一步阐述本发明的技术思想，现结合具体的应用场景，对本发明的技术方案进行说明。

对应的，如图2所示，本申请还提供了一种数据加工系统，所述系统包括：

所述检测模块具体用于：

所述检测模块用于获取所述待处理数据的第一维度P；

其中，所述第二维度大于所述第一维度；

所述检测模块具体用于：

综上，本发明实施例通过获取初始数据，对初始数据进行数据预处理，并得到待处理数据，提取待处理数据的特征信息，基于特征信息对待处理数据进行异常检测，并得到待加工数据，将待加工数据引入数据池，并确定数据池中数据拆分指针的位置信息，根据数据拆分指针的位置信息确定待加工数据的数据拆分策略，并基于数据拆分策略对待加工数据进行数据拆分，得到加工数据，本发明可以将初始数据进行数据拆分，进而可以把繁杂的数据加工为易处理的数据，提高了数据加工执行效率，满足了数据加工人员的数据加工需求。

在上述实施方式的描述中，具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

虽然在上文中已经参考实施例对本发明进行了描述，然而在不脱离本发明的范围的情况下，可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是，只要不存在结构冲突，本发明所披露的实施例中的各项特征均可通过任意方式相互结合起来使用，在本说明书中未对这些组合的情况进行全部的描述仅仅是出于省略篇幅和节约资源的考虑。因此，本发明并不局限于文中公开的特定实施例，而是包括落入权利要求的范围内的所有技术方案。

本领域普通技术人员可以理解：以上仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例记载的技术方案进行修改，或者对其中间分技术特征进行等同替换。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据加工方法，其特征在于，所述方法包括：

获取所述待处理数据的第一维度P；

其中，所述第二维度大于所述第一维度；

2.根据权利要求1所述的数据加工方法，其特征在于，在对所述初始数据进行数据预处理，并得到待处理数据时，包括：

删除所述初始数据中的无效数据；

3.根据权利要求2所述的数据加工方法，其特征在于，在基于所述初始数据的数据特征确定待插值点位的插入值时，包括：

其中，所述待插值点位的插入值根据下式进行计算：

；

4.根据权利要求1所述的数据加工方法，其特征在于，在基于所述预测数据和所述待处理数据对所述待处理数据进行异常检测时，包括：

5.根据权利要求1所述的数据加工方法，其特征在于，在根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略，并基于所述数据拆分策略对所述待加工数据进行数据拆分之前，还包括：

获取所述待加工数据的数据量A；

6.根据权利要求5所述的数据加工方法，其特征在于，在根据所述待加工数据的数据量A对所述待加工数据设定数据分区时，包括：

7.根据权利要求6所述的数据加工方法，其特征在于，在根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略，并基于所述数据拆分策略对所述待加工数据进行数据拆分时，包括：

8.一种数据加工系统，其特征在于，所述系统包括：

所述检测模块具体用于：

所述检测模块用于获取所述待处理数据的第一维度P；

其中，所述第二维度大于所述第一维度；

所述检测模块具体用于：