CN116628428A - 一种数据加工方法及系统 - Google Patents
一种数据加工方法及系统 Download PDFInfo
- Publication number
- CN116628428A CN116628428A CN202310904520.4A CN202310904520A CN116628428A CN 116628428 A CN116628428 A CN 116628428A CN 202310904520 A CN202310904520 A CN 202310904520A CN 116628428 A CN116628428 A CN 116628428A
- Authority
- CN
- China
- Prior art keywords
- data
- dimension
- processed
- preset
- less
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000001514 detection method Methods 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000005192 partition Methods 0.000 claims description 107
- 238000000034 method Methods 0.000 claims description 23
- 238000003780 insertion Methods 0.000 claims description 19
- 230000037431 insertion Effects 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 230000005856 abnormality Effects 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,公开了一种数据加工方法及系统,获取初始数据,对初始数据进行数据预处理,并得到待处理数据,提取待处理数据的特征信息,基于特征信息对待处理数据进行异常检测,并得到待加工数据,将待加工数据引入数据池,并确定数据池中数据拆分指针的位置信息,根据数据拆分指针的位置信息确定待加工数据的数据拆分策略,并基于数据拆分策略对待加工数据进行数据拆分,得到加工数据,本发明可以将初始数据进行数据拆分,进而可以把繁杂的数据加工为易处理的数据,提高了数据加工执行效率,满足了数据加工人员的数据加工需求。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据加工方法及系统。
背景技术
随着大数据相关领域快速发展,将不同系统、不同数据库的数据进行整合,并应用到新的数据应用软件中进行数据的深度挖掘已成为大数据领域的发展方向。但是数据规模庞大、增长迅速、类型繁多、结构各异已成为无法回避的现实问题,如何把繁杂的大数据变成我们能应付的、有效的“小”数据,即针对特定问题而构建一个干净、完备的数据集,这一过程变得尤为重要。
当前的数据处理中心包括如排序,剔重,过滤等等功能固化,增加特性化数据处理难,功能可扩展性差,数据处理流向无法灵活控制。目前许多的大数据应用平台不能够灵活的配置各种数据源之间的互通,只能单一的从一种数据源同步到另外一种数据源。同时大多数的大数据应用平台不能够支持流式处理,即在一个数据加工治理流程中需要多次的对数据进行读写,这样不仅使得机器的负载过高,而且整个数据加工和治理的速度将大打折扣,在很多时候都不能满足数据的及时性要求,导致数据的统一性、完整性残缺,影响数据的整合和利用。
发明内容
本发明实施例提供一种数据加工方法及系统,用以解决现有技术中无法提高数据加工执行效率,无法满足数据加工人员的数据加工需求的技术问题。
为了实现上述目的,本发明提供了一种数据加工方法,所述方法包括:
获取初始数据,对所述初始数据进行数据预处理,并得到待处理数据;
提取所述待处理数据的特征信息,基于所述特征信息对所述待处理数据进行异常检测,并得到待加工数据;
将所述待加工数据引入数据池,并确定所述数据池中数据拆分指针的位置信息;
根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略,并基于所述数据拆分策略对所述待加工数据进行数据拆分,得到加工数据;
在基于所述特征信息对所述待处理数据进行异常检测,并得到待加工数据时,包括:
获取所述待处理数据的第一维度P;
根据所述第一维度P对所述待处理数据进行维度转换,得到所述待处理数据的第二维度;
将所述第二维度对应的数据导入数据预测模型,得到预测数据;
基于所述预测数据和所述待处理数据对所述待处理数据进行异常检测;
其中,所述第二维度大于所述第一维度;
在根据所述第一维度P对所述待处理数据进行维度转换,得到所述待处理数据的第二维度时,包括:
预设第一维度矩阵G,设定G(G1,G2,G3,G4),其中,G1为第一预设第一维度,G2为第二预设第一维度,G3为第三预设第一维度,G4为第四预设第一维度,且G1<G2<G3<G4;
预设第二维度矩阵D,设定D(D1,D2,D3,D4,D5),其中,D1为第一预设第二维度,D2为第二预设第二维度,D3为第三预设第二维度,D4为第四预设第二维度,D5为第五预设第二维度,且D1<D2<D3<D4<D5;
根据所述第一维度P与各预设第一维度之间的关系设定所述第二维度:
当P<G1时,选定所述第一预设第二维度G1作为所述第二维度;
当G1≤P<G2时,选定所述第二预设第二维度G2作为所述第二维度;
当G2≤P<G3时,选定所述第三预设第二维度G3作为所述第二维度;
当G3≤P<G4时,选定所述第四预设第二维度G4作为所述第二维度;
当G4≤P时,选定所述第五预设第二维度G5作为所述第二维度。
在其中一个实施例中,在对所述初始数据进行数据预处理,并得到待处理数据时,包括:
删除所述初始数据中的无效数据;
基于所述无效数据的数据序列位置,确定所有的待插值点位,并基于所述初始数据的数据特征确定所述待插值点位的插入值;
根据所述插入值对相应的待插值点位进行数据插值,得到所述待处理数据。
在其中一个实施例中,在基于所述初始数据的数据特征确定待插值点位的插入值时,包括:
将所述无效数据的前一段数据和所述无效数据的后一段数据分别导入数据熵值计算模型,得到第一数据熵值和第二数据熵值;
根据所述第一数据熵值和所述第二数据熵值计算所述待插值点位的插入值;
其中,所述待插值点位的插入值根据下式进行计算:
;
其中,w为待插值点位的插入值,w1为第一数据熵值,w2为第二数据熵值。
在其中一个实施例中,在基于所述预测数据和所述待处理数据对所述待处理数据进行异常检测时,包括:
获取所述待处理数据的第一离散特征值,并获取所述预测数据的第二离散特征值;
计算所述第一离散特征值和所述第二离散特征值的离散特征差值;
当所述离散特征差值大于预设离散特征差值时,则判断所述待处理数据为异常数据;
当所述离散特征差值小于或等于所述离散特征差值时,则判断所述待处理数据为非异常数据,并将所述待处理数据作为所述待加工数据。
在其中一个实施例中,在根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略,并基于所述数据拆分策略对所述待加工数据进行数据拆分之前,还包括:
获取所述待加工数据的数据量A;
根据所述待加工数据的数据量A对所述待加工数据设定数据分区,并基于所述数据分区对所述待加工数据进行数据拆分。
在其中一个实施例中,在根据所述待加工数据的数据量A对所述待加工数据设定数据分区时,包括:
根据所述待加工数据的数据量A设定所述数据分区的分区数量,
预设待加工数据的数据量矩阵B,设定B(B1,B2,B3,B4),其中,B1为第一预设数据量,B2为第二预设数据量,B3为第三预设数据量,B4为第四预设数据量,且B1<B2<B3<B4;
预设数据分区的分区数量矩阵C,设定C(C1,C2,C3,C4,C5),其中,C1为第一预设分区数量,C2为第二预设分区数量,C3为第三预设分区数量,C4为第四预设分区数量,C5为第五预设分区数量,且C1<C2<C3<C4<C5;
根据所述待加工数据的数据量A与各预设数据量之间的关系设定所述数据分区的分区数量:
当A<B1时,选定所述第一预设分区数量C1作为所述数据分区的分区数量;
当B1≤A<B2时,选定所述第二预设分区数量C2作为所述数据分区的分区数量;
当B2≤A<B3时,选定所述第三预设分区数量C3作为所述数据分区的分区数量;
当B3≤A<B4时,选定所述第四预设分区数量C4作为所述数据分区的分区数量;
当B4≤A时,选定所述第五预设分区数量C5作为所述数据分区的分区数量。
在其中一个实施例中,在根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略,并基于所述数据拆分策略对所述待加工数据进行数据拆分时,包括:
当所述数据拆分指针位于所述待加工数据的头部位置时,则基于所述数据分区从所述待加工数据的头部位置开始拆分;
当所述数据拆分指针位于所述待加工数据的尾部位置时,则基于所述数据分区从所述待加工数据的尾部位置开始拆分;
当所述数据拆分指针位于所述待加工数据的中间位置时,则根据所述头部位置和所述中间位置之间的数据生成第一数据集合,根据所述尾部位置和所述中间位置之间的数据生成第二数据集合;
获取所述第一数据集合的第一数据热度,获取所述第二数据集合的第二数据热度;
当所述第一数据热度大于所述第二数据热度时,则基于所述数据分区从所述第一数据集合开始拆分;
当所述第一数据热度小于所述第二数据热度时,则基于所述数据分区从所述第二数据集合开始拆分。
为了实现上述目的,本发明提供了一种数据加工系统,所述系统包括:
处理模块,用于获取初始数据,对所述初始数据进行数据预处理,并得到待处理数据;
检测模块,用于提取所述待处理数据的特征信息,基于所述特征信息对所述待处理数据进行异常检测,并得到待加工数据;
确定模块,用于将所述待加工数据引入数据池,并确定所述数据池中数据拆分指针的位置信息;
拆分模块,用于根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略,并基于所述数据拆分策略对所述待加工数据进行数据拆分,得到加工数据;
所述检测模块具体用于:
所述检测模块用于获取所述待处理数据的第一维度P;
所述检测模块用于根据所述第一维度P对所述待处理数据进行维度转换,得到所述待处理数据的第二维度;
所述检测模块用于将所述第二维度对应的数据导入数据预测模型,得到预测数据;
所述检测模块用于基于所述预测数据和所述待处理数据对所述待处理数据进行异常检测;
其中,所述第二维度大于所述第一维度;
所述检测模块具体用于:
所述检测模块用于预设第一维度矩阵G,设定G(G1,G2,G3,G4),其中,G1为第一预设第一维度,G2为第二预设第一维度,G3为第三预设第一维度,G4为第四预设第一维度,且G1<G2<G3<G4;
所述检测模块用于预设第二维度矩阵D,设定D(D1,D2,D3,D4,D5),其中,D1为第一预设第二维度,D2为第二预设第二维度,D3为第三预设第二维度,D4为第四预设第二维度,D5为第五预设第二维度,且D1<D2<D3<D4<D5;
所述检测模块用于根据所述第一维度P与各预设第一维度之间的关系设定所述第二维度:
当P<G1时,选定所述第一预设第二维度G1作为所述第二维度;
当G1≤P<G2时,选定所述第二预设第二维度G2作为所述第二维度;
当G2≤P<G3时,选定所述第三预设第二维度G3作为所述第二维度;
当G3≤P<G4时,选定所述第四预设第二维度G4作为所述第二维度;
当G4≤P时,选定所述第五预设第二维度G5作为所述第二维度。
本发明提供了一种数据加工方法及系统,相较现有技术,具有以下有益效果:
本发明公开了一种数据加工方法及系统,获取初始数据,对初始数据进行数据预处理,并得到待处理数据,提取待处理数据的特征信息,基于特征信息对待处理数据进行异常检测,并得到待加工数据,将待加工数据引入数据池,并确定数据池中数据拆分指针的位置信息,根据数据拆分指针的位置信息确定待加工数据的数据拆分策略,并基于数据拆分策略对待加工数据进行数据拆分,得到加工数据,本发明可以将初始数据进行数据拆分,进而可以把繁杂的数据加工为易处理的数据,提高了数据加工执行效率,满足了数据加工人员的数据加工需求。
附图说明
图1示出了本发明实施例中一种数据加工方法的流程示意图;
图2示出了本发明实施例中一种数据加工系统的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式做进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
在本申请的描述中,需要理解的是,术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体的连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
下文是结合附图对本发明的优选的实施例说明。
如图1所示,本发明的实施例公开了一种数据加工方法,所述方法包括:
S110:获取初始数据,对所述初始数据进行数据预处理,并得到待处理数据;
在本申请的一些实施例中,在对所述初始数据进行数据预处理,并得到待处理数据时,包括:
删除所述初始数据中的无效数据;
基于所述无效数据的数据序列位置,确定所有的待插值点位,并基于所述初始数据的数据特征确定所述待插值点位的插入值;
根据所述插入值对相应的待插值点位进行数据插值,得到所述待处理数据。
本实施例中,无效数据是指重复数据和错误数据;
本实施例中,待插值点位是指当删除无效数据时,无效数据所在的数据序列位置会出现数据空白位置,将数据空白位置作为待插值点位;
在本申请的一些实施例中,在基于所述初始数据的数据特征确定待插值点位的插入值时,包括:
将所述无效数据的前一段数据和所述无效数据的后一段数据分别导入数据熵值计算模型,得到第一数据熵值和第二数据熵值;
根据所述第一数据熵值和所述第二数据熵值计算所述待插值点位的插入值;
其中,所述待插值点位的插入值根据下式进行计算:
;
其中,w为待插值点位的插入值,w1为第一数据熵值,w2为第二数据熵值。
本实施例中,无效数据的前一段数据是指待插值点位之前的数据,无效数据的后一段数据是指待插值点位之后的数据;
上述技术方案的有益效果是:根据插入值对相应的待插值点位进行数据插值,可以保证数据的连贯性,方便数据的进一步加工处理。
S120:提取所述待处理数据的特征信息,基于所述特征信息对所述待处理数据进行异常检测,并得到待加工数据;
在本申请的一些实施例中,在基于所述特征信息对所述待处理数据进行异常检测,并得到待加工数据时,包括:
获取所述待处理数据的第一维度P;
根据所述第一维度P对所述待处理数据进行维度转换,得到所述待处理数据的第二维度;
将所述第二维度对应的数据导入数据预测模型,得到预测数据;
基于所述预测数据和所述待处理数据对所述待处理数据进行异常检测;
其中,所述第二维度大于所述第一维度。
本实施例中,维度是判断待处理数据为高维度数据还是低维度数据的一个标准,如512维度,1024维度等;
本实施例中,具体的数据预测模型冗长且成熟,此处不做过多介绍;
上述技术方案的有益效果是:通过进行维度转换,并得到预测数据,可以准确的判断当前的待处理数据是否为异常数据,防止出现加工异常数据的现象。
在本申请的一些实施例中,在根据所述第一维度P对所述待处理数据进行维度转换,得到所述待处理数据的第二维度时,包括:
预设第一维度矩阵G,设定G(G1,G2,G3,G4),其中,G1为第一预设第一维度,G2为第二预设第一维度,G3为第三预设第一维度,G4为第四预设第一维度,且G1<G2<G3<G4;
预设第二维度矩阵D,设定D(D1,D2,D3,D4,D5),其中,D1为第一预设第二维度,D2为第二预设第二维度,D3为第三预设第二维度,D4为第四预设第二维度,D5为第五预设第二维度,且D1<D2<D3<D4<D5;
根据所述第一维度P与各预设第一维度之间的关系设定所述第二维度:
当P<G1时,选定所述第一预设第二维度G1作为所述第二维度;
当G1≤P<G2时,选定所述第二预设第二维度G2作为所述第二维度;
当G2≤P<G3时,选定所述第三预设第二维度G3作为所述第二维度;
当G3≤P<G4时,选定所述第四预设第二维度G4作为所述第二维度;
当G4≤P时,选定所述第五预设第二维度G5作为所述第二维度。
上述技术方案的有益效果是:本发明可以根据第一维度P与各预设第一维度之间的关系设定第二维度,进而可以实现精准的维度转换,为判断待处理数据是否为异常数据提供可靠的数据支撑。
在本申请的一些实施例中,在基于所述预测数据和所述待处理数据对所述待处理数据进行异常检测时,包括:
获取所述待处理数据的第一离散特征值,并获取所述预测数据的第二离散特征值;
计算所述第一离散特征值和所述第二离散特征值的离散特征差值;
当所述离散特征差值大于预设离散特征差值时,则判断所述待处理数据为异常数据;
当所述离散特征差值小于或等于所述离散特征差值时,则判断所述待处理数据为非异常数据,并将所述待处理数据作为所述待加工数据。
本实施例中,离散特征值是用来衡量待处理数据离散程度的值;
本实施例中,预设离散特征差值可以根据实际情况进行设定,当计算得到的离散特征差值小于或等于预设离散特征差值,则可以判定待处理数据不存在异常。
上述技术方案的有益效果是:通过预设离散特征差值和离散特征差值来准确判断待处理数据是否异常,进而为后续数据加工提供可靠的数据支撑。
S130:将所述待加工数据引入数据池,并确定所述数据池中数据拆分指针的位置信息;
本实施例中,数据拆分指针是指数据拆分标识;
S140:根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略,并基于所述数据拆分策略对所述待加工数据进行数据拆分,得到加工数据。
在本申请的一些实施例中,在根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略,并基于所述数据拆分策略对所述待加工数据进行数据拆分之前,还包括:
获取所述待加工数据的数据量A;
根据所述待加工数据的数据量A对所述待加工数据设定数据分区,并基于所述数据分区对所述待加工数据进行数据拆分。
在本申请的一些实施例中,在根据所述待加工数据的数据量A对所述待加工数据设定数据分区时,包括:
根据所述待加工数据的数据量A设定所述数据分区的分区数量,
预设待加工数据的数据量矩阵B,设定B(B1,B2,B3,B4),其中,B1为第一预设数据量,B2为第二预设数据量,B3为第三预设数据量,B4为第四预设数据量,且B1<B2<B3<B4;
预设数据分区的分区数量矩阵C,设定C(C1,C2,C3,C4,C5),其中,C1为第一预设分区数量,C2为第二预设分区数量,C3为第三预设分区数量,C4为第四预设分区数量,C5为第五预设分区数量,且C1<C2<C3<C4<C5;
根据所述待加工数据的数据量A与各预设数据量之间的关系设定所述数据分区的分区数量:
当A<B1时,选定所述第一预设分区数量C1作为所述数据分区的分区数量;
当B1≤A<B2时,选定所述第二预设分区数量C2作为所述数据分区的分区数量;
当B2≤A<B3时,选定所述第三预设分区数量C3作为所述数据分区的分区数量;
当B3≤A<B4时,选定所述第四预设分区数量C4作为所述数据分区的分区数量;
当B4≤A时,选定所述第五预设分区数量C5作为所述数据分区的分区数量。
本实施例中,数据量是指在计算机系统中存储、传输和处理的数据的大小。数据量的大小通常以字节(Byte)、千字节(KB)、兆字节(MB)、吉字节(GB)和太字节(TB)等单位来表示。
本实施例中,数据分区是指可以将待加工数据进行拆分的依据,如数据分区的分区数量为10个,则将待加工数据划分为10个数据分区,每一个数据分区都包含有数据;
上述技术方案的有益效果是:根据待加工数据的数据量A与各预设数据量之间的关系设定数据分区的分区数量,进而可以实现对复杂数据的拆分,将复杂数据拆分为若干个数据分区,进而可以把繁杂的数据加工为易处理的数据,提高了数据加工执行效率,满足了数据加工人员的数据加工需求。
在本申请的一些实施例中,在根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略,并基于所述数据拆分策略对所述待加工数据进行数据拆分时,包括:
当所述数据拆分指针位于所述待加工数据的头部位置时,则基于所述数据分区从所述待加工数据的头部位置开始拆分;
当所述数据拆分指针位于所述待加工数据的尾部位置时,则基于所述数据分区从所述待加工数据的尾部位置开始拆分;
当所述数据拆分指针位于所述待加工数据的中间位置时,则根据所述头部位置和所述中间位置之间的数据生成第一数据集合,根据所述尾部位置和所述中间位置之间的数据生成第二数据集合;
获取所述第一数据集合的第一数据热度,获取所述第二数据集合的第二数据热度;
当所述第一数据热度大于所述第二数据热度时,则基于所述数据分区从所述第一数据集合开始拆分;
当所述第一数据热度小于所述第二数据热度时,则基于所述数据分区从所述第二数据集合开始拆分。
本实施例中,数据热度是指根据数据的价值、使用频次、使用方式的不同,对数据生成的数据热度数值;
本实施例中,当第一数据热度等于第二数据热度时,则在第一数据集合和第二数据集合之中,随机选取一个数据集合进行优先拆分;
上述技术方案的有益效果是:通过判断数据拆分指针的位置,可以提供不同的数据拆分策略,进而保证数据拆分的有序性,避免在进行数据拆分时,出现数据混乱的现象。
为了进一步阐述本发明的技术思想,现结合具体的应用场景,对本发明的技术方案进行说明。
对应的,如图2所示,本申请还提供了一种数据加工系统,所述系统包括:
处理模块,用于获取初始数据,对所述初始数据进行数据预处理,并得到待处理数据;
检测模块,用于提取所述待处理数据的特征信息,基于所述特征信息对所述待处理数据进行异常检测,并得到待加工数据;
确定模块,用于将所述待加工数据引入数据池,并确定所述数据池中数据拆分指针的位置信息;
拆分模块,用于根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略,并基于所述数据拆分策略对所述待加工数据进行数据拆分,得到加工数据;
所述检测模块具体用于:
所述检测模块用于获取所述待处理数据的第一维度P;
所述检测模块用于根据所述第一维度P对所述待处理数据进行维度转换,得到所述待处理数据的第二维度;
所述检测模块用于将所述第二维度对应的数据导入数据预测模型,得到预测数据;
所述检测模块用于基于所述预测数据和所述待处理数据对所述待处理数据进行异常检测;
其中,所述第二维度大于所述第一维度;
所述检测模块具体用于:
所述检测模块用于预设第一维度矩阵G,设定G(G1,G2,G3,G4),其中,G1为第一预设第一维度,G2为第二预设第一维度,G3为第三预设第一维度,G4为第四预设第一维度,且G1<G2<G3<G4;
所述检测模块用于预设第二维度矩阵D,设定D(D1,D2,D3,D4,D5),其中,D1为第一预设第二维度,D2为第二预设第二维度,D3为第三预设第二维度,D4为第四预设第二维度,D5为第五预设第二维度,且D1<D2<D3<D4<D5;
所述检测模块用于根据所述第一维度P与各预设第一维度之间的关系设定所述第二维度:
当P<G1时,选定所述第一预设第二维度G1作为所述第二维度;
当G1≤P<G2时,选定所述第二预设第二维度G2作为所述第二维度;
当G2≤P<G3时,选定所述第三预设第二维度G3作为所述第二维度;
当G3≤P<G4时,选定所述第四预设第二维度G4作为所述第二维度;
当G4≤P时,选定所述第五预设第二维度G5作为所述第二维度。
综上,本发明实施例通过获取初始数据,对初始数据进行数据预处理,并得到待处理数据,提取待处理数据的特征信息,基于特征信息对待处理数据进行异常检测,并得到待加工数据,将待加工数据引入数据池,并确定数据池中数据拆分指针的位置信息,根据数据拆分指针的位置信息确定待加工数据的数据拆分策略,并基于数据拆分策略对待加工数据进行数据拆分,得到加工数据,本发明可以将初始数据进行数据拆分,进而可以把繁杂的数据加工为易处理的数据,提高了数据加工执行效率,满足了数据加工人员的数据加工需求。
在上述实施方式的描述中,具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
虽然在上文中已经参考实施例对本发明进行了描述,然而在不脱离本发明的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,本发明所披露的实施例中的各项特征均可通过任意方式相互结合起来使用,在本说明书中未对这些组合的情况进行全部的描述仅仅是出于省略篇幅和节约资源的考虑。因此,本发明并不局限于文中公开的特定实施例,而是包括落入权利要求的范围内的所有技术方案。
本领域普通技术人员可以理解:以上仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例记载的技术方案进行修改,或者对其中间分技术特征进行等同替换。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种数据加工方法,其特征在于,所述方法包括:
获取初始数据,对所述初始数据进行数据预处理,并得到待处理数据;
提取所述待处理数据的特征信息,基于所述特征信息对所述待处理数据进行异常检测,并得到待加工数据;
将所述待加工数据引入数据池,并确定所述数据池中数据拆分指针的位置信息;
根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略,并基于所述数据拆分策略对所述待加工数据进行数据拆分,得到加工数据;
在基于所述特征信息对所述待处理数据进行异常检测,并得到待加工数据时,包括:
获取所述待处理数据的第一维度P;
根据所述第一维度P对所述待处理数据进行维度转换,得到所述待处理数据的第二维度;
将所述第二维度对应的数据导入数据预测模型,得到预测数据;
基于所述预测数据和所述待处理数据对所述待处理数据进行异常检测;
其中,所述第二维度大于所述第一维度;
在根据所述第一维度P对所述待处理数据进行维度转换,得到所述待处理数据的第二维度时,包括:
预设第一维度矩阵G,设定G(G1,G2,G3,G4),其中,G1为第一预设第一维度,G2为第二预设第一维度,G3为第三预设第一维度,G4为第四预设第一维度,且G1<G2<G3<G4;
预设第二维度矩阵D,设定D(D1,D2,D3,D4,D5),其中,D1为第一预设第二维度,D2为第二预设第二维度,D3为第三预设第二维度,D4为第四预设第二维度,D5为第五预设第二维度,且D1<D2<D3<D4<D5;
根据所述第一维度P与各预设第一维度之间的关系设定所述第二维度:
当P<G1时,选定所述第一预设第二维度G1作为所述第二维度;
当G1≤P<G2时,选定所述第二预设第二维度G2作为所述第二维度;
当G2≤P<G3时,选定所述第三预设第二维度G3作为所述第二维度;
当G3≤P<G4时,选定所述第四预设第二维度G4作为所述第二维度;
当G4≤P时,选定所述第五预设第二维度G5作为所述第二维度。
2.根据权利要求1所述的数据加工方法,其特征在于,在对所述初始数据进行数据预处理,并得到待处理数据时,包括:
删除所述初始数据中的无效数据;
基于所述无效数据的数据序列位置,确定所有的待插值点位,并基于所述初始数据的数据特征确定所述待插值点位的插入值;
根据所述插入值对相应的待插值点位进行数据插值,得到所述待处理数据。
3.根据权利要求2所述的数据加工方法,其特征在于,在基于所述初始数据的数据特征确定待插值点位的插入值时,包括:
将所述无效数据的前一段数据和所述无效数据的后一段数据分别导入数据熵值计算模型,得到第一数据熵值和第二数据熵值;
根据所述第一数据熵值和所述第二数据熵值计算所述待插值点位的插入值;
其中,所述待插值点位的插入值根据下式进行计算:
;
其中,w为待插值点位的插入值,w1为第一数据熵值,w2为第二数据熵值。
4.根据权利要求1所述的数据加工方法,其特征在于,在基于所述预测数据和所述待处理数据对所述待处理数据进行异常检测时,包括:
获取所述待处理数据的第一离散特征值,并获取所述预测数据的第二离散特征值;
计算所述第一离散特征值和所述第二离散特征值的离散特征差值;
当所述离散特征差值大于预设离散特征差值时,则判断所述待处理数据为异常数据;
当所述离散特征差值小于或等于所述离散特征差值时,则判断所述待处理数据为非异常数据,并将所述待处理数据作为所述待加工数据。
5.根据权利要求1所述的数据加工方法,其特征在于,在根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略,并基于所述数据拆分策略对所述待加工数据进行数据拆分之前,还包括:
获取所述待加工数据的数据量A;
根据所述待加工数据的数据量A对所述待加工数据设定数据分区,并基于所述数据分区对所述待加工数据进行数据拆分。
6.根据权利要求5所述的数据加工方法,其特征在于,在根据所述待加工数据的数据量A对所述待加工数据设定数据分区时,包括:
根据所述待加工数据的数据量A设定所述数据分区的分区数量,
预设待加工数据的数据量矩阵B,设定B(B1,B2,B3,B4),其中,B1为第一预设数据量,B2为第二预设数据量,B3为第三预设数据量,B4为第四预设数据量,且B1<B2<B3<B4;
预设数据分区的分区数量矩阵C,设定C(C1,C2,C3,C4,C5),其中,C1为第一预设分区数量,C2为第二预设分区数量,C3为第三预设分区数量,C4为第四预设分区数量,C5为第五预设分区数量,且C1<C2<C3<C4<C5;
根据所述待加工数据的数据量A与各预设数据量之间的关系设定所述数据分区的分区数量:
当A<B1时,选定所述第一预设分区数量C1作为所述数据分区的分区数量;
当B1≤A<B2时,选定所述第二预设分区数量C2作为所述数据分区的分区数量;
当B2≤A<B3时,选定所述第三预设分区数量C3作为所述数据分区的分区数量;
当B3≤A<B4时,选定所述第四预设分区数量C4作为所述数据分区的分区数量;
当B4≤A时,选定所述第五预设分区数量C5作为所述数据分区的分区数量。
7.根据权利要求6所述的数据加工方法,其特征在于,在根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略,并基于所述数据拆分策略对所述待加工数据进行数据拆分时,包括:
当所述数据拆分指针位于所述待加工数据的头部位置时,则基于所述数据分区从所述待加工数据的头部位置开始拆分;
当所述数据拆分指针位于所述待加工数据的尾部位置时,则基于所述数据分区从所述待加工数据的尾部位置开始拆分;
当所述数据拆分指针位于所述待加工数据的中间位置时,则根据所述头部位置和所述中间位置之间的数据生成第一数据集合,根据所述尾部位置和所述中间位置之间的数据生成第二数据集合;
获取所述第一数据集合的第一数据热度,获取所述第二数据集合的第二数据热度;
当所述第一数据热度大于所述第二数据热度时,则基于所述数据分区从所述第一数据集合开始拆分;
当所述第一数据热度小于所述第二数据热度时,则基于所述数据分区从所述第二数据集合开始拆分。
8.一种数据加工系统,其特征在于,所述系统包括:
处理模块,用于获取初始数据,对所述初始数据进行数据预处理,并得到待处理数据;
检测模块,用于提取所述待处理数据的特征信息,基于所述特征信息对所述待处理数据进行异常检测,并得到待加工数据;
确定模块,用于将所述待加工数据引入数据池,并确定所述数据池中数据拆分指针的位置信息;
拆分模块,用于根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略,并基于所述数据拆分策略对所述待加工数据进行数据拆分,得到加工数据;
所述检测模块具体用于:
所述检测模块用于获取所述待处理数据的第一维度P;
所述检测模块用于根据所述第一维度P对所述待处理数据进行维度转换,得到所述待处理数据的第二维度;
所述检测模块用于将所述第二维度对应的数据导入数据预测模型,得到预测数据;
所述检测模块用于基于所述预测数据和所述待处理数据对所述待处理数据进行异常检测;
其中,所述第二维度大于所述第一维度;
所述检测模块具体用于:
所述检测模块用于预设第一维度矩阵G,设定G(G1,G2,G3,G4),其中,G1为第一预设第一维度,G2为第二预设第一维度,G3为第三预设第一维度,G4为第四预设第一维度,且G1<G2<G3<G4;
所述检测模块用于预设第二维度矩阵D,设定D(D1,D2,D3,D4,D5),其中,D1为第一预设第二维度,D2为第二预设第二维度,D3为第三预设第二维度,D4为第四预设第二维度,D5为第五预设第二维度,且D1<D2<D3<D4<D5;
所述检测模块用于根据所述第一维度P与各预设第一维度之间的关系设定所述第二维度:
当P<G1时,选定所述第一预设第二维度G1作为所述第二维度;
当G1≤P<G2时,选定所述第二预设第二维度G2作为所述第二维度;
当G2≤P<G3时,选定所述第三预设第二维度G3作为所述第二维度;
当G3≤P<G4时,选定所述第四预设第二维度G4作为所述第二维度;
当G4≤P时,选定所述第五预设第二维度G5作为所述第二维度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310904520.4A CN116628428B (zh) | 2023-07-24 | 2023-07-24 | 一种数据加工方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310904520.4A CN116628428B (zh) | 2023-07-24 | 2023-07-24 | 一种数据加工方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116628428A true CN116628428A (zh) | 2023-08-22 |
CN116628428B CN116628428B (zh) | 2023-10-31 |
Family
ID=87610230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310904520.4A Active CN116628428B (zh) | 2023-07-24 | 2023-07-24 | 一种数据加工方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116628428B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201702991D0 (en) * | 2017-02-22 | 2017-04-12 | Lau Kwun Fai | Generic customizable navigation workflow and reporting systems for capturing mobile forms data |
CN111190703A (zh) * | 2019-12-11 | 2020-05-22 | 平安医疗健康管理股份有限公司 | 实时数据处理方法、装置、计算机设备和存储介质 |
CN112632045A (zh) * | 2021-03-10 | 2021-04-09 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及计算机可读存储介质 |
WO2021184727A1 (zh) * | 2020-03-19 | 2021-09-23 | 平安科技(深圳)有限公司 | 数据异常检测方法、装置、电子设备及存储介质 |
WO2021212756A1 (zh) * | 2020-04-23 | 2021-10-28 | 平安科技(深圳)有限公司 | 指标异常分析方法、装置、电子设备及存储介质 |
CN113704765A (zh) * | 2021-03-16 | 2021-11-26 | 腾讯科技(北京)有限公司 | 基于人工智能的操作系统识别方法、装置及电子设备 |
CN113990512A (zh) * | 2021-10-22 | 2022-01-28 | 泰康保险集团股份有限公司 | 异常数据检测方法及装置、电子设备和存储介质 |
CN114463587A (zh) * | 2022-01-30 | 2022-05-10 | 中国农业银行股份有限公司 | 一种异常数据检测方法、装置、设备及存储介质 |
CN114691828A (zh) * | 2022-03-23 | 2022-07-01 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备以及介质 |
US20220217170A1 (en) * | 2020-10-20 | 2022-07-07 | Nanjing University Of Science And Technology | Intrusion detection method and system for internet of vehicles based on spark and deep learning |
WO2023272851A1 (zh) * | 2021-06-29 | 2023-01-05 | 未鲲(上海)科技服务有限公司 | 异常数据检测方法、装置、设备及存储介质 |
WO2023045829A1 (zh) * | 2021-09-24 | 2023-03-30 | 中兴通讯股份有限公司 | 一种业务异常预测方法、装置、存储介质及电子装置 |
WO2023050275A1 (zh) * | 2021-09-30 | 2023-04-06 | 京东方科技集团股份有限公司 | 数据处理方法、系统和计算机可读存储介质 |
CN116184210A (zh) * | 2022-12-06 | 2023-05-30 | 浙江凌骁能源科技有限公司 | 电池异常检测方法、装置、系统和电子装置 |
CN116260632A (zh) * | 2023-01-31 | 2023-06-13 | 中电云数智科技有限公司 | 一种通过进程dns行为数据检测进程异常的方法及系统 |
CN116402303A (zh) * | 2023-04-13 | 2023-07-07 | 吉林大学 | 一种克服车间中作业释放扰动的主动调度方法 |
-
2023
- 2023-07-24 CN CN202310904520.4A patent/CN116628428B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201702991D0 (en) * | 2017-02-22 | 2017-04-12 | Lau Kwun Fai | Generic customizable navigation workflow and reporting systems for capturing mobile forms data |
CN111190703A (zh) * | 2019-12-11 | 2020-05-22 | 平安医疗健康管理股份有限公司 | 实时数据处理方法、装置、计算机设备和存储介质 |
WO2021184727A1 (zh) * | 2020-03-19 | 2021-09-23 | 平安科技(深圳)有限公司 | 数据异常检测方法、装置、电子设备及存储介质 |
WO2021212756A1 (zh) * | 2020-04-23 | 2021-10-28 | 平安科技(深圳)有限公司 | 指标异常分析方法、装置、电子设备及存储介质 |
US20220217170A1 (en) * | 2020-10-20 | 2022-07-07 | Nanjing University Of Science And Technology | Intrusion detection method and system for internet of vehicles based on spark and deep learning |
CN112632045A (zh) * | 2021-03-10 | 2021-04-09 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及计算机可读存储介质 |
CN113704765A (zh) * | 2021-03-16 | 2021-11-26 | 腾讯科技(北京)有限公司 | 基于人工智能的操作系统识别方法、装置及电子设备 |
WO2023272851A1 (zh) * | 2021-06-29 | 2023-01-05 | 未鲲(上海)科技服务有限公司 | 异常数据检测方法、装置、设备及存储介质 |
WO2023045829A1 (zh) * | 2021-09-24 | 2023-03-30 | 中兴通讯股份有限公司 | 一种业务异常预测方法、装置、存储介质及电子装置 |
WO2023050275A1 (zh) * | 2021-09-30 | 2023-04-06 | 京东方科技集团股份有限公司 | 数据处理方法、系统和计算机可读存储介质 |
CN113990512A (zh) * | 2021-10-22 | 2022-01-28 | 泰康保险集团股份有限公司 | 异常数据检测方法及装置、电子设备和存储介质 |
CN114463587A (zh) * | 2022-01-30 | 2022-05-10 | 中国农业银行股份有限公司 | 一种异常数据检测方法、装置、设备及存储介质 |
CN114691828A (zh) * | 2022-03-23 | 2022-07-01 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备以及介质 |
CN116184210A (zh) * | 2022-12-06 | 2023-05-30 | 浙江凌骁能源科技有限公司 | 电池异常检测方法、装置、系统和电子装置 |
CN116260632A (zh) * | 2023-01-31 | 2023-06-13 | 中电云数智科技有限公司 | 一种通过进程dns行为数据检测进程异常的方法及系统 |
CN116402303A (zh) * | 2023-04-13 | 2023-07-07 | 吉林大学 | 一种克服车间中作业释放扰动的主动调度方法 |
Non-Patent Citations (4)
Title |
---|
徐盛;: "大数据背景下数据安全研究", 电脑迷, no. 05 * |
程云观;台宪青;马治杰;: "一种云环境下的高效异常检测策略研究", 计算机应用与软件, no. 01 * |
陈雅;: "大数据环境下异常信息检测仿真研究", 计算机仿真, no. 09 * |
黄瑜岳;李克清;郑晓峰;: "考虑班次约束的Job Shop等量分批调度算法", 科学技术与工程, no. 01 * |
Also Published As
Publication number | Publication date |
---|---|
CN116628428B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684307B (zh) | 一种数据存储方法、装置、设备及存储介质 | |
CN111177277B (zh) | 数据存储方法、交易存储方法及装置 | |
CN104408159B (zh) | 一种数据关联、加载、查询方法及装置 | |
EP3993273A1 (en) | Method and apparatus for data compression in storage system, device, and readable storage medium | |
CN106201778B (zh) | 信息处理方法及存储设备 | |
CN110750517B (zh) | 一种本地存储引擎系统的数据处理方法、装置以及设备 | |
CN103810197A (zh) | 一种基于Hadoop的数据处理方法及其系统 | |
CN116628428B (zh) | 一种数据加工方法及系统 | |
CN108733781B (zh) | 基于内存计算的集群时态数据索引方法 | |
CN110716990A (zh) | 一种应用于数据交易的多数据源管理系统 | |
CN110704442A (zh) | 一种大数据的实时获取方法及装置 | |
US9275091B2 (en) | Database management device and database management method | |
CN106502786A (zh) | 一种中断分配方法及装置 | |
CN112468317A (zh) | 一种集群拓扑更新方法、系统、设备及计算机存储介质 | |
CN115292373B (zh) | 一种切分数据块的方法及装置 | |
CN107179883A (zh) | 一种基于SSD和HDD的混合存储系统的Spark架构优化方法 | |
CN108616583B (zh) | 一种基于计算机云的存储空间分配方法 | |
CN104735097A (zh) | 信息的收集方法和系统 | |
CN110471801A (zh) | 一种存储设备的量产过程信息的管理方法和装置以及设备 | |
CN109388596A (zh) | 一种数据操作方法和装置 | |
CN111966295B (zh) | 一种基于ceph的多journal记录方法、装置和介质 | |
CN117131000B (zh) | 一种NetCDF气象数据处理方法及终端 | |
CN111061724B (zh) | 用于配电自动化系统的高速实时数据库管理方法和装置 | |
CN118069654A (zh) | 一种互联网大数据的处理方法及系统 | |
US20240006026A1 (en) | Genome assembly method, apparatus, device and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |