CN116360956B - 用于大数据任务调度的数据智能处理方法及系统 - Google Patents
用于大数据任务调度的数据智能处理方法及系统 Download PDFInfo
- Publication number
- CN116360956B CN116360956B CN202310643722.8A CN202310643722A CN116360956B CN 116360956 B CN116360956 B CN 116360956B CN 202310643722 A CN202310643722 A CN 202310643722A CN 116360956 B CN116360956 B CN 116360956B
- Authority
- CN
- China
- Prior art keywords
- data point
- data
- type
- cluster
- offset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 230000002159 abnormal effect Effects 0.000 claims abstract description 49
- 238000012216 screening Methods 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000013507 mapping Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000003064 k means clustering Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 abstract description 6
- 238000004519 manufacturing process Methods 0.000 description 17
- 238000009826 distribution Methods 0.000 description 16
- 238000005265 energy consumption Methods 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 7
- 238000007405 data analysis Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000035772 mutation Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2219—Large Object storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种用于大数据任务调度的数据智能处理方法及系统,包括:对待清洗数据对应的各个数据点进行分类,得到各个第一类数据点簇和第二类数据点簇;根据第一类数据点簇中每个数据点与聚类中心之间的位置差异,确定所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值;根据各个设定方向的偏移值,确定第一类数据点簇对应的基准中心,进而筛选出各个数据点中的异常数据点以得到清洗后的数据。本发明通过获取第一类数据点簇的基准中心,可以准确筛选出待清洗数据中的异常数据,解决了现有的数据清洗处理中异常数据筛选准确性差的问题。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种用于大数据任务调度的数据智能处理方法及系统。
背景技术
作为数据中台的重要组成部分,大数据任务调度系统负责数据邻域内所有离线任务的编排调度,其主要关注任务是否能够及时准确地执行。在企业工厂生产过程中,需要实时对功率及能耗数据进行采集,并将采集到的数据输入到大数据任务调度系统中,由大数据任务调度系统对这些采集到的数据进行人工智能分析,进而实现工业大数据任务自行调度,有效降低了用人成本。为了避免异常数据对大数据任务调度的影响,需要保证用于分析的数据的准确性及有效性。
通过统计可知,数据的预处理清洗占据整个数据分析工作量的60%,异常数据能对数据分析结果产生巨大的影响。在采集数据的过程中,由于采集方式和传输干扰的影响,会造成待分析的数据中夹杂不完整或错误的数据,因此需要先对数据进行清洗处理以得到有效数据。现有的数据清洗方法多为通过判断数据的离散或突变程度作为判断依据,但实际过程中数据存在局部范围内的异常,仅通过数据相较于整体的离散或者突变程度无法准确剔除较多的异常数据。传统局部异常因子算法(Local Outlier Factor, LOF)在进行数据异常分析时,是根据数据点与其周围相邻数据点的密度来计算数据的异常程度,虽然能对局部异常因子实现较好的筛选,但是数据中存在一定的异常数据构成一定范围的小簇,使得小簇仍能对数据异常分析产生影响。
在LOF算法的基础上,延伸出了一种基于聚类的局部异常检测算法(Cluster-based Local Outlier Factor, CBLOF),该CBLOF算法通过对数据点进行聚类后得到大簇和小簇,基于大簇内的数据点到该大簇的聚类中心的欧式距离以及小簇内的数据点到大簇的聚类中心的最短欧式距离,来得到每个数据点的异常分数,并基于该异常分数判断数据点的异常程度,最终实现异常数据的筛选。但是考虑到数据存在随机分布的可能,该CBLOF算法在根据大簇的聚类中心计算数据点的异常分数的过程中,当大簇中的数据点比较集中地分布在聚类中心的一侧时,由于大簇中数据分布的偏移会造成计算出来的异常分数与实际分布存在不符的现象,从而导致异常数据的筛选依旧不够准确,最终影响大数据任务调度。
发明内容
本发明的目的在于提供一种用于大数据任务调度的数据智能处理方法及系统,用于解决现有的数据清洗处理中异常数据筛选准确性差的问题。
为解决上述技术问题,本发明提供了一种用于大数据任务调度的数据智能处理方法,包括以下步骤:
对待清洗数据对应的各个数据点进行分类,得到各个第一类数据点簇和第二类数据点簇,所述第一类数据点簇中数据点的数目大于所述第二类数据点簇中数据点的数目;
根据所述第一类数据点簇中每个数据点与聚类中心之间的位置差异,确定所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,所述设定方向为横向或纵向;
根据所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,确定所述第一类数据点簇对应的各个设定方向的偏移偏向权重;
根据所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,以及所述第一类数据点簇对应的各个设定方向的偏移偏向权重,确定所述第一类数据点簇对应的各个设定方向的偏向程度;
根据所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,以及所述第一类数据点簇对应的各个设定方向的偏向程度,确定所述第一类数据点簇对应的各个设定方向的偏移距离;
根据所述第一类数据点簇对应的各个设定方向的偏移距离,以及所述第一类数据点簇中聚类中心的位置,确定所述第一类数据点簇对应的基准中心;
基于所述第一类数据点簇对应的基准中心,筛选出各个数据点中的异常数据点以得到清洗后的数据。
进一步的,确定所述第一类数据点簇对应的各个设定方向的偏移偏向权重,包括:
计算所述第一类数据点簇中所有数据点对应的所述设定方向的偏移值的平均值和标准差,从而得到所述第一类数据点簇对应的设定方向的偏移平均值和设定方向的偏移标准差;
根据所述第一类数据点簇中所有数据点对应的所述设定方向的偏移值、设定方向的偏移平均值和设定方向的偏移标准差,确定所述第一类数据点簇对应的设定方向的偏移偏度;
根据所述第一类数据点簇对应的设定方向的偏移偏度、设定方向的偏移平均值和设定方向的偏移标准差,确定所述第一类数据点簇对应的设定方向的偏移偏向权重。
进一步的,确定所述第一类数据点簇对应的设定方向的偏移偏向权重对应的计算公式为:
其中,为第i个所述第一类数据点簇对应的第k个设定方向的偏移偏向权重,
为第i个所述第一类数据点簇对应的第k个设定方向的偏移偏度,为第i个所述第一类数
据点簇对应的第k个设定方向的偏移平均值,为第i个所述第一类数据点簇对应的第k个
设定方向的偏移标准差。
进一步的,确定所述第一类数据点簇对应的各个设定方向的偏向程度,包括:
若所述第一类数据点簇对应的设定方向的偏移偏度大于设定偏度阈值,则对所述设定方向的偏移偏向权重的绝对值进行负相关映射,并将负相关映射结果确定为所述第一类数据点簇对应的设定方向的偏向程度;
若所述第一类数据点簇对应的设定方向的偏移偏度不大于设定偏度阈值,则对所述设定方向的偏移偏向权重的绝对值进行正相关映射,并将正相关映射结果确定为所述第一类数据点簇对应的设定方向的偏向程度。
进一步的,确定所述第一类数据点簇对应的各个设定方向的偏移距离对应的计算公式为:
其中,为第i个所述第一类数据点簇对应的第k个设定方向的偏移距离,为
第i个所述第一类数据点簇对应的第k个设定方向的偏移平均值,为第i个所述第一类数
据点簇对应的第k个设定方向的偏向程度。
进一步的,确定所述第一类数据点簇对应的基准中心,包括:
将所述第一类数据点簇中聚类中心的位置的横坐标与所述第一类数据点簇对应的对应所述横向的偏移值的设定方向的偏移距离的相加和,确定为所述第一类数据点簇对应的基准中心的横坐标,并将所述第一类数据点簇中聚类中心的位置的纵坐标与所述第一类数据点簇对应的对应所述纵向的偏移值的设定方向的偏移距离的相加和,确定为所述第一类数据点簇对应的基准中心的纵坐标。
进一步的,基于所述第一类数据点簇对应的基准中心,筛选出各个数据点中的异常数据点以得到清洗后的数据,包括:
将所述第一类数据点簇中的每个数据点作为第一目标数据点,根据所述第一目标数据点到其所属的第一类数据点簇的基准中心的距离以及所述其所属的第一类数据点簇的数据点的总数目,确定所述第一目标数据点的对应的异常分数;
将所述第二类数据点簇中的每个数据点作为第二目标数据点,根据所述第二目标数据点到所有所述第一类数据点簇的基准中心的距离中的最小值以及第二目标数据点所属的第二类数据点簇的数据点的总数目,确定所述第二目标数据点的对应的异常分数;
根据所有数据点对应的异常分数,将异常分数最大的前设定比例的数据点确定为异常数据点,从所有数据点中删除所述异常数据点以得到清洗后的数据。
进一步的,确定所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,包括:
将所述第一类数据点簇中每个数据点的横坐标与该第一类数据点簇的聚类中心的横坐标的差值,确定为横向的偏移值,并将所述第一类数据点簇中每个数据点的纵坐标与该第一类数据点簇的聚类中心的纵坐标的差值,确定为纵向的偏移值,从而得到所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值。
进一步的,对待清洗数据对应的各个数据点进行分类,所得到各个第一类数据点簇和第二类数据点簇,包括:
根据待清洗数据对应的各个数据点的坐标,利用k均值聚类算法对待清洗数据对应的各个数据点进行聚类,得到至少两个数据点簇;
按照数据点簇中的数据点的数目从大到小的顺序,对各个数据点簇进行排列,从而得到数据点簇序列;
若前t个数据点簇满足设定筛选条件,则将前t个数据点簇确定为第一类数据点簇,并将前t个数据点簇以外的其他数据点簇确定为第二类数据点簇,所述设定筛选条件为:前t个数据点簇中所有数据点的总数目与所有数据点簇中所有数据点的总数目的比值不小于第一设定比值阈值,或者第t个数据点簇中所有数据点的总数目与第t+1个数据点簇中所有数据点的总数目的比值不小于第二设定比值阈值。
为解决上述技术问题,本发明还提供了一种用于大数据任务调度的数据智能处理系统,包括处理器和存储器,所述处理器用于处理存储在所述存储器中的指令,以实现上述的一种用于大数据任务调度的数据智能处理方法。
本发明具有如下有益效果:为了对待清洗数据中的异常数据进行筛选,首先对待清洗数据对应的各个数据点进行分类,得到数据点数目相对较多的各个第一类数据点簇和数据点数目相对较少的第二类数据点簇。由于现有是基于第一类数据点簇的聚类中心,对异常数据进行筛选,但是当第一类数据点簇中数据点分布不均匀时,就会导致最终无法准确地筛选出异常数据。因此,本发明通过对第一类数据点簇中每个数据点对应的各个设定方向的偏移值进行分析,获取第一类数据点簇对应的各个设定方向的偏移偏向权重,该偏移偏向权重表征了第一类数据点簇的基准中心相较于该数据点簇的聚类中心的各个设定方向偏移量情况。通过对第一类数据点簇中每个数据点对应的各个设定方向的偏移值进行综合考察,并结合第一类数据点簇对应的各个设定方向的偏移偏向权重,确定第一类数据点簇对应的各个设定方向的偏向程度,进而最终确定第一类数据点簇对应的各个设定方向的偏移距离,该偏移距离表征了第一类数据点簇的基准中心相较于该数据点簇的聚类中心的各个设定方向的偏移量大小。基于第一类数据点簇对应的各个设定方向的偏移距离,对第一类数据点簇的聚类中心进行偏移,从而可以确定第一类数据点簇的基准中心,该基准中心为第一类数据点簇内大多数集中分布的数据点的分布中心位置,可以更加准确地表征第一类数据点簇的实际分布情况。因此基于获取到的第一类数据点簇的基准中心,最终可以准确筛选出待清洗数据中的异常数据,解决了现有的数据清洗处理中异常数据筛选准确性差的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明实施例的一种用于大数据任务调度的数据智能处理方法的流程图;
图2为本发明实施例的某个第一类数据点簇的分布示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。另外,本文所涉及公式中的所有参数或者指标均为归一化之后的消除了量纲影响的数值。
本实施例提供了一种用于大数据任务调度的数据智能处理方法,该方法对应的流程图如图1所示,包括以下步骤:
步骤S1:对待清洗数据对应的各个数据点进行分类,得到各个第一类数据点簇和第二类数据点簇,所述第一类数据点簇中数据点的数目大于所述第二类数据点簇中数据点的数目。
在进行工业大数据任务调度的过程中,需要对工业生产中生产用电设备的能耗和功率进行监测,对监测到的能耗和功率数据进行大数据分析,并根据分析结果生成任务调度。生产用电设备的能耗和功率分别是指生产用电设备的输出功率和输入功率,生产用电设备的输出功率是指生产用电设备在生产过程中实时做功消耗的电能,单位为KW/h,生产用电设备的输入功率是指生产用电设备输入电压与电流的乘积,单位为W。对同一生产用电设备或者相同类型的多个生产用电设备的能耗和功率进行同步采集,且每相邻两次采集时刻的时间间隔相同,从而可以获取得到该同一生产用电设备或者相同类型的多个生产用电设备在每一个采集时刻的能耗和功率。由于生产用电设备的能耗和功率的采集方式均为现有技术,如可以采用仪器仪表对生产用电设备的功率进行监测采集,此处不再赘述。在采集到生产用电设备的能耗和功率数据之后,利用网络技术将这些能耗和功率数据传输至大数据任务调度系统。
由于异常的能耗和功率数据对大数据任务调度的分析具有较强的影响,因此大数据任务调度系统在进行任务调度分析之前,需要对监测到的能耗和功率数据进行清洗以获得准确可靠的能耗和功率数据。对于任意一个生产用电设备,将其所采集到的能耗和功率数据作为待清洗数据,为了对这些待清洗数据进行清洗,将每一个采集时刻的能耗和功率分别作为纵坐标和横坐标,将该纵坐标和横坐标所构成的点作为一个数据点,从而可以得到待清洗数据对应的各个数据点。
在得到待清洗数据对应的各个数据点之后,对这些数据点进行分类,得到各个第一类数据点簇和第二类数据点簇,实现步骤包括:
根据待清洗数据对应的各个数据点的坐标,利用k均值聚类算法对待清洗数据对应的各个数据点进行聚类,得到至少两个数据点簇;
按照数据点簇中的数据点的数目从大到小的顺序,对各个数据点簇进行排列,从而得到数据点簇序列;
若前t个数据点簇满足设定筛选条件,则将前t个数据点簇确定为第一类数据点簇,并将前t个数据点簇以外的其他数据点簇确定为第二类数据点簇,所述设定筛选条件为:前t个数据点簇中所有数据点的总数目与所有数据点簇中所有数据点的总数目的比值不小于第一设定比值阈值,或者第t个数据点簇中所有数据点的总数目与第t+1个数据点簇中所有数据点的总数目的比值不小于第二设定比值阈值。
具体的,根据待清洗数据对应的各个数据点的坐标,使用自适应的k均值聚类算法
也就是K-means聚类算法对这些数据点进行自适应聚类,从而得到各个数据点簇。根据数据
点簇包含数据点的数量从大到小的顺序,对各个数据点簇进行排序,从而得到数据点簇序
列,其中,表示第j个数据点簇,N表示数据点簇的总数目。
在得到数据点簇序列之后,根据绝大多数数据点占比和数据点簇的簇域突降情
况,筛选出大簇也就是第一类数据点簇,对应的筛选公式为:
其中,为大簇也就是第一类数据点簇构成的序列,t为第一类数据点簇的总数
目,为数据点簇序列,为数据点簇序列中第j个数据点簇中数据点的数目,为所
有数据点簇中所有数据点的总数目,为第一设定比值阈值,本实施例设置=0.9,为数
据点簇序列中第t个数据点簇中数据点的数目,为数据点簇序列中第t+1个数据
点簇中数据点的数目,为第二设定比值阈值,本实施例设置,为选取数据
函数,即在数据点簇序列中选取出满足后面的设定筛选条件的数据点簇。
在上述的筛选公式中,当前t个数据点簇中所有数据点的总数目不小于所有数据
点簇中所有数据点的总数目的第一设定比值阈值时,则认为前t个数据点簇中的数据点达
到了所有数据点中的绝大多数数据点,或者当两相邻数据点簇的数据点的数目的比值不小
于第二设定比值阈值时,则认为两相邻数据点簇存在簇域突降,从而分割得到大簇也就是
第一类数据点簇。在数据点簇序列中去除第一类数据点簇构成的序列,从而可以得到
小簇也就是第二类数据点簇构成的序列。
步骤S2:根据所述第一类数据点簇中每个数据点与聚类中心之间的位置差异,确定所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,所述设定方向为横向或纵向。
传统CBLOF基于大簇内的数据点到该大簇的聚类中心的欧氏距离并结合该大簇的区域大小得到数据点的异常分数,或者基于小簇内的数据点到最近大簇的聚类中心的欧氏距离并结合小簇的区域大小得到数据点的异常分数,然而聚类中心仅能代表大簇区域内数据点的整体分布满足聚类要求时的中心点位置,并不能体现一个簇内部数据点的基准分布。因此本方案通过对大簇内数据点的分布特征进行分析,从而得到大簇的基准中心,通过基准中心计算大簇或者小簇内数据点的异常分数。
为了确定大簇的基准中心,将所述第一类数据点簇中每个数据点的横坐标与该第一类数据点簇的聚类中心的横坐标的差值,确定为横向的偏移值,并将所述第一类数据点簇中每个数据点的纵坐标与该第一类数据点簇的聚类中心的纵坐标的差值,确定为纵向的偏移值,从而得到所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值。
为了便于理解,对于第一类数据点簇构成的序列中的任意第i个第一类数据点
簇,将其聚类中心记为,为该聚类中心的横坐标,为该聚类中心的纵坐标,将
该第一类数据点簇内任意一个数据点记为,为该数据点的横坐标,为该数据点
的纵坐标,则该数据点的各个设定方向的偏移值也就是横向的偏移值和纵向的偏移值为:
其中,为第i个第一类数据点簇中坐标位置为的数据点的
横向的偏移值,为第i个第一类数据点簇中坐标位置为的数据点的
纵向的偏移值。
按照上述方式,可以确定任意一个大簇也就是第一类数据点簇中任意一个数据点对应的横向的偏移值和纵向的偏移值,该横向的偏移值和纵向的偏移值分别表示该数据点相较于该簇的聚类中心的横向偏移和纵向偏移大小,该横向的偏移值和纵向的偏移值即为对应数据点对应的各个设定方向的偏移值,这里的设定方向即是指横向和纵向。
步骤S3:根据所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,确定所述第一类数据点簇对应的各个设定方向的偏移偏向权重。
数据点簇的聚类中心表示数据点簇的整体分布中心,但在数据点簇中数据点的分
布并不一定均匀,当数据点在簇内相较于聚类中心分布较为均匀时,聚类中心等于基准中
心即实际中心。当数据点在簇内的不同方向上分布不均匀时,会存在基准分布与延伸分布,
基准分布是指以基准中心为整体趋势中心的数据点构成的簇内区域,其不一定在聚类中心
附近,延伸分布是指除基准分布之外的其他数据点构成的簇内区域。基准分布发生偏移会
造成基准中心相较于聚类中心发生偏移,直接以聚类中心为基准来计算数据点的异常分数
时就会产生误差。为了便于理解,如图2所示,大簇也就是第一类数据点簇C1的聚类中心为
c1,小簇也就是第二类数据点簇中的数据点距离聚类中心c1较远,但实际距离该第一类
数据点簇C1的基准分布(点密集部分)较近,此时如何直接根据数据点到第一类数据点簇
C1的聚类中心c1的欧氏距离来确定数据点的异常分数,就会将数据点误判为异常数据
点。
后续为了准确确定数据点的异常分数,需要确定每个大簇也就是第一类数据点簇的基准中心,基准中心是指大簇也就是第一类数据点簇的基准分布所位于的中心位置。为了便于后续确定每个大簇也就是第一类数据点簇的基准中心,根据所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,确定所述第一类数据点簇对应的各个设定方向的偏移偏向权重,实现步骤包括:
计算所述第一类数据点簇中所有数据点对应的所述设定方向的偏移值的平均值和标准差,从而得到所述第一类数据点簇对应的设定方向的偏移平均值和设定方向的偏移标准差;
根据所述第一类数据点簇中所有数据点对应的所述设定方向的偏移值、设定方向的偏移平均值和设定方向的偏移标准差,确定所述第一类数据点簇对应的设定方向的偏移偏度;
根据所述第一类数据点簇对应的设定方向的偏移偏度、设定方向的偏移平均值和设定方向的偏移标准差,确定所述第一类数据点簇对应的设定方向的偏移偏向权重,对应的计算公式为:
其中,为第i个所述第一类数据点簇对应的第k个设定方向的偏移偏向权重,
为第i个所述第一类数据点簇对应的第k个设定方向的偏移偏度,为第i个所述第一类数
据点簇对应的第k个设定方向的偏移平均值,为第i个所述第一类数据点簇对应的第k个
设定方向的偏移标准差。
具体的,对于第一类数据点簇构成的序列中的任意第i个第一类数据点簇,计
算该第i个第一类数据点簇中所有数据点对应的横向的偏移值的平均值和标准差,从而
得到该第i个第一类数据点簇对应的横向的偏移平均值和横向的偏移标准差,分别记为和。根据该横向的偏移平均值和横向的偏移标准差,计算该第i个第一类数据
点簇对应的横向的偏移偏度,对应的计算公式为:
其中,为第i个第一类数据点簇对应的横向的偏移偏度,为第i个第
一类数据点簇中数据点的数目,为第i个第一类数据点簇中第l个数据点对应
的横向的偏移值,为第i个第一类数据点簇对应的横向的偏移平均值,为第i个第
一类数据点簇对应的横向的偏移标准差。
基于该第i个第一类数据点簇对应的横向的偏移偏度、横向的偏移平均值和
横向的偏移标准差,计算该第i个第一类数据点簇对应的横向的偏移偏向权重,对应的计
公式为:
其中,为第i个第一类数据点簇对应的横向的偏移偏向权重,为第i个第一
类数据点簇对应的横向的偏移偏度,为第i个第一类数据点簇对应的横向的偏移平
均值,为第i个第一类数据点簇对应的横向的偏移标准差。
在上述的第i个第一类数据点簇对应的横向的偏移偏度和横向的偏移偏向权重
的计算公式中,表示根据该数据点簇的聚类中心相较于横向的偏移平均值所处位置
(假设第一类数据点簇的聚类中心的横坐标为,那么+对应的横坐标位置即为横向
的偏移平均值所处位置)的横向偏移量与横向的偏移标准差计算得到的标准偏度,通
过计算数据簇中所有数据点的横向的偏移偏度与标准偏度的差值获得横向的偏移偏向
权重。当数据簇中所有数据点的横向的偏移偏度大于0时,表示数据点偏移置信区间位于
横向的偏移平均值的左侧,此时表示数据点簇的基准中心相较于该数据点簇的聚类
中心的横向偏移量小于横向的偏移平均值,表示数据点簇的基准中心相较于该数据
点簇的聚类中心的横向偏移量大于横向的偏移平均值;当数据簇中所有数据点的横向的偏
移偏度小于0时,表示数据点偏移置信度位于横向的偏移平均值的右侧,此时表示
数据点簇的基准中心相较于该数据点簇的聚类中心的横向偏移量大于横向的偏移平均值,表示数据点簇的基准中心相较于该数据点簇的聚类中心的横向偏移量小于横向的
偏移平均值。
按照上述确定第一类数据点簇构成的序列中的任意第i个第一类数据点簇对
应的横向的偏移偏向权重的方式,根据该第i个第一类数据点簇所有数据点对应的纵
向的偏移值,计算所有纵向的偏移值的平均值和标准差,从而得到该第i个第一类数据点簇对应的纵向的偏移平均值和纵向的偏移标准差,进而可以确定该第i个第一类数
据点簇对应的纵向的偏移偏度,并最终可以确定该第i个第一类数据点簇对应的纵
向的偏移偏向权重。该第i个第一类数据点簇对应的横向的偏移偏向权重和纵向的
偏移偏向权重,即为该第i个第一类数据点簇对应的各个设定方向的偏移偏向权重。
步骤S4:根据所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,以及所述第一类数据点簇对应的各个设定方向的偏移偏向权重,确定所述第一类数据点簇对应的各个设定方向的偏向程度。
基于每个第一类数据点簇中每个数据点对应的各个设定方向的偏移值,以及该第一类数据点簇对应的各个设定方向的偏移偏向权重,可以确定该第一类数据点簇对应的各个设定方向的偏向程度,实现步骤包括:
若所述第一类数据点簇对应的设定方向的偏移偏度大于设定偏度阈值,则对所述设定方向的偏移偏向权重的绝对值进行负相关映射,并将负相关映射结果确定为所述第一类数据点簇对应的设定方向的偏向程度;
若所述第一类数据点簇对应的设定方向的偏移偏度不大于设定偏度阈值,则对所述设定方向的偏移偏向权重的绝对值进行正相关映射,并将正相关映射结果确定为所述第一类数据点簇对应的设定方向的偏向程度。
具体的,对于第一类数据点簇构成的序列中的任意第i个第一类数据点簇,其
对应的横向的偏向程度对应的计算公式为:
其中,为第i个第一类数据点簇对应的横向的偏向程度,为第i个第一类数
据点簇对应的横向的偏移偏向权重,为第i个第一类数据点簇对应的横向的偏移偏
度,| |为取绝对值符号。
根据上述的第i个第一类数据点簇对应的横向的偏向程度的计算公式可知,当
横向的偏移偏度时,表示数据点簇的基准中心距横向的偏移平均值的横向偏移量在
横向的偏移平均值的左侧,即数据点簇的基准中心位于横向的偏移平均值所处位置的左
侧,此时横向的偏移平均值应向左偏移,偏向程度为基准中心与聚类中心的横向偏度差异
即横向的偏移偏向权重的绝对值,此时横向的偏向程度为横向的偏移偏向权重的绝
对值的负相关映射结果,该负相关映射结果为,该负相关映射结果与横向的偏移偏
向权重的正负无关,仅与横向的偏移偏向权重的大小有关;当横向的偏移偏度
时,表示数据点簇的基准中心距横向的偏移平均值的横向偏移量在横向的偏移平均值的右
侧,即数据点簇的基准中心位于横向的偏移平均值所处位置的右侧,此时横向的偏移平均
值应向右偏移,偏移程度为基准中心与聚类中心的横向偏度差异即横向的偏移偏向权重
的绝对值,此时横向的偏向程度为横向的偏移偏向权重的绝对值的正相关映射结果,该
正相关映射结果为,该正相关映射结果与横向的偏移偏向权重的正负无关,仅与
横向的偏移偏向权重的大小有关。当且仅当数据点簇内所有数据点均匀分布,即横向的
偏移平均值为0时,横向的偏移偏度为0,横向的偏移偏向权重为0,横向的偏向程度为1。
按照上述确定第一类数据点簇构成的序列中的任意第i个第一类数据点簇对
应的横向的偏向程度的方式,可以确定该第i个第一类数据点簇对应的纵向的偏移偏
度、纵向的偏移偏向权重,进而可以确定该第i个第一类数据点簇对应的纵向的偏向
程度。该第i个第一类数据点簇对应的横向的偏向程度和纵向的偏向程度,即为该
第i个第一类数据点簇对应的各个设定方向的偏向程度。
步骤S5:根据所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,以及所述第一类数据点簇对应的各个设定方向的偏向程度,确定所述第一类数据点簇对应的各个设定方向的偏移距离。
在上述的步骤S3的基础上,基于每个第一类数据点簇对应的设定方向的偏移平均
值,也就是横向的偏移平均值和纵向的偏移平均值,并结合每个第一类数据点簇对
应的各个设定方向的偏向程度,也就是横向的偏向程度和纵向的偏向程度,可以确定
每个第一类数据点簇对应的各个设定方向的偏移距离,也就是横向的偏移距离和纵向的偏
移距离,对应的计算公式为:
其中,为第i个所述第一类数据点簇对应的第k个设定方向的偏移距离,为
第i个所述第一类数据点簇对应的第k个设定方向的偏移平均值,为第i个所述第一类数
据点簇对应的第k个设定方向的偏向程度。
具体的,根据每个第一类数据点簇对应的横向的偏移平均值和横向的偏向程
度,确定每个第一类数据点簇对应的横向的偏移距离,对应的计算公式为:
其中,为第i个第一类数据点簇对应的横向的偏移距离,为第i个第一类数
据点簇对应的横向的偏移平均值,为第i个第一类数据点簇对应的横向的偏向程度。
同理,根据每个第一类数据点簇对应的纵向的偏移平均值和纵向的偏向程度,确定每个第一类数据点簇对应的纵向的偏移距离,对应的计算公式为:
其中,为第i个第一类数据点簇对应的纵向的偏移距离,为第i个第一类数
据点簇对应的纵向的偏移平均值,为第i个第一类数据点簇对应的纵向的偏向程度。
通过上述方式,可以确定每个第一类数据点簇对应的横向的偏移距离和纵向的偏
移距离,也就是各个设定方向的偏移距离,该横向的偏移距离和纵向的偏移距离分别表征
了数据点簇的基准中心相较于聚类中心的横向偏移量和纵向偏移量。当横向的偏向程度大
于1时,此时第一类数据点簇对应的横向的偏移距离大于横向的偏移平均值,而当横向
的偏向程度大于或者等于0且小于1时,此时第一类数据点簇对应的横向的偏移距离小于横
向的偏移平均值,当且仅当横向的偏向程度等于1时,第一类数据点簇对应的横向的偏
移距离等于横向的偏移平均值。同理,可以确定第一类数据点簇对应的纵向的偏移距离
与纵向的偏移平均值之间的关系。
步骤S6:根据所述第一类数据点簇对应的各个设定方向的偏移距离,以及所述第一类数据点簇中聚类中心的位置,确定所述第一类数据点簇对应的基准中心。
将所述第一类数据点簇中聚类中心的位置的横坐标与所述第一类数据点簇对应的对应所述横向的偏移值的设定方向的偏移距离的相加和,确定为所述第一类数据点簇对应的基准中心的横坐标,并将所述第一类数据点簇中聚类中心的位置的纵坐标与所述第一类数据点簇对应的对应所述纵向的偏移值的设定方向的偏移距离的相加和,确定为所述第一类数据点簇对应的基准中心的纵坐标。
具体的,对于第一类数据点簇构成的序列中的任意第i个第一类数据点簇,根
据该第i个第一类数据点簇对应的各个设定方向的偏移距离,也就是横向的偏移距离
和纵向的偏移距离,并结合每个第一类数据点簇中聚类中心,可以确定该第i
个第一类数据点簇对应的基准中心。
步骤S7:基于所述第一类数据点簇对应的基准中心,筛选出各个数据点中的异常数据点以得到清洗后的数据。
在确定每个第一类数据点簇对应的基准中心之后,基于该基准中心,确定第一类数据点簇和第二类数据点簇中每个数据点对应的异常分数,并基于该异常分数,筛选出各个数据点中的异常数据点以得到清洗后的数据,实现步骤包括:
将所述第一类数据点簇中的每个数据点作为第一目标数据点,根据所述第一目标数据点到其所属的第一类数据点簇的基准中心的距离以及所述其所属的第一类数据点簇的数据点的总数目,确定所述第一目标数据点的对应的异常分数;
将所述第二类数据点簇中的每个数据点作为第二目标数据点,根据所述第二目标数据点到所有所述第一类数据点簇的基准中心的距离中的最小值以及第二目标数据点所属的第二类数据点簇的数据点的总数目,确定所述第二目标数据点的对应的异常分数;
根据所有数据点对应的异常分数,将异常分数最大的前设定比例的数据点确定为异常数据点,从所有数据点中删除所述异常数据点以得到清洗后的数据。
具体的,对于任意一个数据点,为该数据点的横坐标,为该数据点的纵坐标,
采用现有的CBLOF算法来确定该数据点的异常分数。即当该数据点属于大簇也就是
第一类数据点簇时,则计算该数据点到其所属的第一类数据点簇的基准中心的欧氏距
离,同时确定该数据点所属的第一类数据点簇的数据点的总数目,并将该欧氏距离与总
数目的乘积确定为该数据点的异常分数。当该数据点属于小簇也就是
第二类数据点簇时,则计算该数据点到其他第一类数据点簇的基准中心的最小欧氏距
离,同时确定该数据点所属的第二类数据点簇的数据点的总数目,并将该最小欧氏距离
与总数目的乘积确定为该数据点的异常分数。
异常分数表征了对应的数据点属于异常数据的可能性,当异常分数越大时,说明对应的数据点越可能属于异常数据。在得到待清洗数据对应的各个数据点的异常分数之后,选取整体数据点中异常分数较大的部分数据点作为异常数据点,具体实现方法为:按照从大到小的顺序对异常分数进行排序,然后选取异常分数较大的且在所有数据点中设定占比为1%的数据点作为异常数据点。在确定这些异常数据点之后,从所有数据点中删除这些异常数据点,剩余的数据点所对应的横坐标值和纵坐标值,也就是能耗和功率数据,即为清洗后的数据。基于清洗后的数据,即可进行准确的大数据分析和任务调度。由于本方案的重点在于准确得到清洗后的数据,而基于准确得到的清洗后的数据任何具体进行大数据分析和任务调度则属于现有技术,且不属于本方案关注的重点,此处不再赘述。
本实施例还提供了一种用于大数据任务调度的数据智能处理系统,包括处理器和存储器,所述处理器用于处理存储在所述存储器中的指令,以实现上述的一种用于大数据任务调度的数据智能处理方法。由于该用于大数据任务调度的数据智能处理系统实质上是一种软系统,其核心在于实现上述的用于大数据任务调度的数据智能处理方法,而该方法已经在上述内容中进行了详细介绍,此处对该用于大数据任务调度的数据智能处理系统不再做赘述。
本发明通过对待清洗数据对应的大簇也就是第一类数据点簇中数据点的分布偏移情况进行分析,从而准确获得第一类数据点簇的基准中心,并基于该基准中心准确获取数据点的异常分数,最终准确筛选出异常的数据,为大数据分析和任务调度提供了可靠的数据基础。
需要说明的是:以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (7)
1.一种用于大数据任务调度的数据智能处理方法,其特征在于,包括以下步骤:
对待清洗数据对应的各个数据点进行分类,得到各个第一类数据点簇和第二类数据点簇,所述第一类数据点簇中数据点的数目大于所述第二类数据点簇中数据点的数目;
根据所述第一类数据点簇中每个数据点与聚类中心之间的位置差异,确定所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,所述设定方向为横向或纵向;
根据所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,确定所述第一类数据点簇对应的各个设定方向的偏移偏向权重;
根据所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,以及所述第一类数据点簇对应的各个设定方向的偏移偏向权重,确定所述第一类数据点簇对应的各个设定方向的偏向程度;
根据所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,以及所述第一类数据点簇对应的各个设定方向的偏向程度,确定所述第一类数据点簇对应的各个设定方向的偏移距离;
根据所述第一类数据点簇对应的各个设定方向的偏移距离,以及所述第一类数据点簇中聚类中心的位置,确定所述第一类数据点簇对应的基准中心;
基于所述第一类数据点簇对应的基准中心,筛选出各个数据点中的异常数据点以得到清洗后的数据;
确定所述第一类数据点簇对应的各个设定方向的偏移偏向权重,包括:
计算所述第一类数据点簇中所有数据点对应的所述设定方向的偏移值的平均值和标准差,从而得到所述第一类数据点簇对应的设定方向的偏移平均值和设定方向的偏移标准差;
根据所述第一类数据点簇中所有数据点对应的所述设定方向的偏移值、设定方向的偏移平均值和设定方向的偏移标准差,确定所述第一类数据点簇对应的设定方向的偏移偏度;
根据所述第一类数据点簇对应的设定方向的偏移偏度、设定方向的偏移平均值和设定方向的偏移标准差,确定所述第一类数据点簇对应的设定方向的偏移偏向权重;
确定所述第一类数据点簇对应的各个设定方向的偏向程度,包括:
若所述第一类数据点簇对应的设定方向的偏移偏度大于设定偏度阈值,则对所述设定方向的偏移偏向权重的绝对值进行负相关映射,并将负相关映射结果确定为所述第一类数据点簇对应的设定方向的偏向程度;
若所述第一类数据点簇对应的设定方向的偏移偏度不大于设定偏度阈值,则对所述设定方向的偏移偏向权重的绝对值进行正相关映射,并将正相关映射结果确定为所述第一类数据点簇对应的设定方向的偏向程度;
确定所述第一类数据点簇对应的各个设定方向的偏移距离对应的计算公式为:
其中,为第i个所述第一类数据点簇对应的第k个设定方向的偏移距离,/>为第i个所述第一类数据点簇对应的第k个设定方向的偏移平均值,/>为第i个所述第一类数据点簇对应的第k个设定方向的偏向程度。
2.根据权利要求1所述的一种用于大数据任务调度的数据智能处理方法,其特征在于,确定所述第一类数据点簇对应的设定方向的偏移偏向权重对应的计算公式为:
其中,为第i个所述第一类数据点簇对应的第k个设定方向的偏移偏向权重,/>为第i个所述第一类数据点簇对应的第k个设定方向的偏移偏度,/>为第i个所述第一类数据点簇对应的第k个设定方向的偏移平均值,/>为第i个所述第一类数据点簇对应的第k个设定方向的偏移标准差。
3.根据权利要求1所述的一种用于大数据任务调度的数据智能处理方法,其特征在于,确定所述第一类数据点簇对应的基准中心,包括:
将所述第一类数据点簇中聚类中心的位置的横坐标与所述第一类数据点簇对应的对应所述横向的偏移值的设定方向的偏移距离的相加和,确定为所述第一类数据点簇对应的基准中心的横坐标,并将所述第一类数据点簇中聚类中心的位置的纵坐标与所述第一类数据点簇对应的对应所述纵向的偏移值的设定方向的偏移距离的相加和,确定为所述第一类数据点簇对应的基准中心的纵坐标。
4.根据权利要求1所述的一种用于大数据任务调度的数据智能处理方法,其特征在于,基于所述第一类数据点簇对应的基准中心,筛选出各个数据点中的异常数据点以得到清洗后的数据,包括:
将所述第一类数据点簇中的每个数据点作为第一目标数据点,根据所述第一目标数据点到其所属的第一类数据点簇的基准中心的距离以及所述其所属的第一类数据点簇的数据点的总数目,确定所述第一目标数据点的对应的异常分数;
将所述第二类数据点簇中的每个数据点作为第二目标数据点,根据所述第二目标数据点到所有所述第一类数据点簇的基准中心的距离中的最小值以及第二目标数据点所属的第二类数据点簇的数据点的总数目,确定所述第二目标数据点的对应的异常分数;
根据所有数据点对应的异常分数,将异常分数最大的前设定比例的数据点确定为异常数据点,从所有数据点中删除所述异常数据点以得到清洗后的数据。
5.根据权利要求1所述的一种用于大数据任务调度的数据智能处理方法,其特征在于,确定所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值,包括:
将所述第一类数据点簇中每个数据点的横坐标与该第一类数据点簇的聚类中心的横坐标的差值,确定为横向的偏移值,并将所述第一类数据点簇中每个数据点的纵坐标与该第一类数据点簇的聚类中心的纵坐标的差值,确定为纵向的偏移值,从而得到所述第一类数据点簇中每个数据点对应的各个设定方向的偏移值。
6.根据权利要求1所述的一种用于大数据任务调度的数据智能处理方法,其特征在于,对待清洗数据对应的各个数据点进行分类,所得到各个第一类数据点簇和第二类数据点簇,包括:
根据待清洗数据对应的各个数据点的坐标,利用k均值聚类算法对待清洗数据对应的各个数据点进行聚类,得到至少两个数据点簇;
按照数据点簇中的数据点的数目从大到小的顺序,对各个数据点簇进行排列,从而得到数据点簇序列;
若前t个数据点簇满足设定筛选条件,则将前t个数据点簇确定为第一类数据点簇,并将前t个数据点簇以外的其他数据点簇确定为第二类数据点簇,所述设定筛选条件为:前t个数据点簇中所有数据点的总数目与所有数据点簇中所有数据点的总数目的比值不小于第一设定比值阈值,或者第t个数据点簇中所有数据点的总数目与第t+1个数据点簇中所有数据点的总数目的比值不小于第二设定比值阈值。
7.一种用于大数据任务调度的数据智能处理系统,其特征在于,包括处理器和存储器,所述处理器用于处理存储在所述存储器中的指令,以实现如权利要求1-6中任一项所述的一种用于大数据任务调度的数据智能处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310643722.8A CN116360956B (zh) | 2023-06-02 | 2023-06-02 | 用于大数据任务调度的数据智能处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310643722.8A CN116360956B (zh) | 2023-06-02 | 2023-06-02 | 用于大数据任务调度的数据智能处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116360956A CN116360956A (zh) | 2023-06-30 |
CN116360956B true CN116360956B (zh) | 2023-08-08 |
Family
ID=86905525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310643722.8A Active CN116360956B (zh) | 2023-06-02 | 2023-06-02 | 用于大数据任务调度的数据智能处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116360956B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299259A (zh) * | 2018-09-26 | 2019-02-01 | 深圳壹账通智能科技有限公司 | 企业发票数据监测方法、装置、计算机设备和存储介质 |
CN109766393A (zh) * | 2018-12-06 | 2019-05-17 | 中科恒运股份有限公司 | 异常数据检测方法及装置 |
CN109871412A (zh) * | 2018-12-26 | 2019-06-11 | 航天科工广信智能技术有限公司 | 基于K-Means聚类的车道流量分析方法 |
CN114356989A (zh) * | 2021-12-29 | 2022-04-15 | 中国联合网络通信集团有限公司 | 审计异常数据检测方法及装置 |
CN114386466A (zh) * | 2022-01-13 | 2022-04-22 | 贵州师范大学 | 一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法 |
CN114444568A (zh) * | 2021-12-21 | 2022-05-06 | 福建新大陆软件工程有限公司 | 一种基于改进聚类算法的不满意原因溯源方法 |
WO2022126971A1 (zh) * | 2020-12-16 | 2022-06-23 | 平安科技(深圳)有限公司 | 基于密度的文本聚类方法、装置、设备及存储介质 |
CN115035401A (zh) * | 2021-03-05 | 2022-09-09 | 应用材料公司 | 用于对保持环进行分类的机器学习 |
CN116166960A (zh) * | 2023-02-07 | 2023-05-26 | 河南大学 | 用于神经网络训练的大数据特征清洗方法及系统 |
-
2023
- 2023-06-02 CN CN202310643722.8A patent/CN116360956B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299259A (zh) * | 2018-09-26 | 2019-02-01 | 深圳壹账通智能科技有限公司 | 企业发票数据监测方法、装置、计算机设备和存储介质 |
CN109766393A (zh) * | 2018-12-06 | 2019-05-17 | 中科恒运股份有限公司 | 异常数据检测方法及装置 |
CN109871412A (zh) * | 2018-12-26 | 2019-06-11 | 航天科工广信智能技术有限公司 | 基于K-Means聚类的车道流量分析方法 |
WO2022126971A1 (zh) * | 2020-12-16 | 2022-06-23 | 平安科技(深圳)有限公司 | 基于密度的文本聚类方法、装置、设备及存储介质 |
CN115035401A (zh) * | 2021-03-05 | 2022-09-09 | 应用材料公司 | 用于对保持环进行分类的机器学习 |
CN114444568A (zh) * | 2021-12-21 | 2022-05-06 | 福建新大陆软件工程有限公司 | 一种基于改进聚类算法的不满意原因溯源方法 |
CN114356989A (zh) * | 2021-12-29 | 2022-04-15 | 中国联合网络通信集团有限公司 | 审计异常数据检测方法及装置 |
CN114386466A (zh) * | 2022-01-13 | 2022-04-22 | 贵州师范大学 | 一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法 |
CN116166960A (zh) * | 2023-02-07 | 2023-05-26 | 河南大学 | 用于神经网络训练的大数据特征清洗方法及系统 |
Non-Patent Citations (1)
Title |
---|
Performance-related Internal Clustering Validation Index for Clustering-based Anomaly Detection;HyunYong Lee;《2021 International Conference on Information and Communication Technology Convergence》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116360956A (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113256066B (zh) | 基于PCA-XGBoost-IRF的作业车间实时调度方法 | |
CN109816031B (zh) | 一种基于数据不均衡度量的变压器状态评估聚类分析方法 | |
CN109472769A (zh) | 一种不良图像缺陷检测方法和系统 | |
CN112911627B (zh) | 无线网络性能检测方法、装置以及存储介质 | |
CN115982602B (zh) | 一种光伏变压器电故障检测方法 | |
CN110210730A (zh) | 一种区域综合能源系统能效状态评价方法 | |
CN108919059A (zh) | 一种电网故障诊断方法、装置、设备及可读存储介质 | |
CN110674120A (zh) | 一种风电场数据清洗方法及装置 | |
CN110297207A (zh) | 智能电表的故障诊断方法、系统及电子装置 | |
CN114153888A (zh) | 一种时间序列数据的异常值检测方法和装置 | |
CN113537321B (zh) | 一种基于孤立森林和x均值的网络流量异常检测方法 | |
CN116154972B (zh) | 一种分布式电网电能质量监测方法及系统 | |
CN109240276B (zh) | 基于故障敏感主元选择的多块pca故障监测方法 | |
CN117312997A (zh) | 一种电力管理系统智能诊断方法及系统 | |
CN117318614A (zh) | 一种光伏逆变器故障预测方法 | |
CN110232399A (zh) | 基于集对分析和K-means聚类的输电设备缺陷分析方法和系统 | |
CN116360956B (zh) | 用于大数据任务调度的数据智能处理方法及系统 | |
Guan et al. | Application of a novel PNN evaluation algorithm to a greenhouse monitoring system | |
CN116804668B (zh) | 一种食盐碘含量检测数据标识方法及系统 | |
CN113539382A (zh) | 一种亚磷酸二甲酯关键工艺参数的预警定位方法及系统 | |
CN109389313B (zh) | 一种基于加权近邻决策的故障分类诊断方法 | |
CN116644348A (zh) | 基于传递式对抗迁移的跨机械部件故障诊断方法及装置 | |
Hai-Jun et al. | Fuzzy entropy clustering using possibilistic approach | |
CN117114911B (zh) | 一种财务报表自动统计结算方法及系统 | |
CN111415029B (zh) | 一种大规模新能源出力特性的预测系统及预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |