CN110990495B - 数据处理方法、数据处理系统及计算机存储介质 - Google Patents

数据处理方法、数据处理系统及计算机存储介质 Download PDF

Info

Publication number
CN110990495B
CN110990495B CN201911283447.3A CN201911283447A CN110990495B CN 110990495 B CN110990495 B CN 110990495B CN 201911283447 A CN201911283447 A CN 201911283447A CN 110990495 B CN110990495 B CN 110990495B
Authority
CN
China
Prior art keywords
data
sub
identification information
processing system
data sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911283447.3A
Other languages
English (en)
Other versions
CN110990495A (zh
Inventor
袁俊
陈世和
宋亚杰
曾骥敏
田鹏路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Goes Out New Knowledge Property Right Management Co ltd
Original Assignee
China Resource Power Technology Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Resource Power Technology Research Institute filed Critical China Resource Power Technology Research Institute
Priority to CN201911283447.3A priority Critical patent/CN110990495B/zh
Publication of CN110990495A publication Critical patent/CN110990495A/zh
Application granted granted Critical
Publication of CN110990495B publication Critical patent/CN110990495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本申请实施例公开了一种数据处理方法、数据处理系统及计算机存储介质,用于从海量的数据中挖掘与锅炉机组运行的最优工况有关的数据。本申请实施例方法包括:数据处理系统获取待处理的多个数据组,并基于聚类算法对多个数据组的子数据进行聚类,得到多个簇,对多个簇编制不同的标识信息,数据处理系统统计目标数据组的个数n,并计算目标数据组的可信度。目标数据组的可信度越高,表明锅炉机组基于该目标数据组的子数据运行的频率越高,该目标数据组的子数据中包括最优工况的可能性也越大。本申请实施例基于聚类算法对待处理数据组中与锅炉机组运行有关的子数据进行处理,从子数据中挖掘出最优工况,无需技术人员通过人力对数据进行筛选和挖掘。

Description

数据处理方法、数据处理系统及计算机存储介质
技术领域
本申请实施例涉及数据处理领域,具体涉及一种数据处理方法、数据处理系统及计算机存储介质。
背景技术
在火电厂的锅炉机组运行过程中,由于煤质变化、机组负荷变化、环境变化、设备状态变化等情况的发生,锅炉机组的运行指标数据如操作变量及状态参数也随之变化。因此,在锅炉机组的持续运行过程中,锅炉机组积累了海量的与锅炉机组运行有关的数据,与锅炉机组运行有关的数据蕴含了表征锅炉机组运行状态最佳的工况,即最优工况,可将最优工况对应的操作值作为指导技术人员运行锅炉机组的操作基准值。
技术人员根据操作基准值运行锅炉机组,使锅炉机组按照最优工况持续运行,保证锅炉机组的运行状态最佳,是提高火电厂经济效益的途径之一。但是,与锅炉机组运行有关的数据的数据量庞大,技术人员从海量的数据中筛选最优工况需要耗费大量的人力物力,耗费大量的工作时间。
发明内容
本申请实施例提供了一种数据处理方法、数据处理系统及计算机存储介质,用于从海量的数据中挖掘与锅炉机组运行的最优工况有关的数据。
本申请实施例第一方面提供了一种数据处理方法,包括:
数据处理系统获取待处理的多个数据组,所述数据组包括一个或多个子数据,每个所述子数据对应一个指标;
所述数据处理系统基于聚类算法对多个所述数据组的子数据进行聚类,得到多个簇,则每个所述子数据分布在一个所述簇中;
所述数据处理系统对多个所述簇编制不同的标识信息,则每个所述簇中的子数据对应一个所述标识信息;
当所述数据组包括多个所述子数据时,所述数据处理系统统计目标数据组的个数n,所述目标数据组为第一标识信息列相同的数据组,所述第一标识信息列为所述数据组中的子数据对应的多个所述标识信息按照所述数据组对应的指标顺序排列而成的序列,其中n为正整数;
所述数据处理系统计算所述目标数据组的可信度,所述可信度为n/N的值,其中,可信度在第一预设范围内的所述目标数据组所包括的子数据为最优工况所对应的数据,N为正整数。
优选的,N为所述数据组的个数。
优选的,所述指标包括运行参数指标,则所述数据组的子数据中包括运行参数;
所述数据处理系统统计目标数据组的个数n之后,所述方法还包括:
当所述数据组的子数据中包括多个所述运行参数时,所述数据处理系统统计第二标识信息列相同的所述数据组的个数,所述第二标识信息列为所述数据组中的运行参数对应的多个所述标识信息按照所述数据组对应的运行参数指标顺序排列而成的序列;
则,N为第二标识信息列相同的所述数据组的个数。
优选的,所述指标还包括耗差指标,则所述数据组中的多个子数据包括耗差值;
所述方法还包括:
所述数据处理系统将可信度在所述第一预设范围内的多个所述目标数据组中耗差值最小的目标数据组所包括的子数据确定为所述最优工况所对应的数据。
优选的,所述数据处理系统获取待处理的多个数据组,包括:
所述数据处理系统获取锅炉机组的多个初始数据组;
所述数据处理系统对多个所述初始数据组进行制程能力分析,得到所述初始数据组的制程能力指标数值;
所述数据处理系统将制程能力指标数值在第二预设范围内的多个所述初始数据组作为所述数据组。
本申请实施例第二方面提供了一种数据处理系统,包括:
第一获取单元,用于获取待处理的多个数据组,所述数据组包括一个或多个子数据,每个所述子数据对应一个指标;
聚类单元,用于基于聚类算法对多个所述数据组的子数据进行聚类,得到多个簇,则每个所述子数据分布在一个所述簇中;
编制单元,用于对多个所述簇编制不同的标识信息,则每个所述簇中的子数据对应一个所述标识信息;
统计单元,用于当所述数据组包括多个所述子数据时,统计目标数据组的个数n,所述目标数据组为第一标识信息列相同的数据组,所述第一标识信息列为所述数据组中的子数据对应的多个所述标识信息按照所述数据组对应的指标顺序排列而成的序列,其中n为正整数;
计算单元,用于计算所述目标数据组的可信度,所述可信度为n/N的值,其中,可信度在第一预设范围内的所述目标数据组所包括的子数据为最优工况所对应的数据,N为正整数。
优选的,N为所述数据组的个数。
优选的,所述指标包括运行参数指标,则所述数据组的子数据中包括运行参数;
所述统计单元还用于当所述数据组的子数据中包括多个所述运行参数时,统计第二标识信息列相同的所述数据组的个数,所述第二标识信息列为所述数据组中的运行参数对应的多个所述标识信息按照所述数据组对应的运行参数指标顺序排列而成的序列;
则,N为第二标识信息列相同的所述数据组的个数。
优选的,所述指标还包括耗差指标,则所述数据组中的多个子数据包括耗差值;
所述数据处理系统还包括:
确定单元,用于将可信度在所述第一预设范围内的多个所述目标数据组中耗差值最小的目标数据组所包括的子数据确定为所述最优工况所对应的数据。
优选的,所述第一获取单元具体用于获取锅炉机组的多个初始数据组,对多个所述初始数据组进行制程能力分析,得到所述初始数据组的制程能力指标数值,将制程能力指标数值在第二预设范围内的多个所述初始数据组作为所述数据组。
本申请实施例第三方面提供了一种数据处理系统,包括:
处理器、存储器、总线、输入输出设备;
所述处理器与所述存储器、输入输出设备相连;
所述总线分别连接所述处理器、存储器以及输入输出设备;
所述输入输出设备用于获取待处理的多个数据组,所述数据组包括一个或多个子数据,每个所述子数据对应一个指标;
所述处理器用于基于聚类算法对多个所述数据组的子数据进行聚类,得到多个簇,则每个所述子数据分布在一个所述簇中,对多个所述簇编制不同的标识信息,则每个所述簇中的子数据对应一个所述标识信息;
所述处理器还用于当所述数据组包括多个所述子数据时,统计目标数据组的个数n,所述目标数据组为第一标识信息列相同的数据组,所述第一标识信息列为所述数据组中的子数据对应的多个所述标识信息按照所述数据组对应的指标顺序排列而成的序列,其中n为正整数;
所述处理器还用于计算所述目标数据组的可信度,所述可信度为n/N的值,其中,可信度在第一预设范围内的所述目标数据组所包括的子数据为最优工况所对应的数据,N为正整数。
本申请实施例第四方面提供了一种计算机存储介质,计算机存储介质中存储有指令,该指令在计算机上执行时,使得计算机执行前述第一方面的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
数据处理系统获取待处理的多个数据组,数据组包括一个或多个子数据,每个子数据对应一个指标,并基于聚类算法对多个数据组的子数据进行聚类,得到多个簇,则每个子数据分布在一个簇中,对多个簇编制不同的标识信息,则每个簇中的子数据对应一个标识信息;当数据组包括多个子数据时,数据处理系统统计目标数据组的个数n,目标数据组为第一标识信息列相同的数据组,第一标识信息列为数据组中的子数据对应的多个标识信息按照子数据对应的指标顺序排列而成的序列,并计算目标数据组的可信度,可信度为n/N的值,某个目标数据组的可信度越高,表明锅炉机组基于该目标数据组的子数据运行的频率越高,该目标数据组的子数据中包括最优工况的可能性也越大,因此,可以进一步设置可信度的范围来筛选可信度较高的目标数据组,将可信度在第一预设范围内的目标数据组所包括的子数据确定为最优工况所对应的数据。本申请实施例基于聚类算法对待处理数据组中与锅炉机组运行有关的子数据进行处理,从子数据中挖掘出最优工况,无需技术人员通过人力对数据进行筛选和挖掘,节省了大量的工作时间。
附图说明
图1为本申请实施例中数据处理方法一个流程示意图;
图2为本申请实施例中数据处理方法另一流程示意图;
图3为本申请实施例中数据处理系统一个结构示意图;
图4为本申请实施例中数据处理系统另一结构示意图;
图5为本申请实施例中数据处理系统另一结构示意图。
具体实施方式
本申请实施例提供了一种数据处理方法、数据处理系统及计算机存储介质,用于从海量的数据中挖掘与锅炉机组运行的最优工况有关的数据。
请参阅图1,本申请实施例中数据处理方法一个实施例包括:
101、数据处理系统获取待处理的多个数据组;
本实施例中,待处理的数据组包括一个或多个子数据,每个子数据对应一个指标,其中,数据组中的子数据包括与锅炉机组运行有关的数据。
102、数据处理系统基于聚类算法对多个数据组的子数据进行聚类,得到多个簇;
数据处理系统基于聚类算法对多个数据组的子数据进行聚类之后,得到多个簇,则每个子数据分布在一个簇中。
103、数据处理系统对多个簇编制不同的标识信息;
数据处理系统得到多个簇之后,对多个簇编制不同的标识信息。本实施例中,标识信息用于区分多个簇中的每个簇,也就是说,每个簇有唯一的标识信息,从而与其他簇区分开来。当每个簇获得唯一的标识信息时,分布在簇中的子数据对应所在簇的标识信息。
104、数据处理系统统计目标数据组的个数n;
当数据组包括多个子数据时,数据处理系统统计目标数据组的个数n,其中n为正整数,目标数据组为第一标识信息列相同的数据组,第一标识信息列为数据组中的子数据对应的多个标识信息按照数据组对应的指标顺序排列而成的序列。
本实施例中,数据组对应的指标顺序是指,由于数据组中每个子数据对应一个指标,因此数据组中多个子数据对应多个指标,多个子数据对应的多个指标排列而形成一定的顺序,也就是指标顺序。
由于每个子数据对应所在簇的标识信息,因此,数据组中多个子数据即对应多个标识信息,该多个标识信息按照数据组对应的指标顺序进行排列,便形成该多个标识信息的序列,为便于描述和区分,将该序列称为第一标识信息列。
本实施例中,第一标识信息列相同是指每个数据组中多个子数据对应的多个标识信息按照相同的指标顺序进行排列之后,第一标识信息列与第一标识信息列之间所有标识信息相同,其中,数据组的多个子数据对应的指标与其他数据组的多个子数据对应的指标的指标类型应当相同且指标数量应当相等。
105、数据处理系统计算目标数据组的可信度;
在获得目标数据组的个数n之后,数据处理系统计算目标数据组的可信度,其中可信度为n/N的值,N为正整数。当某个目标数据组的个数较多时,该目标数据组的可信度相对较高,表明锅炉机组基于该目标数据组的子数据运行的频率相对较高,表明技术人员在运行锅炉机组时通常会使机组基于该目标数据组的子数据运行,因此,该目标数据组的子数据中包括最优工况的可能性也越大。
相反,如果某个目标数据组的个数较少,则该目标数据组的可信度相对较低,表明锅炉机组只是偶尔基于该目标数据组的子数据运行,锅炉机组基于该目标数据组的子数据运行的频率不高的原因可能是该目标数据组的子数据是在锅炉机组的启动阶段或者机组检查阶段所采集到的数据,此数据不宜作为最优工况对应的数据,则应当不予考虑该目标数据组的子数据。
因此,可以进一步设置可信度的范围来筛选可信度较高的目标数据组,将可信度在第一预设范围内的目标数据组所包括的子数据确定为最优工况所对应的数据。
本实施例中,数据处理系统获取待处理的多个数据组,数据组包括一个或多个子数据,每个子数据对应一个指标,并基于聚类算法对多个数据组的子数据进行聚类,得到多个簇,则每个子数据分布在一个簇中,对多个簇编制不同的标识信息,则每个簇中的子数据对应一个标识信息;当数据组包括多个子数据时,数据处理系统统计目标数据组的个数n,目标数据组为第一标识信息列相同的数据组,第一标识信息列为数据组中的子数据对应的多个标识信息按照子数据对应的指标顺序排列而成的序列,并计算目标数据组的可信度,可信度为n/N的值,某个目标数据组的可信度越高,表明锅炉机组基于该目标数据组的子数据运行的频率越高,该目标数据组的子数据中包括最优工况的可能性也越大,因此,可以进一步设置可信度的范围来筛选可信度较高的目标数据组,将可信度在第一预设范围内的目标数据组所包括的子数据确定为最优工况所对应的数据。本实施例基于聚类算法对待处理数据组中与锅炉机组运行有关的子数据进行处理,从子数据中挖掘出最优工况,无需技术人员通过人力对数据进行筛选和挖掘,节省了大量的工作时间。
本申请实施例中,N是任意的正整数,其具体取值不作限定。下面通过实施例来列举两种较为典型的N的取值。请参阅图2,本申请实施例中数据处理方法另一实施例包括:
201、数据处理系统获取待处理的多个数据组;
本实施例中,数据组中的子数据包括与锅炉机组运行有关的数据,与锅炉机组运行有关的数据包括涉及运行参数指标的数据,即运行参数,也就是说,数据组包括一个或多个运行参数。其中,运行参数指标为反映锅炉机组运行状态的指标,则运行参数为反映锅炉机组运行状态的参数。
数据处理系统获取的多个数据组可以是预先经过数据清洗的,数据清洗的目的在于发现并纠正数据中可识别的错误,并检查数据一致性,处理无效值和缺失值。数据处理系统还可以预先对数据组中的子数据进行工况划分,筛选出工况条件相同的数据组,并将工况条件相同的数据组作为数据处理的对象。除此之外,数据处理系统还可以预先对数据进行制程能力分析,本实施例将用于制程能力分析的数据组称为初始数据组。
数据处理系统从锅炉机组的各个组成系统中采集多个运行参数,运行参数可以按照采集时间点分为多个初始数据组。然后,对多个初始数据组进行制程能力分析,首先对每个初始数据组中的数据进行Box-Cox变换或者Yeo-Johnson变换,使其满足正态分布,对运行参数的波动情况进行统计学研究和制程能力分析,计算每个初始数据组的6倍标准差,分析并计算得到制程能力指标的数值,制程能力指标数值可以是Cp值、Cpk值、Cpm值和Cpmk值中的一个或多个。
在计算得到每个初始数据组的制程能力指标数值之后,数据处理系统判断初始数据组的制程能力指标数值是否在预设的数值范围内,如果初始数据组的制程能力指标数值在第二预设范围内,则将该初始数据组作为需要挖掘最优工况的待处理的数据组。
其中,第二预设范围可以是数值范围,也可以是多个初始数据组的制程能力指标数值按照数值大小排序之后,选取制程能力指标数值最大的多个初始数据组。例如,第二预设范围可以是多个初始数据组的制程能力指标数值按照数值大小排序之后,选取制程能力指标数值最大的1000个初始数据组,则数据处理系统将制程能力指标数值最大的1000个初始数据组作为需要挖掘最优工况的待处理的数据组。
通过制程能力分析,可以判断锅炉机组的运行稳定性,进而将制程能力指标数值作为锅炉机组运行工况优劣的量化判据,初步筛选出锅炉机组在稳定运行状态下的运行参数。
需要说明的是,进行制程能力分析的目的是为了筛选出锅炉机组在稳定运行状态下的运行参数,以减少数据处理系统在后期挖掘最优工况时需要处理的数据的数据量,因此,当初始数据组的数据量较少时,或者当数据处理系统的处理能力较强时,也可以无需进行制程能力分析,而是直接将初始数据组作为需要挖掘最优工况的待处理的数据组,本实施例对此不作限定。
202、数据处理系统基于聚类算法对多个数据组的子数据进行聚类,得到多个簇;
数据处理系统获取到多个数据组之后,采用聚类算法对多个数据组的子数据进行聚类,得到多个簇,则每个子数据分布在一个簇中。本实施例中,数据处理系统所采用的聚类算法可以是K-means算法,也可以是模糊聚类算法,还可以是K-medoids算法或者其他聚类算法,具体聚类算法的选择可根据子数据的具体类型进行选择,多种聚类算法可以混合使用,此处不做限定。
203、数据处理系统对多个簇编制不同的标识信息;
数据处理系统对多个数据组的子数据进行聚类得到多个簇之后,对多个簇编制不同的标识信息。其中,标识信息的形式具体不作限定,可以是数字的形式,也可以是英文字母的形式,还可以是希腊字母或者罗马数字的形式,只要能够用于区分每个簇即可。当每个簇获得唯一的标识信息时,分布在簇中的子数据对应所在簇的标识信息。
204、数据处理系统统计目标数据组的个数n;
当数据组包括多个子数据时,数据处理系统统计目标数据组的个数n,其中n为正整数,目标数据组为第一标识信息列相同的数据组,第一标识信息列为数据组中的子数据对应的多个标识信息按照数据组对应的指标顺序排列而成的序列。
本实施例中,第一标识信息列相同是指每个数据组中多个子数据对应的多个标识信息按照相同的指标顺序进行排列之后,第一标识信息列与第一标识信息列之间所有标识信息相同,其中,数据组的多个子数据对应的指标与其他数据组的多个子数据对应的指标的指标类型应当相同且指标数量应当相等。
举例来说,若数据处理系统获取到锅炉机组的配风系统的2个数据组,该2个数据组的子数据所对应的指标的排列顺序均为二次风量指标、燃烧器摆角指标、二次风箱差压指标、热一次风压指标、耗差指标,每项指标均对应一个子数据。若将该2个数据组的子数据进行聚类得到3个簇,并以数字的形式对每个簇进行编号(编号为1、2、3),则该2个数据组的子数据对应所在簇的编号按照上述指标的排列顺序进行排列,得到该2个数据组的第一标识信息列分别是13122以及13122,可以看出,该2个数据组的第一标识信息列相同,则可以确定该2个数据组为目标数据组。
需要说明的是,上述以2个数据组和5个指标为例进行举例说明,在实际应用中,可以有更多的数据组和更多的指标,本申请实施例对此不作限定。同时,上述举例仅为了进一步清楚地描述技术方案,并不对本申请实施例进行限定。
205、数据处理系统统计第二标识信息列相同的数据组的个数;
本实施例中,当数据组的子数据中包括多个运行参数时,也就是说数据组中有部分子数据为运行参数时,数据处理系统统计第二标识信息列相同的数据组的个数,第二标识信息列为数据组中的运行参数对应的多个标识信息按照数据组对应的运行参数指标顺序排列而成的序列。
其中,数据组对应的运行参数指标顺序是指,由于数据组中每个运行参数对应一个运行参数指标,因此数据组中多个运行参数对应多个运行参数指标,多个运行参数对应的多个运行参数指标排列而形成一定的顺序,也就是运行参数指标顺序。
由于每个运行参数对应所在簇的标识信息,因此,数据组中多个运行参数即对应多个标识信息,该多个标识信息按照数据组对应的运行参数指标顺序进行排列,便形成该多个标识信息的序列,为便于描述和区分,将该序列称为第二标识信息列。
本实施例中,第二标识信息列相同是指每个数据组中多个运行参数对应的多个标识信息按照相同的运行参数指标顺序进行排列之后,第二标识信息列与第二标识信息列之间所有标识信息相同,其中,数据组的多个运行参数指标与其他数据组的多个运行参数指标的指标类型应当相同且指标数量应当相等。
需要注意的是,第二标识信息列与第一标识信息列的区别在于,第二标识信息列包括的标识信息仅仅是数据组中的运行参数对应的标识信息,而不包括数据组中除了运行参数以外的其他非运行参数指标对应的子数据所对应的标识信息;而第一标识信息列包括的标识信息则是数据组中所有指标对应的子数据所对应的标识信息。
举例来说,某个数据组中的子数据对应的指标有二次风量指标、燃烧器摆角指标、二次风箱差压指标、热一次风压指标、耗差指标,由于二次风量指标、燃烧器摆角指标、二次风箱差压指标、热一次风压指标属于运行参数指标,耗差指标属于经济指标,则该数据组对应的第一标识信息列包括的标识信息为运行参数指标和经济指标对应的子数据所对应的标识信息,第二标识信息列包括的标识信息为运行参数指标对应的子数据所对应的标识信息。
确定第二标识信息列是否相同的方式与前述步骤204确定第一标识信息列是否相同的方式类似,具体此处不再赘述。
206、数据处理系统计算目标数据组的可信度;
在获得目标数据组的个数n之后,数据处理系统计算目标数据组的可信度,可信度为n/N的值,其中N的取值可以是前述步骤205所获得的第二标识信息列相同的数据组的个数。
此外,N的取值也可以是数据组的个数,则支持度为第一标识信息列相同的数据组的个数与数据组的个数的比值。
207、数据处理系统将可信度在第一预设范围内的多个目标数据组中耗差值最小的目标数据组所包括的子数据确定为最优工况所对应的数据;
本实施例中,若数据组还包括耗差值,由于耗差值作为经济指标反映了锅炉机组运行的经济性,则数据处理系统在获得多个目标数据组之后,将可信度在第一预设范围内的多个目标数据组中耗差值最小的目标数据组所包括的子数据确定为最优工况所对应的数据,第一预设范围可以是由技术人员预先设定的数值范围。
本实施例列举了N的两种典型的取值,N的取值可以是第二标识信息列相同的数据组的个数,也可以是数据组的个数,数据处理系统在计算目标数据组的可信度时,可采用上述两种N的典型取值来计算目标数据组的可信度,以使目标数据组的可信度更具有实际意义,提高了方案的可实现性。
上面对本申请实施例中的数据处理方法进行了描述,下面对本申请实施例中的数据处理系统进行描述,请参阅图3,本申请实施例中数据处理系统一个实施例包括:
第一获取单元301,用于获取待处理的多个数据组,数据组包括一个或多个子数据,每个子数据对应一个指标;
聚类单元302,用于基于聚类算法对多个数据组的子数据进行聚类,得到多个簇,则每个子数据分布在一个簇中;
编制单元303,用于对多个簇编制不同的标识信息,则每个簇中的子数据对应一个标识信息;
统计单元304,用于当数据组包括多个子数据时,统计目标数据组的个数n,目标数据组为第一标识信息列相同的数据组,第一标识信息列为数据组中的子数据对应的多个标识信息按照数据组对应的指标顺序排列而成的序列,其中n为正整数;
计算单元305,用于计算目标数据组的可信度,可信度为n/N的值,其中,可信度在第一预设范围内的目标数据组所包括的子数据为最优工况所对应的数据,N为正整数。
本实施例中,数据处理系统中各单元所执行的操作与前述图1所示实施例中描述的类似,此处不再赘述。
本实施例中,第一获取单元301获取待处理的多个数据组,数据组包括一个或多个子数据,每个子数据对应一个指标,聚类单元302基于聚类算法对多个数据组的子数据进行聚类,得到多个簇,则每个子数据分布在一个簇中,编制单元303对多个簇编制不同的标识信息,则每个簇中的子数据对应一个标识信息;当数据组包括多个子数据时,统计单元304统计目标数据组的个数n,目标数据组为第一标识信息列相同的数据组,第一标识信息列为数据组中的子数据对应的多个标识信息按照子数据对应的指标顺序排列而成的序列,计算单元305计算目标数据组的可信度,可信度为n/N的值,某个目标数据组的可信度越高,表明锅炉机组基于该目标数据组的子数据运行的频率越高,该目标数据组的子数据中包括最优工况的可能性也越大,因此,可以进一步设置可信度的范围来筛选可信度较高的目标数据组,将可信度在第一预设范围内的目标数据组所包括的子数据确定为最优工况所对应的数据。本实施例基于聚类算法对待处理数据组中与锅炉机组运行有关的子数据进行处理,从子数据中挖掘出最优工况,无需技术人员通过人力对数据进行筛选和挖掘,节省了大量的工作时间。
请参阅图4,本申请实施例中数据处理系统另一实施例包括:
第一获取单元401,用于获取待处理的多个数据组,数据组包括一个或多个子数据,每个子数据对应一个指标;
聚类单元402,用于基于聚类算法对多个数据组的子数据进行聚类,得到多个簇,则每个子数据分布在一个簇中;
编制单元403,用于对多个簇编制不同的标识信息,则每个簇中的子数据对应一个标识信息;
统计单元404,用于当数据组包括多个子数据时,统计目标数据组的个数n,目标数据组为第一标识信息列相同的数据组,第一标识信息列为数据组中的子数据对应的多个标识信息按照数据组对应的指标顺序排列而成的序列,其中n为正整数;
计算单元405,用于计算目标数据组的可信度,可信度为n/N的值,其中,可信度在第一预设范围内的目标数据组所包括的子数据为最优工况所对应的数据,N为正整数。
本实施例中,N为数据组的个数。
本实施例中,指标包括运行参数指标,则数据组的子数据中包括运行参数;
统计单元404还用于当数据组的子数据中包括多个运行参数时,统计第二标识信息列相同的数据组的个数,第二标识信息列为数据组中的运行参数对应的多个标识信息按照数据组对应的运行参数指标顺序排列而成的序列;
则,N为第二标识信息列相同的数据组的个数。
本实施例中,数据组中的子数据对应的指标还包括耗差指标,则数据组中的多个子数据包括耗差值;其中,数据处理系统还包括:
确定单元406,用于将可信度在第一预设范围内的多个目标数据组中耗差值最小的目标数据组所包括的子数据确定为最优工况所对应的数据。
本实施例中,第一获取单元401具体用于获取锅炉机组的多个初始数据组,对多个初始数据组进行制程能力分析,得到初始数据组的制程能力指标数值,将制程能力指标数值在第二预设范围内的多个初始数据组作为数据组。
本实施例各单元所执行的操作与前述图2所示实施例中描述的类似,此处不再赘述。
下面对本申请实施例中的数据处理系统进行描述,请参阅图5,本申请实施例中数据处理系统一个实施例包括:
该数据处理系统500可以包括一个或一个以上中央处理器(central processingunits,CPU)501和存储器505,该存储器505中存储有一个或一个以上的应用程序或数据。
其中,存储器505可以是易失性存储或持久存储。存储在存储器505的程序可以包括一个或一个以上模块,每个模块可以包括对数据处理系统中的一系列指令操作。更进一步地,中央处理器501可以设置为与存储器505通信,在数据处理系统500上执行存储器505中的一系列指令操作。
数据处理系统500还可以包括一个或一个以上电源502,一个或一个以上有线或无线网络接口503,一个或一个以上输入输出接口504,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
该中央处理器501可以执行前述图1至图2所示实施例中数据处理系统所执行的操作,具体此处不再赘述。
本申请实施例还提供了一种计算机存储介质,其中一个实施例包括:该计算机存储介质中存储有指令,该指令在计算机上执行时,使得该计算机执行前述图1至图2所示实施例中数据处理系统所执行的操作。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (8)

1.一种数据处理方法,其特征在于,包括:
数据处理系统获取待处理的多个数据组,所述数据组包括一个或多个子数据,每个所述子数据对应一个指标;
所述数据处理系统基于聚类算法对多个所述数据组的子数据进行聚类,得到多个簇,则每个所述子数据分布在一个所述簇中;
所述数据处理系统对多个所述簇编制不同的标识信息,则每个所述簇中的子数据对应一个所述标识信息;
当所述数据组包括多个所述子数据时,所述数据处理系统统计目标数据组的个数n,所述目标数据组为第一标识信息列相同的数据组,所述第一标识信息列为所述数据组中的子数据对应的多个所述标识信息按照所述数据组对应的指标顺序排列而成的序列,其中n为正整数;
所述数据处理系统计算所述目标数据组的可信度,所述可信度为n/N的值,其中,可信度在第一预设范围内的所述目标数据组所包括的子数据为最优工况所对应的数据,N为所述数据组的个数,N为正整数;
所述数据处理系统获取待处理的多个数据组,包括:
所述数据处理系统获取锅炉机组的多个初始数据组;
所述数据处理系统对多个所述初始数据组进行制程能力分析,得到所述初始数据组的制程能力指标数值;
所述数据处理系统将制程能力指标数值在第二预设范围内的多个所述初始数据组作为所述数据组。
2.根据权利要求1所述的数据处理方法,其特征在于,所述指标包括运行参数指标,则所述数据组的子数据中包括运行参数;
所述数据处理系统统计目标数据组的个数n之后,所述方法还包括:
当所述数据组的子数据中包括多个所述运行参数时,所述数据处理系统统计第二标识信息列相同的所述数据组的个数,所述第二标识信息列为所述数据组中的运行参数对应的多个所述标识信息按照所述数据组对应的运行参数指标顺序排列而成的序列;
则,N为第二标识信息列相同的所述数据组的个数。
3.根据权利要求2所述的数据处理方法,其特征在于,所述指标还包括耗差指标,则所述数据组中的多个子数据包括耗差值;
所述方法还包括:
所述数据处理系统将可信度在所述第一预设范围内的多个所述目标数据组中耗差值最小的目标数据组所包括的子数据确定为所述最优工况所对应的数据。
4.一种数据处理系统,其特征在于,包括:
第一获取单元,用于获取待处理的多个数据组,所述数据组包括一个或多个子数据,每个所述子数据对应一个指标;
聚类单元,用于基于聚类算法对多个所述数据组的子数据进行聚类,得到多个簇,则每个所述子数据分布在一个所述簇中;
编制单元,用于对多个所述簇编制不同的标识信息,则每个所述簇中的子数据对应一个所述标识信息;
统计单元,用于当所述数据组包括多个所述子数据时,统计目标数据组的个数n,所述目标数据组为第一标识信息列相同的数据组,所述第一标识信息列为所述数据组中的子数据对应的多个所述标识信息按照所述数据组对应的指标顺序排列而成的序列,其中n为正整数;
计算单元,用于计算所述目标数据组的可信度,所述可信度为n/N的值,其中,可信度在第一预设范围内的所述目标数据组所包括的子数据为最优工况所对应的数据,N为所述数据组的个数,N为正整数;
所述第一获取单元具体用于获取锅炉机组的多个初始数据组,对多个所述初始数据组进行制程能力分析,得到所述初始数据组的制程能力指标数值,将制程能力指标数值在第二预设范围内的多个所述初始数据组作为所述数据组。
5.根据权利要求4所述的数据处理系统,其特征在于,所述指标包括运行参数指标,则所述数据组的子数据中包括运行参数;
所述统计单元还用于当所述数据组的子数据中包括多个所述运行参数时,统计第二标识信息列相同的所述数据组的个数,所述第二标识信息列为所述数据组中的运行参数对应的多个所述标识信息按照所述数据组对应的运行参数指标顺序排列而成的序列;
则,N为第二标识信息列相同的所述数据组的个数。
6.根据权利要求5所述的数据处理系统,其特征在于,所述指标还包括耗差指标,则所述数据组中的多个子数据包括耗差值;
所述数据处理系统还包括:
确定单元,用于将可信度在所述第一预设范围内的多个所述目标数据组中耗差值最小的目标数据组所包括的子数据确定为所述最优工况所对应的数据。
7.一种数据处理系统,其特征在于,包括:
处理器、存储器、总线、输入输出设备;
所述处理器与所述存储器、输入输出设备相连;
所述总线分别连接所述处理器、存储器以及输入输出设备;
所述输入输出设备用于获取待处理的多个数据组,所述数据组包括一个或多个子数据,每个所述子数据对应一个指标;
所述处理器用于基于聚类算法对多个所述数据组的子数据进行聚类,得到多个簇,则每个所述子数据分布在一个所述簇中,对多个所述簇编制不同的标识信息,则每个所述簇中的子数据对应一个所述标识信息;
所述处理器还用于当所述数据组包括多个所述子数据时,统计目标数据组的个数n,所述目标数据组为第一标识信息列相同的数据组,所述第一标识信息列为所述数据组中的子数据对应的多个所述标识信息按照所述数据组对应的指标顺序排列而成的序列,其中n为正整数;
所述处理器还用于计算所述目标数据组的可信度,所述可信度为n/N的值,其中,可信度在第一预设范围内的所述目标数据组所包括的子数据为最优工况所对应的数据,N为所述数据组的个数,N为正整数;
所述处理器具体用于获取锅炉机组的多个初始数据组,对多个所述初始数据组进行制程能力分析,得到所述初始数据组的制程能力指标数值,将制程能力指标数值在第二预设范围内的多个所述初始数据组作为所述数据组。
8.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有指令,所述指令在计算机上执行时,使得所述计算机执行如权利要求1至3中任一项所述的方法。
CN201911283447.3A 2019-12-13 2019-12-13 数据处理方法、数据处理系统及计算机存储介质 Active CN110990495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911283447.3A CN110990495B (zh) 2019-12-13 2019-12-13 数据处理方法、数据处理系统及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911283447.3A CN110990495B (zh) 2019-12-13 2019-12-13 数据处理方法、数据处理系统及计算机存储介质

Publications (2)

Publication Number Publication Date
CN110990495A CN110990495A (zh) 2020-04-10
CN110990495B true CN110990495B (zh) 2023-05-02

Family

ID=70093366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911283447.3A Active CN110990495B (zh) 2019-12-13 2019-12-13 数据处理方法、数据处理系统及计算机存储介质

Country Status (1)

Country Link
CN (1) CN110990495B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SU606032A1 (ru) * 1976-06-02 1978-05-05 Государственный Всесоюзный Центральный Ордена Трудового Красного Знамени Научно-Исследовательский Институт Комплексной Автоматизации Способ оптимизации режима работы котлоагрегата
CN106709662A (zh) * 2016-12-30 2017-05-24 山东鲁能软件技术有限公司 一种电力设备运行工况划分方法
CN109583727A (zh) * 2018-11-19 2019-04-05 中国电力科学研究院有限公司 一种利用电缆线路移动巡检数据确定电缆状态的方法及系统
CN109872012A (zh) * 2019-03-18 2019-06-11 上海大学 基于工况划分的火电厂运行多目标优化的确定方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SU606032A1 (ru) * 1976-06-02 1978-05-05 Государственный Всесоюзный Центральный Ордена Трудового Красного Знамени Научно-Исследовательский Институт Комплексной Автоматизации Способ оптимизации режима работы котлоагрегата
CN106709662A (zh) * 2016-12-30 2017-05-24 山东鲁能软件技术有限公司 一种电力设备运行工况划分方法
CN109583727A (zh) * 2018-11-19 2019-04-05 中国电力科学研究院有限公司 一种利用电缆线路移动巡检数据确定电缆状态的方法及系统
CN109872012A (zh) * 2019-03-18 2019-06-11 上海大学 基于工况划分的火电厂运行多目标优化的确定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于改进Apriori算法的机组小指标运行优化;赵文哲等;《机电一体化》;20170515(第05期);全文 *

Also Published As

Publication number Publication date
CN110990495A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
US9021304B2 (en) Fault analysis rule extraction device, fault analysis rule extraction method and storage medium
EP3015989A1 (en) System analysis device, system analysis method and system analysis program
CN108650684B (zh) 一种关联规则确定方法及装置
CN102945256A (zh) 海量sql语句合并归类的方法及装置
CN102955719A (zh) 疑似内存泄漏的确定方法及装置
CN114420215B (zh) 基于生成树的大规模生物数据聚类方法及系统
CN113420537B (zh) 电子表格数据处理方法、装置、设备及存储介质
CN105630656A (zh) 基于日志模型的系统健壮性分析方法及装置
CN116862081B (zh) 一种污染治理设备运维方法及系统
CN105574032A (zh) 规则匹配运算方法及装置
CN112988440A (zh) 一种系统故障预测方法、装置、电子设备及存储介质
CN114116828A (zh) 多维网络指标的关联规则分析方法、设备和存储介质
CN110990495B (zh) 数据处理方法、数据处理系统及计算机存储介质
CN111581056A (zh) 基于人工智能的软件工程数据库维护与预警系统
CN117081965B (zh) 一种内网应用负载在线监测系统
US20140005816A1 (en) Design Support System
CN112445842A (zh) 一种基于时间序列数据的异常值检测方法和系统
CN113255096A (zh) 基于向前逐步回归的高损线路异常台区定位方法及系统
CN111311318A (zh) 用户流失预警的方法、装置、设备及存储介质
CN116578558A (zh) 一种数据处理方法、装置、设备及存储介质
CN112732517B (zh) 一种磁盘故障告警方法、装置、设备及可读存储介质
CN111476316B (zh) 一种基于云计算下电力负荷特征数据均值聚类的方法及系统
CN111258788B (zh) 磁盘故障预测方法、装置及计算机可读存储介质
CN111628901A (zh) 一种指标异常检测方法以及相关装置
Wang et al. A comparative study on the stability of software metric selection techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240408

Address after: 518066 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Patentee after: Shenzhen goes out new knowledge property right management Co.,Ltd.

Country or region after: China

Address before: 523808 Room 308, unit 1, building 18, no.6, Libin Road, Songshanhu Park, Dongguan City, Guangdong Province

Patentee before: CR POWER TECHNOLOGY INSTITUTE Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right