CN114416707A - 工业时序数据的自动化特征工程方法和装置 - Google Patents
工业时序数据的自动化特征工程方法和装置 Download PDFInfo
- Publication number
- CN114416707A CN114416707A CN202111507447.4A CN202111507447A CN114416707A CN 114416707 A CN114416707 A CN 114416707A CN 202111507447 A CN202111507447 A CN 202111507447A CN 114416707 A CN114416707 A CN 114416707A
- Authority
- CN
- China
- Prior art keywords
- data
- time sequence
- industrial
- characteristic
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000004140 cleaning Methods 0.000 claims abstract description 117
- 238000012545 processing Methods 0.000 claims abstract description 40
- 230000008569 process Effects 0.000 claims abstract description 30
- 238000012407 engineering method Methods 0.000 claims abstract description 19
- 238000013441 quality evaluation Methods 0.000 claims description 59
- 238000011156 evaluation Methods 0.000 claims description 39
- 238000009826 distribution Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 10
- 238000013209 evaluation strategy Methods 0.000 claims description 8
- 238000001303 quality assessment method Methods 0.000 claims 2
- 238000005457 optimization Methods 0.000 abstract description 6
- 238000012360 testing method Methods 0.000 description 17
- 238000004519 manufacturing process Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000007781 pre-processing Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000008676 import Effects 0.000 description 5
- 238000010219 correlation analysis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000010998 test method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000013450 outlier detection Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Manufacturing & Machinery (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- General Factory Administration (AREA)
Abstract
本申请公开一种工业时序数据的自动化特征工程方法和装置,本申请通过根据工业时序数据集的至少包括工业时序数据间的关联关系的属性信息制定多个数据清洗策略,并通过遍历多个数据清洗策略且在遍历各数据清洗策略的过程中结合自动特征工程方法来优选工业时序数据集的高质量特征数据集,实现了对数据清洗和特征工程这两个处理过程的充分结合及此基础上对生成特征数据的方法的调优,并可以深入挖掘时序数据特征的关联性,从而有效提升了工业时序数据的特征数据的质量,降低了特征工程的门槛,减少人工调优时间和成本。
Description
技术领域
本申请属于自动化特征工程领域,尤其涉及一种工业时序数据的自动化特征工程方法和装置。
背景技术
随着现代工业的迅猛发展,智能制造作为融合了先进制造技术与信息通信技术的新型生产方式,已成为现代工业的发展方向。与此同时,数据挖掘技术作为智能制造的基础,被越来越广泛的应用到工业大数据领域。
其中,工业时序数据具有大体量、多源性、连续采样、价值密度低等特点,需要经过数据清洗和特征工程来提升数据质量,以便于进行后续的建模工作。尽管近年来提出了一些工业数据清洗及特征工程方法,但申请人研究发现,现有方法没有充分结合数据清洗和特征工程这两个处理过程,对生成特征数据的方法进行自动化调整,因此在实施过程中需要投入较多人力和时间进行调优;并且大多未考虑到工业时序数据的特点,没有深入挖掘潜在的特征关系,从而影响特征数据的质量。
发明内容
有鉴于此,本申请提供一种工业时序数据的自动化特征工程方法和装置,通过充分结合数据清洗和特征工程这两个处理过程,并深入挖掘潜在的特征关系,提升特征数据的质量,降低特征工程的门槛,减少人工调优时间和成本。
具体技术方案如下:
一种工业时序数据的自动化特征工程方法,包括:
获取待处理的工业时序数据集;
根据所述工业时序数据集的预定属性信息,为所述工业时序数据集制定多个数据清洗策略;所述预定属性信息至少包括所述工业时序数据集中工业时序数据间的关联关系;
针对每一数据清洗策略:利用所述数据清洗策略对所述工业时序数据集进行数据清洗处理,得到清洗结果数据;对所述清洗结果数据进行时序特征的特征提取处理,得到对应的时序特征集;对所述时序特征集进行质量评估,得到时序特征集的质量评估结果;
根据各数据清洗策略分别对应的时序特征集的质量评估结果,选取质量最优的时序特征集作为所述工业时序数据集的目标特征数据集。
可选的,所述根据所述工业时序数据集的预定属性信息,为所述工业时序数据集制定多个数据清洗策略,包括:
根据所述工业时序数据集中工业时序数据对应的分布情况信息和场景经验信息,为所述工业时序数据集制定多个数据清洗策略;
其中,所述场景经验信息至少包括所述工业时序数据集中工业时序数据间的关联关系。
可选的,所述对所述清洗结果数据进行时序特征的特征提取处理,得到对应的时序特征集,包括:
基于所述工业时序数据集的工艺流程和/或数据采集方式,对所述清洗结果数据进行分组,得到多组数据子集;
对每组数据子集进行时序特征提取;
整合各组数据子集的时序特征,得到对应的时序特征集。
可选的,在对所述时序特征集进行质量评估之前,所述方法还包括:
筛选所述时序特征集中符合预定质量要求的时序特征,得到筛选后的时序特征集;
所述对所述时序特征集进行质量评估,包括:
按照预定的特征评估策略,对所述筛选后的时序特征集进行质量评估。
可选的,所述按照预定的特征评估策略,对所述筛选后的时序特征集进行质量评估,包括:
利用预定的多种特征评估方式对筛选后的时序特征集进行质量评估,得到筛选后的时序特征集对应的多个质量评估子结果;
对所述多个质量评估子结果进行加权计算,得到所述筛选后的时序特征集对应的质量评估结果。
可选的,所述利用预定的多种特征评估方式对筛选后的时序特征集进行质量评估,包括:
对于所述多种特征评估方式中的各特征评估方式,分别利用以下的评分计算式,对筛选后的时序特征集进行质量评分:
其中,scorej表示第j个特征评估方式对筛选后的时序特征集的评分,wi表示筛选后的时序特征集中每个特征数据的评分权重,且corrValuei表示每个特征数据与标签数据的相关性值,n表示筛选出的时序特征个数,1≤i ≤n,1≤j≤m,m表示特征评估方式的个数,且i、j分别为整数。
一种工业时序数据的自动化特征工程装置,包括:
数据获取单元,用于获取待处理的工业时序数据集;
策略制定单元,用于根据所述工业时序数据集的预定属性信息,为所述工业时序数据集制定多个数据清洗策略;所述预定属性信息至少包括所述工业时序数据集中工业时序数据间的关联关系;
数据清洗与特征工程单元,用于针对每一数据清洗策略:利用所述数据清洗策略对所述工业时序数据集进行数据清洗处理,得到清洗结果数据;对所述清洗结果数据进行时序特征的特征提取处理,得到对应的时序特征集;对所述时序特征集进行质量评估,得到时序特征集的质量评估结果;
特征集优选单元,用于根据各数据清洗策略分别对应的时序特征集的质量评估结果,选取质量最优的时序特征集作为所述工业时序数据集的目标特征数据集。
可选的,所述策略制定单元,具体用于:
根据所述工业时序数据集中工业时序数据对应的分布情况信息和场景经验信息,为所述工业时序数据集制定多个数据清洗策略;
其中,所述场景经验信息至少包括所述工业时序数据集中工业时序数据间的关联关系。
可选的,所述数据清洗与特征工程单元在对所述清洗结果数据进行时序特征的特征提取处理,得到对应的时序特征集时,具体用于:
基于所述工业时序数据集的工艺流程和/或数据采集方式,对所述清洗结果数据进行分组,得到多组数据子集;
对每组数据子集进行时序特征提取;
整合各组数据子集的时序特征,得到对应的时序特征集。
可选的,所述数据清洗与特征工程单元在对所述时序特征集进行质量评估之前,还用于:
筛选所述时序特征集中符合预定质量要求的时序特征,得到筛选后的时序特征集,以使所述数据清洗与特征工程单元按照预定的特征评估策略,对所述筛选后的时序特征集进行质量评估。
根据以上方案可知,本申请提供的工业时序数据的自动化特征工程方法和装置,通过根据工业时序数据集的至少包括工业时序数据间的关联关系的属性信息制定多个数据清洗策略,并通过遍历多个数据清洗策略且在遍历各数据清洗策略的过程中结合自动特征工程方法来优选工业时序数据集的高质量特征数据集,实现了对数据清洗和特征工程这两个处理过程的充分结合及此基础上对生成特征数据的方法的调优,并可以深入挖掘时序数据特征的关联性,从而有效提升了工业时序数据的特征数据的质量,降低了特征工程的门槛,减少人工调优时间和成本。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请提供的工业时序数据的自动化特征工程方法的一种流程示意图;
图2是本申请提供的工业时序数据的自动化特征工程方法的另一种流程示意图;
图3是本申请提供的本申请方法一应用实例中工业时序数据的自动化特征工程处理系统的系统结构图;
图4是本申请提供的上述系统的工作流程图;
图5是本申请提供的工业时序数据的自动化特征工程装置的结构示意图。
具体实施方式
为了引用或清楚起见,下文中使用的技术名词、简写或缩写总结解释如下:
数据清洗:是对原始数据进行审查、校验和调整的过程,包括检查数据的一致性、处理无效值、缺失值等影响数据质量的问题,是数据挖掘过程中不可缺少的一个环节,通常应用在特征工程技术之前,为后续特征提取提供高质量数据集。
特征工程:是将原始数据转化为能够反映数据本质关系的特征的过程,是数据科学中最具有创造力的一部分。在工业数据的挖掘应用中,通常可以结合领域知识对工业数据进行特征转换,生成新的特征数据,再利用特征评估方法筛选特征数据,最终创建出能够使机器学习算法达到最佳性能的特征数据,这些特征数据能够更好地表征原始工业数据的内在关联性或趋势。为降低大数据处理技术门槛、减少人工调优时间,自动化特征工程方法已成为重要探索趋势。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请公开一种工业时序数据的自动化特征工程方法和装置,适用于对工业时序数据的处理,旨在通过遍历多个数据预处理策略结合自动特征工程方法,为工业时序数据优选出高质量的特征数据集。
参见图1提供的工业时序数据的自动化特征工程方法的流程图,本申请实施例公开的工业时序数据的自动化特征工程方法,至少包括以下处理步骤:
步骤101、获取待处理的工业时序数据集。
可基于传感器实时采集或数据接口导入等任意一种或多种数据采集方式,来获取工业时序数据。
其中,针对传感器实时采集方式,可预先在生产环境中部署多个传感器,如压力/温度/气体浓度传感器等,并在生产过程中利用传感器连续采集每个生产阶段的工况、控制数据以及对应的标签数据,形成采集时间连续均匀的工业时序数据集。
可选的,对于工况或控制数据,传感器的采样频率统一设定为相同数值,尽量保证工况或控制数据所有采集变量的采集时间基本一致,各个采集变量的数据量基本相当;对于标签数据,可通过化验记录、检测结果等方式得到,标签数据需要与传感器采集的时间段进行匹配,并经过简单的数据导出合并,形成连续均匀的工业时序数据集。
工况数据通常是指一系列反映生产装置在生产运行状态下的监测指标,例如在聚合反应釜中,随时间变化的压力、温度、气体浓度等指标;控制数据通常是指在生产过程中可以人为干预和控制的指标,例如在聚合反应釜中,为了控制反应进行,可对装置内的温度进行控制,那么温度也是控制指标之一。工艺流程中能够采集到的、对工艺过程有潜在影响的变量,通常可以归属于工况数据或控制数据。
步骤102、根据工业时序数据集的预定属性信息,为工业时序数据集制定多个数据清洗策略;该预定属性信息至少包括工业时序数据集中工业时序数据间的关联关系。
工业时序数据集的预定属性信息,包括但不限于工业时序数据集中工业时序数据对应的分布情况信息和场景经验信息。可选的,工业时序数据对应的分布情况信息进一步包括每个采集变量的概率分布图、平均值、标准差、最大值、最小值和/或数据缺失比例等信息,工业时序数据对应的场景经验信息至少包括工业时序数据集中工业时序数据间的关联关系,如采集变量之间的时间滞后关系等,除此之外,场景经验信息还可以包括但不限于采集变量的正常取值区间等信息。
本步骤102相应可根据工业时序数据集中工业时序数据对应的分布情况信息和场景经验信息,为工业时序数据集制定多个数据清洗策略。
其中,每个数据清洗策略可以由多种数据预处理算法组成,包含缺失值处理、离群点检测和数据滞后处理等多个算法,以用于处理模型中的缺失值、噪声、调整不同采集属性之间的时间滞后性等。不同的数据清洗策略中算法的配置会有所差别,即,不同策略的差别主要在于数据预处理算法的配置。
具体的,实施中,在得到采集的工业时序数据集的原始数据后,先对每个采集变量的分布情况(如,包括概率分布图、平均值、标准差、最大值、最小值、数据缺失比例等)进行确认,同时结合场景经验(如,某个采集变量的正常取值区间、采集变量之间的时间滞后关系等),可以基本确认数据预处理包含的相关流程。
例如,若数据存在缺失值,则采用缺失值处理方式进行删除或填补,当数据缺失比例高于预设数值如40%时,则删除缺失数据;当数据缺失比例低于该预设数值如40%时,可基于预定的数据插补方式对缺失数据进行填补,其中,可以根据需要,配置多种插补方式,如平均值或多重线性插补等方式;若数据可能存在噪声,则采用离群点检测或数据滤波技术对异常点进行过滤,其中,过滤算法的配置可以有多种;当场景经验指出特定采集变量存在时间滞后性,则对该采集变量的滞后周期进行配置(在不确定滞后周期时,可以存在多种配置),以重新与其他采集变量对齐。
步骤103、针对每一数据清洗策略,执行以下的步骤1031-1033:
步骤1031:利用该数据清洗策略对工业时序数据集进行数据清洗处理,得到清洗结果数据;
步骤1032:对上述清洗结果数据进行时序特征的特征提取处理,得到对应的时序特征集;
步骤1033:对上述时序特征集进行质量评估,得到质量评估结果。
在为工业时序数据集制定多个数据清洗策略的基础上,执行对多个数据清洗策略的遍历,初始时,可从制定的多个数据清洗策略中任选一个数据清洗策略对工业时序数据集进行数据清洗处理,得到清洗结果数据,即清洗后的工业时序数据集。
同时在对数据清洗策略进行遍历的过程中,针对每一数据清洗策略对应的清洗结果数据,结合特征工程方法进行特征工程处理以便于对工业时序数据集进行特征数据的寻优,其中,首先对当前数据清洗策略对应的清洗结果数据进行时序特征的特征提取处理,得到对应的时序特征集,该过程(即步骤1032)可进一步实现为:
11)基于工业时序数据集的工艺流程和/或数据采集方式,对当前数据清洗策略对应的清洗结果数据进行分组,得到多组数据子集;
对于多生产阶段的产线而言,受工艺流程的影响,不同时间阶段的数据仅代表特定阶段的特征,因此本实施例在数据分组的过程中重点考虑不同阶段的持续时间,进行数据分组。
对于没有工艺流程限制的场景而言,可以根据数据采集方式如传感器实时采集、数据接口导入等对当前数据清洗策略对应的清洗结果数据进行分组;其中,对于传感器实时采集方式,具体可基于传感器采集频率进行分组,以使每组的数据量更为均匀,而对于数据接口导入方式,可基于每批次数据量进行分组。通过按上述方式对当前数据清洗策略对应的清洗结果数据进行分组,得到多组数据子集。
12)对每组数据子集进行时序特征提取;
之后,分别对当前数据清洗策略对应的每组数据子集进行时序特征提取。提取的时序特征包括但不限于采集变量的平均值、方差、均方根峰值、分位数、中位数、自相关描述统计、时间反转对称统计等。这些特征是申请人基于大量时序数据处理的实践经验总结出的,不仅能够映射每个采集变量的时间序列数据,还能够描述每个采集变量的附加特征,可用于构建分类、回归任务。
实施中,可将上述一系列时序特征对应的各特征计算方法内置在计算模块当中,以自动对数据子集提取所有需提取的时序特征。其中部分特征计算方法需要限制数据的最小长度,而实际应用过程中,数据子集的长度可能会小于规定的最小长度,那么对于这种情况,会自动返回这些特征为缺失值。
13)整合各组数据子集的时序特征,得到对应的时序特征集。
在得到当前数据清洗策略对应的各组数据子集的时序特征后,将各组数据子集的时序特征进行整合,得到当前数据清洗策略对应的时序特征集,对于该集合中的缺失部分,可采取缺失部分所属列的各个时序特征的平均值作为替代,以填补缺失值,最终生成完备的时序特征集。
在此基础上,进一步对当前数据清洗策略对应的时序特征集进行质量评估,得到质量评估结果,该评估过程(即步骤1033)可实现为:
21)利用预定的多种特征评估方式对时序特征集进行质量评估,得到时序特征集对应的多个质量评估子结果;
多种特征评估方式,可以包括但不限于相关性分析、特征重要性分析、方差阈值分析等特征评估方式。
22)对上述多个质量评估子结果进行加权计算,得到时序特征集对应的质量评估结果。
步骤104、根据各数据清洗策略分别对应的时序特征集的质量评估结果,选取质量最优的时序特征集作为工业时序数据集的目标特征数据集。
最终,根据各数据清洗策略分别对应的时序特征集的质量评估结果,选取质量最优的时序特征集作为工业时序数据集的目标特征数据集进行输出。
根据以上方案可知,本申请提供的工业时序数据的自动化特征工程方法,通过根据工业时序数据集的至少包括工业时序数据间的关联关系的属性信息制定多个数据清洗策略,并通过遍历多个数据清洗策略且在遍历各数据清洗策略的过程中结合自动特征工程方法来优选工业时序数据集的高质量特征数据集,实现了对数据清洗和特征工程这两个处理过程的充分结合及此基础上对生成特征数据的方法的调优,并可以深入挖掘时序数据特征的关联性,从而有效提升了工业时序数据的特征数据的质量,降低了特征工程的门槛,减少人工调优时间和成本。
在一实施例中,参见图2所示,在图1所示流程中步骤1033(对时序特征集进行质量评估)之前,本申请实施例公开的方法还可以包括以下处理:
步骤1032’、筛选当前的数据清洗策略对应的时序特征集中符合预定质量要求的时序特征,得到筛选后的时序特征集。
可选的,可基于单变量假设检验等假设检验方法,对针对当前的数据清洗策略对应生成的时序特征集进行筛选,保留对标签数据有显著影响的相关特征,该保留的对标签数据有显著影响的相关特征即为时序特征集中符合预定质量要求的时序特征。
在基于单变量假设检验等假设检验方法对时序特征集进行筛选时,具体的,可先对每一个特征独立地建立假设检验,依据特征的特点选择单样本检验方法。例如,若特征为二分类变量,则采用二项检验的方法检验二分特征变量的比例与检验比例是否一致;若特征为多分类变量,则采用卡方配合度检验方法,检验单一特征变量的实际观察次数分布与理论次数是否有差别,默认各类变量的比例相同;若特征为连续变量且标签数据为二分类变量,则采用K-S检验方法,检验特征变量在标签数据的二分类分布下是否一致;若特征与标签数据均为连续变量,则采用肯德尔等级检验方法,检验特征变量与标签数据是否存在显著对应关系。当检验结果p值显著小于预定数值如0.05,则说明存在统计学差异,拒绝原假设,认为该特征变量的数据分布呈现差异性,对标签数据的趋势存在解释作用。
之后,将所有的特征假设检验结果整合形成p值向量,利用多重假设检验的方法控制假设检验系列的错误发现率,即控制在多个统计推断中犯错误的概率。例如使用Benjamini-Yekutieli多重检验方法对p值进行调整,评估完成后返回需要保留的特征,最后形成筛选后的特征数据集。
相对应的,进一步参见图2,图1所示流程中的步骤1033可实现为:
步骤1033’、按照预定的特征评估策略,对当前数据清洗策略对应的筛选后的时序特征集进行质量评估。
该评估过程相应包括:
31)利用预定的多种特征评估方式对筛选后的时序特征集进行质量评估,得到筛选后的时序特征集对应的多个质量评估子结果;
32)对上述多个质量评估子结果进行加权计算,得到筛选后的时序特征集对应的质量评估结果。
如上文所述,多种特征评估方式可以包括但不限于相关性分析、特征重要性分析、方差阈值分析等特征评估方式。
针对每一种特征评估方式,在得到当前数据清洗策略对应的筛选后的时序特征集后,可以先计算出当前特征评估结果,同时以当前特征评估结果为基础,根据相关性强弱,筛选出与标签数据相关性最强的若干个特征,通过加权汇总特征评估值得到当前特征数据集的评分,例如,选择相关性分析作为当前特征评估方式,首先计算出每个特征与标签数据的相关系数,同时设定阈值或百分比用于筛选特征,然后基于相关系数从高到低对特征依次排序,最后得到相关性较高的若干个特征,进入到评分公式进行当前特征数据集的评分计算。具体定义如下:
式(1)中,scorej表示第j个特征评估方式对筛选后的时序特征集的评分, wi表示筛选后的时序特征集中每个特征数据的评分权重,且corrValuei表示每个特征数据与标签数据的相关性值,n表示筛选出的时序特征个数,1 ≤i≤n,1≤j≤m,m表示特征评估方式的个数,且i、j分别为整数。
针对所选取的所有特征评估方式,相应可得到当前时序特征集(筛选后的时序特征集)在所有特征评估方式下的评分,在此基础上,通过加权汇总当前时序特征集在不同特征评估方式下的评分,即可得到当前时序特征集的最终评分,定义如下:
本实施例通过在对时序特征集进行质量评估之前,基于单变量假设检验等假设检验方法对生成的时序特征集进行筛选,可保留对标签数据有显著影响的相关特征,进一步提升最终所得的工业时序数据集的特征数据的质量。
以下提供本申请方法的一应用示例。
该示例中,基于本申请方法实现了一种工业时序数据的自动化特征工程处理系统,该系统的系统结构如图3所示,共包括五个模块:数据采集模块、数据清洗模块、数据分组模块、特征工程模块和数据输出模块。
其中,该系统在执行工业时序数据的自动化特征工程处理时,首先通过数据采集模块基于部署的传感器实时采集数据或基于数据接口导入数据实现数据采集,并对采集数据进行合并,得到工业时序化数据集;之后,进入到数据清洗模块,通过系列数据预处理算法的配置处理,得到清洗后的数据集;接着经过数据分组模块,将体量巨大的时序数据划分为不同的组块,然后进入到特征工程模块完成时序特征提取、筛选与评分,最终在数据输出模块输出评分最高的特征数据集。
基于上述各组成部分,该系统的详细工作流程如图4所示,具体包括:
第一步:在生产过程中基于接口导入或利用传感器连续采集每个生产阶段的工况、控制数据以及对应的标签数据,形成采集时间连续均匀的工业时序数据集;
第二步:结合数据的分布、场景经验,制定多个数据清洗策略;
其中,每个策略可以由多种数据预处理算法组成,包含缺失值处理、离群点检测和数据滞后处理等多个算法,可以处理模型中的缺失值、噪声、调整不同采集属性之间的时间滞后性等。
不同的策略中算法的配置会有所差别。
第三步:选择一种数据清洗策略并执行,完成对原始采集的工业时序数据集的清洗,为后续的特征生成提供较高质量的数据来源;
第四步:基于工艺流程、数据采集方式对清洗后的数据进行分组,获得若干个数据子集,为下一步数据特征提取做准备;
第五步:分别对每组数据子集提取时序特征,得到多组时序特征,多组特征整合成为时序特征集;
第六步:基于单变量假设检验等假设检验方法对生成的时序特征集进行特征筛选,保留对标签数据有显著影响的相关特征;
第七步:结合相关性分析、特征重要性分析、方差阈值分析等特征评估方式对筛选后的特征数据集进行评分,如果是第一轮评分则保留分数与特征数据集,否则将本轮评分与上一轮的数据特征评分进行对比,保留最高分与对应的特征数据集;
第八步:判断是否已遍历过所有的数据清洗策略,如果未完成则回到第三步,选择未执行过的数据清洗策略进入下一轮处理;如果已完成则输出最高分对应的特征数据集作为工业时序数据集的优选特征数据集(即目标特征数据集)。
对应于上述的方法,本申请实施例还公开一种工业时序数据的自动化特征工程装置,参见图5,该装置包括:
数据获取单元501,用于获取待处理的工业时序数据集;
策略制定单元502,用于根据所述工业时序数据集的预定属性信息,为所述工业时序数据集制定多个数据清洗策略;所述预定属性信息至少包括所述工业时序数据集中工业时序数据间的关联关系;
数据清洗与特征工程单元503,用于针对每一数据清洗策略:利用所述数据清洗策略对所述工业时序数据集进行数据清洗处理,得到清洗结果数据;对所述清洗结果数据进行时序特征的特征提取处理,得到对应的时序特征集;对所述时序特征集进行质量评估,得到时序特征集的质量评估结果;
特征集优选单元504,用于根据各数据清洗策略分别对应的时序特征集的质量评估结果,选取质量最优的时序特征集作为所述工业时序数据集的目标特征数据集。
在一实施方式中,策略制定单元502,具体用于:
根据所述工业时序数据集中工业时序数据对应的分布情况信息和场景经验信息,为所述工业时序数据集制定多个数据清洗策略;
其中,所述场景经验信息至少包括所述工业时序数据集中工业时序数据间的关联关系。
在一实施方式中,数据清洗与特征工程单元503在对所述清洗结果数据进行时序特征的特征提取处理,得到对应的时序特征集时,具体用于:
基于所述工业时序数据集的工艺流程和/或数据采集方式,对所述清洗结果数据进行分组,得到多组数据子集;
对每组数据子集进行时序特征提取;
整合各组数据子集的时序特征,得到对应的时序特征集。
在一实施方式中,数据清洗与特征工程单元503在对所述时序特征集进行质量评估之前,还用于:
筛选所述时序特征集中符合预定质量要求的时序特征,得到筛选后的时序特征集,以使所述数据清洗与特征工程单元503按照预定的特征评估策略,对所述筛选后的时序特征集进行质量评估。
在一实施方式中,数据清洗与特征工程单元503在按照预定的特征评估策略,对所述筛选后的时序特征集进行质量评估时,具体用于:
利用预定的多种特征评估方式对筛选后的时序特征集进行质量评估,得到筛选后的时序特征集对应的多个质量评估子结果;
对所述多个质量评估子结果进行加权计算,得到所述筛选后的时序特征集对应的质量评估结果。
在一实施方式中,数据清洗与特征工程单元503在利用预定的多种特征评估方式对筛选后的时序特征集进行质量评估时,具体用于:
对于所述多种特征评估方式中的各特征评估方式,分别利用以下的评分计算式,对筛选后的时序特征集进行质量评分:
其中,scorej表示第j个特征评估方式对筛选后的时序特征集的评分,wi表示筛选后的时序特征集中每个特征数据的评分权重,且corrValuei表示每个特征数据与标签数据的相关性值,n表示筛选出的时序特征个数,1≤i ≤n,1≤j≤m,m表示特征评估方式的个数,且i、j分别为整数。
对于本申请实施例公开的工业时序数据的自动化特征工程装置而言,由于其与上文各方法实施例公开的工业时序数据的自动化特征工程方法相对应,所以描述的比较简单,相关相似之处请参见上文相应方法实施例的说明即可,此处不再详述。
综上所述,本申请实施例公开的工业时序数据的自动化特征工程方法及装置,具备以下技术优势:
41)本申请提出了多数据清洗策略与特征工程方法相结合、以自动寻优的机制为工业时序数据优选最佳特征数据集的方案,该可有效适用于体量大、数据质量参差不齐、具有明显时序特征的工业数据,实现为其优选高质量的特征数据集。
42)多个数据清洗策略的遍历计算与评分,可以优选出最佳数据预处理方法,能够有效处理和调整缺陷数据;数据分组可以将体量大的工业时序数据快速切片,形成多个小型数据集;同时提取出大量的时序特征用于自动筛选,可以较好的实现工业时序数据的自动化特征工程;
43)本申请通过将采集到的工业时序数据经数据清洗策略去掉缺失值、噪声大的数据,并执行数据分组后与标签数据对齐,可形成完整的特征数据集;并通过时间滞后性处理,有效消除了采集变量之间存在明显的时间滞后性效应而带来的影响;
44)本申请通过将特征评估分为两个步骤,先根据单变量假设检验等方法对时序特征进行筛选,过滤与标签数据关联性较弱的若干个特征数据,之后再基于多种特征评估方法进行特征评分,即采取筛选与评分相结合的方式,可以快速实现特征数据的压缩,提升了特征评分的效率,并可使得最终得到的评分结果有效性增强,且不需要专业领域知识即可完成,降低了特征工程的门槛;
45)本申请采取多数据清洗策略与特征工程方法相结合、自动寻优的机制,能够优选出最佳数据处理方法,输出最优特征数据集,减少人工调优时间,节省了人力和时间成本,较好的实现了工业时序数据的自动化特征工程。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
为了描述的方便,描述以上系统或装置时以功能分为各种单元或单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/ 或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种工业时序数据的自动化特征工程方法,其特征在于,包括:
获取待处理的工业时序数据集;
根据所述工业时序数据集的预定属性信息,为所述工业时序数据集制定多个数据清洗策略;所述预定属性信息至少包括所述工业时序数据集中工业时序数据间的关联关系;
针对每一数据清洗策略:利用所述数据清洗策略对所述工业时序数据集进行数据清洗处理,得到清洗结果数据;对所述清洗结果数据进行时序特征的特征提取处理,得到对应的时序特征集;对所述时序特征集进行质量评估,得到时序特征集的质量评估结果;
根据各数据清洗策略分别对应的时序特征集的质量评估结果,选取质量最优的时序特征集作为所述工业时序数据集的目标特征数据集。
2.根据权利要求1所述的方法,其特征在于,所述根据所述工业时序数据集的预定属性信息,为所述工业时序数据集制定多个数据清洗策略,包括:
根据所述工业时序数据集中工业时序数据对应的分布情况信息和场景经验信息,为所述工业时序数据集制定多个数据清洗策略;
其中,所述场景经验信息至少包括所述工业时序数据集中工业时序数据间的关联关系。
3.根据权利要求1所述的方法,其特征在于,所述对所述清洗结果数据进行时序特征的特征提取处理,得到对应的时序特征集,包括:
基于所述工业时序数据集的工艺流程和/或数据采集方式,对所述清洗结果数据进行分组,得到多组数据子集;
对每组数据子集进行时序特征提取;
整合各组数据子集的时序特征,得到对应的时序特征集。
4.根据权利要求1所述的方法,其特征在于,在对所述时序特征集进行质量评估之前,还包括:
筛选所述时序特征集中符合预定质量要求的时序特征,得到筛选后的时序特征集;
所述对所述时序特征集进行质量评估,包括:
按照预定的特征评估策略,对所述筛选后的时序特征集进行质量评估。
5.根据权利要求4所述的方法,其特征在于,所述按照预定的特征评估策略,对所述筛选后的时序特征集进行质量评估,包括:
利用预定的多种特征评估方式对筛选后的时序特征集进行质量评估,得到筛选后的时序特征集对应的多个质量评估子结果;
对所述多个质量评估子结果进行加权计算,得到所述筛选后的时序特征集对应的质量评估结果。
7.一种工业时序数据的自动化特征工程装置,其特征在于,包括:
数据获取单元,用于获取待处理的工业时序数据集;
策略制定单元,用于根据所述工业时序数据集的预定属性信息,为所述工业时序数据集制定多个数据清洗策略;所述预定属性信息至少包括所述工业时序数据集中工业时序数据间的关联关系;
数据清洗与特征工程单元,用于针对每一数据清洗策略:利用所述数据清洗策略对所述工业时序数据集进行数据清洗处理,得到清洗结果数据;对所述清洗结果数据进行时序特征的特征提取处理,得到对应的时序特征集;对所述时序特征集进行质量评估,得到时序特征集的质量评估结果;
特征集优选单元,用于根据各数据清洗策略分别对应的时序特征集的质量评估结果,选取质量最优的时序特征集作为所述工业时序数据集的目标特征数据集。
8.根据权利要求7所述的装置,其特征在于,所述策略制定单元,具体用于:
根据所述工业时序数据集中工业时序数据对应的分布情况信息和场景经验信息,为所述工业时序数据集制定多个数据清洗策略;
其中,所述场景经验信息至少包括所述工业时序数据集中工业时序数据间的关联关系。
9.根据权利要求7所述的装置,其特征在于,所述数据清洗与特征工程单元在对所述清洗结果数据进行时序特征的特征提取处理,得到对应的时序特征集时,具体用于:
基于所述工业时序数据集的工艺流程和/或数据采集方式,对所述清洗结果数据进行分组,得到多组数据子集;
对每组数据子集进行时序特征提取;
整合各组数据子集的时序特征,得到对应的时序特征集。
10.根据权利要求7所述的装置,其特征在于,所述数据清洗与特征工程单元在对所述时序特征集进行质量评估之前,还用于:
筛选所述时序特征集中符合预定质量要求的时序特征,得到筛选后的时序特征集,以使所述数据清洗与特征工程单元按照预定的特征评估策略,对所述筛选后的时序特征集进行质量评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111507447.4A CN114416707A (zh) | 2021-12-10 | 2021-12-10 | 工业时序数据的自动化特征工程方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111507447.4A CN114416707A (zh) | 2021-12-10 | 2021-12-10 | 工业时序数据的自动化特征工程方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114416707A true CN114416707A (zh) | 2022-04-29 |
Family
ID=81264908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111507447.4A Pending CN114416707A (zh) | 2021-12-10 | 2021-12-10 | 工业时序数据的自动化特征工程方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114416707A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114708608A (zh) * | 2022-06-06 | 2022-07-05 | 浙商银行股份有限公司 | 一种银行票据全自动化特征工程方法及装置 |
CN114756541A (zh) * | 2022-05-25 | 2022-07-15 | 永修县彧馨科技有限公司 | 用于人工智能训练的大数据特征清洗决策方法及系统 |
CN115374572A (zh) * | 2022-10-21 | 2022-11-22 | 南京安全无忧网络科技有限公司 | 一种工艺平稳度分析系统及方法 |
CN118095029A (zh) * | 2022-11-28 | 2024-05-28 | 中国石油化工股份有限公司 | 一种基于时序特征的决策树钻井工况识别方法及装置 |
-
2021
- 2021-12-10 CN CN202111507447.4A patent/CN114416707A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114756541A (zh) * | 2022-05-25 | 2022-07-15 | 永修县彧馨科技有限公司 | 用于人工智能训练的大数据特征清洗决策方法及系统 |
CN114708608A (zh) * | 2022-06-06 | 2022-07-05 | 浙商银行股份有限公司 | 一种银行票据全自动化特征工程方法及装置 |
CN114708608B (zh) * | 2022-06-06 | 2022-09-16 | 浙商银行股份有限公司 | 一种银行票据全自动化特征工程方法及装置 |
CN115374572A (zh) * | 2022-10-21 | 2022-11-22 | 南京安全无忧网络科技有限公司 | 一种工艺平稳度分析系统及方法 |
CN118095029A (zh) * | 2022-11-28 | 2024-05-28 | 中国石油化工股份有限公司 | 一种基于时序特征的决策树钻井工况识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114416707A (zh) | 工业时序数据的自动化特征工程方法和装置 | |
CN109000930B (zh) | 一种基于堆叠去噪自编码器的涡轮发动机性能退化评估方法 | |
CN111340063B (zh) | 一种磨煤机数据异常检测方法 | |
CN109858714B (zh) | 基于改进神经网络的烟丝质检指标预测方法、装置及系统 | |
CN111340248A (zh) | 一种基于智能集成算法的变压器故障诊断方法及系统 | |
CN110568483A (zh) | 基于卷积神经网络的地震线性噪声压制效果自动评估方法 | |
CN112668105B (zh) | 一种基于sae与马氏距离的直升机传动轴异常判定方法 | |
CN116227745B (zh) | 一种基于大数据的涉渔船舶调查分析方法及系统 | |
CN114637263B (zh) | 一种异常工况实时监测方法、装置、设备及存储介质 | |
CN112529053A (zh) | 一种服务器中时序数据短期预测方法及系统 | |
CN112817954A (zh) | 一种基于多种方法集成学习的缺失值插补方法 | |
CN114429238A (zh) | 一种基于时空特征提取的风电机组故障预警方法 | |
CN117556369A (zh) | 一种动态生成的残差图卷积神经网络的窃电检测方法及系统 | |
CN117541095A (zh) | 一种农用地土壤环境质量类别划分的方法 | |
CN114563671A (zh) | 一种基于CNN-LSTM-Attention神经网络的高压电缆局部放电诊断方法 | |
CN113726558A (zh) | 基于随机森林算法的网络设备流量预测系统 | |
CN116881640A (zh) | 岩心采出程度的预测方法、系统及计算机可读存储介质 | |
CN116502155A (zh) | 一种用于数控电动螺旋压力机的安全监管系统 | |
CN116883128A (zh) | 洗钱团伙的挖掘方法、装置、电子设备及计算机存储介质 | |
CN115345192A (zh) | 一种变工况和复杂噪音环境下滚动轴承的故障诊断方法 | |
CN115392710A (zh) | 一种基于数据过滤的风电机组运行决策方法及系统 | |
CN111461461B (zh) | 一种水利工程异常检测方法及系统 | |
CN112183642A (zh) | 一种基于随机森林模型的水泥烧成煤耗检测方法与系统 | |
Grotkiewicz et al. | Verification of economic and agricultural indicators with the use of statistical methods on the example of individual farms | |
CN116636815B (zh) | 基于脑电信号的水下作业人员睡眠质量评估方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |