CN116821646A - 数据处理链构建方法、数据缩减方法、装置、设备及介质 - Google Patents

数据处理链构建方法、数据缩减方法、装置、设备及介质 Download PDF

Info

Publication number
CN116821646A
CN116821646A CN202310865728.XA CN202310865728A CN116821646A CN 116821646 A CN116821646 A CN 116821646A CN 202310865728 A CN202310865728 A CN 202310865728A CN 116821646 A CN116821646 A CN 116821646A
Authority
CN
China
Prior art keywords
data
features
feature
module
processing chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310865728.XA
Other languages
English (en)
Inventor
毕可骏
李强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Cric Technology Co ltd
Original Assignee
Sichuan Cric Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Cric Technology Co ltd filed Critical Sichuan Cric Technology Co ltd
Priority to CN202310865728.XA priority Critical patent/CN116821646A/zh
Publication of CN116821646A publication Critical patent/CN116821646A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明公开了一种数据处理链构建方法、数据缩减方法、装置、设备及介质,数据处理链构建方法包括使数据集或数据流依次进行异常值修正、缺失值填充、数据缩放到设定的范围内、将类别型数据转化为数值型数据、保留目标变量影响超过设定阈值的特征、重构已有特征、提取时间型特征和文本型特征、对高维特征降维操作,从而减少特征维度和模型复杂度。本发明与现有技术相比,一方面可以解决工业互联网原始数据的数据冗余、数据混乱、数据不准确、数据存储成本高、数据分析效率低等问题,另一方面可以提升工业互联网平台的执行效率,提升决策的正确性。

Description

数据处理链构建方法、数据缩减方法、装置、设备及介质
技术领域
本发明涉及工业互联网技术领域,尤其涉及一种数据处理链构建方法、数据缩减方法、装置、设备及介质。
背景技术
工业互联网(IndustrialInternet)是指将物理设备、系统、网络和软件相互连接,实现数据采集、分析、处理和应用的一种新型工业技术。它通过物联网(InternetofThings,IoT)、大数据、云计算、人工智能等先进技术,将传统的工业生产与数字化技术相结合,为企业提供更高效、智能、可持续的生产方式。工业互联网的应用领域广泛,包括制造业、能源、交通、医疗等多个行业。在制造业中,工业互联网可以帮助企业实现智能制造、供应链管理、质量管理等方面的优化;在能源领域,它可以提高能源利用效率、降低碳排放;在交通领域,它可以实现智能交通管理、自动驾驶等创新应用;在医疗领域,它可以改善医疗服务质量、提高患者体验等。
工业互联网数据具有以下几个特征:高频率,工业互联网数据产生的速度非常快,通常以毫秒甚至微秒为单位;多样性,工业互联网数据来源广泛,包括传感器、设备、机器等,这些设备产生的数据类型各异,例如温度、压力、速度、位置等;大容量,工业互联网数据量通常很大,它涉及大量的设备和系统,这些数据包括传感器读数、设备状态、生产过程参数等;复杂性,工业互联网数据的复杂性很高,它包含许多不同的变量和因素;实时性,工业互联网数据通常是实时生成的,需要及时处理和分析;可追溯性,工业互联网数据具有可追溯性,它记录了设备的运行历史和生产过程的数据,有助于质量管理和故障排除。
在工业互联网的应用场景中,无论是实施数字孪生技术,通过收集和分析传感器数据、设备状态等信息来生成一个虚拟的数字模型;又或者是建设赛博物理系统(Cyber-PhysicalSystems,CPS),通过人机交互接口实现和物理进程的交互,使赛博空间以远程、可靠、实时、安全、协作和智能化的方式操控相应的物理实体,等等,这些应用场景都离不开数据采集、数据存储、数据清洗和预处理等工作。数据缩减可以视为数据清洗和预处理的一部分,在数据清洗和预处理过程中,通常会对数据进行筛选、过滤、去重等操作,以减少数据集的大小和复杂性,提高数据的质量和可用性。数据缩减可以帮助我们去除不必要的数据,减少数据集的大小,提高数据处理和分析的效率。
在实施数据缩减的过程中,要注意几点:保留关键数据,在数据缩减时需要确保保留了对分析和模型构建有重要影响的关键数据;基于目标进行筛选,根据具体的分析目标和需求,选择合适的数据缩减方法和策略;保持数据的代表性,在数据缩减时需要确保所保留的数据样本具有代表性,能够准确地反映整个数据集的特征和分布;考虑数据关联性,在数据缩减时需要考虑数据之间的关联性和相关性,避免因为缩减导致关键信息的丢失;保持数据完整性,在数据缩减时需要确保数据的完整性和一致性,避免因为缩减导致数据的丢失或者不一致。
对于数据缩减,常用的方法包括:筛选(Filtering)、抽样(Sampling)、聚合(Aggregation)、特征选择(FeatureSelection)、维度约简(Dimensionality Reduction)等。而对于工业互联网数据来说,从前面的特征描述可以看出,高频率、来源广、大容量、复杂性、实时性、可追溯性是其主要特征,而且工业互联网平台还经常会面临数据的质量不高,这些使得数据清洗和预处理工作变得更为棘手。上述这些特性使得工业互联网平台在实施数据缩减时面临重重困难,以至于在实际实施时,会想办法降低难度,比如只做部分筛选处理,设定少量的规则进行筛选;又或者减少抽样,尽量保留和使用原始数据等。这样操作的后果可能会导致以下问题:
1)数据冗余:数据存储中可能会包含较多的重复信息和不必要的细节,导致数据存在冗余。
2)数据混乱:数据存储中的数据可能会变得较为庞大和复杂,增加了管理和处理的难度,还可能导致数据混乱和错误。
3)数据不准确:数据存储中的数据可能会包含错误的信息或缺失的信息,又会进一步影响后续的数据分析和决策的准确性。
4)数据存储成本高:数据存储中的数据可能会占用更多的存储空间,凭空增加了数据的存储成本。
5)数据分析效率低:由于数据存储中的数据可能会变得非常庞大和复杂,还会导致数据分析的效率降低。
最终的后果就是影响工业互联网平台的执行效率、决策的正确性,导致工业互联网平台不再那么“有用、好用”。
发明内容
本发明提供了一种数据处理链构建方法、数据缩减方法、装置、设备及介质,目的是为了解决和改善上述提及的数据冗余、数据混乱、数据不准确、数据存储成本高、数据分析效率低等问题,使得这些问题的影响降至可接受的水平,如果本方案能够得到有效实施的话,甚至可以把问题的影响降至微乎其微、可以忽略的程度。
本发明采用的技术方案是:第一方面,本发明提供一种数据处理链构建方法,包括:
步骤1:用异常值过滤模块对数据集或数据流中偏离正常范围的异常值进行修正;
步骤2:用缺失值过滤模块对步骤1输出的数据集或数据流中存在的缺失值进行填充;
步骤3:用数据归一化过滤模块对步骤2输出的数据集或数据中数据缩放到设定的范围内,以消除奇异样本数据导致的不良影响;
步骤4:用数据标准化过滤模块对步骤3输出的数据集或数据流中存在的类别型数据,将其转化为数值型数据;
步骤5:用特征选择模块对步骤4输出的数据集或数据流中存在的对目标变量影响超过设定阈值的特征进行保留,并去除无关特征;
步骤6:用特征构建模块对步骤5输出的数据集或数据流中已有特征进行重构操作,以构建新的特征;
步骤7:用时间和文本特征模块对步骤6输出的数据集或数据流中存在的时间型特征进行提取,以捕捉时间的周期性和趋势性;并提取文本型特征中的关键词和特征向量;
步骤8:用特征降维模块对步骤7输出的数据集或数据流中存在的高维特征进行降维,选择数据集或数据流中最相关或最重要的特征子集,同时保留数据的最重要信息,以减少特征维度和模型复杂度。
进一步的,所述步骤1具体包括:
异常值过滤模块对数据集或数据流中存在偏离正常范围的异常值,根据数据归属业务的具体情况,采用以下五种方式之一进行修正:
(1)删除异常值:将包含异常值的该条记录从数据集或数据流中删除;
(2)替换异常值:将异常值替换为其他合理的值,替换的方法可以是使用平均值、中位数和/或众数统计量来代替异常值,或者使用插值法来估计异常值;
(3)纠偏异常值:通过人工干预或领域知识来将异常值纠偏;
(4)离群值检测和处理:使用离群值检测算法来识别和处理异常值,将离群值替换为合理的值;
(5)对异常值专门建立检测模型:使用异常检测模型来识别和处理异常值。
进一步的,所述步骤3具体包括:
数据归一化过滤模块根据具体的机器学习模型将数据缩放到一个设定的范围内,消除奇异样本数据导致的不良影响;
根据数据归属业务的具体情况,分别采用以下四种方式进行过滤处理:
(1)最大最小归一化:将数据按照最大值和最小值进行线性变换,使得数据值落在[0,1]区间内;公式为:
X_scaled=(X-X_min)/(X_max-X_min),其中X_scaled表示经过最大最小归一化处理后的数据;
(2)Z-score标准化:将数据按照均值和标准差进行线性变换,使得数据的均值为0,标准差为1;公式为:
X_scaled=(X-X_mean)/X_std,其中X_mean表示数据集或数据块的平均值;X_std表示数据集或数据块的标准差;
(3)小数定标标准化:通过移动数据的小数点位置来实现归一化;将数据除以一个适当的基数,使得所有数据的绝对值都小于1;公式为:
X_scaled=X/10^d,其中d为使得X_scaled的绝对值小于1的最小整数;
(4)归一化到单位长度:将数据向量除以其欧氏长度,使得数据的欧氏长度为1;公式为:
X_scaled=X/||X||,其中||X||为数据向量的欧氏长度。
进一步的,所述步骤4具体包括:
数据标准化过滤模块对于数据集或数据流中存在的类别型数据,采用独热编码或者标签编码的方式,将其转化为数值型数据;
所述的独热编码或者标签编码方式是根据数据归属业务中分类变量的取值之间是否存在顺序关系的情况来决定的,如果存在顺序关系,采用标签编码方式;如果不存在顺序关系,则采用独热编码方式。
进一步的,所述步骤8具体包括:
特征降维模块通过选择数据集或数据流中最相关或最重要的特征子集,以减少特征的数量和维度,同时保留数据的最重要信息;其实现方法是对于数据集或数据流中存在的高维特征,使用包括方差分析、主成分分析、相关性分析和/或线性判别分析的降维方法,以减少特征维度和模型复杂度;
所述方差分析是指计算特征的方差,选择方差大于设定阈值的特征;
所述主成分分析是指将原始特征通过线性变换转换为新的特征,求得新的特征的方差,保留方差大于设定阈值的新的特征以减少特征维度,同时保留了原始数据中最重要的信息;
所述相关性分析是指计算特征之间的相关系数,包括皮尔逊相关系数、斯皮尔曼相关系数,选择与其他特征相关性低于设定阈值的特征,以减少冗余信息;
所述线性判别分析是指通过线性变换将原始特征投影到低维空间,使得不同类别之间的距离最大化,同类别之间的距离最小化,选择投影后的特征作为新的特征以减少特征维度。
第二方面,本发明还提供一种数据缩减方法,包括:
S101:用数据转换器将工业互联网数据统一成一种格式;
S102:针对统一格式的工业互联网数据实施特征工程处理,通过第一方面所述的数据处理链构建方法构建数据处理链,并用数据处理链完成数据处理工作;
S103:将S102处理好的中间数据进行划分,划分为训练集和测试集;
S104:根据工业互联网平台具体的需求和数据特点选择合适的机器学习算法;
S105:使用训练集对选定的机器学习算法进行训练,并使用测试集评估模型的性能和准确度;
S106:用训练好的机器学习模型进行数据的缩减。
第三方面,本发明还提供一种数据处理链构建装置,包括:
异常值过滤模块,用于对数据集或数据流中偏离正常范围的异常值进行修正;
缺失值过滤模块,用于对异常值过滤模块输出的数据集或数据流中存在的缺失值进行填充;
数据归一化过滤模块,用于对缺失值过滤模块输出的数据集或数据中数据缩放到设定的范围内,以消除奇异样本数据导致的不良影响;
数据标准化过滤模块,用于对数据归一化过滤模块输出的数据集或数据流中存在的类别型数据,将其转化为数值型数据;
特征选择模块,用于对数据标准化过滤模块输出的数据集或数据流中存在的对目标变量影响超过设定阈值的特征进行保留,并去除无关特征;
特征构建模块,用于对特征选择模块输出的数据集或数据流中已有特征进行重构操作,以构建新的特征;
时间和文本特征模块,用于对特征构建模块输出的数据集或数据流中存在的时间型特征进行提取,以捕捉时间的周期性和趋势性;并提取文本型特征中的关键词和特征向量;
特征降维模块,用于对时间和文本特征模块输出的数据集或数据流中存在的高维特征进行降维,选择数据集或数据流中最相关或最重要的特征子集,同时保留数据的最重要信息,以减少特征维度和模型复杂度。
第四方面,本发明还提供一种数据缩减装置,包括:
数据统一格式模块,用于通过数据转换器将工业互联网数据统一成一种格式;
数据处理链构建模块,用于针对统一格式的工业互联网数据实施特征工程处理,通过第三方面所述的数据处理链构建装置构建数据处理链,并用数据处理链完成数据处理工作;
模型训练模块,用于将数据处理链构建模块处理好的中间数据进行划分,划分为训练集和测试集;根据工业互联网平台具体的需求和数据特点选择合适的机器学习算法;使用训练集对选定的机器学习算法进行训练,并使用测试集评估模型的性能和准确度;
模型部署模块,用于根据训练好的机器学习模型进行数据的缩减。
第五方面,本发明还提供一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的数据处理链构建方法,或者实现如第二方面所述的数据缩减方法。
第六方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如第一方面所述的数据处理链构建方法,或者实现如第二方面所述的数据缩减方法。
本发明的有益效果是:本发明与现有技术相比,一方面可以解决工业互联网原始数据的数据冗余、数据混乱、数据不准确、数据存储成本高、数据分析效率低等问题,另一方面可以提升工业互联网平台的执行效率,提升决策的正确性。
附图说明
图1为本发明实施例1公开的数据处理链构建方法的流程示意图;
图2为本发明实施例2公开的数据缩减方法的流程示意图;
图3为本发明实施例3公开的数据处理链构建装置的结构框图;
图4为本发明实施例4公开的数据缩减方法的结构框图;
图5为本发明实施例5公开的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
实施例1:
参见图1,本实施例公开一种数据处理链构建方法,包括:
步骤1:用异常值过滤模块对数据集或数据流中偏离正常范围的异常值进行修正。
所述的异常值是指数据集或数据流中存在的不合理的值,也即偏离正常范围的值。
数据集或数据流中如果存在异常值,根据数据归属业务的具体情况,采用以下五种方式之一进行修正:
(1)删除异常值:将包含异常值的该条记录从数据集或数据流中删除。
(2)替换异常值:将异常值替换为其他合理的值,替换的方法可以是使用平均值、中位数、众数等统计量来代替异常值,或者使用插值法来估计异常值。
(3)纠偏异常值:通过人工干预或领域知识来将异常值纠偏,比如平均值加减3倍标准差处理等。
(4)离群值检测和处理:使用离群值检测算法(如Z-score、箱线图、DBSCAN等)来识别和处理异常值,将离群值替换为合理的值。
(5)对异常值专门建立检测模型:使用异常检测模型来识别和处理异常值,建立异常检测模型可以采用基于统计学方法,通过数据的分布规律来判断异常值,然后对其进行修正。
步骤2:用缺失值过滤模块对步骤1输出的数据集或数据流中存在的缺失值进行填充。
所述的缺失值是值数据集或数据流中存在某些特征数据丢失的现象,它可能是因为机器设备的短暂故障或网络抖动或外部因素影响造成的。
数据集或数据流中如果存在缺失值,根据数据归属业务的具体情况,可以考虑删除或者用其他方式填充缺失值,填充的方式包括均值、中位数、众数等方式。
步骤3:用数据归一化过滤模块对步骤2输出的数据集或数据中数据缩放到设定的范围内,以消除奇异样本数据导致的不良影响。
数据归一化过滤模块根据具体的机器学习模型将数据缩放到一个设定的范围内,消除奇异样本数据导致的不良影响,以便于后续机器学习模型的训练和预测。
根据数据归属业务的具体情况,分别采用以下四种方式进行过滤处理:
(1)最大最小归一化:将数据按照最大值和最小值进行线性变换,使得数据值落在[0,1]区间内;公式为:
X_scaled=(X-X_min)/(X_max-X_min),其中X_scaled表示经过最大最小归一化处理后的数据,其值在[0,1]区间内。
(2)Z-score标准化:将数据按照均值和标准差进行线性变换,使得数据的均值为0,标准差为1;公式为:
X_scaled=(X-X_mean)/X_std,其中X_mean表示数据集或数据块的平均值,用来描述数据集中数据的中心趋势的指标,它反映了数据集中所有数据的平均水平。X_std表示数据集或数据块的标准差,标准差是用来衡量数据集中数据的离散程度的统计量,它表示一组数据中每个数据点与这组数据的平均值之间的差异程度,即数据点离平均值的距离的平方和的平均数的平方根。
(3)小数定标标准化:通过移动数据的小数点位置来实现归一化;将数据除以一个适当的基数,使得所有数据的绝对值都小于1;公式为:
X_scaled=X/10^d,其中d为使得X_scaled的绝对值小于1的最小整数。
(4)归一化到单位长度:将数据向量除以其欧氏长度,使得数据的欧氏长度为1;公式为:
X_scaled=X/||X||,其中||X||为数据向量的欧氏长度。
步骤4:用数据标准化过滤模块对步骤3输出的数据集或数据流中存在的类别型数据,将其转化为数值型数据。
所述的数据标准化过滤模块是指对于数据集或数据流中存在的类别型数据,采用独热编码(One-HotEncoding)或者标签编码(LabelEncoding)的方式,将其转化为数值型数据,以便于后续机器学习模型的训练和预测。
所述的独热编码或者标签编码方式是根据数据归属业务中分类变量的取值之间是否存在顺序关系的情况来决定的。如果存在顺序关系,采用标签编码方式;如果不存在顺序关系,则采用独热编码方式。
步骤5:用特征选择模块对步骤4输出的数据集或数据流中存在的对目标变量影响超过设定阈值的特征进行保留,并去除无关特征。
所述的特征是用于描述数据集或数据流的属性或特性。特征可以是数值型的,如温度、压力、速度等,也可以是类别型的,如温度传感器、微距传感器等。特征可以用来表示数据的不同维度和特性,对于机器学习模型来说,特征是输入数据的一部分,用于训练模型并进行预测。
所述的特征选择模块是指通过统计方法、相关性分析等方式,选择对于数据集或数据流中存在的对目标变量有较大影响的特征进行保留,去除无关特征,以减少模型复杂度和提高模型性能。
所述的统计方法是指使用统计指标如方差、卡方检验、互信息等来评估特征与目标变量之间的相关性。通过设定一个阈值,选择与目标变量相关性较高的特征。
所述的相关性分析是指计算特征之间的相关系数,如皮尔逊相关系数、斯皮尔曼相关系数等。通过设定一个阈值,选择与其他特征相关性较低的特征。
步骤6:用特征构建模块对步骤5输出的数据集或数据流中已有特征进行重构操作,以构建新的特征。
所述的特征构建模块是指通过对已有特征进行组合、衍生、交叉等重构操作,构建新的特征,以提取更多的信息,如特征相乘、特征差值、特征平方等。
所述的组合操作是指将多个相关的特征进行组合,以创建新的特征。
所述的衍生操作是指根据已有特征进行数学运算或逻辑运算,以创建新的特征。
所述的交叉操作是指将不同特征之间进行交叉,以创建新的特征。
步骤7:用时间和文本特征模块对步骤6输出的数据集或数据流中存在的时间型特征进行提取,以捕捉时间的周期性和趋势性;并提取文本型特征中的关键词和特征向量。
所述的时间和文本特征模块是指对于数据集或数据流中存在的时间型特征,可以提取出年、月、日、小时等维度的特征,以捕捉时间的周期性和趋势性;而对于文本型特征,可以进行分词、去停用词、词频统计、TF-IDF等操作,以提取关键词和特征向量。
步骤8:用特征降维模块对步骤7输出的数据集或数据流中存在的高维特征进行降维,选择数据集或数据流中最相关或最重要的特征子集,同时保留数据的最重要信息,以减少特征维度和模型复杂度。
所述的特征降维模块是指通过选择数据集或数据流中最相关或最重要的特征子集,以减少特征的数量和维度,同时保留数据的最重要信息。其实现方法是对于数据集或数据流中存在的高维特征,可以使用方差分析、主成分分析(PrincipalComponentsAnalysis,PCA)、相关性分析、线性判别分析(LinearDiscriminant Analysis,LDA)等降维方法,以减少特征维度和模型复杂度。
所述的方差分析是指计算特征的方差,选择方差较大的特征,而方差较大的特征通常包含更多的信息。
所述的主成分分析是指将原始特征通过线性变换转换为新的特征,求得新特征的方差,保留方差大于设定阈值的新特征以减少特征维度,同时保留了原始数据中最重要的信息。
所述的相关性分析是指计算特征之间的相关系数,如皮尔逊相关系数、斯皮尔曼相关系数等,选择与其他特征相关性较低的特征可以减少冗余信息。
所述的线性判别分析是指通过线性变换将原始特征投影到低维空间,使得不同类别之间的距离最大化,同类别之间的距离最小化,选择投影后的特征作为新的特征可以减少特征维度。
通过本实施例的数据处理链构建方法,能提取工业互联网数据中更有用的特征,以提高模型性能和预测能力,方便后续的机器学习算法的训练和预测。
实施例2:
参见图2,本实施例公开一种数据缩减方法,包括:
S101:用数据转换器将工业互联网数据统一成一种格式。
所述的数据转换器是一个使用流行编程语言实现的软件包,它可以完成将多种数据从一种格式或结构转换为另一种格式或结构的任务。比如工业互联网领域常用的结构化数据有XML、JSON、CSV、XLS、XLSX、DOCX等,将结构化数据通过数据转换器统一成一种数据格式,有利于后续的数据处理工作。本实施例用伪码描述如下:
//将XML格式统一转换为CSV格式
//1)导入XML处理库
importxml.etree.ElementTreeasET
importcsv
//2)解析XML文件
tree=ET.parse('example.xml')
root=tree.getroot()
……
//3)创建CSV文件
//4)用广度优先搜索算法遍历XML文件的各元素节点,在遍历过程中将相关数据写入CSV文件
fornodeinroot.findall('person'):
name=person.find('name').text
……
S102:针对统一格式的工业互联网数据实施特征工程处理,构建专门的数据处理链,并用数据处理链完成数据处理工作。
所述的工业互联网数据实施特征工程处理,是指根据工业互联网数据的具体情况,对数据进行转换、处理和增强,以提取出更有用的特征,从而改善机器学习模型的性能和准确性。
所述的数据处理链同样是一个使用流行编程语言实现的软件包,可以以链式处理的方式完成将统一格式的数据集或数据流的数据进行转换、处理和增强,输出修正后的数据集或数据流。
所述的数据处理链的实现步骤如实施例1的步骤1-步骤8,本实施例不再赘述。
S103:将S102处理好的中间数据进行划分,划分为训练集和测试集。
在可以根据具体的数据集和任务选择适合的划分方式,由于工业互联网数据主要有时间序列数据和非时间序列数据两大类,故分类方式也主要有下面两种:
(1)时间序列划分的方式:对于时间序列数据,可以按照时间顺序将数据集划分为训练集和测试集。通常将较早的数据作为训练集,较近的数据作为测试集,以模拟真实世界中模型对未来数据的预测能力。
(2)简单随机划分的方式:将数据集随机分成训练集和测试集,通常按照一定的比例进行划分,例如70%的数据用于训练,30%的数据用于测试。
S104:选择合适的机器学习算法。
所述的选择合适的机器学习算法,本实施例中可以根据工业互联网平台具体的需求和数据特点选择合适的机器学习算法,如决策树、逻辑回归、支持向量机、朴素贝叶斯、随机森林等。
所述的选择方法有几个维度:
(1)根据工业互联网平台实际的数据规模进行选择。如果数据规模一般,可以考虑决策树、朴素贝叶斯等算法;如果数据规模比较大,可以考虑神经网络、支持向量机等算法。
(2)根据模型的性能和可解释性进行选择。性能包括准确率、召回率、F1值等指标,而可解释性则是指模型对结果的解释能力。
S105:模型训练、评估和调优。
使用训练集对选定的机器学习算法进行训练,并使用测试集评估模型的性能和准确度。
模型训练:将准备好的训练数据集输入到选择的分类模型中进行训练。机器学习模型会根据训练集数据中的信息和规律来学习到分类规则或模式。
模型评估:使用测试数据集来评估训练好的模型的性能。常见的评估指标包括准确率、精确率、召回率、F1值等。
模型调优:根据评估结果,可以对模型进行优化,如调整模型参数、尝试不同的特征选择方法、增加数据量等。
S106:模型部署。
所述的模型部署是将训练好的机器学习模型应用于实际场景的过程。先将训练和调优完成的模型导出为可用的格式;然后根据实际部署环境的要求,将模型封装为可调用的接口或服务;再确定模型需要的输入数据格式和接口,确保能够正确地将待预测数据传递给模型;最后准备好部署环境,将封装好的模型部署到目标环境中。本实施例用伪码描述如下:
//模型的封装
//1)导入所需的库
fromflaskimportFlask,request
importjoblib
//2)创建应用服务器实例
app=Flask(__name__)
//3)加载预先训练好的机器学习模型
model=joblib.load('model.pkl')
//4)定义路由,用于处理POST请求
@app.route('/process',methods=['POST'])
defprocess():
data=request.json
//5)对数据进行缩减处理
new_data=model.reduction(data)
//6)将缩减处理后数据返回
return{new_data}
步骤107:模型使用。
所述的模型使用是指根据上一步骤的模型部署完成,在数据集/数据流上通过调用模型来处理数据,完成数据的缩减。缩减后的数据可直接存储到存储设备,比如存储服务器。
本实施例提供的数据缩减方法与现有技术相比,一方面可以解决工业互联网原始数据的数据冗余、数据混乱、数据不准确、数据存储成本高、数据分析效率低等问题,另一方面可以提升工业互联网平台的执行效率,提升决策的正确性。
实施例3:
参见图3,本实施例公开一种数据处理链构建装置,包括:
异常值过滤模块10,用于对数据集或数据流中偏离正常范围的异常值进行修正;
缺失值过滤模块11,用于对异常值过滤模块10输出的数据集或数据流中存在的缺失值进行填充;
数据归一化过滤模块12,用于对缺失值过滤模块11输出的数据集或数据中数据缩放到设定的范围内,以消除奇异样本数据导致的不良影响;
数据标准化过滤模块13,用于对数据归一化过滤模块12输出的数据集或数据流中存在的类别型数据,将其转化为数值型数据;
特征选择模块14,用于对数据标准化过滤模块13输出的数据集或数据流中存在的对目标变量影响超过设定阈值的特征进行保留,并去除无关特征;
特征构建模块15,用于对特征选择模块14输出的数据集或数据流中已有特征进行重构操作,以构建新的特征;
时间和文本特征模块16,用于对特征构建模块15输出的数据集或数据流中存在的时间型特征进行提取,以捕捉时间的周期性和趋势性;并提取文本型特征中的关键词和特征向量;
特征降维模块17,用于对时间和文本特征模块16输出的数据集或数据流中存在的高维特征进行降维,选择数据集或数据流中最相关或最重要的特征子集,同时保留数据的最重要信息,以减少特征维度和模型复杂度。
上述数据处理链构建装置可执行本发明实施例1所提供的数据处理链构建方法,具备执行数据处理链构建方法相应的功能模块和有益效果。
实施例4:
参见图4,本实施例公开一种数据缩减装置,包括:
数据统一格式模块20,用于通过数据转换器将工业互联网数据统一成一种格式;
数据处理链构建模块21,用于针对统一格式的工业互联网数据实施特征工程处理,通过实施例3所述的数据处理链构建装置构建数据处理链,并用数据处理链完成数据处理工作;
模型训练模块22,用于将数据处理链构建模块处理好的中间数据进行划分,划分为训练集和测试集;根据工业互联网平台具体的需求和数据特点选择合适的机器学习算法;使用训练集对选定的机器学习算法进行训练,并使用测试集评估模型的性能和准确度;
模型部署模块23,用于根据训练好的机器学习模型进行数据的缩减。
上述数据缩减装置可执行本发明实施例2所提供的数据缩减方法,具备执行数据缩减方法相应的功能模块和有益效果。
实施例5:
图5为本发明实施例六提供的一种电子设备的结构示意图。图5示出了适于用来实现本发明实施例实施方式的示例性电子设备50的框图。图5显示的电子设备50仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备50以通用计算设备的形式表现。电子设备50的组件可以包括但不限于:一个或者多个处理器或者处理单元501,系统存储器502,连接不同系统组件(包括系统存储器502和处理单元501)的总线503。
总线503表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备50典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备50访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器502可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)504和/或高速缓存存储器505。电子设备50可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统506可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线503相连。存储器502可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块507的程序/实用工具508,可以存储在例如存储器502中,这样的程序模块507包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块507通常执行本发明所描述的实施例中的功能和/或方法。
电子设备50也可以与一个或多个外部设备509(例如键盘、指向设备、显示器510等)通信,还可与一个或者多个使得用户能与该电子设备50交互的设备通信,和/或与使得该电子设备50能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口511进行。并且,电子设备50还可以通过网络适配器512与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器512通过总线503与电子设备50的其它模块通信。应当明白,尽管图5中未示出,可以结合电子设备50使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元501通过运行存储在系统存储器502中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例1所提供的一种数据处理链构建方法,或者实现如实施例2所述的数据缩减方法。
实施例6:
本实施例提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行时实现如实施例1所述的数据处理链构建方法,或者实现如实施例2所述的数据缩减方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种数据处理链构建方法,其特征在于,包括:
步骤1:用异常值过滤模块对数据集或数据流中偏离正常范围的异常值进行修正;
步骤2:用缺失值过滤模块对步骤1输出的数据集或数据流中存在的缺失值进行填充;
步骤3:用数据归一化过滤模块对步骤2输出的数据集或数据中数据缩放到设定的范围内,以消除奇异样本数据导致的不良影响;
步骤4:用数据标准化过滤模块对步骤3输出的数据集或数据流中存在的类别型数据,将其转化为数值型数据;
步骤5:用特征选择模块对步骤4输出的数据集或数据流中存在的对目标变量影响超过设定阈值的特征进行保留,并去除无关特征;
步骤6:用特征构建模块对步骤5输出的数据集或数据流中已有特征进行重构操作,以构建新的特征;
步骤7:用时间和文本特征模块对步骤6输出的数据集或数据流中存在的时间型特征进行提取,以捕捉时间的周期性和趋势性;并提取文本型特征中的关键词和特征向量;
步骤8:用特征降维模块对步骤7输出的数据集或数据流中存在的高维特征进行降维,选择数据集或数据流中最相关或最重要的特征子集,同时保留数据的最重要信息,以减少特征维度和模型复杂度。
2.根据权利要求1所述的数据处理链构建方法,其特征在于,所述步骤1具体包括:
异常值过滤模块对数据集或数据流中存在偏离正常范围的异常值,根据数据归属业务的具体情况,采用以下五种方式之一进行修正:
(1)删除异常值:将包含异常值的该条记录从数据集或数据流中删除;
(2)替换异常值:将异常值替换为其他合理的值,替换的方法可以是使用平均值、中位数和/或众数统计量来代替异常值,或者使用插值法来估计异常值;
(3)纠偏异常值:通过人工干预或领域知识来将异常值纠偏;
(4)离群值检测和处理:使用离群值检测算法来识别和处理异常值,将离群值替换为合理的值;
(5)对异常值专门建立检测模型:使用异常检测模型来识别和处理异常值。
3.根据权利要求1所述的数据处理链构建方法,其特征在于,所述步骤3具体包括:
数据归一化过滤模块根据具体的机器学习模型将数据缩放到一个设定的范围内,消除奇异样本数据导致的不良影响;
根据数据归属业务的具体情况,分别采用以下四种方式进行过滤处理:
(1)最大最小归一化:将数据按照最大值和最小值进行线性变换,使得数据值落在[0,1]区间内;公式为:
X_scaled=(X-X_min)/(X_max-X_min),其中X_scaled表示经过最大最小归一化处理后的数据;
(2)Z-score标准化:将数据按照均值和标准差进行线性变换,使得数据的均值为0,标准差为1;公式为:
X_scaled=(X-X_mean)/X_std,其中X_mean表示数据集或数据块的平均值;X_std表示数据集或数据块的标准差;
(3)小数定标标准化:通过移动数据的小数点位置来实现归一化;将数据除以一个适当的基数,使得所有数据的绝对值都小于1;公式为:
X_scaled=X/10^d,其中d为使得X_scaled的绝对值小于1的最小整数;
(4)归一化到单位长度:将数据向量除以其欧氏长度,使得数据的欧氏长度为1;公式为:
X_scaled=X/||X||,其中||X||为数据向量的欧氏长度。
4.根据权利要求1所述的数据处理链构建方法,其特征在于,所述步骤4具体包括:
数据标准化过滤模块对于数据集或数据流中存在的类别型数据,采用独热编码或者标签编码的方式,将其转化为数值型数据;
所述的独热编码或者标签编码方式是根据数据归属业务中分类变量的取值之间是否存在顺序关系的情况来决定的,如果存在顺序关系,采用标签编码方式;如果不存在顺序关系,则采用独热编码方式。
5.根据权利要求1所述的数据处理链构建方法,其特征在于,所述步骤8具体包括:
特征降维模块通过选择数据集或数据流中最相关或最重要的特征子集,以减少特征的数量和维度,同时保留数据的最重要信息;其实现方法是对于数据集或数据流中存在的高维特征,使用包括方差分析、主成分分析、相关性分析和/或线性判别分析的降维方法,以减少特征维度和模型复杂度;
所述方差分析是指计算特征的方差,选择方差大于设定阈值的特征;
所述主成分分析是指将原始特征通过线性变换转换为新的特征,求得新的特征的方差,保留方差大于设定阈值的新的特征以减少特征维度,同时保留了原始数据中最重要的信息;
所述相关性分析是指计算特征之间的相关系数,包括皮尔逊相关系数、斯皮尔曼相关系数,选择与其他特征相关性低于设定阈值的特征,以减少冗余信息;
所述线性判别分析是指通过线性变换将原始特征投影到低维空间,使得不同类别之间的距离最大化,同类别之间的距离最小化,选择投影后的特征作为新的特征以减少特征维度。
6.一种数据缩减方法,其特征在于,包括:
S101:用数据转换器将工业互联网数据统一成一种格式;
S102:针对统一格式的工业互联网数据实施特征工程处理,通过权利要求1-5中任意一项所述的数据处理链构建方法构建数据处理链,并用数据处理链完成数据处理工作;
S103:将S102处理好的中间数据进行划分,划分为训练集和测试集;
S104:根据工业互联网平台具体的需求和数据特点选择合适的机器学习算法;
S105:使用训练集对选定的机器学习算法进行训练,并使用测试集评估模型的性能和准确度;
S106:用训练好的机器学习模型进行数据的缩减。
7.一种数据处理链构建装置,其特征在于,包括:
异常值过滤模块,用于对数据集或数据流中偏离正常范围的异常值进行修正;
缺失值过滤模块,用于对异常值过滤模块输出的数据集或数据流中存在的缺失值进行填充;
数据归一化过滤模块,用于对缺失值过滤模块输出的数据集或数据中数据缩放到设定的范围内,以消除奇异样本数据导致的不良影响;
数据标准化过滤模块,用于对数据归一化过滤模块输出的数据集或数据流中存在的类别型数据,将其转化为数值型数据;
特征选择模块,用于对数据标准化过滤模块输出的数据集或数据流中存在的对目标变量影响超过设定阈值的特征进行保留,并去除无关特征;
特征构建模块,用于对特征选择模块输出的数据集或数据流中已有特征进行重构操作,以构建新的特征;
时间和文本特征模块,用于对特征构建模块输出的数据集或数据流中存在的时间型特征进行提取,以捕捉时间的周期性和趋势性;并提取文本型特征中的关键词和特征向量;
特征降维模块,用于对时间和文本特征模块输出的数据集或数据流中存在的高维特征进行降维,选择数据集或数据流中最相关或最重要的特征子集,同时保留数据的最重要信息,以减少特征维度和模型复杂度。
8.一种数据缩减装置,其特征在于,包括:
数据统一格式模块,用于通过数据转换器将工业互联网数据统一成一种格式;
数据处理链构建模块,用于针对统一格式的工业互联网数据实施特征工程处理,通过权利要求7所述的数据处理链构建装置构建数据处理链,并用数据处理链完成数据处理工作;
模型训练模块,用于将数据处理链构建模块处理好的中间数据进行划分,划分为训练集和测试集;根据工业互联网平台具体的需求和数据特点选择合适的机器学习算法;使用训练集对选定的机器学习算法进行训练,并使用测试集评估模型的性能和准确度;
模型部署模块,用于根据训练好的机器学习模型进行数据的缩减。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的数据处理链构建方法,或者实现如权利要求6所述的数据缩减方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的数据处理链构建方法,或者实现如权利要求6所述的数据缩减方法。
CN202310865728.XA 2023-07-14 2023-07-14 数据处理链构建方法、数据缩减方法、装置、设备及介质 Pending CN116821646A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310865728.XA CN116821646A (zh) 2023-07-14 2023-07-14 数据处理链构建方法、数据缩减方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310865728.XA CN116821646A (zh) 2023-07-14 2023-07-14 数据处理链构建方法、数据缩减方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116821646A true CN116821646A (zh) 2023-09-29

Family

ID=88125821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310865728.XA Pending CN116821646A (zh) 2023-07-14 2023-07-14 数据处理链构建方法、数据缩减方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116821646A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117041168A (zh) * 2023-10-09 2023-11-10 常州楠菲微电子有限公司 QoS队列调度实现方法、装置、存储介质及处理器
CN117272704A (zh) * 2023-11-23 2023-12-22 湖南华自卓创智能技术有限责任公司 一种面向多源异构数据的数字孪生驱动的数据处理系统
CN117808497A (zh) * 2024-03-01 2024-04-02 清华四川能源互联网研究院 基于距离和方向特征的电力碳排放异常检测模块和方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117041168A (zh) * 2023-10-09 2023-11-10 常州楠菲微电子有限公司 QoS队列调度实现方法、装置、存储介质及处理器
CN117272704A (zh) * 2023-11-23 2023-12-22 湖南华自卓创智能技术有限责任公司 一种面向多源异构数据的数字孪生驱动的数据处理系统
CN117272704B (zh) * 2023-11-23 2024-01-26 湖南华自卓创智能技术有限责任公司 一种面向多源异构数据的数字孪生驱动的数据处理系统
CN117808497A (zh) * 2024-03-01 2024-04-02 清华四川能源互联网研究院 基于距离和方向特征的电力碳排放异常检测模块和方法
CN117808497B (zh) * 2024-03-01 2024-05-14 清华四川能源互联网研究院 基于距离和方向特征的电力碳排放异常检测模块和方法

Similar Documents

Publication Publication Date Title
US20210374610A1 (en) Efficient duplicate detection for machine learning data sets
EP3161635B1 (en) Machine learning service
US10452992B2 (en) Interactive interfaces for machine learning model evaluations
CN116821646A (zh) 数据处理链构建方法、数据缩减方法、装置、设备及介质
CN110264270B (zh) 一种行为预测方法、装置、设备和存储介质
CN103370722B (zh) 通过小波和非线性动力学预测实际波动率的系统和方法
CN105518656A (zh) 用于多传感器数据融合的认知神经语言学行为辨识系统
CN110348721A (zh) 基于gbst的金融违约风险预测方法、装置和电子设备
CN113723618B (zh) 一种shap的优化方法、设备及介质
CN111445597B (zh) 用于机器学习的数据拼接和整合
US11797565B2 (en) Data validation using encode values
CN116562120A (zh) 一种基于rve的涡轮发动机系统健康状况评估方法及装置
CN115034278A (zh) 性能指标异常检测方法、装置、电子设备和存储介质
WO2024148880A1 (zh) 一种基于多源异构数据的系统检测方法及装置
CN112801315A (zh) 电力二次设备的状态诊断方法、装置及终端
CN116737681A (zh) 一种实时异常日志检测方法、装置、计算机设备和存储介质
CN116149895A (zh) 大数据集群性能预测方法、装置和计算机设备
US20230022253A1 (en) Fast and accurate prediction methods and systems based on analytical models
US20230244927A1 (en) Using cnn in a pipeline used to forecast the future statuses of the technologies
CN114926082A (zh) 基于人工智能的数据波动预警方法及相关设备
CN114266414A (zh) 贷款数额的预测方法、装置、电子设备和介质
CN114969335B (zh) 异常日志检测方法、装置、电子设备及可读存储介质
CN116881087B (zh) 数据库运维智能平台
CN116630036A (zh) 一种基于w-tstm模型的股票指数预测系统及其方法
CN117829904A (zh) 投资决策预测方法、装置、设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination