CN112199362B - 一种mes背景下的数据库数据缺失的填补方法及系统 - Google Patents

一种mes背景下的数据库数据缺失的填补方法及系统 Download PDF

Info

Publication number
CN112199362B
CN112199362B CN202011095746.7A CN202011095746A CN112199362B CN 112199362 B CN112199362 B CN 112199362B CN 202011095746 A CN202011095746 A CN 202011095746A CN 112199362 B CN112199362 B CN 112199362B
Authority
CN
China
Prior art keywords
data
missing
filling
type
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011095746.7A
Other languages
English (en)
Other versions
CN112199362A (zh
Inventor
柴森春
张佳
王昭洋
李慧芳
姚分喜
张百海
崔灵果
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202011095746.7A priority Critical patent/CN112199362B/zh
Publication of CN112199362A publication Critical patent/CN112199362A/zh
Application granted granted Critical
Publication of CN112199362B publication Critical patent/CN112199362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明涉及一种MES背景下的数据库数据缺失的填补方法及系统。该方法包括:读取数据库中数据的时间戳信息;判断数据是否发生缺失;当数据发生缺失时,采用二分法查找数据中数据缺失的位置;根据数据中数据缺失的位置,确定数据的数据缺失类型;数据缺失类型包括:瞬时缺失类型、短时缺失类型和长时缺失类型;根据数据的数据缺失类型,对数据进行填补;当数据的数据缺失类型为瞬时缺失类型时,采用线性插值法填补数据中缺失的数据;当数据的数据缺失类型为短时缺失类型时,采用线性插值法与多元回归法结合的方式填补数据中缺失的数据;当数据的数据缺失类型为长时缺失类型时,对数据不进行填补。本发明可以提高缺失数据填补的精度和适应性。

Description

一种MES背景下的数据库数据缺失的填补方法及系统
技术领域
本发明涉及数据处理领域,特别是涉及一种MES背景下的数据库数据缺失的填补方法及系统。
背景技术
在工业MES系统中,数据一般通过传感器获得,在数据采集过程中,一般时间间隔固定(比如2秒一条,10秒一条等),但由于一些客观原因,常出现信息缺失现象。由于数据缺失会对后续数据挖掘产生不利影响,所以在数据预处理阶段,应采用合理的方法,处理缺失数据。工业中缺失数据的具体表现为:前一条数据与后一条数据间时间间隔增大。比如,一般2秒采集一条数据信息的序列中,有两条数据前后间隔为10秒,则两条数据中间存在4条缺失数据。
根据缺失时间的长短,可以将流程工业数据中的缺失值分为瞬时缺失、短时缺失与长时缺失。缺失数据出现的原因有以下几点:①传感器性能的原因:在采集过程中由于传感器性能不稳定,造成数据瞬时或短时缺失,甚至发生传感器故障造成数据长时缺失;②生产状态的原因:当由于生产故障或者生产计划更改导致产线停止运行时,会造成数据长时缺失;③数据采集与传输的原因:数据传输故障、数据库读写异常等均会造成数据缺失,当数据采集系统停机时还会造成数据长时缺失。
目前,常用的缺失值填充方法有统计学方法和机器学习方法两大类,统计学习中常用的缺失值处理方法包括平均值插值法、期望最大化方法等,统计学的方法需要对数据库数据进行统计分析,不仅计算量较大,而且缺失数据的影响可能造成统计结果并不准确,不能反映数据之间时间相关性的影响。机器学习的方法主要包括决策树插补法、关联规则插补法、相似度测量方法,决策树插补法需要事先建立数据的决策模型,关联规则插补法在数据量较小时结果不可靠,相似度测量方法中常用的是K最近邻填充方法,但该方法的参数选择对结果影响很大。而且现行的数据填补方法多为单一方式的填补,对于不同情况下的适应度并不是很高。
发明内容
本发明的目的是提供一种MES背景下的数据库数据缺失的填补方法及系统,以提高缺失数据填补的精度和适应性。
为实现上述目的,本发明提供了如下方案:
一种MES背景下的数据库数据缺失的填补方法,包括:
读取数据库中数据的时间戳信息;
根据所述数据的时间戳信息,判断所述数据是否发生缺失;
当所述数据发生缺失时,采用二分法查找所述数据中数据缺失的位置;
根据所述数据中数据缺失的位置,确定所述数据的数据缺失类型;所述数据缺失类型包括:瞬时缺失类型、短时缺失类型和长时缺失类型;
根据所述数据的数据缺失类型,对所述数据进行填补;当所述数据的数据缺失类型为瞬时缺失类型时,采用线性插值法填补所述数据中缺失的数据;当所述数据的数据缺失类型为短时缺失类型时,采用线性插值法与多元回归法结合的方式填补所述数据中缺失的数据;当所述数据的数据缺失类型为长时缺失类型时,对所述数据不进行填补。
可选的,所述根据所述数据的时间戳信息,判断所述数据是否发生缺失,具体包括:
获取数据查验长度;
根据所述数据的时间戳信息,获取所述数据在所述数据查验长度起始位置的时间信息和结束位置的时间信息;
判断是否满足NoneT=t2-t1;其中,None为所述数据查验长度,T为所述数据的采样周期,t1为所述数据在数据查验长度起始位置的时间,t2为所述数据在数据查验长度结束位置的时间;
当满足NoneT=t2-t1时,确定所述数据查验长度对应的数据段未发生缺失;
当不满足NoneT=t2-t1时,确定所述数据查验长度对应的数据段发生缺失;
依次判断所述数据的每个数据段是否发生缺失。
可选的,所述当所述数据发生缺失时,采用二分法查找所述数据中数据缺失的位置,具体包括:
对于每个发生缺失的数据段,利用公式
Figure BDA0002723689890000031
计算所述数据段中数据缺失的个数;其中,N为所述数据段中数据缺失的个数;
根据所述数据段中数据缺失的个数,利用二分法查找所述数据段中所有数据缺失的位置。
可选的,所述根据所述数据中数据缺失的位置,确定所述数据的数据缺失类型,具体包括:
获取第一时间临界点和第二时间临界点;所述第一时间临界点和所述第二时间临界点根据所述数据的采样周期设定,且所述第一时间临界点小于所述第二时间临界点;
对于每个数据缺失的位置,根据所述数据的时间戳信息确定数据缺失段的时间差;所述数据缺失段的时间差为所述数据缺失段的结束时间与起始时间之间的时间差;
比较所述数据缺失段的时间差与所述第一时间临界点和所述第二时间临界点的大小;
当所述数据缺失段的时间差小于所述第一时间临界点时,确定所述数据缺失段对应位置的数据缺失类型为瞬时缺失类型;
当所述数据缺失段的时间差不小于所述第一时间临界点且不大于所述第二时间临界点时,确定所述数据缺失段对应位置的数据缺失类型为短时缺失类型;
当所述数据缺失段的时间差大于所述第二时间临界点时,确定所述数据缺失段对应位置的数据缺失类型为长时缺失类型。
可选的,所述当所述数据的数据缺失类型为短时缺失类型时,采用线性插值法与多元回归法结合的方式填补所述数据中缺失的数据,具体包括:
对所述数据中缺失的数据进行线性插值填补,得到线性插值拟合值;
采用多元回归模型对所述数据中缺失的数据进行填补,得到多元回归拟合值;
采用softmax函数将所述线性插值拟合值和所述多元回归拟合值组合,得到所述数据中填补数据拟合值;
将所述填补数据拟合值填补至所述数据中数据缺失的位置。
可选的,所述采用多元回归模型对所述数据中缺失的数据进行填补,得到多元回归拟合值,具体包括:
根据缺失数据之前的数据段,利用最小二乘法计算多元回归模型的参数矩阵;所述多元回归模型为:Y=XS=s0+s1x1+…+sn-1xn-1;其中,Y为缺失数据;X为除缺失数据之外的数据矩阵,X=(1,x1,…,xn-1)T,xi为第i维数据;S为参数矩阵,
Figure BDA0002723689890000041
si为第i维数据xi的系数;
采用确定参数后的所述多元回归模型,对所述缺失数据的前段数据进行拟合,得到第一组拟合值Ya1;所述缺失数据为第i维缺失数据,第一组拟合值Ya1=siX1;其中,X1为所述缺失数据的前段数据除第i维缺失数据之外的数据矩阵;
利用所述缺失数据的后段数据进行逆推,对第i维缺失数据进行填补,得到第二组拟合值Ya2;第二组拟合值
Figure BDA0002723689890000042
其中,X2为当前时刻所述缺失数据的后段数据除第i维缺失数据之外的数据矩阵;sk为所述参数矩阵中除第i行之外的所有系数中数值最大的系数所在的系数列;Yk为下一时刻的第k维数据;
利用公式
Figure BDA0002723689890000043
对所述第一组拟合值和所述第二组拟合值进行加权组合,得到多元回归拟合值;其中,Ya为多元回归拟合值;d1为待填补数据距离缺失数据的前段数据的距离;d2为待填补数据距离缺失数据的后段数据的距离。
本发明还提供一种MES背景下的数据库数据缺失的填补系统,包括:
时间戳信息读取模块,用于读取数据库中数据的时间戳信息;
数据缺失判断模块,用于根据所述数据的时间戳信息,判断所述数据是否发生缺失;
数据缺失位置查找模块,用于当所述数据发生缺失时,采用二分法查找所述数据中数据缺失的位置;
数据缺失类型确定模块,用于根据所述数据中数据缺失的位置,确定所述数据的数据缺失类型;所述数据缺失类型包括:瞬时缺失类型、短时缺失类型和长时缺失类型;
数据填补模块,用于根据所述数据的数据缺失类型,对所述数据进行填补;当所述数据的数据缺失类型为瞬时缺失类型时,采用线性插值法填补所述数据中缺失的数据;当所述数据的数据缺失类型为短时缺失类型时,采用线性插值法与多元回归法结合的方式填补所述数据中缺失的数据;当所述数据的数据缺失类型为长时缺失类型时,对所述数据不进行填补。
可选的,所述数据缺失判断模块具体包括:
数据查验长度获取单元,用于获取数据查验长度;
时间信息获取单元,用于根据所述数据的时间戳信息,获取所述数据在所述数据查验长度起始位置的时间信息和结束位置的时间信息;
判断单元,用于判断是否满足NoneT=t2-t1;其中,None为所述数据查验长度,T为所述数据的采样周期,t1为所述数据在数据查验长度起始位置的时间,t2为所述数据在数据查验长度结束位置的时间;
数据段未发生缺失确定单元,用于当满足NoneT=t2-t1时,确定所述数据查验长度对应的数据段未发生缺失;
数据段发生缺失确定单元,用于当不满足NoneT=t2-t1时,确定所述数据查验长度对应的数据段发生缺失。
可选的,所述数据填补模块,具体包括:
线性插值单元,用于对所述数据中缺失的数据进行线性插值填补,得到线性插值拟合值;
多元回归填补单元,用于采用多元回归模型对所述数据中缺失的数据进行填补,得到多元回归拟合值;
组合单元,用于采用softmax函数将所述线性插值拟合值和所述多元回归拟合值组合,得到所述数据中填补数据拟合值;
将所述填补数据拟合值填补至所述数据中数据缺失的位置。
可选的,所述多元回归填补单元具体包括:
参数矩阵计算子单元,用于根据缺失数据之前的数据段,利用最小二乘法计算多元回归模型的参数矩阵;所述多元回归模型为:Y=XS=s0+s1x1+…+sn-1xn-1;其中,Y为缺失数据;X为除缺失数据之外的数据矩阵,X=(1,x1,…,xn-1)T,xi为第i维数据;S为参数矩阵,
Figure BDA0002723689890000061
si为第i维数据xi的系数;
第一组拟合值计算子单元,用于采用确定参数后的所述多元回归模型,对所述缺失数据的前段数据进行拟合,得到第一组拟合值Ya1;所述缺失数据为第i维缺失数据,第一组拟合值Ya1=siX1;其中,X1为所述缺失数据的前段数据除第i维缺失数据之外的数据矩阵;
第二组拟合值计算子单元,用于利用所述缺失数据的后段数据进行逆推,对第i维缺失数据进行填补,得到第二组拟合值Ya2;第二组拟合值
Figure BDA0002723689890000062
其中,X2为当前时刻所述缺失数据的后段数据除第i维缺失数据之外的数据矩阵;sk为所述参数矩阵中除第i行之外的所有系数中数值最大的系数所在的系数列;Yk为下一时刻的第k维数据;
加权组合子单元,用于利用公式
Figure BDA0002723689890000071
对所述第一组拟合值和所述第二组拟合值进行加权组合,得到多元回归拟合值;其中,Ya为多元回归拟合值;d1为待填补数据距离缺失数据的前段数据的距离;d2为待填补数据距离缺失数据的后段数据的距离。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明针对数据库中工业数据缺失的特点,结合了线性插值和多元回归方法的优点对缺失数据进行填补,相对于现在大多使用的单一方法进行数据缺失处理,本发明具有数据缺失填补精度高、适应性强的特点。而且,本发明使用二分法进行数据缺失检验,相对于现行的对每条数据进行读取,判断数据缺失是否发生,本方法充分利用工业数据缺失的特点,考虑到工业数据具有的时间戳信息,来实现对数据缺失的快速判断和数据缺失位置的快速定位。
此外,本发明计算多元回归模型参数时,只利用缺失数据之前的数据段数据进行模型参数解算,未利用数据库中缺失数据前所有的数据解算,一方面降低了计算量,另一方面,由于距离缺失数据越近的数据越具有代表性,利用缺失数据前一定长度的数据计算的参数,对于缺失数据部分预测更加准确。而且,在使用多元回归模型确定填补数据的多元回归拟合值时,不仅考虑了缺失数据前的数据信息,而且考虑了缺失数据后的数据信息,相对于现行只考虑缺失数据前的信息进行缺失数据预测,本方法对数据的利用率更高,对缺失数据的预测会更加准确,且避免了预测发散造成填补后数据前后变化趋势不一致的可能性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明MES背景下的数据库数据缺失的填补方法的流程示意图;
图2为本发明采用多元回归模型对所述数据中缺失的数据进行填补的示意图;
图3为本发明MES背景下的数据库数据缺失的填补系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明MES背景下的数据库数据缺失的填补方法的流程示意图。如图1所示,本发明MES背景下的数据库数据缺失的填补方法包括以下步骤:
步骤100:读取数据库中数据的时间戳信息。数据库中的工业数据按照一定的采样周期采样,每个数据都会对应相应的时间戳信息。
步骤200:根据数据的时间戳信息,判断数据是否发生缺失。判断数据是否发生缺失时,采用数据查验的方式进行判断。首先,获取数据查验长度,数据查验长度根据实际情况而设定。然后,根据所述数据的时间戳信息,获取所述数据在所述数据查验长度起始位置的时间信息和结束位置的时间信息。通过判断是否满足NoneT=t2-t1来判断是否发生缺失,其中,None为所述数据查验长度,T为所述数据的采样周期,t1为所述数据在数据查验长度起始位置的时间,t2为所述数据在数据查验长度结束位置的时间。当满足NoneT=t2-t1时,确定该数据查验长度对应的数据段未发生缺失;当不满足NoneT=t2-t1时,确定该数据查验长度对应的数据段发生缺失。然后将当前数据段的结束位置的时间t2作为下一数据段的起始时间,即将当前数据段的结束位置作为下一数据查验长度的起始位置,进行下一数据段的查验,依次完成整个数据的缺失查验过程。
步骤300:当数据发生缺失时,采用二分法查找数据中数据缺失的位置。对于每个发生缺失的数据段,首先利用公式
Figure BDA0002723689890000081
计算该数据段中数据缺失的个数N;然后,利用二分法查找该数据段中所有数据缺失的位置。具体的,针对数据段内存在数据缺失的情况,首先,读取数据段中间位置的数据时间信息,将该数据段分为前后两个新的子数据段;然后,对第一个子数据段判断是否发生数据缺失,若第一个子数据段发生数据缺失,则继续对第一个子数据段进行数据段拆分判断数据缺失,若没有数据缺失,则转而对第二个子数据段进行数据缺失判断。当定位得到的子数据段数据中所有的缺失个数之和为N时,则说明此段数据缺失位置已全部寻到。
步骤400:根据数据中数据缺失的位置,确定数据的数据缺失类型。所述数据缺失类型包括:瞬时缺失类型、短时缺失类型和长时缺失类型。对于每个数据缺失的位置,采用下列过程确定数据缺失类型:
获取第一时间临界点和第二时间临界点。所述第一时间临界点和所述第二时间临界点根据所述数据的采样周期设定,且所述第一时间临界点小于所述第二时间临界点。例如,第一时间临界点为Ts=nsT,第二时间临界点为Tl=nlT,其中ns和nl为正整数,且ns小于nl,T为数据的采样周期。
根据数据的时间戳信息确定数据缺失段的时间差TΔ。所述数据缺失段的时间差为所述数据缺失段的结束时间与起始时间之间的时间差,即该数据缺失位置前一条数据与后一条数据之间的时间差。
比较所述数据缺失段的时间差与所述第一时间临界点和所述第二时间临界点的大小。当所述数据缺失段的时间差小于所述第一时间临界点时,确定所述数据缺失段对应位置的数据缺失类型为瞬时缺失类型;当所述数据缺失段的时间差不小于所述第一时间临界点且不大于所述第二时间临界点时,确定所述数据缺失段对应位置的数据缺失类型为短时缺失类型;当所述数据缺失段的时间差大于所述第二时间临界点时,确定所述数据缺失段对应位置的数据缺失类型为长时缺失类型。
步骤500:根据数据的数据缺失类型,对数据进行填补。
具体的,当所述数据的数据缺失类型为瞬时缺失类型时,采用线性插值法填补所述数据中缺失的数据。瞬时缺失类型的数据,系统基本不会发生变化,或者会延续当前的变化趋势。所以对瞬时缺失类型的缺失数据进行拟合时,只需在单维度水平上考虑待填补维度随时间的变化趋势即可,不需考虑其他维度的影响。所以针对瞬时缺失类型的缺失数据,采用线性插值的方法,对缺失数据维度进行填补。
当所述数据的数据缺失类型为长时缺失类型时,对所述数据不进行填补。长时缺失类型的数据,一般是所有维度的数据在该段时间内均产生缺失,且考虑到长时间内,系统状态的改变和难以预测缺失数据,所以对长时缺失类型的缺失数据不进行填补处理,防止对剩下的数据产生污染。同时为提高数据的准确率,可以在数据缺失位置对原有的数据库的数据进行分段处理。
当所述数据的数据缺失类型为短时缺失类型时,采用线性插值法与多元回归法结合的方式填补所述数据中缺失的数据。短时缺失类型的数据,待填补维度不只受自身的变化趋势影响,由于维度间的耦合性,其他维度的变化也会影响缺失维度,因此在进行缺失数据填补时除了在单维度上考虑数据趋势的影响外,还应考虑不同维度之间的关联维度,并考虑关联维度对缺失段数据值的影响。所以针对短时缺失类型的缺失数据,采用线性插值与多元回归相结合的方法,对缺失数据维度进行填补。具体过程如下:
Step1、对数据库缺失数据进行线性插值填补,得到线性插值拟合值Yl
Step2、采用多元回归模型对数据中缺失的数据进行填补,得到多元回归拟合值Ya。具体过程如图2所示:
首先,根据缺失数据之前的特定长度的数据段,利用最小二乘法计算多元回归模型的参数矩阵S。多元回归模型为:
Y=XS=s0+s1x1+…+sn-1xn-1
其中,Y为缺失数据,即待填补的数据。X为除缺失数据之外的数据矩阵:
X=(1,x1,…,xn-1)T
xi为第i维数据;S为参数矩阵:
Figure BDA0002723689890000111
si为第i维数据xi的系数,s0为常数项。
利用最小二乘法可以得到多元回归模型的参数为:
S=(X′X)-1X′Y
然后,采用确定参数后的所述多元回归模型,对所述缺失数据的前段数据进行拟合,得到第一组拟合值Ya1。所述缺失数据为第i维缺失数据,对第i维缺失数据进行填补,采用上述多元回归模型可以得到第一组拟合值Ya1=siX1=si,0+si,1x1+…+si,n-1xn-1;其中,X1为所述缺失数据的前段数据除第i维缺失数据之外的数据矩阵。
之后,利用所述缺失数据的后段数据进行逆推,对第i维缺失数据进行填补,得到第二组拟合值Ya2。利用第i维缺失数据后段数据进行逆推过程中,选择逆推参数时,除去系统参数矩阵S的第i行,选择对应列中最大值对应的第k维数据进行逆推,对缺失数据进行填补,第二组拟合值
Figure BDA0002723689890000112
其中,X2为当前时刻所述缺失数据的后段数据除第i维缺失数据之外的数据矩阵;sk为所述参数矩阵中除第i行之外的所有系数中数值最大的系数所在的系数列;Yk为下一时刻的第k维数据。
最后,利用公式
Figure BDA0002723689890000113
对所述第一组拟合值和所述第二组拟合值进行加权组合,得到多元回归拟合值Ya。其中,d1为待填补数据距离缺失数据的前段数据的距离;d2为待填补数据距离缺失数据的后段数据的距离。本步骤进行加权组合时,权值采用距离进行计算,即权值采用待填补数据、缺失数据前段数据和后段数据的距离相对大小进行设计。当待填补数据距离缺失数据前段近时,利用缺失数据前段得到的拟合值Ya1的权重大,当待填补数据距离缺失数据后段近时,利用缺失数据后段逆推得到的拟合值Ya2的权重大。
当两条数据的时间戳信息分别为td1和td2时,两条数据之间的距离d计算公式为:
Figure BDA0002723689890000121
其中,T为工业数据的采样周期,即数据库中相邻两条数据之间时间差。采用上述公式可以计算得到d1和d2
Step3、采用softmax函数将所述线性插值拟合值和所述多元回归拟合值组合,得到所述数据中填补数据拟合值Y。
Step4、将所述填补数据拟合值Y填补至所述数据中数据缺失的位置。
图3为本发明MES背景下的数据库数据缺失的填补系统的结构示意图。如图3所示,本发明MES背景下的数据库数据缺失的填补系统包括以下结构:
时间戳信息读取模块301,用于读取数据库中数据的时间戳信息。
数据缺失判断模块302,用于根据所述数据的时间戳信息,判断所述数据是否发生缺失。
数据缺失位置查找模块303,用于当所述数据发生缺失时,采用二分法查找所述数据中数据缺失的位置。
数据缺失类型确定模块304,用于根据所述数据中数据缺失的位置,确定所述数据的数据缺失类型;所述数据缺失类型包括:瞬时缺失类型、短时缺失类型和长时缺失类型。
数据填补模块305,用于根据所述数据的数据缺失类型,对所述数据进行填补;当所述数据的数据缺失类型为瞬时缺失类型时,采用线性插值法填补所述数据中缺失的数据;当所述数据的数据缺失类型为短时缺失类型时,采用线性插值法与多元回归法结合的方式填补所述数据中缺失的数据;当所述数据的数据缺失类型为长时缺失类型时,对所述数据不进行填补。
作为另一实施例,本发明MES背景下的数据库数据缺失的填补系统中,所述数据缺失判断模块302具体包括:
数据查验长度获取单元,用于获取数据查验长度。
时间信息获取单元,用于根据所述数据的时间戳信息,获取所述数据在所述数据查验长度起始位置的时间信息和结束位置的时间信息。
判断单元,用于判断是否满足NoneT=t2-t1;其中,None为所述数据查验长度,T为所述数据的采样周期,t1为所述数据在数据查验长度起始位置的时间,t2为所述数据在数据查验长度结束位置的时间。
数据段未发生缺失确定单元,用于当满足NoneT=t2-t1时,确定所述数据查验长度对应的数据段未发生缺失。
数据段发生缺失确定单元,用于当不满足NoneT=t2-t1时,确定所述数据查验长度对应的数据段发生缺失。
作为另一实施例,本发明MES背景下的数据库数据缺失的填补系统中,所述数据填补模块305,具体包括:
线性插值单元,用于对所述数据中缺失的数据进行线性插值填补,得到线性插值拟合值。
多元回归填补单元,用于采用多元回归模型对所述数据中缺失的数据进行填补,得到多元回归拟合值。
组合单元,用于采用softmax函数将所述线性插值拟合值和所述多元回归拟合值组合,得到所述数据中填补数据拟合值。
将所述填补数据拟合值填补至所述数据中数据缺失的位置。
作为另一实施例,本发明MES背景下的数据库数据缺失的填补系统中所述多元回归填补单元具体包括:
参数矩阵计算子单元,用于根据缺失数据之前的数据段,利用最小二乘法计算多元回归模型的参数矩阵;所述多元回归模型为:Y=XS=s0+s1x1+…+sn-1xn-1;其中,Y为缺失数据;X为除缺失数据之外的数据矩阵,X=(1,x1,…,xn-1)T,xi为第i维数据;S为参数矩阵,
Figure BDA0002723689890000131
si为第i维数据xi的系数。
第一组拟合值计算子单元,用于采用确定参数后的所述多元回归模型,对所述缺失数据的前段数据进行拟合,得到第一组拟合值Ya1;所述缺失数据为第i维缺失数据,第一组拟合值Ya1=siX1;其中,X1为所述缺失数据的前段数据除第i维缺失数据之外的数据矩阵。
第二组拟合值计算子单元,用于利用所述缺失数据的后段数据进行逆推,对第i维缺失数据进行填补,得到第二组拟合值Ya2;第二组拟合值
Figure BDA0002723689890000141
其中,X2为当前时刻所述缺失数据的后段数据除第i维缺失数据之外的数据矩阵;sk为所述参数矩阵中除第i行之外的所有系数中数值最大的系数所在的系数列;Yk为下一时刻的第k维数据。
加权组合子单元,用于利用公式
Figure BDA0002723689890000142
对所述第一组拟合值和所述第二组拟合值进行加权组合,得到多元回归拟合值;其中,Ya为多元回归拟合值;d1为待填补数据距离缺失数据的前段数据的距离;d2为待填补数据距离缺失数据的后段数据的距离。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种MES背景下的数据库数据缺失的填补方法,其特征在于,包括:
读取数据库中数据的时间戳信息;
根据所述数据的时间戳信息,判断所述数据是否发生缺失;
当所述数据发生缺失时,采用二分法查找所述数据中数据缺失的位置,具体包括:
对于每个发生缺失的数据段,利用公式
Figure DEST_PATH_IMAGE002
计算所述数据段中数据缺失的个数;其中,
Figure DEST_PATH_IMAGE004
为所述数据段中数据缺失的个数,
Figure DEST_PATH_IMAGE006
为所述数据查验长度,
Figure DEST_PATH_IMAGE008
为所述数据的采样周期,
Figure DEST_PATH_IMAGE010
为所述数据在数据查验长度起始位置的时间,
Figure DEST_PATH_IMAGE012
为所述数据在数据查验长度结束位置的时间;
根据所述数据段中数据缺失的个数,利用二分法查找所述数据段中所有数据缺失的位置;
根据所述数据中数据缺失的位置,确定所述数据的数据缺失类型;所述数据缺失类型包括:瞬时缺失类型、短时缺失类型和长时缺失类型;
根据所述数据的数据缺失类型,对所述数据进行填补;当所述数据的数据缺失类型为瞬时缺失类型时,采用线性插值法填补所述数据中缺失的数据;当所述数据的数据缺失类型为短时缺失类型时,采用线性插值法与多元回归法结合的方式填补所述数据中缺失的数据;当所述数据的数据缺失类型为长时缺失类型时,对所述数据不进行填补。
2.根据权利要求1所述的MES背景下的数据库数据缺失的填补方法,其特征在于,所述根据所述数据的时间戳信息,判断所述数据是否发生缺失,具体包括:
获取数据查验长度;
根据所述数据的时间戳信息,获取所述数据在所述数据查验长度起始位置的时间信息和结束位置的时间信息;
判断是否满足
Figure DEST_PATH_IMAGE014
当满足
Figure DEST_PATH_IMAGE014A
时,确定所述数据查验长度对应的数据段未发生缺失;
当不满足
Figure DEST_PATH_IMAGE014AA
时,确定所述数据查验长度对应的数据段发生缺失;
依次判断所述数据的每个数据段是否发生缺失。
3.根据权利要求1所述的MES背景下的数据库数据缺失的填补方法,其特征在于,所述根据所述数据中数据缺失的位置,确定所述数据的数据缺失类型,具体包括:
获取第一时间临界点和第二时间临界点;所述第一时间临界点和所述第二时间临界点根据所述数据的采样周期设定,且所述第一时间临界点小于所述第二时间临界点;
对于每个数据缺失的位置,根据所述数据的时间戳信息确定数据缺失段的时间差;所述数据缺失段的时间差为所述数据缺失段的结束时间与起始时间之间的时间差;
比较所述数据缺失段的时间差与所述第一时间临界点和所述第二时间临界点的大小;
当所述数据缺失段的时间差小于所述第一时间临界点时,确定所述数据缺失段对应位置的数据缺失类型为瞬时缺失类型;
当所述数据缺失段的时间差不小于所述第一时间临界点且不大于所述第二时间临界点时,确定所述数据缺失段对应位置的数据缺失类型为短时缺失类型;
当所述数据缺失段的时间差大于所述第二时间临界点时,确定所述数据缺失段对应位置的数据缺失类型为长时缺失类型。
4.根据权利要求1所述的MES背景下的数据库数据缺失的填补方法,其特征在于,所述当所述数据的数据缺失类型为短时缺失类型时,采用线性插值法与多元回归法结合的方式填补所述数据中缺失的数据,具体包括:
对所述数据中缺失的数据进行线性插值填补,得到线性插值拟合值;
采用多元回归模型对所述数据中缺失的数据进行填补,得到多元回归拟合值;
采用softmax函数将所述线性插值拟合值和所述多元回归拟合值组合,得到所述数据中填补数据拟合值;
将所述填补数据拟合值填补至所述数据中数据缺失的位置。
5.根据权利要求4所述的MES背景下的数据库数据缺失的填补方法,其特征在于,所述采用多元回归模型对所述数据中缺失的数据进行填补,得到多元回归拟合值,具体包括:
根据缺失数据之前的数据段,利用最小二乘法计算多元回归模型的参数矩阵;所述多元回归模型为:
Figure DEST_PATH_IMAGE016
;其中,
Figure DEST_PATH_IMAGE018
为缺失数据;
Figure DEST_PATH_IMAGE020
为除缺失数据之外的数据矩阵,
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE024
为第
Figure DEST_PATH_IMAGE026
维数据;
Figure DEST_PATH_IMAGE028
为参数矩阵,
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE032
为第
Figure DEST_PATH_IMAGE026A
维数据
Figure DEST_PATH_IMAGE024A
的系数;
采用确定参数后的所述多元回归模型,对所述缺失数据的前段数据进行拟合,得到第一组拟合值
Figure DEST_PATH_IMAGE034
;所述缺失数据为第
Figure DEST_PATH_IMAGE026AA
维缺失数据,第一组拟合值
Figure DEST_PATH_IMAGE036
;其中,
Figure DEST_PATH_IMAGE038
为所述缺失数据的前段数据除第
Figure DEST_PATH_IMAGE026AAA
维缺失数据之外的数据矩阵;
利用所述缺失数据的后段数据进行逆推,对第
Figure DEST_PATH_IMAGE026AAAA
维缺失数据进行填补,得到第二组拟合值
Figure DEST_PATH_IMAGE040
;第二组拟合值
Figure DEST_PATH_IMAGE042
;其中,
Figure DEST_PATH_IMAGE044
为当前时刻所述缺失数据的后段数据除第
Figure DEST_PATH_IMAGE026_5A
维缺失数据之外的数据矩阵;
Figure DEST_PATH_IMAGE046
为所述参数矩阵中除第
Figure DEST_PATH_IMAGE026_6A
行之外的所有系数中数值最大的系数所在的系数列;
Figure DEST_PATH_IMAGE048
为下一时刻的第
Figure DEST_PATH_IMAGE050
维数据;
利用公式
Figure DEST_PATH_IMAGE052
对所述第一组拟合值和所述第二组拟合值进行加权组合,得到多元回归拟合值;其中,
Figure DEST_PATH_IMAGE054
为多元回归拟合值;
Figure DEST_PATH_IMAGE056
为待填补数据距离缺失数据的前段数据的距离;
Figure DEST_PATH_IMAGE058
为待填补数据距离缺失数据的后段数据的距离。
6.一种MES背景下的数据库数据缺失的填补系统,其特征在于,包括:
时间戳信息读取模块,用于读取数据库中数据的时间戳信息;
数据缺失判断模块,用于根据所述数据的时间戳信息,判断所述数据是否发生缺失;
数据缺失位置查找模块,用于当所述数据发生缺失时,采用二分法查找所述数据中数据缺失的位置,具体包括:
对于每个发生缺失的数据段,利用公式
Figure DEST_PATH_IMAGE002A
计算所述数据段中数据缺失的个数;其中,
Figure DEST_PATH_IMAGE004A
为所述数据段中数据缺失的个数,
Figure DEST_PATH_IMAGE006A
为所述数据查验长度,
Figure DEST_PATH_IMAGE008A
为所述数据的采样周期,
Figure DEST_PATH_IMAGE010A
为所述数据在数据查验长度起始位置的时间,
Figure DEST_PATH_IMAGE012A
为所述数据在数据查验长度结束位置的时间;
根据所述数据段中数据缺失的个数,利用二分法查找所述数据段中所有数据缺失的位置;
数据缺失类型确定模块,用于根据所述数据中数据缺失的位置,确定所述数据的数据缺失类型;所述数据缺失类型包括:瞬时缺失类型、短时缺失类型和长时缺失类型;
数据填补模块,用于根据所述数据的数据缺失类型,对所述数据进行填补;当所述数据的数据缺失类型为瞬时缺失类型时,采用线性插值法填补所述数据中缺失的数据;当所述数据的数据缺失类型为短时缺失类型时,采用线性插值法与多元回归法结合的方式填补所述数据中缺失的数据;当所述数据的数据缺失类型为长时缺失类型时,对所述数据不进行填补。
7.根据权利要求6所述的MES背景下的数据库数据缺失的填补系统,其特征在于,所述数据缺失判断模块具体包括:
数据查验长度获取单元,用于获取数据查验长度;
时间信息获取单元,用于根据所述数据的时间戳信息,获取所述数据在所述数据查验长度起始位置的时间信息和结束位置的时间信息;
判断单元,用于判断是否满足
Figure DEST_PATH_IMAGE014AAA
;其中,
Figure DEST_PATH_IMAGE006AA
为所述数据查验长度,
Figure DEST_PATH_IMAGE008AA
为所述数据的采样周期,
Figure DEST_PATH_IMAGE010AA
为所述数据在数据查验长度起始位置的时间,
Figure DEST_PATH_IMAGE012AA
为所述数据在数据查验长度结束位置的时间;
数据段未发生缺失确定单元,用于当满足
Figure DEST_PATH_IMAGE014AAAA
时,确定所述数据查验长度对应的数据段未发生缺失;
数据段发生缺失确定单元,用于当不满足
Figure DEST_PATH_IMAGE014_5A
时,确定所述数据查验长度对应的数据段发生缺失。
8.根据权利要求6所述的MES背景下的数据库数据缺失的填补系统,其特征在于,所述数据填补模块,具体包括:
线性插值单元,用于对所述数据中缺失的数据进行线性插值填补,得到线性插值拟合值;
多元回归填补单元,用于采用多元回归模型对所述数据中缺失的数据进行填补,得到多元回归拟合值;
组合单元,用于采用softmax函数将所述线性插值拟合值和所述多元回归拟合值组合,得到所述数据中填补数据拟合值;
将所述填补数据拟合值填补至所述数据中数据缺失的位置。
9.根据权利要求8所述的MES背景下的数据库数据缺失的填补系统,其特征在于,所述多元回归填补单元具体包括:
参数矩阵计算子单元,用于根据缺失数据之前的数据段,利用最小二乘法计算多元回归模型的参数矩阵;所述多元回归模型为:
Figure DEST_PATH_IMAGE016A
;其中,
Figure DEST_PATH_IMAGE018A
为缺失数据;
Figure DEST_PATH_IMAGE020A
为除缺失数据之外的数据矩阵,
Figure DEST_PATH_IMAGE022A
Figure DEST_PATH_IMAGE024AA
为第
Figure DEST_PATH_IMAGE026_7A
维数据;
Figure DEST_PATH_IMAGE028A
为参数矩阵,
Figure DEST_PATH_IMAGE030A
Figure DEST_PATH_IMAGE032A
为第
Figure DEST_PATH_IMAGE026_8A
维数据
Figure DEST_PATH_IMAGE024AAA
的系数;
第一组拟合值计算子单元,用于采用确定参数后的所述多元回归模型,对所述缺失数据的前段数据进行拟合,得到第一组拟合值
Figure DEST_PATH_IMAGE034A
;所述缺失数据为第
Figure DEST_PATH_IMAGE026_9A
维缺失数据,第一组拟合值
Figure DEST_PATH_IMAGE036A
;其中,
Figure DEST_PATH_IMAGE038A
为所述缺失数据的前段数据除第
Figure DEST_PATH_IMAGE026_10A
维缺失数据之外的数据矩阵;
第二组拟合值计算子单元,用于利用所述缺失数据的后段数据进行逆推,对第
Figure DEST_PATH_IMAGE026_11A
维缺失数据进行填补,得到第二组拟合值
Figure DEST_PATH_IMAGE040A
;第二组拟合值
Figure DEST_PATH_IMAGE042A
;其中,
Figure DEST_PATH_IMAGE044A
为当前时刻所述缺失数据的后段数据除第
Figure DEST_PATH_IMAGE026_12A
维缺失数据之外的数据矩阵;
Figure DEST_PATH_IMAGE046A
为所述参数矩阵中除第
Figure DEST_PATH_IMAGE026_13A
行之外的所有系数中数值最大的系数所在的系数列;
Figure DEST_PATH_IMAGE048A
为下一时刻的第
Figure DEST_PATH_IMAGE050A
维数据;
加权组合子单元,用于利用公式
Figure DEST_PATH_IMAGE052A
对所述第一组拟合值和所述第二组拟合值进行加权组合,得到多元回归拟合值;其中,
Figure DEST_PATH_IMAGE054A
为多元回归拟合值;
Figure DEST_PATH_IMAGE056A
为待填补数据距离缺失数据的前段数据的距离;
Figure DEST_PATH_IMAGE058A
为待填补数据距离缺失数据的后段数据的距离。
CN202011095746.7A 2020-10-14 2020-10-14 一种mes背景下的数据库数据缺失的填补方法及系统 Active CN112199362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011095746.7A CN112199362B (zh) 2020-10-14 2020-10-14 一种mes背景下的数据库数据缺失的填补方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011095746.7A CN112199362B (zh) 2020-10-14 2020-10-14 一种mes背景下的数据库数据缺失的填补方法及系统

Publications (2)

Publication Number Publication Date
CN112199362A CN112199362A (zh) 2021-01-08
CN112199362B true CN112199362B (zh) 2022-11-11

Family

ID=74008897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011095746.7A Active CN112199362B (zh) 2020-10-14 2020-10-14 一种mes背景下的数据库数据缺失的填补方法及系统

Country Status (1)

Country Link
CN (1) CN112199362B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113760880A (zh) * 2021-09-07 2021-12-07 天津大学 一种水质自动监测数据的预处理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2992428B1 (fr) * 2012-06-25 2014-07-18 Electricite De France Procede de determination d'une valeur manquante parmi des donnees collectees pour une pluralite d'individus a une pluralite d'instants
CN106844290B (zh) * 2015-12-03 2019-05-21 南京南瑞继保电气有限公司 一种基于曲线拟合的时序数据处理方法
CN111708882B (zh) * 2020-05-29 2022-09-30 西安理工大学 基于Transformer的中文文本信息缺失的补全方法
CN111694827B (zh) * 2020-05-31 2023-04-07 重庆大学 一种电力设备状态监测数据缺失值分类插补方法和系统

Also Published As

Publication number Publication date
CN112199362A (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
US9239760B2 (en) Systems and methods for detecting, correcting, and validating bad data in data streams
CN102944583B (zh) 基于漂移补偿的金属氧化物气体传感器阵列浓度检测方法
CN109765490B (zh) 一种基于高维数据诊断的动力电池故障检测方法及系统
CN111222095B (zh) 一种大坝变形监测中的粗差判别方法、装置及系统
CN104990893A (zh) 一种基于相似判别的汽油辛烷值检测方法
CN105389648A (zh) 一种常减压装置稳态工况的判别方法
CN112199362B (zh) 一种mes背景下的数据库数据缺失的填补方法及系统
CN112131797B (zh) 一种基于应力分析的主轴轴承寿命预测和可靠性评估方法
CN111680398B (zh) 一种基于Holt-Winters模型的单机性能退化预测方法
CN116113942A (zh) 依据工艺踪迹预测装备故障模式
CN112329272B (zh) 综合光伏组件退化和寿命数据的剩余寿命拟合预测方法
CN117235462B (zh) 基于时序数据分析的袋式包装机故障智能预测方法
CN113377580A (zh) 一种地基遥测数据帧计数溢出修复和误码检测修复方法
CN112287776A (zh) 轴承性能指标分析方法、系统、可读存储介质及电子设备
CN112785456A (zh) 基于向量自回归模型的高损线路窃电检测方法
CN110907984A (zh) 一种基于自回归移动平均模型的震前红外长波辐射异常信息探测方法
CN115619106A (zh) 一种考虑性能退化的激光陀螺仪备件数量确定方法及系统
CN115828114A (zh) 一种铝型材挤压机能耗异常检测方法
CN111985163B (zh) 一种铷钟寿命预测方法及装置
CN109101751B (zh) 一种基于信息融合的动量轮可靠性评估方法
CN117538910B (zh) 基于ai的北斗定位信号测试分析方法及系统
CN111815155A (zh) 一种改进后的核回归地面气温观测资料质量控制方法
CN117312635B (zh) 在线检测数据分析处理方法、系统、电子设备及存储介质
CN112989629B (zh) 一种基于钽电容多性能退化的可靠性评估方法
CN112001552B (zh) 一种基于用电量序列的月度售电量预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant