CN117150225B - 一种基于贝叶斯算法的工业数据的清洗方法及系统 - Google Patents

一种基于贝叶斯算法的工业数据的清洗方法及系统 Download PDF

Info

Publication number
CN117150225B
CN117150225B CN202311416275.9A CN202311416275A CN117150225B CN 117150225 B CN117150225 B CN 117150225B CN 202311416275 A CN202311416275 A CN 202311416275A CN 117150225 B CN117150225 B CN 117150225B
Authority
CN
China
Prior art keywords
data
probability
event
weight
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311416275.9A
Other languages
English (en)
Other versions
CN117150225A (zh
Inventor
刘守华
王淑敏
王志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Institute of Standardization
Original Assignee
China National Institute of Standardization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Institute of Standardization filed Critical China National Institute of Standardization
Priority to CN202311416275.9A priority Critical patent/CN117150225B/zh
Publication of CN117150225A publication Critical patent/CN117150225A/zh
Application granted granted Critical
Publication of CN117150225B publication Critical patent/CN117150225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Factory Administration (AREA)

Abstract

本申请公开了一种基于贝叶斯算法的工业数据的清洗方法及系统,基于历史事件中表现出的统计学特征,以及待清洗数据中表现出的统计学特征,确定对待清洗数据的清洗程度,能够实现数据清洗的效果。此外,即便是某些待清洗数据具备可以被清洗的属性,则这些数据能够通过调整数据的保留程度的方式保留下来,为后续的基于已清洗的数据的事故分析、质量分析提供条件。一方面,通过以管理、监督目的的数据处理,实现了基于贝叶斯理论的数据清洗。另一方面,通过本申请中的方法得到的清洗后的数据,为进一步地减少监督、管理资源的消耗提供了条件。

Description

一种基于贝叶斯算法的工业数据的清洗方法及系统
技术领域
本申请涉及适用于管理、监督或预测目的的数据处理技术领域,尤其涉及一种基于贝叶斯算法的工业数据的清洗方法及系统。
背景技术
贝叶斯定理又被称为贝叶斯公式、贝叶斯规则是概率统计中的应用所观察到的现象对有关概率分布的主观判断(即先验概率)进行修正的标准方法。
但行为经济学家发现,人们在决策过程中往往并不完全遵循贝叶斯规律,而是给予最近发生的事件和最新的经验以更多的权值,在决策和做出判断时过分看重近期的事件。面对复杂而笼统的问题,人们往往走捷径,依据可能性而非根据概率来决策。此种基于人工经验进行权重设定行为貌似背离了纯粹的概率论原理,但是,考虑到生产过程中涉及的影响产品质量的要素众多,而仅有其中的一部分能够以量化的数据进行表征,而采用人工经验进行权重设定、调整则能够一定程度的避免数据的片面性对观测结果造成过多的负面影响。但是,如何设定权重,则成为亟待解决的问题。
例如,公开(公告)号:CN107301499B,专利标题:“一种基于AMI数据的配电馈线统计线损率数据清洗方法”(主分类号:G06Q10/06),建立基于XGBOOST的配电馈线统计线损估计模型,并利用训练数据确定模型参数;利用上述估计模型对待清洗数据进行修,实现了数据清洗。一方面,能够说明监督或预测目的的数据处理技术在数据清洗相关技术领域大有可为;另一方面,也能够说明在该领域的技术挖掘还具有较为宽泛的扩展前景。
发明内容
本申请实施例提供了一种基于贝叶斯算法的工业数据的清洗方法及系统,以至少部分的解决上述技术问题。
本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种基于贝叶斯算法的工业数据的清洗方法,所述方法包括:
获取待清洗数据;
从所述待清洗数据中确定出第一数据;所述第一数据是对应于历史事件的数据;所述历史事件是历史上发生的指定事件;
基于所述待清洗数据,确定目标事件发生的概率,作为第一概率;所述目标事件是所述指定事件之一;
基于所述第一数据,确定在所述目标事件发生的情况下,除所述目标事件以外的所述指定事件发生的概率,作为第二概率;
基于所述第一概率和所述第二概率,确定第一权重;所述第一权重与所述第一概率负相关、且与所述第二概率正相关;
获取表征所述历史事件的历史数据;
基于所述历史数据,确定第二权重;所述第二权重与所述第一数据和所述历史数据的相似度正相关、且与指定系数正相关;所述指定系数是第三概率和第四概率的比值与1的差值;所述第三概率是基于所述历史数据确定出的所述目标事件在历史上发生的概率;所述第四概率是基于所述历史数据确定出的所述历史事件中除所述目标事件以外的指定事件在历史上发生的概率;
基于所述第一概率、所述第一权重和所述第二权重,确定目标系数;使得所述目标系数与所述第一概率、所述第一权重和所述第二权重均正相关;
若所述目标系数大于预设的第一系数阈值,则提高预设的清洗规则中,所述第一数据的保留程度。
在本说明书一个可选的实施例中,所述方法还包括:
若所述目标系数不大于所述第一系数阈值,则保持所述清洗规则中,所述第一数据的保留程度。
在本说明书一个可选的实施例中,所述方法还包括:
在所述差值小于预设的第二系数阈值时,则保留所有所述第一数据。
在本说明书一个可选的实施例中,所述方法还包括:
在所述目标事件是高风险事件时,将所述第一数据作为数据清洗的结果,进入下游处理环节。
在本说明书一个可选的实施例中,所述清洗规则包含以下至少一种:
清洗无效数据、清洗不完整数据、清洗重复数据。
在本说明书一个可选的实施例中,所述方法还包括:
对所述待清洗数据进行采样,得到第二数据;
若基于所述第二数据确定出的所述指定事件发生的概率大于预设的概率阈值,则执行数据清洗。
第二方面,本申请实施例还提供一种基于贝叶斯算法的工业数据的清洗系统,所述系统包括:
获取模块,配置为:获取待清洗数据;
第一数据确定模块,配置为:从所述待清洗数据中确定出第一数据;所述第一数据是对应于历史事件的数据;所述历史事件是历史上发生的指定事件;
第一概率确定模块,配置为:基于所述待清洗数据,确定目标事件发生的概率,作为第一概率;所述目标事件是所述指定事件之一;
第二概率确定模块,配置为:基于所述第一数据,确定在所述目标事件发生的情况下,除所述目标事件以外的所述指定事件发生的概率,作为第二概率;
第一权重确定模块,配置为:基于所述第一概率和所述第二概率,确定第一权重;所述第一权重与所述第一概率负相关、且与所述第二概率正相关;
历史数据确定模块,配置为:获取表征所述历史事件的历史数据;
第二权重确定模块,配置为:基于所述历史数据,确定第二权重;所述第二权重与所述第一数据和所述历史数据的相似度正相关、且与指定系数正相关;所述指定系数是第三概率和第四概率的比值与1的差值;所述第三概率是基于所述历史数据确定出的所述目标事件在历史上发生的概率;所述第四概率是基于所述历史数据确定出的所述历史事件中除所述目标事件以外的指定事件在历史上发生的概率;
目标系数确定模块,配置为:基于所述第一概率、所述第一权重和所述第二权重,确定目标系数;使得所述目标系数与所述第一概率、所述第一权重和所述第二权重均正相关;
清洗模块,配置为:若所述目标系数大于预设的第一系数阈值,则提高预设的清洗规则中,所述第一数据的保留程度。
第三方面,本申请实施例还提供一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行第一方面所述的方法步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行第一方面所述的方法步骤。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
在工业生产场景中,伴随着自动化、数字化的进一步普及,由此带来的工业数据多呈现出大数据的性质,一方面数据量较大,另一方面数据处理较为复杂,故此,有必要对工业数据进行清洗。通过本说明书中的方法,基于历史事件中表现出的统计学特征,以及待清洗数据中表现出的统计学特征,确定对待清洗数据的清洗程度。一方面能够实现数据清洗的效果,另一方面,即便是某些待清洗数据具备可以被清洗的属性,但是其能够通过数据格式、数据内容的异常反应出其所属的产品或者工艺过程的异常,则这些数据能够通过调整数据的保留程度的方式保留下来,为后续的基于已清洗的数据的事故分析、质量分析提供条件。一方面,通过以管理、监督目的的数据处理,实现了基于贝叶斯理论的数据清洗。另一方面,通过本申请中的方法得到的清洗后的数据,为进一步地减少监督、管理资源的消耗提供了条件。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书实施例提供的一种基于贝叶斯算法的工业数据的清洗方法的过程示意图;
图2为本说明书实施例中一种电子设备的结构示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其它元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。
以下结合附图,详细说明本申请各实施例提供的技术方案。
如图1所示,本说明书中的基于贝叶斯算法的工业数据的清洗方法包含以下步骤:
S100:获取待清洗数据。
本说明书中的待清洗数据是工业过程中生成的工业数据。例如,工业过程包含A、B、C三个工序,工业数据即为针对这三个工序涉及的设备、产品(或者中间产品)、生产环境采集的数据。本说明书中的方法对数据进行清洗的目的是:较少甚至完全去除无效数据、不完整数据、以及重复数据。但是,工业生产场景中,若连续性的出现某一工序的数据无效,则有可能是检测设备或者加工设备出现故障导致的,此时得到的无效数据能够反映出工序的异常。若直接将这部分数据清洗掉,则其表现出的问题也会被忽略,导致问题不会被及时的发现,有碍于工业过程的健康进行,也会对制得的产品的质量造成隐患。
在本说明书一个可选的实施例中,可以首先对所述待清洗数据进行采样,得到第二数据。若基于所述第二数据确定出的所述指定事件发生的概率大于预设的概率阈值(可以是经验值),表明指定事件发生的概率较大,则执行本步骤,以开始执行数据清洗。
S102:从所述待清洗数据中确定出第一数据。
本说明书中的所述第一数据是对应于历史事件的数据。所述历史事件是历史上发生的指定事件。至于指定事件具体为何,则可以根据实际的业务需求确定。例如,产品质量出现问题可以作为指定事件;再例如,B工序的加工设备出现了故障,导致作业无法进行,也可以作为指定事件。
例如,目标事件是B工序的加工设备故障。则第一数据是能够反映出B工序的加工设备故障这一问题的数据,如表征B工序产出的中间产品质量有问题的、针对该中间产品的质量的检测数据。
本说明书中的指定事件不唯一。一方面,能够全面地对各个环节可能存在的问题进行把控,另一方面,还能够通过本说明书中的方法考察事件之间的关联性。
S104:基于所述待清洗数据,确定目标事件发生的概率,作为第一概率。
本说明书中的目标事件是指定事件之一。目标事件即为指定事件中较为关注的事件。在目标事件为多个的情况下,可以针对每个目标事件分别执行本说明书中的方法。
具体地,在待清洗数据的量较大的情况下,可以对待清洗数据进行采样,基于采样的结果,计算第一概率。第一概率并非基于第一数据确定出来的,由于待清洗数据是对生产过程表征最全面的数据,则基于待清洗数据得到的第一概率融合的生产的全过程。
相关技术中,可以实现基于数据计算概率的技术手段,在条件允许的情况下,均适用于本说明书。例如贝叶斯算法。
S106:基于所述第一数据,确定在所述目标事件发生的情况下,除所述目标事件以外的指定事件发生的概率,作为第二概率。
本说明书中的第二概率是条件概率,即为目标事件发生的情况下,除所述目标事件以外的至少一个事件(例如工序A中的某一事故)发生的概率。除所述目标事件以外的指定事件,可以是目标事件之前发生的事件,也可能是目标事件之后发生的事件。
由于本说明书涉及的指定事件不唯一,若以所有待清洗数据确定第二概率,则会稀释目标事件与其他指定之间的关联性。
S108:基于所述第一概率和所述第二概率,确定第一权重。
本说明书中的第一权重与所述第一概率负相关、且与所述第二概率正相关。可以用于对目标事件和除目标事件以外的事件的关联性。若第一概率较低但不为零,而第二概率较高,则表明即便是目标事件发生的可能性很小,其他指定事件会被这较小的第一概率影响,而导致发生的概率较高。此时,目标事件和其他指定事件之间的关联关系表现为因果关系。第一权重可以视为表示因果关系的权重。
S110:获取表征所述历史事件的历史数据。
历史数据是待清洗数据之前采集的数据。例如,历史数据可以是历史上被清洗之后的待清洗数据。历史数据用于表征历史事件。
S112:基于所述历史数据,确定第二权重。
本说明书中的第二权重与所述第一数据和所述历史数据的相似度正相关(用以从数据的层面考察历史事件重现的可能性。通常情况下,对于成熟的生成过程来说,某一新的从未发生过的事件出现的概率较小,而历史事件重现的可能性较大。历史事件重现与生产设备、生产环境的关系较大。使得第二权重是历史经验对当前事件发生的概率的权重调整)、且与指定系数正相关。
本说明书中的指定系数是第三概率和第四概率的比值与1的差值。所述第三概率是基于所述历史数据确定出的所述目标事件在历史上发生的概率。所述第四概率是基于所述历史数据确定出的所述历史事件中除所述目标事件以外的指定事件在历史上发生的概率。第三概率和第四概率的比值可以用于表征在历史上,目标事件和指定事件中除目标事件以外的指定事件之间的关联性。若比值趋近于1,则表明两者之间的关联性较强,其中之一发生,则另一个较大概率的也会发生。可知,第二权重能够将历史事件之间的关联性这一人工经验进行量化。
S114:基于所述第一概率、所述第一权重和所述第二权重,确定目标系数。
本说明书中的目标系数与所述第一概率、所述第一权重和所述第二权重均正相关。目标系数是前述的各人工经验的综合。
S116:若所述目标系数大于预设的系数阈值,则提高预设的清洗规则中,所述第一数据的保留程度。
本说明书中的清洗规则包含以下至少一种:清洗无效数据、清洗不完整数据、清洗重复数据。相关技术中,用于分辨哪种数据符合清洗规则的技术手段,在条件允许的情况下,均适用于本说明书。
在本说明书一个可选的实施例中的系数阈值可以是经验值。在本说明书另一个可选的实施例中,系数阈值可以与指定事件在历史上发生的频率负相关。
保留程度的调整可以是:例如,某一数据包含a、b、c三个字段。在清洗规则是清洗不完整数据的情况下,则这三个字段无论哪个字段缺失,都应该被清洗掉。但是,采用本说明书中的方法,有可能会对清洗规则作出调整。例如,在提高数据的保留程度的情况下,这三个字段都缺失的情况下,这个数据才会被清洗掉,否则,这个数据会被保留,以将引起其缺失的问题体现在该数据中,在进入下流数据处理环节时,这可以通过该数据发现该问题。
在本说明书一个可选的实施例中,若所述目标系数不大于所述第一系数阈值,则保持所述清洗规则中,所述第一数据的保留程度。
在工业生产场景中,伴随着自动化、数字化的进一步普及,由此带来的工业数据多呈现出大数据的性质,一方面数据量较大,另一方面数据处理较为复杂,故此,有必要对工业数据进行清洗。通过本说明书中的方法,基于历史事件中表现出的统计学特征,以及待清洗数据中表现出的统计学特征,确定对待清洗数据的清洗程度。一方面能够实现数据清洗的效果,另一方面,即便是某些待清洗数据具备可以被清洗的属性,但是其能够通过数据格式、数据内容的异常反应出其所属的产品或者工艺过程的异常,则这些数据能够通过调整数据的保留程度的方式保留下来,为后续的基于已清洗的数据的事故分析、质量分析提供条件。
本说明书中的方法,旨在结合人工经验中事件之间的关联性,对数据清洗规则进行干预。为体现出这种干预的程度的变化,在本说明书一个可选的实施例中,在所述差值小于预设的第二系数阈值时表明事件的之间的关联性较强,则保留所有第一数据,则使得即便是第一数据确定出的目标事件的发生概率较低的情况下,也能够保留第一数据,使得第一数据体现出的除目标事件以外的、与目标事件相关联的其他指定事件的情况能够保留下来,以便于被下游数据处理过程中发现。其中,第二系数阈值可以是经验值,可以与目标事件的风险程度负相关。
此外,若所述差值小于预设的第二系数阈值,在所述目标事件是高风险事件时,则将所述第一数据作为数据清洗的结果,进入下游处理环节。高风险事件导致的后果较为严重,带来的损失较大,与之关联的事件通常也未必是风险可以忽略的事件,则直接将第一数据作为清洗的结果,下游的数据处理可以针对目标事件和与之关联的事件进行着重处理。
进一步地,本说明书还提供一种基于贝叶斯算法的工业数据的清洗系统,所述系统包括:
获取模块,配置为:获取待清洗数据;
第一数据确定模块,配置为:从所述待清洗数据中确定出第一数据;所述第一数据是对应于历史事件的数据;所述历史事件是历史上发生的指定事件;
第一概率确定模块,配置为:基于所述待清洗数据,确定目标事件发生的概率,作为第一概率;所述目标事件是所述指定事件之一;
第二概率确定模块,配置为:基于所述第一数据,确定在所述目标事件发生的情况下,除所述目标事件以外的所述指定事件发生的概率,作为第二概率;
第一权重确定模块,配置为:基于所述第一概率和所述第二概率,确定第一权重;所述第一权重与所述第一概率负相关、且与所述第二概率正相关;
历史数据确定模块,配置为:获取表征所述历史事件的历史数据;
第二权重确定模块,配置为:基于所述历史数据,确定第二权重;所述第二权重与所述第一数据和所述历史数据的相似度正相关、且与指定系数正相关;所述指定系数是第三概率和第四概率的比值与1的差值;所述第三概率是基于所述历史数据确定出的所述目标事件在历史上发生的概率;所述第四概率是基于所述历史数据确定出的所述历史事件中除所述目标事件以外的指定事件在历史上发生的概率;
目标系数确定模块,配置为:基于所述第一概率、所述第一权重和所述第二权重,确定目标系数;使得所述目标系数与所述第一概率、所述第一权重和所述第二权重均正相关;
清洗模块,配置为:若所述目标系数大于预设的第一系数阈值,则提高预设的清洗规则中,所述第一数据的保留程度。
该系统能够执行前述任一实施例中的方法,并能够获得相同或相似的技术效果,此处不再赘述。
图2是本申请的一个实施例电子设备的结构示意图。请参考图2,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成一种基于贝叶斯算法的工业数据的清洗系统。处理器,执行存储器所存放的程序,并具体用于执行前述任意一种基于贝叶斯算法的工业数据的清洗方法。
上述如本申请图1所示实施例揭示的一种基于贝叶斯算法的工业数据的清洗方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1中一种基于贝叶斯算法的工业数据的清洗方法,并实现图1所示实施例的功能,本申请实施例在此不再赘述。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,执行前述的任意一种基于贝叶斯算法的工业数据的清洗方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品,该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (9)

1.一种基于贝叶斯算法的工业数据的清洗方法,其特征在于,所述方法包括:
获取待清洗数据;待清洗数据是工业过程中生成的工业数据,工业数据即为针对工序涉及的设备、产品、生产环境采集的数据;
从所述待清洗数据中确定出第一数据;所述第一数据是对应于历史事件的数据;所述历史事件是历史上发生的指定事件;
基于所述待清洗数据,确定目标事件发生的概率,作为第一概率;所述目标事件是所述指定事件之一,目标事件是工序的加工设备故障事件,将历史事件中加工设备故障或者质量不达标以及作业无法进行的事件作为指定事件;
基于所述第一数据,确定在所述目标事件发生的情况下,除所述目标事件以外的所述指定事件发生的概率,作为第二概率;
基于所述第一概率和所述第二概率,确定第一权重;所述第一权重与所述第一概率负相关、且与所述第二概率正相关;
获取表征所述历史事件的历史数据;
基于所述历史数据,确定第二权重;所述第二权重与所述第一数据和所述历史数据的相似度正相关、且与指定系数正相关;所述指定系数是第三概率和第四概率的比值与1的差值;所述第三概率是基于所述历史数据确定出的所述目标事件在历史上发生的概率;所述第四概率是基于所述历史数据确定出的所述历史事件中除所述目标事件以外的指定事件在历史上发生的概率;
基于所述第一概率、所述第一权重和所述第二权重,确定目标系数;使得所述目标系数与所述第一概率、所述第一权重和所述第二权重均正相关;
若所述目标系数大于预设的第一系数阈值,则提高预设的清洗规则中,所述第一数据的保留程度。
2.如权利要求1所述方法,其特征在于,所述方法还包括:
若所述目标系数不大于所述第一系数阈值,则保持所述清洗规则中,所述第一数据的保留程度。
3.如权利要求1所述方法,其特征在于,所述方法还包括:
在所述差值小于预设的第二系数阈值时,则保留所有所述第一数据。
4.如权利要求3所述方法,其特征在于,所述方法还包括:
在所述目标事件是高风险事件时,将所述第一数据作为数据清洗的结果,进入下游处理环节。
5.如权利要求1所述方法,其特征在于,所述清洗规则包含以下至少一种:
清洗无效数据、清洗不完整数据、清洗重复数据。
6.如权利要求1所述方法,其特征在于,所述方法还包括:
对所述待清洗数据进行采样,得到第二数据;
若基于所述第二数据确定出的所述指定事件发生的概率大于预设的概率阈值,则执行数据清洗。
7.一种基于贝叶斯算法的工业数据的清洗系统,其特征在于,所述系统包括:
获取模块,配置为:获取待清洗数据;
第一数据确定模块,配置为:从所述待清洗数据中确定出第一数据;所述第一数据是对应于历史事件的数据;所述历史事件是历史上发生的指定事件;待清洗数据是工业过程中生成的工业数据,工业数据即为针对工序涉及的设备、产品、生产环境采集的数据;
第一概率确定模块,配置为:基于所述待清洗数据,确定目标事件发生的概率,作为第一概率;所述目标事件是所述指定事件之一,目标事件是工序的加工设备故障事件,将历史事件中加工设备故障或者质量不达标以及作业无法进行的事件作为指定事件;
第二概率确定模块,配置为:基于所述第一数据,确定在所述目标事件发生的情况下,除所述目标事件以外的所述指定事件发生的概率,作为第二概率;
第一权重确定模块,配置为:基于所述第一概率和所述第二概率,确定第一权重;所述第一权重与所述第一概率负相关、且与所述第二概率正相关;
历史数据确定模块,配置为:获取表征所述历史事件的历史数据;
第二权重确定模块,配置为:基于所述历史数据,确定第二权重;所述第二权重与所述第一数据和所述历史数据的相似度正相关、且与指定系数正相关;所述指定系数是第三概率和第四概率的比值与1的差值;所述第三概率是基于所述历史数据确定出的所述目标事件在历史上发生的概率;所述第四概率是基于所述历史数据确定出的所述历史事件中除所述目标事件以外的指定事件在历史上发生的概率;
目标系数确定模块,配置为:基于所述第一概率、所述第一权重和所述第二权重,确定目标系数;使得所述目标系数与所述第一概率、所述第一权重和所述第二权重均正相关;
清洗模块,配置为:若所述目标系数大于预设的第一系数阈值,则提高预设的清洗规则中,所述第一数据的保留程度。
8.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行所述权利要求1~6之任一所述方法。
9.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行所述权利要求1~6之任一所述方法。
CN202311416275.9A 2023-10-30 2023-10-30 一种基于贝叶斯算法的工业数据的清洗方法及系统 Active CN117150225B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311416275.9A CN117150225B (zh) 2023-10-30 2023-10-30 一种基于贝叶斯算法的工业数据的清洗方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311416275.9A CN117150225B (zh) 2023-10-30 2023-10-30 一种基于贝叶斯算法的工业数据的清洗方法及系统

Publications (2)

Publication Number Publication Date
CN117150225A CN117150225A (zh) 2023-12-01
CN117150225B true CN117150225B (zh) 2024-01-19

Family

ID=88908407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311416275.9A Active CN117150225B (zh) 2023-10-30 2023-10-30 一种基于贝叶斯算法的工业数据的清洗方法及系统

Country Status (1)

Country Link
CN (1) CN117150225B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291774A (zh) * 2018-12-07 2020-06-16 国网江苏省电力有限公司南京供电分公司 一种基于贝叶斯统计决策的电网事件分拣方法及其装置
CN115700494A (zh) * 2022-09-16 2023-02-07 哈尔滨工业大学 一种基于贝叶斯推理的轨道交通监测数据清洗方法及系统
CN116933979A (zh) * 2023-09-14 2023-10-24 中国标准化研究院 一种基于贝叶斯算法的标准样品定值方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220198256A1 (en) * 2020-12-18 2022-06-23 Nb Ventures, Inc. Dba Gep Artificial intelligence based operations in enterprise application

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291774A (zh) * 2018-12-07 2020-06-16 国网江苏省电力有限公司南京供电分公司 一种基于贝叶斯统计决策的电网事件分拣方法及其装置
CN115700494A (zh) * 2022-09-16 2023-02-07 哈尔滨工业大学 一种基于贝叶斯推理的轨道交通监测数据清洗方法及系统
CN116933979A (zh) * 2023-09-14 2023-10-24 中国标准化研究院 一种基于贝叶斯算法的标准样品定值方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PClean: bayesian data cleaning at scale with domain-specific probabilistic programming;Alexander Lew 等;《Proceedings of the 24th internationalconference on artificial intelligence and statistics》;第1927-1935页 *
采油工程领域的数据清洗方法研究;吴运驰 等;《电脑知识》;第19卷(第3期);第86-88页 *

Also Published As

Publication number Publication date
CN117150225A (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
CN107528722B (zh) 一种时间序列中异常点检测方法及装置
Guo et al. Real time traffic flow outlier detection using short-term traffic conditional variance prediction
CN109981328B (zh) 一种故障预警方法及装置
US11968106B2 (en) Method and apparatus for monitoring state of blockchain consensus node
US10901401B2 (en) Plan generation apparatus, method and computer readable medium for multi-process production of intermediate product
CN109783486B (zh) 数据清洗方法、装置及服务器
CN101997709B (zh) 一种根告警数据分析的方法及其系统
CN113590429B (zh) 一种服务器故障诊断方法、装置及电子设备
CN114444827B (zh) 一种集群性能的评估方法和装置
CN115454778A (zh) 大规模云网络环境下的时序指标异常智能监控系统
CN112379325A (zh) 一种用于智能电表的故障诊断方法及系统
CN115964211A (zh) 一种根因定位方法、装置、设备和可读介质
KR101960755B1 (ko) 미취득 전력 데이터 생성 방법 및 장치
CN113992602B (zh) 一种电缆监测数据上传方法、装置、设备以及存储介质
CN113065234B (zh) 一种智能电表的批次可靠性风险等级评估方法及系统
CN117150225B (zh) 一种基于贝叶斯算法的工业数据的清洗方法及系统
CN112597255A (zh) 一种确定异常数据的方法及装置
CN117113247A (zh) 基于二分类和聚类算法的排水系统异常监测方法、设备及存储介质
CN110874652B (zh) 一种设备状态评价方法、装置、设备及系统
CN116668264A (zh) 一种告警聚类的根因分析方法、装置、设备及存储介质
CN110955587A (zh) 一种待更换设备确定方法及装置
Laumonier et al. Towards alarm flood reduction
CN112084648B (zh) 设备剩余使用寿命的预测方法、装置及电子设备
CN114429240A (zh) 高速公路设备运行状态监测方法及装置
CN113219939A (zh) 基于残差自回归的设备故障预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant