CN114237915B - 分布式环境下基于机器学习的数据修复方法、装置及设备 - Google Patents

分布式环境下基于机器学习的数据修复方法、装置及设备 Download PDF

Info

Publication number
CN114237915B
CN114237915B CN202210150610.4A CN202210150610A CN114237915B CN 114237915 B CN114237915 B CN 114237915B CN 202210150610 A CN202210150610 A CN 202210150610A CN 114237915 B CN114237915 B CN 114237915B
Authority
CN
China
Prior art keywords
data
local
repaired
missing
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210150610.4A
Other languages
English (en)
Other versions
CN114237915A (zh
Inventor
陈晓红
龚思远
曹文治
胡东滨
胡春华
徐雪松
梁伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202210150610.4A priority Critical patent/CN114237915B/zh
Publication of CN114237915A publication Critical patent/CN114237915A/zh
Application granted granted Critical
Publication of CN114237915B publication Critical patent/CN114237915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种分布式环境下基于机器学习的数据修复方法、装置、设备及介质,包括:每个节点服务器对本地数据集进行缺失数据分离处理,得到本地完整数据集和本地待修复数据集,获取本地完整数据集的数据数量和数据维度,并基于数据数量、数据维度和本地待修复数据集的缺失特征,对本地完整数据集进行数据缺失模拟处理,得到本地模拟待修复数据集,确定模拟待修复集合,并基于模拟待修复集合和每个节点服务器的本地数据集,进行本地数据修复,得到修复训练集,使用修复训练集对二次修复模型进行模型训练,得到训练好的二次修复模型,采用训练好的二次修复模型对待修复数据集进行修复。采用本发明提高数据修复的效率和准确性。

Description

分布式环境下基于机器学习的数据修复方法、装置及设备
技术领域
本发明涉及数据处理领域,尤其涉及一种分布式环境下基于机器学习的数据修复方法、装置、计算机设备及介质。
背景技术
随着工业互联网平台的建设日益成熟,智能制造作为工业互联网的核心,对于发展先进制造业成为了极其关键的存在。智能制造贯穿于设计、生产、管理、服务等制造活动的各个环节,涵盖感知层、网络层、执行层和应用层四个层次,具有自感知、自学习、自决策、自执行、自适应等功能,其中,感知层由各种行业传感器、大量联网设备和RFID等组成,为智能制造生产后续流程提供充实的数据支持。但在实际环境中,往往会由于外界环境因素或时间带来的机械损耗出现某些传感器暂时失灵或者故障失效的情况,从而造成某段时间内数据缺失或保存失败等不良情况,导致系统对具体生产情况无法进行准确描述而影响生产。因此,在智能制造工业流程数据质量管理的过程中,自动化数据异常检测与修复是保证智能制造执行层和应用层正常运作必不可少的一环。另一方面,随着大量传感器的应用,传统的数据存储方式已经不能支持工业互联网的数据存储,目前一般采用分布式大数据存储方式,存储方式的改变也给智能制造工业数据的修复带来困难。
现有方式中,公开号为CN111858572B的专利文献公开了一种基于数据分析的分布式数据清洗系统,该基于数据分析的分布式数据清洗系统,包括多元异构数据库,存储用户模型、元数据元素以及与其有对应关系的源数据元素;以及至少一个以上的处理单元,可操作来:提取多元异构数据库的用户模型、元数据元素以及源数据元素;选出初始元数据元素;选择所述用户模型的至少一个以上的数据属性项作为关系参数,所述关系参数对应的预设加权值,提取元数据集Q;对元数据集Q中的所述元数据元素进行清洗;本发明基于用户模型配合关系参数的选定能够筛选多个类别的元数据集,对于各个类别的元数据集可以选定针对的清洗规则,提高清洗速度,具有较高的灵活度和实用性,提高了数据清洗的可控性。
现有方式中,公开号为CN106933992B的专利文献公开了一种基于数据分析的分布式数据清洗系统及方法。该系统包括:传感器网络,包括多个传感器;数据采集节点,包括数据清洗引擎和数据清洗规则库;数据服务器,包括数据库、数据有效性分析模块、数据清洗规则生成模块和数据清洗规则发布模块。该方法包括:通过传感器网络中的多个传感器采集第一数据;在数据采集节点中根据第一数据生成第二数据;在数据服务器中,根据第二数据,利用数据库、数据有效性分析模块、数据清洗规则生成模块和数据清洗规则发布模块完成数据清洗。本发明的系统和方法能够自适应地调整数据清洗规则,提高分布式传感器网络部署的效率,并及时消除新产生的干扰对采集系统的影响。
发明人在实现本发明的过程中,意识到现有技术至少存在如下技术问题:基于智能制造产业数据体量大、数据存储分布的特性,现有的数据修复方式存在复用性低、并行化不足、移植困难等难点与问题,导致数据修复效率不高。
发明内容
本发明实施例提供一种分布式环境下基于机器学习的数据修复方法、装置、计算机设备和存储介质,以提高数据修复的效率。
为了解决上述技术问题,本申请实施例提供一种分布式环境下基于机器学习的数据修复方法,应用于分布式集群,所述分布式集群包括多个节点服务器,所述分布式环境下基于机器学习的数据修复方法包括:
每个所述节点服务器对本地数据集进行缺失数据分离处理,得到本地完整数据集和本地待修复数据集;
每个所述节点服务器通过并行的方式,获取所述本地完整数据集的数据数量和数据维度,并基于所述数据数量、数据维度和本地待修复数据集的缺失特征,对所述本地完整数据集进行数据缺失模拟处理,得到本地模拟待修复数据集;
每个所述节点服务器基于所述本地模拟待修复数据集,确定模拟待修复集合,并基于所述模拟待修复集合和每个所述节点服务器的本地数据集,进行本地数据修复,得到修复训练集;
采用机器学习模型构建二次修复模型,并使用所述修复训练集对所述二次修复模型进行模型训练,得到训练好的二次修复模型;
采用所述训练好的二次修复模型对所述待修复数据集进行修复得到本节点的修复结果。
可选地,所述基于所述数据数量、数据维度和本地待修复数据集的缺失特征,对所述本地完整数据集进行数据缺失模拟处理,得到本地模拟待修复数据集包括:
基于统计学的方式,统计所述待修复数据集的缺失特征,所述缺失特征包括数据缺失率、缺失维度关联度和缺失维度概率;
基于所述缺失特征,对所述完整数据集进行模拟数据缺失操作,得到所述本地模拟待修复数据集。
可选地,所述基于所述模拟待修复集合和每个所述节点服务器的本地数据集,进行本地数据修复,得到修复训练集包括:
针对第i个节点服务器,从所述模拟待修复集合中,获取与所述节点服务器的本地完整数据集中数量相同的数据,作为所述节点服务器对应的待修复数据;
基于分布式的方式,在其余节点服务器中,并行采用本地数据集对所述待修复数据进行修复处理,得到分布式修复结果;
对所述分布式修复结果进行汇总,得到所述节点服务器对应的修复数据对应的修复数据;
将每个所述节点服务器对应的修复数据汇总,得到所述修复训练集。
可选地,所述机器学习模型为卷积神经网络或支持向量机中的任意一种。
可选地,所述基于分布式的方式,在其余节点服务器中,并行采用本地数据集对所述待修复数据进行修复处理,得到分布式修复结果包括:基于K-means聚类方式,对所述待修复数据进行修复处理。
为了解决上述技术问题,本申请实施例还提供一种分布式环境下基于机器学习的数据修复装置,包括:
数据分离模块,用于每个所述节点服务器对本地数据集进行缺失数据分离处理,得到本地完整数据集和本地待修复数据集;
缺失模拟模块,用于每个所述节点服务器通过并行的方式,获取所述本地完整数据集的数据数量和数据维度,并基于所述数据数量、数据维度和本地待修复数据集的缺失特征,对所述本地完整数据集进行数据缺失模拟处理,得到本地模拟待修复数据集;
本地修复模块,用于每个所述节点服务器基于所述本地模拟待修复数据集,确定模拟待修复集合,并基于所述模拟待修复集合和每个所述节点服务器的本地数据集,进行本地数据修复,得到修复训练集;
二次修复模块,用于采用机器学习模型构建二次修复模型,并使用所述修复训练集对所述二次修复模型进行模型训练,得到训练好的二次修复模型;
结果汇总模块,用于采用所述训练好的二次修复模型对所述待修复数据集进行修复得到本节点的修复结果。
可选地,所述缺失模拟模块包括:
数据统计单元,用于基于统计学的方式,统计所述待修复数据集的缺失特征,所述缺失特征包括数据缺失率、缺失维度关联度和缺失维度概率;
缺失模拟单元,用于基于所述缺失特征,对所述完整数据集进行模拟数据缺失操作,得到所述本地模拟待修复数据集。
可选地,所述本地修复模块包括:
待修复数据确定单元,用于针对第i个节点服务器,从所述模拟待修复集合中,获取与所述节点服务器的本地完整数据集中数量相同的数据,作为所述节点服务器对应的待修复数据;
分布式修复单元,用于基于分布式的方式,在其余节点服务器中,并行采用本地数据集对所述待修复数据进行修复处理,得到分布式修复结果;
分布式修复结果汇总单元,用于对所述分布式修复结果进行汇总,得到所述节点服务器对应的修复数据对应的修复数据;
训练集确定单元,用于将每个所述节点服务器对应的修复数据汇总,得到所述修复训练集。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述分布式环境下基于机器学习的数据修复方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述分布式环境下基于机器学习的数据修复方法的步骤。
本发明实施例提供的分布式环境下基于机器学习的数据修复方法、装置、计算机设备及存储介质,通过每个节点服务器对本地数据集进行缺失数据分离处理,得到本地完整数据集和本地待修复数据集,每个节点服务器通过并行的方式,获取本地完整数据集的数据数量和数据维度,并基于数据数量、数据维度和本地待修复数据集的缺失特征,对本地完整数据集进行数据缺失模拟处理,得到本地模拟待修复数据集,每个节点服务器基于本地模拟待修复数据集,确定模拟待修复集合,并基于模拟待修复集合和每个节点服务器的本地数据集,进行本地数据修复,得到修复训练集,采用机器学习模型构建二次修复模型,并使用修复训练集对二次修复模型进行模型训练,得到训练好的二次修复模型,采用训练好的二次修复模型对待修复数据集进行修复得到本节点的修复结果。通过分布式节点本地运行修复算法对本地数据进行修复能有效地实现并行化,同时将待修复数据在各个分布式节点中依次修复,而后将各节点修复结果通过机器学习模型融合得到最终修复结果,避免由于各节点上本地数据均是整体数据的一部分,局部数据因缺失整体数据特性的感知使修复结果存在偏差,提高数据修复的效率和准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请的分布式环境下基于机器学习的数据修复方法的一个实施例的流程图;
图3是本申请一个卷积神经网络的结构示例图;
图4是根据本申请的分布式环境下基于机器学习的数据修复装置的一个实施例的结构示意图;
图5是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture E界面显示perts Group Audio Layer III,动态影像专家压缩标准音频层面3 )、MP4( MovingPicture E界面显示perts Group Audio Layer IV,动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的分布式环境下基于机器学习的数据修复方法由服务器执行,相应地,分布式环境下基于机器学习的数据修复装置设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器,本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。
请参阅图2,图2示出本发明实施例提供的一种分布式环境下基于机器学习的数据修复方法,以该方法应用在图1中的服务端为例进行说明,详述如下:
S201:每个节点服务器对本地数据集进行缺失数据分离处理,得到本地完整数据集和本地待修复数据集。
在每个节点服务器中,存储有本地数据集,在本地数据集中,存在部分数据完整,部分数据缺失,本实施例中,需要对缺失的数据进行修复,具体地,每个节点服务器对自身的本地数据集进行缺失数据分离处理,得到本地完整数据集和本地待修复数据集。
在一具体可选实施方式中,进行缺失数据分离,是采用将每个数据维度与预设的完整维度进行对比确定,在数据维度包含完整维度中的每个维度时,确认数据为完整数据,放入完整数据集,否则,确认数据为缺失数据,放入本地待修复数据集。
在另一具体可选实施方式中,进行缺失数据分离,是采用对所有数据的维度进行统计,得到维度清单,进而将每个数据维度与维度清单进行对比,在数据维度包含维度清单中的每个维度时,确认数据为完整数据,放入完整数据集,否则,确认数据为缺失数据,放入本地待修复数据集。
示例性地,对分布式数据
Figure 753209DEST_PATH_IMAGE001
,其中,n为节点的数量,在第i个节点本地对
Figure 844662DEST_PATH_IMAGE002
分离缺失数据,形成完整数据集
Figure 85151DEST_PATH_IMAGE003
和本地待修复数据集
Figure 894844DEST_PATH_IMAGE004
,其中,i为第i个节点服务器,H为所有节点的数据集合,G为第i个节点服务器中的完整数据集,L为第i个节点服务器的本地待修复数据集。
S202:每个节点服务器通过并行的方式,获取本地完整数据集的数据数量和数据维度,并基于数据数量、数据维度和本地待修复数据集的缺失特征,对本地完整数据集进行数据缺失模拟处理,得到本地模拟待修复数据集。
在一具体可选实施方式中,步骤S202中,基于数据数量、数据维度和本地待修复数据集的缺失特征,对本地完整数据集进行数据缺失模拟处理,得到本地模拟待修复数据集包括:
基于统计学的方式,统计待修复数据集的缺失特征,缺失特征包括数据缺失率、缺失维度关联度和缺失维度概率;
基于缺失特征,对完整数据集进行模拟数据缺失操作,得到本地模拟待修复数据集。
其中,在一示例中,基于统计学的方式,统计待修复数据集的缺失特征,具体包括:
数据缺失率(缺失数据占数据总数的比率);
缺失维度关联度(a, b维度同时缺失数据数量占a维度或b维度单独缺失数据数量的百分比);
缺失维度概率(记a维度缺失数据数量为
Figure 511770DEST_PATH_IMAGE005
,a维度数据总数为r,则缺失维度概率公式为
Figure 598674DEST_PATH_IMAGE006
)。
S203:每个节点服务器基于本地模拟待修复数据集,确定模拟待修复集合,并基于模拟待修复集合和每个节点服务器的本地数据集,进行本地数据修复,得到修复训练集。
在一具体可选实施方式中,步骤S203中,基于模拟待修复集合和每个节点服务器的本地数据集,进行本地数据修复,得到修复训练集包括:
针对第i个节点服务器,从模拟待修复集合中,获取与节点服务器的本地完整数据集中数量相同的数据,作为节点服务器对应的待修复数据;
基于分布式的方式,在其余节点服务器中,并行采用本地数据集对待修复数据进行修复处理,得到分布式修复结果;
对分布式修复结果进行汇总,得到节点服务器对应的修复数据对应的修复
Figure 275643DEST_PATH_IMAGE007
将每个节点服务器对应的修复数据汇总,得到修复训练集。
可选地,基于分布式的方式,在其余节点服务器中,并行采用本地数据集对待修复数据进行修复处理,得到分布式修复结果包括:基于K-means聚类方式,对待修复数据进行修复处理。
在一示例中,每个节点都形成本地模拟待修复集
Figure 572633DEST_PATH_IMAGE009
,其中
Figure 727670DEST_PATH_IMAGE010
,最终得到模拟待修复集合
Figure 934661DEST_PATH_IMAGE011
;以分布式节点
Figure 553771DEST_PATH_IMAGE012
为例进行说明,在模拟待修复集合M中提取数据
Figure 573942DEST_PATH_IMAGE013
,其中
Figure 267092DEST_PATH_IMAGE014
Figure 922064DEST_PATH_IMAGE015
的数据个数。在每个分布式节点利用其本地数据集进行修复,根据实际需求可选用不同修复方法,本发明选用K-means聚类算法为例,对模拟待修复集进行修复处理,得到分布式节点
Figure 940836DEST_PATH_IMAGE012
上待修复数据
Figure 87783DEST_PATH_IMAGE007
修复结果;在其他节点上,并行的使用K-means聚类算法对待修复数据进行修复,得到模拟待修复数据
Figure 627699DEST_PATH_IMAGE007
在所有分布式节点上的修复结果集合,并将完整集
Figure 137178DEST_PATH_IMAGE015
中模拟缺失数据的真实值
Figure 795692DEST_PATH_IMAGE016
和模拟待修复数据
Figure 288991DEST_PATH_IMAGE007
修复结果集合组合形成修复训练数据,作为分布式修复结果,为后续形成机器学习训练集做准备。
S204:采用机器学习模型构建二次修复模型,并使用修复训练集对二次修复模型进行模型训练,得到训练好的二次修复模型。
可选地,机器学习模型为卷积神经网络或支持向量机中的任意一种。
优选地,本发明通过卷积神经网络的的卷积层、池化层、全连接层构建二次修复模型,网络结构如图3所示,本实施例以此结构为例,具体使用不限于该结构。
S205:采用训练好的二次修复模型对待修复数据集进行修复得到本节点的修复结果。
具体地,每个节点服务器采用训练好的二次修复模型对待修复数据集进行修复得到本节点的修复结果。
本实施例中,每个节点服务器对本地数据集进行缺失数据分离处理,得到本地完整数据集和本地待修复数据集,每个节点服务器通过并行的方式,获取本地完整数据集的数据数量和数据维度,并基于数据数量、数据维度和本地待修复数据集的缺失特征,对本地完整数据集进行数据缺失模拟处理,得到本地模拟待修复数据集,每个节点服务器基于本地模拟待修复数据集,确定模拟待修复集合,并基于模拟待修复集合和每个节点服务器的本地数据集,进行本地数据修复,得到修复训练集,采用机器学习模型构建二次修复模型,并使用修复训练集对二次修复模型进行模型训练,得到训练好的二次修复模型,采用训练好的二次修复模型对待修复数据集进行修复得到本节点的修复结果。通过分布式节点本地运行修复算法对本地数据进行修复能有效地实现并行化,同时将待修复数据在各个分布式节点中依次修复,而后将各节点修复结果通过机器学习模型融合得到最终修复结果,避免由于各节点上本地数据均是整体数据的一部分,局部数据因缺失整体数据特性的感知使修复结果存在偏差,提高数据修复的效率和准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图4示出与上述实施例分布式环境下基于机器学习的数据修复方法一一对应的分布式环境下基于机器学习的数据修复装置的原理框图。如图4所示,该分布式环境下基于机器学习的数据修复装置包括数据分离模块31、缺失模拟模块32、本地修复模块33、二次修复模块34和结果汇总模块35。各功能模块详细说明如下:
数据分离模块31,用于每个节点服务器对本地数据集进行缺失数据分离处理,得到本地完整数据集和本地待修复数据集;
缺失模拟模块32,用于每个节点服务器通过并行的方式,获取本地完整数据集的,并基于数据数量、数据维度和本地待修复数据集的缺失特征,对本地完整数据集进行数据缺失模拟处理,得到本地模拟待修复数据集;
本地修复模块33,用于每个节点服务器基于本地模拟待修复数据集,确定模拟待修复集合,并基于模拟待修复集合和每个节点服务器的本地数据集,进行本地数据修复,得到修复训练集;
二次修复模块34,用于采用机器学习模型构建二次修复模型,并使用修复训练集对二次修复模型进行模型训练,得到训练好的二次修复模型;
结果汇总模块35,用于采用训练好的二次修复模型对待修复数据集进行修复得到本节点的修复结果。
可选地,缺失模拟模块32包括:
数据统计单元,用于基于统计学的方式,统计待修复数据集的缺失特征,缺失特征包括数据缺失率、缺失维度关联度和缺失维度概率;
缺失模拟单元,用于基于缺失特征,对完整数据集进行模拟数据缺失操作,得到本地模拟待修复数据集。
可选地,本地修复模块33包括:
待修复数据确定单元,用于针对第i个节点服务器,从模拟待修复集合中,获取与节点服务器的本地完整数据集中数量相同的数据,作为节点服务器对应的待修复数据;
分布式修复单元,用于基于分布式的方式,在其余节点服务器中,并行采用本地数据集对待修复数据进行修复处理,得到分布式修复结果;
分布式修复结果汇总单元,用于对分布式修复结果进行汇总,得到节点服务器对应的修复数据;
训练集确定单元,用于将每个节点服务器对应的修复数据汇总,得到修复训练集。
关于分布式环境下基于机器学习的数据修复装置的具体限定可以参见上文中对于分布式环境下基于机器学习的数据修复方法的限定,在此不再赘述。上述分布式环境下基于机器学习的数据修复装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图5,图5为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器 (Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如电子文件的控制的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据,例如运行电子文件的控制的程序代码。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的分布式环境下基于机器学习的数据修复方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种分布式环境下基于机器学习的数据修复方法,其特征在于,应用于分布式集群,所述分布式集群包括多个节点服务器,所述分布式环境下基于机器学习的数据修复方法包括:
每个所述节点服务器对本地数据集进行缺失数据分离处理,得到本地完整数据集和本地待修复数据集;
每个所述节点服务器通过并行的方式,获取所述本地完整数据集的数据数量和数据维度,并基于所述数据数量、数据维度和本地待修复数据集的缺失特征,对所述本地完整数据集进行数据缺失模拟处理,得到本地模拟待修复数据集;
每个所述节点服务器基于所述本地模拟待修复数据集,确定模拟待修复集合,并基于所述模拟待修复集合和其余节点服务器的本地数据集,在其余节点服务器上进行本地数据修复,对得到的每个修复结果进行汇总得到修复训练集;
采用机器学习模型构建二次修复模型,并使用所述修复训练集对所述二次修复模型进行模型训练,得到训练好的二次修复模型;
采用所述训练好的二次修复模型对所述待修复数据集进行修复得到本节点的修复结果。
2.如权利要求1所述的分布式环境下基于机器学习的数据修复方法,其特征在于,所述基于所述数据数量、数据维度和本地待修复数据集的缺失特征,对所述本地完整数据集进行数据缺失模拟处理,得到本地模拟待修复数据集包括:
基于统计学的方式,统计所述待修复数据集的缺失特征,所述缺失特征包括数据缺失率、缺失维度关联度和缺失维度概率;
基于所述缺失特征,对所述完整数据集进行模拟数据缺失操作,得到所述本地模拟待修复数据集。
3.如权利要求1所述的分布式环境下基于机器学习的数据修复方法,其特征在于,所述基于所述模拟待修复集合和其余节点服务器的本地数据集,在其余节点服务器上进行本地数据修复,对得到的每个修复结果进行汇总得到修复训练集包括:
针对第i个节点服务器,从所述模拟待修复集合中,获取与所述节点服务器的本地完整数据集中数量相同的数据,作为所述节点服务器对应的待修复数据;
基于分布式的方式,在其余节点服务器中,并行采用本地数据集对所述待修复数据进行修复处理,得到分布式修复结果;
对所述分布式修复结果进行汇总,得到所述节点服务器对应的修复数据对应的修复数据;
将每个所述节点服务器对应的修复数据汇总,得到所述修复训练集。
4.如权利要求1所述的分布式环境下基于机器学习的数据修复方法,其特征在于,所述机器学习模型为卷积神经网络或支持向量机中的任意一种。
5.如权利要求1所述的分布式环境下基于机器学习的数据修复方法,其特征在于,所述基于分布式的方式,在其余节点服务器中,并行采用本地数据集对所述待修复数据进行修复处理,得到分布式修复结果包括:基于K-means聚类方式,对所述待修复数据进行修复处理。
6.一种分布式环境下基于机器学习的数据修复装置,其特征在于,所述分布式环境下基于机器学习的数据修复装置包括:
数据分离模块,用于每个节点服务器对本地数据集进行缺失数据分离处理,得到本地完整数据集和本地待修复数据集;
缺失模拟模块,用于每个所述节点服务器通过并行的方式,获取所述本地完整数据集的数据数量和数据维度,并基于所述数据数量、数据维度和本地待修复数据集的缺失特征,对所述本地完整数据集进行数据缺失模拟处理,得到本地模拟待修复数据集;
本地修复模块,用于每个所述节点服务器基于所述本地模拟待修复数据集,确定模拟待修复集合,并基于所述模拟待修复集合和其余节点服务器的本地数据集,在其余节点服务器上进行本地数据修复,对得到的每个修复结果进行汇总得到修复训练集;
二次修复模块,用于采用机器学习模型构建二次修复模型,并使用所述修复训练集对所述二次修复模型进行模型训练,得到训练好的二次修复模型;
结果汇总模块,用于采用所述训练好的二次修复模型对所述待修复数据集进行修复得到本节点的修复结果。
7.如权利要求6所述的分布式环境下基于机器学习的数据修复装置,其特征在于,所述缺失模拟模块包括:
数据统计单元,用于基于统计学的方式,统计所述待修复数据集的缺失特征,所述缺失特征包括数据缺失率、缺失维度关联度和缺失维度概率;
缺失模拟单元,用于基于所述缺失特征,对所述完整数据集进行模拟数据缺失操作,得到所述本地模拟待修复数据集。
8.如权利要求6所述的分布式环境下基于机器学习的数据修复装置,其特征在于,所述本地修复模块包括:
待修复数据确定单元,用于针对第i个节点服务器,从所述模拟待修复集合中,获取与所述节点服务器的本地完整数据集中数量相同的数据,作为所述节点服务器对应的待修复数据;
分布式修复单元,用于基于分布式的方式,在其余节点服务器中,并行采用本地数据集对所述待修复数据进行修复处理,得到分布式修复结果;
分布式修复结果汇总单元,用于对所述分布式修复结果进行汇总,得到所述节点服务器对应的修复数据对应的修复数据;
训练集确定单元,用于将每个所述节点服务器对应的修复数据汇总,得到所述修复训练集。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的分布式环境下基于机器学习的数据修复方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的分布式环境下基于机器学习的数据修复方法。
CN202210150610.4A 2022-02-18 2022-02-18 分布式环境下基于机器学习的数据修复方法、装置及设备 Active CN114237915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210150610.4A CN114237915B (zh) 2022-02-18 2022-02-18 分布式环境下基于机器学习的数据修复方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210150610.4A CN114237915B (zh) 2022-02-18 2022-02-18 分布式环境下基于机器学习的数据修复方法、装置及设备

Publications (2)

Publication Number Publication Date
CN114237915A CN114237915A (zh) 2022-03-25
CN114237915B true CN114237915B (zh) 2022-05-17

Family

ID=80747594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210150610.4A Active CN114237915B (zh) 2022-02-18 2022-02-18 分布式环境下基于机器学习的数据修复方法、装置及设备

Country Status (1)

Country Link
CN (1) CN114237915B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10592145B2 (en) * 2018-02-14 2020-03-17 Commvault Systems, Inc. Machine learning-based data object storage
CN110503232A (zh) * 2019-06-28 2019-11-26 国网浙江省电力有限公司湖州供电公司 一种分布式光伏负荷数据预测与修复方法
CN110852445A (zh) * 2019-10-28 2020-02-28 广州文远知行科技有限公司 分布式机器学习训练方法、装置、计算机设备和存储介质
CN112364098A (zh) * 2020-11-06 2021-02-12 广西电网有限责任公司电力科学研究院 一种基于Hadoop的分布式电力系统异常数据识别方法及系统
CN112463812A (zh) * 2020-12-21 2021-03-09 重庆邮电大学 一种基于Ceph分布式系统多机架更新修复数据的优化方法

Also Published As

Publication number Publication date
CN114237915A (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
WO2021000556A1 (zh) 一种工业设备剩余有效寿命预测方法、系统及电子设备
CN112632385A (zh) 课程推荐方法、装置、计算机设备及介质
CN110852785B (zh) 用户分级方法、装置及计算机可读存储介质
CN112328657A (zh) 特征衍生方法、装置、计算机设备及介质
CN112328909A (zh) 信息推荐方法、装置、计算机设备及介质
CN114491047A (zh) 多标签文本分类方法、装置、电子设备及存储介质
CN113283222B (zh) 自动化报表生成方法、装置、计算机设备及存储介质
CN114880566A (zh) 基于图神经网络的用户行为分析方法、装置、设备及介质
CN111126626A (zh) 一种训练方法、装置、服务器、平台及存储介质
CN114359582A (zh) 一种基于神经网络的小样本特征提取方法及相关设备
CN114638501A (zh) 一种业务数据处理方法、装置、计算机设备及存储介质
CN112995414B (zh) 基于语音通话的行为质检方法、装置、设备及存储介质
CN116186295B (zh) 基于注意力的知识图谱链接预测方法、装置、设备及介质
CN112418443A (zh) 基于迁移学习的数据处理方法、装置、设备及存储介质
CN114237915B (zh) 分布式环境下基于机器学习的数据修复方法、装置及设备
CN111950623A (zh) 数据稳定性监控方法、装置、计算机设备及介质
CN111259318A (zh) 智能化的数据优化方法、装置及计算机可读存储介质
CN111143568A (zh) 一种论文分类时的缓冲方法、装置、设备及存储介质
CN114580794B (zh) 数据处理方法、装置、程序产品、计算机设备和介质
CN110674020B (zh) App智能推荐方法、装置及计算机可读存储介质
CN115099875A (zh) 基于决策树模型的数据分类方法及相关设备
CN113688232A (zh) 招标文本分类方法、装置、存储介质及终端
CN115543991B (zh) 基于特征抽样的数据修复方法、装置及相关设备
CN112418441A (zh) 基于迁移学习的数据处理方法、装置、设备及存储介质
CN112417886A (zh) 意图实体信息抽取方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant