CN115543991B - 基于特征抽样的数据修复方法、装置及相关设备 - Google Patents

基于特征抽样的数据修复方法、装置及相关设备 Download PDF

Info

Publication number
CN115543991B
CN115543991B CN202211533807.2A CN202211533807A CN115543991B CN 115543991 B CN115543991 B CN 115543991B CN 202211533807 A CN202211533807 A CN 202211533807A CN 115543991 B CN115543991 B CN 115543991B
Authority
CN
China
Prior art keywords
data
matrix
feature
data storage
storage node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211533807.2A
Other languages
English (en)
Other versions
CN115543991A (zh
Inventor
陈晓红
张威威
曹文治
徐选华
胡东滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202211533807.2A priority Critical patent/CN115543991B/zh
Publication of CN115543991A publication Critical patent/CN115543991A/zh
Application granted granted Critical
Publication of CN115543991B publication Critical patent/CN115543991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理领域,公开了一种基于特征抽样的数据修复方法、装置及相关设备,所述方法包括:通过聚类算法对存储节点的数据进行特征抽样,对n个分布式数据存储节点的数据特征集进行特征提取,得到每个分布式数据存储节点的k个特征值作为存储节点的数据特征;将每个分布式数据存储节点的k个特征值作为每个分布式数据存储节点对应的数据采样集合;将每个分布式数据存储节点对应的数据采样集合与其它n‑1个分布式数据存储节点的数据采样集合进行合并,得到每个分布式数据存储节点对应的合成数据集;基于预设的数据修复方法,对合成数据集进行修复,得到修复数据集,提高智能制造生产数据的质量。

Description

基于特征抽样的数据修复方法、装置及相关设备
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于特征抽样的数据修复方法、装置及相关设备。
背景技术
随着工业互联网平台的建设日益成熟,智能制造作为工业互联网的核心,成为发展先进制造业的关键。智能制造贯穿于设计、生产、管理、服务等制造活动的各个环节,涵盖感知层、网络层、执行层和应用层四个层次,具有自感知、自学习、自决策、自执行、自适应等功能,其中,感知层由各种行业传感器、大量联网设备等组成,为智能制造生产后续流程提供充实的数据支持。
但在实际应用环境中,往往会由于外界环境因素或时间带来的机械损耗出现某些传感器暂时失灵或者故障失效的情况,从而造成智能制造生产数据质量差的问题,导致无法准确获取生产制造情况,进而影响生产。因此,在智能制造工业流程数据质量管理的过程中,自动化数据异常检测与修复是保证智能制造执行层和应用层正常运作必不可少的一环。另一方面,随着大量传感器的应用,传统的数据存储方式已经不能支持工业互联网的数据存储,目前一般采用分布式大数据存储方式,存储方式的改变也给智能制造工业数据的修复带来困难。针对智能制造产业数据体量大、数据存储分布的特性,目前的数据修复方式主要通过特定的规则对数据进行检查修复,对于大体量不确定的数据缺陷,存在复用性低、并行化不足、移植困难等挑战与难点。
发明内容
本发明实施例提供一种基于特征抽样的数据修复方法、装置、计算机设备和存储介质,以提升缺陷数据的修复效率和覆盖面,提高智能制造生产数据的质量。
为了解决上述技术问题,本申请实施例提供一种基于特征抽样的数据修复方法,包括:
基于聚类算法,对n个分布式数据存储节点的本地数据集进行特征提取,得到每个所述分布式数据存储节点的k个特征值;
将每个所述分布式数据存储节点的k个特征值作为每个所述分布式数据存储节点对应的数据采样集合;
将每个所述分布式数据存储节点对应的数据采样集合与其它n-1个所述分布式数据存储节点的数据采样集合进行合并,得到每个所述分布式数据存储节点对应的合成数据集;
将所述分布式数据存储节点对应的合成数据集分发到存储节点,并采用每个所述分布式数据存储节点在本地基于预设的数据修复方法,对所述合成数据集进行修复,得到修复数据集。
为了解决上述技术问题,本申请实施例还提供一种基于特征抽样的数据修复装置,包括:
特征聚类模块,用于基于聚类算法,对n个分布式数据存储节点的本地数据集进行特征提取,得到每个所述分布式数据存储节点的k个特征值;
第一数据采样集合确定模块,用于将每个所述分布式数据存储节点的k个特征值作为每个所述分布式数据存储节点对应的数据采样集合;
合并模块,用于将每个所述分布式数据存储节点对应的数据采样集合与其它n-1个所述分布式数据存储节点的数据采样集合进行合并,得到每个所述分布式数据存储节点对应的合成数据集;
修复模块,用于将所述分布式数据存储节点对应的合成数据集分发到存储节点,并采用每个所述分布式数据存储节点在本地基于预设的数据修复方法,对所述合成数据集进行修复,得到修复数据集。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于特征抽样的数据修复方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于特征抽样的数据修复方法的步骤。
本发明实施例提供的基于特征抽样的数据修复方法、装置、计算机设备及存储介质,基于聚类算法,对n个所述分布式数据存储节点的数据特征集进行特征提取,得到每个所述分布式数据存储节点的k个特征值;将每个所述分布式数据存储节点的k个特征值作为每个所述分布式数据存储节点对应的数据采样集合;将每个所述分布式数据存储节点对应的数据采样集合与其它n-1个所述分布式数据存储节点的数据采样集合进行合并,得到每个所述分布式数据存储节点对应的合成数据集;基于预设的数据修复方法,对所述合成数据集进行修复,得到修复数据集,提升缺陷数据的修复效率和覆盖面,提高智能制造生产数据的质量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请的基于特征抽样的数据修复方法的一个实施例的流程图;
图3是根据本申请的基于特征抽样的数据修复装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3 )、MP4( Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于特征抽样的数据修复方法由服务器执行,相应地,基于特征抽样的数据修复装置设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器,本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。
请参阅图2,图2示出本发明实施例提供的一种基于特征抽样的数据修复方法,以该方法应用在图1中的服务端为例进行说明,详述如下:
S201:基于聚类算法,对n个分布式数据存储节点的本地数据集进行特征提取,得到每个分布式数据存储节点的k个特征值。
具体的,聚类算法可以是K-means算法,K-means算法的输入为一个样本集(或者称为点集),通过该算法可以将样本进行聚类,具有相似特征的样本聚为一类,针对每个点,计算这个点距离所有中心点最近的那个中心点,然后将这个点归为这个中心点代表的簇,一次迭代结束之后,针对每个簇类,重新计算中心点,然后针对每个点,重新寻找距离自己最近的中心点,如此循环,直到前后两次迭代的簇类没有变化,在本步骤中,根据预设的修复精度和预设的修复速率,设置分类数k,K-means聚类算法对分布式数据存储节点的数据特征集进行数据采样,通过对分布式数据存储节点的数据特征集进行均值计算,得到每个分布式数据存储节点的k个特征值,此处,需要特别说明的是,预设的修复精度和预设的修复速率根据用户的实际需求或者经验确定,此处不做具体限定,k、n为大于0的正整数,此外,聚类算法还可以是神经网络算法、K-NN最近邻节点算法等。
S202:将每个分布式数据存储节点的k个特征值作为每个分布式数据存储节点对应的数据采样集合。
S203:将每个分布式数据存储节点对应的数据采样集合与其它n-1个分布式数据存储节点的数据采样集合进行合并,得到每个分布式数据存储节点对应的合成数据集。
具体的,假设共有n个分布式存储节点,其中,分布式数据存储节点z的数据采样集合为
Figure 145794DEST_PATH_IMAGE002
,其它的分布式数据存储节点对应的数据采样集合分别为为
Figure 594093DEST_PATH_IMAGE004
,其中,n为大于0的正整数,则分布式数据存储节点z的合成数据集为
Figure 577092DEST_PATH_IMAGE006
S204:基于预设的数据修复方法,对合成数据集进行修复,得到修复数据集。
具体的,预设的数据修复方法包括但不限于ARIMA移动平均自回归算法、SVD分解算法、KNN最近邻节点算法、贝叶斯网络修复算法、BP神经网络算法、基于张量的修复算法,优选的,本申请采用SVD分解算法对合成数据集进行修复。
在本实施例中,基于K-means聚类算法,对n个分布式数据存储节点的本地数据集进行特征提取,得到每个分布式数据存储节点的k个特征值;将每个分布式数据存储节点的k个特征值作为每个分布式数据存储节点对应的数据采样集合;将每个分布式数据存储节点对应的数据采样集合与其它n-1个分布式数据存储节点的数据采样集合进行合并,得到每个分布式数据存储节点对应的合成数据集;将分布式数据存储节点对应的合成数据集分发到存储节点,并采用每个分布式数据存储节点在本地基于预设的数据修复方法,对合成数据集进行修复,得到修复数据集,提高智能制造生产数据的质量。
在本实施例的一些可选的实现方式中,步骤S201中,基于K-means聚类算法,对n个分布式数据存储节点的数据特征集进行特征提取,得到每个分布式数据存储节点的k个特征值包括:
在每个分布式数据存储节点的数据特征集中随机选择k个特征数据,作为k个初始簇中心。
依次计算每个分布式数据存储节点的数据特征集中的特征数据与k个初始簇中心之间的距离。
具体的,根据如下公式(1)得到距离:
Figure 628094DEST_PATH_IMAGE008
(1)
式中,X为待划分特征数据,Y为初始簇中心,
Figure 708045DEST_PATH_IMAGE010
为待划分特征数据的标签属性,
Figure 202612DEST_PATH_IMAGE012
为初始簇中心的标签属性,m为带划分特征数据的总数量。
根据距离的大小,从k个初始簇中心中,确定目标簇中心并将特征数据划分到目标簇中心对应的簇,得到数据特征簇。
具体的,将特征数据划分到与K个初始簇中心中距离最短的初始簇中心。
对数据特征簇中的特征数据进行均值计算,得到数据特征簇的均值。
将均值作为初始簇中心,返回计算分布式数据存储节点的数据特征集中的特征数据与k个初始簇中心之间的距离的步骤继续执行,直至迭代次数等于预设迭代次数为止,得到每个分布式数据存储节点的k个特征值。
具体的,若迭代次数达到预设迭代次数,输出分布式数据存储节点的k个特征值,形成分布式数据存储节点的数据采样集合。
在本实施例中,通过计算每个分布式数据存储节点的数据特征集中的特征数据与k个初始簇中心之间的距离,根据距离的大小,从k个初始簇中心中,确定目标簇中心并将特征数据划分到目标簇中心对应的簇,得到数据特征簇,对数据特征簇中的特征数据进行均值计算,得到数据特征簇的均值,有利于提高智能制造生产数据的质量。
在本实施例的一些可选的实现方式中,基于特征抽样的数据修复方法还包括:
基于剔除缺失数据方式,对n个分布式数据存储节点的数据特征集进行处理,得到每个分布式数据存储节点对应的完整数据集和待修复数据集。
具体的,对n个分布式数据存储节点的数据特征集进行剔除缺失数据处理,形成完成数据集,将缺失数据作为待修复数据集。
将完整数据集和待修复数据集作为每个分布式数据存储节点对应的数据采样集合。
在本实施例中,通过得到每个分布式数据存储节点对应的完整数据集和待修复数据集,将完整数据集和待修复数据集作为每个分布式数据存储节点对应的数据采样集合,有利于提高智能制造生产数据的质量。
在本实施例的一些可选的实现方式中,步骤S204中,预设的数据修复方法为SVD分解填充方法,合成数据集包括待修复合成数据集,基于预设的数据修复方法,对合成数据集进行修复,得到修复数据集包括:
基于SVD分解填充方法,对待修复合成数据集进行特征均值填补,得到完整矩阵。
具体的,采用相应的列方法替换待修复合成数据集中的待修复合成数据缺失的值,得到插补矩阵,计算插补矩阵的秩k近似,得到k个相似度值,采用K个相似度值中最大的相似度值对应的近邻替换插补矩阵中相应的插补位置的值,返回计算插补矩阵的秩k近似,得到k个相似度值的步骤继续执行,直至损失函数收敛为止,得到完整矩阵。
对完整矩阵进行奇异值分解,得到第一奇异值分解矩阵。
具体的,根据如下公式(2)得到第一奇异值分解矩阵:
Figure 804DEST_PATH_IMAGE014
(2)
式中,Q为第一奇异值分解矩阵,U为左奇异矩阵,V为右奇异矩阵,U和V为单位正交矩阵,其中,UUT=1,VVT=1,
Figure 354031DEST_PATH_IMAGE016
为奇异值矩阵,即该矩阵仅在对角线上有值,为奇异值,其余元素为0,左奇异矩阵、右奇异矩阵和奇异值矩阵的维度分别为
Figure 554068DEST_PATH_IMAGE018
,其中,a,b为大于0的正整数。
基于预设的剔除方式,剔除第一奇异值分解矩阵中对应的值,得到第二奇异值分解矩阵。
具体的,预设的剔除方式包括:
第一,基于预设的奇异值剔除数量,剔除第一奇异值分解矩阵中的奇异值矩阵的最小的奇异值,得到剔除后的奇异值矩阵,预设的奇异值剔除数量通过分析历史经验数据获得;
第二,剔除第一奇异值分解矩阵中的左奇异矩阵中相应的列,得到剔除后的左奇异矩阵;
第三,剔除第一奇异值分解矩阵中右奇异矩阵中相应的列,得到剔除后的右奇异矩阵;将剔除后的奇异值矩阵、剔除后的左奇异矩阵和剔除后的右奇异矩阵作为第二奇异值分解矩阵。
假设预设的奇异值剔除数量为t,则将奇异值中最小的t个奇异值剔除,得到剔除后的奇异值矩阵
Figure 281853DEST_PATH_IMAGE016
,剔除后的矩阵的维度为
Figure 442707DEST_PATH_IMAGE020
,单位正交阵U和V剔除相应的列,得到剔除后的左奇异矩阵
Figure 976456DEST_PATH_IMAGE022
和剔除后的右奇异矩阵
Figure 155634DEST_PATH_IMAGE024
,其中,
Figure DEST_PATH_IMAGE025
的维度为
Figure DEST_PATH_IMAGE027
Figure 257582DEST_PATH_IMAGE024
的维度为
Figure DEST_PATH_IMAGE029
将第二奇异值分解矩阵中的奇异值对应的特征矩阵进行恢复,得到近似矩阵。
具体的,根据如下公式(3)得到近似矩阵:
Figure DEST_PATH_IMAGE031
(3)
式中,
Figure DEST_PATH_IMAGE033
为近似矩阵,
Figure 718782DEST_PATH_IMAGE034
为剔除后的左奇异矩阵,
Figure 400430DEST_PATH_IMAGE036
为剔除后的奇异值矩阵,
Figure 575059DEST_PATH_IMAGE024
为剔除后的右奇异矩阵,T为转置符号。
从近似矩阵中取出填充值,并采用填充值对完整矩阵进行填充,得到初始修复矩阵。
将初始修复矩阵作为完整矩阵,返回对完整矩阵进行奇异值分解,得到第一奇异值分解矩阵的步骤继续执行,直至达到预设的停止条件为止,得到最终修复矩阵。
具体的,取出近似矩阵
Figure 831597DEST_PATH_IMAGE033
中的完整矩阵的缺失位置的值,重新作为填充值,构成新的第一奇异值分解矩阵Q,大小为a*b。
将最终修复矩阵作为修复数据集。
在本实施例中,通过对完整矩阵进行奇异值分解,得到第一奇异值分解矩阵,并基于预设的剔除方式,对第一奇异值分解矩阵相应的值进行剔除后,得到第二奇异值分解矩阵,将第二奇异值分解矩阵中的奇异值对应的特征矩阵进行恢复,得到近似矩阵,从近似矩阵中取出填充值,并采用填充值对完整矩阵进行填充,得到初始修复矩阵,有利于提高智能制造生产数据的质量。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图3示出与上述实施例基于特征抽样的数据修复方法一一对应的基于特征抽样的数据修复装置的原理框图。如图3所示,该基于特征抽样的数据修复装置包括特征聚类模块30、第一数据采样集合确定模块31、合并模块32和修复模块33。各功能模块详细说明如下:
特征聚类模块30,用于基于K-means聚类算法,对n个分布式数据存储节点的本地数据集进行特征提取,得到每个分布式数据存储节点的k个特征值。
第一数据采样集合确定模块31,用于将每个分布式数据存储节点的k个特征值作为每个分布式数据存储节点对应的数据采样集合。
合并模块32,用于将每个分布式数据存储节点对应的数据采样集合与其它n-1个分布式数据存储节点的数据采样集合进行合并,得到每个分布式数据存储节点对应的合成数据集。
修复模块33,用于将分布式数据存储节点对应的合成数据集分发到存储节点,并采用每个所述分布式数据存储节点在本地基于预设的数据修复方法,对合成数据集进行修复,得到修复数据集。
进一步的,特征聚类模块30包括:
初始簇中心确定模块,用于在每个分布式数据存储节点的数据特征集中随机选择k个特征数据,作为k个初始簇中心。
距离计算模块,用于依次计算每个分布式数据存储节点的数据特征集中的特征数据与k个初始簇中心之间的距离。
数据特征簇获取模块,用于根据距离的大小,从k个初始簇中心中,确定目标簇中心并将特征数据划分到目标簇中心对应的簇,得到数据特征簇。
均值计算模块,用于对数据特征簇中的特征数据进行均值计算,得到数据特征簇的均值。
特征数据划分模块,用于将均值作为初始簇中心,返回计算分布式数据存储节点的数据特征集中的特征数据与k个初始簇中心之间的距离的步骤继续执行,直至迭代次数等于预设迭代次数为止,得到每个分布式数据存储节点的k个特征值。
可选的,基于特征抽样的数据修复装置还包括:
数据处理模块,用于基于剔除缺失数据方式,对n个分布式数据存储节点的数据特征集进行处理,得到每个分布式数据存储节点对应的完整数据集和待修复数据集。
第二数据采样集合确定模块,用于将完整数据集和待修复数据集作为每个分布式数据存储节点对应的数据采样集合。
进一步的,预设的数据修复方法为SVD分解填充方法,修复模块33包括:
特征均值填补模块,用于基于SVD分解填充方法,对待修复合成数据集进行特征均值填补,得到完整矩阵。
奇异值分解模块,用于对完整矩阵进行奇异值分解,得到第一奇异值分解矩阵。
奇异值剔除模块,用于基于预设的剔除方式,剔除第一奇异值分解矩阵中对应的值,得到第二奇异值分解矩阵。
近似矩阵获得模块,用于将第二奇异值分解矩阵中的奇异值对应的特征矩阵进行恢复,得到近似矩阵。
初始修复矩阵获得模块,用于从近似矩阵中取出填充值,并采用填充值对完整矩阵进行填充,得到初始修复矩阵。
最终修复矩阵获得模块,用于将初始修复矩阵作为完整矩阵,返回对完整矩阵进行奇异值分解,得到第一奇异值分解矩阵的步骤继续执行,直至达到预设的停止条件为止,得到最终修复矩阵。
修复数据集确定模块,用于将最终修复矩阵作为修复数据集。
关于基于特征抽样的数据修复装置的具体限定可以参见上文中对于基于特征抽样的数据修复方法的限定,在此不再赘述。上述基于特征抽样的数据修复装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器 (Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如电子文件的控制的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据,例如运行电子文件的控制的程序代码。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于特征抽样的数据修复方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (8)

1.一种基于特征抽样的数据修复方法,其特征在于,所述基于特征抽样的数据修复方法包括:
基于聚类算法,对n个分布式数据存储节点的本地数据集进行特征提取,得到每个所述分布式数据存储节点的k个特征值;
将每个所述分布式数据存储节点的k个特征值作为每个所述分布式数据存储节点对应的数据采样集合;
将每个所述分布式数据存储节点对应的数据采样集合与其它n-1个所述分布式数据存储节点的数据采样集合进行合并,得到每个所述分布式数据存储节点对应的合成数据集;
将所述分布式数据存储节点对应的合成数据集分发到存储节点,并采用每个所述分布式数据存储节点在本地基于预设的数据修复方法,对所述合成数据集进行修复,得到修复数据集;
其中,所述采用每个所述分布式数据存储节点在本地基于预设的数据修复方法,对所述合成数据集进行修复,得到修复数据集包括:
基于SVD分解填充方法,对所述合成数据集进行特征均值填补,得到完整矩阵;
对所述完整矩阵进行奇异值分解,得到第一奇异值分解矩阵;
基于预设的剔除方式,剔除所述第一奇异值分解矩阵中对应的值,得到第二奇异值分解矩阵;
将第二奇异值分解矩阵中的奇异值对应的特征矩阵进行恢复,得到近似矩阵;
从近似矩阵中取出填充值,并采用填充值对完整矩阵进行填充,得到初始修复矩阵;
将初始修复矩阵作为完整矩阵,返回对完整矩阵进行奇异值分解,得到第一奇异值分解矩阵的步骤继续执行,直至达到预设的停止条件为止,得到最终修复矩阵,将最终修复矩阵作为所述修复数据集。
2.如权利要求1所述的基于特征抽样的数据修复方法,其特征在于,对本地的数据特征集进行特征提取,与对所述合成数据集进行修复,并行执行。
3.如权利要求1所述的基于特征抽样的数据修复方法,其特征在于,所述基于特征抽样的数据修复方法还包括:
基于剔除缺失数据方式,对n个分布式数据存储节点的数据特征集进行处理,得到每个所述分布式数据存储节点对应的完整数据集和待修复数据集;
将所述完整数据集和所述待修复数据集作为每个所述分布式数据存储节点对应的数据采样集合。
4.一种基于特征抽样的数据修复装置,其特征在于,所述基于特征抽样的数据修复装置包括:
特征聚类模块,用于基于聚类算法,对n个分布式数据存储节点的本地数据集进行特征提取,得到每个所述分布式数据存储节点的k个特征值;
第一数据采样集合确定模块,用于将每个所述分布式数据存储节点的k个特征值作为每个所述分布式数据存储节点对应的数据采样集合;
合并模块,用于将每个所述分布式数据存储节点对应的数据采样集合与其它n-1个所述分布式数据存储节点的数据采样集合进行合并,得到每个所述分布式数据存储节点对应的合成数据集;
修复模块,用于将所述分布式数据存储节点对应的合成数据集分发到存储节点,并采用每个所述分布式数据存储节点在本地基于预设的数据修复方法,对所述合成数据集进行修复,得到修复数据集;
其中,所述修复模块包括:
特征均值填补模块,用于基于SVD分解填充方法,对待修复合成数据集进行特征均值填补,得到完整矩阵;
奇异值分解模块,用于对所述完整矩阵进行奇异值分解,得到第一奇异值分解矩阵;
奇异值剔除模块,用于基于预设的剔除方式,剔除所述第一奇异值分解矩阵中对应的值,得到第二奇异值分解矩阵;
近似矩阵获得模块,用于将第二奇异值分解矩阵中的奇异值对应的特征矩阵进行恢复,得到近似矩阵;
初始修复矩阵获得模块,用于从所述近似矩阵中取出填充值,并采用所述填充值对所述完整矩阵进行填充,得到初始修复矩阵;
最终修复矩阵获得模块,用于将所述初始修复矩阵作为所述完整矩阵,返回所述对所述完整矩阵进行奇异值分解,得到第一奇异值分解矩阵的步骤继续执行,直至达到预设的停止条件为止,得到最终修复矩阵;
修复数据集确定模块,用于将所述最终修复矩阵作为所述修复数据集。
5.如权利要求4所述的基于特征抽样的数据修复装置,其特征在于,所述特征聚类模块包括:
初始簇中心确定模块,用于在每个所述分布式数据存储节点的数据特征集中随机选择k个特征数据,作为k个初始簇中心;
距离计算模块,用于依次计算每个所述分布式数据存储节点的数据特征集中的特征数据与k个所述初始簇中心之间的距离;
数据特征簇获取模块,用于根据所述距离的大小,从k个所述初始簇中心中,确定目标簇中心并将所述特征数据划分到所述目标簇中心对应的簇,得到数据特征簇;
均值计算模块,用于对所述数据特征簇中的特征数据进行均值计算,得到所述数据特征簇的均值;
特征数据划分模块,用于将所述均值作为初始簇中心,返回所述计算所述分布式数据存储节点的数据特征集中的特征数据与k个所述初始簇中心之间的距离的步骤继续执行,直至迭代次数等于预设迭代次数为止,得到每个所述分布式数据存储节点的k个特征值。
6.如权利要求4所述的基于特征抽样的数据修复装置,其特征在于,所述基于特征抽样的数据修复装置还包括:
数据处理模块,用于基于剔除缺失数据方式,对n个分布式数据存储节点的数据特征集进行处理,得到每个所述分布式数据存储节点对应的完整数据集和待修复数据集;
第二数据采样集合确定模块,用于将所述完整数据集和所述待修复数据集作为每个所述分布式数据存储节点对应的数据采样集合。
7.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述的基于特征抽样的数据修复方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的基于特征抽样的数据修复方法。
CN202211533807.2A 2022-12-02 2022-12-02 基于特征抽样的数据修复方法、装置及相关设备 Active CN115543991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211533807.2A CN115543991B (zh) 2022-12-02 2022-12-02 基于特征抽样的数据修复方法、装置及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211533807.2A CN115543991B (zh) 2022-12-02 2022-12-02 基于特征抽样的数据修复方法、装置及相关设备

Publications (2)

Publication Number Publication Date
CN115543991A CN115543991A (zh) 2022-12-30
CN115543991B true CN115543991B (zh) 2023-03-10

Family

ID=84722190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211533807.2A Active CN115543991B (zh) 2022-12-02 2022-12-02 基于特征抽样的数据修复方法、装置及相关设备

Country Status (1)

Country Link
CN (1) CN115543991B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570173B (zh) * 2016-11-09 2020-09-29 重庆邮电大学 一种基于Spark的高维稀疏文本数据聚类方法
CN112988693A (zh) * 2021-03-26 2021-06-18 武汉大学 一种异常数据检测中谱聚类算法并行化方法及系统
CN113821760A (zh) * 2021-11-23 2021-12-21 湖南工商大学 一种空气数据补全方法、装置、设备及存储介质
CN114492007A (zh) * 2022-01-17 2022-05-13 中南大学 一种基于分层误差控制的因子效应在线识别方法和设备
US11455287B1 (en) * 2012-08-01 2022-09-27 Tibco Software Inc. Systems and methods for analysis of data at disparate data sources
CN115358784A (zh) * 2022-08-23 2022-11-18 中南大学 一种分布式提取典型用电模式的方法及相关设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11455287B1 (en) * 2012-08-01 2022-09-27 Tibco Software Inc. Systems and methods for analysis of data at disparate data sources
CN106570173B (zh) * 2016-11-09 2020-09-29 重庆邮电大学 一种基于Spark的高维稀疏文本数据聚类方法
CN112988693A (zh) * 2021-03-26 2021-06-18 武汉大学 一种异常数据检测中谱聚类算法并行化方法及系统
CN113821760A (zh) * 2021-11-23 2021-12-21 湖南工商大学 一种空气数据补全方法、装置、设备及存储介质
CN114492007A (zh) * 2022-01-17 2022-05-13 中南大学 一种基于分层误差控制的因子效应在线识别方法和设备
CN115358784A (zh) * 2022-08-23 2022-11-18 中南大学 一种分布式提取典型用电模式的方法及相关设备

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
A Novel GSCI-Based Ensemble Approach for Credit Scoring;Xiaohong Chen,Siwei Li,Xuanhua Xu,Fanyong Meng,Wenzhi Cao;《IEEE Access》;20201223;全文 *
Diagnosis of PQ Disturbances using Local mean decomposition based SVD entropy and modified K-means clustering;Lipsa Priyadarshini,Eluri N V D V Prasad,Pradipta Kishore Dash;《2021 International Conference in Advances in Power, Signal, and Information Technology (APSIT)》;20211010;全文 *
基于Spark的分布式大数据机器学习算法;王芮等;《计算机与现代化》;20181115(第11期);全文 *
基于公众偏好大数据分析的大群体应急决策质量动态演化研究;徐选华,马志鹏,陈晓红;《中国管理科学》;20220731;全文 *
新一代信息技术驱动下资源环境协同管理的理论逻辑及实现路径;陈晓红,张威威,易国栋,唐湘博;《中南大学学报(社会科学版)》;20210930;全文 *
社会网络环境下基于犹豫度和一致性的大群体决策方法;陈晓红,张威威,徐选华;《系统工程理论与实践》;20200525;第40卷(第5期);全文 *

Also Published As

Publication number Publication date
CN115543991A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN112035549B (zh) 数据挖掘方法、装置、计算机设备及存储介质
CN112328909B (zh) 信息推荐方法、装置、计算机设备及介质
CN113220734A (zh) 课程推荐方法、装置、计算机设备及存储介质
CN112328657A (zh) 特征衍生方法、装置、计算机设备及介质
CN112528029A (zh) 文本分类模型处理方法、装置、计算机设备及存储介质
CN112365202A (zh) 一种多目标对象的评价因子筛选方法及其相关设备
CN110807050B (zh) 性能分析方法、装置、计算机设备及存储介质
CN111813517A (zh) 任务队列的分配方法、装置、计算机设备及介质
CN113283222B (zh) 自动化报表生成方法、装置、计算机设备及存储介质
CN114359582A (zh) 一种基于神经网络的小样本特征提取方法及相关设备
CN112990583A (zh) 一种数据预测模型的入模特征确定方法及设备
CN116361567B (zh) 应用于云办公的数据处理方法及系统
CN112396048A (zh) 图片信息提取方法、装置、计算机设备及存储介质
CN112991274A (zh) 一种人群计数方法、装置、计算机设备及存储介质
CN115543991B (zh) 基于特征抽样的数据修复方法、装置及相关设备
CN110019193A (zh) 相似帐号识别方法、装置、设备、系统及可读介质
CN113449062B (zh) 轨迹处理方法、装置、电子设备和存储介质
CN112002352B (zh) 随机播放音乐方法、装置、计算机设备及存储介质
CN114237915B (zh) 分布式环境下基于机器学习的数据修复方法、装置及设备
CN113626605A (zh) 信息分类方法、装置、电子设备及可读存储介质
CN112395450A (zh) 图片文字检测方法、装置、计算机设备及存储介质
CN112182107A (zh) 名单数据获取方法、装置、计算机设备及存储介质
CN114764858B (zh) 一种复制粘贴图像识别方法、装置、计算机设备及存储介质
CN113657353B (zh) 公式识别方法、装置、电子设备及存储介质
CN110719260B (zh) 智能网络安全分析方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant