CN111274286A - 基于模式分析的矩阵填充方法及装置 - Google Patents

基于模式分析的矩阵填充方法及装置 Download PDF

Info

Publication number
CN111274286A
CN111274286A CN202010049398.3A CN202010049398A CN111274286A CN 111274286 A CN111274286 A CN 111274286A CN 202010049398 A CN202010049398 A CN 202010049398A CN 111274286 A CN111274286 A CN 111274286A
Authority
CN
China
Prior art keywords
matrix
mode
data
day
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010049398.3A
Other languages
English (en)
Other versions
CN111274286B (zh
Inventor
唐晓岚
鲁思远
陈文龙
郝子丰
周丽娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Capital Normal University
Original Assignee
Capital Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Capital Normal University filed Critical Capital Normal University
Priority to CN202010049398.3A priority Critical patent/CN111274286B/zh
Publication of CN111274286A publication Critical patent/CN111274286A/zh
Application granted granted Critical
Publication of CN111274286B publication Critical patent/CN111274286B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于模式分析的矩阵填充方法及装置,其中,方法包括以下步骤:根据原始数据建立数据矩阵;确定基本模式数量,并对数据矩阵进行非负矩阵分解,得到系数矩阵和模式矩阵,且对模式矩阵归一化处理,得到归一化后的模式矩阵,并且通过归一化后的模式矩阵更新系数矩阵,以获取数据分类后的矩阵;将分类后的矩阵进行重新排列,且使用矩阵填充算法恢复排列后的矩阵,然后将恢复后的矩阵重新排列成初始形状。该方法能够在相同的采样率下提高数据恢复的准确性,减少恢复矩阵填充所需时间,达到更好的恢复效果,简单易实现。

Description

基于模式分析的矩阵填充方法及装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于模式分析的矩阵填充方法及装置。
背景技术
信息时代人们对海量数据分析挖掘的需求日益增长。现实生活中人们往往只能采样或 观测到一部分数据信息,其他信息由于各种原因(例如采样成本或设备故障等)丢失或空 缺。当收集到的数据不完整时,将会导致后续对数据的利用达不到预期效果,例如,传感 器测量空气质量时,可能因为部分传感器故障导致某个位置某一时刻的数据丢失,研究该 时刻的总体空气质量就会出现问题。再例如,出租车轨迹数据可能因为某个地点信号不佳 出现数据丢失,这会导致对该路段的车流量统计变得不准确。
因此,数据信息的恢复对生产生活十分重要。根据采集到的部分已知信息有效填充缺 失项,从而得到较为完整和准确的信息供使用者做出分析和决策。然而,目前恢复数据过 程中数据相关性利用往往不够充分,数据恢复效果较差,亟待解决。
发明内容
本申请是基于发明人对以下问题的认识和发现做出的:
本发明解决的问题是:恢复数据过程中数据相关性利用不充分的问题。目前,采用矩 阵填充技术可以进行缺失数据的恢复,在矩阵填充中,为了能精确重建数据,原始矩阵的 低秩性是矩阵填充的必要条件。然而,研究表明,数据的某些相似特性(如周期性、空间相关性等)是影响数据恢复性能的一个因素,因此如何挖掘并利用数据中隐含的相似性是矩阵填充研究需要解决的问题。
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于模式分析的矩阵填充方法,该方法能够在 相同的采样率下提高数据恢复的准确性,减少恢复矩阵填充所需时间,达到更好的恢复效 果,简单易实现。
本发明的另一个目的在于提出一种基于模式分析的矩阵填充装置。
为达到上述目的,本发明一方面实施例提出了一种基于模式分析的矩阵填充方法,包 括以下步骤:根据原始数据建立数据矩阵;确定基本模式数量,并对所述数据矩阵进行非 负矩阵分解,得到系数矩阵和模式矩阵,且对所述模式矩阵归一化处理,得到归一化后的 模式矩阵,并且通过所述归一化后的模式矩阵更新所述系数矩阵,以获取数据分类后的矩 阵;将所述分类后的矩阵进行重新排列,且使用矩阵填充算法恢复排列后的矩阵,然后将 恢复后的矩阵重新排列成初始形状。
本发明实施例的基于模式分析的矩阵填充方法,在进行矩阵填充前,使用模式分析方 法从原始数据中提取出基本模式,从而对原始数据进行归类,高效发掘出数据的相似性, 并在此基础上对矩阵进行重排,之后再对数据进行填充,能够在相同的采样率下提高数据 恢复的准确性,减少恢复矩阵填充所需时间,达到更好的恢复效果,简单易实现。
另外,根据本发明上述实施例的基于模式分析的矩阵填充方法还可以具有以下附加的 技术特征:
进一步地,在本发明的一个实施例中,矩阵的更新公式为:
Figure BDA0002370581030000021
Figure BDA0002370581030000022
其中,V为原始数据矩阵,C为系数矩阵,Cik表示第i个位置对应第k个模式的系数,CT为系数矩阵的转置,P为模式矩阵,Pkj表示第k种模式中第j个时间段的数值,PT为模 式矩阵的转置。
进一步地,在本发明的一个实施例中,归一化的目标函数及其约束公式为:
Figure BDA0002370581030000023
其中,vard(·)表示d天数据的方差,avgd(·)表示d天数据的平均值,
Figure BDA0002370581030000024
为第d天基本模 式矩阵中第r个模式所对应的系数向量,
Figure BDA0002370581030000025
为第d天第r个模式所对应的数值向量,n为天 数,
Figure BDA0002370581030000026
为第d天第r个模式对应的系数,d’是为了在公式中区分两次不同的累加,d和d’实际都表示天数,
Figure BDA0002370581030000027
为第d天第r个模式第h个位置的模式数值。
进一步地,在本发明的一个实施例中,用所述归一化后的模式矩阵更新的最优问题为:
Figure BDA0002370581030000028
Figure BDA0002370581030000029
Figure BDA00023705810300000210
Figure BDA00023705810300000211
Figure BDA00023705810300000212
其中,{·}t代表向量中第t个元素,
Figure BDA00023705810300000213
为第d天原始数据矩阵第i个位置第.个时间段内 的数值,
Figure BDA0002370581030000031
为第d天第i个位置的第.个模式的系数,
Figure BDA0002370581030000032
表示模式矩阵归一化之后的值,s.t.指 subject to,表示受制于某条件,
Figure BDA0002370581030000033
为第d天第i个位置的第1个模式的系数,
Figure BDA0002370581030000034
为第d天 第i个位置的第2个模式的系数,
Figure BDA0002370581030000035
为第d天第i个位置的第3个模式的系数,
Figure BDA0002370581030000036
为第d天第i个位置的第4个模式的系数。
进一步地,在本发明的一个实施例中,所述将所述分类后的矩阵进行重新排列,包括: 计算重排后的方阵行列数
Figure BDA0002370581030000037
计算子矩阵的行数目
Figure BDA0002370581030000038
计算原始矩阵分 割的矩阵数目
Figure BDA0002370581030000039
分割所述原始矩阵成多个小矩阵,其中,若最后一个子矩阵不 足n′行,通过空行补足,使行数目为n′;通过集成子矩阵建立重排矩阵X′。
为达到上述目的,本发明另一方面实施例提出了一种基于模式分析的矩阵填充装置, 包括:建立模块,用于根据原始数据建立数据矩阵;分析模块,用于确定基本模式数量,并对所述数据矩阵进行非负矩阵分解,得到系数矩阵和模式矩阵,且对所述模式矩阵归一化处理,得到归一化后的模式矩阵,并且通过所述归一化后的模式矩阵更新所述系数矩阵,以获取数据分类后的矩阵;处理模块,用于将所述分类后的矩阵进行重新排列,且使用矩阵填充算法恢复排列后的矩阵,以将恢复后的矩阵重新排列成初始形状。
本发明实施例的基于模式分析的矩阵填充装置,在进行矩阵填充前,使用模式分析方 法从原始数据中提取出基本模式,从而对原始数据进行归类,高效发掘出数据的相似性, 并在此基础上对矩阵进行重排,之后再对数据进行填充,能够在相同的采样率下提高数据 恢复的准确性,减少恢复矩阵填充所需时间,达到更好的恢复效果,简单易实现。
另外,根据本发明上述实施例的基于模式分析的矩阵填充装置还可以具有以下附加的 技术特征:
进一步地,在本发明的一个实施例中,矩阵的更新公式为:
Figure BDA00023705810300000310
Figure BDA00023705810300000311
其中,V为原始数据矩阵,C为系数矩阵,Cik表示第i个位置对应第k个模式的系数,CT为系数矩阵的转置,P为模式矩阵,Pkj表示第k种模式中第j个时间段的数值,PT为模 式矩阵的转置。
进一步地,在本发明的一个实施例中,归一化的目标函数及其约束公式为:
Figure BDA00023705810300000312
Figure BDA0002370581030000041
其中,vard(·)表示d天数据的方差,avgd(·)表示d天数据的平均值,
Figure BDA0002370581030000042
为第d天基本模 式矩阵中第r个模式所对应的系数向量,
Figure BDA0002370581030000043
为第d天第r个模式所对应的数值向量,n为天 数,
Figure BDA0002370581030000044
为第d天第r个模式对应的系数,d’是为了在公式中区分两次不同的累加,d和d’均表示天数,
Figure BDA0002370581030000045
为第d天第r个模式第h个位置的模式数值。
进一步地,在本发明的一个实施例中,用所述归一化后的模式矩阵更新的最优问题为:
Figure BDA0002370581030000046
Figure BDA0002370581030000047
Figure BDA0002370581030000048
Figure BDA0002370581030000049
Figure BDA00023705810300000410
其中,{·}t代表向量中第t个元素,
Figure BDA00023705810300000411
为第d天原始数据矩阵第i个位置第.个时间段内 的数值,
Figure BDA00023705810300000412
为第d天第i个位置的第.个模式的系数,
Figure BDA00023705810300000421
表示模式矩阵归一化之后的值,s.t.指 subject to,表示受制于某条件,
Figure BDA00023705810300000413
为第d天第i个位置的第1个模式的系数,
Figure BDA00023705810300000414
为第d天 第i个位置的第2个模式的系数,
Figure BDA00023705810300000415
为第d天第i个位置的第3个模式的系数,
Figure BDA00023705810300000416
为第d天第i个位置的第4个模式的系数。
进一步地,在本发明的一个实施例中,所述处理模块进一步用于:计算重排后的方阵 行列数
Figure BDA00023705810300000417
计算子矩阵的行数目
Figure BDA00023705810300000418
计算原始矩阵分割的矩阵数目
Figure BDA00023705810300000419
Figure BDA00023705810300000420
分割所述原始矩阵成多个小矩阵,其中,若最后一个子矩阵不足n′行,通过空行 补足,使行数目为n′;通过集成子矩阵建立重排矩阵X′。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明 显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和 容易理解,其中:
图1为根据本发明实施例的基于模式分析的矩阵填充方法的流程图;
图2为根据本发明一个实施例的基于模式分析的矩阵填充方法的流程图;
图3为根据本发明实施例按模式分析方法重排示例图;
图4为根据本发明实施例矩阵重排与矩阵填充示例图;
图5为根据本发明实施例基于模式分析的矩阵填充装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同 或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描 述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在介绍基于模式分析的矩阵填充方法及装置之前,先简单介绍一下现有技术及其缺点。
(1)现有技术的实现方案:
近年来对于恢复缺失数据经常使用矩阵填充的方法。先对采集到的数据进行分析,定 义合理的数据矩阵来表示所有数据。现有研究表明,对于低秩矩阵而言,通过求解核范数 最小化模型或格拉斯曼流形最小化模型可以实现缺失数据的恢复。具体有以下几种经典算 法解决这一问题:奇异值阈值算法、加速临近梯度算法、optspace算法等。
在利用矩阵的特性时,常用方案是观察并猜想数据可能具有的特性,并且进行试验验 证从而揭露数据中存在的隐藏结构。例如对于可能具有时间稳定性的数据,通过计算每一 个相邻时间内数据数值的差异并统计是否在一个可以接受的范围内,如果是,则证明其有 时间稳定性。再例如包含位置信息,可能具有空间相关性的数据,通过计算不同位置数据 的某种差值,如果均在可以接受的范围内,则证明数据具有空间相关性。经过试验验证具 有某些特性后,根据这些特性对矩阵进行重排,可以提高数据恢复的性能。
对于提取数据特性,还有研究者使用矩阵分解的方法。矩阵分解是对数据维数进行消 减和压缩的方法,也可以用在模式分析当中。矩阵分解的结果矩阵元素往往有正有负,但 在实际应用场景中,例如抽取数据某一特征,往往负值是没有意义的,因此出现了非负矩 阵分解。非负矩阵分解是一种矩阵分解的方法,它的目的是将一个非负矩阵分解为两个非 负矩阵,并且认为这两个非负矩阵是具有物理意义的。非负矩阵分解公式如下:
V≈CP
其中,
Figure RE-GDA0002454420760000051
为原始非负矩阵,
Figure RE-GDA0002454420760000052
m与h根据不同的原始数据表 示不同的意义,r指的是最终的模式数量(一般根据实际应用背景来确定r的值)。Daniel等人提出将矩阵进行非负矩阵分解可以得到一个基础特征矩阵和一个系数矩阵,例如对文本数据进行分解,原矩阵的元素表示某个词在某篇文章中出现的频率,分解之后得到一个表示主题的矩阵,和一个对应的系数矩阵,对应的物理意义为一篇文章是由若干个主题组成,通过组合不同主题的比例,可以生成不同的文章。
(2)现有技术的缺点:
矩阵填充可以通过相对少的数据精确恢复一个低秩矩阵。许多数据集内部隐含着相关 性,因此这些数据组成的矩阵具有低秩性。对于一个待恢复的数据集,目前的方法大多是 先根据数据的特征建立数学模型,生成数据矩阵后,使用合适的矩阵填充算法恢复缺失的 数据。这种方法简单直接,但是没有利用数据的隐含特性。
矩阵被精确恢复需要采样数目充分。如果采样数目低于所需的最小值,将使得重建算 法需要很长时间,恢复数据不准确,甚至算法不收敛。此外,当数据缺失率很高时,算法 性能将受到很大影响。因此不利用数据隐含特性的填充方案将需要更高的采样率,在同等 采样率下,直接对矩阵进行填充性能较差。
对于待恢复的数据矩阵,目前的方案除了直接使用合适的矩阵填充算法进行恢复,还 有先根据矩阵隐含的相关性进行重新排列而后再进行填充。根据经验或观察列出数据可能 具有的特性,对这些可能具有的特性进行实验验证后再对这些特性加以利用,而后对矩阵 进行重排等操作。也可以直接根据原始数据矩阵分析数据的模式,但原始数据矩阵的维度 一般很大,直接对原始数据矩阵的规律性进行模式分析并进行后续的填充工作会造成特征 维度过大,使得算法的时间复杂度过高。
下面参照附图描述根据本发明实施例提出的基于模式分析的矩阵填充方法及装置, 首先将参照附图描述根据本发明实施例提出的基于模式分析的矩阵填充方法。
图1是本发明一个实施例的基于模式分析的矩阵填充方法的流程图。
如图1所示,该基于模式分析的矩阵填充方法包括以下步骤:
在步骤S101中,根据原始数据建立数据矩阵。
以气象数据中的PM2.5数据为例,定义矩阵
Figure BDA0002370581030000061
表示PM2.5数据。其中Xd表示第d天全部传感器位置记录的PM2.5数值,N表示传感器位置,T表示测量的时间 槽。矩阵Xd中的一个元素
Figure BDA0002370581030000062
表示在第d天中第j个单位时间内第i位置上的传感器测到 的PM2.5值。因为PM2.5数据都为非负数,因此Xd是一个非负矩阵。
比如,矩阵
Figure BDA0002370581030000063
是一个包含N个传感器位置,时间维度为24(单位时间为1小时)的PM2.5数据矩阵:
Figure BDA0002370581030000064
其中40表示第一天第一个传感器位置上第一个单位时间内的PM2.5值是40。
在步骤S102中,确定基本模式数量,并对数据矩阵进行非负矩阵分解,得到系数矩阵和模式矩阵,且对模式矩阵归一化处理,得到归一化后的模式矩阵,并且通过归一化后的模式矩阵更新系数矩阵,以获取数据分类后的矩阵。
可以理解的是,如图2所示,本发明实施例在进行模式分析时,首先,确定基本模式数量r,对数据矩阵进行非负矩阵分解,得到系数矩阵C和模式矩阵P;其次,模式矩阵P 归一化得到
Figure BDA0002370581030000065
然后,用归一化后的模式矩阵更新C;最后,分析系数矩阵和模式矩阵,将 数据分类。
具体而言,(1)确定基本模式数量r,对数据矩阵进行非负矩阵分解,得到系数矩阵C 和模式矩阵P
先确定参数r(基本模式数量)。r的值是未知的,需根据具体问题背景分析进行确定。 在本发明的例子中,将r的初始范围定为2至10,将365天的PM2.5数据矩阵进行分解。对于参数r的每个取值,都有365个分解结果。分析这些矩阵,发现当r=4时,365个基本 模式矩阵最稳定,即这些矩阵每一行数据的欧式距离最小。因此在本例中基本模式数量设 为4。
确定r后,在基本模式数量设为r时执行非负矩阵分解,得到系数矩阵C和模式矩阵P。
对第d天矩阵非负分解为如下形式:
Xd≈CdPd
Figure BDA0002370581030000071
Cd表示系数矩阵,Pd表示模式矩阵。N表示传感器位置,T表示测量的时间槽,r指的是最终的模式数量,r=4。
为了能够定量比较分解后的矩阵与原矩阵的近似程度,选择欧几里得距离方式定义了 目标函数J(C,P)=∑i,j[Xij-(CP)ij]2。定义好目标函数后,需要求解的问题就变为如下形 式:
min∑i,j[Xij-(CP)ij]2
s.t.C≥0,P≥0,
对于上述目标函数,定义乘法更新规则如下,采用下述规则不断更新矩阵C和矩阵P 直到两个矩阵收敛为止。
Figure BDA0002370581030000072
Figure BDA0002370581030000073
(2)模式矩阵P归一化得到
Figure BDA0002370581030000074
上一步得到的P是最稳定的,说明在基本模式数量为4时,365天内的基本模式矩阵相似。为使模式矩阵更准确,这一步使用归一化方法使其差异达到最小。
在确定r=4之后,之前的分解公式如下:
Figure BDA0002370581030000075
Figure BDA0002370581030000076
表示模式矩阵归一化之后的值,可以通过乘以某个系数a来得到
Figure BDA0002370581030000077
并称a为归一 化因子,分解公式如下:
Figure BDA0002370581030000081
Figure BDA0002370581030000082
表示第d天基本模式矩阵中第r个模式所对应的系数向量,向量 维度为h,向量中的元素都相等,以表示对该模式的缩放情况。目的是将模式矩阵归一化, 即通过乘上归一化因子a之后,365天的模式矩阵之间的差异达到最小,这可以通过最小化
Figure BDA0002370581030000083
的方差来确定系数a,其中d=1,2,…,n,n表示PM2.5数据的总天数。目 标函数及其约束可以写成公式:
Figure BDA0002370581030000084
Figure BDA0002370581030000085
Figure BDA0002370581030000086
其中vard(·)表示d天数据的方差,avgd(·)表示d天数据的平均值。通过解这个最优化问 题,我们可以分别求得向量
Figure BDA0002370581030000087
将矩阵P的各行与系数A相乘,即可得到归一化的模式矩阵
Figure BDA0002370581030000088
最后,我们通过下面的 公式将
Figure BDA0002370581030000089
的每一行之和变为1。
Figure BDA00023705810300000810
(3)用归一化后的模式矩阵更新C
归一化后利用每日的数据矩阵Xd和模式矩阵
Figure BDA00023705810300000811
来得到系数矩阵Cd。由于Xd
Figure BDA00023705810300000812
已知,不 再采用非负矩阵分解的迭代方法来更新Cd。为了找到合适的Cd,要使Xd
Figure BDA00023705810300000813
的差值最 小,得到以下最优化问题:
Figure BDA00023705810300000814
Figure BDA00023705810300000815
Figure BDA00023705810300000816
Figure BDA00023705810300000817
Figure BDA0002370581030000091
其中{·}t代表向量中第t个元素。这个最优化问题可以通过Karush-Kuhn-Tucker最优化 条件解决。
(4)分析系数矩阵和模式矩阵,将数据分类
不同模式PM2.5数值随时间变化趋势不同,主要包括四个模式,即早晚通勤高峰后PM2.5浓度显著提高、PM2.5峰值集中在早中晚三个时段、PM2.5峰值集中在全天、其他 变化趋势。
系数矩阵C的每一行代表不同模式的比重,例如第一个系数大,代表这个传感器位置 更偏向于模式1。根据系数矩阵每一行的系数,确认每一个传感器位置更接近哪种模式,将全部传感器位置分成4组。
在步骤S103中,将分类后的矩阵进行重新排列,且使用矩阵填充算法恢复排列后的 矩阵,以将恢复后的矩阵重新排列成初始形状。
具体而言,(1)将分类后的矩阵进行重新排列
上一步得到4个不同模式的传感器集合。按每个传感器对应模式的系数降序排列,以 列表示每个传感器位置,行表示时间,按顺序将这些列重新排列,得到新的矩阵。
图3中的(1)表示原始数据矩阵,执行步骤S102的模式分析后,得到每一列对应的模式,图3中的(2)表示分析得到的矩阵,图3中的(3)表示根据模式分类重排后得到 的矩阵。
由于时间槽数量庞大,因此矩阵的行数和列数相差很大。研究表明,将待填充的矩阵 重排成近似于方阵的矩形,在相同的采样率下,重排后的矩阵恢复性能更好。
以天为单位的分割不会过大增加矩阵的秩,且重排矩阵的行空间与列空间的维度不会 改变。因此在这里,将矩阵按天(24h)为单位进行裁剪,裁剪后不足行数的,用空行补足 并进行重排,使重排后的矩阵为正方形。
矩阵Xm×n(m>>n)重排方法总结如下:
1计算重排后可能的方阵行列数。
Figure BDA0002370581030000092
2计算子矩阵的行数目:
Figure BDA0002370581030000093
3计算原始矩阵X可以分割的矩阵数目:
Figure BDA0002370581030000094
4分割原始矩阵成多个小矩阵,如果最后一个子矩阵不足n′行,通过空行补足,使行数 目为n′;
5通过集成子矩阵建立重排矩阵X′。
(2)使用矩阵填充算法恢复排列后的矩阵
对于重排后的四个矩阵(每个模式对应一个),分别使用矩阵填充算法恢复矩阵。
(3)将恢复后的矩阵重新排列成初始形状
将恢复后的矩阵按照重排方法逆序执行,并且按照初始原矩阵的位置将4个模式的矩 阵重新排成一个大矩阵。
因矩阵规模通常很大,每个模式的数据可能有多列,每列的重排方式相同。这里以每 个模式有一列数据为例,图4展示了矩阵重排、填充及恢复的过程。图4中的(1)表示按模式重排后的矩阵,将这些列拼接为新的矩阵即如图4中的(2)所示,而后进行矩阵重排算法,将矩阵按行(天)分割并重排,使之排列为尽可能方的矩阵,不足行的部分用零补足, 得到用零补足后的重排矩阵即如图4中的(3)所示。之后使用矩阵填充算法对重排后的矩 阵进行恢复,得到填充后的重排矩阵即如图4中的(4)所示,最后按重排算法的逆序将矩 阵恢复原来的形状即如图4中的(5)所示。
综上,当收集到的数据不完整时,将会导致后续对数据的利用达不到预期效果。在对 缺失数据进行恢复时,数据的某些相似特性(如周期性、空间相关性等)是影响数据恢复性能的一个因素。因此,本发明实施例在进行矩阵填充前,使用模式分析方法从原始数据中提取出基本模式,从而对原始数据进行归类,高效发掘出数据的相似性,并在此基础上对矩阵进行重排,之后再对数据进行填充,能够在相同的采样率下提高数据恢复的准确性,减少恢复矩阵填充所需时间
其次参照附图描述根据本发明实施例提出的基于模式分析的矩阵填充装置。
图5是本发明一个实施例的基于模式分析的矩阵填充装置的结构示意图。
如图5所示,该基于模式分析的矩阵填充装置10包括:建立模块100、分析模块200和处理模块300。
其中,建立模块100用于根据原始数据建立数据矩阵;分析模块200用于确定基本模 式数量,并对数据矩阵进行非负矩阵分解,得到系数矩阵和模式矩阵,且对模式矩阵归一 化处理,得到归一化后的模式矩阵,并且通过归一化后的模式矩阵更新系数矩阵,以获取 数据分类后的矩阵;处理模块300用于将分类后的矩阵进行重新排列,且使用矩阵填充算 法恢复排列后的矩阵,以将恢复后的矩阵重新排列成初始形状。本发明实施例的装置10能 够在相同的采样率下提高数据恢复的准确性,减少恢复矩阵填充所需时间,达到更好的恢 复效果,简单易实现。
进一步地,在本发明的一个实施例中,矩阵的更新公式为:
Figure BDA0002370581030000101
Figure BDA0002370581030000102
其中,V为原始数据矩阵,C为系数矩阵,Cik表示第i个位置对应第k个模式的系数,CT为系数矩阵的转置,P为模式矩阵,Pkj表示第k种模式中第j个时间段的数值,PT为模 式矩阵的转置。
进一步地,在本发明的一个实施例中,归一化的目标函数及其约束公式为:
Figure BDA0002370581030000111
其中,vard(·)表示d天数据的方差,avgd(·)表示d天数据的平均值,
Figure BDA0002370581030000112
为第d天基本模 式矩阵中第r个模式所对应的系数向量,
Figure BDA0002370581030000113
为第d天第r个模式所对应的数值向量,n为天 数,
Figure BDA0002370581030000114
为第d天第r个模式对应的系数,d’是为了在公式中区分两次不同的累加,d和d’均表示天数,
Figure BDA0002370581030000115
为第d天第r个模式第h个位置的模式数值。
进一步地,在本发明的一个实施例中,用归一化后的模式矩阵更新的最优问题为:
Figure BDA0002370581030000116
Figure BDA0002370581030000117
Figure BDA0002370581030000118
Figure BDA0002370581030000119
Figure BDA00023705810300001110
其中,{·}t代表向量中第t个元素,
Figure BDA00023705810300001111
为第d天原始数据矩阵第i个位置第.个时间段内 的数值,
Figure BDA00023705810300001112
为第d天第i个位置的第.个模式的系数,
Figure BDA00023705810300001113
表示模式矩阵归一化之后的值,s.t.指 subject to,表示受制于某条件,
Figure BDA00023705810300001114
为第d天第i个位置的第1个模式的系数,
Figure BDA00023705810300001115
为第d天 第i个位置的第2个模式的系数,
Figure BDA00023705810300001116
为第d天第i个位置的第3个模式的系数,
Figure BDA00023705810300001117
为第d天第i个位置的第4个模式的系数。
进一步地,在本发明的一个实施例中,处理模块进一步用于:计算重排后的方阵行列 数
Figure BDA00023705810300001118
计算子矩阵的行数目
Figure BDA00023705810300001119
计算原始矩阵分割的矩阵数目
Figure BDA00023705810300001120
分割原始矩阵成多个小矩阵,其中,若最后一个子矩阵不足n′行,通过空行补足,使行数 目为n′;通过集成子矩阵建立重排矩阵X′。
需要说明的是,前述对基于模式分析的矩阵填充方法实施例的解释说明也适用于该实 施例的基于模式分析的矩阵填充装置,此处不再赘述。
根据本发明实施例提出的基于模式分析的矩阵填充装置,在进行矩阵填充前,使用模 式分析方法从原始数据中提取出基本模式,从而对原始数据进行归类,高效发掘出数据的 相似性,并在此基础上对矩阵进行重排,之后再对数据进行填充,能够在相同的采样率下 提高数据恢复的准确性,减少恢复矩阵填充所需时间,达到更好的恢复效果,简单易实现。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者 隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐 含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三 个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是 第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特 征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅 仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面” 可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二 特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、 或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包 含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须 针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一 个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技 术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合 和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的, 不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例 进行变化、修改、替换和变型。

Claims (10)

1.一种基于模式分析的矩阵填充方法,其特征在于,包括以下步骤:
根据原始数据建立数据矩阵;
确定基本模式数量,并对所述数据矩阵进行非负矩阵分解,得到系数矩阵和模式矩阵,且对所述模式矩阵归一化处理,得到归一化后的模式矩阵,并且通过所述归一化后的模式矩阵更新所述系数矩阵,以获取数据分类后的矩阵;
将所述分类后的矩阵进行重新排列,且使用矩阵填充算法恢复排列后的矩阵,以将恢复后的矩阵重新排列成初始形状。
2.根据权利要求1所述的方法,其特征在于,矩阵的更新公式为:
Figure FDA0002370581020000011
Figure FDA0002370581020000012
其中,V为原始数据矩阵,C为系数矩阵,Cik表示第i个位置对应第k个模式的系数,CT为系数矩阵的转置,P为模式矩阵,Pkj表示第k种模式中第j个时间段的数值,PT为模式矩阵的转置。
3.根据权利要求1所述的方法,其特征在于,归一化的目标函数及其约束公式为:
Figure FDA0002370581020000013
其中,vard(·)表示d天数据的方差,avgd(·)表示d天数据的平均值,
Figure FDA0002370581020000015
为第d天基本模式矩阵中第r个模式所对应的系数向量,
Figure FDA0002370581020000016
为第d天第r个模式所对应的数值向量,n为天数,
Figure FDA0002370581020000017
为第d天第r个模式对应的系数,d’是为了在公式中区分两次不同的累加,d和d’均表示天数,
Figure FDA0002370581020000018
为第d天第r个模式第h个位置的模式数值。
4.根据权利要求1所述的方法,其特征在于,用所述归一化后的模式矩阵更新的最优问题为:
Figure FDA0002370581020000019
Figure FDA00023705810200000110
Figure FDA0002370581020000021
Figure FDA0002370581020000022
Figure FDA0002370581020000023
其中,{·}t代表向量中第t个元素,
Figure FDA0002370581020000024
为第d天原始数据矩阵第i个位置第.个时间段内的数值,
Figure FDA0002370581020000025
为第d天第i个位置的第.个模式的系数,
Figure FDA0002370581020000026
表示模式矩阵归一化之后的值,s.t.指subject to,表示受制于某条件,
Figure FDA0002370581020000027
为第d天第i个位置的第1个模式的系数,
Figure FDA0002370581020000028
为第d天第i个位置的第2个模式的系数,
Figure FDA0002370581020000029
为第d天第i个位置的第3个模式的系数,
Figure FDA00023705810200000210
为第d天第i个位置的第4个模式的系数。
5.根据权利要求1所述的方法,其特征在于,所述将所述分类后的矩阵进行重新排列,包括:
计算重排后的方阵行列数
Figure FDA00023705810200000211
计算子矩阵的行数目
Figure FDA00023705810200000212
计算原始矩阵分割的矩阵数目
Figure FDA00023705810200000213
分割所述原始矩阵成多个小矩阵,其中,若最后一个子矩阵不足n′行,通过空行补足,使行数目为n′;
通过集成子矩阵建立重排矩阵X′。
6.一种基于模式分析的矩阵填充装置,其特征在于,包括:
建立模块,用于根据原始数据建立数据矩阵;
分析模块,用于确定基本模式数量,并对所述数据矩阵进行非负矩阵分解,得到系数矩阵和模式矩阵,且对所述模式矩阵归一化处理,得到归一化后的模式矩阵,并且通过所述归一化后的模式矩阵更新所述系数矩阵,以获取数据分类后的矩阵;
处理模块,用于将所述分类后的矩阵进行重新排列,且使用矩阵填充算法恢复排列后的矩阵,以将恢复后的矩阵重新排列成初始形状。
7.根据权利要求6所述的装置,其特征在于,矩阵的更新公式为:
Figure FDA00023705810200000214
Figure FDA00023705810200000215
其中,V为原始数据矩阵,C为系数矩阵,Cik表示第i个位置对应第k个模式的系数,CT为系数矩阵的转置,P为模式矩阵,Pkj表示第k种模式中第j个时间段的数值,PT为模式矩阵的转置。
8.根据权利要求6所述的装置,其特征在于,归一化的目标函数及其约束公式为:
Figure FDA0002370581020000031
其中,vard(·)表示d天数据的方差,avgd(·)表示d天数据的平均值,
Figure FDA0002370581020000032
为第d天基本模式矩阵中第r个模式所对应的系数向量,
Figure FDA0002370581020000033
为第d天第r个模式所对应的数值向量,n为天数,
Figure FDA0002370581020000034
为第d天第r个模式对应的系数,d’是为了在公式中区分两次不同的累加,d和d’均表示天数,
Figure FDA0002370581020000035
为第d天第r个模式第h个位置的模式数值。
9.根据权利要求6所述的装置,其特征在于,用所述归一化后的模式矩阵更新的最优问题为:
Figure FDA0002370581020000036
Figure FDA0002370581020000037
Figure FDA0002370581020000038
Figure FDA0002370581020000039
Figure FDA00023705810200000310
其中,{·}t代表向量中第t个元素,
Figure FDA00023705810200000311
为第d天原始数据矩阵第i个位置第.个时间段内的数值,
Figure FDA00023705810200000312
为第d天第i个位置的第.个模式的系数,
Figure FDA00023705810200000313
表示模式矩阵归一化之后的值,s.t.指subject to,表示受制于某条件,
Figure FDA00023705810200000314
为第d天第i个位置的第1个模式的系数,
Figure FDA00023705810200000315
为第d天第i个位置的第2个模式的系数,
Figure FDA00023705810200000316
为第d天第i个位置的第3个模式的系数,
Figure FDA00023705810200000317
为第d天第i个位置的第4个模式的系数。
10.根据权利要求6所述的装置,其特征在于,所述处理模块进一步用于:
计算重排后的方阵行列数
Figure FDA00023705810200000318
计算子矩阵的行数目
Figure FDA00023705810200000319
计算原始矩阵分割的矩阵数目
Figure FDA00023705810200000320
分割所述原始矩阵成多个小矩阵,其中,若最后一个子矩阵不足n′行,通过空行补足,使行数目为n′;
通过集成子矩阵建立重排矩阵X′。
CN202010049398.3A 2020-01-16 2020-01-16 基于模式分析的矩阵填充方法及装置 Active CN111274286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010049398.3A CN111274286B (zh) 2020-01-16 2020-01-16 基于模式分析的矩阵填充方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010049398.3A CN111274286B (zh) 2020-01-16 2020-01-16 基于模式分析的矩阵填充方法及装置

Publications (2)

Publication Number Publication Date
CN111274286A true CN111274286A (zh) 2020-06-12
CN111274286B CN111274286B (zh) 2023-06-23

Family

ID=71000272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010049398.3A Active CN111274286B (zh) 2020-01-16 2020-01-16 基于模式分析的矩阵填充方法及装置

Country Status (1)

Country Link
CN (1) CN111274286B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014101579A1 (zh) * 2012-12-28 2014-07-03 国家电网公司 基于奇异值分解算法的变压器局部放电模式识别方法
CN107301382A (zh) * 2017-06-06 2017-10-27 西安电子科技大学 基于时间依赖约束下深度非负矩阵分解的行为识别方法
CN108460401A (zh) * 2018-01-15 2018-08-28 北京交通大学 非负特征融合方法及基于非负特征融合的模式分类方法
JP2019079367A (ja) * 2017-10-26 2019-05-23 株式会社デンソーアイティーラボラトリ 行列分解装置及び行列分解方法
CN110188427A (zh) * 2019-05-19 2019-08-30 北京工业大学 一种基于非负低秩动态模式分解的交通数据填充方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014101579A1 (zh) * 2012-12-28 2014-07-03 国家电网公司 基于奇异值分解算法的变压器局部放电模式识别方法
CN107301382A (zh) * 2017-06-06 2017-10-27 西安电子科技大学 基于时间依赖约束下深度非负矩阵分解的行为识别方法
JP2019079367A (ja) * 2017-10-26 2019-05-23 株式会社デンソーアイティーラボラトリ 行列分解装置及び行列分解方法
CN108460401A (zh) * 2018-01-15 2018-08-28 北京交通大学 非负特征融合方法及基于非负特征融合的模式分类方法
CN110188427A (zh) * 2019-05-19 2019-08-30 北京工业大学 一种基于非负低秩动态模式分解的交通数据填充方法

Also Published As

Publication number Publication date
CN111274286B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN113052211B9 (zh) 一种基于特征的秩和通道重要性的剪枝方法
CN112699960B (zh) 基于深度学习的半监督分类方法、设备及存储介质
CN109977994B (zh) 一种基于多示例主动学习的代表性图像选取方法
CN111696101A (zh) 一种基于SE-Inception的轻量级茄科病害识别方法
EP4080408A1 (en) Model generation method and apparatus, object detection method and apparatus, device, and storage medium
Lemercier et al. Siggpde: Scaling sparse gaussian processes on sequential data
CN114065850A (zh) 基于统一锚点与子空间学习的谱聚类方法及系统
CN107909062B (zh) 一种基于信息熵的遥感影像特征离散化方法及系统
CN116340746A (zh) 一种基于随机森林改进的特征选择方法
CN112990264A (zh) 一种基于一致图学习的多视图聚类方法
CN117131449A (zh) 面向数据治理的具有传播学习能力的异常识别方法及系统
CN114998647A (zh) 基于注意力多实例学习的乳腺癌全尺寸病理图像分类方法
CN108388918B (zh) 具有结构保持特性的数据特征选择方法
CN113127464B (zh) 农业大数据环境特征处理方法、装置及电子设备
Al-Sharoa et al. Robust community detection in graphs
CN111274286A (zh) 基于模式分析的矩阵填充方法及装置
CN108108758A (zh) 面向工业大数据的多层增量特征提取方法
Akinina et al. Methods of detection in satellite images of illegal dumps by using a method based on tree classifier
Little et al. An analysis of classical multidimensional scaling
CN115035966B (zh) 基于主动学习和符号回归的超导体筛选方法、装置及设备
CN112465054B (zh) 一种基于fcn的多变量时间序列数据分类方法
Ivek et al. Reconstruction of incomplete wildfire data using deep generative models
Bayma et al. Identifying finest machine learning algorithm for climate data imputation in the state of minas gerais, brazil
CN116050119A (zh) 一种基于二元表示的正负图分割多视图聚类方法
CN113537573A (zh) 基于双重时空特征提取的风电功率运行趋势预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant