CN105893610A - 一种多源异构大数据的缺失源补全方法 - Google Patents

一种多源异构大数据的缺失源补全方法 Download PDF

Info

Publication number
CN105893610A
CN105893610A CN201610265744.5A CN201610265744A CN105893610A CN 105893610 A CN105893610 A CN 105893610A CN 201610265744 A CN201610265744 A CN 201610265744A CN 105893610 A CN105893610 A CN 105893610A
Authority
CN
China
Prior art keywords
source
data
disappearance
matrix
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610265744.5A
Other languages
English (en)
Inventor
张磊
王树鹏
云晓春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201610265744.5A priority Critical patent/CN105893610A/zh
Publication of CN105893610A publication Critical patent/CN105893610A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种多源异构大数据的缺失源补全方法。本方法针对多源异构数据的缺失源问题,利用多源异构数据间的语义互补性和分布相似性,基于子空间学习方法,通过对完整的多源异构数据的语义互补性和分布相似性的挖掘,获得一个不同来源间的特征同构的语义共享子空间,从而在这个特征同构空间中,利用学习到的语义互补性和分布相似性,补全多源异构数据的缺失来源。本方法中,假设不同的来源都服从正态分布,那么缺失源的数据矩阵可以塑造为低秩(捕捉类间差异,代表期望)加稀疏(捕捉类内差异,代表方差)两个成分的和。由此,利用异源间的语义互补性和等同分布补全多源异构数据的缺失描述。

Description

一种多源异构大数据的缺失源补全方法
技术领域
本发明属于信息技术领域,针对海量多源异构数据环境下的缺失源问题,提出了一种多源异构大数据的缺失源补全方法。
背景技术
近年来,随着大量高技术数码产品的出现,由这些异源电子设备产生的多源异构数据(Multi-source Heterogeneous Data)己经遍布到人们现实生活的各个角落。所谓多源异构数据是指来自不同来源或者渠道,但表达的内容相似,以不同形式、不同来源、不同视角和不同背景等多种样式出现的数据。例如,新浪微博、腾讯微信和搜狐网站关于相同的新闻的不同形式的报道;老年痴呆症(Alzheimer)患者的大脑可以由核磁共振(MRI)、正电子成像技术(PET)和X光产生多种不同视角的医学成像;Wikipedia网站上对花豹的描述采用了图片、文本和语音等不同来源的媒介;相同的建筑物白宫可以处在不同的背景之下。
然而,在现实情况下,由于高数据采集代价,不真实性和拒绝反馈等原因,多源异构数据的多个来源并非都可得而是仅具有一个来源的描述。因此,国内外的研究人员提出了一些多源数据的矩阵补全方法。目前该类方法大致可分为四类:一类是基于欧氏距离的方法,其次是基于矩阵分解的方法,再者是基于选择填补的方法,最后是基于特征选择的方法。
基于样本间的欧氏距离,K-最近邻(K-Nearest Neighbor,KNN)算法通过近邻样本的均值填补缺失值。尽管这种方法具有简单易行的特点,但若样本中存在噪声,就会大大降低矩阵补全的效果。(参考文献:Thomas M.Cover,Peter E.Hart.Nearest NeighborPattern Classification.IEEE Transactions on Information Theory 13(1):21-27(1967).)
奇异值分解(Singular Value Decomposition,SVD)是一种基于低秩逼近的补全方法。该方法首先将缺失值初始为0,然后对填补矩阵进行奇异值分解,接着利用低秩矩阵中的对应值更新缺失值,直至收敛。然而,如果存在大量缺失值,SVD则无法对填补矩阵进行奇异值分解。(参考文献:Gene H.Golub,Charles F.Van Loan.Matrix Computations(3.ed.).Johns Hopkins University Press 2012.)
Muslea等人通过实验已经验证高效而鲁棒的多源学习方法需要将主动(Active)学习和半监督学习相结合。(参考文献:Ion Muslea,Steven Minton,CraigA.Knoblock.Active+Semi-supervised Learning=Robust Multi-view Learning.ACMInternational Conference on Machine Learning 2002:435-442.)Qian等人正是根据这一点,提出了一种半监督的多源数据缺失标签填补(Semi-Supervised DimensionReduction for Multi-label and Multi-view Learning,SSDR-MML)方法,利用异源数据间的相关性,填补大量无标签数据的缺失标签。SSDR-MML方法的不足之处在于,它只能填补缺失的标签,对于多源异构数据的缺失描述却无能为力。(参考文献:Buyue Qian,XiangWang,Jieping Ye,Ian Davidson.A Reconstruction Error Based Framework forMulti-Label and Multi-view Learning.IEEE Transactions on Knowledge and DataEngineering 27(3):594-607(2015).)
Xiang等人提出了一种能够处理多源逐块(Block-Wise)缺失数据的特征选择(incomplete Source-Feature Selection,iSFS)方法。其基本思想为:首先,针对每个来源学习一个单独的分类器βk(k=1,2,…,m,m为来源的数量);然后,通过额外的正规化项,将所有模型整合到一起。为了能够处理多源逐块缺失数据,iSFS方法根据不同来源的缺失情况,将全部数据分成不同的组。在每个分组内,都包含完整的和存在缺失来源的多源数据。不同分组之间不是完全独立的,同一完整的多源数据可以被包含在不同的分组里。iSFS方法的优点在于,能够在多源数据出现逐块缺失的情况下,不必对缺失元素进行插值填补,就可完成多源分析和特征选择。然而,它却无法补全缺失的数据。(参考文献:Shuo Xiang,LeiYuan,Wei Fan,Yalin Wang,Paul M.Thompson,Jieping Ye.Multi-source Learning withBlock-wise Missing Data for Alzheimer's Disease Prediction.ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining 2013:185-193.)
表1总结了上述多源数据缺失补全方法的不足。
表1.已有的多源数据缺失补全方法的不足
发明内容
本发明的目的:
在现实情况下,由于高数据采集代价,不真实性和拒绝反馈等原因,多源异构数据的多个来源并非都可得而是仅具有一个来源的描述。这种现象导致缺失来源的存在,其中缺失来源数据完全缺失其它来源的描述。这个问题完全不同于单源环境下的不完整数据的情况。单 源不完整数据指的是在单源数据中某些变量的值是缺失的。如图1所示,在阿尔茨海默病神经影像(Alzheimer’s Disease Neuroimaging Initiative)数据库中,许多数据只有磁共振成象(Magnetic Resonance Imaging,MRI)度量,而没有正电子放射断层(Positron Emmission Tomography,PET)扫描图像。在图1的(a)图中椭圆空心虚线框表示多源异构数据的缺失来源,而在图1的(b)图中小六边形空心实线框表示单源环境下的不完整数据中的缺失值。
因此,传统的单源不完整数据的补全方法完全不适用于多源异构数据的缺失来源补全。此外,多源数据的每个来源都包含了一些相关互补信息,这些信息对于提高大数据分类、聚类、检索和分析的性能都是不可或缺十分必要的。然而,缺失来源数据通常都被直接丢弃,这就会导致可使用的数据资源的严重缺失,进而严重削弱了各种大数据应用的性能。由此,迫切需要提出一种有效的多源异构数据缺失来源补全方法,补全缺失的来源,弥补数据资源的严重缺失,以促进多源异构数据的高效利用。而通过利用异源间的语义互补性和分布相似性,补全多源异构数据的缺失来源正是本发明的特色之一。
如图2所示,多源异构数据处在互补性和分布性约束之下。互补性约束指的是不同来源间的语义互补性,该约束会将不同来源间的互补信息充分包含在多源数据中。不同于互补性约束,分布性约束呈现出高度的分布相似性,此约束会将同一来源内的同类样本聚集到一起。而本发明的具体目的就是针对多源异构数据的缺失源问题,提供一种多源异构大数据的缺失源补全方法,利用多源异构数据间的语义互补性和等同分布,基于子空间学习方法,通过对已有的无缺失多源异构数据间关联性的挖掘,补全缺失的来源,提供更多的数据资源,增强大数据应用的性能。
本发明的技术方案:
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图3所示,本发明提供了一种多源异构数据的缺失源补全的基本框架。这个框架由两个数学模型组成,一个为同构线性相关分析(Isomorphic Linear CorrelationAnalysis,ILCA)模型,另一个为等同分布约束补全(Identical Distribution PursuitCompletion,IDPC)模型。其中,旨在捕捉异源间的语义互补性和等同分布,ILCA模型将多源异构数据线性投影到一个特征同构空间,以此揭示出异源间的共享信息。与此同时,假设不同的来源都服从正态分布,那么缺失源的数据矩阵可以塑造为低秩(捕捉类间差异,代表期望)加稀疏(捕捉类内差异,代表方差)两个成分的和。由此,为了补全缺失的来源,IDPC模型在由ILCA模型学习到的特征同构空间中,利用异源间的语义互补性和等同分布,补全多源异构数据的缺失描述,进而可以获得更多的多源异构数据,提高学习器的泛化能力。
在图3中,一组多源异构数据由MRI和PET两种异源描述组成,并已有一些无缺失的多源异构数据XE和YE。然而某些多源数据XM存在缺失源。例如,实例x5,x6,x7,和x8完全缺失MRI源的描述。针对多源异构数据的缺失源问题,为了恢复多源异构数据的缺失描述,获取更多的多源异构数据,提高学习器的泛化能力,本发明将提供具有多源补全能力的缺失源补全算法。
具体的技术方案为:
1)ILCA模型首先学习到一个特征同构空间。在这个空间中使用相同的维度和相同的属性描述相同的语义概念,以此桥接多个异构的底层特征空间。为了能够充分捕捉到异源间的语义互补性和等同分布,ILCA模型会利用已有的无缺失异构描述XE和YE,学习多个异构的线性变换A和B,从而消除不同来源间的异构性,由此得到一个特征同构空间。在这个空间中,来自不同来源的异构相关描述被耦合到一起,以此捕捉异源异构描述间的共享信息,进而在不同的类别间形成大边缘。
例如,图3中类1和类2的大边缘。由此便可在这个特征同构空间中,直接度量多源异构数据间的相关性。如图3所示,线性变换A和B将异构共生描述x2和y2线性投影到这个特征同构空间,以消除它们之间的异构性。此外,在这个特征同构空间中,ILCA模型还将同类样本聚集到一起,而异类样本间则保持一定距离。例如,在这个特征同构空间中,异构共生描述(x1,y1)和(x3,y3)呈现出很高的分布相似性。
2)进一步假设多源异构数据的缺失源服从正态分布。那么,缺失描述的期望自然对应于类间差异,而缺失样本的方差代表类内差异。为了恢复多源异构数据的缺失源,IDPC模型利用秩(rank)捕捉类间差异,同时使用稀疏性(sparsity)挖掘类内差异。由此,缺失描述的数据矩阵XM便由低秩矩阵LM和稀疏矩阵SM的和构成。根据这个补全假设,IDPC模型利用ILCA模型学习到的语义互补性和等同分布,补全多源异构数据的缺失源。此外,在补全过程中,一些噪声信息不可避免地被包含在了恢复的缺失源中。这些因素会严重影响恢复描述的性能。为了能够有效地去除这些噪声,在IDPC模型中引入了一个由均值矩阵诱导的数据分布约束。这个约束会将恢复的描述推进到以同类样本的均值为中心的边缘内。而矩阵H的第i行为已有的无缺失矩阵YE中和第i个缺失描述类别相同的同类样本的均值。
在图3中,由于y1和y3都属于类1,所以y1和y3的均值构成h1。与此同时,在特征同构空间中,来自缺失源MRI的恢复描述x5和x7被推进到以PET源中同类样本的均值h1为中心的边缘中,并分别和对应的异构描述y5和y7耦合到一起。如图3所示,由ILCA+IDPC框架不仅完成了缺失源的补全,而且使恢复的缺失描述在学习到的特征同构空间中更可能是线性可分的。
下面进一步说明本发明的主要内容:
1)同构线性相关分析模型
本发明提供的同构线性相关分析ILCA模型,利用已有的多源无缺失数据学习多个异构线性变换,比如利用两个源的无缺失数据(dx为来源Vx的维度,dy为来源Vy的维度,n1为无缺失样本的数量),学习两个异构线性变换A和B,从而将异源间的相关异构描述耦合到一起,以捕捉异源间的语义互补性和等同分布,消除异源间的异构性,从而构建出一个低维的特征同构空间。
该方法首先设分别是来源Vx和Vy中同类样本对的集合,分别是来源Vx和Vy中异类样本对的集合,J和R分别是来源Vx和Vy中的散度矩阵。那么可以将类内散度矩阵JS和RS定义为如下形式:
与此同时,类间散度矩阵JD和RD被定义为如下形式:
基于上述定义,ILCA方法的优化模型如下:
其中,k∈{1,…,min(dx,dy)}为同构空间的维度,是类间惩罚(即拉大异类样本间的距离),是类内紧缩(即缩减同类样本间的距离),而α和β是平衡参数。在公式(5)中,引入正交约束的目的就是有效地去除同一来源内不同特征间的相关性。此外,利用类内紧缩和类间惩罚构成的大边缘策略学习不同来源间的等同分布。
值得注意的是,ILCA方法可以将多源异构数据线性投影到一个低维空间中。这一点是非常不同于著名的非线性投影方法核典型相关分析方法(参考文献:DavidR.Hardoon,Sándor Szedmák,John Shawe-Taylor.Canonical Correlation Analysis:AnOverview with Application to Learning Methods.Neural Computation 16(12):2639-2664(2004))和深度典型相关分析(参考 文献:Galen Andrew,Raman Arora,JeffA.Bilmes,Karen Livescu.Deep Canonical Correlation Analysis.ACM InternationalConference on Machine Learning(3)2013:1247-1255.)方法的。
2)等同分布约束补全模型
如图4所示,本发明提供的等同分布约束补全模型IDPC假设数据矩阵(n2为多源缺失样本的数量)是来源Vx的一组缺失描述,而数据矩阵对应于缺失描述XM的来自于来源Vy的一组已经存在的异构描述。缺失源的数据矩阵XM可以塑造为低秩LM(捕捉类间差异,代表期望)加稀疏SM(捕捉类内差异,代表方差)两个成分的和。由此,为了补全缺失的来源,IDPC模型在由ILCA模型学习到的特征同构空间中,利用ILCA模型捕捉到的异源间的语义互补性和等同分布,补全多源异构数据的缺失描述。
假设A*和B*为公式(5)中ILCA模型的最优解,IDPC方法的优化模型如下:
Ω 1 : min L M , S M | | ( L M + S M ) A * - Y M B * | | F 2 + γ | | S M | | 1 s . t . | | ( L M + S M ) A * - HB * | | F 2 ≤ π a n d | | L M | | * ≤ ϵ - - - ( 6 )
其中,LM和SM分别表示缺失来源描述的类间和类内差异,γ为平衡因子,π为距离度量参数,而ε为预先指定的正参数以控制恢复的缺失来源描述携带的信息量。矩阵 构建了一个数据分布约束,使得恢复的缺失来源描述LM+SM=XM拥有和来源Vy中已存在的描述YE相同的分布,以此最大程度地消除噪声。假设是YM中第i个样本在YE中的最近邻。在矩阵H中每一行向量由已存在的样本YE中和XM中第i个实例同类样本的均值组成。分别是来自来源Vx和Vy的第t个类的样本集。定义如下三式:
D i = ∪ t D t - - - ( 8 )
hi=mean(Di) (9)
其中,Di是YE中和XM中第i个实例同类样本的集合。
此外,在公式(6)中引入迹范数约束的目的就是在特征同构空间中捕捉更多的缺失来源描述XM的类间差异。而范数正规化项控制恢复的缺失来源描述XM的稀疏度以此挖掘足够的类内差异。
因此,本质上,由于充分考虑了不同来源间的语义互补性和等同分布,提出的IDPC模型不同于现有的矩阵补全方法。
需要注意的是,直接求解公式(6)中的问题Ω1不是一件容易的事情,其原因有两点。首先, 很难找到满足数据分布约束的最优解。其次,迹范数约束是不平滑,这就使得寻找模型的最优解更加困难。然而,可以使用拉格朗日对偶法增广目标函数。具体方法为将数据分布约束的加权和添加到目标函数中。由此可得如下可求解的凸优化问题Ω2
Ω 2 : min L M , S M | | ( L M + S M ) A * - Y M B * | | F 2 + γ | | S M | | 1 + η ( | | ( L M + S M ) A * - HB * | | F 2 - π ) s . t . | | L M | | * ≤ ϵ - - - ( 10 )
其中,η为平衡因子。
本发明的有益效果:
针对于多源缺失数据中存在的缺失源问题,本发明提供了一种特征层面的多源异构数据缺失源补全的框架。该框架首先针对于异源间存在的特征异构性,设计了一种线性投影法ILCA,通过学习一个特征同构空间,桥接异构的底层特征空间,并捕捉到异源间的语义互补性和等同分布。此外,根据不同的来源都服从正态分布的假设,将缺失源的数据矩阵塑造为低秩加稀疏两个成分的和。同时,创新性地提出了一种基于数据分布约束的缺失源补全模型IDPC,利用ILCA模型学习到的异源间的语义互补性和等同分布,补全多源异构数据的缺失描述,获取更多的多源异构数据,提高学习器的泛化能力。
附图说明
图1为多源异构数据的缺失来源和单源不完整数据示意图。
图2为多源异构数据间的互补性和分布性约束示意图。
图3为多源异构数据的缺失源补全框架示意图。
图4为多源异构数据缺失源的构成示意图。
具体实施方式
下面通过具体实施例,对本发明做进一步说明。
本发明提供的多源异构大数据的缺失源补全方法,由同构线性相关分析ILCA和等同分布约束补全IDPC算法组成,通过循环迭代过程实现模型的逐步优化。
为了符号的简单表示,在公式(5)中的ILCA模型可以表示为:
其中,是平滑的目标函数,Z=[AZ BZ]象征优化变量,而为封闭的凸集,其定义为:
由于f(·)是连续可微函数且带有Lipschitz连续梯度L(参考文献:Y.Nesterov.Introductory lectures on convex optimization,volume 87.SpringerScience&Business Media,2004.):
所以,很适合采用加速近似梯度(Accelerated Proximal Gradient,APxG)(参考文献:[1]Yurii Nesterov.Introductory Lectures on Convex Programming.KluwerAcademic Publishers,2004.[2]Shuiwang Ji,Jieping Ye.An Accelerated GradientMethod for Trace Norm Minimization.Proc.ACM.International Conference onMachine Learning,2009,pp.457-464.)算法求解公式(11)中的问题。
需要注意的是,在APxG算法中,可以使用基于曲线搜索的梯度下降(GradientDescent Method with Curvilinear Search,GDMCS)算法(参考文献:Zaiwen Wen,WotaoYin.A Feasible Method for Optimization with OrthogonalityConstraints.Elsevier.Pattern recognition,2013,142(1-2):397-434.)保持满足约束条件的给定点p的正交性。算法1给出了GDMCS算法的具体细节。
通过将APxG和算法1相结合,就可以求解公式(5)中的问题。算法2给出了求解公式(5)中问题的具体细节,其中Schmidt(·)表示Gram-Schmidt正交化(参考文献:CarlD.Meyer.Matrix Analysis and Applied Linear Algebra.SIAM Publishers,2000.)。
在公式(6)中的IDPC模型可以简化为:
其中,是一个平滑的目标函数,g(·)=‖·‖1是一个不可微函数,Θ=[LΘ SΘ]象征性地表示优化变量,而为如下形式的封闭的凸集:
由于公式(14)中的w(·)是连续可微函数且带有Lipschitz连续梯度L(参考文献:Y.Nesterov.Introductory lectures on convex optimization,volume 87.SpringerScience&Business Media,2004.),所以很适合采用加速投影梯度(AcceleratedProjected Gradient,APjG)(参考文献:Y.Nesterov.Introductory lectures on convexoptimization,volume 87.Springer Science&Business Media,2004.)算法求解公式(14)中的问题。
需要注意的是,在APjG算法中,一个给定点p在凸集上的欧几里德投影可以定义为:
其中,m是预先指定的正常数。那么,可以使用在迹范数约束上的有效投影(Efficient Projection on Trace Norm Constraints,EPTNC)算法(参考文献:JohnDuchi,Shai Shalev-Shwartz,Yoram Singer,Tushar Chandra.Efficient Projectionsonto thefor Learning in High Dimensions.Proc.International Conferenceon Machine Learning,2008,pp.272-279.)求解等式(16)。算法3给出了EPTNC算法的具体细节。
与此同时,在APjG算法中,通过不可微函数g(·)构建的无约束优化问题为:
θ * = arg m i n θ μ | | θ | | 1 + ρ | | θ - s | | F 2 - - - ( 17 )
其中,μ和ρ是两个预先指定的正参数。可以使用软门限算子(Soft-ThresholdingOperator,STO)算法(参考文献:Jian-Feng Cai,Emmanuel J.Candès,Zuowei Shen.ASingular Value Thresholding Algorithm for Matrix Completion.SIAM.Journal onOptimization,2010,20(4):1956-1982.)求解等式(17)。STO算法的具体细节见算法4。
当应用APjG算法求解公式(14)中的问题时,一个给定点P=[LP SP]在集合上的欧几里德投影Θ=[AΘ BΘ]可以定义为:
proj Q ( P ) = arg m i n Θ ∈ Q | | Θ - P | | F 2 / 2 - - - ( 18 )
通过结合APjG算法,算法3和算法4,就可以求解公式(14)中的问题。算法5给出了IDPC算法的具体细节。
本发明提供的多源异构大数据的缺失源补全ILCA+IDPC框架,针对多源异构数据的缺失源问题,利用多源异构数据间的语义互补性和分布相似性,基于子空间学习方法,通过对已有的无缺失多源异构数据间关联性的挖掘,补全多源异构数据的缺失描述,从而获取更多的多源异构数据,提高学习器的泛化能力。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (4)

1.一种多源异构大数据的缺失源补全方法,其步骤包括:
1)利用已有的无缺失异构描述,学习多个异构的线性变换,将多源异构数据线性投影到一个特征同构空间;在所述特征同构空间中,将来自不同来源的异构相关描述耦合到一起,以捕捉异源间的语义互补性和等同分布,消除异源间的异构性;
2)在所述特征同构空间中,利用异源间的语义互补性和等同分布,补全多源异构数据的缺失描述。
2.如权利要求1所述的方法,其特征在于:步骤1)利用已有的多源无缺失数据学习多个异构线性变换A和B,其中dx为来源Vx的维度,dy为来源Vy的维度,n1为无缺失样本的数量;并建立如下的优化模型:
其中,k∈{1,…,min(dx,dy)}为同构空间的维度,JS和RS为类内散度矩阵,JD和RD为类间散度矩阵,是类间惩罚,是类内紧缩,而α和β是平衡参数。
3.如权利要求2所述的方法,其特征在于,步骤2)中,设数据矩阵 是来源Vx的一组缺失描述,其中n2为多源缺失样本的数量,设数据矩阵 对应于缺失描述XM的来自于来源Vy的一组已经存在的异构描述,然后将缺失源的数据矩阵XM塑造为低秩矩阵LM加稀疏矩阵SM两个成分的和;然后建立如下优化模型:
Ω 1 : min L M , S M | | ( L M + S M ) A * - Y M B * | | F 2 + γ | | S M | | 1 s . t . | | ( L M + S M ) A * - HB * | | F 2 ≤ π a n d | | L M | | * ≤ ϵ ,
其中,A*和B*为步骤1)得到的最优解,LM和SM分别表示缺失来源描述的类间和类内差异,γ为平衡因子,π为距离度量参数,而ε为预先指定的正参数以控制恢复的缺失来源描述携带的信息量;矩阵构建了一个数据分布约束,使得恢复的缺失来源描述LM+SM=XM拥有和来源Vy中已存在的描述YE相同的分布,以此最大程度地消除噪声。
4.如权利要求3所述的方法,其特征在于,使用拉格朗日对偶法增广目标函数,以求解Ω1,具体方法为将数据分布约束的加权和添加到目标函数中,由此得到如下可求解的凸优化问题Ω2
Ω 2 : min L M , S M | | ( L M + S M ) A * - Y M B * | | F 2 + γ | | S M | | 1 + η ( | | ( L M + S M ) A * - HB * | | F 2 - π ) s . t . | | L M | | * ≤ ϵ ,
其中,η为平衡因子。
CN201610265744.5A 2016-04-26 2016-04-26 一种多源异构大数据的缺失源补全方法 Pending CN105893610A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610265744.5A CN105893610A (zh) 2016-04-26 2016-04-26 一种多源异构大数据的缺失源补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610265744.5A CN105893610A (zh) 2016-04-26 2016-04-26 一种多源异构大数据的缺失源补全方法

Publications (1)

Publication Number Publication Date
CN105893610A true CN105893610A (zh) 2016-08-24

Family

ID=56704643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610265744.5A Pending CN105893610A (zh) 2016-04-26 2016-04-26 一种多源异构大数据的缺失源补全方法

Country Status (1)

Country Link
CN (1) CN105893610A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096324A (zh) * 2016-08-26 2016-11-09 清华大学 基于k近邻回归的输变电主设备负荷数据缺失填补算法
CN108519600A (zh) * 2018-04-19 2018-09-11 华中科技大学 一种综合孔径辐射计增广协方差矩阵的构造方法及系统
CN109101638A (zh) * 2018-08-20 2018-12-28 河海大学 一种大坝变形监测连续性缺失数据补全方法
CN109190656A (zh) * 2018-07-16 2019-01-11 浙江大学 一种低采样定位环境下的室内语义轨迹标注和补全方法
CN109460571A (zh) * 2018-09-27 2019-03-12 华南理工大学 一种基于矩阵低秩性以及稀疏性的智能电网数据恢复方法
CN109993198A (zh) * 2018-12-26 2019-07-09 中国科学院信息工程研究所 一种基于特征同构共享描述的多源异构离群点检测方法
CN110188812A (zh) * 2019-05-24 2019-08-30 长沙理工大学 一种快速处理缺失异构数据的多核聚类方法
CN110874645A (zh) * 2019-11-14 2020-03-10 北京首汽智行科技有限公司 一种数据还原方法
CN111938592A (zh) * 2020-08-13 2020-11-17 天津工业大学 面向阿尔兹海默症诊断的有缺失多模态表示学习算法
CN113051256A (zh) * 2021-03-22 2021-06-29 国网河北省电力有限公司营销服务中心 用户缺失数据填充方法、装置和设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678603A (zh) * 2013-12-13 2014-03-26 江苏物联网研究发展中心 多源异构数据高效汇聚存取架构系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678603A (zh) * 2013-12-13 2014-03-26 江苏物联网研究发展中心 多源异构数据高效汇聚存取架构系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张磊: "跨媒体语义共享子空间学习理论与方法研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096324A (zh) * 2016-08-26 2016-11-09 清华大学 基于k近邻回归的输变电主设备负荷数据缺失填补算法
CN108519600A (zh) * 2018-04-19 2018-09-11 华中科技大学 一种综合孔径辐射计增广协方差矩阵的构造方法及系统
CN109190656B (zh) * 2018-07-16 2020-07-21 浙江大学 一种低采样定位环境下的室内语义轨迹标注和补全方法
CN109190656A (zh) * 2018-07-16 2019-01-11 浙江大学 一种低采样定位环境下的室内语义轨迹标注和补全方法
CN109101638B (zh) * 2018-08-20 2019-05-28 河海大学 一种大坝变形监测连续性缺失数据补全方法
CN109101638A (zh) * 2018-08-20 2018-12-28 河海大学 一种大坝变形监测连续性缺失数据补全方法
CN109460571A (zh) * 2018-09-27 2019-03-12 华南理工大学 一种基于矩阵低秩性以及稀疏性的智能电网数据恢复方法
CN109993198A (zh) * 2018-12-26 2019-07-09 中国科学院信息工程研究所 一种基于特征同构共享描述的多源异构离群点检测方法
CN110188812A (zh) * 2019-05-24 2019-08-30 长沙理工大学 一种快速处理缺失异构数据的多核聚类方法
CN110874645A (zh) * 2019-11-14 2020-03-10 北京首汽智行科技有限公司 一种数据还原方法
CN111938592A (zh) * 2020-08-13 2020-11-17 天津工业大学 面向阿尔兹海默症诊断的有缺失多模态表示学习算法
CN111938592B (zh) * 2020-08-13 2024-03-12 天津工业大学 面向阿尔兹海默症诊断的有缺失多模态表示学习算法
CN113051256A (zh) * 2021-03-22 2021-06-29 国网河北省电力有限公司营销服务中心 用户缺失数据填充方法、装置和设备

Similar Documents

Publication Publication Date Title
CN105893610A (zh) 一种多源异构大数据的缺失源补全方法
Wang et al. Instance credibility inference for few-shot learning
Behera et al. Context-aware attentional pooling (cap) for fine-grained visual classification
Zheng et al. Multinomial distribution learning for effective neural architecture search
Papandreou et al. Perturb-and-map random fields: Using discrete optimization to learn and sample from energy models
Chen et al. Dictionary learning over distributed models
Ma et al. Self-paced multi-view co-training
Ooi et al. Deep learning algorithms for single image super-resolution: a systematic review
CN112381179B (zh) 一种基于双层注意力机制的异质图分类方法
Feng et al. Deep graph cut network for weakly-supervised semantic segmentation
Harsha Vardhan et al. Probabilistic logic graph attention networks for reasoning
Wang et al. Dynamic dense graph convolutional network for skeleton-based human motion prediction
CN112183464A (zh) 基于深度神经网络和图卷积网络的视频行人识别方法
Yang et al. Generative counterfactuals for neural networks via attribute-informed perturbation
US11308368B2 (en) Image processing using generative graphical models
Mettes et al. Hyperbolic deep learning in computer vision: A survey
Chi et al. An ensemble-driven k-NN approach to ill-posed classification problems
Shi et al. A Hybrid Forecast Model for Household Electric Power by Fusing Landmark-Based Spectral Clustering and Deep Learning
Wei et al. Investigating tropical cyclone rapid intensification with an advanced artificial intelligence system and gridded reanalysis data
CN112131403A (zh) 一种动态环境下的知识图谱表示学习方法
CN110569807B (zh) 面向复杂场景的多源目标跟踪方法
CN114511060A (zh) 基于自编码器和生成对抗网络的属性补全和网络表示方法
Pensar et al. Structure Learning of Contextual Markov Networks using Marginal Pseudo‐likelihood
S. Alotaibi et al. Swarm Intelligence with Deep Transfer Learning Driven Aerial Image Classification Model on UAV Networks
Pritchard Synthesizing agents and relationships for land use/transportation modelling

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160824

WD01 Invention patent application deemed withdrawn after publication