CN105760896B - 一种多源异构大数据的腐蚀源联合去噪方法 - Google Patents
一种多源异构大数据的腐蚀源联合去噪方法 Download PDFInfo
- Publication number
- CN105760896B CN105760896B CN201610165595.5A CN201610165595A CN105760896B CN 105760896 B CN105760896 B CN 105760896B CN 201610165595 A CN201610165595 A CN 201610165595A CN 105760896 B CN105760896 B CN 105760896B
- Authority
- CN
- China
- Prior art keywords
- source
- corrosion
- matrix
- data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000007797 corrosion Effects 0.000 title claims abstract description 54
- 238000005260 corrosion Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000000295 complement effect Effects 0.000 claims abstract description 27
- 238000005259 measurement Methods 0.000 claims abstract description 16
- 230000009466 transformation Effects 0.000 claims abstract description 15
- 230000002860 competitive effect Effects 0.000 claims abstract description 12
- 230000008439 repair process Effects 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 42
- 238000010606 normalization Methods 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 238000002790 cross-validation Methods 0.000 claims description 2
- 230000003628 erosive effect Effects 0.000 claims description 2
- 235000008434 ginseng Nutrition 0.000 claims description 2
- 229910052739 hydrogen Inorganic materials 0.000 claims description 2
- 238000007405 data analysis Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 5
- 230000008030 elimination Effects 0.000 description 5
- 238000003379 elimination reaction Methods 0.000 description 5
- 241000283070 Equus zebra Species 0.000 description 4
- 241000282376 Panthera tigris Species 0.000 description 4
- 238000010219 correlation analysis Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000031068 symbiosis, encompassing mutualism through parasitism Effects 0.000 description 2
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 241000380450 Danaus melanippus Species 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 241000282373 Panthera pardus Species 0.000 description 1
- 235000014676 Phragmites communis Nutrition 0.000 description 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 206010039966 Senile dementia Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Testing Resistance To Weather, Investigating Materials By Mechanical Methods (AREA)
Abstract
本发明涉及一种多源异构大数据的腐蚀源联合去噪方法。该方法包括两个模型,一个为异构线性度量学习(HLML)模型,另一个为多源半监督联合去噪(MSCD)模型。其中,通过学习多个异构线性度量,HLML模型将多源异构数据线性投影到一个高维特征同构空间,并在这个空间中充分嵌入异源间的互补信息,从而可以有效地捕捉到不同来源间的语义互补性和分布相似性。为了消除源内和源间噪声,MSCD模型利用初等变换约束和梯度能量竞争策略,在HLML模型学习到的特征同构空间中修复异构有噪描述间的互补关系,进而净化多源异构数据的腐蚀源,有助于获得准确且鲁棒的多源数据评估分析结果。
Description
技术领域
本发明属于信息技术领域,针对海量多源异构腐蚀数据环境下的源内噪声和源间噪声问题,提出了一种多源异构大数据的腐蚀源联合去噪方法。
背景技术
近年来,随着大量高技术数码产品的出现,由这些异源电子设备产生的多源异构数据(Multi-source Heterogeneous Data)己经遍布到人们现实生活的各个角落。所谓多源异构数据是指来自不同来源或者渠道,但表达的内容相似,以不同形式、不同模态、不同视角和不同背景等多种样式出现的数据。例如,新浪微博、腾讯微信和搜狐网站关于相同的新闻的不同形式的报道;老年痴呆症(Alzheimer)患者的大脑可以由核磁共振(MRI)、正电子成像技术(PET)和X光产生多种不同视角的医学成像;Wikipedia网站上对花豹的描述采用了图片、文本和语音等不同模态的媒介;相同的建筑物白宫可以处在不同的背景之下。
然而,由于人为错误等原因,在现实世界中,某些多源数据受到噪声的腐蚀,并不是现实事物的真实反映。因此,国内外的研究人员提出了一些多源数据的腐蚀源去噪方法,借助辅助源的数据信息,完成主源噪声的消除。
Zhang等人寻求通过联合去除不同来源中的噪声,修复所有的针孔成像图片。他们提出了一种多源图片去噪(Depth-Guided Multi-View Image Denoising,DGMVID)方法,借助于主成分分析(Principal Component Analysis,PCA)思想,利用多源图片间的深度估计(Depth Estimation)去除多源数据中的噪声。Zhang等人发现将多源图片用于噪声去除具有独特的优势:一张图片和其它图片的像素间的对应关系取决于其单一深度图。这一点和视频去噪形成鲜明地对比。在视频去噪中,帧间运动通常具有更大的自由度。Zhang等人正是利用这一点,在多源图片去噪中,寻找相似图片块(Similar Image Patches)。DGMVID方法包含联合多源图片匹配(Joint Multi-View Patch Matching,JMVPM)和联合多源图片去噪(Joint Multi-View Patch Denoising,JMVPD)两个部分。其中,JMVPM借助多源图片间的相关性,使用深度估计度量不同来源的图片中对应像素块的相似度,并根据相似度的大小,将相似图片块分组到一起。而JMVPD为了去除信号相关噪声(Signal-Dependent Noise),利用PCA和张量分析(Tensor Analysis),在微光(Low-Light)条件下,消除光子噪声(PhotonNoise)。(参考文献:Li Zhang,Sundeep Vaddadi,Hailin Jin,Shree K.Nayar.Multipleview image denoising.IEEE International Conference on Computer Vision andPattern Recognition 2009:1542-1549.)
在音频去噪中,噪声往往夹杂在背景中,即没有其它可见来源的噪声数据。由于干扰音频来源的噪声多为复合噪声源(例如,背景音乐),往往不稳定且无法直接观测,所以去除单一来源的音频数据的噪声是相当困难的。针对这一问题,Segev等人提出了一种基于样本的跨来源去噪(Example-based Cross-Modal Denoising,ECMD)方法,通过不同来源间的关联性,借助无噪的视频来源信息,消除有噪的音频来源中的噪声。ECMD方法假设“已经看到且听到的事物,如果能再一次见到该事物,那么就能再一次听清楚它”。根据该假设,ECMD方法利用先验知识的一致性(Consistency with Prior Knowledge),首先学习跨来源间的相关性。然后,基于学习到的相关性和来自于无噪来源(视频)的无腐蚀训练样本,协助去除音频来源的噪声。例如,任何智能手机都具有麦克风和摄像头。由于无噪的视频数据相对更容易获得,所以若干无噪环境下的视频通话就可以建立一个无腐蚀的样本库。而某些通话是在嘈杂环境下(例如,火车站、酒吧、商场)完成的。于是,便可利用无噪的视频样本集去除音频数据的噪声。(参考文献:Dana Segev,Yoav Y.Schechner,Michael Elad.Example-based cross-modal denoising.IEEE International Conference on Computer Visionand Pattern Recognition 2012:486-493.)
Lee等人提出了一种概率深度诱导多源去噪(Probabilistic Depth-guidedMulti-view Denoising,PDMD)算法。该方法将多源图片去噪问题转化为有噪环境下深度估计中的不确定性问题,利用非局部近邻的几何分布和块相似性,近似深度估计的概率,并基于这些概率平均非局部近邻,完成最小均方差(Minimum Mean Square Error,MMSE)去噪。(参考文献:Chul Lee,Chang-Su Kim,Sang-Uk Lee.Probabilistic depth-guided multi-view image denoising.IEEE International Conference on Image Processing 2013:905-908.)
上述这些方法的缺陷在于,它们都只能用来处理特定来源的噪声(例如,图片或者语音),而无法解决其它形式的多源数据中的噪声问题。
近来,在机器学习和数据挖掘领域,知识迁移(Knowledge Transfer)技术越来越受到国内外研究人员的青睐。Quanz等人便利用知识迁移技术,提出了一种基于稀疏编码(Sparse Coding)的特征提取(Knowledge Transfer with Low-Quality Data,KTLQD)方法,借助高质量的辅助有标签数据源的信息,预测主源无标签数据的类别,并提高主源低质数据的性能。然而,KTLQD方法的缺陷在于,它无法处理异构数据。(参考文献:Brian Quanz,Jun Huan,Meenakshi Mishra.Knowledge Transfer with Low-Quality Data:AFeatureExtraction Issue.IEEE Transactions on Knowledge and Data Engineering 24(10):1789-1802(2012).)
表1总结了上述多源数据噪声去除方法的不足。
表1.已有的多源数据噪声去除方法的不足
发明内容
在现实情况下,由于不正确的数据处理、人为错误和硬件故障等原因,并不是所有的样本描述都是客观现实的正确反映,从而导致多源异构数据的腐蚀源的存在。这些噪声会极大地降低多源异构数据的性能,进而导致错误的分类、聚类、检索和分析结果。然而,多源异构数据的腐蚀源问题完全不同于单源学习中的噪声数据问题。其原因在于多源数据往往受到两种不同类型的噪声的腐蚀。一种指的是源内噪声,这种噪声会使同源内的异类样本成为近邻。另一种指的是源间噪声,这种噪声会破坏同一对象异源描述间的互补关系。如图1所示,源内噪声的存在导致斑马的图片被错误地和老虎的图片归为一类;而由人为错误造成的源间噪声将白虎的图片和西伯利亚虎的图片匹配到一起。更为严重的是,这些噪声会极大地降低多源异构数据的性能,进而导致错误的分类、聚类、检索和分析结果。因此,在从多源异构数据中提取重要信息或者进一步的数据处理之前,必需同时消除源间和源内噪声以提高多源异构数据的质量,这样才能获得更加准确和鲁棒的评估结果。
如图2所示,多源异构数据处在互补性和分布性约束之下。互补性约束指的是不同来源间的语义互补性,该约束会将不同来源间的互补信息充分包含在多源数据中。不同于互补性约束,分布性约束呈现出高度的分布相似性,此约束会将同一来源内的同类样本聚集到一起。而本发明的具体目的就是针对多源异构数据的腐蚀源问题,提供一种多源异构大数据的腐蚀源联合去噪方法,利用多源异构数据间的语义互补性和分布相似性,基于子空间学习方法,通过对已有的无噪多源异构数据间关联性的挖掘,联合去除多个来源中源内和源间噪声,修复有噪的多源异构数据中异构描述间的互补关系,净化多源异构数据的腐蚀源。
如图3所示,本发明提供了一种多源异构数据的腐蚀源去噪的基本框架。这个框架由两个数学模型组成,一个为异构线性度量学习(Heterogeneous Linear MetricLearning,HLML)模型,另一个为多源半监督联合去噪(Multi-source Semi-supervisedCollaborative Denoising,MSCD)模型。其中,通过学习多个异构线性度量,HLML模型将多源异构数据线性投影到一个高维特征同构空间,并在这个空间中充分嵌入异源间的互补信息,从而可以有效地捕捉到不同来源间的语义互补性和分布相似性。为了消除源内和源间噪声,MSCD模型利用初等变换约束和梯度能量竞争(Gradient Energy Competition,GEC)策略,在HLML模型学习到的特征同构空间中修复异构有噪描述间的互补关系,进而净化多源异构数据的腐蚀源,有助于获得准确且鲁棒的多源数据评估分析结果。
在图3中,多源异构数据由源X和源Y组成。并已有一些无噪的多源异构数据XN和YN。然而某些多源数据XR和YR受到了腐蚀。比如,斑马的异构描述x9和y10被错误地归到了老虎类中,而共生的多源异构描述间(x7,y7),(x8,y8),和(x9,y9)具有不正确的互补关系。针对多源异构数据的腐蚀源问题,为了消除多源腐蚀数据的源内和源间噪声,提高准确且鲁棒的大数据分类、聚类、检索和分析结果,本发明研究具有多源联合去噪能力的腐蚀源去噪方法。
本发明具体的技术方案为:
1)HLML模型会利用已有的多源无腐蚀数据XN和YN,学习两个异构线性度量A和B,以捕捉异源间的语义互补性和分布相似性,消除异源间的异构性,从而构建出一个高维的特征同构空间。在这个特征同构空间中,来自不同源的相关异构描述被耦合到一起,以挖掘出更多的异源间的互补信息。与此同时,在特征同构空间中,同类样本也被聚集到一起,而异类样本间则保持一定距离。
如图3所示,HLML模型将斑马的异构描述x6和y6匹配到一起,以挖掘它们之间的互补信息;同时,老虎的异构共生描述(x1,y1),(x2,y2),和(x3,y3)和斑马的异构共生描述(x4,y4),(x5,y5),和(x6,y6)也被分别聚集到不同的簇里,从而捕捉出异源间的分布相似性。
2)与此同时,MSCD模型利用HLML模型学习到的异源间的分布相似性,将腐蚀数据线性投影到上述高维的特征同构空间中,以消除多源腐蚀数据XR和YR中源内噪声。此外,通过基于梯度能量竞争策略的初等变换约束,MSCD模型修复了多源腐蚀数据的异构描述间的互补关系。MSCD模型里的初等变换约束会根据HLML模型学习到的异源间的语义互补性,交换腐蚀矩阵XR和YR中相应描述的位置,消除源间噪声。
如图3所示,来自源X斑马描述x9和来自源Y斑马描述y10到其它斑马描述间的距离被拉近,以消除源内噪声;而来自源X的描述x8和x9和来自源Y的描述y7和y9的位置被分别交换,以匹配恰当的描述,消除源间噪声。在消除源内和源间噪声之后,在特征同构空间中,多源腐蚀数据的异构描述都得以正确的匹配和归类。如图3所示,由HLML+MSCD框架有效地消除了源内和源间噪声,净化了多源异构数据的腐蚀源。
下面进一步说明本发明的具体步骤:
1)异构线性度量学习模型
如图4所示,本发明提供的异构线性度量学习HLML模型利用已有的多源无腐蚀数据和(dx为来源Vx的维度,dy为来源Vy的维度,n1为无腐蚀样本的数量),学习多个异构线性度量A和B,将异源间的相关异构描述耦合到一起,以捕捉异源间的语义互补性和分布相似性,消除异源间的异构性,从而构建出一个高维的特征同构空间。并使变换后的数据MU=XUA和RU=YUB携带更多的类间差异信息。
该方法首先定义了一组马氏距离度量:
其中,为来源Vx中的第i个样本,为来源Vy中的第i个样本,Mx=ATA和MY=BTB为两个半正定度量矩阵。其次,HLML方法定义了一个来源中的样本xi或者yi与另一来源中的异构样本yj或者xj,在特征同构空间中为近邻的概率pij或者qij:
从而可以得到第i个样本被正确分类的概率pi或者qi为:
其中,和分别表示来源Vx和Vy中第t类样本的集合。
基于上述定义,HLML方法的优化模型如下:
其中,k≥min(dx,dy)为特征同构子空间的维度,α和β为平衡参数。HLML方法利用半正定约束ATA≥0和BTB≥0确保模型Ψ1能够学习到多个良好定义的伪度量,目标函数中的第一项用来捕捉不同来源间的语义互补性,而通过在模型Ψ1中引入由不同来源的分类准确率构成的交叉验证(leave-one-out validation)g(A,B):
g(A,B)=∑pi+∑qi (8)
以挖掘不同来源间的分布相似性。此外,目标函数中的第三项h(A,B):
h(A,B)=||XUA||*+||YUB||* (9)
为基于迹范数的低秩正规化项,用以使变换后的数据MU=XUA和RU=YUB携带更多的类间差异信息。
值得注意的是,HLML方法可以将多源异构数据线性投影到一个任意维度的高维空间中,即k≥max(dx,dy)。这一点是非常不同于著名的非线性高维投影方法核典型相关分析方法(参考文献:David R.Hardoon,Sándor Szedmák,John Shawe-Taylor.CanonicalCorrelation Analysis:An Overview with Application to Learning Methods.NeuralComputation 16(12):2639-2664(2004))和深度典型相关分析(参考文献:Galen Andrew,Raman Arora,Jeff A.Bilmes,Karen Livescu.Deep Canonical CorrelationAnalysis.ACM International Conference on Machine Learning(3)2013:1247-1255.)方法的。
2)梯度能量竞争策略
在由梯度下降方法得来的梯度矩阵G中,每个内部元素Gi,j都和四个近邻Gi-1,j,Gi+1,j,Gi,j-1,和Gi,j+1关联。本发明提供的梯度能量竞争策略基于范数的梯度幅值能量,定义每个内部元素Gij在垂直方向的样本间能量(between-sample energy)Ebs为:
而样本内能量(within-sample energy)Ews为:
通过Ebs和Ews,就可以得到每个内部元素Gij的全局能量(global energy)Eglobe:
Eglobe=δ*Ebs+(1-δ)Ews (12)
其中,δ为平衡参数。利用公式(12)可以计算出矩阵G中每个元素的全局能量,进而得到能量矩阵E。如图5所示,本发明提供的梯度能量竞争策略通过比较矩阵E中每个元素的能量,将获胜者(能量最大者)的值设置为1,而与获胜者同行同列的元素的值都被设置为0,如此往复,直到构建出一个标准的初等变换矩阵T。
3)多源半监督联合去噪模型
如图6所示,本发明提供的多源半监督联合去噪模型MSCD,首先利用有标签的无腐蚀线性可分描述MU和RU学习一个决策矩阵W。然后,根据本发明提供的梯度能量竞争策略,学习初等行变换矩阵T和H,其中T为针对来源Vx中腐蚀数据的n2×n2阶的初等行变换矩阵,H为针对来源Vy中腐蚀数据的n2×n2阶的初等行变换矩阵,以交换腐蚀矩阵MC=XCA*和RC=YCB*中样本的位置(A*和B*为HLML方法得到的最优解,和分别为来源Vx和Vy中的无标签腐蚀数据,n2为腐蚀样本的数量)。同时,利用学习到的决策矩阵W,预测无标签腐蚀描述MC和RC的类别,从而修复多源腐蚀数据间的互补关系。
MSCD方法的优化模型如下:
其中,和为初等行变换矩阵,为决策矩阵,为XU和YU的标签矩阵,m为标签数量,为一组初等行变换矩阵的集合,γ和τ为平衡参数。在模型Ω1中,目标函数中的第一项利用学习到的T,H,和W,修复多源腐蚀数据间的互补关系。目标函数中的第二项为一个线性最小二乘方损失函数,利用有标签的无腐蚀线性可分描述MU和RU学习一个决策矩阵W。而对W的正交约束,可以有效去除不同类别之间的相关性。此外,约束条件中的第一项为对T和H的初等变换约束,以构建标准的初等变换矩阵,交换腐蚀矩阵MC和RC中样本的位置。从而,消除多源腐蚀数据中的源间和源内噪声,提高多源异构数据的质量。
与现有技术相比,本发明的有益效果如下:
针对于多源腐蚀数据中存在的源内和源间噪声,本发明提供了一种多源异构数据腐蚀源联合去噪的框架。该框架首先包含一种带有低秩(Low-rank)正规化项和伪度量(Pseudo-metric)约束的HLML模型,学习多个异构线性度量,从而可以有效地捕捉到不同来源间的语义互补性和分布相似性,度量异构描述间的相关性,进而消除异源间的特征异构性。并创新性地提出了一种梯度能量竞争策略,利用能量矩阵中不同元素间能量大小的对比,构建初等变换约束,协助框架中的MSCD模型在HLML模型学习到的特征同构空间中修复异构有噪描述间的互补关系,消除源内和源间噪声,进而净化多源异构数据的腐蚀源。
附图说明
图1为多源异构数据的源间噪声和源内噪声的示例说明,其中(a)为多源异构数据的源间噪声,(b)为单源数据的源内噪声。
图2为多源异构数据间的互补性和分布性约束的示例说明。
图3为多源异构数据的腐蚀源去噪框架的示例说明。
图4为异构线性度量学习模型的示例说明。
图5为梯度能量竞争策略的示例说明。
图6为多源半监督联合去噪模型的示例说明。
具体实施方式
下面通过具体实施例,对本发明做进一步说明。
本发明提供的多源异构大数据的腐蚀源联合去噪方法,由异构线性度量学习HLML和多源半监督联合去噪MSCD算法组成,通过循环迭代过程实现模型的逐步优化。
在公式(7)中的HLML模型可以简化为:
其中,为平滑目标函数,Z=[AZ BZ]代表优化变量,为封闭且针对单个变量的凸集:
由于D(·)是关于Lipschitz连续梯度L的连续可微函数(参考文献:Y.Nesterov.Introductory lectures on convex optimization,volume 87.SpringerScience&Business Media,2004.):
。因此,适合利用加速投影梯度(Accelerated Projected Gradient,APG)算法(参考文献:Y.Nesterov.Introductory lectures on convex optimization,volume87.Springer Science&Business Media,2004.)求解公式(14)中的问题。
APG算法为一阶梯度算法,该方法在最小化目标函数过程中,会在可执行解(feasible solution)上加速每个梯度步,以获取最优解。在求解过程中,APG方法会构建一个解点序列{Zi}和一个搜索点序列{Si},在每次迭代中利用Si更新Zi。而每个给定点s在凸集上的欧几里德投影为:
Weinberger等人提出的半正定投影(Positive Semi-definite Projection,PSP)方法(参考文献:Kilian Q.Weinberger,Lawrence K.Saul.Distance Metric Learningfor Large Margin Nearest Neighbor Classification.Journal of Machine LearningResearch 10:207-244(2009).)可以在保持半正定约束的情况下,最小化目标函数。由此,便可利用PSP求解公式(17)中的问题。算法1给出了PSP算法的细节。
而当利用APG算法求解公式(14)中的问题时,给定点S=[AS BS]在凸集上的欧几里德投影Z=[AZ BZ]为:
通过结合APG和PSP算法,便可求解公式(18)中的问题。算法2给出了本发明提供的HLML算法的具体细节。
在公式(13)中的MSCD模型可以简化为:
其中,为平滑目标函数,Z=[TZ HZ WZ]代表优化变量,Q为封闭且针对单个变量的凸集:
由于Q(·)是关于公式(16)中的Lipschitz连续梯度L连续可微的。所以,同样可以利用APG求解公式(19)中的问题。而每个给定点s在凸集Q上的欧几里德投影为:
为了求解公式(21)中的问题,根据本发明提供的GEC策略,本发明提供的Energy(·)和Competition(·)函数,可以在保持初等变换约束的情况下,最小化目标函数。算法3给出了Energy(·)函数的具体细节,此函数根据公式(10,11,12)计算由梯度下降算法得到的梯度矩阵G中每个元素的全局能量,进而获得能量矩阵E。此外,本发明提供的Competition(·)函数,
根据算法3产生的能量矩阵E,创建一个标准的初等变换矩阵。算法4给出了Competition(·)函数的具体细节。
与此同时,可以利用Wen等人提出的梯度下降曲线搜索(Gradient DescentMethod with Curvilinear Search,GDMCS)算法(参考文献:Zaiwen Wen and Wotao Yin.Afeasible method for optimization with orthogonalityconstraints.Math.Program.142(1-2):397-434(2013).),在最小化目标函数过程中保持公式(21)中的正交约束。算法5给出了GDMCS算法的细节。通过结合APG,Energy,Competition,和GDMCS算法,便可求解公式(21)中的问题。算法6给出了MSCD方法的具体细节,其中函数Schmidt(·)表示Gram-Schmidt正交化。
本发明提供的多源异构大数据的腐蚀源联合去噪HLML+MSCD框架,针对多源异构数据的腐蚀源问题,利用多源异构数据间的语义互补性和分布相似性,基于子空间学习方法,通过对已有的无噪多源异构数据间关联性的挖掘,联合去除多个来源中源内和源间噪声,修复有噪的多源异构数据中异构描述间的互补关系,净化多源异构数据的腐蚀源。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
Claims (4)
1.一种多源异构大数据的腐蚀源联合去噪方法,其步骤包括:
1)通过学习多个异构线性度量,将多源异构数据线性投影到一个高维特征同构空间,并在这个空间中充分嵌入异源间的互补信息,以有效地捕捉到不同来源间的语义互补性和分布相似性;
2)利用异源间的分布相似性,将腐蚀数据线性投影到所述高维特征同构空间中,以消除多源腐蚀数据中的源内噪声,并通过基于梯度能量竞争策略的初等变换约束,修复多源腐蚀数据的异构描述间的互补关系;所述初等变换约束根据异源间的语义互补性,交换腐蚀矩阵中相应描述的位置,以消除多源腐蚀数据中的源间噪声;
所述步骤1)对不同来源间的语义互补性和分布相似性建立如下优化模型:
该优化模型利用已有的多源无腐蚀数据和学习异构线性度量A和B,其中,dx为来源Vx的维度,dy为来源Vy的维度,n1为无腐蚀样本的数量,k≥min(dx,dy)为特征同构子空间的维度,α和β为平衡参数;利用半正定约束ATA≥0和BTB≥0确保模型Ψ1能够学习到多个良好定义的伪度量,目标函数中的第一项用来捕捉不同来源间的语义互补性,而通过在模型Ψ1中引入由不同来源的分类准确率构成的交叉验证g(A,B)以挖掘不同来源间的分布相似性;目标函数中的第三项h(A,B)为基于迹范数的低秩正规化项,用以使变换后的数据MU=XUA和RU=YUB携带更多的类间差异信息;
所述步骤2)建立如下优化模型:
其中,和为初等行变换矩阵,为决策矩阵,为XU和YU的标签矩阵,m为标签数量,为一组初等行变换矩阵的集合,γ和τ为平衡参数;在模型Ω1中,目标函数中的第一项利用学习到的T、H和W,修复多源腐蚀数据间的互补关系;目标函数中的第二项为一个线性最小二乘方损失函数,利用有标签的无腐蚀线性可分描述MU和RU学习一个决策矩阵W,而对W的正交约束,可以有效去除不同类别之间的相关性;约束条件中的第一项为对T和H的初等变换约束,以构建标准的初等变换矩阵,交换腐蚀矩阵MC和RC中样本的位置,从而,消除多源腐蚀数据中的源间和源内噪声。
2.如权利要求1所述的方法,其特征在于:步骤1)在所述高维特征同构空间中,将来自不同源的相关异构描述耦合到一起,以挖掘出更多的异源间的互补信息,并且同类样本也被聚集到一起,而异类样本间则保持一定距离。
3.如权利要求2所述的方法,其特征在于:步骤2)所述梯度能量竞争策略首先由梯度下降方法得到梯度矩阵G,然后计算梯度矩阵的每个内部元素Gij在垂直方向的样本间能量Ebs和水平方向的样本内能量Ews,从而得到每个内部元素Gij的全局能量Eglobe:通过计算出矩阵G中每个元素的全局能量得到能量矩阵E;所述梯度能量竞争策略通过比较矩阵E中每个元素的能量,将获胜者即能量最大者的值设置为1,而与获胜者同行同列的元素的值都被设置为0,如此往复,直到构建出一个标准的初等变换矩阵T。
4.如权利要求3所述的方法,其特征在于:步骤2)利用有标签的无腐蚀线性可分描述MU和RU学习一个决策矩阵W,然后根据所述梯度能量竞争策略学习初等行变换矩阵T和H,以交换腐蚀矩阵MC=XCA*和RC=YCB*中样本的位置,其中A*和B*为步骤1)得到的最优解,和分别为来源Vx和Vy中的无标签腐蚀数据,n2为腐蚀样本的数量;同时,利用学习到的决策矩阵W预测无标签腐蚀描述MC和RC的类别,从而修复多源腐蚀数据间的互补关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610165595.5A CN105760896B (zh) | 2016-03-22 | 2016-03-22 | 一种多源异构大数据的腐蚀源联合去噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610165595.5A CN105760896B (zh) | 2016-03-22 | 2016-03-22 | 一种多源异构大数据的腐蚀源联合去噪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105760896A CN105760896A (zh) | 2016-07-13 |
CN105760896B true CN105760896B (zh) | 2019-04-16 |
Family
ID=56345602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610165595.5A Expired - Fee Related CN105760896B (zh) | 2016-03-22 | 2016-03-22 | 一种多源异构大数据的腐蚀源联合去噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105760896B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106404441B (zh) * | 2016-09-22 | 2018-11-06 | 宁波大学 | 一种基于非线性相似度指标的故障分类诊断方法 |
CN108848561A (zh) * | 2018-04-11 | 2018-11-20 | 湖北工业大学 | 一种基于深度强化学习的异构蜂窝网络联合优化方法 |
CN109993198B (zh) * | 2018-12-26 | 2021-06-22 | 中国科学院信息工程研究所 | 一种基于特征同构共享描述的多源异构离群点检测方法 |
CN112711578B (zh) * | 2020-12-30 | 2021-09-21 | 深圳市全景网络有限公司 | 用于云计算业务的大数据去噪方法及云计算金融服务器 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105068858A (zh) * | 2015-07-29 | 2015-11-18 | 北京世冠金洋科技发展有限公司 | 一种多源异构系统仿真方法和装置 |
CN105160295A (zh) * | 2015-07-14 | 2015-12-16 | 东北大学 | 一种面向大规模人脸数据库的快速高效人脸识别方法 |
-
2016
- 2016-03-22 CN CN201610165595.5A patent/CN105760896B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105160295A (zh) * | 2015-07-14 | 2015-12-16 | 东北大学 | 一种面向大规模人脸数据库的快速高效人脸识别方法 |
CN105068858A (zh) * | 2015-07-29 | 2015-11-18 | 北京世冠金洋科技发展有限公司 | 一种多源异构系统仿真方法和装置 |
Non-Patent Citations (2)
Title |
---|
"Adaptive non-local means for multiview image denoising:searching for the right patches via a statistical approach";Luo E等;《IEEE International Conference on Image Processing》;20130918;第543-547页 * |
"Collaborative Multi-view learning with Active Discriminative Prior for Recommendation";Zhang Qing等;《Advances in Knowledge Discovery and Data Mining》;20150417;第355-368页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105760896A (zh) | 2016-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xie et al. | Mlcvnet: Multi-level context votenet for 3d object detection | |
Wang et al. | Progressive teacher-student learning for early action prediction | |
Zhang et al. | Memory-oriented decoder for light field salient object detection | |
Zhao et al. | Recognize actions by disentangling components of dynamics | |
Ye et al. | Collaborative refining for person re-identification with label noise | |
Li et al. | Uni-perceiver v2: A generalist model for large-scale vision and vision-language tasks | |
CN105760896B (zh) | 一种多源异构大数据的腐蚀源联合去噪方法 | |
Liu et al. | Crowd counting via cross-stage refinement networks | |
Yin et al. | Joint multi-leaf segmentation, alignment, and tracking for fluorescence plant videos | |
CN110348475A (zh) | 一种基于空间变换的对抗样本增强方法和模型 | |
Duong et al. | Shrinkteanet: Million-scale lightweight face recognition via shrinking teacher-student networks | |
CN109543693B (zh) | 基于正则化标签传播的弱标注数据降噪方法 | |
JP6620882B2 (ja) | ドメイン適応を用いたパターン認識装置、方法およびプログラム | |
Shen et al. | Hierarchical Attention Based Spatial-Temporal Graph-to-Sequence Learning for Grounded Video Description. | |
CN107402859A (zh) | 软件功能验证系统及其验证方法 | |
CN111144130A (zh) | 一种基于上下文感知的混合神经网络的细粒度情感分类方法 | |
CN110827265A (zh) | 基于深度学习的图片异常检测方法 | |
CN112801019A (zh) | 基于合成数据消除无监督车辆再识别偏差的方法及系统 | |
Wang et al. | Occluded person re-identification via defending against attacks from obstacles | |
Zhang et al. | Vision transformer with quadrangle attention | |
Zhu et al. | Pmatch: Paired masked image modeling for dense geometric matching | |
Bi et al. | HGR-Net: Hierarchical graph reasoning network for arbitrary shape scene text detection | |
Qi et al. | Dgrnet: A dual-level graph relation network for video object detection | |
Jarabese et al. | Sign to speech convolutional neural network-based filipino sign language hand gesture recognition system | |
CN111144469B (zh) | 基于多维关联时序分类神经网络的端到端多序列文本识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190416 |