CN110688605A

CN110688605A - 一种基于柯西分布张量分解的数据重建方法

Info

Publication number: CN110688605A
Application number: CN201910432452.XA
Authority: CN
Inventors: 谭春华; 伍元凯; 陈晓轩; 叶林辉; 李琴
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2020-01-14

Abstract

本发明提供了一种基于柯西（Cauthy）分布张量分解的数据重建方法，包括：利用Cauthy分布建立受噪声污染的待重建数据的噪声张量模型；基于所述张量模型建立低秩张量的第一优化函数，所述低秩张量在所述噪声张量模型中表示真实数据；通过张量分解将所述第一优化函数优化为第二优化函数；求解所述第二优化函数，得出所述低秩张量。该算法采用Cauthy分布模拟数据中的实际噪声，与普通方法相比，更为鲁棒，且能在污染数据及丢失数据同时存在的情况下计算张量分解，进而对不可靠高维数据进行修补。本发明可广泛被应用图像重建、交通数据重建以及视频前景提取等。

Description

一种基于柯西分布张量分解的数据重建方法

技术领域

本发明涉及数据处理领域，具体地涉及一种基于柯西(Cauthy)分布张量分解的数据重建方法。

背景技术

大规模数据的分析与处理在当今的社会生活与科学研究中占据着越来越重要的地位。大数据在提供更加丰富的信息的同时，也大大增加了学习和研究数据的成本。更具挑战性的问题是,这些大规模数据中往往含有空缺元素、大的误差、损毁等,这为分析和处理这些大规模数据进一步带来了困难。这种现象在很多实际应用中十分常见。医用数据，调查表中的数据都呈现这种现象，特别是工业界方面的数据，缺失现象和数据污染现象更为严重。

现实世界中的数据往往表现出较强的多模式特性，这就使得基于向量形式和矩阵形式的“平面处理方法”难以解决很多现实世界中的数据恢复和填充问题，处理高维数据的数据缺失和数据污染问题，现有技术中主要的方法是基于张量填充和恢复的方法。

张量填充求解方法主要分为两种：基于张量分解的优化模型以及基于张量迹范数的凸优化模型。张量分解模型主要是基于张量的CP分解和Tucker分解的方法，其往往通过最小化观测到的元素与张量分解所得因子重建后所形成张量对应元素之间的F范数求解，而F范数在鲁棒性方面较差，这使得当数据中存在大的误差、损毁时，该类方法往往会失效。另外一种方法是基于刘霁等人提出的张量迹范数进行求解(Liu J,Musialski P,Wonka P,et al.Tensor completion for estimating missing values in visual data[J].IEEETransactions on Pattern Analysis and Machine Intelligence,2013,35(1):208-220.)，刘霁等人第一次提出了张量迹范概念，并将张量填充方法转化为凸优化问题。

张量恢复的方法大多也是在基于迹范数的优化问题基础上，将矩阵分解恢复方法RPCA向张量框架延伸，通过定义张量1范数来表征数据中的稀疏噪声，进行求解。

现实世界中的数据除了数据缺失的问题，还往往受到多种形式的数据污染，大致上，数据的污染形式可分为4种形式：1.密集小噪声，2.密集大噪声，3.稀疏小噪声，4.稀疏大噪声。基于F范数(对应于高斯分布估计)的方法往往一般只能解决小噪声，在大噪声情况下会失效，基于1范数(对应于拉普拉斯分布估计)的方法往往在稀疏噪声情况下效果比较好，目前在压缩感知和2维主成分分析领域的研究成果表明，采用柯西分布表征噪声的方法相较于传统基于F范数和1范数，在处理稀疏大噪声和密集小噪声同时存在的情况下恢复效果更佳。

发明内容

针对上述问题，本发明提出一种基于柯西(Cauthy)分布张量分解的数据重建方法，用以解决高维数据在复杂噪声环境下的填充和恢复问题。

本发明提供了一种基于柯西Cauthy分布张量分解的数据重建方法，包括：利用Cauthy分布建立受噪声污染的待重建数据的噪声张量模型；基于所述噪声张量模型建立低秩张量的第一优化函数，所述低秩张量在所述噪声张量模型中表示真实数据；通过张量分解将所述第一优化函数优化为第二优化函数；以及求解所述第二优化函数，得出所述低秩张量。

优选地，利用Cauthy分布建立受噪声污染的待重建数据的噪声张量模型的步骤包括：假设所述待重建数据中的高维数据受到的噪声服从于柯西分布，假设位置参数为0，建立噪声张量模型如下：

其中，

为噪声张量，λ为柯西分布参数。

优选地，基于所述张量模型建立低秩张量的第一优化函数的步骤包括：

假设待重建数据的原张量

为多模式低秩张量

通过对

取对数建立所述低秩张量

的第一优化函数如下：

s:t:rank(L_i)＜r_i

其中，

为观测到的数据，它是受到噪音污染并且有丢失的；低秩张量

代表受污染的真实数据的低秩张量表达。

优选地，通过张量分解将所述第一优化函数优化为第二优化函数的步骤包括：利用CP分解将所述第一优化函数优化为第二优化函数；或利用Tucker分解将所述第一优化函数优化为第二优化函数。

优选地，利用Tucker分解将所述第一优化函数优化为第二优化函数的步骤包括：假设所述低秩张量

服从Tucker分解形式

其中，

为核张量，A₁，A₂，......，A_n是因子矩阵，将所述第一优化函数优化为第二优化函数如下：

假设只观测到部分其集合为Ω，则Ω为一个与尺寸大小相同的张量，其数值为0或1，1表示

中有观测数值，0表示

中无观测数值，

由下式定义：

优选地，求解所述第二优化函数，得出所述低秩张量的步骤包括：首先对

求梯度，再分别对

A₁，A₂，......，A_n求梯度，再利用非线性共轭梯度法方法对所述第二优化函数求解，当算法收敛后得到

以及填充了丢失数据和恢复噪声后的低秩张量

优选地，首先对

求梯度，再分别对A₁，A₂，......，A_n求梯度的步骤包括：

首先求的梯度

其中：

是一个与

以及

有着相同尺寸的张量，进而可得函数对

和A_i的梯度：

有益效果：

本发明公开的基于柯西(Cauthy)分布张量分解的数据重建方法与传统张量恢复算法相比，有着三个显著优势，第一，可以在大规模丢失数据和复杂噪声同时存在的情况下仍然工作，第二，基于柯西分布的方法可以有效处理稀疏噪声与密集噪声同时存在的情况，第三，相较于基于迹范数和1范数最小化的算法，该算法基于张量分解，能更好地表征数据的内部潜在结构。本发明的基于柯西(Cauthy)分布张量分解的数据重建方法，首次将柯西分布引入到多维张量分析的领域之中，并基于Cauthy分布推导出应用于数据重建的张量分解算法，该算法可以解决大幅度稀疏噪声和密集噪声同时存在的情况下张量分解的问题，并且可以同时解决丢失数据重建和受污染数据恢复等问题。

附图说明

图1(a)是根据本发明实施例的噪声图像；

图1(b)是根据本发明实施例的受到50％幅值为(-50，50)的噪声的污染图像；

图1(c)是根据本发明实施例的CTD所恢复的图像；

图1(d)是根据本发明实施例的RSTD所恢复的图像；

图2是根据本发明实施例的CT图像的恢复结果，从左至右，依次为原图像，受污染图像，CTD恢复图像，RSTD恢复图像；

图3(a)是根据本发明实施例的数据丢失了80％并且受到30％(-50，50)幅值噪声污染的

图像；

图3(b)是根据本发明实施例的利用CTD算法对图3(a)进行恢复获得的图像；

图4是根据本发明实施例的前景提取的实验结果，由上至下依次为：原视频，CTD前景提取结果(模式秩(2，2，2，2))，CTD前景提取结果(模式秩(3，3，3，3))，RSTD前景提取结果。

图5是根据本发明实施例的基于柯西张量分解的数据重建方法的流程图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

基于Cauthy分布张量分解的数据重建方法具体包括如下步骤：1)利用Cauthy分布建立待重建数据的受污染噪声模型；2)在噪声模型基础上建立基于Tucker分解的张量分解优化模型。

具体实施过程如下：首先，我们假设待重建数据中高维数据受到的噪声服从于柯西分布，假设位置参数为0，我们可得下式：

这里，

为噪声张量，λ为柯西分布参数。

我们假设原张量

为多模式低秩张量，则对

取对数，求解低秩张量

的问题可转化为以下优化问题，可将下面的函数称为低秩张量

的第一优化函数：

s：t：rank(L_i)＜r_i

假设只观测到部分

其集合为Ω，则Ω为一个与

尺寸大小相同的张量，其数值为0或1，1表示

中有观测数值，0表示

中无观测数值。

由下式定义：

假设

服从Tucker分解形式

这里，

为核张量，A₁，A₂，......，A_n是因子矩阵，

为低秩张量。我们松弛优化函数如下，可将其称为低秩张量

的第二优化函数：

应当理解，将低秩张量

的第一优化函数优化为其第二优化函数的处理实际上是通过对低秩张量

进行张量分解得到的，除了Tucker分解之外，还可以采用任何适合张量分解的技术，比如CP(Canonical Polyadic)分解等技术。

求解出上式的梯度后，即可利用非线性共轭梯度法等优化方法优化求解上述问题。我们采用如下策略，先对

求梯度，再分别对

A₁，A₂，......，A_n求梯度。首先求

其中：

显然

是一个与

以及

有着相同尺寸的张量。进而我们可得函数对

和A_i的梯度：

求得梯度后，我们再利用非线性共轭梯度法等方法求解，待算法收敛后即可得到

以及填充了丢失数据和恢复噪声后所得的低秩张量

本算法的伪代码如下：

通过上面的阐述，可以总结出根据本发明实施例的基于柯西张量分解的数据重建方法的流程，如图5所示：

首先，利用柯西分布建立受噪声污染的待重建数据的噪声张量模型。

其次，基于所述张量模型建立低秩张量的第一优化函数，所述低秩张量在所述噪声张量模型中表示真实数据；

再次，通过张量分解将所述第一优化函数优化为第二优化函数；以及

最后，求解所述第二优化函数，得出所述低秩张量。

上述四个步骤中的变化和/或替换如上文所示，在此不再赘述。

下面，结合具体应用实例，来介绍本发明的特点和技术效果。

(一)图像填充和恢复

现实世界中的图像经常同时受到密集小规模噪声以及稀疏冲击噪声的影响，丢失数据现象也往往同时存在，本发明公开的算法CTD可以同时处理丢失数据和这一复杂情况下的噪声，还原图像。发明人将本算法对

图像与CT图像上的恢复与文献(Li,Y.,Yan,J.,Zhou,Y.,&Yang,J.(2010).Optimum subspace learning and error correctionfor tensors.In Computer Vision–ECCV 2010(pp.790-803).Springer BerlinHeidelberg.)公开的算法RSTD进行了对比。对于普通图像，其本身RGB三个通道就天然构成了一个三维张量，对于本发明公开的算法CTD，各模式秩分别设为[25,25,2]，RSTD算法设置参照上述文献进行，对于脑部CT图像，我们将180张图像合并到一起，构建为四维张量，CTD的各模式秩为[18,20,20,2]。张量恢复误差(RSE)与算法RSTD的对比结果如表1，2所示，恢复效果如图1和图2所示。其中，图1a表示噪声图像，图1b表示受到50％幅值为(-50，50)的噪声的污染图像，图1c表示CTD所恢复的图像,图1d表示RSTD所恢复的图像，显然CTD图像恢复了更多的图像原有信息。

表一：

图像张量恢复结果

表二：CT图像张量恢复结果

噪声比例	噪声幅值	RSE(CTD)	RSE(RSTD)
				0.5	(-10，10)	0.0036	0.0207
0.9	(-10，10)	0.0050	0.0210
				0.1	(-50，50)	0.0154	0.0474
0.3	(-50，50)	0.0185	0.1205
				0.5	(-50，50)	0.1705	0.1983

由实验结果明显可知，CTD能更为准确地恢复图像之中的噪声。CTD与传统方法相比的一大优势在于其能在大规模丢失数据和复杂噪声同时存在的情况下仍然可以工作，如图3所示，当图像丢失了80％的数据，且观测数据受到百分之三十幅值为(-50，50)的噪声污染时，本发明公开的算法仍然能够较为准确地恢复出图像的主要信息，这说明本发明公开的方法能够在极端情况下仍然能够工作。

本发明提出的基于柯西分布的张量分解算法不仅可以应用于图像重建中，还可以应用于视频的前景提取以及交通数据的恢复中。

(二)图像前景提取

对于CTD的前景提取，我们首先假设视频数据受到噪声污染，利用CTD对视频进行恢复得到算法输出低秩张量，即可看作视频的背景，原张量

即为所提取的前景，在背景为动态的视频上与RSTD的比较结果如图4所示，显然本发明提出的算法CTD前景提取效果更好，值得注意的是将秩设为较高的[3,3,3,3]效果比将秩设为[2,2,2,2]效果更佳，其原因在于本视频背景为动态的湖面，较为复杂，各模式仅使用两个主成分远远不足以描述视频的背景。

(三)交通数据恢复

在交通数据处理上，我们参照文献将交通数据构建为张量形式(Tan,H.,Feng,G.,Feng,J.,Wang,W.,Zhang,Y.J.,&Li,F.(2013).A tensor-based method for missingtraffic data completion.Transportation Research Part C:Emerging Technologies,28,15-27.)。同样是数据受到大规模污染情况下，将基于本发明的CTD算法对数据的恢复与RSTD进行比较实验，实验效果如图5所示。显然在大规模噪声同时存在的情况下，基于Cauthy分布的CTD算法有着比RSTD更佳的恢复效果。

本领域的普通技术人员可以理解，上述应用实例仅是为了加深理解给出的具体示例，并非对本发明应用领域和具体实施方式的限定。