CN105335653A

CN105335653A - 一种异常数据检测方法及装置

Info

Publication number: CN105335653A
Application number: CN201410348557.4A
Authority: CN
Inventors: 刘义俊; 范伟
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-07-21
Filing date: 2014-07-21
Publication date: 2016-02-17

Abstract

本发明实施例提供了一种异常数据检测方法及装置，方法包括：将用于描述待检测数据的图转化为邻接矩阵A，用L表示邻接矩阵A中不包含异常数据的子图的邻接矩阵，用R表示邻接矩阵A中包含异常数据的子图的邻接矩阵；检测待检测数据中是否包含噪声数据；根据不同的检测结果建立不同的凸优化表达式，所建立的凸优化表达式中利用L的核范数保证L的低秩性，利用R的一阶范数保证R的稀疏性，其中，L的核范数指的是L的奇异值之和，R的一阶范数指的是R中所有元素的绝对值之和；求解所建立的凸优化表达式以获取L与R。本发明实施例能够降低检测复杂度，提高检测准确率。

Description

一种异常数据检测方法及装置

技术领域

本发明实施例涉及电子数据处理技术领域，尤其涉及一种异常数据检测方法及装置。

背景技术

异常检测的目标是发现与大部分其他对象不同的对象，异常检测的应用例如：欺诈检测，盗窃信用卡的人的购买行为可能不同于信用卡持有者，信用卡公司试图通过寻找窃贼的购买模式，或通过注意不同于常见行为的变化来检测窃贼，类似的方法还可以用于其他类型的欺诈检测；入侵检测，常见的有对计算机系统和网络系统的攻击，某些攻击是显而易见的，如旨在瘫痪或控制计算机和网络的攻击，但是其他攻击，如旨在秘密收集信息的攻击则很难检测，许多入侵只能通过监视系统和网络的异常行为来检测。

图是对事物之间的联系进行建模的普遍数据结构，基于图挖掘可以进行图分类，图聚类，频繁子图模式发现等，包括有社区网络分析(社区发现/图分割，连通子图发现)，生物网络，计算机网络，协同过滤中的用户影评图等等广泛的应用。许多图的研究是基于图的结构聚类图的节点，目的在于将图分割为子图连接良好的子图，以及子图间连接稀疏的子图。大多数的在图的聚类(社会关系发现)的方法都假定所有的点是属于一类群组的，然而，在很多的应用中，数据中却往往包括有异常项。例如在一个用户影评图中，行为异常用户的影评数据为异常影评数据。异常行为可能会导致图中的子结构异乎寻常。因此，可以通过寻找图中的导常子结构进而识别出用图表示的数据中的异常数据。

而邻接矩阵(AdjacencyMatrix)是表示图中顶点之间相邻关系的矩阵。用邻接矩阵表示图，很容易确定图中任意两个顶点是否有边相连，因此，利用图求解异常数据被认为是一种有效的异常检测方法。该方法的主要思想是将图表示为相应的邻接矩阵A(m*n，一个m行n列的矩阵)，而低秩矩阵F_m*k与G_k*n用以表示数据中的k个簇/群组，剩余矩阵R＝A-F*G则为异常的数据表示。其处理流程如下所示：

将需要进行异常检测的图表示为相应的邻接矩阵A_m*n；

求解计算两个低秩矩阵F_m*k与G_k*n，k的值较小，使得F*G可能很好的近似估计A，即可近似的表示A；

求解计算剩余矩阵R＝A-F*G，R中的非零项则可用于估算图中所包含的异常。

这种方法在剩余矩阵不是稀疏的时候，也即是说，R中的大多数的数据是非零时，对异常项的估计的精确度就会变差，因此，上述的低秩近似估计模型在实际应用中并不能很好的发挥作用。最新的改进方法就是通过在低秩矩阵分解上附加非负限制以提高该方法对于发现图模式的可用性与表述性，这种方法通过非负矩阵分解(即，两个低秩矩阵F与G也被限制为非负矩阵)常可得到对异常数据做出判定的结果。

但是非负矩阵的限制条件使得问题的求解难度加大，实现起来较为困难，且这种方法所求解的问题为非凸优化问题，仅能获得一个局部解，最终得到的结果与求解前的假设强相关，不同的假设条件可以得到不同的解，对异常数据识别的准确率较差。

发明内容

有鉴于此，本发明实施例提供了一种异常数据检测方法及装置，能够降低检测复杂度，提高检测准确率。

第一方面，本发明实施例提供的异常数据检测方法，包括：

将用于描述待检测数据的图转化为邻接矩阵A，用L表示所述邻接矩阵A中不包含异常数据的子图的邻接矩阵，用R表示所述邻接矩阵A中包含异常数据的子图的邻接矩阵；

检测所述待检测数据中是否包含噪声数据；

根据不同的检测结果建立不同的凸优化表达式，所建立的凸优化表达式中利用L的核范数保证L的低秩性，利用R的一阶范数保证R的稀疏性，其中，L的核范数指的是L的奇异值之和，R的一阶范数指的是R中所有元素的绝对值之和；

求解所建立的凸优化表达式以获取L与R。

结合第一方面，在第一方面的第一种实施方式中，所述检测所述待检测数据中是否包含噪声数据包括：

检测所述待检测数据包括的数据类型中是否有与预设的数据类型相同的，若有，则确定所述待检测数据中包含噪声数据，若没有，则确定所述待检测数据中不包含噪声数据；

或者检测所述待检测数据中是否包含有携带预设标识的数据，若有，则确定所述待检测数据中包含噪声数据，若没有，则确定所述待检测数据中不包含噪声数据。

结合第一方面，在第一方面的第二种实施方式中，所述根据不同的检测结果建立不同的凸优化表达式之前，所述方法还包括确定每个检测结果对应的所述待检测数据的数据模型，以根据每个检测结果对应的所述待检测数据的数据模型建立凸优化表达式；

所述确定每个检测结果对应的所述待检测数据的数据模型包括：

当检测结果为所述待检测数据中包含噪声数据时，确定所述待检测数据的数据模型为A＝L+R+E，其中，E表示邻接矩阵A中噪声数据的子图的邻接矩阵；

当检测结果为所述待检测数据中不包含噪声数据时，确定所述待检测数据的数据模型为A＝L+R。

结合第一方面的第二种实施方式，在第一方面的第三种实施方式中，所述根据每个检测结果对应的所述待检测数据的数据模型建立凸优化表达式包括：

当检测结果对应的所述待检测数据的数据模型为A＝L+R+E时，所建立的凸优化表达式为其中α，β为权重参数，α，β∈(0，∞)，E＝A-L-R，表示E的F范数，||L||_*表示L的核范数，||R||₁表示R的一阶范数，E的F范数指的是E中每个元素的平方和的平方根。

结合第一方面的第二种实施方式，在第一方面的第四种实施方式中，所述根据每个检测结果对应的所述待检测数据的数据模型建立凸优化表达式包括：

当检测结果对应的所述待检测数据的数据模型为A＝L+R时，所建立的凸优化表达式为其中λ为权重系数，λ∈(0，1)，||L||_*表示L的核范数，||R||₁表示R的一阶范数。

结合第一方面的第三种实施方式，在第一方面的第五种实施方式中，当所建立的凸优化表达式为时，所述求解所建立的凸优化表达式以获取L与R包括：

先给定R任意值，求解公式一：得到L；

再给定L任意值，求解公式二：得到R；

确定求解得到的L与R是否满足预设的收敛条件，若满足，则求解得到的L与R为最终求解值，若不满足，则分别将求解得到的R代入公式一，将求解得到的L代入公式二迭代求解，直至求解得到的L与R满足所述预设的收敛条件，所述满足所述预设的收敛条件的L与R为最终求解值。

结合第一方面，或第一方面的第一种实施方式、或第一方面的第二种实施方式、或第一方面的第三种实施方式、或第一方面的第四种实施方式、或第一方面的第五种实施方式、在第一方面的第六种实施方式中，在将用于描述待检测数据的图转化为邻接矩阵A之前，所述方法还包括：

判断图中的所述待检测数据是不是用具体数值表示的；

若图中的所述待检测数据不是用具体数值表示的，则利用预设的映射规则将图中的所述待检测数据正向映射成用具体数值表示。

结合第一方面的第六种实施方式，在第一方面的第七种实施方式中，在求解所建立的凸优化表达式以获取L与R之后，所述方法还包括：

将获取的L与R进行逆转化，以得到不包含异常数据的子图及包含异常数据的子图；

判断是否对图中的所述待检测数据做了正向映射；

若对图中的所述待检测数据做了正向映射，则根据所述预设的映射规则将得到的不包含异常数据的子图中的数据及包含异常数据的子图中的数据做逆向映射，以将子图中的数据还原成原始的表示方法。

第二方面，本发明实施例提供的异常数据检测装置，包括：

矩阵转换单元，用于将用于描述待检测数据的图转化为邻接矩阵A，用L表示所述邻接矩阵A中不包含异常数据的子图的邻接矩阵，用R表示所述邻接矩阵A中包含异常数据的子图的邻接矩阵；

检测单元，用于检测所述待检测数据中是否包含噪声数据；

模型建立单元，用于根据不同的检测结果建立不同的凸优化表达式，所建立的凸优化表达式中利用L的核范数保证L的低秩性，利用R的一阶范数保证R的稀疏性，其中，L的核范数指的是L的奇异值之和，R的一阶范数指的是R中所有元素的绝对值之和；

计算单元，用于求解所建立的凸优化表达式以获取L与R。

结合第二方面，在第二方面的第一种实施方式中，所述检测单元具体用于：

结合第二方面，在第二方面的第二种实施方式中，所述装置还包括：

确定单元，用于确定每个检测结果对应的所述待检测数据的数据模型，以使所述模型建立单元根据每个检测结果对应的所述待检测数据的数据模型建立凸优化表达式；

所述确定单元具体用于：

在所述检测单元的检测结果为所述待检测数据中包含噪声数据时，确定所述待检测数据的数据模型为A＝L+R+E，其中，E表示邻接矩阵A中噪声数据的子图的邻接矩阵；

在检测单元的检测结果为所述待检测数据中不包含噪声数据时，确定所述待检测数据的数据模型为A＝L+R。

结合第二方面的第二种实施方式，在第二方面的第三种实施方式中，所述模型建立单元具体用于：

在所述确定单元确定的所述待检测数据的数据模型为A＝L+R+E时，建立凸优化表达式其中α，β为权重参数，α，β∈(0，∞)，E＝A-L-R，表示E的F范数，||L||_*表示L的核范数，||R||₁表示R的一阶范数,E的F范数指的是E中每个元素的平方和的平方根。

结合第二方面的第二种实施方式，在第二方面的第四种实施方式中，所述模型建立单元具体用于：

在所述确定单元的确定的所述待检测数据的数据模型为A＝L+R时，建立凸优化表达式其中λ为权重系数，λ∈(0,1)，||L||_*表示L的核范数，||R||₁表示R的一阶范数。

结合第二方面的第三种实施方式，在第二方面的第五种实施方式中，当所模型建立单元建立的凸优化表达式为时，所述计算单元具体用于：

先给定R任意值，求解公式一：得到L；

再给定L任意值，求解公式二：得到R；

确定求解得到的L与R是否满足预设的收敛条件，若满足，则求解得到的L与R为最终求解值，若不满足，则分别将求解得到的R代入公式一，将求解得到的L代入公式二迭代求解，直至求解得到的L与R满足所述预设的收敛条件，将求解得到的满足所述预设的收敛条件的L与R作为最终求解值。

结合第二方面，或第二方面的第一种实施方式、或第二方面的第二种实施方式、或第二方面的第三种实施方式、或第二方面的第四种实施方式、或第二方面的第五种实施方式、在第二方面的第六种实施方式中，所述装置还包括：

第一判断单元，用于在所述矩阵转换单元将用于描述待检测数据的图转化为邻接矩阵A之前，判断图中的所述待检测数据是不是用具体数值表示的；

映射处理单元，用于在所述第一判断单元的判断结果为图中的所述待检测数据不是用具体数值表示的时，利用预设的映射规则将图中的所述待检测数据正向映射成用具体数值表示。

结合第二方面的第六种实施方式，在第二方面的第七种实施方式中，所述矩阵转换单元还用于，在所述计算单元求解所建立的凸优化表达式以获取L与R之后，将获取的L与R进行逆转化，以得到不包含异常数据的子图及包含异常数据的子图；

所述装置还包括：

第二判断单元，用于判断所述映射处理单元是否对图中的所述待检测数据做了正向映射，当判断结果为是时，触发所述映射处理单元根据所述预设的映射规则将获得的不包含异常数据的子图中的数据及包含异常数据的子图中的数据做逆向映射，以将子图中的数据还原成原始的表示方法。

从以上的技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中，将用于描述待检测数据的图转化为邻接矩阵A,用L表示A中不包含异常数据的子图的邻接矩阵，用R表示A中包含异常数据的子图的邻接矩阵，根据待检测数据中是否包含噪声数据建立不同的凸优化表达式，所建立的凸优化表达式中利用L的核范数保证L的低秩性，利用R的一阶范数保证R的稀疏性，通过求解所建立的凸优化表达式获取L与R。本发明实施例中，将异常数据的检测问题转换为凸优化求解的问题，在求解的过程中，利用L的核范数保证L的低秩性，利用R的一阶范数保证R的稀疏性，最终得到的解为全局解，在降低检测复杂度的同时提高了检测准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，还可以如这些附图获得其他的附图。

图1是本发明提供的异常数据检测方法的一个实施例示意图；

图2是本发明提供的异常数据检测方法的另一实施例示意图；

图3是本发明提供的异常数据检测装置的一个实施例示意图；

图4是本发明提供的异常数据检测装置的另一实施例示意图；

图5是本发明提供的异常数据检测装置的另一实施例示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员所获得的所有其他实施例，都属于本发明保护的范围。

请参阅附图1，图1是本发明提供的异常数据检测方法的一个实施例示意图，具体包括：

101、将用于描述待检测数据的图转化为邻接矩阵A，用L表示A中不包含异常数据的子图的邻接矩阵，用R表示A中包含异常数据的子图的邻接矩阵；

本实施例中的待检测数据可以是社会网络数据、生物网络数据、计算机网络数据等，初始时，待检测数据用图来描述。

102、检测待检测数据中是否包含噪声数据；

噪声数据指的是由于图像生成设备本身的原因，例如光电管的噪声、摄像管的噪声等产生的数据。

103、根据不同的检测结果建立不同的凸优化表达式，所建立的凸优化表达式中利用L的核范数保证L的低秩性，利用R的一阶范数保证R的稀疏性；

其中，L的核范数指的是L的奇异值之和，R的一阶范数指的是R中所有元素的绝对值之和。

104、求解所建立的凸优化表达式以获取L与R。

本实施例中，将异常数据的检测问题转换为凸优化求解的问题，在求解的过程中，利用L的核范数保证L的低秩性，利用R的一阶范数保证R的稀疏性，最终得到的解为全局解，在降低检测复杂度的同时提高了检测准确率。

为便于理解，下面以一具体实施例对本发明的异常数据检测方法进行描述，请参阅图2，本发明异常数据检测方法另一实施例包括：

201、判断图中的待检测数据是不是用具体数值表示的，若不是，则执行步骤202，若是，则执行步骤203；

本实施例中，待检测数据可以是社会网络数据、生物网络数据、计算机网络数据等，初始时，待检测数据用图来描述。如果图描述的待检测数据直接是用具体的数值表示的，则图描述的待检测数据就不需要进行正向映射；如果图描述的待检测数据不是用具体的数值表示的，则需要将图描述的待检测数据做正向映射。

202、利用预设的映射规则将图中的待检测数据正向映射成用具体数值表示；

具体实现中，例如：在影视评价数据中，通常用好评、中评、差评等词语进行描述，这些描述不是具体的数值描述，因此需要建立对应的映射规则，如将好评、中评、差评分别映射成用数值3、2、1表示；再例如，在连接图中，图中表示的是连接关系，那么可以预设映射规则，将图中有连接的部分用1表示，无连接的部分用0表示。

203、将用于描述待检测数据的图转化为邻接矩阵A；

其中，用L表示A中不包含异常数据的子图的邻接矩阵，用R表示A中包含异常数据的子图的邻接矩阵。

204、检测待检测数据中是否包含噪声数据，若包含，则执行步骤205，若不包含，则执行步骤210；

噪声数据通常与待检测数据中的其他数据的数据类型、数据标识不同。因此，本实施例中，可通过如下方法检测待检测数据中是否包含噪声数据。方法一：检测待检测数据包括的数据类型中是否有与预设的数据类型相同的，若有，则确定待检测数据中包含噪声数据，若没有，则确定待检测数据中不包含噪声数据。方法二：检测待检测数据中是否包含有携带预设标识的数据，若有，则确定待检测数据中包含噪声数据，若没有，则确定待检测数据中不包含噪声数据。预设的数据类型可以为光电管噪声、摄像管噪声等的数据类型，预设标识可以为光电管噪声、摄像管噪声等的标识。

205、确定待检测数据的数据模型为A＝L+R+E；

其中，E表示邻接矩阵A中噪声数据的子图的邻接矩阵。

206、根据确定的待检测数据的数据模型A＝L+R+E建立凸优化表达式

\min_{L, R &GreaterEqual; 0} \frac{1}{2} {| | A - L - R | |}_{F}^{2} + α {| | L | |}_{*} + β {| | R | |}_{1};

其中α，β为权重参数，α，β∈(0，∞)，α，β的大小关系表示输出数据的侧重性，α，β的值的选取影响α||L||_*及β||R||₁的大小，α||L||_*大于β||R||₁时，表示输出结果侧重正常数据，α||L||_*小于β||R||₁时，表示输出结果侧重异常数据；E＝A-L-R，表示E的F范数，E的F范数指的是E中每个元素的平方和的平方根，在具体实现中，越小越好，越小表明待检测数据中噪声数据越少。

207、给定R任意值，求解公式一得到L；

因为步骤206建立的公式中有两个未知矩阵L与R，因此，可先给定R任意值，求解公式一，得到L。

208、给定L任意值，求解公式二得到R；

本步骤与求解L同理求解R。

在求解的过程中，通过L的核范数(trancenorm)保证矩阵L的低秩性，矩阵L的核范数为其奇异值之和，当最小化矩阵的核范数，即当使得矩阵L的大多数奇异值为0时，则可以保证矩阵L为低秩矩阵。

另外，通过R的一阶范数保证矩阵R的稀疏性，矩阵R的一阶范数范数为矩阵R中的所有元素的绝对值之和，当最小化矩阵R的一阶范数，即当使得矩阵R中的大多数项为0时，则可保证矩阵R为稀疏矩阵。

209、判断所得到的L与R是否满足预设的收敛条件，若满足，则执行步骤213；若不满足，则返回步骤207，将求解得到的R代入公式一，将求解得到的L代入公式二迭代求解，直至求解得到的L与R满足所述预设的收敛条件；

上述满足预设的收敛条件，例如前后两次计算得到的结果R1、R2、L1、L2满足R1-R2≤10^-4，且L1-L2≤10^-4。

210、当待检测数据中没有噪声数据时，确定待检测数据的数据模型为A＝L+R；

211、当待检测数据的数据模型为A＝L+R时，建立凸优化表达式

\min_{L, R &GreaterEqual; 0; A = L + R} λ {| | L | |}_{*} + (1 - λ) {| | R | |}_{1};

其中，λ为权重系数，λ∈(0,1)，λ的大小体现输出数据的侧重性，根据实际需要可设置为侧重正常数据，或侧重异常数据。

212、求解步骤211中的凸优化表达式以得到L与R；

由于A＝L+R，即L＝A-R或R＝A-L，代入所建立的凸优化表达式中，代入后公式中只有一个未知矩阵L或R，即可求得L与R的值。

213、输出求解得到的L与R；

214、将矩阵L与R进行逆转化，得到不包含异常数据的子图及包含异常数据的子图；

215、判断待检测数据是否做过正向映射，若做过，则执行步骤216，若没做过，则调到步骤217，结束处理；

具体实现中，即若整个处理流程中包含了步骤202，则说明待检测数据做过正向映射。

216、将子图中的数据做逆向映射处理。

若检测异常数据之前，对待检测数据做了正向映射，则生成的子图中的数据并非数据的原始表示方法，例如子图中的数据本来可能是连接关系，被正向映射成了用具体数值1、0表示，因此，需要将子图中的数据做逆向映射处理，还原数据的表示方法。

另外，需要说明的是，本实施例中的正向映射指的是将数据由原始表示映射成用具体数值表示，逆向映射指的是将数据由数值表示还原成原始表示。

下面对本发明提供的技术方案与现有技术中的方案做一个对比，请参阅下表：

从上表可以看出，本实施例中，通过检测待检测数据中是否包含噪声数据，然后根据检测结果确定待检测数据的数据模型，最后根据待检测数据的数据模型建立凸优化表达式，将异常数据的检测问题转换为凸优化求解的问题，在求解的过程中计算单元利用L的核范数保证L的低秩性，利用R的一阶范数保证R的稀疏性，最终得到的解为全局解，在降低检测复杂度的同时提高了检测准确率。

下面对本发明实施例提供的异常数据检测装置进行描述，请参阅图3，本实施例的异常数据检测装置300包括：

矩阵转换单元301，用于将用于描述待检测数据的图转化为邻接矩阵A，用L表示邻接矩阵A中不包含异常数据的子图的邻接矩阵，用R表示邻接矩阵A中包含异常数据的子图的邻接矩阵；

确定单元302，用于检测待检测数据中是否包含噪声数据；

模型建立单元303，用于根据不同的检测结果建立不同的凸优化表达式，所建立的凸优化表达式中利用L的核范数保证L的低秩性，利用R的一阶范数保证R的稀疏性，其中，L的核范数指的是L的奇异值之和，R的一阶范数指的是R中所有元素的绝对值之和；

计算单元304，用于求解所建立的凸优化表达式以获取L与R。

本实施例中，矩阵转换单元将用于描述待检测数据的图转化为邻接矩阵，模型建立单元根据待检测数据中是否包含噪声数据建立不同的凸优化表达式，计算单元通过求解凸优化表达式获取不包含异常数据的子图的邻接矩阵及包含异常数据的子图的邻接矩阵。本实施例中，将异常数据的检测问题转换为凸优化求解的问题，在求解的过程中，利用L的核范数保证L的低秩性，利用R的一阶范数保证R的稀疏性，最终得到的解为全局解，在降低检测复杂度的同时提高了检测准确率。

为便于理解，下面以一具体实施例对本发明的异常数据检测装置进行描述，请参阅图4，本实施例的异常数据检测装置400包括：

第一判断单元401，用于判断图中的待检测数据是不是用具体数值表示的；

映射处理单元402，用于在第一判断单元401的判断结果为图中的待检测数据不是用具体数值表示的时，根据预设的映射规则将图中的待检测数据正向映射成用具体数值表示；

矩阵转换单元403，用于将用于描述待检测数据的图转化为邻接矩阵A，用L表示邻接矩阵A中不包含异常数据的子图的邻接矩阵，用R表示邻接矩阵A中包含异常数据的子图的邻接矩阵；

检测单元404，用于检测待检测数据中是否包含噪声数据；

确定单元405，用于确定检测单元404的每个检测结果对应的待检测数据的数据模型，当检测单元404的检测结果为待检测数据中包含噪声数据时，确定待检测数据的数据模型为A＝L+R+E，其中，E表示邻接矩阵A中噪声数据的子图的邻接矩阵；当检测单元404的检测结果为待检测数据中不包含噪声数据时，确定待检测数据的数据模型为A＝L+R；

模型建立单元406，用于根据确定单元405确定的数据模型建立凸优化表达式；

计算单元407，用于求解所建立的凸优化表达式以获取L与R；

矩阵转换单元403还用于，将获取的L与R进行逆转化，以得到不包含异常数据的子图及包含异常数据的子图；

第二判断单元408，用于判断映射处理单元402是否对图中的所述待检测数据做了正向映射，若做了，则触发映射处理单元402根据预设的映射规则将得到的不包含异常数据的子图中的数据及包含异常数据的子图中的数据做逆向映射，以将子图中的数据还原成原始的表示方法。

为便于理解，下面以一个实际应用场景对本实施例中的异常数据检测装置400的各单元之间的交互方式进行描述：

本实施例中，待检测数据可以是社会网络数据、生物网络数据、计算机网络数据等，初始时，待检测数据用图来描述。第一判断单元401判断图中的待检测数据是不是用具体的数值表示的，如果图中的待检测数据直接是用具体的数值表示的，则图中的待检测数据就不需要进行正向映射；如果图中的待检测数据不是直接用具体的数值表示的，则需要映射处理单元402将图中的待检测数据正向映射成用具体数值表示。

具体实现中，例如：在影视评价数据中，通常用好评、中评、差评等词语进行描述，这些描述不是具体的数值表示的，因此映射处理单元402需要建立对应的映射规则，如将好评、中评、差评分别映射成用数值3、2、1表示；再例如，在连接图中，图中表示的是连接关系，那么映射处理单元402可以预设映射规则，将图中有连接的部分用1表示，无连接的部分用0表示。

接下来矩阵转换单元403将用于描述待检测数据的图转化为邻接矩阵A，用L表示A中不包含异常数据的子图的邻接矩阵，用R表示A中包含异常数据的子图的邻接矩阵。

检测单元404检测待检测数据中是否包含噪声数据，噪声数据指的是由于图像生成设备本身的原因，例如光电管的噪声、摄像管的噪声等产生的数据。噪声数据通常与待检测数据中的其他数据的数据类型、数据标识不同。因此，本实施例中，检测单元404可通过如下方法检测待检测数据中是否包含噪声数据。方法一：检测待检测数据包括的数据类型中是否有与预设的数据类型相同的，若有，则确定待检测数据中包含噪声数据，若没有，则确定待检测数据中不包含噪声数据。方法二：检测待检测数据中是否包含有携带预设标识的数据，若有，则确定待检测数据中包含噪声数据，若没有，则确定待检测数据中不包含噪声数据。预设的数据类型可以为光电管噪声、摄像管噪声等的数据类型，预设标识可以为光电管噪声、摄像管噪声等的标识。

当检测单元404的检测结果为待检测数据中包含噪声数据时，确定单元405确定待检测数据的数据模型为A＝L+R+E，其中，E表示邻接矩阵A中噪声数据的子图的邻接矩阵，模型建立单元406根据数据模型A＝L+R+E建立凸优化表达式其中α，β为权重参数，α，β∈(0，∞)，α，β的大小关系表示输出数据的侧重性，α，β的值的选取影响α||L||_*及β||R||₁的大小，α||L||_*大于β||R||₁时，表示输出结果侧重正常数据，α||L||_*小于β||R||₁时，表示输出结果侧重异常数据；E＝A-L-R，表示E的F范数，E的F范数指的是E中每个元素的平方和的平方根，在具体实现中，越小越好，越小表明待检测数据中噪声数据越少。

计算单元407求解模型建立单元406建立的凸优化表达式以获取L与R，由于该公式中有两个未知矩阵L与R,，因此，计算单元407可先给定R任意值，求解公式一得到L，然后给定L任意值，求解公式二得到R。

在求解的过程中，计算单元407通过L的核范数(trancenorm)保证矩阵L的低秩性，矩阵L的核范数为其奇异值之和，当最小化矩阵的核范数，即当使得矩阵L的大多数奇异值为0时，则可以保证矩阵L为低秩矩阵。

另外，计算单元407通过矩阵R的一阶范数保证矩阵R的稀疏性，矩阵R的一阶范数为矩阵R中的所有元素的绝对值之和，当最小化矩阵R的一阶范数，即当使得矩阵R中的大多数项为0时，则可保证矩阵为稀疏矩阵。

进一步地，计算单元407判断所得到的L与R是否满足预设的收敛条件，若满足，则输出L与R，若不满足，则将求解得到的R代入公式一，将求解得到的L代入公式二迭代求解，直至求解得到的L与R满足所述预设的收敛条件。

另外，若检测单元404的检测结果为待检测数据中不包含噪声数据时，则确定单元405确定待检测数据的数据模型为A＝L+R，模型建立单元406根据数据模型A＝L+R建立凸优化表达式其中，λ为权重系数，λ∈(0,1)，λ的大小体现输出数据的侧重性，根据实际需要可设置为侧重正常数据，或侧重异常数据。由于A＝L+R，即L＝A-R或R＝A-L，计算单元407将此转换关系代入所建立的凸优化表达式中，代入后公式中只有一个未知矩阵L或R，即可求得L与R的值。

在得到L与R之后，矩阵转换单元403将矩阵L与R进行逆转化，得到不包含异常数据的子图及包含异常数据的子图。

进一步地，第二判断单元408判断映射处理单元402是否对待检测数据做了正向映射，若做了，则表明子图中的数据并非数据的原始表示方法，例如子图中的数据本来可能是连接关系，被正向映射成了用具体数值1、0表示，则触发映射处理单元402将不包含异常数据的子图及包含异常数据的子图做逆向映射处理，以还原数据的原始表示方法。

本实施例中，确定单元根据检测单元的检测结果确定待检测数据的数据模型，模型建立单元根据确定单元确定的数据模型建立凸优化表达式，将异常数据的检测问题转换为凸优化求解的问题，计算单元求解所建立的凸优化表达式得到L与R，在求解的过程中计算单元利用L的核范数保证L的低秩性，利用R的一阶范数保证R的稀疏性，最终得到的解为全局解，在降低检测复杂度的同时提高了检测准确率。

下面请参阅图5，图5提供了本发明异常数据检测装置的另一实施例示意图，本实施例的异常数据检测装置500可以用于实施上述实施例提供的异常数据检测方法，在实际应用中，异常数据检测装置500可集成在计算机等设备中。具体来讲：

异常数据检测装置500可以包括RF(RadioFrequency，射频)电路510、包括有一个或一个以上计算机可读存储介质的存储器520、输入单元530、显示单元540、传感器550、音频电路560、WiFi(wirelessfidelity，无线保真)模块570、包括有一个或者一个以上处理核心的处理器580、以及电源590等部件。本领域技术人员可以理解，图5中示出的结构并不构成对异常数据检测装置500的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路510可用于收发消息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器580处理；另外，将涉及上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(LowNoiseAmplifier，低噪声放大器)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(GlobalSystemofMobilecommunication，全球移动通讯系统)、GPRS(GeneralPacketRadioService，通用分组无线服务)、CDMA(CodeDivisionMultipleAccess，码分多址)、WCDMA(WidebandCodeDivisionMultipleAccess,宽带码分多址)、LTE(LongTermEvolution,长期演进)、电子邮件、SMS(ShortMessagingService，短消息服务)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据存储设备的使用创建数据(比如音频数据、电话本等)。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器520还可以包括存储器控制器，以提供处理器580和输入单元530对存储器520的访问。

输入单元530可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元530可包括触敏表面531以及其他输入设备532。触敏表面531，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面531上或在触敏表面531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面531。除了触敏表面531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及装置的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元540可包括显示面板541，可选的，可以采用LCD(LiquidCrystalDisplay，液晶显示器)、OLED(OrganicLight-EmittingDiode,有机发光二极管)等形式来配置显示面板541。进一步的，触敏表面531可覆盖显示面板541，当触敏表面531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图5中，触敏表面531与显示面板541是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面531与显示面板541集成而实现输入和输出功能。

异常数据检测装置500还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在终端500移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别装置姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于异常数据检测装置500还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与装置之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一装置，或者将音频数据输出至存储器520以便进一步处理。音频电路560还可能包括耳塞插孔，以提供外设耳机与装置的通信。

WiFi属于短距离无线传输技术，异常数据检测装置500通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块570，但是可以理解的是，其并不属于装置的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是异常数据检测装置的控制中心，利用各种接口和线路连接整个装置的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行存储设备的各种功能和处理数据，从而对存储设备进行整体监控。可选的，处理器580可包括一个或多个处理核心；可选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

异常数据检测装置500还包括给各个部件供电的电源590(比如电池)，可选的，电源可以通过电源管理系统与处理器580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源590还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，异常数据检测装置500还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，异常数据检测装置500包括有存储器520，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器520中，且经配置以由一个或者一个以上处理器580执行上述一个或者一个以上程序包含用于进行以下操作的指令：

检测所述待检测数据中是否包含噪声数据；

求解所建立的凸优化表达式以获取L与R。

可选的，所述检测所述待检测数据中是否包含噪声数据包括：

可选的，所述根据不同的检测结果建立不同的凸优化表达式之前，所述方法还包括确定每个检测结果对应的所述待检测数据的数据模型，以根据每个检测结果对应的所述待检测数据的数据模型建立凸优化表达式；

可选的，所述根据每个检测结果对应的所述待检测数据的数据模型建立凸优化表达式包括：

可选的，当所建立的凸优化表达式为时，所述求解所建立的凸优化表达式以获取L与R包括：

先给定R任意值，求解公式一：得到L；

再给定L任意值，求解公式二：得到R；

可选的，在将用于描述待检测数据的图转化为邻接矩阵A之前，所述方法还包括：

判断图中的所述待检测数据是不是用具体数值表示的；

可选的，在求解所建立的凸优化表达式以获取L与R之后，所述方法还包括：

判断是否对图中的所述待检测数据做了正向映射；

需要说明的是，本发明实施例提供的异常数据检测装置500，还可以用于实现上述装置实施例中的其它功能，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种异常数据检测方法，其特征在于，包括：

检测所述待检测数据中是否包含噪声数据；

求解所建立的凸优化表达式以获取L与R。

2.如权利要求1所述的方法，其特征在于，所述检测所述待检测数据中是否包含噪声数据包括：

3.如权利要求1所述的方法，其特征在于，所述根据不同的检测结果建立不同的凸优化表达式之前，所述方法还包括确定每个检测结果对应的所述待检测数据的数据模型，以根据每个检测结果对应的所述待检测数据的数据模型建立凸优化表达式；

4.如权利要求3所述的方法，其特征在于，所述根据每个检测结果对应的所述待检测数据的数据模型建立凸优化表达式包括：

5.如权利要求3所述的方法，其特征在于，所述根据每个检测结果对应的所述待检测数据的数据模型建立凸优化表达式包括：

6.如权利要求4所述的方法，其特征在于，当所建立的凸优化表达式为时，所述求解所建立的凸优化表达式以获取L与R包括：

先给定R任意值，求解公式一：得到L；

再给定L任意值，求解公式二：得到R；

7.如权利要求1至6任意一项所述的方法，其特征在于，在将用于描述待检测数据的图转化为邻接矩阵A之前，所述方法还包括：

判断图中的所述待检测数据是不是用具体数值表示的；

8.如权利要求7所述的方法，其特征在于，在求解所建立的凸优化表达式以获取L与R之后，所述方法还包括：

判断是否对图中的所述待检测数据做了正向映射；

9.一种异常数据检测装置，其特征在于，包括：

检测单元，用于检测所述待检测数据中是否包含噪声数据；

计算单元，用于求解所建立的凸优化表达式以获取L与R。

10.如权利要求9所述的装置，其特征在于，所述检测单元具体用于：

11.如权利要求9所述的装置，其特征在于，所述装置还包括：

所述确定单元具体用于：

12.如权利要求11所述的装置，其特征在于，所述模型建立单元具体用于：

13.如权利要求11所述的装置，其特征在于，所述模型建立单元具体用于：

14.如权利要求12所述的装置，其特征在于，当所模型建立单元建立的凸优化表达式为时，所述计算单元具体用于：

先给定R任意值，求解公式一：得到L；

再给定L任意值，求解公式二：得到R；

15.如权利要求9至14任意一项所述的装置，其特征在于，所述装置还包括：

16.如权利要求15所述的装置，其特征在于，

所述矩阵转换单元还用于，在所述计算单元求解所建立的凸优化表达式以获取L与R之后，将获取的L与R进行逆转化，以得到不包含异常数据的子图及包含异常数据的子图；

所述装置还包括：