CN107391443A

CN107391443A - 一种稀疏数据异常检测方法及装置

Info

Publication number: CN107391443A
Application number: CN201710508648.3A
Authority: CN
Inventors: 马帅; 朱孟笑; 张晖; 怀进鹏
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-06-28
Filing date: 2017-06-28
Publication date: 2017-11-24
Anticipated expiration: 2037-06-28
Also published as: CN107391443B

Abstract

本发明公开了一种稀疏数据异常检测方法及装置，所述方法包括：对不同类型的原始数据进行特征处理，以将所述不同类型的原始数据转换成统一格式的稀疏数据；采用因子分解机对所述稀疏数据进行建模，得到非线性流形模型；根据所述非线性流形模型，计算数据对象的异常值得分；根据所述数据对象的异常值得分，判定所述数据对象是否为异常数据。

Description

一种稀疏数据异常检测方法及装置

技术领域

本发明涉及异常检测技术领域，尤其涉及一种基于因子分解机的稀疏数据异常检测方法及装置。

背景技术

异常检测主要基于Kawkins对异常的定义：异常是远离其他观测数据进而怀疑为不同机制产生的数据。高效准确地检测异常对于入侵检测、欺诈检测以及故障检测等领域具有重要意义。异常检测已经得到了广泛地研究，大多数方法都是针对传统的非稀疏性的数据。但是实际场景中，很多数据都呈现稀疏特性：(1)短文本数据：近年来，随着社交媒体的发展，短文本数据的分析挖掘得到越来越多的重视，由于单个文本中的单词数量有限，推断文本的异常特性变得极具挑战。(2)拥有“大域”属性的分类型数据：此类数据中每个属性包含的不同值数量巨大，可通过二值化过程转换成极度稀疏的数据，因此该类数据是一种间接的稀疏数据。不同属性值数量巨大，数据集中的属性值出现次数有限，难以形成可用的模式，因此如何挖掘属性值之间隐含的关系对推断数据对象的异常特性具有重要意义。例如，电影信息包含三个属性：男演员、女演员以及电影类型。如果男演员A和女演员B经常演同一类型的电影，虽然A和B从未合作过，但后来一次A和B的合作不应该看作是异常，因为A和B之间存在某种隐含的关系。因此有效地分析数据中隐含的关系是解决稀疏数据异常检测的关键。此外，此类稀疏数据往往伴随着高维特性，少量的数据对象即可形成较大的数据集，因此如何高效地寻找数据集中的异常，降低方法的时间复杂度对处理大规模数据具有重要意义。最后，由于现实中数据集往往包含多种数据类型，例如分类型数据、数值型数据、文本型数据等，因此如何同时处理多种类型的数据，提高方法的通用性是亟待解决的问题。

目前的异常检测方法具有如下几种：基于距离的异常检测方法、基于模式的异常检测方法、基于概率生成模型的异常检测方法、基于矩阵分解的异常检测方法等。

当前的异常检测方法处理稀疏数据存在一些问题，这主要体现在三个方面。第一，稀疏数据中大部分值都是0，单个数据对象中只有有限非0元，单纯使用有限的非0元推断数据对象的异常特性极具挑战，需要结合属性值之间的隐含关系。传统的很多方法如基于距离的方法、基于模式的方法等都无法获取属性值之间的隐含关系。第二，现实中的数据集往往包含多种数据类型，例如分类型数据、数值型数据、文本数据等，而现有的方法一般只针对某一种数据进行异常检测，不具有通用性。第三，传统的很多异常检测方法(如基于距离的方法)的时间复杂度过高，无法适用于大规模数据。

发明内容

为解决上述技术问题，本发明实施例提供了一种稀疏数据异常检测方法及装置。

本发明实施例提供的稀疏数据异常检测方法，包括：

对不同类型的原始数据进行特征处理，以将所述不同类型的原始数据转换成统一格式的稀疏数据；

采用因子分解机对所述稀疏数据进行建模，得到非线性流形模型；

根据所述非线性流形模型，计算数据对象的异常值得分；

根据所述数据对象的异常值得分，判定所述数据对象是否为异常数据。

本发明实施例中，所述对不同类型的原始数据进行特征处理，以将所述不同类型的原始数据转换成统一格式的稀疏数据，包括：

分别对分类型数据、短文本数据以及数值型数据进行不同的特征处理，得到n行d列的数据集其中

本发明实施例中，所述采用因子分解机对所述稀疏数据进行建模，得到非线性流形模型，包括：

采用因子分解机对所述数据集进行建模，使所述数据集位于非线性流形上，得到的非线性流形模型为：

其中，g是全局参数；b₁,...,b_d是特定属性参数；是属性值z_pi和z_pj的隐含关系权重，其中是一个k维向量。

本发明实施例中，所述根据所述非线性流形模型，计算数据对象的异常值得分，包括

根据所述非线性流形模型，计算数据对象的异常值得分为：

其中，对于文本数据，LQ(Z_p)等于所有文本的平均单词个数除以该文本的单词个数；而对于分类型数据和数值型数据，LQ(Z_p)等于1。

本发明实施例中，所述分别对拥有“大域”属性的分类型数据、短文本数据以及数值型数据进行不同的特征处理，包括：

针对所述拥有“大域”属性的分类型数据，对每个分类型属性中的每个值创建一个二值属性，所述二值属性的值是0或1；其中，如果一个数据对象中包含所述二值属性，则该数据对象对应于所述二值属性上的值为1，否则为0；

针对所述短文本数据，为每个不同的关键词创建一个属性；其中，如果一个文本包含r个关键词，则在每个关键词属性上的值为在其他词属性上的值为0；

针对所述数值型数据，对原始数据集中每个属性i执行以下操作：计算平均值u_i和标准差σ_i，将范围(u_i-σ_i,u_i+σ_i)平分成Φ个区间；为每个区间创建一个属性，如果一个数据对象第i个属性的值位于其中的一个区间，则该区间的属性值为1，否则为0；如果一个数据对象第i个属性的值x_i小于u_i-σ_i，则创建一个属性，其属性值为|x_i-(u_i-σ_i)|/σ_i；如果x_i大于u_i+σ_i，则创建一个属性，其属性值为|x_i-(u_i+σ_i)|/σ_i；其中，Φ的值根据原始数据集的大小设定。

本发明实施例中，所述非线性流形模型中的参数g,b_i,的值通过最小化所有数据对象的均方误差得到，其中，最小化对应的优化目标函数为：

其中，是正则化项，Θ是包含所有参数的参数空间，θ是参数空间中任意一个参数，λ_θ是参数θ的正则化参数值。

本发明实施例提供的稀疏数据异常检测装置，包括：

预处理模块，用于对不同类型的原始数据进行特征处理，以将所述不同类型的原始数据转换成统一格式的稀疏数据；

建模模块，用于采用因子分解机对所述稀疏数据进行建模，得到非线性流形模型；

处理模块，用于根据所述非线性流形模型，计算数据对象的异常值得分；

判定模块，用于根据所述数据对象的异常值得分，判定所述数据对象是否为异常数据。

本发明实施例中，所述预处理模块，具体用于分别对分类型数据、短文本数据以及数值型数据进行不同的特征处理，得到n行d列的数据集其中

本发明实施例中，所述建模模块，具体用于采用因子分解机对所述数据集进行建模，使所述数据集位于非线性流形上，得到的非线性流形模型为：

本发明实施例中，所述处理模块，具体用于根据所述非线性流形模型，计算数据对象的异常值得分为：

本发明实施例中，所述预处理模块，具体用于：

针对所述分类型数据，对每个分类型属性中的每个值创建一个二值属性，所述二值属性的值是0或1；其中，如果一个数据对象中包含所述二值属性，则该数据对象对应于所述二值属性上的值为1，否则为0；

本发明实施例的技术方案是一种基于因子分解机的异常检测方法，通过应用因子分解机挖掘属性值之间隐含的关系，解决了现有很多算法对于稀疏数据无法根据有限非0元获取属性值之间真正语义关系的问题；其次，通过对不同数据类型进行不同的特征预处理，使得我们的方法可以不仅可以适用于拥有“大域”属性的分类型数据，短文本数据等这样的稀疏数据，也可以适用于传统的数值型数据；最后，我们的方法的时间复杂度是数据集中非0元素的线性时间复杂度，使得我们的方法能够适用于大规模的数据集。

附图说明

图1为本发明实施例的稀疏数据异常检测方法的流程示意图一；

图2为本发明实施例的稀疏数据异常检测方法的流程示意图二；

图3为本发明实施例的稀疏数据异常检测方法的流程示意图三；

图4为本发明实施例的稀疏数据异常检测装置的结构组成示意图；

图5为本发明实施例的计算机设备的结构组成示意图。

具体实施方式

为了能够更加详尽地了解本发明实施例的特点与技术内容，下面结合附图对本发明实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明实施例。

为了便于理解本发明实施例的技术方案，以下对几种异常检测方法进行解释说明：

(1)基于距离的异常检测方法

基于距离的方法基于异常点是远离大多数正常点的假设，通过计算其他点与某一给定点之间的距离，找到给定点的k个邻居结点，若该点距离其邻居结点较远，则该点更有可能是异常点。在基于距离的方法中，如何计算数据对象之间的距离是方法的核心。不同类型的数据一般采用不同的距离计算方法。考虑前面提到的两个经常演同一类型电影的演员A和B，利用基于距离的方法如海明距离，A和B的距离始终是2，因此无法获取A与B隐含的关系；此外，该类方法的时间复杂度较高，如KNN和LOF，其复杂度都是数据集的二次时间复杂度，导致难以处理较大的数据集。

(2)基于模式的异常检测方法

基于模式的异常检测方法是为了解决分类型数据难以计算数据对象间距离的问题而提出的方法，基于频繁模式大多出现在正常数据对象中的假设，通过挖掘数据对象的频繁模式，根据数据对象中包含频繁模式的多少定义数据对象的异常程度，包含频繁模式少的更有可能是异常的数据对象。该类方法只会统计同时出现的属性值的频率，考虑前面提到的两个经常演同一类型电影C的演员A和B，则AC和BC是数据集里的频繁模式，未来有一个电影是AB合作的，但由于之前未合作过，AB模式是不频繁的，从而很有可能被认为是异常，因此基于模式的方法无法获取A与B的隐含关系。

(3)基于概率生成模型的异常检测方法

基于概率生成模型的异常检测方法是针对文本数据而提出的方法，一般基于概率生成模型的分类结果衡量数据对象的异常。该类方法主要用于处理文本数据的异常检测，对于数值型数据、分类型数据等并不适用。

(4)基于矩阵分解的异常检测方法

基于矩阵分解的异常检测方法是基于异常数据对象会影响原始数据集分解的效果的假设，通过对数据集进行矩阵分解，计算低阶近似的误差，得到数据对象的异常程度。该类方法通过低阶近似可以获取两个属性值之间隐含的关系，但是主要用于处理图数据以及图像数据等。而对于分类型数据，基于矩阵分解的方法只能分解两种分类型属性的关系，难以处理包含多个分类型属性的数据的异常检测。

目前的异常检测方法处理稀疏数据存在如下三个方面的问题：第一，稀疏数据中大部分值都是0，单个数据对象中只有有限非0元，单纯使用有限的非0元推断数据对象的异常特性极具挑战，需要结合属性值之间的隐含关系。传统的很多方法如基于距离的方法、基于模式的方法等都无法获取属性值之间的隐含关系。第二，现实中的数据集往往包含多种数据类型，例如分类型数据、数值型数据、文本数据等，而现有的方法一般只针对某一种数据进行异常检测，不具有通用性。第三，传统的很多异常检测方法(如基于距离的方法)的时间复杂度过高，无法适用于大规模数据。

为此，本发明实施例提出一种基于因子分解机的稀疏数据异常检测技术，采用因子分解机对数据集进行建模，正常的数据会更好地拟合到一个非线性流形上，而距离非线性流形越远的数据越有可能是异常数据。采用本发明实施例的稀疏数据异常检测技术，能够实现：1)挖掘属性值之间的隐含关系；2)具有较低的时间复杂度；3)能对多种数据类型进行异常检测，包括短文本数据、拥有“大域”属性的分类型数据以及传统的数值型数据。

因子分解机是为推荐系统提出的方法，但是也可以用于其他的数据挖掘问题，例如稀疏数据的分类问题。因子分解机可以利用有限的非0元，挖掘属性值之间的隐含关系，并且具有线性的时间复杂度，相比基于距离方法的二次复杂度，具有明显的优势。要衡量属性值之间的关系，至少需要二阶的因子分解机模型，具体为：

其中g是全局参数；b₁,...,b_d是特定属性参数；是属性值x_i和x_j的隐含关系权重，其中是一个k维的向量，y(x)是预测值。因子分解机挖掘属性值之间隐含关系的原理主要是：采用因子分解的思想，将两个属性值之间的关系权重用两个k维向量的乘积来表示，即每个属性值都有一个k维向量参数，当两个属性值不同时出现时，它们也会有一定的关系，从而得到属性值之间的隐含关系。

为了将因子分解机方法应用到稀疏数据异常检测上，并且使得方法能够应用到多种数据类型上，本发明实施例首先对不同类型的原始数据进行特征处理，转换成统一的稀疏数据格式，然后采用无监督形式的因子分解机对稀疏数据进行建模，从而有效检测数据中的异常。

图1为本发明实施例的稀疏数据异常检测方法的流程示意图一，如图1所示，所述稀疏数据异常检测方法包括以下步骤：

步骤101：对不同类型的原始数据进行特征处理，以将所述不同类型的原始数据转换成统一格式的稀疏数据。

具体地，分别对拥有“大域”属性的分类型数据、短文本数据以及数值型数据进行不同的特征处理，得到n行d列的数据集其中

进一步，针对所述拥有“大域”属性的分类型数据，对每个分类型属性中的每个值创建一个二值属性，所述二值属性的值是0或1；其中，如果一个数据对象中包含所述二值属性，则该数据对象对应于所述二值属性上的值为1，否则为0；

步骤102：采用因子分解机对所述稀疏数据进行建模，得到非线性流形模型。

具体地，采用因子分解机对所述数据集进行建模，使所述数据集位于非线性流形上，得到的非线性流形模型为：

步骤103：根据所述非线性流形模型，计算数据对象的异常值得分。

具体地，根据所述非线性流形模型，计算数据对象的异常值得分为：

上述方案中，所述非线性流形模型中的参数g,b_i,的值通过最小化所有数据对象的均方误差得到，其中，最小化对应的优化目标函数为：

其中，是正则化项，Θ是包含所有参数的参数空间，θ是参数空间中任意一个参数，λ_θ是参数θ的正则化参数值。这里，由于目标是最小化各数据对象的均方误差，因此当所有参数都为0时会产生平凡解，但由于模型是一个非凸优化问题，通常会得到一个非平凡的局部最优解。

步骤104：根据所述数据对象的异常值得分，判定所述数据对象是否为异常数据。

图2为本发明实施例的稀疏数据异常检测方法的流程示意图二，如图2所示，所述稀疏数据异常检测方法包括以下步骤：

步骤201：分别对拥有“大域”属性的分类型数据、短文本数据以及数值型数据进行不同的特征预处理，得到n行d列的数据集:其中

针对每种数据类型的特征预处理的具体方法如下：

(1)拥有“大域”属性的分类型数据的特征预处理：对每个分类型属性中的每个值创建一个二值属性，这个属性的值是0或1，当一个数据对象中包含这个属性时，则该数据对象在该属性上的值为1，否则为0。因此，转换后的数据集的维度是原始数据集中不同属性值个数，而其中的非0元个数等于原始数据集大小。

(2)短文本数据的特征预处理：为每个不同的关键词创建一个属性，因此，数据集的维度就是不同关键词个数。当一个文本包含r个关键词，则在每个关键词属性上的值为在其他关键词属性上的值为0。

(3)数值型数据的特征预处理：对原始数据集中每个属性i执行以下操作：计算平均值u_i和标准差σ_i，将范围(u_i-σ_i,u_i+σ_i)平分成Φ个区间，为每个区间创建一个属性，如果一个数据对象第i个属性的值位于其中的某个区间，则该区间的属性值为1，否则为0；当一个数据对象第i个属性的值x_i小于u_i-σ_i，则为其单独创建一个属性，属性值为|x_i-(u_i-σ_i)|/σ_i，类似的，当x_i大于u_i+σ_i，创建新的属性，其值为|x_i-(u_i+σ_i)|/σ_i。因此，对原始数据集中的每个属性最多创建了Φ+2个属性，而其中的非0元个数等于原始数据集大小。其中，Φ的值根据数据集的大小设定，当数据集大于1000个数据对象时，Φ＝100，否则，n是数据对象总数。

步骤202：采用因子分解机进行建模。

具体地，对步骤201中特征预处理后的数据集建模，使之位于一个非线性流形上。非线性流形模型为：

其中g是全局参数；b₁,...,b_d是特定属性参数；是属性值z_pi和z_pj的隐含关系权重，其中是一个k维的向量。

步骤203：根据非线性流形模型，计算数据对象的异常值得分。

数据对象的异常值得分为：

异常值得分更大，说明该数据对象更有可能是一个异常数据对象。这里，引入LQ(Z_p)是为了解决文本数据中因不同文本包含的单词个数不同而引起的问题，因此对于文本数据，LQ(Z_p)等于所有文本的平均单词个数除以该文本的单词个数，而对于分类型数据和数值型数据，LQ(Z_p)等于1。

上述方案中，基于因子分解机的异常检测模型中参数的学习具体方法如下：

模型中的参数g,b_i,的值通过最小化所有数据对象的均方误差得到，优化目标函数为：

其中，是正则化项，是为了防止模型参数过多而造成的过拟合。Θ是包含所有参数的参数空间，θ是参数空间中任意一个参数，λ_θ是参数θ的正则化参数值，在一实施方式中，对不同的参数采用统一的值λ。这里，由于目标是最小化各数据对象的均方误差，因此当所有参数都为0时会产生平凡解，但由于模型是一个非凸优化问题，通常会得到一个非平凡的局部最优解。

模型中参数的学习采用随机梯度下降方法，首先将参数初始化到(0,1)区间，然后在每次迭代中，随机选取一个数据对象，据此更新参数：

其中是关于参数θ的梯度，具体计算方式如下：

由于数据对象的稀疏性，对每个选取的数据对象，不需要更新全部的参数，只有当z_pi不为0时，才需要更新相应的b_i和v_i。这对于提高稀疏数据的计算效率具有重要意义。

a是学习率，合适的学习率对方法的收敛具有重要意义。过大的a会引起目标函数的震荡，而过小的a会使得收敛过慢。本发明采用AdaGrad，一种自适应的学习率，在每次迭代时，自动调整参数的学习率。本发明实施例只需要设置一个初始的a。

图3为本发明实施例的稀疏数据异常检测方法的流程示意图三，如图3所示，所述稀疏数据异常检测方法包括以下步骤：

步骤301：特征预处理，得到统一格式的数据集。

该步骤可参照上述步骤201进行理解。

步骤302：将数据集随机平均分成两份D1，D2。

这里，平均分成两份相当于2折交叉验证过程，是为了防止训练的过拟合。

步骤303：选择D1用于构建模型，学习参数(参照步骤202)，对D2中的数据对象计算异常得分(参照步骤203)；选择D2用于构建模型，学习参数(参照步骤202)，对D1中的数据对象计算异常得分(参照步骤203)。

上述过程重复t次，这个过程会对每个数据对象产生t个不同的异常得分，可以取得分的和/平均值作为每个数据对象的最后异常得分。

这里，重复t次的原因是为了提高方法的鲁棒性，t默认取5。

上述方案中，需要设置的参数包括参数v的维度k，初始学习率a以及正则化参数λ，对于不同类型的数据设置不同的默认参数，具体如下：

拥有“大域”属性的分类型数据：a＝0.01,k＝50,λ＝1；

短文本数据：a＝0.1,k＝50,λ＝0.2；

数值型数据：a＝0.01,k＝50,λ＝0.2。

图4为本发明实施例的稀疏数据异常检测装置的结构组成示意图，如图4所示，所述装置包括：

预处理模块401，用于对不同类型的原始数据进行特征处理，以将所述不同类型的原始数据转换成统一格式的稀疏数据；

建模模块402，用于采用因子分解机对所述稀疏数据进行建模，得到非线性流形模型；

处理模块403，用于根据所述非线性流形模型，计算数据对象的异常值得分；

判定模块404，用于根据所述数据对象的异常值得分，判定所述数据对象是否为异常数据。

本发明实施例中，所述预处理模块401，具体用于分别对拥有“大域”属性的分类型数据、短文本数据以及数值型数据进行不同的特征处理，得到n行d列的数据集其中

本发明实施例中，所述建模模块402，具体用于采用因子分解机对所述数据集进行建模，使所述数据集位于非线性流形上，得到的非线性流形模型为：

本发明实施例中，所述处理模块403，具体用于根据所述非线性流形模型，计算数据对象的异常值得分为：

本发明实施例中，所述预处理模块401，具体用于：

本领域技术人员应当理解，上述稀疏数据异常检测装置中各个模块的功能可参照签署稀疏数据异常检测方法的描述进行理解。

本发明实施例上述稀疏数据异常检测装置如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本发明实施例不限制于任何特定的硬件和软件结合。

相应地，本发明实施例还提供一种计算机存储介质，其中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现本发明实施例的上述稀疏数据异常检测方法。

图5为本发明实施例的计算机设备的结构组成示意图，如图5所示，所述计算机设备包括存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机可执行指令，所述处理器502执行所述计算机可执行指令时实现如下方法步骤：

根据所述非线性流形模型，计算数据对象的异常值得分；

以上涉及计算机设备的描述，与上述方法描述是类似的，同方法的有益效果描述，不做赘述。

本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个第二处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种稀疏数据异常检测方法，其特征在于，所述方法包括：

根据所述非线性流形模型，计算数据对象的异常值得分；

2.根据权利要求1所述的稀疏数据异常检测方法，其特征在于，所述对不同类型的原始数据进行特征处理，以将所述不同类型的原始数据转换成统一格式的稀疏数据，包括：

3.根据权利要求2所述的稀疏数据异常检测方法，其特征在于，所述采用因子分解机对所述稀疏数据进行建模，得到非线性流形模型，包括：

<mrow> <mi>g</mi> <mo>+</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <msub> <mi>b</mi> <mi>i</mi> </msub> <msub> <mi>z</mi> <mrow> <mi>p</mi> <mi>i</mi> </mrow> </msub> <mo>+</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <mrow> <mo>(</mo> <msub> <mover> <mi>v</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <msub> <mover> <mi>v</mi> <mo>&OverBar;</mo> </mover> <mi>j</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>z</mi> <mrow> <mi>p</mi> <mi>i</mi> </mrow> </msub> <msub> <mi>z</mi> <mrow> <mi>p</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mn>0</mn> </mrow>

4.根据权利要求3所述的稀疏数据异常检测方法，其特征在于，所述根据所述非线性流形模型，计算数据对象的异常值得分，包括

根据所述非线性流形模型，计算数据对象的异常值得分为：

<mrow> <mi>O</mi> <mrow> <mo>(</mo> <mover> <msub> <mi>Z</mi> <mi>p</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <mi>L</mi> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>Z</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mi>g</mi> <mo>+</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <msub> <mi>b</mi> <mi>i</mi> </msub> <msub> <mi>z</mi> <mrow> <mi>p</mi> <mi>i</mi> </mrow> </msub> <mo>+</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <mrow> <mo>(</mo> <msub> <mover> <mi>v</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <msub> <mover> <mi>v</mi> <mo>&OverBar;</mo> </mover> <mi>j</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>z</mi> <mrow> <mi>p</mi> <mi>i</mi> </mrow> </msub> <msub> <mi>z</mi> <mrow> <mi>p</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> </mrow>

5.根据权利要求2所述的稀疏数据异常检测方法，其特征在于，所述分别对分类型数据、短文本数据以及数值型数据进行不同的特征处理，包括：

6.根据权利要求3所述的稀疏数据异常检测方法，其特征在于，所述非线性流形模型中的参数g,b_i,的值通过最小化所有数据对象的均方误差得到，其中，最小化对应的优化目标函数为：

<mrow> <mi>M</mi> <mi>i</mi> <mi>n</mi> <mi>i</mi> <mi>m</mi> <mi>i</mi> <mi>z</mi> <mi>e</mi> <mi> </mi> <mi>J</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>O</mi> <msup> <mrow> <mo>(</mo> <mover> <msub> <mi>Z</mi> <mi>p</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>&theta;</mi> <mo>&Element;</mo> <mi>&Theta;</mi> </mrow> </munder> <msub> <mi>&lambda;</mi> <mi>&theta;</mi> </msub> <msup> <mi>&theta;</mi> <mn>2</mn> </msup> </mrow>

<mrow> <munder> <mo>&Sigma;</mo> <mrow> <mi>&theta;</mi> <mo>&Element;</mo> <mi>&Theta;</mi> </mrow> </munder> <msub> <mi>&lambda;</mi> <mi>&theta;</mi> </msub> <msup> <mi>&theta;</mi> <mn>2</mn> </msup> <mo>=</mo> <msub> <mi>&lambda;</mi> <mi>g</mi> </msub> <msup> <mi>g</mi> <mn>2</mn> </msup> <mo>+</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <msub> <mi>&lambda;</mi> <msub> <mi>b</mi> <mi>i</mi> </msub> </msub> <msup> <msub> <mi>b</mi> <mi>i</mi> </msub> <mn>2</mn> </msup> <mo>+</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>&lambda;</mi> <msub> <mi>v</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </msub> <msubsup> <mi>v</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> </mrow>

7.一种稀疏数据异常检测装置，其特征在于，所述装置包括：

8.根据权利要求7所述的稀疏数据异常检测装置，其特征在于，所述预处理模块，具体用于分别对分类型数据、短文本数据以及数值型数据进行不同的特征处理，得到n行d列的数据集其中

9.根据权利要求8所述的稀疏数据异常检测装置，其特征在于，所述建模模块，具体用于采用因子分解机对所述数据集进行建模，使所述数据集位于非线性流形上，得到的非线性流形模型为：

10.根据权利要求9所述的稀疏数据异常检测装置，其特征在于，所述处理模块，具体用于根据所述非线性流形模型，计算数据对象的异常值得分为：