CN107391443A - 一种稀疏数据异常检测方法及装置 - Google Patents

一种稀疏数据异常检测方法及装置 Download PDF

Info

Publication number
CN107391443A
CN107391443A CN201710508648.3A CN201710508648A CN107391443A CN 107391443 A CN107391443 A CN 107391443A CN 201710508648 A CN201710508648 A CN 201710508648A CN 107391443 A CN107391443 A CN 107391443A
Authority
CN
China
Prior art keywords
mrow
msub
data
munderover
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710508648.3A
Other languages
English (en)
Other versions
CN107391443B (zh
Inventor
马帅
朱孟笑
张晖
怀进鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201710508648.3A priority Critical patent/CN107391443B/zh
Publication of CN107391443A publication Critical patent/CN107391443A/zh
Application granted granted Critical
Publication of CN107391443B publication Critical patent/CN107391443B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2136Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种稀疏数据异常检测方法及装置,所述方法包括:对不同类型的原始数据进行特征处理,以将所述不同类型的原始数据转换成统一格式的稀疏数据;采用因子分解机对所述稀疏数据进行建模,得到非线性流形模型;根据所述非线性流形模型,计算数据对象的异常值得分;根据所述数据对象的异常值得分,判定所述数据对象是否为异常数据。

Description

一种稀疏数据异常检测方法及装置
技术领域
本发明涉及异常检测技术领域,尤其涉及一种基于因子分解机的稀疏数据异常检测方法及装置。
背景技术
异常检测主要基于Kawkins对异常的定义:异常是远离其他观测数据进而怀疑为不同机制产生的数据。高效准确地检测异常对于入侵检测、欺诈检测以及故障检测等领域具有重要意义。异常检测已经得到了广泛地研究,大多数方法都是针对传统的非稀疏性的数据。但是实际场景中,很多数据都呈现稀疏特性:(1)短文本数据:近年来,随着社交媒体的发展,短文本数据的分析挖掘得到越来越多的重视,由于单个文本中的单词数量有限,推断文本的异常特性变得极具挑战。(2)拥有“大域”属性的分类型数据:此类数据中每个属性包含的不同值数量巨大,可通过二值化过程转换成极度稀疏的数据,因此该类数据是一种间接的稀疏数据。不同属性值数量巨大,数据集中的属性值出现次数有限,难以形成可用的模式,因此如何挖掘属性值之间隐含的关系对推断数据对象的异常特性具有重要意义。例如,电影信息包含三个属性:男演员、女演员以及电影类型。如果男演员A和女演员B经常演同一类型的电影,虽然A和B从未合作过,但后来一次A和B的合作不应该看作是异常,因为A和B之间存在某种隐含的关系。因此有效地分析数据中隐含的关系是解决稀疏数据异常检测的关键。此外,此类稀疏数据往往伴随着高维特性,少量的数据对象即可形成较大的数据集,因此如何高效地寻找数据集中的异常,降低方法的时间复杂度对处理大规模数据具有重要意义。最后,由于现实中数据集往往包含多种数据类型,例如分类型数据、数值型数据、文本型数据等,因此如何同时处理多种类型的数据,提高方法的通用性是亟待解决的问题。
目前的异常检测方法具有如下几种:基于距离的异常检测方法、基于模式的异常检测方法、基于概率生成模型的异常检测方法、基于矩阵分解的异常检测方法等。
当前的异常检测方法处理稀疏数据存在一些问题,这主要体现在三个方面。第一,稀疏数据中大部分值都是0,单个数据对象中只有有限非0元,单纯使用有限的非0元推断数据对象的异常特性极具挑战,需要结合属性值之间的隐含关系。传统的很多方法如基于距离的方法、基于模式的方法等都无法获取属性值之间的隐含关系。第二,现实中的数据集往往包含多种数据类型,例如分类型数据、数值型数据、文本数据等,而现有的方法一般只针对某一种数据进行异常检测,不具有通用性。第三,传统的很多异常检测方法(如基于距离的方法)的时间复杂度过高,无法适用于大规模数据。
发明内容
为解决上述技术问题,本发明实施例提供了一种稀疏数据异常检测方法及装置。
本发明实施例提供的稀疏数据异常检测方法,包括:
对不同类型的原始数据进行特征处理,以将所述不同类型的原始数据转换成统一格式的稀疏数据;
采用因子分解机对所述稀疏数据进行建模,得到非线性流形模型;
根据所述非线性流形模型,计算数据对象的异常值得分;
根据所述数据对象的异常值得分,判定所述数据对象是否为异常数据。
本发明实施例中,所述对不同类型的原始数据进行特征处理,以将所述不同类型的原始数据转换成统一格式的稀疏数据,包括:
分别对分类型数据、短文本数据以及数值型数据进行不同的特征处理,得到n行d列的数据集其中
本发明实施例中,所述采用因子分解机对所述稀疏数据进行建模,得到非线性流形模型,包括:
采用因子分解机对所述数据集进行建模,使所述数据集位于非线性流形上,得到的非线性流形模型为:
其中,g是全局参数;b1,...,bd是特定属性参数;是属性值zpi和zpj的隐含关系权重,其中是一个k维向量。
本发明实施例中,所述根据所述非线性流形模型,计算数据对象的异常值得分,包括
根据所述非线性流形模型,计算数据对象的异常值得分为:
其中,对于文本数据,LQ(Zp)等于所有文本的平均单词个数除以该文本的单词个数;而对于分类型数据和数值型数据,LQ(Zp)等于1。
本发明实施例中,所述分别对拥有“大域”属性的分类型数据、短文本数据以及数值型数据进行不同的特征处理,包括:
针对所述拥有“大域”属性的分类型数据,对每个分类型属性中的每个值创建一个二值属性,所述二值属性的值是0或1;其中,如果一个数据对象中包含所述二值属性,则该数据对象对应于所述二值属性上的值为1,否则为0;
针对所述短文本数据,为每个不同的关键词创建一个属性;其中,如果一个文本包含r个关键词,则在每个关键词属性上的值为在其他词属性上的值为0;
针对所述数值型数据,对原始数据集中每个属性i执行以下操作:计算平均值ui和标准差σi,将范围(uii,uii)平分成Φ个区间;为每个区间创建一个属性,如果一个数据对象第i个属性的值位于其中的一个区间,则该区间的属性值为1,否则为0;如果一个数据对象第i个属性的值xi小于uii,则创建一个属性,其属性值为|xi-(uii)|/σi;如果xi大于uii,则创建一个属性,其属性值为|xi-(uii)|/σi;其中,Φ的值根据原始数据集的大小设定。
本发明实施例中,所述非线性流形模型中的参数g,bi,的值通过最小化所有数据对象的均方误差得到,其中,最小化对应的优化目标函数为:
其中,是正则化项,Θ是包含所有参数的参数空间,θ是参数空间中任意一个参数,λθ是参数θ的正则化参数值。
本发明实施例提供的稀疏数据异常检测装置,包括:
预处理模块,用于对不同类型的原始数据进行特征处理,以将所述不同类型的原始数据转换成统一格式的稀疏数据;
建模模块,用于采用因子分解机对所述稀疏数据进行建模,得到非线性流形模型;
处理模块,用于根据所述非线性流形模型,计算数据对象的异常值得分;
判定模块,用于根据所述数据对象的异常值得分,判定所述数据对象是否为异常数据。
本发明实施例中,所述预处理模块,具体用于分别对分类型数据、短文本数据以及数值型数据进行不同的特征处理,得到n行d列的数据集其中
本发明实施例中,所述建模模块,具体用于采用因子分解机对所述数据集进行建模,使所述数据集位于非线性流形上,得到的非线性流形模型为:
其中,g是全局参数;b1,...,bd是特定属性参数;是属性值zpi和zpj的隐含关系权重,其中是一个k维向量。
本发明实施例中,所述处理模块,具体用于根据所述非线性流形模型,计算数据对象的异常值得分为:
其中,对于文本数据,LQ(Zp)等于所有文本的平均单词个数除以该文本的单词个数;而对于分类型数据和数值型数据,LQ(Zp)等于1。
本发明实施例中,所述预处理模块,具体用于:
针对所述分类型数据,对每个分类型属性中的每个值创建一个二值属性,所述二值属性的值是0或1;其中,如果一个数据对象中包含所述二值属性,则该数据对象对应于所述二值属性上的值为1,否则为0;
针对所述短文本数据,为每个不同的关键词创建一个属性;其中,如果一个文本包含r个关键词,则在每个关键词属性上的值为在其他词属性上的值为0;
针对所述数值型数据,对原始数据集中每个属性i执行以下操作:计算平均值ui和标准差σi,将范围(uii,uii)平分成Φ个区间;为每个区间创建一个属性,如果一个数据对象第i个属性的值位于其中的一个区间,则该区间的属性值为1,否则为0;如果一个数据对象第i个属性的值xi小于uii,则创建一个属性,其属性值为|xi-(uii)|/σi;如果xi大于uii,则创建一个属性,其属性值为|xi-(uii)|/σi;其中,Φ的值根据原始数据集的大小设定。
本发明实施例中,所述非线性流形模型中的参数g,bi,的值通过最小化所有数据对象的均方误差得到,其中,最小化对应的优化目标函数为:
其中,是正则化项,Θ是包含所有参数的参数空间,θ是参数空间中任意一个参数,λθ是参数θ的正则化参数值。
本发明实施例的技术方案是一种基于因子分解机的异常检测方法,通过应用因子分解机挖掘属性值之间隐含的关系,解决了现有很多算法对于稀疏数据无法根据有限非0元获取属性值之间真正语义关系的问题;其次,通过对不同数据类型进行不同的特征预处理,使得我们的方法可以不仅可以适用于拥有“大域”属性的分类型数据,短文本数据等这样的稀疏数据,也可以适用于传统的数值型数据;最后,我们的方法的时间复杂度是数据集中非0元素的线性时间复杂度,使得我们的方法能够适用于大规模的数据集。
附图说明
图1为本发明实施例的稀疏数据异常检测方法的流程示意图一;
图2为本发明实施例的稀疏数据异常检测方法的流程示意图二;
图3为本发明实施例的稀疏数据异常检测方法的流程示意图三;
图4为本发明实施例的稀疏数据异常检测装置的结构组成示意图;
图5为本发明实施例的计算机设备的结构组成示意图。
具体实施方式
为了能够更加详尽地了解本发明实施例的特点与技术内容,下面结合附图对本发明实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明实施例。
为了便于理解本发明实施例的技术方案,以下对几种异常检测方法进行解释说明:
(1)基于距离的异常检测方法
基于距离的方法基于异常点是远离大多数正常点的假设,通过计算其他点与某一给定点之间的距离,找到给定点的k个邻居结点,若该点距离其邻居结点较远,则该点更有可能是异常点。在基于距离的方法中,如何计算数据对象之间的距离是方法的核心。不同类型的数据一般采用不同的距离计算方法。考虑前面提到的两个经常演同一类型电影的演员A和B,利用基于距离的方法如海明距离,A和B的距离始终是2,因此无法获取A与B隐含的关系;此外,该类方法的时间复杂度较高,如KNN和LOF,其复杂度都是数据集的二次时间复杂度,导致难以处理较大的数据集。
(2)基于模式的异常检测方法
基于模式的异常检测方法是为了解决分类型数据难以计算数据对象间距离的问题而提出的方法,基于频繁模式大多出现在正常数据对象中的假设,通过挖掘数据对象的频繁模式,根据数据对象中包含频繁模式的多少定义数据对象的异常程度,包含频繁模式少的更有可能是异常的数据对象。该类方法只会统计同时出现的属性值的频率,考虑前面提到的两个经常演同一类型电影C的演员A和B,则AC和BC是数据集里的频繁模式,未来有一个电影是AB合作的,但由于之前未合作过,AB模式是不频繁的,从而很有可能被认为是异常,因此基于模式的方法无法获取A与B的隐含关系。
(3)基于概率生成模型的异常检测方法
基于概率生成模型的异常检测方法是针对文本数据而提出的方法,一般基于概率生成模型的分类结果衡量数据对象的异常。该类方法主要用于处理文本数据的异常检测,对于数值型数据、分类型数据等并不适用。
(4)基于矩阵分解的异常检测方法
基于矩阵分解的异常检测方法是基于异常数据对象会影响原始数据集分解的效果的假设,通过对数据集进行矩阵分解,计算低阶近似的误差,得到数据对象的异常程度。该类方法通过低阶近似可以获取两个属性值之间隐含的关系,但是主要用于处理图数据以及图像数据等。而对于分类型数据,基于矩阵分解的方法只能分解两种分类型属性的关系,难以处理包含多个分类型属性的数据的异常检测。
目前的异常检测方法处理稀疏数据存在如下三个方面的问题:第一,稀疏数据中大部分值都是0,单个数据对象中只有有限非0元,单纯使用有限的非0元推断数据对象的异常特性极具挑战,需要结合属性值之间的隐含关系。传统的很多方法如基于距离的方法、基于模式的方法等都无法获取属性值之间的隐含关系。第二,现实中的数据集往往包含多种数据类型,例如分类型数据、数值型数据、文本数据等,而现有的方法一般只针对某一种数据进行异常检测,不具有通用性。第三,传统的很多异常检测方法(如基于距离的方法)的时间复杂度过高,无法适用于大规模数据。
为此,本发明实施例提出一种基于因子分解机的稀疏数据异常检测技术,采用因子分解机对数据集进行建模,正常的数据会更好地拟合到一个非线性流形上,而距离非线性流形越远的数据越有可能是异常数据。采用本发明实施例的稀疏数据异常检测技术,能够实现:1)挖掘属性值之间的隐含关系;2)具有较低的时间复杂度;3)能对多种数据类型进行异常检测,包括短文本数据、拥有“大域”属性的分类型数据以及传统的数值型数据。
因子分解机是为推荐系统提出的方法,但是也可以用于其他的数据挖掘问题,例如稀疏数据的分类问题。因子分解机可以利用有限的非0元,挖掘属性值之间的隐含关系,并且具有线性的时间复杂度,相比基于距离方法的二次复杂度,具有明显的优势。要衡量属性值之间的关系,至少需要二阶的因子分解机模型,具体为:
其中g是全局参数;b1,...,bd是特定属性参数;是属性值xi和xj的隐含关系权重,其中是一个k维的向量,y(x)是预测值。因子分解机挖掘属性值之间隐含关系的原理主要是:采用因子分解的思想,将两个属性值之间的关系权重用两个k维向量的乘积来表示,即每个属性值都有一个k维向量参数,当两个属性值不同时出现时,它们也会有一定的关系,从而得到属性值之间的隐含关系。
为了将因子分解机方法应用到稀疏数据异常检测上,并且使得方法能够应用到多种数据类型上,本发明实施例首先对不同类型的原始数据进行特征处理,转换成统一的稀疏数据格式,然后采用无监督形式的因子分解机对稀疏数据进行建模,从而有效检测数据中的异常。
图1为本发明实施例的稀疏数据异常检测方法的流程示意图一,如图1所示,所述稀疏数据异常检测方法包括以下步骤:
步骤101:对不同类型的原始数据进行特征处理,以将所述不同类型的原始数据转换成统一格式的稀疏数据。
具体地,分别对拥有“大域”属性的分类型数据、短文本数据以及数值型数据进行不同的特征处理,得到n行d列的数据集其中
进一步,针对所述拥有“大域”属性的分类型数据,对每个分类型属性中的每个值创建一个二值属性,所述二值属性的值是0或1;其中,如果一个数据对象中包含所述二值属性,则该数据对象对应于所述二值属性上的值为1,否则为0;
针对所述短文本数据,为每个不同的关键词创建一个属性;其中,如果一个文本包含r个关键词,则在每个关键词属性上的值为在其他词属性上的值为0;
针对所述数值型数据,对原始数据集中每个属性i执行以下操作:计算平均值ui和标准差σi,将范围(uii,uii)平分成Φ个区间;为每个区间创建一个属性,如果一个数据对象第i个属性的值位于其中的一个区间,则该区间的属性值为1,否则为0;如果一个数据对象第i个属性的值xi小于uii,则创建一个属性,其属性值为|xi-(uii)|/σi;如果xi大于uii,则创建一个属性,其属性值为|xi-(uii)|/σi;其中,Φ的值根据原始数据集的大小设定。
步骤102:采用因子分解机对所述稀疏数据进行建模,得到非线性流形模型。
具体地,采用因子分解机对所述数据集进行建模,使所述数据集位于非线性流形上,得到的非线性流形模型为:
其中,g是全局参数;b1,...,bd是特定属性参数;是属性值zpi和zpj的隐含关系权重,其中是一个k维向量。
步骤103:根据所述非线性流形模型,计算数据对象的异常值得分。
具体地,根据所述非线性流形模型,计算数据对象的异常值得分为:
其中,对于文本数据,LQ(Zp)等于所有文本的平均单词个数除以该文本的单词个数;而对于分类型数据和数值型数据,LQ(Zp)等于1。
上述方案中,所述非线性流形模型中的参数g,bi,的值通过最小化所有数据对象的均方误差得到,其中,最小化对应的优化目标函数为:
其中,是正则化项,Θ是包含所有参数的参数空间,θ是参数空间中任意一个参数,λθ是参数θ的正则化参数值。这里,由于目标是最小化各数据对象的均方误差,因此当所有参数都为0时会产生平凡解,但由于模型是一个非凸优化问题,通常会得到一个非平凡的局部最优解。
步骤104:根据所述数据对象的异常值得分,判定所述数据对象是否为异常数据。
图2为本发明实施例的稀疏数据异常检测方法的流程示意图二,如图2所示,所述稀疏数据异常检测方法包括以下步骤:
步骤201:分别对拥有“大域”属性的分类型数据、短文本数据以及数值型数据进行不同的特征预处理,得到n行d列的数据集:其中
针对每种数据类型的特征预处理的具体方法如下:
(1)拥有“大域”属性的分类型数据的特征预处理:对每个分类型属性中的每个值创建一个二值属性,这个属性的值是0或1,当一个数据对象中包含这个属性时,则该数据对象在该属性上的值为1,否则为0。因此,转换后的数据集的维度是原始数据集中不同属性值个数,而其中的非0元个数等于原始数据集大小。
(2)短文本数据的特征预处理:为每个不同的关键词创建一个属性,因此,数据集的维度就是不同关键词个数。当一个文本包含r个关键词,则在每个关键词属性上的值为在其他关键词属性上的值为0。
(3)数值型数据的特征预处理:对原始数据集中每个属性i执行以下操作:计算平均值ui和标准差σi,将范围(uii,uii)平分成Φ个区间,为每个区间创建一个属性,如果一个数据对象第i个属性的值位于其中的某个区间,则该区间的属性值为1,否则为0;当一个数据对象第i个属性的值xi小于uii,则为其单独创建一个属性,属性值为|xi-(uii)|/σi,类似的,当xi大于uii,创建新的属性,其值为|xi-(uii)|/σi。因此,对原始数据集中的每个属性最多创建了Φ+2个属性,而其中的非0元个数等于原始数据集大小。其中,Φ的值根据数据集的大小设定,当数据集大于1000个数据对象时,Φ=100,否则,n是数据对象总数。
步骤202:采用因子分解机进行建模。
具体地,对步骤201中特征预处理后的数据集建模,使之位于一个非线性流形上。非线性流形模型为:
其中g是全局参数;b1,...,bd是特定属性参数;是属性值zpi和zpj的隐含关系权重,其中是一个k维的向量。
步骤203:根据非线性流形模型,计算数据对象的异常值得分。
数据对象的异常值得分为:
异常值得分更大,说明该数据对象更有可能是一个异常数据对象。这里,引入LQ(Zp)是为了解决文本数据中因不同文本包含的单词个数不同而引起的问题,因此对于文本数据,LQ(Zp)等于所有文本的平均单词个数除以该文本的单词个数,而对于分类型数据和数值型数据,LQ(Zp)等于1。
上述方案中,基于因子分解机的异常检测模型中参数的学习具体方法如下:
模型中的参数g,bi,的值通过最小化所有数据对象的均方误差得到,优化目标函数为:
其中,是正则化项,是为了防止模型参数过多而造成的过拟合。Θ是包含所有参数的参数空间,θ是参数空间中任意一个参数,λθ是参数θ的正则化参数值,在一实施方式中,对不同的参数采用统一的值λ。这里,由于目标是最小化各数据对象的均方误差,因此当所有参数都为0时会产生平凡解,但由于模型是一个非凸优化问题,通常会得到一个非平凡的局部最优解。
模型中参数的学习采用随机梯度下降方法,首先将参数初始化到(0,1)区间,然后在每次迭代中,随机选取一个数据对象,据此更新参数:
其中关于参数θ的梯度,具体计算方式如下:
由于数据对象的稀疏性,对每个选取的数据对象,不需要更新全部的参数,只有当zpi不为0时,才需要更新相应的bi和vi。这对于提高稀疏数据的计算效率具有重要意义。
a是学习率,合适的学习率对方法的收敛具有重要意义。过大的a会引起目标函数的震荡,而过小的a会使得收敛过慢。本发明采用AdaGrad,一种自适应的学习率,在每次迭代时,自动调整参数的学习率。本发明实施例只需要设置一个初始的a。
图3为本发明实施例的稀疏数据异常检测方法的流程示意图三,如图3所示,所述稀疏数据异常检测方法包括以下步骤:
步骤301:特征预处理,得到统一格式的数据集。
该步骤可参照上述步骤201进行理解。
步骤302:将数据集随机平均分成两份D1,D2。
这里,平均分成两份相当于2折交叉验证过程,是为了防止训练的过拟合。
步骤303:选择D1用于构建模型,学习参数(参照步骤202),对D2中的数据对象计算异常得分(参照步骤203);选择D2用于构建模型,学习参数(参照步骤202),对D1中的数据对象计算异常得分(参照步骤203)。
上述过程重复t次,这个过程会对每个数据对象产生t个不同的异常得分,可以取得分的和/平均值作为每个数据对象的最后异常得分。
这里,重复t次的原因是为了提高方法的鲁棒性,t默认取5。
上述方案中,需要设置的参数包括参数v的维度k,初始学习率a以及正则化参数λ,对于不同类型的数据设置不同的默认参数,具体如下:
拥有“大域”属性的分类型数据:a=0.01,k=50,λ=1;
短文本数据:a=0.1,k=50,λ=0.2;
数值型数据:a=0.01,k=50,λ=0.2。
图4为本发明实施例的稀疏数据异常检测装置的结构组成示意图,如图4所示,所述装置包括:
预处理模块401,用于对不同类型的原始数据进行特征处理,以将所述不同类型的原始数据转换成统一格式的稀疏数据;
建模模块402,用于采用因子分解机对所述稀疏数据进行建模,得到非线性流形模型;
处理模块403,用于根据所述非线性流形模型,计算数据对象的异常值得分;
判定模块404,用于根据所述数据对象的异常值得分,判定所述数据对象是否为异常数据。
本发明实施例中,所述预处理模块401,具体用于分别对拥有“大域”属性的分类型数据、短文本数据以及数值型数据进行不同的特征处理,得到n行d列的数据集其中
本发明实施例中,所述建模模块402,具体用于采用因子分解机对所述数据集进行建模,使所述数据集位于非线性流形上,得到的非线性流形模型为:
其中,g是全局参数;b1,...,bd是特定属性参数;是属性值zpi和zpj的隐含关系权重,其中是一个k维向量。
本发明实施例中,所述处理模块403,具体用于根据所述非线性流形模型,计算数据对象的异常值得分为:
其中,对于文本数据,LQ(Zp)等于所有文本的平均单词个数除以该文本的单词个数;而对于分类型数据和数值型数据,LQ(Zp)等于1。
本发明实施例中,所述预处理模块401,具体用于:
针对所述拥有“大域”属性的分类型数据,对每个分类型属性中的每个值创建一个二值属性,所述二值属性的值是0或1;其中,如果一个数据对象中包含所述二值属性,则该数据对象对应于所述二值属性上的值为1,否则为0;
针对所述短文本数据,为每个不同的关键词创建一个属性;其中,如果一个文本包含r个关键词,则在每个关键词属性上的值为在其他词属性上的值为0;
针对所述数值型数据,对原始数据集中每个属性i执行以下操作:计算平均值ui和标准差σi,将范围(uii,uii)平分成Φ个区间;为每个区间创建一个属性,如果一个数据对象第i个属性的值位于其中的一个区间,则该区间的属性值为1,否则为0;如果一个数据对象第i个属性的值xi小于uii,则创建一个属性,其属性值为|xi-(uii)|/σi;如果xi大于uii,则创建一个属性,其属性值为|xi-(uii)|/σi;其中,Φ的值根据原始数据集的大小设定。
本发明实施例中,所述非线性流形模型中的参数g,bi,的值通过最小化所有数据对象的均方误差得到,其中,最小化对应的优化目标函数为:
其中,是正则化项,Θ是包含所有参数的参数空间,θ是参数空间中任意一个参数,λθ是参数θ的正则化参数值。这里,由于目标是最小化各数据对象的均方误差,因此当所有参数都为0时会产生平凡解,但由于模型是一个非凸优化问题,通常会得到一个非平凡的局部最优解。
本领域技术人员应当理解,上述稀疏数据异常检测装置中各个模块的功能可参照签署稀疏数据异常检测方法的描述进行理解。
本发明实施例上述稀疏数据异常检测装置如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
相应地,本发明实施例还提供一种计算机存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本发明实施例的上述稀疏数据异常检测方法。
图5为本发明实施例的计算机设备的结构组成示意图,如图5所示,所述计算机设备包括存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机可执行指令,所述处理器502执行所述计算机可执行指令时实现如下方法步骤:
对不同类型的原始数据进行特征处理,以将所述不同类型的原始数据转换成统一格式的稀疏数据;
采用因子分解机对所述稀疏数据进行建模,得到非线性流形模型;
根据所述非线性流形模型,计算数据对象的异常值得分;
根据所述数据对象的异常值得分,判定所述数据对象是否为异常数据。
以上涉及计算机设备的描述,与上述方法描述是类似的,同方法的有益效果描述,不做赘述。
本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
在本发明所提供的几个实施例中,应该理解到,所揭露的方法和智能设备,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个第二处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种稀疏数据异常检测方法,其特征在于,所述方法包括:
对不同类型的原始数据进行特征处理,以将所述不同类型的原始数据转换成统一格式的稀疏数据;
采用因子分解机对所述稀疏数据进行建模,得到非线性流形模型;
根据所述非线性流形模型,计算数据对象的异常值得分;
根据所述数据对象的异常值得分,判定所述数据对象是否为异常数据。
2.根据权利要求1所述的稀疏数据异常检测方法,其特征在于,所述对不同类型的原始数据进行特征处理,以将所述不同类型的原始数据转换成统一格式的稀疏数据,包括:
分别对分类型数据、短文本数据以及数值型数据进行不同的特征处理,得到n行d列的数据集其中
3.根据权利要求2所述的稀疏数据异常检测方法,其特征在于,所述采用因子分解机对所述稀疏数据进行建模,得到非线性流形模型,包括:
采用因子分解机对所述数据集进行建模,使所述数据集位于非线性流形上,得到的非线性流形模型为:
<mrow> <mi>g</mi> <mo>+</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <msub> <mi>b</mi> <mi>i</mi> </msub> <msub> <mi>z</mi> <mrow> <mi>p</mi> <mi>i</mi> </mrow> </msub> <mo>+</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <mrow> <mo>(</mo> <msub> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>&amp;CenterDot;</mo> <msub> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mi>j</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>z</mi> <mrow> <mi>p</mi> <mi>i</mi> </mrow> </msub> <msub> <mi>z</mi> <mrow> <mi>p</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mn>0</mn> </mrow>
其中,g是全局参数;b1,...,bd是特定属性参数;是属性值zpi和zpj的隐含关系权重,其中是一个k维向量。
4.根据权利要求3所述的稀疏数据异常检测方法,其特征在于,所述根据所述非线性流形模型,计算数据对象的异常值得分,包括
根据所述非线性流形模型,计算数据对象的异常值得分为:
<mrow> <mi>O</mi> <mrow> <mo>(</mo> <mover> <msub> <mi>Z</mi> <mi>p</mi> </msub> <mo>&amp;OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <mi>L</mi> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>Z</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mi>g</mi> <mo>+</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <msub> <mi>b</mi> <mi>i</mi> </msub> <msub> <mi>z</mi> <mrow> <mi>p</mi> <mi>i</mi> </mrow> </msub> <mo>+</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <mrow> <mo>(</mo> <msub> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>&amp;CenterDot;</mo> <msub> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mi>j</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>z</mi> <mrow> <mi>p</mi> <mi>i</mi> </mrow> </msub> <msub> <mi>z</mi> <mrow> <mi>p</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> </mrow>
其中,对于文本数据,LQ(Zp)等于所有文本的平均单词个数除以该文本的单词个数;而对于分类型数据和数值型数据,LQ(Zp)等于1。
5.根据权利要求2所述的稀疏数据异常检测方法,其特征在于,所述分别对分类型数据、短文本数据以及数值型数据进行不同的特征处理,包括:
针对所述分类型数据,对每个分类型属性中的每个值创建一个二值属性,所述二值属性的值是0或1;其中,如果一个数据对象中包含所述二值属性,则该数据对象对应于所述二值属性上的值为1,否则为0;
针对所述短文本数据,为每个不同的关键词创建一个属性;其中,如果一个文本包含r个关键词,则在每个关键词属性上的值为在其他词属性上的值为0;
针对所述数值型数据,对原始数据集中每个属性i执行以下操作:计算平均值ui和标准差σi,将范围(uii,uii)平分成Φ个区间;为每个区间创建一个属性,如果一个数据对象第i个属性的值位于其中的一个区间,则该区间的属性值为1,否则为0;如果一个数据对象第i个属性的值xi小于uii,则创建一个属性,其属性值为|xi-(uii)|/σi;如果xi大于uii,则创建一个属性,其属性值为|xi-(uii)|/σi;其中,Φ的值根据原始数据集的大小设定。
6.根据权利要求3所述的稀疏数据异常检测方法,其特征在于,所述非线性流形模型中的参数g,bi,的值通过最小化所有数据对象的均方误差得到,其中,最小化对应的优化目标函数为:
<mrow> <mi>M</mi> <mi>i</mi> <mi>n</mi> <mi>i</mi> <mi>m</mi> <mi>i</mi> <mi>z</mi> <mi>e</mi> <mi> </mi> <mi>J</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>O</mi> <msup> <mrow> <mo>(</mo> <mover> <msub> <mi>Z</mi> <mi>p</mi> </msub> <mo>&amp;OverBar;</mo> </mover> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>&amp;theta;</mi> <mo>&amp;Element;</mo> <mi>&amp;Theta;</mi> </mrow> </munder> <msub> <mi>&amp;lambda;</mi> <mi>&amp;theta;</mi> </msub> <msup> <mi>&amp;theta;</mi> <mn>2</mn> </msup> </mrow>
<mrow> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>&amp;theta;</mi> <mo>&amp;Element;</mo> <mi>&amp;Theta;</mi> </mrow> </munder> <msub> <mi>&amp;lambda;</mi> <mi>&amp;theta;</mi> </msub> <msup> <mi>&amp;theta;</mi> <mn>2</mn> </msup> <mo>=</mo> <msub> <mi>&amp;lambda;</mi> <mi>g</mi> </msub> <msup> <mi>g</mi> <mn>2</mn> </msup> <mo>+</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <msub> <mi>&amp;lambda;</mi> <msub> <mi>b</mi> <mi>i</mi> </msub> </msub> <msup> <msub> <mi>b</mi> <mi>i</mi> </msub> <mn>2</mn> </msup> <mo>+</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>&amp;lambda;</mi> <msub> <mi>v</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </msub> <msubsup> <mi>v</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> </mrow>
其中,是正则化项,Θ是包含所有参数的参数空间,θ是参数空间中任意一个参数,λθ是参数θ的正则化参数值。
7.一种稀疏数据异常检测装置,其特征在于,所述装置包括:
预处理模块,用于对不同类型的原始数据进行特征处理,以将所述不同类型的原始数据转换成统一格式的稀疏数据;
建模模块,用于采用因子分解机对所述稀疏数据进行建模,得到非线性流形模型;
处理模块,用于根据所述非线性流形模型,计算数据对象的异常值得分;
判定模块,用于根据所述数据对象的异常值得分,判定所述数据对象是否为异常数据。
8.根据权利要求7所述的稀疏数据异常检测装置,其特征在于,所述预处理模块,具体用于分别对分类型数据、短文本数据以及数值型数据进行不同的特征处理,得到n行d列的数据集其中
9.根据权利要求8所述的稀疏数据异常检测装置,其特征在于,所述建模模块,具体用于采用因子分解机对所述数据集进行建模,使所述数据集位于非线性流形上,得到的非线性流形模型为:
<mrow> <mi>g</mi> <mo>+</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <msub> <mi>b</mi> <mi>i</mi> </msub> <msub> <mi>z</mi> <mrow> <mi>p</mi> <mi>i</mi> </mrow> </msub> <mo>+</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <mrow> <mo>(</mo> <msub> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>&amp;CenterDot;</mo> <msub> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mi>j</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>z</mi> <mrow> <mi>p</mi> <mi>i</mi> </mrow> </msub> <msub> <mi>z</mi> <mrow> <mi>p</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mn>0</mn> </mrow>
其中,g是全局参数;b1,...,bd是特定属性参数;是属性值zpi和zpj的隐含关系权重,其中是一个k维向量。
10.根据权利要求9所述的稀疏数据异常检测装置,其特征在于,所述处理模块,具体用于根据所述非线性流形模型,计算数据对象的异常值得分为:
<mrow> <mi>O</mi> <mrow> <mo>(</mo> <mover> <msub> <mi>Z</mi> <mi>p</mi> </msub> <mo>&amp;OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <mi>L</mi> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>Z</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mi>g</mi> <mo>+</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <msub> <mi>b</mi> <mi>i</mi> </msub> <msub> <mi>z</mi> <mrow> <mi>p</mi> <mi>i</mi> </mrow> </msub> <mo>+</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <mrow> <mo>(</mo> <msub> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>&amp;CenterDot;</mo> <msub> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mi>j</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>z</mi> <mrow> <mi>p</mi> <mi>i</mi> </mrow> </msub> <msub> <mi>z</mi> <mrow> <mi>p</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> </mrow>
其中,对于文本数据,LQ(Zp)等于所有文本的平均单词个数除以该文本的单词个数;而对于分类型数据和数值型数据,LQ(Zp)等于1。
CN201710508648.3A 2017-06-28 2017-06-28 一种稀疏数据异常检测方法及装置 Active CN107391443B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710508648.3A CN107391443B (zh) 2017-06-28 2017-06-28 一种稀疏数据异常检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710508648.3A CN107391443B (zh) 2017-06-28 2017-06-28 一种稀疏数据异常检测方法及装置

Publications (2)

Publication Number Publication Date
CN107391443A true CN107391443A (zh) 2017-11-24
CN107391443B CN107391443B (zh) 2020-12-25

Family

ID=60333922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710508648.3A Active CN107391443B (zh) 2017-06-28 2017-06-28 一种稀疏数据异常检测方法及装置

Country Status (1)

Country Link
CN (1) CN107391443B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657947A (zh) * 2018-12-06 2019-04-19 西安交通大学 一种面向企业行业分类的异常检测方法
CN110782327A (zh) * 2018-07-12 2020-02-11 阿里巴巴集团控股有限公司 一种异常信息发现方法、装置及设备
CN112131388A (zh) * 2020-09-28 2020-12-25 范馨月 一种包含文本型数据类型的异常数据检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009105299A2 (en) * 2008-02-20 2009-08-27 Panasonic Corporation System architecture and process for seamless adaptation to context aware behavior models
US7739082B2 (en) * 2006-06-08 2010-06-15 Battelle Memorial Institute System and method for anomaly detection
JP2013246818A (ja) * 2012-05-24 2013-12-09 Mitsubishi Electric Corp 時系列データ内のアノマリを検出するための方法
US20150127595A1 (en) * 2013-11-01 2015-05-07 Numenta, Inc. Modeling and detection of anomaly based on prediction
CN104915568A (zh) * 2015-06-24 2015-09-16 哈尔滨工业大学 基于dtw的卫星遥测数据异常检测方法
CN106778904A (zh) * 2017-01-10 2017-05-31 上海鲲云信息科技有限公司 一种数据异常检测方法、系统及具有该系统的服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7739082B2 (en) * 2006-06-08 2010-06-15 Battelle Memorial Institute System and method for anomaly detection
WO2009105299A2 (en) * 2008-02-20 2009-08-27 Panasonic Corporation System architecture and process for seamless adaptation to context aware behavior models
JP2013246818A (ja) * 2012-05-24 2013-12-09 Mitsubishi Electric Corp 時系列データ内のアノマリを検出するための方法
US20150127595A1 (en) * 2013-11-01 2015-05-07 Numenta, Inc. Modeling and detection of anomaly based on prediction
CN104915568A (zh) * 2015-06-24 2015-09-16 哈尔滨工业大学 基于dtw的卫星遥测数据异常检测方法
CN106778904A (zh) * 2017-01-10 2017-05-31 上海鲲云信息科技有限公司 一种数据异常检测方法、系统及具有该系统的服务器

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
VARUN CHANDOLA等: "Anomaly Detection: A Survey", 《ACM》 *
叶青等: "复杂数据的异常检测算法", 《信息技术》 *
孟祥武等: "社会化推荐系统研究", 《软件学报》 *
楼磊磊: "医疗保险数据异常行为检测算法和系统", 《中国优秀硕士学位论文全文数据库-信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782327A (zh) * 2018-07-12 2020-02-11 阿里巴巴集团控股有限公司 一种异常信息发现方法、装置及设备
CN110782327B (zh) * 2018-07-12 2023-06-30 阿里巴巴集团控股有限公司 一种异常信息发现方法、装置及设备
CN109657947A (zh) * 2018-12-06 2019-04-19 西安交通大学 一种面向企业行业分类的异常检测方法
CN112131388A (zh) * 2020-09-28 2020-12-25 范馨月 一种包含文本型数据类型的异常数据检测方法
CN112131388B (zh) * 2020-09-28 2024-02-06 范馨月 一种包含文本型数据类型的异常数据检测方法

Also Published As

Publication number Publication date
CN107391443B (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
MacDonald et al. GPfit: An R package for fitting a Gaussian process model to deterministic simulator outputs
Li et al. Optimizing generalized pagerank methods for seed-expansion community detection
Washio et al. State of the art of graph-based data mining
Baraldi et al. Bagged ensemble of Fuzzy C-Means classifiers for nuclear transient identification
Liu et al. A new dynamic security assessment framework based on semi-supervised learning and data editing
Silva et al. Word sense disambiguation via high order of learning in complex networks
Sun et al. Long-term spectrum state prediction: An image inference perspective
Duan et al. Root cause analysis approach based on reverse cascading decomposition in QFD and fuzzy weight ARM for quality accidents
CN107391443A (zh) 一种稀疏数据异常检测方法及装置
Zhang et al. Concurrent analysis of variable correlation and data distribution for monitoring large-scale processes under varying operation conditions
Pei et al. The real‐time state identification of the electricity‐heat system based on Borderline‐SMOTE and XGBoost
Wang et al. An improved clustering method for detection system of public security events based on genetic algorithm and semisupervised learning
Cafaro The information geometry of chaos
Abbas et al. A module-based approach for structural matching of process models
Zhang et al. Sparse graph transformer with contrastive learning
Xiao et al. Prediction algorithm of collaborative innovation capability of high-end equipment manufacturing enterprises based on random forest
Stefanovic et al. Investigation on learning parameters of self-organizing maps
Calderhead et al. Sparse approximate manifolds for differential geometric mcmc
Maes et al. Simulated iterative classification a new learning procedure for graph labeling
Dhal et al. A fine-tuning deep learning with multi-objective-based feature selection approach for the classification of text
Li et al. A dynamic community detection algorithm based on parallel incremental related vertices
US20230385615A1 (en) Normalization scheme for self-attention neural networks
Zhuang et al. Dynamic generative residual graph convolutional neural networks for electricity theft detection
Wang et al. Sparse Dictionary Learning for Transient Stability Assessment
Wang et al. Self-Supervised Community Detection Algorithm Based on Node Feature Convolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant