CN113723550A - 基于超图的同时优化代价与误检率的异常检测方法及系统 - Google Patents

基于超图的同时优化代价与误检率的异常检测方法及系统 Download PDF

Info

Publication number
CN113723550A
CN113723550A CN202111039868.9A CN202111039868A CN113723550A CN 113723550 A CN113723550 A CN 113723550A CN 202111039868 A CN202111039868 A CN 202111039868A CN 113723550 A CN113723550 A CN 113723550A
Authority
CN
China
Prior art keywords
data
hypergraph
edge
vertex
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111039868.9A
Other languages
English (en)
Other versions
CN113723550B (zh
Inventor
周运贤
吕燕
蒋风浪
叶思迪
胡重阳
赵曦滨
邱俣涵
易大勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Hengqin Bringbuys Network Technology Co ltd
Tsinghua University
Original Assignee
Zhuhai Hengqin Bringbuys Network Technology Co ltd
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Hengqin Bringbuys Network Technology Co ltd, Tsinghua University filed Critical Zhuhai Hengqin Bringbuys Network Technology Co ltd
Priority to CN202111039868.9A priority Critical patent/CN113723550B/zh
Publication of CN113723550A publication Critical patent/CN113723550A/zh
Application granted granted Critical
Publication of CN113723550B publication Critical patent/CN113723550B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于超图的同时优化代价与误检率的异常检测方法及系统,该方法包括构建超图结构,和优化的超图结构并得到用于分类的映射向量;构建超图结构包括:获取数据样例,将数据样例分为标记数据和无标记数据;通过图G(V,E,w)表示标记数据和无标记数据中数据之间的关系,每次从顶点集合中选择一个顶点,将顶点作为中心点;获取中心点最近的K个顶点,通过一条超边将中心点与最近的K个顶点连接起来,并分别计算最近的K个顶点中的顶点与超边的关联概率,其中K为正整数;以及当图G中所有的顶点均得到与超边的关联概率,完成超图结构的构建,解决现有技术中的超图学习,同时优化代价与错误从而降低误检率的技术问题。

Description

基于超图的同时优化代价与误检率的异常检测方法及系统
技术领域
本发明涉及超图学习技术领域,尤其涉及一种基于超图的同时优化代价与误检率的异常检测方法及系统。
背景技术
一、普通的超图学习算法
工业环境中存在的标签数据较少且存在正常数据和异常数据严重不平衡的问题,我们希望算法能尽可能地找出数量较少的异常数据。而在普通的超图学习中目标是优化总的错误率,所以会偏向于对数量较多的正常数据进行信息获取,导致对正常数据识别效果好而对异常数据识别能力差。
二、代价敏感的超图学习算法
代价敏感的超图算法以最小化总代价为目的,可以在优化代价上取得很好的效果,更好地分辨出异常数据。但是代价敏感的算法在检测过程中过度关注异常数据的检测则可能导致过多的正常数据被错误的分类,导致异常检测系统频繁告警,影响正常的工业生产。
三、平衡代价与错误的软代价敏感方法
目前的软代价敏感方法没有被应用到超图算法上,只被应用在了代价敏感的支持向量机上。而支持向量机算法不能像超图一样捕捉到工业数据中的高阶关联,无法准确表示复杂的工业数据蕴含的信息。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于超图的同时优化代价与误检率的异常检测方法,以实现在超图学习的过程中,同时优化数据之间的关联、分类产生的总代价与分类的错误来达到同时优化代价与错误从而降低误检率的效果。
本发明的第二个目的在于提出一种计算机设备。
为达上述目的,本发明第一方面实施例提出了一种基于超图的同时优化代价与误检率的异常检测方法,包括:
构建超图结构,和优化所述的超图结构并得到用于分类的映射向量;其中,
所述构建超图结构,包括以下步骤:
步骤S10,获取数据样例,将所述数据样例分为标记数据和无标记数据,所述标记数据包括正常数据和异常数据;
步骤S11,通过图G(V,E,w)表示所述标记数据和所述无标记数据中数据之间的关系,其中,V表示顶点集合,E表示超边集合,超边表示数据之间的关系,w表示超边权重;
步骤S12,每次从所述顶点集合中选择一个顶点,将所述顶点作为中心点;
步骤S13,获取所述中心点最近的K个顶点,通过一条超边将所述中心点与所述最近的K个顶点连接起来,并分别计算所述最近的K个顶点中的顶点与所述超边的关联概率,其中K为正整数;以及
步骤S14,当所述图G(V,E,w)中所有的顶点均完成所述步骤S13后,完成所述超图结构的构建。
在本发明实施例的一种基于超图的同时优化代价与误检率的异常检测方法,通过先构建超图结构再对超图结构进行优化来完成,其中构建超图结构是通过对大量数据进行分类,所述大量数据包括大量无标记数据和少量标记数据,所述少量标记数据包括正常数据和异常数据,且所述正常数据和异常数据不平衡;再通过对所述少量标记数据与所述大量无标记数据进行训练,用超图结构来表示数据之间的关系,以发掘数据之间的高阶关联,并根据数据的重要程度给每类数据赋予不同的代价,用代价表示类别的重要性;并在所述超图结构训练的过程中,同时优化数据之间的关联、分类总代价与分类正确率;而对超图结构进行优化,有四个需要优化的部分,分别是超图拉普拉斯正则项Ω(ω),代价敏感分类的经验误差RCS(ω),传统分类的经验误差Rerror(ω)和用于优化超图结构的正则项Ξ(W)。本发明实施例的一种基于超图的同时优化代价与误检率的异常检测方法利用少量标记数据与大量无标记数据进行训练,用超图结构来表示数据之间的关系,以发掘数据之间的高阶关联。根据数据的重要程度给每类数据赋予不同的代价,用代价表示类别的重要性。在超图学习的过程中,同时优化数据之间的关联、分类产生的总代价与分类的错误来达到同时优化代价与错误从而降低误检率的效果。
在本发明实施例中,所述数据样例包括测试样例或训练样例,其中,所述顶点集合中的顶点表示测试样例或训练样例中的一个数据。
在本发明实施例中,所述超图结构通过|V|×|E|大小的矩阵H表示,Hij表示顶点vi和超边ep之间的关联概率,其中,
若权重w=0,则所述顶点vi和所述超边ep之间的关联概率为0;
若权重w>0,则通过下述公式计算所述顶点vi和所述超边ep之间的关联概率:
Figure BDA0003248861320000031
其中,其中
Figure BDA0003248861320000032
为数据集中所有点对的平均距离,d(vi,vcentral)为vi与中心点之间的距离,α为需要调整的超参数。
在本发明实施例中,在所述步骤S14中,超边数量与顶点数量相同时,完成所述超图结构的构建,其中,所述超图结构通过下述矩阵表示:
Figure BDA0003248861320000033
其中,其中
Figure BDA0003248861320000034
为数据集中所有点对的平均距离,d(vi,vcentral)为vi与中心点之间的距离,α为需要调整的超参数,H(i,p)为vi和ep的矩阵,ep为E中的超边。
在本发明实施例中,优化所述的超图结构并得到用于分类的映射向量,包括以下步骤:
步骤S20,获取所述图G(V,E,w)中的顶点数量NV和超边数量NE
步骤S21,用大小为NV×NE的对角矩阵γ表示不同数据分类的代价,γi,i表示第i个数据分类错误的代价,其中,
对于所述正常数据,γi,i=1;
对于所述异常数据,γi,i>1;
对于测试数据,γi,i=0;
步骤S22,根据步骤S21优化所述超图结构并得到用于分类的映射向量。
在本发明实施例中,在所述步骤S22中,分别对超图拉普拉斯正则项,代价敏感分类的经验误差,传统分类的经验误差和用于优化超图结构的正则项进行优化。
在本发明实施例中,在所述步骤S22中,
通过下述公式对所述超图拉普拉斯正则项进行优化:
Figure BDA0003248861320000041
其中,Δ为超图拉普拉斯,Ω(ω)为超图拉普拉斯正则项,ω为用于分类的映射向量,W(e)为超边e的权重,H(vi,e)为vi与超边e关联的概率,H(vj,e)为vj与超边e关联的概率,δ(e)为超边e的度,xi为第i条数据的特征向量,xj为第j条数据的特征向量,vi为第i条数据对应的顶点,vj为第j条数据对应的顶点,d(vi)为顶点vi的度,d(vj)为顶点vj的度,X为所有数据的特征向量构成的矩阵,
Figure BDA0003248861320000042
为所有顶点的度开根号取倒数的值构成的对角矩阵,即其对角线上的元素为
Figure BDA0003248861320000043
为表示超图结构的关联矩阵,W为超边权重w构成的对角矩阵,
Figure BDA0003248861320000044
为所有超边的度取倒数的值构成的对角矩阵,即其对角线上的元素为
Figure BDA0003248861320000045
HT为超图关联矩阵H的转置。
通过下述公式对所述代价敏感分类的经验误差和所述传统分类的经验误差同时进行优化:
Figure BDA0003248861320000046
其中,Remp(ω)为平衡代价与错误率后的经验误差,RCS(ω)为代价敏感分类的经验误差,β为权衡代价与错误率的超参数,Rerror(ω)为传统分类的经验误差,Nv为顶点数量,γi,i为第i个数据分类错误的代价,yi为第i条数据的类别,y为所有数据的类别构成的向量。通过下述目标公式对用于优化超图结构的正则项进行优化:
Figure BDA0003248861320000047
Figure BDA0003248861320000051
其中,Λ为平衡代价与错误率后的代价矩阵,μ为调整超图拉普拉斯正则项重要性的超参数,λ为调整超图结构正则项重要性的超参数,NE为超边数量,Wj,j为超边权重矩阵W对角线上的第j个元素,s.t.为subject to的简写,表明其后面的式子是需要满足的约束条件。
在本发明实施例中,在所述步骤S22中,采用交替优化的方法求解用于优化超图结构的正则项的公式,所述交替优化的方法包括以下步骤:
步骤S220,固定W,对ω进行优化,对所述用于优化超图结构的正则项进行优化的目标公式重写为:
Figure BDA0003248861320000052
将上式中的目标公式对w求偏导,令偏导等于0,即,
Figure BDA0003248861320000053
解得:
ω=(XTΛ2X+μXTΔX)-1(XTΛy)
步骤S221,固定ω优化超边权重矩阵W,将目标公式重写为:
Figure BDA0003248861320000054
Figure BDA0003248861320000055
采用拉格朗日乘子法将上式将上式目标公式转化为:
Figure BDA0003248861320000056
解得:
Figure BDA0003248861320000057
Figure BDA0003248861320000058
其中
Figure BDA0003248861320000059
I为NE×NE的单位矩阵;
步骤S222,交替执行所述步骤S220和所述步骤S221,满足预设次数时停止执行,得到所述用于分类的映射向量。
在本发明实施例中,所述的异常检测方法将所有测试数据的特征向量通过所述映射向量映射到一个一维空间,通过下述公式进行映射:
ζ=xiω
其中,ζ用来判断数据是否异常的标准;
若ζ>0,则所述测试数据为异常数据,分配至正例中;
否则,所述测试数据为正常数据。
为达上述目的,本发明第二方面实施例提出了一种基于超图的同时优化代价与误检率的异常检测系统,其特征在于,包括:
构建模块,所述构建模块用于构建超图结构;
优化模块,用于优化所述的超图结构并得到用于分类的映射向量;其中,
所述构建模块具体用于:获取数据样例,将所述数据样例分为标记数据和无标记数据,所述标记数据包括正常数据和异常数据;通过图G(V,E,w)表示所述标记数据和所述无标记数据中数据之间的关系,其中,V表示顶点集合,E表示超边集合,超边表示数据之间的关系,w表示超边权重;每次从所述顶点集合中选择一个顶点,将所述顶点作为中心点;获取所述中心点最近的K个顶点,通过一条超边将所述中心点与所述最近的K个顶点连接起来,并分别计算所述最近的K个顶点中的顶点与所述超边的关联概率,其中K为正整数;以及当所述图G(V,E,w)中所有的顶点均完成所述步骤S13后,完成所述超图结构的构建。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例所提供的一种基于超图的同时优化代价与误检率的异常检测方法的构建超图结构流程示意图;
图2为本申请实施例所提供的本算法与传统超图分类、代价敏感超图分类的类比图;
图3为本申请实施例所提供的一种基于超图的同时优化代价与误检率的异常检测方法的流程示意图;以及
图4为本申请实施例所提供的构建本申请的超图结构的示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本申请实施例的一种基于超图的同时优化代价与误检率的异常检测方法。
图1为本申请实施例所提供的一种基于超图的同时优化代价与误检率的异常检测方法的流程示意图。
针对这一问题,本申请实施例提供了一种基于超图的同时优化代价与误检率的异常检测方法,以实现在超图学习的过程中,同时优化数据之间的关联、分类产生的总代价与分类的错误来达到同时优化代价与错误从而降低误检率的效果,如图1所示,该方法包括以下步骤:
构建超图结构,和优化的超图结构并得到用于分类的映射向量;其中,
构建超图结构,包括以下步骤:
步骤S10,获取数据样例,将数据样例分为标记数据和无标记数据,标记数据包括正常数据和异常数据;
步骤S11,通过图G(V,E,w)表示标记数据和无标记数据中数据之间的关系,其中,V表示顶点集合,E表示超边集合,超边表示数据之间的关系,w表示超边权重;
步骤S12,每次从顶点集合中选择一个顶点,将顶点作为中心点;
步骤S13,获取中心点最近的K个顶点,通过一条超边将中心点与最近的K个顶点连接起来,并分别计算最近的K个顶点中的顶点与超边的关联概率,其中K为正整数;以及
步骤S14,当图G(V,E,w)中所有的顶点均完成步骤S13后,完成超图结构的构建。
在本申请实施例中,一种基于超图的同时优化代价与误检率的异常检测方法,通过先构建超图结构再对超图结构进行优化来完成,其中构建超图结构是通过对大量数据进行分类,大量数据包括大量无标记数据和少量标记数据,少量标记数据包括正常数据和异常数据,且正常数据和异常数据不平衡;再通过对少量标记数据与大量无标记数据进行训练,用超图结构来表示数据之间的关系,以发掘数据之间的高阶关联,并根据数据的重要程度给每类数据赋予不同的代价,用代价表示类别的重要性;并在超图结构训练的过程中,同时优化数据之间的关联、分类总代价与分类正确率;而对超图结构进行优化,有四个需要优化的部分,分别是超图拉普拉斯正则项Ω(ω),代价敏感分类的经验误差RCS(ω),传统分类的经验误差Rerror(ω)和用于优化超图结构的正则项Ξ(W)。本申请实施例的一种基于超图的同时优化代价与误检率的异常检测方法利用少量标记数据与大量无标记数据进行训练,用超图结构来表示数据之间的关系,以发掘数据之间的高阶关联。根据数据的重要程度给每类数据赋予不同的代价,用代价表示类别的重要性。在超图学习的过程中,同时优化数据之间的关联、分类产生的总代价与分类的错误来达到同时优化代价与错误从而降低误检率的效果。
在本申请实施例中,数据样例包括测试样例或训练样例,其中,顶点集合中的顶点表示测试样例或训练样例中的一个数据。
在本申请实施例中,超图结构通过|V|×|E|大小的矩阵H表示,Hij表示顶点vi和超边Ej之间的关联概率,其中,
若权重w=0,则顶点vi和超边ep之间的关联概率为0;
若权重w>0,则通过下述公式计算顶点vi和超边Ej之间的关联概率:
Figure BDA0003248861320000081
其中,其中
Figure BDA0003248861320000082
为数据集中所有点对的平均距离,d(vi,vcentral)为vi与中心点之间的距离,α为需要调整的超参数。
在本申请实施例中,在步骤S14中,超边数量与顶点数量相同时,完成超图结构的构建,其中,超图结构通过下述矩阵表示:
Figure BDA0003248861320000083
其中,其中
Figure BDA0003248861320000084
为数据集中所有点对的平均距离,d(vi,vcentral)为vi与中心点之间的距离,α为需要调整的超参数,H(i,p)为vi和ep的矩阵,ep为E中的超边。
在本申请实施例中,优化的超图结构并得到用于分类的映射向量,包括以下步骤:
步骤S20,获取图G(V,E,w)中的顶点数量NV和超边数量NE
步骤S21,用大小为NV×NE的对角矩阵γ表示不同数据分类的代价,γi,i表示第i个数据分类错误的代价,其中,
对于正常数据,γi,i=1;
对于异常数据,γi,i>1;
对于测试数据,γi,i=0;
步骤S22,根据步骤S21优化超图结构并得到用于分类的映射向量。
在本申请实施例中,在步骤S22中,分别对超图拉普拉斯正则项,代价敏感分类的经验误差,传统分类的经验误差和用于优化超图结构的正则项进行优化。
在本申请实施例中,在步骤S22中,
通过下述公式对超图拉普拉斯正则项进行优化:
Figure BDA0003248861320000091
其中,Δ为超图拉普拉斯,Ω(ω)为超图拉普拉斯正则项,ω为用于分类的映射向量,W(e)为超边e的权重,H(vi,e)为vi与超边e关联的概率,H(vj,e)为vj与超边e关联的概率,δ(e)为超边e的度,xi为第i条数据的特征向量,xj为第j条数据的特征向量,vi为第i条数据对应的顶点,vj为第j条数据对应的顶点,d(vi)为顶点vi的度,d(vj)为顶点vj的度,X为所有数据的特征向量构成的矩阵,
Figure BDA0003248861320000092
为所有顶点的度开根号取倒数的值构成的对角矩阵,即其对角线上的元素为
Figure BDA0003248861320000093
为表示超图结构的关联矩阵,W为超边权重w构成的对角矩阵,
Figure BDA0003248861320000094
为所有超边的度取倒数的值构成的对角矩阵,即其对角线上的元素为
Figure BDA0003248861320000095
HT为超图关联矩阵H的转置。
通过下述公式对代价敏感分类的经验误差和传统分类的经验误差同时进行优化:
Figure BDA0003248861320000096
Figure BDA0003248861320000101
其中,Remp(ω)为平衡代价与错误率后的经验误差,RCS(ω)为代价敏感分类的经验误差,β为权衡代价与错误率的超参数,Rerror(ω)为传统分类的经验误差,Nv为顶点数量,γi,i为第i个数据分类错误的代价,yi为第i条数据的类别,y为所有数据的类别构成的向量。通过下述目标公式对用于优化超图结构的正则项进行优化:
Figure BDA0003248861320000102
Figure BDA0003248861320000103
其中,Λ为平衡代价与错误率后的代价矩阵,μ为调整超图拉普拉斯正则项重要性的超参数,λ为调整超图结构正则项重要性的超参数,NE为超边数量,Wj,j为超边权重矩阵W对角线上的第j个元素,s.t.为subject to的简写,表明其后面的式子是需要满足的约束条件。
在本申请实施例中,在步骤S22中,采用交替优化的方法求解用于优化超图结构的正则项的公式,交替优化的方法包括以下步骤:
步骤S220,固定W,对ω进行优化,对用于优化超图结构的正则项进行优化的目标公式重写为:
Figure BDA0003248861320000104
将上式中的目标公式对w求偏导,令偏导等于0,即,
Figure BDA0003248861320000105
解得:
ω=(XTΛ2X+μXTΔX)-1(XTΛy)
步骤S221,固定ω优化超边权重矩阵W,将目标公式重写为:
Figure BDA0003248861320000106
Figure BDA0003248861320000107
采用拉格朗日乘子法将上式将上式目标公式转化为:
Figure BDA0003248861320000108
解得:
Figure BDA0003248861320000109
Figure BDA0003248861320000111
其中
Figure BDA0003248861320000112
I为NE×NE的单位矩阵;
步骤S222,交替执行步骤S220和步骤S221,满足预设次数时停止执行,得到用于分类的映射向量。
在本申请实施例中,的异常检测方法将所有测试数据的特征向量通过映射向量映射到一个一维空间,通过下述公式进行映射:
ζ=xiω
其中,ζ用来判断数据是否异常的标准;
若ζ>0,则测试数据为异常数据,分配至正例中;
否则,测试数据为正常数据。
进一步地,在本申请实施例的一种可能的实现方式中,总体上是要对大量数据进行分类,其中大部分数据无标记,且标记数据中正常数据与异常数据不平衡,在尽量分辨出异常数据的前提下降低误检率。工业环境中存在的标签数据较少且存在正常数据和异常数据严重不平衡的问题,在传统的超图学习中目标是优化总的错误率,所以会偏向于对数量较多的正常数据进行信息获取。在代价敏感的超图学习中,根据数据的重要程度给每类数据赋予不同的权重,从而在超图学习的过程中增加对少样本数据即异常数据的信息获取。为了防止代价敏感学习使错误率和错误率上升,在保证正确率和对异常数据捕获的前提下降低误检率,本申请的算法首次将传统的超图与代价敏感的超图相结合,同时优化数据之间的关联,分类正确率与分类总代价。图2为本申请实施例所提供的本算法与传统超图分类、代价敏感超图分类的类比图,如图2所示,传统的算法偏向于寻求较低的错误率,代价敏感的算法偏向于寻求较低的代价,本申请的算法可以找到错误率与代价的平衡点。
图3为本申请实施例所提供的一种基于超图的同时优化代价与误检率的异常检测方法的流程示意图。
在本申请实施例中,如图3所示,一种基于超图的同时优化代价与误检率的异常检测方法有如下两个步骤:
本申请实施例的步骤1为:构建超图结构
具体地,给定一组测试样例{T1,T2,...,Tn}和一组训练样例{Spos,Sneg}。超图结构用G=(V,E,w)来表示,V表示顶点的集合,每个顶点代表一个训练数据或者测试数据,即每个顶点表示{T1,T2,...,Tn,Spos,Sneg}中的一个数据;
其中,E表示超边的集合,每条超边可以连接V中的多个顶点。w代表超边的权重。通常来说,超图可以用|V|×|E|大小的矩阵H进行表示,其中Hij表示顶点Vi与超边ep关联的概率,若权重为0则表示顶点Vi与超边ep没有关联。
为了用超图结构表示数据之间的关联,在本申请实施例中用以下过程来构建超图:
图4为本申请实施例所提供的构建本申请的超图结构的方法图。
如图4所示,每次从V中选择一个顶点vcentral作为中心点,寻找离中心点最近的K个点v1,v2,...vK,将中心点与这最近的K个点用一条超边ep连接起来。
其中,点vi与超边关联的概率用如下式子计算:
Figure BDA0003248861320000121
其中,
Figure BDA0003248861320000122
表示数据集中所有点对的平均距离,d(vi,vcentral)表示vi与中心点之间的距离。α是需要调整的超参数。当这个过程将所有的顶点都选中作为中心点后,构建过程结束。最终得到的超边数量应该是和顶点数量相同的,即|V|=|E|。会得到一个表示超图的矩阵H:
Figure BDA0003248861320000123
具体地,顶点的度可以表示为
Figure BDA0003248861320000124
超边的度可以表示为
Figure BDA0003248861320000125
Figure BDA0003248861320000126
也可以使用对角矩阵DV,DE表示顶点的度和超边的度。
本申请实施例的步骤2为:同时优化代价与错误的超图学习
步骤2将优化步骤1中构建的超图结构,并得到最终用于分类的映射向量。
在本申请实施例中,用NV表示超图G中顶点的个数,用NE表示超边的数量,用W表示超边权重w构成的对角矩阵。
进一步地,G中的每个顶点Vi都可以用一个特征向量xi(xi∈Rp)表示,我们用
Figure BDA0003248861320000127
表示G中所有顶点的特征。用大小为NV×NE的对角矩阵γ表示不同数据分类的代价,其中γi,i表示第i个数据分类错误的代价。对于正常的数据,γi,i=1,对于异常的数据应选择一个大于1的数作为代价。对于测试样例,令γi,i=0。最终分类问题为找到一个映射向量ω∈Rp,该向量能对测试数据的特征进行变换,得到分类结果。
具体地,在同时优化代价与错误的超图分类中,有四个需要优化的部分,分别是超图拉普拉斯正则项Ω(ω),代价敏感分类的经验误差RCS(ω),传统分类的经验误差Rerror(ω)和用于优化超图结构的正则项Ξ(W)。
进一步地,与传统的超图学习一样,超图拉普拉斯正则项被定义为:
Figure BDA0003248861320000131
其中,Δ为超图拉普拉斯。
进一步地,代价敏感分类的经验误差为:
Figure BDA0003248861320000132
其中xi是特征向量,
Figure BDA0003248861320000133
表示Nv个数据的类别标签。如果yi=1则该数据为正例,yi=-1则为负例。对于测试样例,yi=0。传统分类的经验误差
Figure BDA0003248861320000134
本申请实施例的目的是同时优化这两项经验误差,来达到平衡代价最优和错误率最优的效果,在本申请实施例中使用一个参数β(0≤β≤1)来表示它们的权衡关系,令总的经验误差为
Figure BDA0003248861320000135
其中,
Figure BDA0003248861320000136
表示代价与错误率平衡后的参数。代价与错误率权衡的程度是由β决定的,若β=1,则该算法为普通的代价敏感算法,若β=0,则该算法为传统的分类算法。
进一步地,优化超图结构的正则项Ξ(W)目的是优化数据在超图中的关系,该正则项可以让超图结构的鲁棒性更强。
Figure BDA0003248861320000137
Figure BDA0003248861320000138
为W的弗罗贝尼乌斯范数。最终我们需要优化的目标为:
Figure BDA0003248861320000139
Figure BDA00032488613200001310
其中,μ,λ是用于调整超图拉普拉斯正则项和超图结构正则项重要性的超参数。
在本申请实施例中,上述实施例的优化任务可以使用交替优化的方法求解,交替优化的步骤如下:
步骤2.1:首先固定W优化ω,目标被重写为:
Figure BDA0003248861320000141
将上式中的目标函数对ω求偏导,令偏导等于0,即
Figure BDA0003248861320000142
解得
ω=(XTΛ2X+μXTΔX)-1(XTΛy)
步骤2.2:固定ω优化超边权重矩阵W,将目标函数重写为:
Figure BDA0003248861320000143
Figure BDA0003248861320000144
采用拉格朗日乘子法,优化问题变为:
Figure BDA0003248861320000145
可以解得:
Figure BDA0003248861320000146
Figure BDA0003248861320000147
其中,
Figure BDA0003248861320000148
I为NE×NE的单位矩阵。
将步骤2.1和步骤2.2交替执行多次后得到最终的映射向量ω,所有的测试数据的特征向量xi都可以被映射到一个一维空间,ζ=xiω。ζ就是用来判断数据是否异常的标准:若ζ>0,则数据被分到正例,说明数据为异常数据;反之,数据为正常。
为了实现上述实施例,本发明还提出一种基于超图的同时优化代价与误检率的异常检测系统,其特征在于,包括:
构建模块,所述构建模块用于构建超图结构;
优化模块,用于优化所述的超图结构并得到用于分类的映射向量;其中,
所述构建模块具体用于:获取数据样例,将所述数据样例分为标记数据和无标记数据,所述标记数据包括正常数据和异常数据;通过图G(V,E,w)表示所述标记数据和所述无标记数据中数据之间的关系,其中,V表示顶点集合,E表示超边集合,超边表示数据之间的关系,w表示超边权重;每次从所述顶点集合中选择一个顶点,将所述顶点作为中心点;获取所述中心点最近的K个顶点,通过一条超边将所述中心点与所述最近的K个顶点连接起来,并分别计算所述最近的K个顶点中的顶点与所述超边的关联概率,其中K为正整数;以及当所述图G(V,E,w)中所有的顶点均完成所述步骤S13后,完成所述超图结构的构建。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,″计算机可读介质″可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于超图的同时优化代价与误检率的异常检测方法,其特征在于,包括构建超图结构,和优化所述的超图结构并得到用于分类的映射向量;其中,
所述构建超图结构,包括以下步骤:
步骤S10,获取数据样例,将所述数据样例分为标记数据和无标记数据,所述标记数据包括正常数据和异常数据;
步骤S11,通过图G(V,E,w)表示所述标记数据和所述无标记数据中数据之间的关系,其中,V表示顶点集合,E表示超边集合,超边表示数据之间的关系,w表示超边权重;
步骤S12,每次从所述顶点集合中选择一个顶点,将所述顶点作为中心点;
步骤S13,获取所述中心点最近的K个顶点,通过一条超边将所述中心点与所述最近的K个顶点连接起来,并分别计算所述最近的K个顶点中的顶点与所述超边的关联概率,其中K为正整数;以及
步骤S14,当所述图G(V,E,w)中所有的顶点均完成所述步骤S13后,完成所述超图结构的构建。
2.根据权利要求1所述的异常检测方法,其特征在于,所述数据样例包括测试样例或训练样例,其中,所述顶点集合中的顶点表示测试样例或训练样例中的一个数据。
3.根据权利要求1所述的异常检测方法,其特征在于,所述超图结构通过|V|×|E|大小的矩阵H表示,H(i,p)表示顶点vi和超边ep之间的关联概率,其中,
若权重w=0,则所述顶点vi和所述超边ep之间的关联概率为0;
若权重w>0,则通过下述公式计算所述顶点vi和所述超边ep之间的关联概率:
Figure FDA0003248861310000011
其中,其中
Figure FDA0003248861310000012
为数据集中所有点对的平均距离,d(vi,vcentral)为vi与中心点之间的距离,α为需要调整的超参数。
4.根据权利要求1所述的异常检测方法,其特征在于,在所述步骤S14中,超边数量与顶点数量相同时,完成所述超图结构的构建,其中,所述超图结构通过下述矩阵表示:
Figure FDA0003248861310000021
其中,其中
Figure FDA0003248861310000022
为数据集中所有点对的平均距离,d(vi,vcentral)为vi与中心点之间的距离,α为需要调整的超参数,H(i,p)为vi与超边ep关联的概率,ep为E中的超边。
5.根据权利要求1-4任一所述的异常检测方法,其特征在于,
优化所述的超图结构并得到用于分类的映射向量,包括以下步骤:
步骤S20,获取所述图G(V,E,w)中的顶点数量NV和超边数量NE
步骤S21,用大小为NV×NE的对角矩阵γ表示不同数据分类的代价,γi,i表示第i个数据分类错误的代价,其中,
对于所述正常数据,γi,i=1;
对于所述异常数据,γi,i>1;
对于测试数据,γi,i=0;
步骤S22,根据步骤S21优化所述超图结构并得到用于分类的映射向量。
6.根据权利要求5所述的异常检测方法,其特征在于,在所述步骤S22中,分别对超图拉普拉斯正则项,代价敏感分类的经验误差,传统分类的经验误差和用于优化超图结构的正则项进行优化。
7.根据权利要求6所述的异常检测方法,其特征在于,在所述步骤S22中,
通过下述公式对所述超图拉普拉斯正则项进行优化:
Figure FDA0003248861310000023
其中,Δ为超图拉普拉斯,Ω(ω)为超图拉普拉斯正则项,ω为用于分类的映射向量,W(e)为超边e的权重,H(vi,e)为vi与超边e关联的概率,H(vj,e)为vj与超边e关联的概率,δ(e)为超边e的度,xi为第i条数据的特征向量,xj为第j条数据的特征向量,vi为第i条数据对应的顶点,vj为第j条数据对应的顶点,d(vi)为顶点vi的度,d(vj)为顶点vj的度,X为所有数据的特征向量构成的矩阵,
Figure FDA0003248861310000031
为所有顶点的度开根号取倒数的值构成的对角矩阵,即其对角线上的元素为
Figure FDA0003248861310000032
为表示超图结构的关联矩阵,W为超边权重w构成的对角矩阵,
Figure FDA0003248861310000033
为所有超边的度取倒数的值构成的对角矩阵,即其对角线上的元素为
Figure FDA0003248861310000034
HT为超图关联矩阵H的转置。
通过下述公式对所述代价敏感分类的经验误差和所述传统分类的经验误差同时进行优化:
Figure FDA0003248861310000035
其中,Remp(ω)为平衡代价与错误率后的经验误差,RCS(ω)为代价敏感分类的经验误差,β为权衡代价与错误率的超参数,Rerror(ω)为传统分类的经验误差,Nv为顶点数量,ΥΥ,i为第i个数据分类错误的代价,yi为第i条数据的类别,y为所有数据的类别构成的向量。
通过下述目标公式对用于优化超图结构的正则项进行优化:
Figure FDA0003248861310000036
Figure FDA0003248861310000037
其中,Λ为平衡代价与错误率后的代价矩阵,μ为调整超图拉普拉斯正则项重要性的超参数,λ为调整超图结构正则项重要性的超参数,NE为超边数量,Wj,j为超边权重矩阵W对角线上的第j个元素,s.t.为subject to的简写,表明其后面的式子是需要满足的约束条件。
8.根据权利要求7所述的异常检测方法,其特征在于,在所述步骤S22中,采用交替优化的方法求解用于优化超图结构的正则项的公式,所述交替优化的方法包括以下步骤:
步骤S220,固定W,对ω进行优化,对所述用于优化超图结构的正则项进行优化的目标公式重写为:
Figure FDA0003248861310000041
将上式中的目标公式对w求偏导,令偏导等于0,即,
Figure FDA0003248861310000042
解得:
ω=(XTΛ2X+μXTΔX)-1(XTΛy)
步骤S221,固定ω优化超边权重矩阵W,将目标公式重写为:
Figure FDA0003248861310000043
Figure FDA0003248861310000044
采用拉格朗日乘子法将上式将上式目标公式转化为:
Figure FDA0003248861310000045
解得:
Figure FDA0003248861310000046
Figure FDA0003248861310000047
其中
Figure FDA0003248861310000048
I为NE×NE的单位矩阵;
步骤S222,交替执行所述步骤S220和所述步骤S221,满足预设次数时停止执行,得到所述用于分类的映射向量。
9.根据权利要求8所述的异常检测方法,其特征在于,将所有测试数据的特征向量通过所述映射向量映射到一个一维空间,通过下述公式进行映射:
ζ=xiω
其中,ζ用来判断数据是否异常的标准;
若ζ>0,则所述测试数据为异常数据,分配至正例中;
否则,所述测试数据为正常数据。
10.一种基于超图的同时优化代价与误检率的异常检测系统,其特征在于,包括:
构建模块,所述构建模块用于构建超图结构;
优化模块,用于优化所述的超图结构并得到用于分类的映射向量;其中,
所述构建模块具体用于:获取数据样例,将所述数据样例分为标记数据和无标记数据,所述标记数据包括正常数据和异常数据;通过图G(V,E,w)表示所述标记数据和所述无标记数据中数据之间的关系,其中,V表示顶点集合,E表示超边集合,超边表示数据之间的关系,w表示超边权重;每次从所述顶点集合中选择一个顶点,将所述顶点作为中心点;获取所述中心点最近的K个顶点,通过一条超边将所述中心点与所述最近的K个顶点连接起来,并分别计算所述最近的K个顶点中的顶点与所述超边的关联概率,其中K为正整数;以及当所述图G(V,E,w)中所有的顶点均完成所述步骤S13后,完成所述超图结构的构建。
CN202111039868.9A 2021-09-06 2021-09-06 基于超图的同时优化代价与误检率的异常检测方法及系统 Active CN113723550B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111039868.9A CN113723550B (zh) 2021-09-06 2021-09-06 基于超图的同时优化代价与误检率的异常检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111039868.9A CN113723550B (zh) 2021-09-06 2021-09-06 基于超图的同时优化代价与误检率的异常检测方法及系统

Publications (2)

Publication Number Publication Date
CN113723550A true CN113723550A (zh) 2021-11-30
CN113723550B CN113723550B (zh) 2023-12-05

Family

ID=78681980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111039868.9A Active CN113723550B (zh) 2021-09-06 2021-09-06 基于超图的同时优化代价与误检率的异常检测方法及系统

Country Status (1)

Country Link
CN (1) CN113723550B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268140A (zh) * 2014-07-31 2015-01-07 浙江大学 基于权重自学习超图和多元信息融合的图像检索方法
CN108334455A (zh) * 2018-03-05 2018-07-27 清华大学 基于搜索的代价敏感超图学习的软件缺陷预测方法及系统
CN109284411A (zh) * 2017-07-19 2019-01-29 哈尔滨工业大学深圳研究生院 一种基于有监督超图离散化图像二值编码方法
CN109818971A (zh) * 2019-03-12 2019-05-28 清华大学 一种基于高阶关联挖掘的网络数据异常检测方法与系统
CN109951468A (zh) * 2019-03-12 2019-06-28 清华大学 一种基于f值优化的网络攻击检测方法与系统
CN111586051A (zh) * 2020-05-08 2020-08-25 清华大学 一种基于超图结构质量优化的网络异常检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268140A (zh) * 2014-07-31 2015-01-07 浙江大学 基于权重自学习超图和多元信息融合的图像检索方法
CN109284411A (zh) * 2017-07-19 2019-01-29 哈尔滨工业大学深圳研究生院 一种基于有监督超图离散化图像二值编码方法
CN108334455A (zh) * 2018-03-05 2018-07-27 清华大学 基于搜索的代价敏感超图学习的软件缺陷预测方法及系统
CN109818971A (zh) * 2019-03-12 2019-05-28 清华大学 一种基于高阶关联挖掘的网络数据异常检测方法与系统
CN109951468A (zh) * 2019-03-12 2019-06-28 清华大学 一种基于f值优化的网络攻击检测方法与系统
CN111586051A (zh) * 2020-05-08 2020-08-25 清华大学 一种基于超图结构质量优化的网络异常检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭志民;袁少光;孙玉宝;: "基于L0稀疏超图半监督学习的异常用电行为识别", 计算机应用与软件, no. 02 *

Also Published As

Publication number Publication date
CN113723550B (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
US10387445B2 (en) Hybrid method for anomaly classification
US8588519B2 (en) Method and system for training a landmark detector using multiple instance learning
US10878295B2 (en) Method and apparatus for recognizing image
US20090245638A1 (en) Method And Apparatus For Region-Based Segmentation Image Processing Using Region Mapping
CN112036426A (zh) 利用高维传感器数据的多数表决进行无监督异常检测和责任的方法和系统
US11429806B2 (en) Devices, systems, and methods for anomaly detection
CN107316296B (zh) 一种基于对数变换的遥感图像变化检测方法及装置
CN111131810A (zh) 镜头清晰度测量方法及装置、系统和测量图卡
CN110827291A (zh) 一种用于自动化脑mri定量分析的方法和装置
CN108564569A (zh) 一种基于多核分类学习的混凝土裂缝检测方法及装置
von Berg et al. Robust chest x-ray quality assessment using convolutional neural networks and atlas regularization
CN113723550A (zh) 基于超图的同时优化代价与误检率的异常检测方法及系统
US7499575B2 (en) Computer-assisted detection method for diaphragm edges caused in an image by a diaphragm
CN111652277A (zh) 假阳性过滤方法、电子装置及计算机可读存储介质
CN114399669B (zh) 目标检测方法和装置
Tarroni et al. Learning-based heart coverage estimation for short-axis cine cardiac MR images
JP7358269B2 (ja) 物体検出装置、物体検出システム、および、物体検出方法
CN114567771A (zh) 一种在棋盘格测试图上进行sfr测试的方法、装置及可读存储介质
CN113420772A (zh) 基于多分类器与svdd协同算法的缺陷检测方法和装置
CN114528441A (zh) 一种图结构数据节点分类方法、装置及电子设备
CN103177230A (zh) 读取器和读取方法
CN110232302B (zh) 一种集成灰度值、空间信息和类别知识的变化检测方法
AU2020298110A1 (en) Method and system for identifying anomalies in X-rays
CN112912807A (zh) 异常诊断装置
CN109726084A (zh) 数据中心的故障问题的分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant