CN109961086A - 基于聚类和sse的异常点比例优化方法及装置 - Google Patents
基于聚类和sse的异常点比例优化方法及装置 Download PDFInfo
- Publication number
- CN109961086A CN109961086A CN201910079217.9A CN201910079217A CN109961086A CN 109961086 A CN109961086 A CN 109961086A CN 201910079217 A CN201910079217 A CN 201910079217A CN 109961086 A CN109961086 A CN 109961086A
- Authority
- CN
- China
- Prior art keywords
- cluster
- point ratio
- abnormal point
- clustering
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 278
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000005457 optimization Methods 0.000 title claims abstract description 42
- 238000012706 support-vector machine Methods 0.000 claims abstract description 77
- 238000013450 outlier detection Methods 0.000 claims description 23
- 238000003860 storage Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 5
- 235000013399 edible fruits Nutrition 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 13
- 238000001514 detection method Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 7
- 238000005259 measurement Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000013079 data visualisation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于聚类和SSE的异常点比例优化方法及装置。该方法通过接收待分类数据点集合,通过k‑means聚类将待分类数据点集合进行聚类,得到多个聚类簇;获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的单分类支持向量机;通过不断调整当前异常点比例,直至残差变动幅度超出变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例;以及将所选定的聚类簇根据单分类支持向量机及最优异常点比例进行分类,得到最优分类结果。该方法采用聚类技术实现了对海量数据的精确分类和对各分类异常点检测,检测过程中的异常点比例是自动调整而获取,无需根据经验设置。
Description
技术领域
本发明涉及智能决策技术领域,尤其涉及一种基于聚类和SSE的异常点比例优化方法及装置。
背景技术
异常值分析是检验数据是否有录入错误以及含有不合常理的数据的过程,忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良影响。
目前,在企业的运营过程中搜集的海量用户数据中,往往有多个正常点中心。若未先对海量用户数据先进行划分再进行异常点检测,会导致用于异常点检测的无监督模型的区分效果较差,无法精细化检测异常点数据。
发明内容
本发明实施例提供了一种基于聚类和SSE的异常点比例优化方法、装置、计算机设备及存储介质,旨在解决现有技术中海量用户数据中往往有多个正常点中心,若未先对海量用户数据先进行划分再进行异常点检测,会导致用于异常点检测的无监督模型的区分效果较差,无法精细化检测异常点数据的问题。
第一方面,本发明实施例提供了一种基于聚类和SSE的异常点比例优化方法,其包括:
接收待分类数据点集合,通过k-means聚类将所述待分类数据点集合进行聚类,得到多个聚类簇;
获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的单分类支持向量机;
将所选定的聚类簇根据所述单分类支持向量机及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;
获取所述分类结果中异常类别的每一数据点与所述正常点中心的残差平方和,以获取当前残差平方和;
通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;
将所选定的聚类簇根据所述单分类支持向量机及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的残差以作为下一残平方和差平方和;
通过下一残差平方和与当前残差平方和之差除以所述步长,得到残差变动幅度;
判断所述残差变动幅度是否超出预设的变动幅度阈值;
若所述残差变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例;以及
将所选定的聚类簇根据所述单分类支持向量机及最优异常点比例进行分类,得到最优分类结果。
第二方面,本发明实施例提供了一种基于聚类和SSE的异常点比例优化装置,其包括:
聚类单元,用于接收待分类数据点集合,通过k-means聚类将所述待分类数据点集合进行聚类,得到多个聚类簇;
多模型构建单元,用于获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的单分类支持向量机;
正常点中心获取单元,用于将所选定的聚类簇根据所述单分类支持向量机及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;
第一残差计算单元,用于获取所述分类结果中异常类别的每一数据点与所述正常点中心的残差平方和,以获取当前残差平方和;
第一比例更新单元,用于通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;
第二残差计算单元,用于将所选定的聚类簇根据所述单分类支持向量机及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的残差以作为下一残平方和差平方和;
幅度计算单元,用于通过下一残差平方和与当前残差平方和之差除以所述步长,得到残差变动幅度;
判断单元,用于判断所述残差变动幅度是否超出预设的变动幅度阈值;
最优比例获取单元,用于若所述残差变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例;以及
最优分类单元,用于将所选定的聚类簇根据所述单分类支持向量机及最优异常点比例进行分类,得到最优分类结果。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于聚类和SSE的异常点比例优化方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于聚类和SSE的异常点比例优化方法。
本发明实施例提供了一种基于聚类和SSE的异常点比例优化方法、装置、计算机设备及存储介质。该方法包括接收待分类数据点集合,通过k-means聚类将所述待分类数据点集合进行聚类,得到多个聚类簇;获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的单分类支持向量机;将所选定的聚类簇根据所述单分类支持向量机及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;获取所述分类结果中异常类别的每一数据点与所述正常点中心的残差平方和,以获取当前残差平方和;通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;将所选定的聚类簇根据所述单分类支持向量机及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的残差以作为下一残平方和差平方和;通过下一残差平方和与当前残差平方和之差除以所述步长,得到残差变动幅度;判断所述残差变动幅度是否超出预设的变动幅度阈值;若所述残差变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例;以及将所选定的聚类簇根据所述单分类支持向量机及最优异常点比例进行分类,得到最优分类结果。该方法实现了对海量数据的精确分类和对各分类异常点检测,检测过程中的异常点比例是自动调整而获取,无需根据经验设置。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于聚类和SSE的异常点比例优化方法的流程示意图;
图2为本发明实施例提供的基于聚类和SSE的异常点比例优化方法的子流程示意图;
图3为本发明实施例提供的基于聚类和SSE的异常点比例优化方法的另一子流程示意图;
图4为本发明实施例提供的基于聚类和SSE的异常点比例优化方法的另一子流程示意图;
图5为本发明实施例提供的基于聚类和SSE的异常点比例优化方法的另一流程示意图;
图6为本发明实施例提供的基于聚类和SSE的异常点比例优化装置的示意性框图;
图7为本发明实施例提供的基于聚类和SSE的异常点比例优化装置的子单元示意性框图;
图8为本发明实施例提供的基于聚类和SSE的异常点比例优化装置的另一子单元示意性框图;
图9为本发明实施例提供的基于聚类和SSE的异常点比例优化装置的另一子单元示意性框图;
图10为本发明实施例提供的基于聚类和SSE的异常点比例优化装置的另一示意性框图;
图11为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例提供的基于SSE的异常点比例优化方法的流程示意图,该基于SSE的异常点比例优化方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
如图1所示,该方法包括步骤S110~S180。
S101、接收待分类数据点集合,通过k-means聚类将所述待分类数据点集合进行聚类,得到多个聚类簇。
在本实施例中,当企业的服务器接收了各业务端上传的海量业务数据后,这些业务数据可视为待分类数据点集合。例如,待分类数据点集合可以是用户的保单数据,至少包括投保人姓名、投保人年龄、投保人保单数量、投保金额、投保年限、投保人手机号码等字段。此时可有选择性的选择其中一个字段数据作为主数据,而剩余的字段则作为上述主字段的属性数据。例如投保年限字段作为主数据,投保人的电话号码、身份证号等字段作为其属性数据。
在一实施例中,如图2所示,步骤S101包括:
S1011、在多个待分类数据点集合中选取与预设的聚类簇数相同个数的数据点,将所选取的数据点作为每一簇的初始聚类中心;
S1012、根据所述待分类数据点集合中各数据点与各初始聚类中心的相异值,将所述待分类数据点集合进行划分,得到初始聚类结果;
S1013、根据初始聚类结果,获取每一簇的调整后聚类中心;
S1014、根据调整后聚类中心,将所述待分类数据点集合根据与调整后聚类中心的相异值进行划分,直至聚类结果保持相同的次数多于预设的次数,得到与预设的聚类簇数对应的聚类簇。
在本实施例中,对待分类数据点集合进行聚类时,选择其中一个字段作为主键,其余字段作为属性数据。具体的,对待分类数据点集合进行聚类时采用k-means算法,过程如下:
a)从n个待分类数据点集合中任意选取k个待分类数据点,并作为k个簇的初始聚类中心;其中,待分类数据点集合中待分类数据点的初始总个数为n,从其中任意选择k个数据点(k<n,k是用户指定的参数,即所期望的簇的个数,也即预设的聚类簇数),将初始选择的k个数据点作为初始聚类中心。
b)分别计算剩下的待分类数据点到k个簇初始聚类中心的相异度,将剩下的待分类数据点分别划归到相异度最低的簇,得到初始聚类结果;即是剩下的每一待分类数据点选择距其距离最近的初始聚类中心,并与该初始聚类中心归为一类;这样就以初始选择的初始聚类中心将海量的待分类数据点划分为k簇,每一簇数据都有一个初始聚类中心。
c)根据初始聚类结果,重新计算k个簇各自的聚类中心;具体计算方法是取每一簇中所有待分类数据点的主属性的算术平均数,选择一个距离主属性算数平均值最近的待分类数据点作为新的聚类中心,重新选择该簇数据中更优的聚类中心。
d)将n个待分类数据点中全部元素按照新的聚类中心重新聚类;
e)重复d)步,直到聚类结果不再变化,得到与预设的聚类簇数对应的聚类结果。
在完成了聚类分类之后,即可实现快速的将海量的待分类数据点集合进行分组,得到多个聚类簇。
S110、获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的单分类支持向量机。
在本实施例中,例如,服务器接收了业务端所上传的待分类数据点集合并完成聚类分组后,此时若所设置初始的当前异常点比例为0.5(如将初始的当前异常点比例记为m0),表示所期望的单分类支持向量机的分类结果中正常点样本和异常点样本比例为1:1。由于假设正常点数量比异常点多,因此此时异常点类别中含有大量的错分正常点。当异常点比例减少的时候,异常点类别中的正常点会被剔除。此时,先根据预设的当前异常点比例及待分类样本构建用于异常点检测的单分类支持向量机,作为后续调整当前异常点比例并重新分类的模型基础。
在一实施例中,如图3所示,步骤S110包括:
S111、根据预设的当前异常点比例及每一聚类簇,获取各聚类簇相应单分类支持向量机所对应的超平面的第一参数和第二参数;
S112、根据超平面的第一参数和第二参数,及所述当前异常点比例,构建与每一聚类簇一一对应的用于异常点检测的单分类支持向量机。
在本实施例中,单分类支持向量机即是OneClassSVM,其分类模型如下:
s.t.(w·φ(xi))≥b-ξi,ξi≥0;
其中,ξi表示松弛变量;v为异常值的分数中所设置的一个上限,或是训练数据集里面做为支持向量的样例数量的下界;
由拉格朗日变换可知,上述分类模型转化为:
这个方法创建了一个参数为w、b的超平面,该超平面与特征空间中的零点距离最大,并且将零点与所有的数据点分隔开。
通过上述方式,在对多个聚类簇分别构建了单分类支持向量机后,每一聚类簇根据其对应的单分类支持向量机进行数据分类。
S120、将所选定的聚类簇根据所述单分类支持向量机及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心。
在本实施例中,当选定多个聚类簇其中一个聚类簇作为目标聚类簇为示例进行最优异常点比例获取时,需根据初始设置的当前异常点比例将所选定的聚类簇由所述单分类支持向量机进行分类后,可以确定分类结果中正常类别的数据点对应的正常点中心,这一正常点中心在后续过程中是恒定不变的。
在一实施例中,如图4所示,步骤S120包括:
S121、将所选定的聚类簇根据对应的单分类支持向量机及当前异常点比例进行分类,得到与所选定的聚类簇对应的分类结果;其中,所述分类结果中包括正常类别的数据点和异常类别的数据点;
S122、获取所述分类结果中正常类别的数据点所对应的平均值,以获取初始正常点中心;
S123、获取所述分类结果中正常类别的数据点中与所述初始正常点中心距离最近的数据点,以作为正常类别的数据点对应的正常点中心。
在本实施例中,先根据所述单分类支持向量机及当前异常点比例将所选定的聚类簇进行分类后,得到了包括正常类别的数据点和异常类别的数据点的分类结果。此时为了确定正常点中心,需先获取正常类别的数据点的平均值,然后将正常类别的数据点中距离该平均值最近的数据点,以作为正常点中心。当固定所述正常点中心后,即可不断调整异常点比例,根据指定参数(如当前异常类别的每一数据点与所述正常点中心的平均欧式距离)的变化趋势,来获取最优异常点比例。
S130、获取所述分类结果中异常类别的每一数据点与所述正常点中心的残差平方和,以获取当前残差平方和。
在本实施例中,残差平方和是在线性模型中衡量模型拟合程度的一个量,用连续曲线近似地刻画或比拟平面上离散点组,以表示坐标之间函数关系的一种数据处理方法。例如,在等精度测量下,残差平方和(V2)=V1 2+V1 2+…+Vn 2,其中Vi是测量数据li的残差,例如量数据li的残差可以表示异常类别的数据点li的残差。为了判断异常类别的每一数据点与正常点的残差,需计算异常类别的每一数据点与所述正常点中心的残差平方和,以作为当前残差平方和离,从当前残差平方和可以看出异常类别的每一数据点是否均远离正常点中心。
S140、通过所述当前异常点比例减去预设的步长,以更新当前异常点比例。
在本实施例,将所述当前异常点比例减去预设的步长,是为了不断调整当前异常点比例,以通过试探法得出最优异常点比例。
S150、将所选定的聚类簇根据所述单分类支持向量机及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的残差平方和以作为下一残差平方和。
在本实施例中,通过将当前异常点比例减去所述步长以更新当前异常点比例,此时无需再次确定正常点中心,只需得到分类结果中的异常类别的数据点,再计算异常类别的每一数据点与所述正常点中心的残差平方和以作为下一残差平方和。
S160、通过下一残差平方和与当前残差平方和之差除以所述步长,得到残差变动幅度。
在本实施例中,通过例如步骤S130中得到的当前残差平方和视为SSE0,则步骤S150初次执行得到的下一残差平方和视为SSE1,则步骤S150第二次执行得到的下一残差平方和视为SSE2(此时对应的当前残差平方和为SSE1),……,步骤S150第N次执行得到的下一残差平方和视为SSEN(此时对应的当前残差平方和为SSEN-1)。若将预设的步长记为l,则是通过(SSEN-SSEN-1)/l来计算残差变动幅度,其中N为大于0的正整数。
S170、判断所述残差变动幅度是否超出预设的变动幅度阈值。
在本实施例中,当残差变动幅度陡然变大,表示此刻最新的当前异常点比例不是最优异常点比例,可考虑将此刻最新的当前异常点比例之前一个状态的当前异常点比例作为最优异常点比例。
S180、若所述残差变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例。
在本实施例中,若残差变动幅度超出预设的变动幅度阈值,表示有部分真实的异常点被划分为正常点,导致异常点到正常中心点的残差平方和突增,此时当前异常点比例的上一状态(即当前异常点比例加上步长)即可作为最优异常点比例。
在一实施例中,如图5所示,步骤S170之后还包括:
S190、若所述残差变动幅度未超出所述变动幅度阈值,将当前异常点比例减去所述步长以更新当前异常点比例,通过下一残差平方和以更新当前残差平方和,返回执行步骤S150。
在本实施例中,当残差变动幅度仍保持平稳过渡,表示所降低的异常点比例不足以明显影响异常类别的每一数据点与所述正常点中心的残差平方和,此时需将当前异常点比例减去步长以更新当前异常点比例,并通过下一残差平方和以更新当前残差平方和。例如当(SSEN-SSEN-1)/l未超出预设的变动幅度阈值,此时先将SSE1作为当前残差平方和,将(m0-l)作为当前异常点比例重新返回执行步骤S150以得到SSE2;之后再次流向步骤S170时即是以(SSE2-SSE1)/l作为残差变动幅度,以此类推,直至执行到残差变动幅度超出预设的变动幅度阈值即可。
S181、将所选定的聚类簇根据所述单分类支持向量机及最优异常点比例进行分类,得到最优分类结果。
在本实施例中,当确定了最优异常点比例后,即可将所选定的聚类簇根据所述单分类支持向量机及最优异常点比例进行分类,得到最优分类结果,得到分类效果最优的无监督分类模型。
该方法实现了对海量数据的精确分类和对各分类异常点检测,检测过程中的异常点比例是自动调整而获取,无需根据经验设置。
本发明实施例还提供一种基于聚类和SSE的异常点比例优化装置,该基于聚类和SSE的异常点比例优化装置用于执行前述基于聚类和SSE的异常点比例优化方法的任一实施例。具体地,请参阅图6,图6是本发明实施例提供的基于聚类和SSE的异常点比例优化装置的示意性框图。该基于聚类和SSE的异常点比例优化装置100可以配置于服务器中。
如图6所示,基于聚类和SSE的异常点比例优化装置100包括聚类单元101、多模型构建单元110、正常点中心获取单元120、第一残差计算单元130、第一比例更新单元140、第二残差计算单元150、幅度计算单元160、判断单元170、最优比例获取单元180、最优分类单元181。
括聚类单元101,用于接收待分类数据点集合,通过k-means聚类将所述待分类数据点集合进行聚类,得到多个聚类簇。
在本实施例中,当企业的服务器接收了各业务端上传的海量业务数据后,这些业务数据可视为待分类数据点集合。例如,待分类数据点集合可以是用户的保单数据,至少包括投保人姓名、投保人年龄、投保人保单数量、投保金额、投保年限、投保人手机号码等字段。此时可有选择性的选择其中一个字段数据作为主数据,而剩余的字段则作为上述主字段的属性数据。例如投保年限字段作为主数据,投保人的电话号码、身份证号等字段作为其属性数据。
在一实施例中,如图7所示,聚类单元101包括:
初始聚类中心获取单元1011,用于在多个待分类数据点集合中选取与预设的聚类簇数相同个数的数据点,将所选取的数据点作为每一簇的初始聚类中心;
初始聚类单元1012,用于根据所述待分类数据点集合中各数据点与各初始聚类中心的相异值,将所述待分类数据点集合进行划分,得到初始聚类结果;
聚类中心调整单元1013,用于根据初始聚类结果,获取每一簇的调整后聚类中心;
聚类调整单元1014,用于根据调整后聚类中心,将所述待分类数据点集合根据与调整后聚类中心的相异值进行划分,直至聚类结果保持相同的次数多于预设的次数,得到与预设的聚类簇数对应的聚类簇。
在本实施例中,对待分类数据点集合进行聚类时,选择其中一个字段作为主键,其余字段作为属性数据。在完成了聚类分类之后,即可实现快速的将海量的待分类数据点集合进行分组,得到多个聚类簇。
多模型构建单元110,用于获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的单分类支持向量机。
在本实施例中,例如,服务器接收了业务端所上传的待分类数据点集合并完成聚类分组后,此时若所设置初始的当前异常点比例为0.5(如将初始的当前异常点比例记为m0),表示所期望的单分类支持向量机的分类结果中正常点样本和异常点样本比例为1:1。由于假设正常点数量比异常点多,因此此时异常点类别中含有大量的错分正常点。当异常点比例减少的时候,异常点类别中的正常点会被剔除。此时,先根据预设的当前异常点比例及待分类样本构建用于异常点检测的单分类支持向量机,作为后续调整当前异常点比例并重新分类的模型基础。
在一实施例中,如图8所示,多模型构建单元110包括:
分类参数获取单元111,用于根据预设的当前异常点比例及每一聚类簇,获取各聚类簇相应单分类支持向量机所对应的超平面的第一参数和第二参数;
模型获取单元112,用于根据超平面的第一参数和第二参数,及所述当前异常点比例,构建与每一聚类簇一一对应的用于异常点检测的单分类支持向量机。
在本实施例中,单分类支持向量机即是OneClassSVM,其分类模型如下:
s.t.(w·φ(xi))≥b-ξi,ξi≥0;
其中,ξi表示松弛变量;v为异常值的分数中所设置的一个上限,或是训练数据集里面做为支持向量的样例数量的下界;
由拉格朗日变换可知,上述分类模型转化为:
这个方法创建了一个参数为w、b的超平面,该超平面与特征空间中的零点距离最大,并且将零点与所有的数据点分隔开。
通过上述方式,在对多个聚类簇分别构建了单分类支持向量机后,每一聚类簇根据其对应的单分类支持向量机进行数据分类。
正常点中心获取单元120,用于将所选定的聚类簇根据所述单分类支持向量机及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心。
在本实施例中,当选定多个聚类簇其中一个聚类簇作为目标聚类簇为示例进行最优异常点比例获取时,需根据初始设置的当前异常点比例将所选定的聚类簇由所述单分类支持向量机进行分类后,可以确定分类结果中正常类别的数据点对应的正常点中心,这一正常点中心在后续过程中是恒定不变的。
在一实施例中,如图9所示,正常点中心获取单元120包括:
初始分类单元121,用于将所选定的聚类簇根据对应的单分类支持向量机及当前异常点比例进行分类,得到与所选定的聚类簇对应的分类结果;其中,所述分类结果中包括正常类别的数据点和异常类别的数据点;
距离均值计算单元122,用于获取所述分类结果中正常类别的数据点所对应的平均值,以获取初始正常点中心;
正常点中心调整单元123,用于获取所述分类结果中正常类别的数据点中与所述初始正常点中心距离最近的数据点,以作为正常类别的数据点对应的正常点中心。
在本实施例中,先根据所述单分类支持向量机及当前异常点比例将所选定的聚类簇进行分类后,得到了包括正常类别的数据点和异常类别的数据点的分类结果。此时为了确定正常点中心,需先获取正常类别的数据点的平均值,然后将正常类别的数据点中距离该平均值最近的数据点,以作为正常点中心。当固定所述正常点中心后,即可不断调整异常点比例,根据指定参数(如当前异常类别的每一数据点与所述正常点中心的平均欧式距离)的变化趋势,来获取最优异常点比例。
第一残差计算单元130,用于获取所述分类结果中异常类别的每一数据点与所述正常点中心的残差平方和,以获取当前残差平方和。
在本实施例中,残差平方和是在线性模型中衡量模型拟合程度的一个量,用连续曲线近似地刻画或比拟平面上离散点组,以表示坐标之间函数关系的一种数据处理方法。例如,在等精度测量下,残差平方和(V2)=V1 2+V1 2+…+Vn 2,其中Vi是测量数据li的残差,例如量数据li的残差可以表示异常类别的数据点li的残差。为了判断异常类别的每一数据点与正常点的残差,需计算异常类别的每一数据点与所述正常点中心的残差平方和,以作为当前残差平方和离,从当前残差平方和可以看出异常类别的每一数据点是否均远离正常点中心。
第一比例更新单元140,用于通过所述当前异常点比例减去预设的步长,以更新当前异常点比例。
在本实施例,将所述当前异常点比例减去预设的步长,是为了不断调整当前异常点比例,以通过试探法得出最优异常点比例。
第二残差计算单元150,用于将所选定的聚类簇根据所述单分类支持向量机及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的残差平方和以作为下一残差平方和。
在本实施例中,通过将当前异常点比例减去所述步长以更新当前异常点比例,此时无需再次确定正常点中心,只需得到分类结果中的异常类别的数据点,再计算异常类别的每一数据点与所述正常点中心的残差平方和以作为下一残差平方和。
幅度计算单元160,用于通过下一残差平方和与当前残差平方和之差除以所述步长,得到残差变动幅度。
在本实施例中,通过得到的当前残差平方和视为SSE0,则初次执行得到的下一残差平方和视为SSE1,则第二次执行得到的下一残差平方和视为SSE2(此时对应的当前残差平方和为SSE1),……,第N次执行得到的下一残差平方和视为SSEN(此时对应的当前残差平方和为SSEN-1)。若将预设的步长记为l,则是通过(SSEN-SSEN-1)/l来计算残差变动幅度,其中N为大于0的正整数。
判断单元170,用于判断所述残差变动幅度是否超出预设的变动幅度阈值。
在本实施例中,当残差变动幅度陡然变大,表示此刻最新的当前异常点比例不是最优异常点比例,可考虑将此刻最新的当前异常点比例之前一个状态的当前异常点比例作为最优异常点比例。
最优比例获取单元180,用于若所述残差变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例。
在本实施例中,若残差变动幅度超出预设的变动幅度阈值,表示有部分真实的异常点被划分为正常点,导致异常点到正常中心点的残差平方和突增,此时当前异常点比例的上一状态(即当前异常点比例加上步长)即可作为最优异常点比例。
在一实施例中,如图10所示,基于聚类和SSE的异常点比例优化装置100还包括:
第二比例更新单元190,用于若所述残差变动幅度未超出所述变动幅度阈值,将当前异常点比例减去所述步长以更新当前异常点比例,通过下一残差平方和以更新当前残差平方和,返回执行将所述待分类样本根据所述单分类支持向量机及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的残差平方和以作为下一残差平方和的步骤。
在本实施例中,当残差变动幅度仍保持平稳过渡,表示所降低的异常点比例不足以明显影响异常类别的每一数据点与所述正常点中心的残差平方和,此时需将当前异常点比例减去步长以更新当前异常点比例,并通过下一残差平方和以更新当前残差平方和。例如当(SSEN-SSEN-1)/l未超出预设的变动幅度阈值,此时先将SSE1作为当前残差平方和,将(m0-l)作为当前异常点比例重新返回执行步骤S150以得到SSE2;之后再次流向步骤S170时即是以(SSE2-SSE1)/l作为残差变动幅度,以此类推,直至执行到残差变动幅度超出预设的变动幅度阈值即可。
最优分类单元181,用于将所选定的聚类簇根据所述单分类支持向量机及最优异常点比例进行分类,得到最优分类结果。
在本实施例中,当确定了最优异常点比例后,即可将所选定的聚类簇根据所述单分类支持向量机及最优异常点比例进行分类,得到最优分类结果,得到分类效果最优的无监督分类模型。
该装置实现了对海量数据的精确分类和对各分类异常点检测,检测过程中的异常点比例是自动调整而获取,无需根据经验设置。
上述基于聚类和SSE的异常点比例优化装置可以实现为计算机程序的形式,该计算机程序可以在如图11所示的计算机设备上运行。
请参阅图11,图11是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图11,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于聚类和SSE的异常点比例优化方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于聚类和SSE的异常点比例优化方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图11中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:接收待分类数据点集合,通过k-means聚类将所述待分类数据点集合进行聚类,得到多个聚类簇;获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的单分类支持向量机;将所选定的聚类簇根据所述单分类支持向量机及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;获取所述分类结果中异常类别的每一数据点与所述正常点中心的残差平方和,以获取当前残差平方和;通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;将所选定的聚类簇根据所述单分类支持向量机及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的残差以作为下一残平方和差平方和;通过下一残差平方和与当前残差平方和之差除以所述步长,得到残差变动幅度;判断所述残差变动幅度是否超出预设的变动幅度阈值;若所述残差变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例;以及将所选定的聚类簇根据所述单分类支持向量机及最优异常点比例进行分类,得到最优分类结果。
在一实施例中,处理器502在执行所述通过k-means聚类将所述待分类数据点集合进行聚类,得到多个聚类簇的步骤时,执行如下操作:在多个待分类数据点集合中选取与预设的聚类簇数相同个数的数据点,将所选取的数据点作为每一簇的初始聚类中心;根据所述待分类数据点集合中各数据点与各初始聚类中心的相异值,将所述待分类数据点集合进行划分,得到初始聚类结果;根据初始聚类结果,获取每一簇的调整后聚类中心;根据调整后聚类中心,将所述待分类数据点集合根据与调整后聚类中心的相异值进行划分,直至聚类结果保持相同的次数多于预设的次数,得到与预设的聚类簇数对应的聚类簇。
在一实施例中,处理器502在执行所述判断所述残差变动幅度是否超出预设的变动幅度阈值的步骤之后,还执行如下操作:若所述残差变动幅度未超出所述变动幅度阈值,将当前异常点比例减去所述步长以更新当前异常点比例,通过下一残差平方和以更新当前残差平方和,返回执行将所述待分类样本根据所述单分类支持向量机及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的残差平方和以作为下一残差平方和的步骤。
在一实施例中,处理器502在执行所述根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的单分类支持向量机的步骤时,执行如下操作:根据预设的当前异常点比例及每一聚类簇,获取各聚类簇相应单分类支持向量机所对应的超平面的第一参数和第二参数;根据超平面的第一参数和第二参数,及所述当前异常点比例,构建与每一聚类簇一一对应的用于异常点检测的单分类支持向量机。
在一实施例中,处理器502在执行所述将所选定的聚类簇根据所述单分类支持向量机及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心的步骤时,执行如下操作:将所选定的聚类簇根据对应的单分类支持向量机及当前异常点比例进行分类,得到与所选定的聚类簇对应的分类结果;其中,所述分类结果中包括正常类别的数据点和异常类别的数据点;获取所述分类结果中正常类别的数据点所对应的平均值,以获取初始正常点中心;获取所述分类结果中正常类别的数据点中与所述初始正常点中心距离最近的数据点,以作为正常类别的数据点对应的正常点中心。
本领域技术人员可以理解,图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图11所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现以下步骤:接收待分类数据点集合,通过k-means聚类将所述待分类数据点集合进行聚类,得到多个聚类簇;获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的单分类支持向量机;将所选定的聚类簇根据所述单分类支持向量机及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;获取所述分类结果中异常类别的每一数据点与所述正常点中心的残差平方和,以获取当前残差平方和;通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;将所选定的聚类簇根据所述单分类支持向量机及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的残差以作为下一残平方和差平方和;通过下一残差平方和与当前残差平方和之差除以所述步长,得到残差变动幅度;判断所述残差变动幅度是否超出预设的变动幅度阈值;若所述残差变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例;以及将所选定的聚类簇根据所述单分类支持向量机及最优异常点比例进行分类,得到最优分类结果。
在一实施例中,所述通过k-means聚类将所述待分类数据点集合进行聚类,得到多个聚类簇,包括:在多个待分类数据点集合中选取与预设的聚类簇数相同个数的数据点,将所选取的数据点作为每一簇的初始聚类中心;根据所述待分类数据点集合中各数据点与各初始聚类中心的相异值,将所述待分类数据点集合进行划分,得到初始聚类结果;根据初始聚类结果,获取每一簇的调整后聚类中心;根据调整后聚类中心,将所述待分类数据点集合根据与调整后聚类中心的相异值进行划分,直至聚类结果保持相同的次数多于预设的次数,得到与预设的聚类簇数对应的聚类簇。
在一实施例中,判断所述残差变动幅度是否超出预设的变动幅度阈值之后,还包括:若所述残差变动幅度未超出所述变动幅度阈值,将当前异常点比例减去所述步长以更新当前异常点比例,通过下一残差平方和以更新当前残差平方和,返回执行将所述待分类样本根据所述单分类支持向量机及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的残差平方和以作为下一残差平方和的步骤。
在一实施例中,所述根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的单分类支持向量机,包括:根据预设的当前异常点比例及每一聚类簇,获取各聚类簇相应单分类支持向量机所对应的超平面的第一参数和第二参数;根据超平面的第一参数和第二参数,及所述当前异常点比例,构建与每一聚类簇一一对应的用于异常点检测的单分类支持向量机。
在一实施例中,所述将所选定的聚类簇根据所述单分类支持向量机及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心,包括:将所选定的聚类簇根据对应的单分类支持向量机及当前异常点比例进行分类,得到与所选定的聚类簇对应的分类结果;其中,所述分类结果中包括正常类别的数据点和异常类别的数据点;获取所述分类结果中正常类别的数据点所对应的平均值,以获取初始正常点中心;获取所述分类结果中正常类别的数据点中与所述初始正常点中心距离最近的数据点,以作为正常类别的数据点对应的正常点中心。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于聚类和SSE的异常点比例优化方法,其特征在于,包括:
接收待分类数据点集合,通过k-means聚类将所述待分类数据点集合进行聚类,得到多个聚类簇;
获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的单分类支持向量机;
将所选定的聚类簇根据所述单分类支持向量机及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;
获取所述分类结果中异常类别的每一数据点与所述正常点中心的残差平方和,以获取当前残差平方和;
通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;
将所选定的聚类簇根据所述单分类支持向量机及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的残差以作为下一残平方和差平方和;
通过下一残差平方和与当前残差平方和之差除以所述步长,得到残差变动幅度;
判断所述残差变动幅度是否超出预设的变动幅度阈值;
若所述残差变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例;以及
将所选定的聚类簇根据所述单分类支持向量机及最优异常点比例进行分类,得到最优分类结果。
2.根据权利要求1所述的基于聚类和SSE的异常点比例优化方法,其特征在于,所述通过k-means聚类将所述待分类数据点集合进行聚类,得到多个聚类簇,包括:
在多个待分类数据点集合中选取与预设的聚类簇数相同个数的数据点,将所选取的数据点作为每一簇的初始聚类中心;
根据所述待分类数据点集合中各数据点与各初始聚类中心的相异值,将所述待分类数据点集合进行划分,得到初始聚类结果;
根据初始聚类结果,获取每一簇的调整后聚类中心;
根据调整后聚类中心,将所述待分类数据点集合根据与调整后聚类中心的相异值进行划分,直至聚类结果保持相同的次数多于预设的次数,得到与预设的聚类簇数对应的聚类簇。
3.根据权利要求1所述的基于聚类和SSE的异常点比例优化方法,其特征在于,判断所述残差变动幅度是否超出预设的变动幅度阈值之后,还包括:
若所述残差变动幅度未超出所述变动幅度阈值,将当前异常点比例减去所述步长以更新当前异常点比例,通过下一残差平方和以更新当前残差平方和,返回执行将所述待分类样本根据所述单分类支持向量机及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的残差平方和以作为下一残差平方和的步骤。
4.根据权利要求1所述的基于聚类和SSE的异常点比例优化方法,其特征在于,所述根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的单分类支持向量机,包括:
根据预设的当前异常点比例及每一聚类簇,获取各聚类簇相应单分类支持向量机所对应的超平面的第一参数和第二参数;
根据超平面的第一参数和第二参数,及所述当前异常点比例,构建与每一聚类簇一一对应的用于异常点检测的单分类支持向量机。
5.根据权利要求1所述的基于聚类和SSE的异常点比例优化方法,其特征在于,所述将所选定的聚类簇根据所述单分类支持向量机及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心,包括:
将所选定的聚类簇根据对应的单分类支持向量机及当前异常点比例进行分类,得到与所选定的聚类簇对应的分类结果;其中,所述分类结果中包括正常类别的数据点和异常类别的数据点;
获取所述分类结果中正常类别的数据点所对应的平均值,以获取初始正常点中心;
获取所述分类结果中正常类别的数据点中与所述初始正常点中心距离最近的数据点,以作为正常类别的数据点对应的正常点中心。
6.一种基于聚类和SSE的异常点比例优化装置,其特征在于,包括:
聚类单元,用于接收待分类数据点集合,通过k-means聚类将所述待分类数据点集合进行聚类,得到多个聚类簇;
多模型构建单元,用于获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的单分类支持向量机;
正常点中心获取单元,用于将所选定的聚类簇根据所述单分类支持向量机及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;
第一残差计算单元,用于获取所述分类结果中异常类别的每一数据点与所述正常点中心的残差平方和,以获取当前残差平方和;
第一比例更新单元,用于通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;
第二残差计算单元,用于将所选定的聚类簇根据所述单分类支持向量机及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的残差以作为下一残平方和差平方和;
幅度计算单元,用于通过下一残差平方和与当前残差平方和之差除以所述步长,得到残差变动幅度;
判断单元,用于判断所述残差变动幅度是否超出预设的变动幅度阈值;
最优比例获取单元,用于若所述残差变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例;以及
最优分类单元,用于将所选定的聚类簇根据所述单分类支持向量机及最优异常点比例进行分类,得到最优分类结果。
7.根据权利要求6所述的基于聚类和SSE的异常点比例优化装置,其特征在于,所述聚类单元,包括:
初始聚类中心获取单元,用于在多个待分类数据点集合中选取与预设的聚类簇数相同个数的数据点,将所选取的数据点作为每一簇的初始聚类中心;
初始聚类单元,用于根据所述待分类数据点集合中各数据点与各初始聚类中心的相异值,将所述待分类数据点集合进行划分,得到初始聚类结果;
聚类中心调整单元,用于根据初始聚类结果,获取每一簇的调整后聚类中心;
聚类调整单元,用于根据调整后聚类中心,将所述待分类数据点集合根据与调整后聚类中心的相异值进行划分,直至聚类结果保持相同的次数多于预设的次数,得到与预设的聚类簇数对应的聚类簇。
8.根据权利要求6所述的基于聚类和SSE的异常点比例优化装置,其特征在于,还包括:
第二比例更新单元,用于若所述残差变动幅度未超出所述变动幅度阈值,将当前异常点比例减去所述步长以更新当前异常点比例,通过下一残差平方和以更新当前残差平方和,返回执行将所述待分类样本根据所述单分类支持向量机及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的残差平方和以作为下一残差平方和的步骤。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的基于聚类和SSE的异常点比例优化方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的基于聚类和SSE的异常点比例优化方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910079217.9A CN109961086B (zh) | 2019-01-28 | 2019-01-28 | 基于聚类和sse的异常点比例优化方法及装置 |
PCT/CN2019/117363 WO2020155756A1 (zh) | 2019-01-28 | 2019-11-12 | 基于聚类和sse的异常点比例优化方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910079217.9A CN109961086B (zh) | 2019-01-28 | 2019-01-28 | 基于聚类和sse的异常点比例优化方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109961086A true CN109961086A (zh) | 2019-07-02 |
CN109961086B CN109961086B (zh) | 2024-05-31 |
Family
ID=67023504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910079217.9A Active CN109961086B (zh) | 2019-01-28 | 2019-01-28 | 基于聚类和sse的异常点比例优化方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109961086B (zh) |
WO (1) | WO2020155756A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458581A (zh) * | 2019-07-11 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 商户业务周转异常的识别方法及装置 |
CN110990867A (zh) * | 2019-11-28 | 2020-04-10 | 上海观安信息技术股份有限公司 | 基于数据库的数据泄露检测模型的建模方法、装置,泄露检测方法、系统 |
CN111459926A (zh) * | 2020-03-26 | 2020-07-28 | 广西电网有限责任公司电力科学研究院 | 一种园区综合能源异常数据识别方法 |
WO2020155756A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 基于聚类和sse的异常点比例优化方法及装置 |
WO2020155753A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 基于sse的异常点比例优化方法、装置及计算机设备 |
CN111540202A (zh) * | 2020-04-23 | 2020-08-14 | 杭州海康威视系统技术有限公司 | 一种相似卡口确定方法、装置、电子设备及可读存储介质 |
CN111612085A (zh) * | 2020-05-28 | 2020-09-01 | 上海观安信息技术股份有限公司 | 一种对等组中异常点的检测方法及装置 |
CN111914942A (zh) * | 2020-08-12 | 2020-11-10 | 烟台海颐软件股份有限公司 | 一种多表合一用能异常分析方法 |
WO2022155939A1 (zh) * | 2021-01-25 | 2022-07-28 | 深圳大学 | 一种数据属性的分组方法、装置、设备及存储介质 |
CN116933107A (zh) * | 2023-07-24 | 2023-10-24 | 水木蓝鲸(南宁)半导体科技有限公司 | 数据分布边界确定方法、装置、计算机设备和存储介质 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780354B (zh) * | 2021-08-11 | 2024-01-23 | 国网上海市电力公司 | 调度自动化主站系统遥测数据异常识别方法和装置 |
CN114077872A (zh) * | 2021-11-29 | 2022-02-22 | 税友软件集团股份有限公司 | 一种数据异常检测方法及相关装置 |
CN116796214B (zh) * | 2023-06-07 | 2024-01-30 | 南京北极光生物科技有限公司 | 一种基于差分特征的数据聚类方法 |
CN116416078B (zh) * | 2023-06-09 | 2023-08-15 | 济南百思为科信息工程有限公司 | 用于维修资金账务安全的审计监管方法 |
CN116781984B (zh) * | 2023-08-21 | 2023-11-07 | 深圳市华星数字有限公司 | 一种机顶盒数据优化存储方法 |
CN117520994B (zh) * | 2024-01-03 | 2024-04-19 | 深圳市活力天汇科技股份有限公司 | 基于用户画像和聚类技术识别机票异常搜索用户方法及系统 |
CN117851464B (zh) * | 2024-03-07 | 2024-05-14 | 济南道图信息科技有限公司 | 一种用于心理评估的用户行为模式辅助分析方法 |
CN118051800B (zh) * | 2024-04-16 | 2024-06-21 | 山东峰华智能科技有限公司 | 基于云边协同的矿内监测数据智能处理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015109781A1 (zh) * | 2014-01-27 | 2015-07-30 | 华为技术有限公司 | 基于期望最大确定统计模型参数的方法和装置 |
CN108710761A (zh) * | 2018-05-22 | 2018-10-26 | 泉州装备制造研究所 | 一种基于谱聚类去除离群点的鲁棒模型拟合方法 |
CN108717461A (zh) * | 2018-05-25 | 2018-10-30 | 平安科技(深圳)有限公司 | 海量数据结构化方法、装置、计算机设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389636A (zh) * | 2015-12-11 | 2016-03-09 | 河海大学 | 一种低压台区kfcm-svr合理线损预测方法 |
CN106778908A (zh) * | 2017-01-11 | 2017-05-31 | 湖南文理学院 | 一种新异类检测方法与装置 |
CN108322363B (zh) * | 2018-02-12 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 推送数据异常监控方法、装置、计算机设备和存储介质 |
CN109961086B (zh) * | 2019-01-28 | 2024-05-31 | 平安科技(深圳)有限公司 | 基于聚类和sse的异常点比例优化方法及装置 |
-
2019
- 2019-01-28 CN CN201910079217.9A patent/CN109961086B/zh active Active
- 2019-11-12 WO PCT/CN2019/117363 patent/WO2020155756A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015109781A1 (zh) * | 2014-01-27 | 2015-07-30 | 华为技术有限公司 | 基于期望最大确定统计模型参数的方法和装置 |
CN108710761A (zh) * | 2018-05-22 | 2018-10-26 | 泉州装备制造研究所 | 一种基于谱聚类去除离群点的鲁棒模型拟合方法 |
CN108717461A (zh) * | 2018-05-25 | 2018-10-30 | 平安科技(深圳)有限公司 | 海量数据结构化方法、装置、计算机设备及存储介质 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020155756A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 基于聚类和sse的异常点比例优化方法及装置 |
WO2020155753A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 基于sse的异常点比例优化方法、装置及计算机设备 |
CN110458581A (zh) * | 2019-07-11 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 商户业务周转异常的识别方法及装置 |
CN110458581B (zh) * | 2019-07-11 | 2024-01-16 | 创新先进技术有限公司 | 商户业务周转异常的识别方法及装置 |
CN110990867B (zh) * | 2019-11-28 | 2023-02-07 | 上海观安信息技术股份有限公司 | 基于数据库的数据泄露检测模型的建模方法、装置,泄露检测方法、系统 |
CN110990867A (zh) * | 2019-11-28 | 2020-04-10 | 上海观安信息技术股份有限公司 | 基于数据库的数据泄露检测模型的建模方法、装置,泄露检测方法、系统 |
CN111459926A (zh) * | 2020-03-26 | 2020-07-28 | 广西电网有限责任公司电力科学研究院 | 一种园区综合能源异常数据识别方法 |
CN111540202A (zh) * | 2020-04-23 | 2020-08-14 | 杭州海康威视系统技术有限公司 | 一种相似卡口确定方法、装置、电子设备及可读存储介质 |
CN111540202B (zh) * | 2020-04-23 | 2021-07-30 | 杭州海康威视系统技术有限公司 | 一种相似卡口确定方法、装置、电子设备及可读存储介质 |
CN111612085A (zh) * | 2020-05-28 | 2020-09-01 | 上海观安信息技术股份有限公司 | 一种对等组中异常点的检测方法及装置 |
CN111612085B (zh) * | 2020-05-28 | 2023-07-11 | 上海观安信息技术股份有限公司 | 一种对等组中异常点的检测方法及装置 |
CN111914942A (zh) * | 2020-08-12 | 2020-11-10 | 烟台海颐软件股份有限公司 | 一种多表合一用能异常分析方法 |
WO2022155939A1 (zh) * | 2021-01-25 | 2022-07-28 | 深圳大学 | 一种数据属性的分组方法、装置、设备及存储介质 |
CN116933107A (zh) * | 2023-07-24 | 2023-10-24 | 水木蓝鲸(南宁)半导体科技有限公司 | 数据分布边界确定方法、装置、计算机设备和存储介质 |
CN116933107B (zh) * | 2023-07-24 | 2024-05-10 | 水木蓝鲸(南宁)半导体科技有限公司 | 数据分布边界确定方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109961086B (zh) | 2024-05-31 |
WO2020155756A1 (zh) | 2020-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109961086A (zh) | 基于聚类和sse的异常点比例优化方法及装置 | |
CN109871886A (zh) | 基于谱聚类的异常点比例优化方法、装置及计算机设备 | |
Skolpadungket et al. | Portfolio optimization using multi-obj ective genetic algorithms | |
CN109919186A (zh) | 异常点比例优化方法、装置、计算机设备及存储介质 | |
CN109685635A (zh) | 金融业务的风险评估方法、风控服务端及存储介质 | |
CN106845642B (zh) | 一种带约束云工作流调度的自适应多目标进化方法 | |
CN110474808B (zh) | 一种流量预测方法及装置 | |
CN105929690B (zh) | 一种基于分解多目标进化算法的柔性车间鲁棒调度方法 | |
CN106845988A (zh) | 用于选择支付通道的方法及装置 | |
CN110459267A (zh) | 一种基于改进自适应遗传算法的人体体成分预测方法 | |
CN107358268A (zh) | 用于数据聚类分组的方法、装置、电子设备及可读介质 | |
US6944607B1 (en) | Aggregated clustering method and system | |
CN111105265A (zh) | 基于客户信息的预测方法、装置、计算机设备及存储介质 | |
CN104735710B (zh) | 一种基于趋势外推聚类的移动网络性能预警预判方法 | |
Nenova et al. | Determining an optimal hierarchical forecasting model based on the characteristics of the data set | |
CN108805343A (zh) | 一种基于多元线性回归的科技服务业发展水平预测方法 | |
WO2018124170A1 (ja) | 説明変数を選択する装置、方法及びプログラム | |
CN108089923A (zh) | 基于加权Voronoi图的用户接入区域划分方法和装置 | |
CN106202092A (zh) | 数据处理的方法及系统 | |
Khoshgoftaar et al. | Controlling overfitting in classification-tree models of software quality | |
Chen et al. | A fuzzy set approach for yield learning modeling in wafer manufacturing | |
CN110533453A (zh) | 基于用户匹配的产品推荐方法、装置、计算机设备 | |
CN110060166A (zh) | 智能理赔方法、装置、计算机设备以及存储介质 | |
CN106919808B (zh) | 基于变步长最小均方误差自适应滤波器的基因识别系统 | |
CN108694413A (zh) | 自适应采样不平衡数据分类处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |