CN114201999A - 异常账号的识别方法、系统、计算设备及存储介质 - Google Patents
异常账号的识别方法、系统、计算设备及存储介质 Download PDFInfo
- Publication number
- CN114201999A CN114201999A CN202010899598.8A CN202010899598A CN114201999A CN 114201999 A CN114201999 A CN 114201999A CN 202010899598 A CN202010899598 A CN 202010899598A CN 114201999 A CN114201999 A CN 114201999A
- Authority
- CN
- China
- Prior art keywords
- account
- data
- class
- clustering
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 51
- 239000011159 matrix material Substances 0.000 claims abstract description 40
- 238000001514 detection method Methods 0.000 claims abstract description 35
- 238000004364 calculation method Methods 0.000 claims abstract description 21
- 238000004458 analytical method Methods 0.000 claims abstract description 7
- 238000004891 communication Methods 0.000 claims description 15
- 230000009467 reduction Effects 0.000 claims description 10
- 238000000513 principal component analysis Methods 0.000 claims description 8
- 238000013499 data model Methods 0.000 claims 1
- 238000003066 decision tree Methods 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000192 social effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G06Q50/40—
Abstract
本发明公开了一种异常账号的识别方法、系统、计算设备及存储介质,该方法包括:获取ESB服务总线的历史日志数据、账号信息以及数据仓库中的数据,并拟合得到矩阵型数据模组;对该矩阵型数据模组进行核密度估计计算,计算得到由每个账号的核密度估计值构成的栅格影像;根据该栅格影像确定K个初始聚类中心;根据该K个初始聚类中心对该矩阵型数据模组包含的账号进行聚类处理,得到K类账号;针对任一类,对该类中的账号进行离散点检测,根据检测结果确定该类中的异常账号数据。由此可见,本发明方案,综合了基于核密度估计和聚类思想,相比单纯基于人工经验和决策树模型得到的分析结果,其识别准确率会更高。
Description
技术领域
本发明涉及移动通信的业务支撑技术领域,具体涉及一种异常账号的识别方法、系统、计算设备及存储介质。
背景技术
移动运营商的社会渠道会通过使用外挂程序批量调用ESB(Enterprise ServiceBus,译为企业服务总线)的查询接口获取用户敏感信息,造成用户信息泄露,产生不良社会影响,对公司造成重大损失。
当前运营商识别异常账号,主要采用的方法有:1、通过分析ESB服务总线日志,结合历史经验找出非法执行ESB接口服务时的操作员账号;2、利用机器学习模型,例如通过决策树模型对账号进行分析划分,识别出异常账号。
然而,发明人在实施本发明实施例的过程中发现,现有的异常账号识别方案至少存在如下问题:其一,利用历史经验人为判断,该方法虽然简单,但具有主观性的判断,而且识别出的异常账号准确性不高,不具有说明性;其二,通过机器学习中的决策树模型进行判断,该方法得出的结果虽然具有一定的说明性,但是实施算法过程过于繁琐且不能进行多维数据的识别,导致得出的异常账号结果覆盖面不全,准确性较低。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的异常账号的识别方法、系统、计算设备及存储介质。
根据本发明实施例的一个方面,提供了一种异常账号的识别方法,包括:
获取ESB服务总线的历史日志数据、账号信息以及数据仓库中的数据,并拟合得到矩阵型数据模组;其中,所述矩阵型数据模组的一行表示一组降维数据;
对所述矩阵型数据模组进行核密度估计计算,得到包含多个账号的核密度估计值的栅格影像;根据所述栅格影像确定K个初始聚类中心,其中,K为聚类数量,其为大于0的自然数;
根据所述K个初始聚类中心对所述矩阵型数据模组包含的账号进行聚类处理,得到K类账号;
针对任一类,对该类中的账号进行离散点检测,根据检测结果确定该类中的异常账号数据。
根据本发明实施例的另一方面,提供了一种异常账号的识别装置,包括:
拟合模块,适于获取ESB服务总线的历史日志数据、账号信息以及数据仓库中的数据,并拟合得到矩阵型数据模组;其中,所述矩阵型数据模组的一行表示一组降维数据;
核密度估计模块,适于对所述矩阵型数据模组进行核密度估计计算,得到包含多个账号的核密度估计值的栅格影像;根据所述栅格影像确定K个初始聚类中心,其中,K为聚类数量,其为大于0的自然数;
聚类模块,适于根据所述K个初始聚类中心对所述矩阵型数据模组包含的账号进行聚类处理,得到K类账号;
检测模块,适于针对任一类,对该类中的账号进行离散点检测,根据检测结果确定该类中的异常账号数据。
根据本发明实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述异常账号的识别方法对应的操作。
根据本发明实施例的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述异常账号的识别方法对应的操作。
根据本发明实施例的异常账号的识别方法、系统、计算设备及存储介质,获取ESB服务总线的历史日志数据、账号信息以及数据仓库中的数据,并拟合得到矩阵型数据模组,以便后续进行聚类分析;以及,通过核密度估计计算,确定各个账号的核密度估计值,并依据该核密度估计值选取出K个初始聚类中心,以提高初始聚类中心以及数量的确定结果的客观性和合理性;根据该K个初始聚类中心对账号进行聚类处理,得到K类账号,以实现将账号按照相似度聚类;然后,针对每类进行离散点检测,以准确的确定出异常账号。由此可见,本实施例方案,识别过程完全无需人为主观参与,避免主观因素影响,同时获取ESB服务总线的历史日志数据、账号信息以及数据仓库中的数据进行识别,覆盖全面,进而可以提高识别的准确性;以及,通过聚类而后进行离散点检测则可确定出异常账号,检测过程简单,有利于提高检测效率。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的异常账号的识别方法的流程图;
图2示出了本发明另一个实施例提供的异常账号的识别方法的流程图;
图3示出了一种具体的实施方式中步骤S230的子流程图;
图4示出了一个具体示例中的整体识别流程的示意图;
图5示出了本发明实施例提供的异常账号的识别装置的结构示意图;
图6示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的异常账号的识别方法的流程图。如图1所示,该方法包括以下步骤:
步骤S110:获取ESB服务总线的历史日志数据、账号信息以及数据仓库中的数据,并拟合得到矩阵型数据模组;其中,该矩阵型数据模组的一行表示一组降维数据。
其中,数据仓库中的数据主要是指准实时的日常日志数据,例如,最近一周的日志数据;以及,这些日志数据和账号信息可以反映出账号情况和/或该账号的业务情况,例如,账号a在凌晨1点开通邮箱服务,账号a的登录频次等。
具体地,日志数据和账号信息中包含多个维度的信息,为了便于后续在二维平面内进行聚类,将多个维度的信息降维到两个维度,拟合得到矩阵型数据模组,而模组中的一行表示一组降维后的降维数据,优选的,为了后续在二维平面内进行聚类,可降维至二维,通常情况下,两个维度包括账号维度和业务维度,其中,账号维度主要由账号的登录时间、登录频次、个人信息以及组织信息等多个维度拟合得到,以及业务维度主要由业务类型以及业务详情等多个维度拟合得到。
步骤S120:对该矩阵型数据模组进行核密度估计计算,得到包含多个账号的核密度估计值的栅格影像;根据该栅格影像确定K个初始聚类中心,其中,K为聚类数量,其为大于0的自然数。
在本发明实施例中,通过核密度估计的方式来确定初始聚类中心和聚类数量。
具体地,矩阵型数据模组中的每个账号对应的降维数据可对应到一个像元,通过核密度估计计算,得到一张带有连续密度值的栅格影像,其中包含多个像元的核密度估计值。然后,根据栅格影像从中选取出核密度较大的账号作为初始聚类中心。上述确定初始聚类中心的方式,完全不存在人为干预,同时基于核密度估计值而不是基于随机算法进行选取,可以提高初始聚类中心以及数量的确定结果的客观性和合理性。
需要在此说明的是,在本发明实施例中,不限定具体计算核密度估计值的具体计算公式,在具体实施时,本领域激素人员可根据实际需求灵活选择核函数并进行核密度估计值的计算。
步骤S130:根据该K个初始聚类中心对该矩阵型数据模组包含的账号进行聚类处理,得到K类账号。
其中,矩阵型数据模组包含的账号即为每行的降维数据表示的账号,需要在此说明的是,下文中所说的账号均是如此。
具体地,根据初始聚类中心对账号进行聚类处理,可得到K类账号,其中,归类到同一类的账号表示画像相似的账号。
需要在此说明的是,在本发明中,并不限定进行聚类处理的具体算法,实际实施时,本领域技术人员可选取任意以初始聚类中心和聚类数量作为输入的聚类算法进行聚类处理。
步骤S140:针对任一类,对该类中的账号进行离散点检测,根据检测结果确定该类中的异常账号。
其中,离散点即为与其它账号的距离超过预设值的点(也即账号)。通常情况下,归类到同一类的账号的相似度较高,理应距离较近,基于此,则可通过离散点检测检测出异常账号。
根据本实施例提供的异常账号的识别方法,获取ESB服务总线的历史日志数据、账号信息以及数据仓库中的数据,并拟合得到矩阵型数据模组,以便后续进行聚类分析;以及,通过核密度估计计算,确定各个账号的核密度估计值,并依据该核密度估计值选取出K个初始聚类中心,以提高初始聚类中心以及数量的确定结果的客观性和合理性;根据该K个初始聚类中心对账号进行聚类处理,得到K类账号,以实现将账号按照相似度聚类;然后,针对每类进行离散点检测,以准确的确定出异常账号。由此可见,本实施例方案,识别过程完全无需人为主观参与,避免主观因素影响,同时获取ESB服务总线的历史日志数据、账号信息以及数据仓库中的数据进行识别,覆盖全面,进而可以提高识别的准确性;以及,通过聚类而后进行离散点检测则可确定出异常账号,检测过程简单,有利于提高检测效率。
图2示出了本发明另一个实施例提供的异常账号的识别方法的流程图。如图2所示,该方法包括以下步骤:
步骤S210:获取ESB服务总线的历史日志数据、账号信息以及数据仓库中的数据,利用主成分分析模型拟合得到矩阵型数据模组;其中,该矩阵型数据模组的一行表示一组降维数据。
基于数据库中的历史日志数据,账号信息数据以及数据仓库的数据作为输入来源,放置在识别系统的前置设备中,该设备是对源数据的存储设备,以保证数据信息的完整性,接着系统数据处理器通过调用系统前置设备中的数据进行处理,该层系统数据处理器采用机器学习中的PCA(principal components analysis,主成分分析)模型进行处理。PCA模型技术对输入进去的数据进行清理整合,得到矩阵型数据模组,该数据模组将不同维度实体数据相互联系,不仅完整的保留了原始数据的有价值信息,还拓展了原始数据的信息。
步骤S220:对该矩阵型数据模组进行核密度估计计算,得到包含多个账号的核密度估计值构成的栅格影像;根据该栅格影像确定K个初始聚类中心,其中,K为聚类数量,其为大于0的自然数。
将拟合得到的矩阵型数据模组通过核密度估计算法确认k-means算法初始聚类中心和聚类个数,代替了传统算法中的随机选择。其中,核密度是概率论中用来估计未知的密度函数,属于非参数检验方法之一,概念上每个点上方覆盖着一个平滑的曲面,在点所在位置表面值最高,随着距离的增加表面值减少,直到距离等于搜索半径时值为零,输出栅格的每个元值为所有叠加在该像元上的表面值之和,由此核密度估计算法是将一个点集转化为表现出连续密度变化的表面。
在本发明实施例中,像元是指数据模组中各组二维数据表示的账号,具体用一个坐标点表示。
具体地,将数据模组进行核密度估计计算,得到一幅可以表现出连续密度变化的栅格影像,影像中各个像元的像素值代表该像元的密度,像素值与密度值成正相关,像素值越高,则该像元处的密度值越高;通过设置估计值阈值,从该栅格影像中划分出核密度估计值高于该估计值阈值的第一密度区域,以及,核密度估计值低于或等于该估计值阈值的则为第二密度区域,该第一密度区域为高密度区域,第二密度区域为低密度区域,其中,估计值阈值可由本领域技术人员进行灵活设定,通常情况下,选取估计值阈值为95%;然后,在该第一密度区域中统计得到极大密度点集,提取该极大密度点集,可利用焦点统计工具在该第一密度区域中统计得到极大密度点集,利用重分类空间分析工具提取该极大密度点集。再将该极大密度点集中的点确定为初始聚类中心,点数的数量作为聚类数量。通过上述方式,将高密度区域内的极大密度点集确定为初始聚类中心,则可以高效准确的得到汇聚程度较高的初始聚类中心,而避免传统的聚类算法中初始聚类中心和聚类数量人工选择的随机性,提高了后聚类算法的准确性。
进一步的,在进行和密度估计值的计算时,对核函数K,计算输出栅格的每个像元的核密度估计值,公式如下:
式中,K是二维空间的核函数,h是带宽,n是带宽范围内观测点的数量,i=1,2,…,n,x-xi为当前待求取核密度估计值的像元与第i个像元的第一个维度的维度数据的差值,以及x-xi为当前待求取核密度估计值的像元与第i个像元的第二个维度的维度数据的差值。
更进一步的,核函数可采用基于Silverman提出的二次核函数,公式如下:
步骤S230:根据该K个初始聚类中心对该矩阵型数据模组包含的账号进行聚类处理,得到K类账号。
依据动态规划对聚类算法进行迭代处理,并根据初始聚类中心将离它们最近的账号相应的划分到它们各自的类中,对包含账号最多的类再进行分类,直到K类,算法收敛。
图3示出了一种具体的实施方式中步骤S230的子流程图。如图3所示,该子流程图包括:
步骤S310,计算各个其它账号到K个初始聚类中心的第一距离,查找出第一距离最大的第一账号和第二账号。
其中,此处的其它账号是指除K个聚类中心之外的账号。
具体地,在计算距离时,计算的是账号对应的降维数据之间的距离,可选的,通过欧式距离来进行计算,欧式距离的一般公式如下:
其中,i和j代表数据集中的两个不同数据对象,且数据集中每个数据对象都有p个属性,d便是数据对象i和j的欧式距离。
在本发明实施例中,i和j则是两个不同账号,且每个账号有两个属性(即两个维度的维度数据)。利用上述欧式距离公式可计算得到各个其它账号与初始聚类中心之间的第一距离,并查找出第一距离最大的第一账号和第二账号。
步骤S320,以该第一账号和第二账号分别作为第一类和第二类的聚类中心。
将第一账号和第二账号确定为新的聚类中心。
步骤S330,计算各个其它账号分别至第一账号和第二账号的距离,根据计算结果将各个其它账号归类至第一类和第二类。
其中,此处的其它账号是指除第一账号和第二账号之外的其它未被归类至目标类的账号,而在首次执行该步骤S330时,还未确定出目标类以及归类至该目标类的账号,此时该其它账号即为除该第一账号和第二账号之外的其它所有账号。
具体地,针对任一其它账号,计算该其它账号分别与第一账号和第二账号的距离,并将该其它账号归类至更近距离的类,依次完成对所有其它账号的归类。
步骤S340,比较归类到该第一类和第二类中账号的数量,将数量少的一类确定为一个目标类,以及将该数量少的一类中的账号确定为归类到该目标类的账号。
选择归类到的账号最多的类作为目标类。例如,共有100个账号,其中两个为第一账号和第二账号,其它98个账号中有30个账号归类至第一账号为聚类中心的第一类,以及68个账号归类至第二账号为聚类中心的第二类,则将第一类确定为目标类,将第一类中的30+1(1个为第一账号)个账号归类到该目标类(实质上还包括作为聚类中心的第一账号)。
步骤S350,判断目标类的数量是否达到K类,若否,则执行步骤S360;若是,则聚类结束。
步骤S360,在数量少的另一类中,确定更新的第一账号和第二账号,并重复执行S320及其后续步骤。
延用前例,则将第二类中的68+1(1个为第二账号)个账号中确定新的第二账号和第二账号,然后重复步骤320及其后续步骤,直至确定的目标类的数量达到通过核密度估计计算得到的聚类数量K。
具体地,针对该数量少的另一类中的账号,计算任意两个账号之间的第二距离,查找出第二距离最大的两个账号,将该两个账号确定为更新的第一账号和第二账号,在此处,是通过计算另一类中的账号两两之间的第二距离来确定第一账号和第二账号,这与步骤S310是不同的,在步骤S310中计算的是其它账号与第一账号和第二账号之间的第一距离。
需要在此说明的是,在本发明实施例中,并不限定聚类的具体算法,在一些可选的实施例中,聚类算法采用k-means算法,在具体聚类时,输入n个账号的降维数据作为n个数据对象,以及输入核密度估计计算得到的初始聚类中心和聚类数量K,然后聚类算法输出得到K个簇,即K个类的账号。
步骤S240:针对任一类,对该类中的账号进行离散点检测,将检测到的离散点确定为该类中的异常账号。
在本发明实施例中,在进行聚类前保留了孤立点,确保数据的完整性,在聚类后,则可通过离散点检测,将每个类中的离散点确定为异常账号。
图4示出了一个具体示例中的整体识别流程的示意图。如图4所示,该整体流程主要涉及基础数据层和数据挖掘层两个构成,用于实现对多维度数据的整合到对识别异常账号的划分。基于ESB历史日志数据、账号信息以及数据仓库中的数据,利用核密度估计的非参数检验特性并结合动态规划模型进行识别。其中,首先将数据信息储存到系统前置设备中,利用数据存储模块对数据进行存储,再将数据传输到系统数据处理器上,该系统处理器上采用主成分分析、核密度估计值计算以及动态聚类技术对数据进行处理分析,系统数据处理器技术综合了基于核密度估计和动态的聚类思想,相比单纯基于人工经验和决策树模型得到的分析结果,该技术的结果准确率会更高;最后将检测结果进行存储和显示。
根据本实施例提供的异常账号的识别方法,一是将对基础数据层得到的数据模组以核密度估计以及动态聚类算法作为技术手段,对数据模组进行处理,区别于采用传统的聚类算法技术的处理器,在对处理数据量很大的情况下,能够大大的提上处理器的工作效率,并保证数据的完整性,从而提高处理效果的准确性。二是通过第一步的处理器得到的数据结果,采用离散点检测技术对数据进行进一步识别划分,进一步的提高了整个处理器得到的结果准确性。由此可见,本实施例方案至少可以实现如下技术效果:其一,准确性高。系统数据处理器利用核密度估计算法和动态规划模型对传统的聚类算法进行改进,使得算法的准确性提高,并利用动态规划的特性使得能够实现自动化程序的应用,更加准确地对账号进行客户画像分析,进而得到异常账号数据;其二,数据覆盖面更广。将不同维度的数据融合到一起,整合后的数据层面覆盖面更广,并建立不同实体之间的关联关系,不仅充分挖掘了数据的价值,更进一步扩展了原有数据的信息,使得数据结果准确性得到提高;其三,系统简单高效。系统数据存储模块结合高效的系统数据处理器能将系统更简单高效的执行。
图5示出了本发明实施例提供的异常账号的识别装置的结构示意图。如图5所示,该装置包括:
拟合模块510,适于获取ESB服务总线的历史日志数据、账号信息以及数据仓库中的数据,并拟合得到矩阵型数据模组;其中,所述矩阵型数据模组的一行表示一组降维数据;
核密度估计模块520,适于对所述矩阵型数据模组进行核密度估计计算,得到包含多个账号的核密度估计值的栅格影像;根据所述栅格影像确定K个初始聚类中心,其中,K为聚类数量,其为大于0的自然数;
聚类模块530,适于根据所述K个初始聚类中心对所述矩阵型数据模组包含的账号进行聚类处理,得到K类账号;
检测模块540,适于针对任一类,对该类中的账号进行离散点检测,根据检测结果确定该类中的异常账号数据。
在一种可选的方式中,核密度估计模块进一步适于:
设置估计值阈值;从所述栅格影像中划分出核密度估计值高于所述估计值阈值的第一密度区域;
在所述第一密度区域中统计得到极大密度点集,提取所述极大密度点集;
将所述极大密度点集中的点确定为初始聚类中心,点数的数量作为聚类数量。
在一种可选的方式中,核密度估计模块进一步适于:
利用焦点统计工具在所述第一密度区域中统计得到极大密度点集,利用重分类空间分析工具提取所述极大密度点集。
在一种可选的方式中,聚类模块进一步适于:
S1,计算各个其它账号到K个初始聚类中心的第一距离,查找出第一距离最大的第一账号和第二账号;
S2,以所述第一账号和第二账号分别作为第一类和第二类的聚类中心;
S3,计算各个其它账号分别至第一账号和第二账号的距离,根据计算结果将各个其它账号归类至第一类和第二类;
S4,比较归类到所述第一类和第二类中账号的数量,将数量少的一类确定为一个目标类,以及将该数量少的一类中的账号确定为归类到该目标类的账号;
S5,判断目标类的数量是否达到K类,若否,在数量少的另一类中,确定更新的第一账号和第二账号,并重复执行S2及其后续步骤,若是,则聚类结束。
在一种可选的方式中,聚类模块进一步适于:
针对该数量少的另一类中的账号,计算任意两个账号之间的第二距离,查找出第二距离最大的两个账号,将该两个账号确定为更新的第一账号和第二账号。
在一种可选的方式中,拟合模块进一步适于:利用主成分分析模型拟合得到矩阵型数据模组。
在一种可选的方式中,检测模块进一步适于:对该类中的账号进行离散点检测,将检测到的离散点确定为该类中的异常账号。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的异常账号的识别方法。
图6示出了本发明实施例提供的计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图6所示,该计算设备可以包括:处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。
其中:处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。通信接口604,用于与其它设备比如客户端或其它服务器等的网元通信。处理器602,用于执行程序610,具体可以执行上述用于计算设备的异常账号的识别方法实施例中的相关步骤。
具体地,程序610可以包括程序代码,该程序代码包括计算机操作指令。
处理器602可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器606,用于存放程序610。存储器606可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序610具体可以用于使得处理器602执行以下操作:
获取ESB服务总线的历史日志数据、账号信息以及数据仓库中的数据,并拟合得到矩阵型数据模组;其中,所述矩阵型数据模组的一行表示一组降维数据;
对所述矩阵型数据模组进行核密度估计计算,得到包含多个账号的核密度估计值的栅格影像;根据所述栅格影像确定K个初始聚类中心,其中,K为聚类数量,其为大于0的自然数;
根据所述K个初始聚类中心对所述矩阵型数据模组包含的账号进行聚类处理,得到K类账号;
针对任一类,对该类中的账号进行离散点检测,根据检测结果确定该类中的异常账号数据。
在一种可选的方式中,所述程序610进一步使所述处理器602执行以下操作:
设置估计值阈值;从所述栅格影像中划分出核密度估计值高于所述估计值阈值的第一密度区域;
在所述第一密度区域中统计得到极大密度点集,提取所述极大密度点集;
将所述极大密度点集中的点确定为初始聚类中心,点数的数量作为聚类数量。
在一种可选的方式中,所述程序610进一步使所述处理器602执行以下操作:
利用焦点统计工具在所述第一密度区域中统计得到极大密度点集,利用重分类空间分析工具提取所述极大密度点集。
在一种可选的方式中,所述程序610进一步使所述处理器602执行以下操作:
S1,计算各个其它账号到K个初始聚类中心的第一距离,查找出第一距离最大的第一账号和第二账号;
S2,以所述第一账号和第二账号分别作为第一类和第二类的聚类中心;
S3,计算各个其它账号分别至第一账号和第二账号的距离,根据计算结果将各个其它账号归类至第一类和第二类;
S4,比较归类到所述第一类和第二类中账号的数量,将数量少的一类确定为一个目标类,以及将该数量少的一类中的账号确定为归类到该目标类的账号;
S5,判断目标类的数量是否达到K类,若否,在数量少的另一类中,确定更新的第一账号和第二账号,并重复执行S2及其后续步骤,若是,则聚类结束。
在一种可选的方式中,所述程序610进一步使所述处理器602执行以下操作:
针对该数量少的另一类中的账号,计算任意两个账号之间的第二距离,查找出第二距离最大的两个账号,将该两个账号确定为更新的第一账号和第二账号。
在一种可选的方式中,所述程序610进一步使所述处理器602执行以下操作:
利用主成分分析模型拟合得到矩阵型数据模组。
在一种可选的方式中,所述程序610进一步使所述处理器602执行以下操作:
对该类中的账号进行离散点检测,将检测到的离散点确定为该类中的异常账号。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
Claims (10)
1.一种异常账号的识别方法,包括:
获取ESB服务总线的历史日志数据、账号信息以及数据仓库中的数据,并拟合得到矩阵型数据模组;其中,所述矩阵型数据模组的一行表示一组降维数据;
对所述矩阵型数据模组进行核密度估计计算,得到包含多个账号的核密度估计值的栅格影像;根据所述栅格影像确定K个初始聚类中心,其中,K为聚类数量,其为大于0的自然数;
根据所述K个初始聚类中心对所述矩阵型数据模组包含的账号进行聚类处理,得到K类账号;
针对任一类,对该类中的账号进行离散点检测,根据检测结果确定该类中的异常账号数据。
2.根据权利要求1所述的方法,其中,所述根据所述栅格影像确定K个初始聚类中心进一步包括:
设置估计值阈值;从所述栅格影像中划分出核密度估计值高于所述估计值阈值的第一密度区域;
在所述第一密度区域中统计得到极大密度点集,提取所述极大密度点集;
将所述极大密度点集中的点确定为初始聚类中心,点数的数量作为聚类数量。
3.根据权利要求2所述的方法,其中,所述在所述第一密度区域中统计得到极大密度点集,提取所述极大密度点集进一步包括:
利用焦点统计工具在所述第一密度区域中统计得到极大密度点集,利用重分类空间分析工具提取所述极大密度点集。
4.根据权利要求1-3任一项所述的方法,其中,所述根据所述K个初始聚类中心对所述矩阵型数据模组包含的账号进行聚类处理,得到K类账号进一步包括:
S1,计算各个其它账号到K个初始聚类中心的第一距离,查找出第一距离最大的第一账号和第二账号;
S2,以所述第一账号和第二账号分别作为第一类和第二类的聚类中心;
S3,计算各个其它账号分别至第一账号和第二账号的距离,根据计算结果将各个其它账号归类至第一类和第二类;
S4,比较归类到所述第一类和第二类中账号的数量,将数量少的一类确定为一个目标类,以及将该数量少的一类中的账号确定为归类到该目标类的账号;
S5,判断目标类的数量是否达到K类,若否,在数量少的另一类中,确定更新的第一账号和第二账号,并重复执行S2及其后续步骤,若是,则聚类结束。
5.根据权利要求4所述的方法,其中,所述在数量少的另一类中,确定更新的第一账号和第二账号进一步包括:
针对该数量少的另一类中的账号,计算任意两个账号之间的第二距离,查找出第二距离最大的两个账号,将该两个账号确定为更新的第一账号和第二账号。
6.根据权利要求1-3任一项所述的方法,其中,所述拟合得到矩阵型数据模组进一步包括:
利用主成分分析模型拟合得到矩阵型数据模组。
7.根据权利要求1-3任一项所述的方法,其中,所述对该类中的账号进行离散点检测,根据检测结果确定该类中的异常账号进一步包括:
对该类中的账号进行离散点检测,将检测到的离散点确定为该类中的异常账号。
8.一种异常账号的识别装置,包括:
拟合模块,适于获取ESB服务总线的历史日志数据、账号信息以及数据仓库中的数据,并拟合得到矩阵型数据模组;其中,所述矩阵型数据模组的一行表示一个账号对应的降维数据;
核密度估计模块,适于对所述矩阵型数据模组进行核密度估计计算,得到包含多个账号的核密度估计值的栅格影像;根据所述栅格影像确定K个初始聚类中心,其中,K为聚类数量,其为大于0的自然数;
聚类模块,适于根据所述K个初始聚类中心对所述矩阵型数据模组包含的账号进行聚类处理,得到K类账号;
检测模块,适于针对任一类,对该类中的账号进行离散点检测,根据检测结果确定该类中的异常账号数据。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的异常账号的识别方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的异常账号的识别方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010899598.8A CN114201999A (zh) | 2020-08-31 | 2020-08-31 | 异常账号的识别方法、系统、计算设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010899598.8A CN114201999A (zh) | 2020-08-31 | 2020-08-31 | 异常账号的识别方法、系统、计算设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114201999A true CN114201999A (zh) | 2022-03-18 |
Family
ID=80644291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010899598.8A Pending CN114201999A (zh) | 2020-08-31 | 2020-08-31 | 异常账号的识别方法、系统、计算设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114201999A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117390708A (zh) * | 2023-12-11 | 2024-01-12 | 南京向日葵大数据有限公司 | 一种隐私数据安全保护方法及系统 |
-
2020
- 2020-08-31 CN CN202010899598.8A patent/CN114201999A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117390708A (zh) * | 2023-12-11 | 2024-01-12 | 南京向日葵大数据有限公司 | 一种隐私数据安全保护方法及系统 |
CN117390708B (zh) * | 2023-12-11 | 2024-02-23 | 南京向日葵大数据有限公司 | 一种隐私数据安全保护方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569721A (zh) | 识别模型训练方法、图像识别方法、装置、设备及介质 | |
US8548256B2 (en) | Method for fast scene matching | |
CN107122369B (zh) | 一种业务数据处理方法、装置和系统 | |
JP2015506045A (ja) | 画像特徴の類似性に基づく画像索引作成 | |
CN112949704B (zh) | 一种基于图像分析的烟叶成熟度状态识别方法及装置 | |
US20210089825A1 (en) | Systems and methods for cleaning data | |
CN111814910B (zh) | 异常检测方法、装置、电子设备及存储介质 | |
CN114612743A (zh) | 深度学习模型的训练方法、目标对象识别方法和装置 | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN114299363A (zh) | 图像处理模型的训练方法、图像分类方法及装置 | |
CN111104855A (zh) | 一种基于时序行为检测的工作流识别方法 | |
CN114201999A (zh) | 异常账号的识别方法、系统、计算设备及存储介质 | |
CN116188917B (zh) | 缺陷数据生成模型训练方法、缺陷数据生成方法及装置 | |
JP4967045B2 (ja) | 背景判別装置、方法及びプログラム | |
CN111340139A (zh) | 一种图像内容复杂度的判别方法及装置 | |
CN115984671A (zh) | 模型在线更新方法、装置、电子设备及可读存储介质 | |
CN114463673B (zh) | 素材推荐方法、装置、设备及存储介质 | |
CN115238815A (zh) | 异常交易数据获取方法、装置、设备、介质和程序产品 | |
CN113239738B (zh) | 一种图像的模糊检测方法及模糊检测装置 | |
CN111382628B (zh) | 同行判定方法及装置 | |
CN111753723B (zh) | 一种基于密度校准的指纹识别方法及装置 | |
CN111753722B (zh) | 一种基于特征点类型的指纹识别方法及装置 | |
CN114511862A (zh) | 表格识别方法、装置及电子设备 | |
CN114758340A (zh) | 物流地址智能识别方法、装置、设备及存储介质 | |
CN114463764A (zh) | 表格线检测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |