CN117235654B - 一种人工智能的数据智能处理方法及系统 - Google Patents
一种人工智能的数据智能处理方法及系统 Download PDFInfo
- Publication number
- CN117235654B CN117235654B CN202311514417.5A CN202311514417A CN117235654B CN 117235654 B CN117235654 B CN 117235654B CN 202311514417 A CN202311514417 A CN 202311514417A CN 117235654 B CN117235654 B CN 117235654B
- Authority
- CN
- China
- Prior art keywords
- account
- characteristic data
- adjacent
- data
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 23
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000005856 abnormality Effects 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 abstract description 16
- 230000002159 abnormal effect Effects 0.000 abstract description 15
- 238000013450 outlier detection Methods 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 8
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Abstract
本发明涉及离群点检测技术领域,具体涉及一种人工智能的数据智能处理方法及系统,通过获取每个账号的账号信息中每种类型的特征数据,对这些特征数据进行数据处理,从而确定每个账号的每种特征数据的特征范围跨度,进而确定每个账号的每种特征数据的调整后的特征范围跨度;基于调整后的特征范围跨度,确定每个账号的每种特征数据对应的各个邻近账号,并确定每个账号对应的所有邻近账号中每种邻近账号的优选程度;根据该优选程度,确定每个账号对应的各个优选账号,并根据每个账号对应的各个优选账号,对各个账号进行异常检测。本发明通过数据处理技术,有效减小了异常账号检测中的数据计算量,提高了账户异常检测的效率。
Description
技术领域
本发明涉及离群点检测技术领域,具体涉及一种人工智能的数据智能处理方法及系统。
背景技术
现有在利用LOF算法(Local Outlier Factor,局部异常因子检测算法)对短视频平台的账号进行异常账号检测的过程中,当需要确定每个账号的邻近距离时,需要计算每一个账号与其他账号的特征向量的欧式距离,然后找出欧氏距离最短的k个账号。然而短视频平台的账号数量庞大,且每个账号的特征向量的维数较高,对每一个账号都依次计算其他全部账号的欧氏距离需要巨大的计算量,导致异常账号检测的效率较低。
发明内容
本发明的目的在于提供一种人工智能的数据智能处理方法及系统,用于解决现有异常账号检测计算量大,导致检测效率较低的问题。
为解决上述技术问题,本发明提供了一种人工智能的数据智能处理方法,包括以下步骤:
获取每个账号的账号信息,所述账号信息包括至少两种类型的特征数据;
对每个账号的账号信息中的每种特征数据进行数据处理,获取每个账号的每种特征数据对应的分量值;
根据不同账号的相同类型的特征数据对应的分量值之间的差异,确定每个账号的每种特征数据对应的分量值的各个邻近分量值,并根据每个账号的每种特征数据对应的分量值及其各个邻近分量值,确定每个账号的每种特征数据对应的特征范围跨度;
根据所有账号的总个数,以及每个账号的每种特征数据对应的分量值的邻近分量值的数目和特征数据的种类数,对所述特征范围跨度进行调整,得到每个账号的每种特征数据对应的调整后的特征范围跨度;
基于调整后的特征范围跨度,确定每个账号的每种特征数据对应的各个邻近账号,并根据每个账号的每种特征数据的分量值、每个账号的每种特征数据对应的各个邻近账号对应类型的特征数据的分量值、每个账号对应的所有邻近账号中同一种邻近账号的出现次数、每个账号的特征数据的种类数以及每个账号的每种特征数据对应的调整后的特征范围跨度,确定每个账号对应的所有邻近账号中每种邻近账号的优选程度;
根据所述优选程度,对每个账号对应的邻近账号进行筛选,确定每个账号对应的各个优选账号,并根据每个账号对应的各个优选账号,对各个账号进行异常检测。
进一步的,对所述特征范围跨度进行调整,得到每个账号的每种特征数据对应的调整后的特征范围跨度,对应的计算公式为:
;其中,表示第/>个账号的第/>种特征数据对应的调整后的特征范围跨度;/>表示第/>个账号的第/>种特征数据对应的特征范围跨度;/>表示第/>个账号的第/>种特征数据对应的分量值的邻近分量值的数目;/>表示所有账号的总个数;/>表示第/>个账号对应的特征数据的种类数;/>表示取最大值函数;/>表示反正切函数;/>表示圆周率。
进一步的,确定每个账号对应的所有邻近账号中每种邻近账号的优选程度,包括:
确定第个账号的第/>种特征数据对应的分量值分别与第/>个账号的第/>种特征数据对应的每个邻近账号的第/>种特征数据对应的分量值的差值绝对值,从而得到分量差异值,并计算所述分量差异值与第/>个账号的第/>种特征数据对应的调整后的特征范围跨度的比值;
根据第个账号对应的所有邻近账号中同一种邻近账号对应的所有比值、第/>个账号对应的所有邻近账号中同一种邻近账号的出现次数以及每个账号的特征数据的种类数,确定第/>个账号对应的所有邻近账号中每种邻近账号的优选程度。
进一步的,确定第个账号对应的所有邻近账号中每种邻近账号的优选程度,对应的计算公式为:
;其中,/>表示第/>个账号对应的所有邻近账号中第/>种邻近账号的优选程度;/>表示第/>个账号对应的所有邻近账号中第/>种邻近账号的出现次数;/>表示第/>个账号的特征数据的种类数;/>表示第/>个账号对应的所有邻近账号中第/>种邻近账号对应的第/>个比值。
进一步的,获取每个账号的每种特征数据对应的分量值,包括:
确定所有账号的同一种特征数据对应的理论最大值;
对所有账号的同一种特征数据进行密度聚类,得到各个聚类簇,并获取各个聚类簇中包含特征数据最多的聚类簇的聚类中心;
根据所述聚类中心,以及每个账号的每种特征数据与其对应的理论最大值的比值,确定每个账号的每种特征数据对应的分量值。
进一步的,确定每个账号的每种特征数据对应的分量值,对应的计算公式为:
;其中,/>表示第/>个账号的第/>种特征数据对应的分量值,/>表示所有账号的第/>种特征数据对应的理论最大值;/>表示第个账号的第/>种特征数据,/>为所有账号的第/>种特征数据对应的小于1的超参数;/>表示所有账号的第/>种特征数据对应的各个聚类簇中包含特征数据最多的聚类簇的聚类中心。
进一步的,确定每个账号的每种特征数据对应的特征范围跨度,包括:
确定每个账号的每种特征数据对应的分量值及其各个邻近分量值中的最大分量值和最小分量值,将最大分量值和最小分量值的差值确定为每个账号的每种特征数据对应的特征范围跨度。
进一步的,确定每个账号的每种特征数据对应的各个邻近账号,包括:
根据每个账号的每种特征数据对应的调整后的特征范围跨度以及每个账号的每种特征数据对应的分量值,确定每个账号的每种特征数据对应的分量值波动范围;
将每个账户作为目标账户,判断除了目标账户外的其他账户的每种特征数据对应的分量值是否位于目标账户的对应类型的特征数据对应的分量值波动范围内,并将位于目标账户的每种特征数据对应的分量值波动范围内的其他账户,确定为每个账号的每种特征数据对应的各个邻近账号。
进一步的,确定每个账号的每种特征数据对应的分量值的各个邻近分量值,包括:
确定每种账号与其他每个账户的相同类型的特征数据对应的分量值的差值绝对值,并将每种账号的每种特征数据对应的所有差值绝对值中最小的前设定数目个差值绝对值对应的其他账户的分量值,确定为每个账号的每种特征数据对应的分量值的各个邻近分量值。
为了解决上述技术问题,本发明还提供了一种人工智能的数据智能处理系统,包括处理器和存储器,所述处理器用于处理存储在所述存储器中的计算机指令,以实现如上述任一项所述的一种人工智能的数据智能处理方法的步骤。
本发明具有如下有益效果:本发明通过获取每个账号的账号信息,为了保证后续所确定的每个账号对应的各个优选账号的准确性,对账号信息中每种特征数据进行数据处理,从而得到每种特征数据对应的分量值。基于不同账号的相同类型的特征数据对应的分量值之间的差异,并结合所有账号的总个数、特征数据的种类数以及每个账号的每种特征数据对应的分量值的各个邻近分量值,自适应确定每个账号的每种特征数据对应的调整后的特征范围跨度,从而确定每个账号的每种特征数据对应的各个邻近账号,这些邻近账户中包含距离每个账号最近的k个账号。然后通过确定这些邻近账户的优选程度,对这次邻近账户进行筛选,最终确定每个账号对应的各个优选账号。在进行账号异常检测时,仅需要考虑每个账号与其对应的各个优选账号之间的欧式距离,避免了计算每个账号与其他所有账号的欧式距离,有效减小了欧式距离的计算范围,降低了数据计算量,最终提高了账户异常检测的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明实施例的人工智能的数据智能处理方法的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。另外,本文所涉及公式中的所有参数或者指标均为归一化之后的消除了量纲影响的数值。
人工智能的数据智能处理方法实施例:
为了解决现有异常账号检测计算量大,导致检测效率较低的问题,本实施例提供了一种人工智能的数据智能处理方法,其对应的流程图如图1所示,包括以下步骤:
步骤S1:获取每个账号的账号信息,所述账号信息包括至少两种类型的特征数据。
采集短视频平台的数据,即对于短视频平台的每个账号,采集其发布每个视频的评论数、点赞数和踩的数量、视频播放量、视频分享量、用户粉丝量、用户观看时长等类型的特征数据。可从短视频后台读取每个账号以及每个账号的每个视频的各种类型的特征数据。将每个账号的所有视频的同类型的特征数据求平均值,从而得到每个账号的账号信息。当然,作为其他的实施方式,也可以将每个账号的最近发布视频的各种类型的特征数据作为其对应的账号信息。
在获取到每个账号的账号信息之后,将每个账号视为一个待处理的结构化数据点,并根据采集到的每个账号的账号信息,将每个账号表示为结构化数据的形式,其中第个账号记为/>,该账号的第/>种特征数据记为/>,每个账号的账号信息中包含的特征数据的种类数记为/>,所有账号的总个数记为/>。
步骤S2:对每个账号的账号信息中的每种特征数据进行数据处理,获取每个账号的每种特征数据对应的分量值。
基于各个账号的账号信息,后续可以利用LOF算法对各个账号进行异常检测,但是由于LOF算法中涉及到欧式距离的计算,然而短视频平台的账号的不同类型的特征数据之间的数量级往往存在一定的差距,直接根据账号信息中的特征数据计算欧氏距离会导致欧氏距离在一定程度上受到数量级的特征影响,故需要将每个账号的各种类型的特征数据规划到同一个数量级上。
具体的,获取所有账号的第种特征数据对应的理论最大值,并将该理论最大值记为/>。然后利用DBSCAN算法(Density-Based Spatial Clustering of Applicationswith Noise)对全部账号的第/>种特征数据进行自适应密度聚类,得到各个聚类簇,获取各个聚类簇中包含特征数据最多的聚类簇的聚类中心,并记为/>。根据所有账号的第/>种特征数据的理论最大值/>以及每个账号的第/>种特征数据,可以确定每个账号的第/>种特征数据对应的欧式分量即分量值,对应的计算公式为:
;其中,/>表示第/>个账号的第/>种特征数据对应的分量值,/>表示所有账号的第/>种特征数据对应的理论最大值;/>表示第/>个账号的第种特征数据,/>表示所有账号的第/>种特征数据对应的小于1的超参数。
在上述的分量值的计算公式中,通过将每个账号的第种特征数据与对应的理论最大值作比较得到比值,理论最大值可以保证该比值小于1,从而达到将全部账号的第/>种特征数据全部规划到/>的范围内。
考虑到对于短视频平台的账号的各项特征数据,距离理论最大值往往有着很大差距,直接与理论最大值做比作为规划后的分量值会导致全部账号的每个分量值都偏小,难以获取账号之间的差异计算欧氏距离。因此,本实施例通过利用小于1的超参数将每个账号的第种特征数据和所有账号的第/>种特征数据的理论最大值/>的比值在/>范围内扩大,从而最终得到合适的分量值。而为了获取到合适的超参数,对于幂函数/>,在该幂函数的导数值等于1处,将此处所对应的自变量/>等于利用DBSCAN算法对全部用于账号的第/>种特征数据进行密度聚类所得到的各个聚类簇中包含特征数据最多的聚类簇的聚类中心/>,此时对应的幂数值/>即为超参数/>,则有:
;其中,/>表示利用DBSCAN算法对全部用于账号的第/>种特征数据进行密度聚类所得到的各个聚类簇中包含特征数据最多的聚类簇的聚类中心;/>表示所有账号的第/>种特征数据对应的小于1的超参数。
在上述确定所有账号的第种特征数据对应的小于1的超参数的计算公式中,当指数函数导数为1时,存在自变量与幂数值的关系满足上式,令此时的自变量等于利用DBSCAN算法对全部用于账号的第/>种特征数据进行聚类所得到的各个聚类簇中包含特征数据最多的聚类簇的聚类中心/>,以使最终获得的分量值能够保持原有分布特征的同时,在/>区间内分布得更加均匀。
按照上述方式可以确定每个账号的每种特征数据对应的分量值,每个账号的全部分量值构成了每个账号的特征向量。
步骤S3:根据不同账号的相同类型的特征数据对应的分量值之间的差异,确定每个账号的每种特征数据对应的分量值的各个邻近分量值,并根据每个账号的每种特征数据对应的分量值及其各个邻近分量值,确定每个账号的每种特征数据对应的特征范围跨度。
为了便于后续对异常账号进行检测,预设一个算法的/>值,本实施例不对/>值做限定,实施人员可根据实际实施情况自行设置/>算法的/>值。对于第/>个账号,获取该账号的/>临近距离进行异常检测。需要说明的是,/>值越大,所需要的波动范围也越大,以保证全部单特征波动范围内的账号能够包含第/>个账号最近的/>个账号;同样的,账号包含的特征数据越多,单种特征数据对欧式距离的计算影响较小,故需要越大的单特征波动范围以保证单特征波动范围足够大。因此,单特征波动范围大小与预设的/>值以及账号包含的特征数据的类型数有关系。
基于上述分析,获取所有账号的特征向量中包含的全部分量值的个数,将全部账号的/>个分量值分别按照从大到小的顺序排列,对于第/>个账号的第/>种特征数据对应的分量值,首先获取该分量值距离其最近的/>个账号,即确定第/>个账号的第/>种特征数据对应的分量值与其他每个账户的第/>种特征数据对应的分量值的差值绝对值,并将所有差值绝对值中最小的/>个差值绝对值对应的其他账户的第/>种特征数据对应的分量值,将这个分量值确定为第/>个账号的第/>种特征数据对应的分量值的邻近分量值,并将这/>个分量值对应的其他账户确定为第/>个账号的第/>种特征数据对应的分量值距离其最近的/>个账号。将这/>个账号和第/>个账号一共/>个账号的第/>个分量值中的最大分量值和最小分量值的差的绝对值,记为第/>个账号的第/>特征数据的初始的特征范围跨度/>。该初始的特征范围跨度/>反映了第/>个账号的第/>种特征数据及其所对应的最近的/>个账号的第/>种特征数据的分量值的波动范围大小。
按照上述方式可以确定每个账号的每种特征数据对应的初始的特征范围跨度。由于各个账号的不同特征数据的分布有所不同,因此所确定的每个账号的每种特征数据的初始的特征范围跨度也会有所不同,即每个账号的每种特征数据及其所对应的最近k个账号的该特征数据的分量值的波动范围大小会有所不同。
步骤S4:根据所有账号的总个数,以及每个账号的每种特征数据对应的分量值的邻近分量值的数目和特征数据的种类数,对所述特征范围跨度进行调整,得到每个账号的每种特征数据对应的调整后的特征范围跨度。
为了将较小的特征范围跨度调整为较大的特征范围跨度,以保证后续每个账号的每种特征数据对应的分量值波动范围能够包含每个账号的最近个账号,根据所有账号对应的特征数据的种类数、/>算法的/>值以及所有账号的总个数,对每个账号的每种特征数据对应的初始的特征范围跨度进行调整,得到调整后的特征范围跨度,对应的计算公式为:
;其中,表示第/>个账号的第/>种特征数据对应的调整后的特征范围跨度;/>表示第/>个账号的第/>种特征数据对应的特征范围跨度;/>表示预设的/>算法的/>值,也就是第/>个账号的第/>种特征数据对应的分量值的邻近分量值的数目;/>表示所有账号的总个数;表示每个账号的特征向量的维度,也就是第/>个账号对应的特征数据的种类数;表示取最大值函数;/>表示反正切函数;/>表示圆周率。
在上述的第个账号的第/>种特征数据对应的调整后的特征范围跨度的计算公式中,对于公式中的/>部分,/>表示根据/>个账号的第/>特征数据的分量值所确定的初始的特征范围跨度,通过将该初始的特征范围跨度与个账号的账号占比作比,所得比值如果大于1,则将初始的特征范围跨度与该比值相乘,以将初始的特征范围跨度进行扩大,所得比值如果小于或者等于1,则将初始的特征范围跨度乘以1,以避免初始的特征范围跨度与该比值相乘导致初始的特征范围跨度变小。对于公式中的/>部分,账号的特征向量的维度越大,也就是账号的账号信息中所包含的特征数据的种类数越大,单种特征数据对欧式距离的计算影响就越小,故越需要扩大单种特征数据的特征范围跨度以保证对应特征数据的分量值的波动范围能够包含距离该第/>个账号欧氏距离最近的/>个账号。
按照上述方式可以确定每个账号的每种特征数据对应的调整后的特征范围跨度。
步骤S5:基于调整后的特征范围跨度,确定每个账号的每种特征数据对应的各个邻近账号,并根据每个账号的每种特征数据的分量值、每个账号的每种特征数据对应的各个邻近账号对应类型的特征数据的分量值、每个账号对应的所有邻近账号中同一种邻近账号的出现次数、每个账号的特征数据的种类数以及每个账号的每种特征数据对应的调整后的特征范围跨度,确定每个账号对应的所有邻近账号中每种邻近账号的优选程度。
根据每个账号的每种特征数据对应的分量值和调整后的特征范围跨度,可以确定每个账号的每种特征数据对应的分量值波动范围。对于第个账号的第/>种特征数据,该第种特征数据对应的分量值波动范围为/>,其中/>表示第/>个账号的第/>种特征数据对应的分量值,/>表示第/>个账号的第种特征数据对应的调整后的特征范围跨度。当然,作为其他的实施方式,也可以根据每个账号的每种特征数据对应的/>个账号的对应该特征数据的分量值中的最大值和最小值,以及每个账号的每种特征数据对应的调整后的特征范围跨度,确定每个账号的每种特征数据对应的分量值波动范围。同样对于第/>个账号的第/>种特征数据,该第/>种特征数据对应的分量值波动范围为,其中/>表示第/>个账号的第/>种特征数据对应的/>个账号的第/>种特征数据对应的分量值中的最小值,/>表示第/>个账号的第/>种特征数据对应的/>个账号的第/>种特征数据对应的分量值中的最大值,/>表示第/>个账号的第/>种特征数据对应的调整后的特征范围跨度,/>表示第/>个账号的第/>种特征数据的初始的特征范围跨度,。按照上述方式可以确定每个账号的每种特征数据对应的分量值波动范围。
根据每个账号的每种特征数据对应的分量值波动范围以及每个账号的每种特征数据对应的分量值,可以确定每个账号的每种特征数据对应的各个邻近账号。对于第个账号的第/>种特征数据,判断第/>个账号外的其他账户的第/>种特征数据对应的分量值是否位于第/>个账号的第/>种特征数据对应的分量值波动范围内,并将位于第/>个账号的第/>种特征数据对应的分量值波动范围内的其他账户,确定为第/>个账号的第/>种特征数据对应的各个邻近账号。这里将每个账号的每种特征数据对应的各个邻近账号称为特征邻近账号,并将这些特征邻近账号进行排列,排列方式不受限制,从而得到每个账号的每种特征数据对应的特征邻近账号序列。由于每个账号的每种特征数据均对应一个特征邻近账号序列,因此将各个特征邻近账号序列按照对应的账号的各种特征数据对应的分量值的排列次序进行排列,构成每个账号的邻近账号表。对于第/>个账号的各个特征邻近账号序列,将这些特征邻近账号序列按照第/>个账号的各种特征数据对应的分量值的排列次序进行排列,从而得到第/>个账号的邻近账号表。
对于每个账号的邻近账号表,获取该邻近账号表中全部出现的用户账户,并构成邻近账号序列,同时获取该邻近账号序列中每个账号在邻近账号表格中的出现次数,将出现次数按照邻近账号序列中账号的排列次序进行排列,从而得到全部出现次数构成的邻近账号频次序列。将每一个账号记为目标账号,将目标账号对应的邻近账号序列中的每个账号记为当前账号,获取当前账号在目标账号的邻近账号表中出现的特征邻近账号序列的索引。对于第个账号,获取其对应的邻近账号序列/>中每个用户账户在邻近账号表中的出现次数,全部出现次数构成邻近账号频次序列/>,其中第/>个账号的出现次数记为。将邻近账号序列/>中包含的账号个数记为/>,遍历邻近账号序列/>中的每个账号,对于邻近账号序列/>中的第/>个账号,将其在第/>个账号的邻近账号表中出现的特征邻近账号序列的索引记为/>,特征邻近账号序列的索引与其对应的第/>个账号的特征数据的分量值的索引相同。
根据当前账号在目标账号的邻近账号表中的出现次数、目标账号的特征向量的维度、当前账号每次在目标账号的邻近账号表中出现时与目标账号对应的特征数据的分量值之间的差值绝对值、以及当前账号每次在目标账号的邻近账号表中出现时对应的特征数据的调整后的特征范围跨度,确定当前账号对应的优选程度,对应的计算公式为:
;其中,/>表示第/>个账号即目标账号的邻近账号序列中第/>账号即当前账号对应的优选程度,也就是第/>个账号对应的所有邻近账号中第/>种邻近账号的优选程度;/>表示第/>个账号的邻近账号序列中第/>个账号在第/>个账号的邻近账号表中的出现次数,也就是第/>个账号对应的所有邻近账号中第/>种邻近账号的出现次数;/>表示第/>个账号的特征向量的维度,也就是第/>个账号的特征数据的种类数;/>表示第/>个账号对应的所有邻近账号中第/>种邻近账号对应的第/>个比值,该比值的获取方式为:确定第/>个账号的第/>种特征数据对应的分量值分别与第/>个账号的第/>种特征数据对应的每个邻近账号的第/>种特征数据对应的分量值的差值绝对值,从而得到分量差异值,并计算该分量差异值与第/>个账号的第/>种特征数据对应的调整后的特征范围跨度的比值;/>表示第/>个账号的邻近账号序列中第/>个账号的第/>种特征数据的分量值;/>表示第/>个账号的第/>种特征数据的分量值;/>表示第/>个账号的邻近账号序列中第个账号第/>次在第/>个账号的邻近账号表中出现时对应的特征邻近账号序列的索引,第个账号的每种特征数据的索引与该特征数据对应的特征邻近账号序列的索引相同;表示第/>个账号的第/>种特征数据的调整后的特征范围跨度;/>表示取绝对值符号。
在上述的第个账号的邻近账号序列中第/>个账号对应的优选程度的计算公式中,/>部分代表第/>个账号相对第/>个账号的邻近百分比,即通过计算第/>个账号的/>种特征数据的分量值分别与第/>个账号的对应类型的特征数据的分量值的差值绝对值,并将该差值绝对值与对应第/>账号的对应类型的特征数据的调整后的特征范围跨度做比值,并利用1减去所有比值获得差值后,获取所有差值的平均值记为第/>个账号相对第/>个账号的邻近百分比。该邻近百分比越大,第/>个账号的/>种特征数据与第/>个账号的对应特征数据的差距较小,相应的第/>个账号相对于第/>个账号的优选程度也就越大。同时,/>部分为第/>个账号在第/>个账号的邻近账号表中的出现频次和账号的特征向量的维度的比值加1,出现频次和账号的特征向量的维度的比值为小于等于1的小数,该小数越大,说明第/>个账号在第/>个账号全部特征波动范围内的出现频次越大,两账号之间的欧氏距离也就越近,故第/>个账号相对于第/>个账号的优选程度也就越高。
通过上述方式,可以确定目标账户的邻近账号序列中当前账户对应的优选程度,也就是每个账号对应的所有邻近账号中每种邻近账号的优选程度,由于该优选程度考虑了当前账号在目标账号的邻近账号表中的出现频次和特征差距,因此能够更好地估算当前账号与目标账号之间欧氏距离的大小。
步骤S6:根据所述优选程度,对每个账号对应的邻近账号进行筛选,确定每个账号对应的各个优选账号,并根据每个账号对应的各个优选账号,对各个账号进行异常检测。
根据每个账号对应的所有邻近账号对应的优选程度,也就是每个账号对应的邻近账号序列中每个账号对应的优选程度,将这些优选程度按照从大到小进行排序,从而得到优选程度序列,获取该优选程度序列中前设定比例的优选程度所对应的账号作为优选账号,从而得到每个账号对应的各个优选账号。设定比例可以根据需要进行合理设置,本实施例设置该设定比例的取值为80%。
由于每个账号对应的各个优选账号中包含了距离该账号欧氏距离最近的多个账号,因此在利用算法对各个账户进行异常账户检测的过程中,基于各个账户的每种特征数据,确定每个账号与其对应的各个优选账号之间的欧式距离,根据该欧式距离获取每个账号对应的/>邻近距离,并基于该/>邻近距离计算局部可达密度,从而最终实现异常账户的检测。根据检测到的异常账号,可对该异常账号进行格外关注,并进行异常情况分析等一系列操作。
人工智能的数据智能处理系统实施例:
为了解决现有异常账号检测计算量大,导致检测效率较低的问题,本实施例还提供了一种人工智能的数据智能处理系统,该系统包括处理器和存储器,所述处理器用于处理存储在所述存储器中的计算机指令,以实现上述的一种人工智能的数据智能处理方法的步骤。由于该系统实质上是一种软系统,其核心功能在于实现一种人工智能的数据智能处理方法。由于该方法已经在上述的人工智能的数据智能处理方法实施例中进行了详细介绍,此处对该系统不再进行赘述。
本发明通过自适应确定每个账号的每种类型的特征数据对应的分量值波动范围,从而确定位于该分量值波动范围内的各个邻近账户,这些邻近账户中包含距离每个账号最近的k个账号。然后通过确定这些邻近账户的优选程度,对这次邻近账户进行筛选,以缩小LOF算法中欧式距离的计算范围,从而减小了由于数据量过大带来的欧氏距离计算量,最终有效提高了账户异常检测的效率。
需要说明的是:以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (9)
1.一种人工智能的数据智能处理方法,其特征在于,包括以下步骤:
获取每个账号的账号信息,所述账号信息包括至少两种类型的特征数据;
对每个账号的账号信息中的每种特征数据进行数据处理,获取每个账号的每种特征数据对应的分量值;
根据不同账号的相同类型的特征数据对应的分量值之间的差异,确定每个账号的每种特征数据对应的分量值的各个邻近分量值,并根据每个账号的每种特征数据对应的分量值及其各个邻近分量值,确定每个账号的每种特征数据对应的特征范围跨度;
根据所有账号的总个数,以及每个账号的每种特征数据对应的分量值的邻近分量值的数目和特征数据的种类数,对所述特征范围跨度进行调整,得到每个账号的每种特征数据对应的调整后的特征范围跨度;
基于调整后的特征范围跨度,确定每个账号的每种特征数据对应的各个邻近账号,并根据每个账号的每种特征数据的分量值、每个账号的每种特征数据对应的各个邻近账号对应类型的特征数据的分量值、每个账号对应的所有邻近账号中同一种邻近账号的出现次数、每个账号的特征数据的种类数以及每个账号的每种特征数据对应的调整后的特征范围跨度,确定每个账号对应的所有邻近账号中每种邻近账号的优选程度;
根据所述优选程度,对每个账号对应的邻近账号进行筛选,确定每个账号对应的各个优选账号,并根据每个账号对应的各个优选账号,对各个账号进行异常检测;
对所述特征范围跨度进行调整,得到每个账号的每种特征数据对应的调整后的特征范围跨度,对应的计算公式为:;其中,表示第/>个账号的第/>种特征数据对应的调整后的特征范围跨度;/>表示第/>个账号的第/>种特征数据对应的特征范围跨度;/>表示第/>个账号的第/>种特征数据对应的分量值的邻近分量值的数目;/>表示所有账号的总个数;/>表示第/>个账号对应的特征数据的种类数;表示取最大值函数;/>表示反正切函数;/>表示圆周率。
2.根据权利要求1所述的一种人工智能的数据智能处理方法,其特征在于,确定每个账号对应的所有邻近账号中每种邻近账号的优选程度,包括:
确定第个账号的第/>种特征数据对应的分量值分别与第/>个账号的第/>种特征数据对应的每个邻近账号的第/>种特征数据对应的分量值的差值绝对值,从而得到分量差异值,并计算所述分量差异值与第/>个账号的第/>种特征数据对应的调整后的特征范围跨度的比值;
根据第个账号对应的所有邻近账号中同一种邻近账号对应的所有比值、第/>个账号对应的所有邻近账号中同一种邻近账号的出现次数以及每个账号的特征数据的种类数,确定第/>个账号对应的所有邻近账号中每种邻近账号的优选程度。
3.根据权利要求2所述的一种人工智能的数据智能处理方法,其特征在于,确定第账号对应的所有邻近账号中每种邻近账号的优选程度,对应的计算公式为:
;其中,/>表示第/>个账号对应的所有邻近账号中第/>种邻近账号的优选程度;/>表示第/>个账号对应的所有邻近账号中第种邻近账号的出现次数;/>表示第/>个账号的特征数据的种类数;/>表示第/>个账号对应的所有邻近账号中第/>种邻近账号对应的第/>个比值。
4.根据权利要求1所述的一种人工智能的数据智能处理方法,其特征在于,获取每个账号的每种特征数据对应的分量值,包括:
确定所有账号的同一种特征数据对应的理论最大值;
对所有账号的同一种特征数据进行密度聚类,得到各个聚类簇,并获取各个聚类簇中包含特征数据最多的聚类簇的聚类中心;
根据所述聚类中心,以及每个账号的每种特征数据与其对应的理论最大值的比值,确定每个账号的每种特征数据对应的分量值。
5.根据权利要求4所述的一种人工智能的数据智能处理方法,其特征在于,确定每个账号的每种特征数据对应的分量值,对应的计算公式为:;/>;其中,表示第/>个账号的第/>种特征数据对应的分量值,/>表示所有账号的第/>种特征数据对应的理论最大值;/>表示第/>个账号的第/>种特征数据,/>为所有账号的第/>种特征数据对应的小于1的超参数;/>表示所有账号的第/>种特征数据对应的各个聚类簇中包含特征数据最多的聚类簇的聚类中心。
6.根据权利要求1所述的一种人工智能的数据智能处理方法,其特征在于,确定每个账号的每种特征数据对应的特征范围跨度,包括:
确定每个账号的每种特征数据对应的分量值及其各个邻近分量值中的最大分量值和最小分量值,将最大分量值和最小分量值的差值确定为每个账号的每种特征数据对应的特征范围跨度。
7.根据权利要求1所述的一种人工智能的数据智能处理方法,其特征在于,确定每个账号的每种特征数据对应的各个邻近账号,包括:
根据每个账号的每种特征数据对应的调整后的特征范围跨度以及每个账号的每种特征数据对应的分量值,确定每个账号的每种特征数据对应的分量值波动范围;
将每个账户作为目标账户,判断除了目标账户外的其他账户的每种特征数据对应的分量值是否位于目标账户的对应类型的特征数据对应的分量值波动范围内,并将位于目标账户的每种特征数据对应的分量值波动范围内的其他账户,确定为每个账号的每种特征数据对应的各个邻近账号。
8.根据权利要求1所述的一种人工智能的数据智能处理方法,其特征在于,确定每个账号的每种特征数据对应的分量值的各个邻近分量值,包括:
确定每种账号与其他每个账户的相同类型的特征数据对应的分量值的差值绝对值,并将每种账号的每种特征数据对应的所有差值绝对值中最小的前设定数目个差值绝对值对应的其他账户的分量值,确定为每个账号的每种特征数据对应的分量值的各个邻近分量值。
9.一种人工智能的数据智能处理系统,其特征在于,包括处理器和存储器,所述处理器用于处理存储在所述存储器中的计算机指令,以实现如上述权利要求1-8中任一项所述的一种人工智能的数据智能处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311514417.5A CN117235654B (zh) | 2023-11-15 | 2023-11-15 | 一种人工智能的数据智能处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311514417.5A CN117235654B (zh) | 2023-11-15 | 2023-11-15 | 一种人工智能的数据智能处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117235654A CN117235654A (zh) | 2023-12-15 |
CN117235654B true CN117235654B (zh) | 2024-03-22 |
Family
ID=89098825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311514417.5A Active CN117235654B (zh) | 2023-11-15 | 2023-11-15 | 一种人工智能的数据智能处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117235654B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200117613A (ko) * | 2019-04-05 | 2020-10-14 | 넷마블 주식회사 | 게임 내의 부정 사용자 결정 방법 및 장치 |
CN111860644A (zh) * | 2020-07-20 | 2020-10-30 | 北京百度网讯科技有限公司 | 一种异常账号的识别方法、装置、设备和存储介质 |
CN112084422A (zh) * | 2020-08-31 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 一种账号数据智能处理方法和装置 |
WO2021012509A1 (zh) * | 2019-07-23 | 2021-01-28 | 平安科技(深圳)有限公司 | 一种异常账号检测方法、装置及计算机存储介质 |
CN113254672A (zh) * | 2021-06-23 | 2021-08-13 | 中国平安人寿保险股份有限公司 | 异常账号的识别方法、系统、设备及可读存储介质 |
CN114268839A (zh) * | 2021-12-17 | 2022-04-01 | 北京达佳互联信息技术有限公司 | 视频发布账户筛选方法、装置、电子设备及存储介质 |
WO2022228371A1 (zh) * | 2021-04-28 | 2022-11-03 | 百果园技术(新加坡)有限公司 | 恶意流量账号检测方法、装置、设备和存储介质 |
-
2023
- 2023-11-15 CN CN202311514417.5A patent/CN117235654B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200117613A (ko) * | 2019-04-05 | 2020-10-14 | 넷마블 주식회사 | 게임 내의 부정 사용자 결정 방법 및 장치 |
WO2021012509A1 (zh) * | 2019-07-23 | 2021-01-28 | 平安科技(深圳)有限公司 | 一种异常账号检测方法、装置及计算机存储介质 |
CN111860644A (zh) * | 2020-07-20 | 2020-10-30 | 北京百度网讯科技有限公司 | 一种异常账号的识别方法、装置、设备和存储介质 |
CN112084422A (zh) * | 2020-08-31 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 一种账号数据智能处理方法和装置 |
WO2022228371A1 (zh) * | 2021-04-28 | 2022-11-03 | 百果园技术(新加坡)有限公司 | 恶意流量账号检测方法、装置、设备和存储介质 |
CN113254672A (zh) * | 2021-06-23 | 2021-08-13 | 中国平安人寿保险股份有限公司 | 异常账号的识别方法、系统、设备及可读存储介质 |
CN114268839A (zh) * | 2021-12-17 | 2022-04-01 | 北京达佳互联信息技术有限公司 | 视频发布账户筛选方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于机器学习的用户实体行为分析技术在账号异常检测中的应用;莫凡;何帅;孙佳;范渊;刘博;;通信技术(第05期);216-221 * |
Also Published As
Publication number | Publication date |
---|---|
CN117235654A (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li | Efficient differential evolution using speciation for multimodal function optimization | |
Li et al. | Reinvestigation of evolutionary many-objective optimization: Focus on the Pareto knee front | |
WO2019149059A1 (zh) | 确定业务对应的决策策略的方法、装置和电子设备 | |
Qi et al. | A new adaptation method based on adaptability under k-nearest neighbors for case adaptation in case-based design | |
Chen et al. | An effective feature selection scheme for healthcare data classification using binary particle swarm optimization | |
CN113573322B (zh) | 基于改进遗传算法的多目标区域传感器网络覆盖优化方法 | |
CN112101765A (zh) | 一种配电网运行指标数据异常数据处理方法及系统 | |
CN117235654B (zh) | 一种人工智能的数据智能处理方法及系统 | |
CN110765360B (zh) | 文本话题处理方法、装置、电子设备及计算机存储介质 | |
CN107564045B (zh) | 基于梯度域引导滤波的立体匹配方法 | |
CN111444963A (zh) | 一种基于ssa-svr模型的高炉铁水硅含量预测方法 | |
CN112765219B (zh) | 一种跳过平稳区域的流数据异常检测方法 | |
CN107766887A (zh) | 一种局部加权的不完整数据混杂聚类方法 | |
CN111813669B (zh) | 基于多目标群体智能的适应性随机测试用例生成方法 | |
CN104680317B (zh) | 一种基于概率灰色综合评价的企业合作伙伴选择方法 | |
CN114818369A (zh) | 一种连续式跨声速风洞部段设计方法及系统及装置及介质 | |
Liu et al. | A many-objective optimization algorithm using a two-space interactive evolutionary framework | |
CN117476136B (zh) | 一种高纯羧酸酯合成工艺参数优化方法及系统 | |
Hu et al. | Many-objective optimization algorithm based on adaptive reference vector | |
CN113326584B (zh) | 一种兼顾鲁棒性和可靠性的电工装备优化设计方法 | |
CN115781408B (zh) | 一种抑制机床电主轴温升的调控系统 | |
Berns et al. | Towards Mode Balancing of Generative Models via Diversity Weights | |
Mantravadi et al. | Adaptive Exon Prediction for Disease Identification using Higher Order Algorithms | |
CN111027612B (zh) | 基于加权熵fcm的能源计量数据特征约简方法及装置 | |
Liu et al. | Multiple Change Points Detection Method Based on TSTKS and CPI Sliding Window Strategy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |