CN113537363B - 一种异常对象检测方法及装置、电子设备及存储介质 - Google Patents

一种异常对象检测方法及装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113537363B
CN113537363B CN202110819744.6A CN202110819744A CN113537363B CN 113537363 B CN113537363 B CN 113537363B CN 202110819744 A CN202110819744 A CN 202110819744A CN 113537363 B CN113537363 B CN 113537363B
Authority
CN
China
Prior art keywords
feature
target
dimension
abnormal
feature dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110819744.6A
Other languages
English (en)
Other versions
CN113537363A (zh
Inventor
补彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202110819744.6A priority Critical patent/CN113537363B/zh
Publication of CN113537363A publication Critical patent/CN113537363A/zh
Application granted granted Critical
Publication of CN113537363B publication Critical patent/CN113537363B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种异常对象检测方法及装置、电子设备及存储介质,其中,方法包括:对多个候选对象进行聚类,得到对象集群;根据所述至少两个目标对象在多个目标特征维度中的每个目标特征维度上的聚集程度,从所述多个目标特征维度中确定出至少一个聚集特征维度;在所述至少一个聚集特征维度包含异常特征维度组合的情况下,将所述对象集群确定为异常集群。本申请能够根据对象集群在不同维度的目标特征维度上的聚集程度,确定出导致聚集的聚集特征维度,并且能够通过判断聚集特征维度是否包括异常特征维度组合判断对象集群是否存在异常,同时,还可以将异常特征维度组合中的特征作为该异常集群的解释,进而,进而使异常检测的原理透明可理解。

Description

一种异常对象检测方法及装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种异常对象检测方法及装置、电子设备及存储介质。
背景技术
随着互联网技术的发展,越来越多的线上行为也需要进行异常检测,例如,风控场景中异常检测主要面临两个问题:聚集性异常和可解释性。
聚集性异常很重要的特点是,单独分析某一条样本都显得很正常,而呈批量现象出现后则很异常。一个典型的例子就是“信用卡欺诈检测”,例如:单笔75元的消费很正常,但是每天短时间内连续两笔75元购买同一商品的消费就显得较为异常。
可解释性即检测算法能够对聚集性异常的检测结果给出合理可靠的解释。现有的基于人工规则的做法,可解释性强,但是不够灵活人力成本高,对于聚集性异常的识别能力也较弱。后续基于有监督机器学习算法的模型,可解释性较差且对于异常样本的依赖性较高,此外即便模型能够学习到样本中的模式,但对于未出现在样本集中的模型则难以识别。
由上可知,相关技术中的异常对象检测方法存在可解释性差且识别效果差的问题。
发明内容
为了解决上述异常对象检测方法存在的可解释性差且识别效果差的技术问题,本申请提供了一种异常对象检测方法及装置、电子设备及存储介质。
第一方面,本申请实施例提供了一种异常对象检测方法,包括:
对多个候选对象进行聚类,得到对象集群,其中,所述对象集群中包括所述多个候选对象中的至少两个目标对象;
根据所述至少两个目标对象在多个目标特征维度中的每个目标特征维度上的聚集程度,从所述多个目标特征维度中确定出至少一个聚集特征维度;
在所述至少一个聚集特征维度包含异常特征维度组合的情况下,将所述对象集群确定为异常集群,其中,所述异常特征维度组合为用于指示任一所述对象集群在异常特征维度组合中的每个异常特征维度上的聚集程度均满足预设聚集要求时,所述对象集群为异常的维度组合。
可选地,如前述的方法,所述对多个候选对象进行聚类,得到对象集群包括:
根据第一行为特征对所述多个候选对象进行聚类,得到所述对象集群,其中,所述第一行为特征包含所述多个候选对象中的每个候选对象在多个维度上的行为特征。
可选地,如前述的方法,所述根据第一行为特征对所述多个候选对象进行聚类,得到所述对象集群包括:
对所述第一行为特征进行降维处理,得到第二行为特征,其中,所述第二行为特征中的每个维度上的行为特征通过所述第一行为特征中的至少一个维度上的行为特征映射得到;
基于所述第二行为特征,对所述多个候选对象进行聚类,得到所述对象集群。
可选地,如前述的方法,在所述根据所述至少两个目标对象在多个目标特征维度中的每个目标特征维度上的聚集程度,从所述多个目标特征维度中确定出至少一个聚集特征维度之前,所述方法还包括:
按照目标离散化行为特征对所述第一行为特征中每个维度的行为特征进行离散化处理,得到第三行为特征,其中,所述多个目标特征维度包含所述目标离散化行为特征维度和目标属性特征维度,所述目标属性特征维度是从所述多个候选对象的候选属性特征维度中提取出的属性特征维度。
可选地,如前述的方法,所述根据所述至少两个目标对象在多个目标特征维度中的每个目标特征维度上的聚集程度,从所述多个目标特征维度中确定出至少一个聚集特征维度包括:
对所述至少两个目标对象的所述每个目标特征维度进行基尼系数计算,得到所述至少两个目标对象在所述每个目标特征维度上的聚集程度;
从所述多个目标特征维度中选择出对应的所述聚集程度大于或等于预设聚集程度阈值的特征维度,得到所述至少一个聚集特征维度。
可选地,如前述的方法,所述根据所述至少两个目标对象在多个目标特征维度中的每个目标特征维度上的聚集程度,从所述多个目标特征维度中确定出至少一个聚集特征维度之前,所述方法还包括至少以下之一:
获取输入的所述异常特征维度组合;
按照所述多个候选对象中的每个候选对象在所述每个目标特征维度上的特征值的目标特征属性,从所述多个目标特征维度中选择出至少一个特征维度,得到所述异常特征维度组合,其中,所述目标特征属性为以下至少之一:重复概率,分散程度。
可选地,如前述的方法,在所述根据所述至少两个目标对象在多个目标特征维度中的每个目标特征维度上的聚集程度,从所述多个目标特征维度中确定出至少一个聚集特征维度之后,所述方法还包括:
使用所述异常特征维度组合中的每个异常特征维度在所述至少一个聚集特征维度中进行匹配,得到所述每个异常特征维度的目标匹配结果,其中,所述目标匹配结果用于指示所述至少一个聚集特征维度中是否包含所述每个异常特征维度。
第二方面,本申请实施例提供了一种异常对象检测装置,包括:
对象集群模块,用于对多个候选对象进行聚类,得到对象集群,其中,所述对象集群中包括所述多个候选对象中的至少两个目标对象;
聚集特征维度模块,用于根据所述至少两个目标对象在多个目标特征维度中的每个目标特征维度上的聚集程度,从所述多个目标特征维度中确定出至少一个聚集特征维度;
确定模块,用于在所述至少一个聚集特征维度包含异常特征维度组合的情况下,将所述对象集群确定为异常集群,其中,所述异常特征维度组合为用于指示任一所述对象集群在异常特征维度组合中的每个异常特征维度上的聚集程度均满足预设聚集要求时,所述对象集群为异常的维度组合。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述计算机程序时,实现如前述任一项所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行如前任一项所述的方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:在聚类的基础上,根据对象集群在不同维度的目标特征维度上的聚集程度,确定出聚集特征维度,并且能够通过判断聚集特征维度是否包括异常特征维度组合判断对象集群是否存在异常,进一步的,在异常特征维度组合为可解释对象集群聚集的原因的基础上,可以将异常特征维度组合中的特征作为该异常集群的解释;进而,能够在有效识别异常集群的同时,给出该异常集群的异常原因,进而使检测的原理透明可理解。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种异常对象检测方法的流程图;
图2为本申请另一实施例提供的一种异常对象检测方法的流程图;
图3为本申请应用例提供的一种异常对象检测方法的流程图;
图4为本申请实施例提供的一种异常对象检测装置的框图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
根据本申请实施例的一个方面,提供了一种异常对象检测方法。可选地,在本实施例中,上述异常对象检测方法可以应用于的由终端和服务器所构成的硬件环境中。服务器通过网络与终端进行连接,可用于为终端或终端上安装的客户端提供服务(如刷量用户检测、刷票用户检测等),可在服务器上或独立于服务器设置数据库,用于为服务器提供数据存储服务。
上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端可以并不限定于为PC、手机、平板电脑等。
本申请实施例的异常对象检测方法可以由服务器来执行,也可以由终端来执行,还可以是由服务器和终端共同执行。其中,终端执行本申请实施例的异常对象检测方法也可以是由安装在其上的客户端来执行。
以由服务器来执行本实施例中的异常对象检测方法为例,图1为本申请实施例提供的一种异常对象检测方法,包括如下所述步骤:
步骤S101,对多个候选对象进行聚类,得到对象集群,其中,对象集群中包括多个候选对象中的至少两个目标对象。
本实施例中的异常对象检测方法可以应用于需要在多个对象中识别出异常对象的场景,例如:识别刷量用户的场景、识别刷票用户的场景、识别异常透支用户的场景等,也可以是识别其他异常对象的场景。本申请实施例中以识别刷量用户的场景为例说明上述的异常对象检测方法,对于其他场景,在不矛盾的情况下,上述的异常对象检测方法同样适用。
识别刷量用户的场景为例,通过对所有用户(即,候选对象)进行异常识别,以确定所有用户中的异常用户构成的异常用户集群(即,异常集群)。
目标服务在接收到需要检测得到异常集群的指示下,获取所有需要进行异常集群检测的候选对象。候选对象可以是需要进行异常检测的所有对象,例如,视频平台用户、购票平台用户等等。由于一般情况下,对候选对象进行聚类是基于候选对象的对象信息,因此,可以预先按照以下方法对候选对象的对象信息进行预处理:确定每个候选对象唯一对应的对象信息,每个对象信息中包括至少一个子信息;在子信息的数据格式不符合预设格式要求的情况下,按照预设格式要求对子信息进行调整,得到与预设格式要求对应的调整后子信息;在子信息存在数据不合法的情况下,对子信息进行过滤;得到预处理后对象信息。再根据每个候选对象的预处理后对象信息对所有候选对象进行聚类,以得到对象集群。
对候选对象进行聚类,可以是通过聚类算法对各个候选对象的预处理后对象信息将各个候选对象分成不同的簇,进而得到不同的对象集群。并且在每个对象集群中,任意两个目标对象在至少一个特征维度上存在满足预设相关性要求的相关性。
目标对象为对候选对象进行聚类之后,位于某一对象集群中的对象。
例如,当目标服务器需要在视频平台的所有用户中确定异常集群时,目标服务器先获取各个用户的行为日志,行为日志中包括该用户对应的对象信息,然后对各个用户的对象信息进行预处理。对象信息中可能包含各种不合法的异常值或者格式不统一的各个子信息。例如,当子信息的类型为对视频A的观看日期时,不同的对象信息的取值可能存在“20180901”,“2018年8月1日”,“2018年8月29日星期三”等多种格式,或者存在该类型的子信息为空,乃至负数等根本不合理的值。因此在基于对象信息进行异常集群分析之前,先对各个对象信息进行预处理,将主要工作包括统一数据格式,例如,统一按照“XXXX年XX月XX日”的方式对类型为日期的子信息进行数据格式统一,进而可以将上述类型为日期的子信息分别统一为“2018年9月1日”,“2018年8月1日”,“2018年8月29日”;过滤掉不合常理或没有意义的取值,例如,当存在一类型为日期的子信息为类型为“2018年13月1日”时,或者一子信息中数据为空时,则将这两个子信息删除。
在获得各个用户的预处理后对象信息之后,即可采用预设的聚类算法,并通过每个用户的预处理后对象信息对各个用户进行聚类计算,以将用户分为不同的簇(即,团伙),其中每个簇中的用户可以是基于至少一个维度的特征(例如,观看视频A所使用的IP数在5~10个之间,或者对视频A的观看次数在5~10次之间)聚类在一起的。具体的,并不对本实施例中所使用的聚类算法进行限定,可以是划分方法(partitioning method)、层次方法(hierarchical methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的方法(model-based methods)或其他类型的聚类方法。
步骤S102,根据至少两个目标对象在多个目标特征维度中的每个目标特征维度上的聚集程度,从多个目标特征维度中确定出至少一个聚集特征维度。
在得到对象集群之后,需要确定该对象集群中各个目标对象聚集在一起的原因,因此需要根据至少两个目标对象在多个目标特征维度中的每个目标特征维度上的聚集程度,从多个目标特征维度中确定出至少一个聚集特征维度。
目标特征维度可以是预先确定的,用于判断对象集群中的各个目标对象发生聚集所基于的原因的特征;并且,目标特征维度为可解释的特征,例如:观看次数多(高于10次)、归属地、IP地址等等能够表征出具体含义的特征。在确定目标特征维度之后,即可确定在每个目标特征维度上的聚集程度。
聚集程度可以是每一个目标对象对应的,用于指示对象集群中的各个目标对象在该目标特征维度下的聚集性的值。可选的,当通过各个目标对象在该目标特征维度下的取值之间的差异计算得到聚集程度时,若某一目标特征维度对应的聚集程度的值越小,则说明差异越小,该对象集群中各个目标对象的聚集性越高。在得到各个目标特征维度对应的聚集程度之后,即可基于聚集程度确定出该对象集群中各个目标对象聚集的原因,即聚集特征维度。
聚集特征维度可以是各个目标特征维度中,聚集程度所表征的聚集性最高的N个目标特征维度,其中,N为大于等于1的整数。可选的,当聚集程度的值越小,则说明差异越小时,则可选择出聚集程度的值最小的N个目标特征维度,或者聚集程度的值小于预设聚集程度阈值的目标特征维度,并将其作为聚集特征维度。在得到聚集特征维度之后,即可判断对象集群中的各个目标对象是基于聚集特征维度聚集在一起的,即可将聚集特征维度作为聚集的原因。
步骤S103,在至少一个聚集特征维度包含异常特征维度组合的情况下,将对象集群确定为异常集群,其中,异常特征维度组合为用于指示任一所述对象集群在异常特征维度组合中的每个异常特征维度上的聚集程度均满足预设聚集要求时,对象集群为异常的维度组合。
在确定聚集特征维度之后,即可基于聚集特征维度判断该对象集群是否为异常集群;可选的,可以通过判断聚集特征维度中是否包含异常特征维度组合,作为判断对象集群是否为行集群的条件。
异常特征维度组合可以是预先得到的,用于指示当任意一个对象集群在异常特征维度组合中的每个异常特征维度上的聚集程度均满足预设聚集要求时,该对象集群大概率为异常的特征的组合。进一步的,异常特征维度组合中可以包括一个或多个异常特征维度。
预设聚集要求可以是用于指示当对象集群在一个异常特征维度上的聚集程度大于该预设聚集要求的情况下,该对象集群在该异常特征维度上呈现聚集的预设信息。
聚集特征维度包含异常特征维度组合可以是对象集群的所有聚集特征维度中包括异常特征维度组合中的每个异常特征维度,其中,异常特征维度为可解释的特征,例如:观看次数多(高于10次)、归属地、IP地址等等能够表征出具体含义的特征。同时,异常特征维度组合可以包括多个,因此只要该对象集群的所有聚集特征维度包括任一个异常特征维度组合的情况下,均可将该对象集群确定为异常集群。
例如,当聚集特征维度包括设备系统为A、访问时间段为2020年2月20日12:00、手机品牌为B,若只存在一异常特征维度组合包括设备系统为C、访问时间段为2020年2月20日12:00、手机品牌为B;则聚集特征维度不完全包括该异常特征维度组合,判定该用户集群为正常集群。若还存在一异常特征维度组合包括设备系统为A、访问时间段为2020年2月20日12:00、手机品牌为B;则聚集特征维度包括该异常特征维度组合,判定该用户集群为异常集群。
通过本实施例中的方法,在聚类的基础上,根据对象集群在不同维度的目标特征维度上的聚集程度,确定出聚集特征维度,并且能够通过判断聚集特征维度是否包括异常特征维度组合判断对象集群是否存在异常,进一步的,在异常特征维度组合为可解释对象集群聚集的原因的基础上,可以将异常特征维度组合中的特征作为该异常集群的解释;进而,能够在有效识别异常集群的同时,给出该异常集群的异常原因,进而使检测的原理透明可理解。
作为一种可选的实施方式,如前述的方法,所述步骤对多个候选对象进行聚类,得到对象集群包括如下所述步骤:
步骤S201,根据第一行为特征对多个候选对象进行聚类,得到对象集群,其中,第一行为特征包含多个候选对象中的每个候选对象在多个维度上的行为特征。
在确定候选对象之后,需要获取用于进行聚类的第一行为特征,以对多个候选对象进行聚类。
第一行为特征可以是与每个候选对象对应的,并且包括该候选对象的所有行为特征的多维行为特征。例如,当每个候选对象包括的行为特征的维度有:观看次数、观看所采用的终端的数量、观看所采用的IP地址的数量时,则第一行为特征也包括上述各个维度的特征。可选的,各个行为特征可以是按照前述实施例中所述的预处理方法,对各个候选对象的对象信息进行预处理后得到。
在得到每个候选对象的第一行为特征之后,即可通过如前实施例所述的划分方法(partitioning method)、层次方法(hierarchical methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的方法(model-basedmethods)中的任一中方法,并更具各个第一行为特征进行聚类计算,进而得到对象集群;其中,对象集群可以包括一个或多个,当对象集群包括多个时,对于每个对象集群,都可采用如前述的步骤S102和S103判断该对象集群是否为异常集群。
通过本实施例中的方法,通过采用不可解释的行为特征对候选对象进行聚类,而不采用可解释的目标特征维度对候选对象进行聚类,进而可以避免后期通过可解释的目标特征维度判断对象集群中各个候选对象的聚集程度时,出现采用目标特征维度对聚类得到的对象集群必然会在目标特征维度上具有高度聚集性,因而目标特征维度必然会成为聚集特征维度的问题,进而可以准确的分析得到聚集特征维度。
作为一种可选的实施方式,如前述的方法,所述步骤根据第一行为特征对多个候选对象进行聚类,得到对象集群包括如下所述步骤:
步骤S301,对第一行为特征进行降维处理,得到第二行为特征,其中,第二行为特征中的每个维度上的行为特征通过第一行为特征中的至少一个维度上的行为特征映射得到。
在得到第一行为特征之后,由于特征数量越多特征空间则越大,算法学习到数据内在聚集原因的难度则越大。为了降低算法学习难度,需要对第一行为特征进行降维处理,得到第二行为特征。
降维处理可以是将第一行为特征中的一个或多个维度上的行为特征映射到第二行为特征中的至少一个维度上的行为特征上,进而使第二行为特征中的行为特征可以对应有第一行为特征中的多个维度的行为特征。可选的,进行降维处理的算法可以包括但不限于以下至少一种:主成分分析、自编码器等。并且,对应于每个候选对象的第一行为特征,都采用相同的降维处理方式进行降维,以使每个候选对象对应的第二行为特征中包括的各个维度的特征类型都一致。
步骤S302,基于第二行为特征,对多个候选对象进行聚类,得到对象集群。
在得到第二行为特征之后,即可基于第二行为特征,对多个候选对象进行聚类,得到对象集群。
由于第二行为特征为第一行为特征进行降维后得到,因此,可以通过运行聚类算法,对各个第二行为特征进行聚类计算,得到一个或多个对象集群。
通过本实施例中的方法,通过对第一行为特征进行降维得到第二行为特征,并且基于第二行为特征,对多个候选对象进行聚类;通过减少特征的维度,可以有效降低进行聚类所需处理的特征的数量,进而可以降低聚类算法的学习难度,提高聚类的效率。
作为一种可选的实施方式,如前述的方法,在所述步骤根据至少两个目标对象在多个目标特征维度中的每个目标特征维度上的聚集程度,从多个目标特征维度中确定出至少一个聚集特征维度之前,方法还包括如下所述步骤:
步骤S401,按照目标离散化行为特征对第一行为特征中每个维度的行为特征进行离散化处理,得到第三行为特征,其中,多个目标特征维度包含目标离散化行为特征维度和目标属性特征维度,目标属性特征维度是从多个候选对象的候选属性特征维度中提取出的属性特征维度。
由于需要通过目标特征维度确定出每个对象集群的聚集特征维度,因此需要预先确定出目标特征维度。目标特征维度中包括目标离散化行为特征维度以及目标属性特征维度。
目标离散化行为特征可以是人为划分得到的(例如,等频或等宽划分),用于对第一行为特征中的每个维度的行为特征进行离散化处理的特征;并且,第一行为特征中的每个维度的行为特征都存在与其维度一致的目标离散化特征,由各个离散化处理后的第一行为特征中每个维度的行为特征,即可得到第三行为特征。
例如,当观看次数维度的行为特征包括:观看1次、观看15次、观看17次、观看23次、观看25次;且观看次数维度的目标离散化特征包括:观看10次、观看20次、观看30次时,在对观看次数维度的行为特征进行的离散化处理可以是:观看1次离散化处理为观看10次,观看15次离散化处理为观看20次,观看17次离散化处理为观看20次,观看23次离散化处理为观看30次,观看25次离散化处理为观看30次;在对第一行为特征中的每个维度的行为特征进行离散化处理之后,即可将观看10次、观看20次、观看20次、观看30次、观看30次分别多为各个候选对象的第三行为特征中与观看次数维度对应的行为特征。
在对特征进行离散化处理之后,并且后期通过各个第三行为特征进行聚集程度计算可以有效降低计算量。
如图2所示,作为一种可选的实施方式,如前述的方法,所述步骤根据至少两个目标对象在多个目标特征维度中的每个目标特征维度上的聚集程度,从多个目标特征维度中确定出至少一个聚集特征维度包括如下所述步骤:
步骤S501,对至少两个目标对象的每个目标特征维度进行基尼系数计算,得到至少两个目标对象在每个目标特征维度上的聚集程度。
在确定对象集群中的目标对象以及目标特征维度之后,便需要依此确定出各个目标对象在每个目标特征维度上聚集程度。
对至少两个目标对象的每个目标特征维度进行基尼系数计算,可以先确定每个目标对象中与目标特征维度的特征维度一致的特征值;然后便可得到与目标特征维度对应的各个目标对象的特征值;最后通过对各个目标对象的特征值进行基尼系数计算,并基于基尼系数,得到与目标特征维度对应的聚集程度。
步骤S502,从多个目标特征维度中选择出对应的聚集程度大于或等于预设聚集程度阈值的特征维度,得到至少一个聚集特征维度。
由于聚集程度是进行基尼系数计算得到的,可选的,由于基尼系数越小聚集性越高,因此,可以使基尼系数越小,聚集程度越大。因此,只有当目标特征维度的聚集程度大于或等于预设聚集程度阈值时,才将其确定为聚集特征维度。
预设聚集程度阈值可以是用于判定聚集程度是否会导致目标特征维度被确定为聚集特征维度的预设的数值。
通过本实施例中的方法,可以基于基尼系数计算,在目标特征维度中确定出聚集特征维度,进而可以快速确定出对象集群聚集的可解释的原因。
作为一种可选的实施方式,如前述的方法,在所述步骤根据至少两个目标对象在多个目标特征维度中的每个目标特征维度上的聚集程度,从多个目标特征维度中确定出至少一个聚集特征维度之前,方法还包括至少以下之一:
步骤S601,获取输入的异常特征维度组合。
在确定聚集特征维度之后,即需要根据聚集特征维度与异常特征维度组合之间的包含关系,确定对象集群是否为异常集群。
异常特征维度组合可以是人为选择得到的多个可解释的特征维度的组合。因此,目标服务器可以接收得到外界输入的异常特征维度组合。
步骤S602,按照多个候选对象中的每个候选对象在每个目标特征维度上的特征值的目标特征属性,从多个目标特征维度中选择出至少一个特征维度,得到异常特征维度组合,其中,目标特征属性为以下至少之一:重复概率,分散程度。
目标特征维度的特征值可以是每个目标特征维度可以取的所有值,例如,当目标特征维度为年龄时,则特征值一般可以是1至130之间的任意值。在确定目标特征维度之后,即可确定目标特征维度中的特征值的目标特征属性。
目标特征属性可以是用于表征某一特征维度上的各个特征值之间的重复概率以及分散程度的属性。
重复概率可以是每个目标特征维度中,各个目标对象在目标特征维度上取同一个特征值的概率;例如,当目标特征维度为年龄时,则不同特征值只能是1至130之间的整数值,因此,重复概率高;当目标特征维度为手机号时,手机号具有唯一性,且一般情况下每个手机号只能绑定一个用户,因此则不同候选对象的特征值不同,因此,重复概率为0。
分散程度可以是每个目标特征维度中,各个目标对象在目标特征维度上取的特征值的分散的程度;例如,当目标特征维度为年龄时,则不同特征值只能是1至130之间的整数值,因此,分散程度低;当目标特征维度为每天观看时长(以秒为单位)时,则不同特征值可以是0至86400之间的整数值,因此,分散程度高。
在确定每个目标特征维度对应的重复概率和/或分散程度之后,可以选择重复概率最低的M个目标特征维度、或者重复概率低于预设重复阈值的目标特征维度、或者分散程度最高的M个目标特征维度、或者分散程度高于预设分散程度阈值的目标特征维度得到异常特征维度组合,以使得异常特征维度组合中的目标特征维度具有低碰撞率。
通过本实施例中的方法,选择得到的异常特征维度组合中的各个目标特征维度具有低碰撞率,在低碰撞率的情况下,若对象集群中的各个目标对象仍然具有较高的聚集程度,则可以更加明确的表征对象集群的异常程度高。
作为一种可选的实施方式,如前述的方法,在所述步骤根据至少两个目标对象在多个目标特征维度中的每个目标特征维度上的聚集程度,从多个目标特征维度中确定出至少一个聚集特征维度之后,方法还包括如下所述步骤:
步骤S701,使用异常特征维度组合中的每个异常特征维度在至少一个聚集特征维度中进行匹配,得到每个异常特征维度的目标匹配结果,其中,目标匹配结果用于指示至少一个聚集特征维度中是否包含每个异常特征维度。
在确定聚集特征维度之后,即可判断聚集特征维度中是否包括异常特征维度组合中的每个异常特征维度。
异常特征维度可以是异常特征维度组合中的任一特征维度。在确定异常特征维度之后,即可通过确定是否每个异常特征维度都可以匹配到对应的聚集特征维度,以得到目标匹配结果。
使用异常特征维度组合中的每个异常特征维度在至少一个聚集特征维度中进行匹配可以是:将每个异常特征维度分别在所有聚集特征维度中进行匹配,以得到每个异常特征维度的匹配结果,该匹配结果用于指示所有聚集特征维度中是否包含该异常特征维度;并可基于各个匹配结果得到目标匹配结果。当每个匹配结果均指示存在与每个异常特征维度匹配的聚集特征维度时,则目标匹配结果用于指示至少一个聚集特征维度中包含每个异常特征维度。
通过本实施例中的方法,可以快速确定出至少一个聚集特征维度与各个异常特征维度组合之间的包含关系,以确定对象集群是否为异常集群。
如图3所示,提供了一种应用前述任一实施例所述方法的应用例:
1.对用户的行为日志(即,对象信息)进行预处理,原始日志中可能包含各种不合法的异常值或者格式不统一的数据。比如说日期的取值可能存在“20180901”,“2018年9月1日”,“2018年9月1日星期五”等多种格式,或者存在取值为空,乃至负数等根本不合理的值。因此在对行为日志进行分析之前,需要先对行为日志中的各个子信息进行预处理。主要工作包括统一数据格式,过滤掉不合常理或没有意义的取值。
2.特征工程,可以将特征分成两类:第一行为特征和属性特征。第一行为特征为初始的,用于描述用户的行为特点的特征,可根据业务场景提取,比如在登录场景可以提取用户过去七天登录的次数/使用的IP数/所在城市数等等,主要为数值型特征用于聚类。属性特征则用于描述用户请求的物料信息,是非数值型特征,例如IP、设备品牌等等信息,主要用于异常集群检测。
3.流形学习,特征数量越多特征空间则越大,算法学习到数据内在模式的难度则越大。为了避免引起维度诅咒,降低模型学习难度,可根据需要在第一行为特征上进行降维(其中,降维的可用算法包括:主成分分析、自编码器等),将第一行为特征映射到一个低维流形上。
4.聚类,通过运行聚类算法对降维后的第二行为特征进行处理,以根据第二行为特征将用户分成不同的簇(即,对象集群)。此处的所用聚类算法不定,可以使层次聚类、密度聚类或其他各种常用的聚类方法。
5.簇聚集维度检测,不同簇聚集到一起的原因(即,特征维度)是不一样的,因此在这一步中可以通过使用基尼系数检测每个簇聚集的特征维度上的聚集程度。其中,某个特征维度在簇中的基尼系数越小,代表这个簇中的用户在此维度上取值越一致,即越聚集。对每个簇的每个特征维度特征计算基尼系数,即可检测出每个簇具体在哪些维度上呈现聚集性。此处参与计算的特征维度为,用户的属性特征维度(即,目标属性特征维度,为非数值型特征维度)和离散化后的行为类特征维度(即,目标离散化行为特征维度)。具体离散化的方法,可根据人为设定的阈值进行划分,比如等频或等宽划分。
6.异常特征维度组合,主要有两种来源:根据经验制定的异常特征维度组合和自动化搜索到的低碰撞概率的异常特征维度组合。自动化搜索基于组合维度的基尼系数和维度取值重复率决定。组合维度的基尼系数越大即取值的分散程度越高,越不容易碰撞;维度取值重复率,即组合中各维度取值重复概率,重复率越低越不容易碰撞。筛选出基尼系数大,重复概率低的组合维度为异常组合维度。
7.异常簇检测,筛选出那些在异常特征维度组合的各个维度上聚集的簇为异常簇(即,异常集群),异常特征维度组合的各个维度则为该簇异常的解释。
如图4所示,根据本申请另一方面的一个实施例,还提供一种异常对象检测装置,包括:
对象集群模块1,用于对多个候选对象进行聚类,得到对象集群,其中,对象集群中包括多个候选对象中的至少两个目标对象;
聚集特征维度模块2,用于根据至少两个目标对象在多个目标特征维度中的每个目标特征维度上的聚集程度,从多个目标特征维度中确定出至少一个聚集特征维度;
确定模块3,用于在至少一个聚集特征维度包含异常特征维度组合的情况下,将对象集群确定为异常集群,其中,异常特征维度组合为用于指示任一所述对象集群在异常特征维度组合中的每个异常特征维度上的聚集程度均满足预设聚集要求时,对象集群为异常的维度组合。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
根据本申请的另一个实施例,还提供一种电子设备,包括:如图5所示,电子设备可以包括:处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信。
存储器1503,用于存放计算机程序;
处理器1501,用于执行存储器1503上所存放的程序时,实现上述方法实施例的步骤。
上述电子设备提到的总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请实施例还提供一种计算机可读存储介质,存储介质包括存储的程序,其中,程序运行时执行上述方法实施例的方法步骤。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种异常对象检测方法,其特征在于,包括:
对多个候选对象进行聚类,得到对象集群,其中,所述对象集群中包括所述多个候选对象中的至少两个目标对象,所述候选对象是需要进行异常检测的对象,包括:视频平台用户、购票平台用户;
根据所述至少两个目标对象在多个目标特征维度中的每个目标特征维度上的聚集程度,从所述多个目标特征维度中确定出至少一个聚集特征维度,包括:对所述至少两个目标对象的所述每个目标特征维度进行基尼系数计算,得到所述至少两个目标对象在所述每个目标特征维度上的聚集程度;从所述多个目标特征维度中选择出对应的所述聚集程度大于或等于预设聚集程度阈值的特征维度,得到所述至少一个聚集特征维度;
在所述至少一个聚集特征维度包含异常特征维度组合的情况下,将所述对象集群确定为异常集群,其中,所述异常特征维度组合为用于指示任一所述对象集群在异常特征维度组合中的每个异常特征维度上的聚集程度均满足预设聚集要求时,所述对象集群为异常的维度组合。
2.根据权利要求1所述的方法,其特征在于,所述对多个候选对象进行聚类,得到对象集群包括:
根据第一行为特征对所述多个候选对象进行聚类,得到所述对象集群,其中,所述第一行为特征包含所述多个候选对象中的每个候选对象在多个维度上的行为特征。
3.根据权利要求2所述的方法,其特征在于,所述根据第一行为特征对所述多个候选对象进行聚类,得到所述对象集群包括:
对所述第一行为特征进行降维处理,得到第二行为特征,其中,所述第二行为特征中的每个维度上的行为特征通过所述第一行为特征中的至少一个维度上的行为特征映射得到;
基于所述第二行为特征,对所述多个候选对象进行聚类,得到所述对象集群。
4.根据权利要求3所述的方法,其特征在于,在所述根据所述至少两个目标对象在多个目标特征维度中的每个目标特征维度上的聚集程度,从所述多个目标特征维度中确定出至少一个聚集特征维度之前,所述方法还包括:
按照目标离散化行为特征对所述第一行为特征中每个维度的行为特征进行离散化处理,得到第三行为特征,其中,所述多个目标特征维度包含所述目标离散化行为特征维度和目标属性特征维度,所述目标属性特征维度是从所述多个候选对象的候选属性特征维度中提取出的属性特征维度。
5.根据权利要求1所述的方法,其特征在于,所述根据所述至少两个目标对象在多个目标特征维度中的每个目标特征维度上的聚集程度,从所述多个目标特征维度中确定出至少一个聚集特征维度之前,所述方法还包括至少以下之一:
获取输入的所述异常特征维度组合;
按照所述多个候选对象中的每个候选对象在所述每个目标特征维度上的特征值的目标特征属性,从所述多个目标特征维度中选择出至少一个特征维度,得到所述异常特征维度组合,其中,所述目标特征属性为以下至少之一:重复概率,分散程度。
6.根据权利要求1至5中任一项所述的方法,其特征在于,在所述根据所述至少两个目标对象在多个目标特征维度中的每个目标特征维度上的聚集程度,从所述多个目标特征维度中确定出至少一个聚集特征维度之后,所述方法还包括:
使用所述异常特征维度组合中的每个异常特征维度在所述至少一个聚集特征维度中进行匹配,得到所述每个异常特征维度的目标匹配结果,其中,所述目标匹配结果用于指示所述至少一个聚集特征维度中是否包含所述每个异常特征维度。
7.一种异常对象检测装置,其特征在于,包括:
对象集群模块,用于对多个候选对象进行聚类,得到对象集群,其中,所述对象集群中包括所述多个候选对象中的至少两个目标对象,所述候选对象是需要进行异常检测的对象,包括:视频平台用户、购票平台用户;
聚集特征维度模块,用于根据所述至少两个目标对象在多个目标特征维度中的每个目标特征维度上的聚集程度,从所述多个目标特征维度中确定出至少一个聚集特征维度,包括:对所述至少两个目标对象的所述每个目标特征维度进行基尼系数计算,得到所述至少两个目标对象在所述每个目标特征维度上的聚集程度;从所述多个目标特征维度中选择出对应的所述聚集程度大于或等于预设聚集程度阈值的特征维度,得到所述至少一个聚集特征维度;
确定模块,用于在所述至少一个聚集特征维度包含异常特征维度组合的情况下,将所述对象集群确定为异常集群,其中,所述异常特征维度组合为用于指示任一所述对象集群在异常特征维度组合中的每个异常特征维度上的聚集程度均满足预设聚集要求时,所述对象集群为异常的维度组合。
8.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述计算机程序时,实现权利要求1至6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至6中任一项所述的方法。
CN202110819744.6A 2021-07-20 2021-07-20 一种异常对象检测方法及装置、电子设备及存储介质 Active CN113537363B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110819744.6A CN113537363B (zh) 2021-07-20 2021-07-20 一种异常对象检测方法及装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110819744.6A CN113537363B (zh) 2021-07-20 2021-07-20 一种异常对象检测方法及装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113537363A CN113537363A (zh) 2021-10-22
CN113537363B true CN113537363B (zh) 2023-12-15

Family

ID=78128975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110819744.6A Active CN113537363B (zh) 2021-07-20 2021-07-20 一种异常对象检测方法及装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113537363B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018211721A1 (ja) * 2017-05-17 2018-11-22 日本電信電話株式会社 異常情報推定装置、異常情報推定方法及びプログラム
CN109464807A (zh) * 2018-11-06 2019-03-15 网易(杭州)网络有限公司 检测游戏外挂的方法、装置和终端
CN109635113A (zh) * 2018-12-13 2019-04-16 平安医疗健康管理股份有限公司 异常参保人购药数据检测方法、装置、设备及存储介质
CN110059712A (zh) * 2019-02-21 2019-07-26 阿里巴巴集团控股有限公司 异常数据的检测方法及装置
CN110311902A (zh) * 2019-06-21 2019-10-08 北京奇艺世纪科技有限公司 一种异常行为的识别方法、装置及电子设备
CN111612041A (zh) * 2020-04-24 2020-09-01 平安直通咨询有限公司上海分公司 异常用户识别方法及装置、存储介质、电子设备
CN111612038A (zh) * 2020-04-24 2020-09-01 平安直通咨询有限公司上海分公司 异常用户检测方法及装置、存储介质、电子设备
CN112508630A (zh) * 2021-01-29 2021-03-16 腾讯科技(深圳)有限公司 异常会话群的检测方法、装置、计算机设备和存储介质
CN112714093A (zh) * 2019-10-25 2021-04-27 深信服科技股份有限公司 一种账号异常检测方法、装置、系统及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10373056B1 (en) * 2018-01-25 2019-08-06 SparkCognition, Inc. Unsupervised model building for clustering and anomaly detection

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018211721A1 (ja) * 2017-05-17 2018-11-22 日本電信電話株式会社 異常情報推定装置、異常情報推定方法及びプログラム
CN109464807A (zh) * 2018-11-06 2019-03-15 网易(杭州)网络有限公司 检测游戏外挂的方法、装置和终端
CN109635113A (zh) * 2018-12-13 2019-04-16 平安医疗健康管理股份有限公司 异常参保人购药数据检测方法、装置、设备及存储介质
CN110059712A (zh) * 2019-02-21 2019-07-26 阿里巴巴集团控股有限公司 异常数据的检测方法及装置
CN110311902A (zh) * 2019-06-21 2019-10-08 北京奇艺世纪科技有限公司 一种异常行为的识别方法、装置及电子设备
CN112714093A (zh) * 2019-10-25 2021-04-27 深信服科技股份有限公司 一种账号异常检测方法、装置、系统及存储介质
CN111612041A (zh) * 2020-04-24 2020-09-01 平安直通咨询有限公司上海分公司 异常用户识别方法及装置、存储介质、电子设备
CN111612038A (zh) * 2020-04-24 2020-09-01 平安直通咨询有限公司上海分公司 异常用户检测方法及装置、存储介质、电子设备
CN112508630A (zh) * 2021-01-29 2021-03-16 腾讯科技(深圳)有限公司 异常会话群的检测方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高校学生日常行为异常检测的一种改进模糊聚类方法;程永亮;《万方数据库》;全文 *

Also Published As

Publication number Publication date
CN113537363A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN108182515B (zh) 智能规则引擎规则输出方法、设备及计算机可读存储介质
CN107040397B (zh) 一种业务参数获取方法及装置
CN112508456A (zh) 食品安全风险评估方法、系统、计算机设备及存储介质
CN116452333A (zh) 异常交易检测模型的构建方法、异常交易检测方法及装置
CN114202256B (zh) 架构升级预警方法、装置、智能终端及可读存储介质
CN111985577A (zh) 基于人工智能的客户价值标注方法、装置、设备及介质
CN113537363B (zh) 一种异常对象检测方法及装置、电子设备及存储介质
CN117437019A (zh) 信用卡逾期风险预测方法、装置、设备、介质和程序产品
CN113869904B (zh) 可疑数据识别方法、装置、电子设备、介质和计算机程序
CN113535458B (zh) 异常误报的处理方法及装置、存储介质、终端
EP4027277A1 (en) Method, system and computer program product for drift detection in a data stream
CN114385121A (zh) 一种基于业务分层的软件设计建模方法及系统
CN113901817A (zh) 文档分类方法、装置、计算机设备和存储介质
CN113052509A (zh) 模型评估方法、模型评估装置、电子设备和存储介质
CN118035049B (zh) 应用接口异常告警方法、装置、电子设备和介质
CN111835830B (zh) 一种数据感知系统、方法及装置
CN116996403B (zh) 应用ai模型的网络流量诊断方法及系统
CN114880713B (zh) 基于数据链路的用户行为分析方法、装置、设备及介质
CN114862482B (zh) 一种基于大数据预测产品需求的数据处理方法及系统
CN116501993B (zh) 房源数据推荐方法及装置
CN111784069B (zh) 用户偏好预测方法、装置、设备及存储介质
CN113469265A (zh) 数据类别属性的确定方法及装置、存储介质、电子装置
CN118840140A (zh) 一种基于人工智能的企业网络销售数据预警管理系统
CN117272099A (zh) 基于人工智能的运营系统优化方法、装置及计算机设备
CN118585394A (zh) 监测系统异常的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant