CN113901261A - 异常对象集群的定位方法和装置、电子设备和存储介质 - Google Patents

异常对象集群的定位方法和装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113901261A
CN113901261A CN202111101618.3A CN202111101618A CN113901261A CN 113901261 A CN113901261 A CN 113901261A CN 202111101618 A CN202111101618 A CN 202111101618A CN 113901261 A CN113901261 A CN 113901261A
Authority
CN
China
Prior art keywords
abnormal
candidate
cluster
objects
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111101618.3A
Other languages
English (en)
Inventor
王中晴
周洁芸
彭涛
马金韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202111101618.3A priority Critical patent/CN113901261A/zh
Publication of CN113901261A publication Critical patent/CN113901261A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种异常对象集群的定位方法和装置、电子设备和存储介质,其中,方法包括:确定出多个候选对象中的异常对象;按照至少一个目标特征类型集合,对多个候选对象进行集群定位分析,得到与每个目标特征类型集合对应的至少一个对象集群;根据每个对象集群中包含的异常对象的数量,在至少一个对象集群中确定异常对象集群。本申请通过按照至少一个目标特征类型集合,对多个候选对象进行集群定位分析,可以划分得到与不同目标特征类型集合对应的对象集群,进而采用少量的对象特征即可在所有候选对象中确定出对象集群;可以有效避免相关技术中采用候选对象所有特征进行集群定位分析,导致的计算所需消耗资源量过大的情况。

Description

异常对象集群的定位方法和装置、电子设备和存储介质
技术领域
本申请涉及智能识别技术领域,尤其涉及一种异常对象集群的定位方法和装置、电子设备和存储介质。
背景技术
随着线上多媒体技术的发展,通过优质的媒体资源(例如,视频、网文)可以达到较强的吸引用户的效果,并且由于媒体资源的点阅量越高,被推广的优先级越高,且得到的广告收益也越高,因此出现越来越多的对媒体资源进行刷量的情况;并且当前对媒体资源进行刷量呈现规模化、聚集化态势。
如何在大规模数据集下发现刷量的黑灰产业链是当前工业界关注的重点之一。相关技术中,通过采用图关联算法,可以检测到一个新的妹子资源或者用户是否会与异常团伙建立关联关系,从而及时发现异常。但在大数据环境下,对于所有的用户或者媒体资源之间两两建立联系,其计算量呈指数级增长,其消耗的计算资源和时间将是不可估量的。
由此可见,相关技术中存在对异常对象集群进行定位时需消耗大量计算资源和时间的问题。
发明内容
为了解决上述对异常对象集群进行定位时需消耗大量计算资源和时间的技术问题,本申请提供了一种异常对象集群的定位方法和装置、电子设备和存储介质。
第一方面,本申请实施例提供了一种异常对象集群的定位方法,包括:
确定出多个候选对象中的异常对象;
按照至少一个目标特征类型集合,对多个所述候选对象进行集群定位分析,得到与每个所述目标特征类型集合对应的至少一个对象集群,其中,每个所述目标特征类型集合中包括所述候选对象的至少一个对象特征的特征类型,每个所述对象集群中包括至少一个所述候选对象;
根据每个所述对象集群中包含的所述异常对象的数量,在至少一个所述对象集群中确定异常对象集群。
可选地,如前述的方法,所述确定出多个候选对象中的异常对象包括:
对每个所述候选对象的第一对象信息进行特征提取,得到每个所述候选对象的对象特征;
对每个所述候选对象的对象特征进行异常检测,得到每个所述候选对象的异常检测结果;
按照每个所述候选对象的所述异常检测结果,确定出多个所述候选对象中的所述异常对象。
可选地,如前述的方法,
所述对每个所述候选对象的对象特征进行异常检测,得到每个所述候选对象的异常检测结果包括:将每个所述候选对象的对象特征分别输入多个异常检测模型中的每个异常检测模型进行异常检测,得到每个所述候选对象的多个所述异常检测结果,其中,所述异常检测结果与所述异常检测模型一一对应;
所述按照每个所述候选对象的所述异常检测结果,确定出多个所述候选对象中的所述异常对象包括:基于每个所述候选对象的多个所述异常检测结果,确定出多个所述候选对象中的所述异常对象,其中,所述异常对象的至少一个所述异常检测结果用于指示所述异常对象存在异常。
可选地,如前述的方法,所述确定出多个候选对象中的异常对象包括:
将多个所述候选对象中的历史异常对象,确定为所述异常对象。
可选地,如前述的方法,所述按照至少一个目标特征类型集合,对多个所述候选对象进行集群定位分析,得到与每个所述目标特征类型集合对应的至少一个对象集群包括:
基于每个所述候选对象的第二对象信息对多个所述候选对象进行相关性计算,在多个所述候选对象中定位得到与每个所述目标特征类型集合对应的至少一个所述对象集群,其中,所述第二对象信息为所述候选对象的所有对象信息中,与所述目标特征类型集合各个特征类型对应的信息,同一个所述对象集群中,任意两个所述候选对象的所述第二对象信息之间的相关性大于或等于预设值。
可选地,如前述的方法,所述根据每个所述对象集群中包含的所述异常对象的数量,在至少一个所述对象集群中确定异常对象集群包括以下之一:
将包含的所述异常对象的数量大于或者等于目标数量阈值的所述对象集群,确定为所述异常对象集群;
将包含的所述异常对象的数量与包含的对象的总数量的比例大于或者等于目标比例阈值的所述对象集群,确定为所述异常对象集群。
可选地,如前述的方法,
在所述候选对象为候选用户的情况下,在所述根据每个所述对象集群中包含的所述异常对象的数量,在至少一个所述对象集群中确定异常对象集群之后,所述方法还包括:在所有所述候选对象的第一对象信息中对第一异常信息进行清洗,得到清洗后的第一对象信息,其中,所述第一异常信息为异常用户的第一对象信息,所述异常用户为各个所述异常对象集群中的所述候选用户;
在所述候选对象为候选视频的情况下,在所述根据每个所述对象集群中包含的所述异常对象的数量,在至少一个所述对象集群中确定异常对象集群之后,所述方法还包括:将所述异常对象集群中的所述候选视频确定为目标异常视频。
第二方面,本申请实施例提供了一种异常对象集群的定位装置,包括:
第一确定模块,用于确定出多个候选对象中的异常对象;
定位模块,用于按照至少一个目标特征类型集合,对多个所述候选对象进行集群定位分析,得到与每个所述目标特征类型集合对应的至少一个对象集群,其中,每个所述目标特征类型集合中包括所述候选对象的至少一个对象特征的特征类型,每个所述对象集群中包括至少一个所述候选对象;
第二确定模块,用于根据每个所述对象集群中包含的所述异常对象的数量,在至少一个所述对象集群中确定异常对象集群。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述计算机程序时,实现如前述任一项所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行如前任一项所述的方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:通过按照至少一个目标特征类型集合,对多个候选对象进行集群定位分析,可以划分得到与不同目标特征类型集合对应的对象集群,进而采用少量的对象特征即可在所有候选对象中确定出对象集群;可以有效降低相关技术中采用候选对象所有特征进行集群定位分析时,因为候选对象的对象特征数量多,计算所需消耗资源量过大,极容易导致计算系统无法负荷的情况。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种异常对象集群的定位方法的流程图;
图2为本申请另一实施例提供的一种异常对象集群的定位方法的流程图;
图3为本申请应用例提供的一种异常对象集群的定位方法的流程图;
图4为本申请实施例提供的一种异常对象集群的定位装置的框图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
根据本申请实施例的一个方面,提供了一种异常对象集群的定位方法。可选地,在本实施例中,上述异常媒体资源检测方法可以应用于的由终端和服务器所构成的硬件环境中。服务器通过网络与终端进行连接,可用于为终端或终端上安装的客户端提供服务(如内容推送服务、应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器提供数据存储服务。
上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端可以并不限定于为PC、手机、平板电脑等。
本申请实施例的资源分配方法可以由服务器来执行,也可以由终端来执行,还可以是由服务器和终端共同执行。其中,终端执行本申请实施例的属性信息的获取方法也可以是由安装在其上的客户端来执行。
以由目标服务器来执行本实施例中的异常对象集群的定位方法为例,图1为本申请实施例提供的一种异常对象集群的定位方法,包括如下所述步骤:
步骤S101,确定出多个候选对象中的异常对象。
本实施例中的异常对象集群的定位方法可以应用于需要在对象集合中识别出异常播对象的场景,例如:定位刷量视频集群的场景、定位刷量歌曲集群的场景、定位刷量直播间集群的场景、定位刷量用户集群的场景等,也可以是定位其他异常对象集群的场景。本申请实施例中以视频为例说明上述的异常对象集群的定位方法,对于其他类型的对象,上述的异常对象集群的定位方法同样适用。
以定位刷量视频集群的场景为例,通过对所有视频(即,候选媒体资源)进行异常识别,以确定所有视频中的异常视频集群(即,异常对象集群)。
当存在对多个候选对象中异常播放的对象进行定位的需求(例如,当定期进行异常播放检测时,并且当前为异常检测的时间点)时,目标服务器可以先确定各个候选对象的播放记录的存储区域;然后从该存储区域中读取得到各个候选对象的播放信息,其中,候选对象可以是各个需要判断是否存在异常播放的对象,当候选对象为视频、歌曲时,播放信息可以是候选对象被播放的信息,当候选对象为用户时,播放信息可以是用户主动播放视频、歌曲的信息;最后,基于各个候选对象的播放信息,确定出多个候选对象中的异常对象。
异常对象可以是被判定为存在异常播放的候选对象。可选地,可以基于各个候选对象的播放信息对各个候选对象进行判断,以确定其中播放异常的候选对象。
例如,可以先使用Flink(一种分布式处理框架)从KAFKA(一种分布式日志系统)中实时采集各个端(例如,手机端、PC端、网页端)的用户观看视频的日志信息,包括点击日志,并将日志信息导入到Hadoop(一种分布式系统基础架构)大数据平台上,使用HIVE数据仓库(基于Hadoop的一种数据仓库工具)作为存储工具对各个视频的日志信息进行存储,并可将每个视频的日志信息作为该视频的播放信息。当基于播放信息确定某一视频的播放特征(即,对象特征)与大多数视频的播放特征之间的差异值大于预设差异阈值时,则可将该视频作为异常视频。
步骤S102,按照至少一个目标特征类型集合,对多个候选对象进行集群定位分析,得到与每个目标特征类型集合对应的至少一个对象集群,其中,每个目标特征类型集合中包括候选对象的至少一个对象特征的特征类型,每个对象集群中包括至少一个候选对象。
目标服务器在确定需要进行集群定位分析的候选对象之后,可以按照至少一个目标特征类型集合,对多个候选对象进行集群定位分析,以得到与每个目标特征类型集合对应的至少一个对象集群。
目标特征类型集合可以是用于进行集群定位分析的一个或多个特征类型的集合;并且,目标特征类型集合中包含的特征类型,可以通过从候选对象中包括的对象特征的特征类型中进行选择得到。例如,当某一目标特征类型集合中包括IP地址和手机品牌时,则基于IP地址和手机品牌对各个候选对象进行集群定位分析。进一步的,可以基于各个特征类型的对象特征进行变更的难度,将特征类型划分为不同类型,例如,高成本特征、低成本特征以及属性特征;其中,高成本特征可以包括IP地址和手机品牌等不易于更改或者更改时会耗费较高成本的特征类型;低成本特征可以包括用于观看视频的软件版本号等容易进行更改的特征类型;属性特征可以包括视频类型、视频频道等视频本身的特征类型。在确定目标特征类型集合之后,即可按照目标特征类型集合中包括的特征类型对候选对象进行集群分析,以定位得到与目标特征类型集合对应的至少一个对象集群。
集群定位分析可以是:通过每个候选对象的所有信息中与目标特征类型集合包括的特征类型对应的特征信息,对任意两个候选对象之间的相关性进行计算,然后按照任意两个候选对象之间的相关性,对各个候选对象进行分群(例如,图聚类),并且,每个对象集群中包至少一个候选对象。
对象集群是由各个候选对象构成的集群,一般的,不同的对象集群中可以存在相同的候选对象,并且不同的对象集群中至少包括一个不同的候选对象。
例如,在目标特征类型集合中包括的特征类型为IP地址和手机品牌时,可以根据每个视频的播放信息中与IP地址和手机品牌对应的特征信息,对多个视频进行集群定位分析,进而通过各个视频的播放信息之间的相关性,得到各个视频之间的相关性,以定位得到各个视频团伙(即,对象集群)。
步骤S103,根据每个对象集群中包含的异常对象的数量,在至少一个对象集群中确定异常对象集群。
在得到各个目标特征类型集合对应的对象集群之后,需要判断各个对象集群是否为异常对象集群。在一般情况下,一个对象集群中的异常对象的数量越多,该对象集群为异常对象集群的概率也越高,因此,可以根据对象集群中包含的异常对象的数量,确定对象集群是否为异常对象集群。
可选的,当对象集群A中的候选对象的数量为N(N为大于等于1的整数)时,将对象集群A确定为异常对象集群;当对象集群B中的候选对象的数量同样为N,但是对象集群B中的候选对象的数量b远大于对象集群A中的候选对象的数量a时(例如,a=10b),则对象集群B中的异常对象的数量占比远低于对象集群A中异常对象的数量占比,因此对象集群可以被确定为正常的对象集群;另一方面,当对象集群C中的异常对象占所有候选对象的比例超过预设比例阈值时,即使异常对象的数量少于N,也可将对象集群C判定为异常对象集群。
本实施例中通过按照至少一个目标特征类型集合,对多个候选对象进行集群定位分析,可以划分得到与不同目标特征类型集合对应的对象集群,进而采用少量的对象特征即可在所有候选对象中确定出对象集群;可以有效降低相关技术中采用候选对象所有特征进行集群定位分析时,因为候选对象的对象特征数量多,计算所需消耗资源量过大,极容易导致计算系统无法负荷的情况。
如图2所示,作为一种可选的实施方式,如前述的方法,确定出多个候选对象中的异常对象包括如下所述步骤:
步骤S201,对每个候选对象的第一对象信息进行特征提取,得到每个候选对象的对象特征。
目标服务器在获取各个候选对象的播放信息之后,可以对每个候选对象的播放信息中的第一对象信息进行特征提取,并基于提取得到的对象特征在候选对象中确定出异常对象。
第一对象信息可以是候选对象的所有日志信息进行汇总后得到的,用于表征该候选对象被播放情况的信息,可以包括但不限于以下至少一项:播放设备、播放IP、播放账户、播放的APP版本等等。在得到候选对象的第一对象信息之后,可以通过对第一对象信息进行特征提取,以得到该候选对象的对象特征。
进行特征提取的方式可以是,对第一对象信息进行特征计算,并可分别计算不同的特征种类的特征值,例如,特征种类可以包括但不限于以下至少一项:播放情况相关特征(例如,播放次数、播放高峰)、用户相关特征(例如,观看人群分布等等)、设备相关特征(例如,不同品牌终端的播放次数,不同终端类型(例如,PC机、手机)的播放次数);进而可以分别针对上述各项特征种类计算得到播放情况特征值、用户特征值以及设备特征值,即,对象特征。
步骤S202,对每个候选对象的对象特征进行异常检测,得到每个候选对象的异常检测结果。
在确定各个候选对象的对象特征之后,可以对每个候选对象的对象特征进行异常检测,以得到与每个候选对象一一对应的异常检测结果。
异常检测可以是通过对象特征确定出候选对象是否存在异常的检测方法,可选的,可以采用无监督机器学习的方法,对各个对象特征进行检测,以得到各个候选对象的异常检测结果。
异常检测结果可以是表征各个候选对象异常程度的评价值(例如,得分)。
例如,可以将对象特征输入无监督机器学习算法中进行检测。并通过无监督机器学习算法得到各个对象特征对应的得分,并将该得分作为对象特征的异常检测结果,并且,一般情况下,得分越高,说明视频相对就越异常。
步骤S203,按照每个候选对象的异常检测结果,确定出多个候选对象中的异常对象。
在得到每个候选对象的异常检测结果之后,即可按照异常检测结果,确定各个候选对象的异常程度,进而可以从所有候选对象中得到异常对象。
异常对象可以是候选对象中,异常检测结果高于预设阈值的对象。
例如,在得到各个视频的进行异常检测的得分(即,异常检测结果)之后,可以按照得分由高到低的顺序对各个视频进行排序,选取得分值为0.65以上的视频作为异常视频(即,异常对象)。
通过本实施例中的方法,可以基于无监督机器学习算法快速确定出候选对象中可能存在异常的异常对象,可以更快的发现所有候选对象中的异常数据,进而有效提高检测的效率。
作为一种可选的实施方式,前述步骤S202可以包括::将每个候选对象的对象特征分别输入多个异常检测模型中的每个异常检测模型进行异常检测,得到每个候选对象的多个异常检测结果,其中,异常检测结果与异常检测模型一一对应;
在得到每个候选对象的对象特征之后,若采用多个异常检测模型对每个对象特征进行异常检测,可以获取每个异常检测模型对每个对象特征检测得到的异常检测结果。
异常检测模型可以是用于对对象特征进行异常检测的,预先设置的无监督机器学习模型。例如,多个异常检测模型可以包括:孤立森林、AutoEncoder(自编码器,是一类在半监督学习和非监督学习中使用的人工神经网络,其功能是通过将输入信息作为学习目标,对输入信息进行表征学习)。在确定多个异常检测模型之后,即可将每个候选对象的对象特征分别输入多个异常检测模型中的每个异常检测模型进行异常检测,即,当异常检测模型包括:异常检测模型A、异常检测模型B时,可以将每个候选对象的对象特征分别输入至异常检测模型A、异常检测模型B中进行异常检测。
例如,当异常检测模型包括孤立森林和AutoEncoder时,针对视频A的对象特征A,可以将该对象特征A分别输入孤立森林和AutoEncoder中,进而得到由孤立森林对对象特征A进行计算后得到的异常检测结果I和AutoEncoder对对象特征A进行计算后得到的异常检测结果II。
对应地,在本实施例中,前述步骤S203可以包括:基于每个候选对象的多个异常检测结果,确定出多个候选对象中的异常对象,其中,异常对象的至少一个异常检测结果用于指示异常对象存在异常。
由前可知,当存在多个异常检测模型时,每个候选对象都会对应有多个异常检测结果(即,每个异常检测模型都会对该候选对象的对象特征进行计算,得到一个异常检测结果)。
基于每个候选对象的多个异常检测结果,确定出多个候选对象中的异常对象,可以是:对于一个候选对象,当其存在的多个异常检测结果中,存在至少一个异常检测结果用于指示异常对象存在异常时,即将该候选对象判定为异常对象。
例如,当候选对象包括异常检测结果A、异常检测结果B时,若异常检测结果A、异常检测结果B中的一个(异常检测结果A或异常检测结果B)表征该候选对象存在异常,即判定该候选对象为异常对象;若异常检测结果A和异常检测结果B都为异常,也判定该候选对象为异常对象。
通过本实施例的方法,可以获取每个异常检测模型对每个对象特征检测得到的异常检测结果,进而可以通过多个异常检测模型避免某一个异常检测模型无法检出异常对象的情况,以提高异常检测的容错率,并提升异常对象的检出率。
作为一种可选的实施方式,如前述的方法,所述步骤S101确定出多个候选对象中的异常对象包括:
将多个候选对象中的历史异常对象,确定为异常对象。
可以按照某一预设的周期(例如,每24小时,或每7天)进行目标异常对象的确定。因此,在本次进行目标异常对象的确定之前,可以得到历史时间段(例如,在当前时间之前的所有时间段)中确定的所有历史异常对象。
历史异常对象可以是历史时间段中,各个候选对象中确定存在异常播放情况的对象。
例如,当存在候选对象a、候选对象b、候选对象c时,在历史时间段中,若候选对象a被确定为历史异常对象时,则将候选对象a直接作为异常对象。
通过本实施例中的方法,可以从历史经验数据中,找出异常的历史异常对象作为异常对象,可以使得到的异常对象的置信度更高,并且能够使异常对象的覆盖面更广。
作为一种可选的实施方式,如前述的方法,所述步骤S102可以包括:
基于每个候选对象的第二对象信息对多个候选对象进行相关性计算,在多个候选对象中定位得到与每个目标特征类型集合对应的至少一个对象集群,其中,第二对象信息为候选对象的所有对象信息中,与目标特征类型集合各个特征类型对应的信息,同一个对象集群中,任意两个候选对象的第二对象信息之间的相关性大于或等于预设值。
目标服务器在确定每个候选目标特征类型集合之后,即可根据目标特征类型集合中包括的特征类型,确定候选对象中用于计算相关性的第二对象信息。
第二对象信息可以是候选对象的所有对象信息中,与目标特征类型集合中的特征类型一致的信息,并且,第二播放信息中可以包括一种或多种信息类型的信息。例如,当目标特征类型集合中包括的特征类型为播放终端时,则从候选对象的所有对象信息中获取播放终端对应的信息,以某一候选对象A为例,可以获得的第二对象信息为:“XX1品牌手机”、“XX2品牌手机”、“XX3品牌手机”等等;当目标特征类型集合中包括的特征类型为IP地址时,则从候选对象的所有对象信息中获取播放终端对应的信息,仍以候选对象A为例,可以获得的第二对象信息为:“IP地址1”、“IP地址2”、“IP地址3”等等。在获取每个候选对象的第二对象信息之后,即可通过计算各个第二对象信息之间的相关性,定位得到包括至少一个候选对象的对象集群。
定位得到至少一个对象集群的方法可以是,确定任意两个候选对象的第二播放信息的中相同信息的数量或者相同信息的比例;当相同信息的数量超过预设数值或者比例超过预设比值时,判定相关性达到预设下限(即,预设值),并确定该两个候选媒体资源之间存在相关性。
例如,当针对于计算视频A和视频B的相关性,且目标特征类型集合1中的特征类型为IP地址时,可以确定观看视频A的所有第一IP地址以及观看视频B的所有第二IP地址,然后计算第一IP地址和第二IP地址之间的重合率,当第一IP地址一共有10000个,第二IP地址一共有10000个,且第一IP地址和第二IP地址中相同的IP地址具有6000个时,则据此可以得到视频A和视频B的相关性是6000×2/(10000+10000)=0.6。当预设值为0.5时,则可以判定视频A和视频B在按照目标特征类型集合进行相关性计算时,存在相关性。因此视频A和视频B共属于同一个对象集群1中,且该对象集群1为对应于目标特征类型集合1的集群。
当目标特征类型集合2中的特征类型为播放软件的版本号时,可以确定采用各个版本号的播放软件观看视频A的所有第一次数,以及采用各个版本号的播放软件观看视频B的所有第二次数,然后计算采用各个第一版本号的播放软件播放视频A和采用第二版本号的播放软件播放视频B之间的相关性,当存在三个版本号(版本号1、版本号2、版本号3)的播放软件时;对于视频A:版本号1对应的播放次数为3000,版本号2对应的播放次数为3000,版本号3对应的播放次数为4000;对于视频B:版本号1对应的播放次数为1000,版本号2对应的播放次数为6000,版本号3对应的播放次数为3000;则据此可以得到视频A各个版本号之间的播放比例为:3:3:4,而视频B各个版本号之间的播放比例为:1:6:3;因此可以确定视频A和视频B不同版本号对应的播放占比差距较大,进而可以判定视频A和视频B在按照目标特征类型集合2进行相关性计算时相关性较低,不存在相关性。因此视频A和视频B不属于对应于目标特征类型集合2的同一个对象集群。
通过本实施例中的方法,可以快速定位得到对应于不同的目标特征类型集合的对象集群,通过边剪裁的方式,即按照特征类型对视频划分层次,使同一层次(即,对应于同一目标特征类型集合)的候选对象之间的关联性较高,不同层次之间的候选对象关联性较低,这样只用在同一层次内做相关性计算,减少了不同层次之间的不必要的关联计算,进而可以有效减少计算所需占用的计算资源和时间开销。
作为一种可选的实施方式,如前述的方法,所述步骤S103根据每个对象集群中包含的异常对象的数量,在至少一个对象集群中确定异常对象集群包括以下之一:
步骤S301,将包含的异常对象的数量大于或者等于目标数量阈值的对象集群,确定为异常对象集群;
目标数量阈值可以是用于判定异常对象的数量是否会导致对象集群被认定为异常对象集群的预设的数值。对于某一对象集群,当其中包括的异常对象的数量大于或等于目标数量阈值时,即表征异常对象的数量达到一定的量级,因此该对象集群中的其他候选对象也存在异常播放的概率也很高。
例如,当目标数量阈值为100时,对象集群A中存在120个异常对象时,判定对象集群中异常对象的数量高于目标数量阈值,因此该对象集群A被确定为异常对象集群。
步骤S302,将包含的异常对象的数量与包含的对象的总数量的比例大于或者等于目标比例阈值的对象集群,确定为异常对象集群。
目标比例阈值可以是用于判定异常对象的占比是否会导致对象集群被认定为异常对象集群的预设的比例值。对于某一对象集群,当其中包括的异常对象的占比大于或等于目标比例阈值时,即表征该对象集群中异常对象的占比很高,因此该对象集群中的其他候选对象也存在异常播放的概率也很高。
例如,当目标比例阈值为0.7时,对象集群A中一共存在200个候选对象,且存在160个异常对象时,判定对象集群中异常对象的占比高于目标比例阈值,因此该对象集群A被确定为异常对象集群。
采用本实施例中的方法,可以采用多种方式确定出异常对象集群,进而可以便于提升后期对异常对象的检出率。
作为一种可选的实施方式,如前述的方法,
在候选对象为候选用户的情况下,在所述步骤S103根据每个对象集群中包含的异常对象的数量,在至少一个对象集群中确定异常对象集群之后,方法还包括:
步骤401,在所有候选对象的第一对象信息中对第一异常信息进行清洗,得到清洗后的第一对象信息,其中,第一异常信息为异常用户的第一对象信息,异常用户为各个异常对象集群中的候选用户;
在确定异常对象集群之后,为了确定所有候选用户产生的真实播放数据,即可对异常对象集群中的异常用户产生的第一对象信息进行清洗,以得到所有候选对象的第一对象信息中清洗后的播放信息。
第一异常信息可以是异常用户对至少一个媒体资源进行刷量等违规操作得到的播放信息。可选的,由于每个终端在对候选媒体资源进行播放后,都会产生对应的日志文件,因此可以通过将第一异常信息对应的日志文件进行删除,以得到第一异常信息被清洗后的第一对象信息。
通过本实施例中的方法,可以达到对所有候选对象的第一对象信息中的第一异常信息快速定位及清洗的目的,进而可以得到清洗后的第一对象信息。
在候选对象为候选视频的情况下,在所述步骤S103根据每个对象集群中包含的异常对象的数量,在至少一个对象集群中确定异常对象集群之后,方法还包括:
步骤403,将异常对象集群中的候选视频确定为目标异常视频。
在得到异常对象集群之后,即可将异常对象集群中的所有候选视频都确定为目标异常视频。
目标异常视频可以是异常视频集群中的候选视频,即,当某一异常视频集群中包括M个候选视频,则该M个候选视频都被确定为目标异常视频。
例如,当一异常视频团伙(即,异常视频集群)中存在视频1、视频2、视频3、视频4、视频5时,即使异常视频只是视频1、视频2、视频3,仍将视频1、视频2、视频3、视频4、视频5都确定为目标异常视频。
通过本实施例中的方法,通过使用集群定位分析的方式对候选视频进行异常检测,可以有效扩大异常检测的覆盖范围,并且通过先确定异常视频集群,然后基于异常视频集群确定目标异常视频,可以通过发现存在异常的所有的视频集群,定位得到所有存在较高异常概率的目标异常视频,便于后期通过对目标异常视频进行追踪,以确定各个候选视频的真实播放数据。
如图3所示,还提供一种应用如前任一实施例所述方法进行刷量视频检测的应用例:
步骤1:首先使用Flink从KAFKA中实时采集各个端的用户观看视频(即,候选对象)的日志信息(包括点击日志),并将日志信息作为原始数据导入到HADOOP大数据平台上,并使用HIVE数据仓库作为原始数据的存储工具。
步骤2:对采集各个视频的播放信息(即,第一对象信息)进行特征计算,比如在网页端对每个被播放的视频进行特征计算,得到播放特征(即,对象特征),特征类型可以包括:例如播放量、登录用户、VIP用户等。
步骤3:点裁剪:对计算好的播放特征采用无监督的异常检测机器学习算法,分别采用孤立森林、AutoEncoder进行检测,得到由孤立森林以及AutoEncoder得到的异常检测结果。根据异常检测结果,得分越高,说明数据相对就越异常;对异常检测结果进行得分排序,选取得分值为0.65以上的候选视频作为异常视频,其中,异常视频的至少一个异常检测结果用于指示异常视频存在异常。
步骤4:边裁剪:对采集的视频进行视频分层(即,按照目标特征类型集合进行集群定位分析),划分得到多个子图(即,多个目标特征类型集合),以进行计算的降维GR={G1,G2,G3},一般情况下会有:高成本特征:IP地址、手机品牌等G1={Gip,Gadress,Gphone…Gi};低成本特征:软件版本号等G2={Gversion,……,Gj};属性特征:视频类型、视频频道等G3={Gtype,Gchanel,…,Gk};对各个子图进行层次内构图,并通过图聚类算法(例如,社区发现LPA、GCN等)发现每个子图中的团伙(即,对象集群)。
步骤5:对步骤4发现的团伙采用图算法进行分析和定位,当一个团伙中,黑种子数据(即,异常对象)达到一定量级或者占比达到一定范围,则判定该团伙为作弊团伙(即,异常对象集群),从而可以召回更多的异常数据(即,目标异常视频)。
如图4所示,根据本申请另一方面的一个实施例,还提供了一种异常对象集群的定位装置,包括:
第一确定模块1,用于确定出多个候选对象中的异常对象;
定位模块2,用于按照至少一个目标特征类型集合,对多个候选对象进行集群定位分析,得到与每个目标特征类型集合对应的至少一个对象集群,其中,每个目标特征类型集合中包括候选对象的至少一个对象特征,每个对象集群中包括至少一个候选对象;
第二确定模块3,用于根据每个对象集群中包含的异常对象的数量,在至少一个对象集群中确定异常对象集群。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
作为一种可选的实施方式,如前述的装置,第一确定模块包括:
提取单元,用于对每个候选对象的第一对象信息进行特征提取,得到每个候选对象的对象特征;
检测单元,用于对每个候选对象的对象特征进行异常检测,得到每个候选对象的异常检测结果;
第一确定单元,用于按照每个候选对象的异常检测结果,确定出多个候选对象中的异常对象。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
作为一种可选的实施方式,如前述的装置,
检测单元,用于将每个候选对象的对象特征分别输入多个异常检测模型中的每个异常检测模型进行异常检测,得到每个候选对象的多个异常检测结果,其中,异常检测结果与异常检测模型一一对应;
第一确定单元,用于基于每个候选对象的多个异常检测结果,确定出多个候选对象中的异常对象,其中,异常对象的至少一个异常检测结果用于指示异常对象存在异常。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
作为一种可选的实施方式,如前述的装置,第一确定模块包括:
第二确定单元,用于将多个候选对象中的历史异常对象,确定为异常对象。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
作为一种可选的实施方式,如前述的装置,定位模块,用于:
基于每个候选对象的第二对象信息对多个候选对象进行相关性计算,在多个候选对象中定位得到与每个目标特征类型集合对应的至少一个对象集群,其中,第二对象信息为候选对象的所有对象信息中,与目标特征类型集合各个特征类型对应的信息,同一个对象集群中,任意两个候选对象的第二对象信息之间的相关性大于或等于预设值。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
作为一种可选的实施方式,如前述的装置,第二确定模块包括:
第三确定单元,用于将包含的异常对象的数量大于或者等于目标数量阈值的对象集群,确定为异常对象集群;
第四确定单元,用于将包含的异常对象的数量与包含的对象的总数量的比例大于或者等于目标比例阈值的对象集群,确定为异常对象集群。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
作为一种可选的实施方式,如前述的装置,
在候选对象为候选用户的情况下,还包括:
清洗模块,用于在所有候选对象的第一对象信息中对第一异常信息进行清洗,得到清洗后的第一对象信息,其中,第一异常信息为异常用户的第一对象信息,异常用户为各个异常对象集群中的候选用户;
在候选对象为候选视频的情况下,还包括:
第三确定模块,用于将异常对象集群中的候选视频确定为目标异常视频。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
根据本申请的另一个实施例,还提供一种电子设备,包括:如图5所示,电子设备可以包括:处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信。
存储器1503,用于存放计算机程序;
处理器1501,用于执行存储器1503上所存放的程序时,实现上述方法实施例的步骤。
上述电子设备提到的总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请实施例还提供一种计算机可读存储介质,存储介质包括存储的程序,其中,程序运行时执行上述方法实施例的方法步骤。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种异常对象集群的定位方法,其特征在于,包括:
确定出多个候选对象中的异常对象;
按照至少一个目标特征类型集合,对多个所述候选对象进行集群定位分析,得到与每个所述目标特征类型集合对应的至少一个对象集群,其中,每个所述目标特征类型集合中包括所述候选对象的至少一个对象特征的特征类型,每个所述对象集群中包括至少一个所述候选对象;
根据每个所述对象集群中包含的所述异常对象的数量,在至少一个所述对象集群中确定异常对象集群。
2.根据权利要求1所述的方法,其特征在于,所述确定出多个候选对象中的异常对象包括:
对每个所述候选对象的第一对象信息进行特征提取,得到每个所述候选对象的对象特征;
对每个所述候选对象的对象特征进行异常检测,得到每个所述候选对象的异常检测结果;
按照每个所述候选对象的所述异常检测结果,确定出多个所述候选对象中的所述异常对象。
3.根据权利要求2所述的方法,其特征在于,
所述对每个所述候选对象的对象特征进行异常检测,得到每个所述候选对象的异常检测结果包括:将每个所述候选对象的对象特征分别输入多个异常检测模型中的每个异常检测模型进行异常检测,得到每个所述候选对象的多个所述异常检测结果,其中,所述异常检测结果与所述异常检测模型一一对应;
所述按照每个所述候选对象的所述异常检测结果,确定出多个所述候选对象中的所述异常对象包括:基于每个所述候选对象的多个所述异常检测结果,确定出多个所述候选对象中的所述异常对象,其中,所述异常对象的至少一个所述异常检测结果用于指示所述异常对象存在异常。
4.根据权利要求1所述的方法,其特征在于,所述确定出多个候选对象中的异常对象包括:
将多个所述候选对象中的历史异常对象,确定为所述异常对象。
5.根据权利要求1所述的方法,其特征在于,所述按照至少一个目标特征类型集合,对多个所述候选对象进行集群定位分析,得到与每个所述目标特征类型集合对应的至少一个对象集群包括:
基于每个所述候选对象的第二对象信息对多个所述候选对象进行相关性计算,在多个所述候选对象中定位得到与每个所述目标特征类型集合对应的至少一个所述对象集群,其中,所述第二对象信息为所述候选对象的所有对象信息中,与所述目标特征类型集合各个特征类型对应的信息,同一个所述对象集群中,任意两个所述候选对象的所述第二对象信息之间的相关性大于或等于预设值。
6.根据权利要求1所述的方法,其特征在于,所述根据每个所述对象集群中包含的所述异常对象的数量,在至少一个所述对象集群中确定异常对象集群包括以下之一:
将包含的所述异常对象的数量大于或者等于目标数量阈值的所述对象集群,确定为所述异常对象集群;
将包含的所述异常对象的数量与包含的对象的总数量的比例大于或者等于目标比例阈值的所述对象集群,确定为所述异常对象集群。
7.根据权利要求1至6中任一项所述的方法,其特征在于,
在所述候选对象为候选用户的情况下,在所述根据每个所述对象集群中包含的所述异常对象的数量,在至少一个所述对象集群中确定异常对象集群之后,所述方法还包括:在所有所述候选对象的第一对象信息中对第一异常信息进行清洗,得到清洗后的第一对象信息,其中,所述第一异常信息为异常用户的第一对象信息,所述异常用户为各个所述异常对象集群中的所述候选用户;
在所述候选对象为候选视频的情况下,在所述根据每个所述对象集群中包含的所述异常对象的数量,在至少一个所述对象集群中确定异常对象集群之后,所述方法还包括:将所述异常对象集群中的所述候选视频确定为目标异常视频。
8.一种异常对象集群的定位装置,其特征在于,包括:
第一确定模块,用于确定出多个候选对象中的异常对象;
定位模块,用于按照至少一个目标特征类型集合,对多个所述候选对象进行集群定位分析,得到与每个所述目标特征类型集合对应的至少一个对象集群,其中,每个所述目标特征类型集合中包括所述候选对象的至少一个对象特征的特征类型,每个所述对象集群中包括至少一个所述候选对象;
第二确定模块,用于根据每个所述对象集群中包含的所述异常对象的数量,在至少一个所述对象集群中确定异常对象集群。
9.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述计算机程序时,实现权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7中任一项所述的方法。
CN202111101618.3A 2021-09-18 2021-09-18 异常对象集群的定位方法和装置、电子设备和存储介质 Pending CN113901261A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111101618.3A CN113901261A (zh) 2021-09-18 2021-09-18 异常对象集群的定位方法和装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111101618.3A CN113901261A (zh) 2021-09-18 2021-09-18 异常对象集群的定位方法和装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113901261A true CN113901261A (zh) 2022-01-07

Family

ID=79028789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111101618.3A Pending CN113901261A (zh) 2021-09-18 2021-09-18 异常对象集群的定位方法和装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113901261A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115118505A (zh) * 2022-06-29 2022-09-27 上海众人智能科技有限公司 一种基于入侵数据溯源的行为基线靶向抓取方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115118505A (zh) * 2022-06-29 2022-09-27 上海众人智能科技有限公司 一种基于入侵数据溯源的行为基线靶向抓取方法

Similar Documents

Publication Publication Date Title
US20200242450A1 (en) User behavior prediction method and apparatus, and behavior prediction model training method and apparatus
US9462313B1 (en) Prediction of media selection consumption using analysis of user behavior
CN108366045B (zh) 一种风控评分卡的设置方法和装置
CN112364202B (zh) 视频推荐方法、装置及电子设备
CN107153656B (zh) 一种信息搜索方法和装置
CN112311612B (zh) 一种信息构建方法、装置及存储介质
CN112329847A (zh) 一种异常检测方法、装置、电子设备及存储介质
CN105590240A (zh) 一种品牌广告效果优化的离散计算方法
CN111815375B (zh) 广告投放中的用户画像方法及装置
CN105608604A (zh) 一种品牌广告效果优化的连续计算方法
CN111523035B (zh) App浏览内容的推荐方法、装置、服务器和介质
CN106294406B (zh) 一种用于处理应用访问数据的方法与设备
CN107093092B (zh) 数据分析方法和装置
CN113901261A (zh) 异常对象集群的定位方法和装置、电子设备和存储介质
CN114268839A (zh) 视频发布账户筛选方法、装置、电子设备及存储介质
CN114245185A (zh) 视频推荐方法、模型训练方法、装置、电子设备及介质
CN113743963A (zh) 异常识别模型训练、异常对象识别方法、装置及电子设备
CN109190997B (zh) 中文地址层级化解析与规范处理方法和系统
CN113408470B (zh) 数据处理方法、装置、电子设备、存储介质及程序产品
WO2022247955A1 (zh) 非正常账号识别方法、装置、设备和存储介质
CN111882349B (zh) 一种数据处理方法、装置及存储介质
CN113886635A (zh) 媒体资源异常播放检测方法和装置、电子设备和存储介质
CN113259402A (zh) 一种异常网络协议地址的确定方法和装置
CN114281596A (zh) 一种修复异常数据的方法、装置、电子设备及存储介质
CN113378899B (zh) 非正常账号识别方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination