CN111401976B - 一种异常行为检测方法、装置、设备及存储介质 - Google Patents

一种异常行为检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111401976B
CN111401976B CN202010509793.5A CN202010509793A CN111401976B CN 111401976 B CN111401976 B CN 111401976B CN 202010509793 A CN202010509793 A CN 202010509793A CN 111401976 B CN111401976 B CN 111401976B
Authority
CN
China
Prior art keywords
detected
entity
attribute
preset
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010509793.5A
Other languages
English (en)
Other versions
CN111401976A (zh
Inventor
周忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010509793.5A priority Critical patent/CN111401976B/zh
Publication of CN111401976A publication Critical patent/CN111401976A/zh
Application granted granted Critical
Publication of CN111401976B publication Critical patent/CN111401976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
    • H04L63/302Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information gathering intelligence information for situation awareness or reconnaissance

Abstract

本发明实施例提供了一种异常行为检测方法、装置、设备及存储介质;方法包括:获取在待检测流量载体上第一待检测实体对应的第一待检测操作序列和第二待检测实体对应的第二待检测操作序列;根据第一待检测操作序列和第二待检测操作序列,分别生成第一待检测实体对应的第一操作属性集合和第二待检测实体对应的第二操作属性集合;对比第一操作属性集合和第二操作属性集合,得到第一待检测实体和第二待检测实体之间的共现属性结果值;当共现属性结果值大于预设共现属性阈值时,确定第一待检测实体和第二待检测实体为异常实体。通过本发明实施例,能够提升异常行为检测的覆盖率和准确率。

Description

一种异常行为检测方法、装置、设备及存储介质
技术领域
本发明涉及计算机应用领域中的信息处理技术,尤其涉及一种异常行为检测方法、装置、设备及存储介质。
背景技术
多媒体投放对象有向被推广用户推送多媒体信息以对产品或服务进行宣传的需求;在投放多媒体信息时,由于流量载体是被推广用户的载体,而多媒体信息是面向被推广用户的,因此,多媒体投放对象通常通过多媒体推广平台中的流量载体进行多媒体信息的投放,以实现多媒体信息的推广;其中,当与流量载体关联的被推广用户对多媒体信息进行了推广处理时,流量载体会获取对应的利润。从而,流量载体为获取更多利润,通常采用异常的方式对流量载体上投放的多媒体信息进行虚假点击等恶意处理,以提升点击率、曝光率或转化率等信息;所以,需要对被推广用户的作弊等异常行为进行检测,以维护多媒体投放对象的利益。
一般来说,为了对多媒体信息投放过程中的作弊等异常行为进行检测,通常通过获取点击量、转化量和转化率等结果性指标进行判断,比如,转化率越低,异常点击的可能性越大。然而,上述异常行为检测的过程中,仅能检测出部分异常行为,比如,仅能检测出点击量极高的异常实体,而无法检测出点击量不高的异常实体,因此,异常行为检测的覆盖率和准确率低。
发明内容
本发明实施例提供一种异常行为检测方法、装置、设备及存储介质,能够提升异常行为检测的覆盖率和准确率。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种异常行为检测方法,包括:
获取在待检测流量载体上第一待检测实体对应的第一待检测操作序列和第二待检测实体对应的第二待检测操作序列,其中,所述第一待检测操作序列包括所述第一待检测实体对所述待检测流量载体上的内容进行操作的多个操作信息,所述第二待检测操作序列包括所述第二待检测实体对所述待检测流量载体上的内容进行操作的多个操作信息,并且每个操作信息包括多个操作属性;
根据所述第一待检测操作序列和所述第二待检测操作序列,分别生成所述第一待检测实体对应的第一操作属性集合和所述第二待检测实体对应的第二操作属性集合,其中,所述第一操作属性集合和所述第二操作属性集合分别是从所对应待检测操作序列中提取出的操作属性所组成的集合;
对比所述第一操作属性集合和所述第二操作属性集合,得到所述第一待检测实体和所述第二待检测实体之间的共现属性结果值;
当所述共现属性结果值大于预设共现属性阈值时,确定所述第一待检测实体和所述第二待检测实体为异常实体。
本发明实施例提供一种异常行为检测装置,包括:
信息获取模块,用于获取在待检测流量载体上第一待检测实体对应的第一待检测操作序列和第二待检测实体对应的第二待检测操作序列,其中,所述第一待检测操作序列包括所述第一待检测实体对所述待检测流量载体上的内容进行操作的多个操作信息,所述第二待检测操作序列包括所述第二待检测实体对所述待检测流量载体上的内容进行操作的多个操作信息,并且每个操作信息包括多个操作属性;
属性获取模块,用于根据所述第一待检测操作序列和所述第二待检测操作序列,分别生成所述第一待检测实体对应的第一操作属性集合和所述第二待检测实体对应的第二操作属性集合,其中,所述第一操作属性集合和所述第二操作属性集合分别是从所对应待检测操作序列中提取出的操作属性所组成的集合;
属性对比模块,用于对比所述第一操作属性集合和所述第二操作属性集合,得到所述第一待检测实体和所述第二待检测实体之间的共现属性结果值;
异常确定模块,用于当所述共现属性结果值大于预设共现属性阈值时,确定所述第一待检测实体和所述第二待检测实体为异常实体。
本发明实施例提供一种异常行为检测设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的异常行为检测方法。
本发明实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的异常行为检测方法。
本发明实施例具有以下有益效果:由于具有异常行为的实体对多媒体信息等内容进行操作时,所对应的操作信息之间是存在相同操作属性的;因此,本发明实施例在进行异常行为检测时,通过对实体的多个操作信息组成的操作序列进行获取,并根据实体间的操作序列对应的操作属性集合之间是否出现了属性共现来确定实体是否存在异常行为,进而确定实体是否是异常实体;如此,能够准确且全面地确定出具有异常行为的实体;从而,提升了异常行为检测的覆盖率和准确率。
附图说明
图1是本发明实施例提供的异常行为检测系统的一个可选的架构示意图;
图2是本发明实施例提供的一种图1中的服务器的组成结构示意图;
图3是本发明实施例提供的异常行为检测方法的一个可选的流程示意图;
图4是本发明实施例提供的异常行为检测方法的另一个可选的流程示意图;
图5是本发明实施例提供的异常行为检测方法的又一个可选的流程示意图;
图6是本发明实施例提供的异常行为检测方法的再一个可选的流程示意图;
图7是本发明实施例提供的异常行为检测方法的另又一个可选的流程示意图;
图8是本发明实施例提供的一种示例性的异常行为检测系统架构图;
图9是本发明实施例提供的一种示例性的多媒体信息的示意图;
图10是本发明实施例提供的又一种示例性的多媒体信息的示意图;
图11是本发明实施例提供的另一种示例性的多媒体信息的示意图;
图12是本发明实施例提供的一种示例性的获取共现属性结果值的流程示意图;
图13是本发明实施例提供的一种示例性的确定异常流量主的流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解, “一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本发明实施例所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明实施例中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)CPC(Cost Per Click),表示每次点击多媒体信息(比如,广告)等内容的成本,在多媒体信息推广领域中,对应于一种仅为多媒体信息的点击行为付费,而不再为多媒体信息的曝光行为付费的多媒体投放收费方式。易知,CPC广告避免了只曝光不点击的风险。
2)多媒体投放对象,指投放多媒体信息的对象;比如,广告主,即通过付费来投放广告的用户或服务商。
3)多媒体投放平台,指提供多媒体信息投放功能的平台,比如,微信广告平台和微博广告平台;其中,多媒体投放平台中包括流量载体,流量载体指关联被推广实体的载体,通常称为流量主,即提供被推广实体流量的载体,通常指媒体、网站或软件,比如,微信广告平台中具有一定粉丝(被推广实体)量的公众号。而被推广实体,通常简称为实体,指用户账户、设备、IP(Internet Protocol,网际互连协议)地址等信息。
4)异常行为,本发明实施例中又称为多媒体异常行为,指在多媒体信息推广的过程(比如,广告曝光、点击和效果等环节)中,被推广实体基于刷量的非真实意图,对推广的多媒体信息进行的曝光、点击和效果体验等行为;通常,异常行为在多媒体信息投放领域又称为作弊行为。
5)多媒体反异常,对多媒体信息的曝光、点击和效果等环节进行检查,判断多媒体信息的曝光、点击、效果等是否是正常的处理过程;这里,指本发明实施例中的异常行为检测处理。
6)自动机异常,一种异常方式,指使用自动化脚本或软件,通过一台或多台电脑操控几十台甚至上百台设备,从而根据操控几十台甚至上百台设备控制被推广实体点击多媒体信息的异常行为,比如,自动机点广告的行为。
7)点击率,指网页上多媒体信息被点击的次数与被显示的次数之比,是一个百分比,反映了网页上多媒体信息的受关注程度,经常用来衡量多媒体信息的吸引程度。这里,网页上多媒体信息被点击的次数即点击量,网页上多媒体信息被显示的次数即曝光量。
8)转化率,用来反映多媒体信息对产品销售情况影响程度的指标,主要是指受多媒体信息的推广的影响,而使被推广实体发生购买、注册或信息需求等行为的次数,占多媒体信息被点击的次数(即点击量)的比例。这里,被推广实体发生购买、注册或信息需求等行为的次数指转化量。
9)云技术(Cloud technology)是指在广域网或局域网内将硬件、软件和网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
一般来说,为了对多媒体信息投放过程中的异常行为进行检测,通常通过获取点击量、转化量和转化率等结果性指标进行判断,比如,转化率越低,异常点击的可能性越大。然而,上述异常行为检测的过程中,仅能检测出部分异常行为,比如,仅能检测出点击量极高的异常实体,而无法检测出点击量不高的异常实体,因此,异常行为检测的覆盖率和准确率低,在实际使用过程中需要人工地进行二次验证。
另外,为了对多媒体信息投放过程中的异常行为进行检测,还可以通过分析底层信息(比如底层代码)判断被推广实体是否被植入了恶意代码,从而被控制进行作弊等异常处理;然而,上述异常行为检测的过程中,被植入了恶意代码从而被控制进行作弊等异常处理的样本信息获取难度高,并且分析底层信息时还需要对底层信息进行反编译,因此,异常行为检测的难度和复杂度高;以及,上述检测方式,仅能检测出被植入恶意代码进行作弊等异常处理的行为,而主动进行作弊等异常处理的实体则不能被检测出,因此,异常行为检测的覆盖率低。
基于此,本发明实施例提供一种异常行为检测方法、装置、设备及存储介质,能够提升异常行为检测的覆盖率和准确度,还能够降低异常行为检测的难度和复杂度,下面说明本发明实施例提供的异常行为检测设备的示例性应用。
本发明实施例提供的异常行为检测设备可以实施为智能手机、平板电脑、笔记本电脑等各种类型的用户终端,也可以实施为服务器;其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。下面,将说明设备实施为服务器时的示例性应用。
参见图1,图1是本发明实施例提供的异常行为检测系统的一个可选的架构示意图;参见图1,为实现一个异常行为检测应用,在异常行为检测系统100中,服务器400(异常行为检测设备)分别连接终端300和数据库500-4,这里进行连接的连接网络可以是广域网或者局域网,又或者是二者的组合。另外,该异常行为检测系统100中,还包括终端500-1、服务器200、数据库500-2和终端500-3;其中,终端500-1接收多媒体信息的投放,通过服务器200存储至数据库500-2中;当通过终端500-3和服务器200对数据库500-2中的多媒体信息进行推广处理等操作时,生成对应的操作信息,并通过服务器200存放在数据库500-4中,以使服务器400响应终端300的异常检测请求,从数据库500-4中选择多个操作信息进行异常行为的检测。
服务器400,用于响应终端300的异常检测请求,从数据库500-4中获取在待检测流量载体上第一待检测实体对应的第一待检测操作序列和第二待检测实体对应的第二待检测操作序列,其中,第一待检测操作序列包括第一待检测实体对待检测流量载体上的内容进行操作的多个操作信息,第二待检测操作序列包括第二待检测实体对待检测流量载体上的内容进行操作的多个操作信息,并且每个操作信息包括多个操作属性;根据第一待检测操作序列和第二待检测操作序列,分别生成第一待检测实体对应的第一操作属性集合和第二待检测实体对应的第二操作属性集合,其中,第一操作属性集合和第二操作属性集合分别是从所对应待检测操作序列中提取出的操作属性所组成的集合;对比第一操作属性集合和第二操作属性集合,得到第一待检测实体和第二待检测实体之间的共现属性结果值;当共现属性结果值大于预设共现属性阈值时,确定第一待检测实体和第二待检测实体为异常实体。还用于向终端300发送存在异常行为的异常实体。
数据库500-2和数据库500-4,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新和删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
数据库管理系统(Database Management System,DBMS)是为管理数据库而设计的电脑软件系统,一般具有存储、截取、安全保障和备份等基础功能。数据库管理系统可以依据它所支持的数据库模型进行分类,例如关系式、XML(Extensible Markup Language,可扩展标记语言);或依据所支持的计算机类型进行分类,例如服务器群集、移动电话;或依据所用查询语言进行分类,例如SQL(Structured Query Language,结构化查询语言)、XQuery;或依据性能冲量重点进行分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些DBMS能够跨类别,例如,同时支持多种查询语言。
另外,本发明实施例提供的异常行为检测方法,还涉及云技术领域中的云存储,比如,多媒体信息、操作信息和异常实体在云平台的存储。
需要说明的是,云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统 (以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
参见图2,图2是本发明实施例提供的一种图1中的服务器的组成结构示意图;图2所示的服务器400包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。服务器400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器450旨在包括任意适合类型的存储器。存储器450可选地包括在物理位置上远离处理器 410的一个或多个存储设备。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB,Universal Serial Bus)等;
显示模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的异常行为检测装置可以采用软件方式实现,图2示出了存储在存储器450中的异常行为检测装置455,其可以是程序和插件等形式的软件,包括以下软件模块:信息获取模块4551、属性获取模块4552、属性对比模块4553、异常确定模块4554、载体检测模块4555和操作存储模块4556,将在下文中说明各个模块的功能。
在另一些实施例中,本发明实施例提供的异常行为检测装置可以采用硬件方式实现,作为示例,本发明实施例提供的异常行为检测装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的异常行为检测方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
下面,将结合本发明实施例提供的服务器的示例性应用和实施,说明本发明实施例提供的异常行为检测方法。
参见图3,图3是本发明实施例提供的异常行为检测方法的一个可选的流程示意图,将结合图3示出的步骤进行说明。
S101、获取在待检测流量载体上第一待检测实体对应的第一待检测操作序列和第二待检测实体对应的第二待检测操作序列。
在本发明实施例中,流量载体对应多个实体,该多个实体对流量载体上的内容(比如,多媒体信息)进行操作,当异常行为检测设备(以下简称为检测设备)确定对某个流量载体上进行操作的多个实体的操作是否存在异常进行检测时,也就确定了该流量载体为待检测流量载体。检测设备为进行异常行为检测,通过对待检测流量载体上的两个实体进行操作的操作属性进行对比,进而根据对比结果来实现检测;因此,检测设备先获取待检测流量载体上的两个载体分别对应的多个操作信息;这里,待检测流量载体上的两个实体即第一待检测实体和第二待检测实体,所获取到的待检测流量载体上的两个载体分别对应的多个操作信息即第一待检测实体对应的第一待检测操作序列和第二待检测实体对应的第二待检测操作序列。
需要说明的是,第一待检测操作序列对应第一待检测实体对待检测流量载体上的内容进行的多个操作,第二待检测操作序列对应第二待检测实体对待检测流量载体上的内容进行的多个操作,并且每个操作对应多个操作属性;也就是说,第一待检测操作序列包括第一待检测实体对待检测流量载体上的内容进行操作的多个操作信息,第二待检测操作序列包括第二待检测实体对待检测流量载体上的内容进行操作的多个操作信息,并且每个操作信息包括多个操作属性,比如,当前时间、流量载体、用户标识、转发者标识、群标识、Wi-Fi、网络地址、设备标识、文本停留时长、落地页停留时长和广告场景等;待检测流量载体为待进行异常行为检测的流量载体,比如,微信公众号,或微博账号等。另外,当多个实体对流量载体上的内容进行操作时,所对应的操作信息会作为日志信息存储在数据库中,从而,检测设备能够获取到第一待检测实体和第二待检测实体分别对应的多个操作信息组成的序列;这里,第一待检测操作序列和第二待检测操作序列可以是分别对应的待检测实体在预设时间段内的多个操作信息组成的序列。
S102、根据第一待检测操作序列和第二待检测操作序列,分别生成第一待检测实体对应的第一操作属性集合和第二待检测实体对应的第二操作属性集合。
在本发明实施例中,由于第一待检测操作序列和第二待检测操作序列分别对应多个操作信息,而每个操作信息对应多个操作属性;因此,为实现第一待检测实体和第二待检测实体之间的操作属性的对比,检测设备基于预设的操作属性提取规则分别从第一待检测操作序列和第二待检测操作序列中提取操作属性,并组合成分别对应的第一操作属性集合和第二操作属性集合。
也就是说,第一操作属性集合和第二操作属性集合分别是从所对应待检测操作序列中提取出的操作属性所组成的集合;而检测设备进行操作属性提取时,所依据的预设的操作属性提取规则,可以是将对应的待操作序列中的全部操作属性组合,也可以是将对应的待操作序列中的具有可比性或与异常行为相关或能体现操作规律的部分操作属性组合,等等。
在一些实施例中,该预设的操作属性提取规则可以是根据操作属性的类别从所对应待检测操作序列中将属于各操作属性的类别的操作属性提取出来,并按照时间等某个操作属性的类别或其他排序方式组合成操作属性序列。在另一些实施例中,该预设的操作属性提取规则可以是从所对应待检测操作序列中选择选择预定数量的操作属性组成操作属性序列以减少算法计算量。并且,针对第一操作属性集合和第二操作属性集合,检测设备采用相同的方式获取对应的操作属性集合。
S103、对比第一操作属性集合和第二操作属性集合,得到共现属性结果值。
在本发明实施例中,检测设备获得了第一待检测实体对应的第一操作属性集合和第二待检测实体对应的第二操作属性集合之后,对第一操作属性集合和第二操作属性集合之间的操作属性进行对比,以基于对比出的相同的操作属性确定共现属性结果值。
另外,检测设备还可以通过计算第一操作属性集合和第二操作属性集合之间的距离,或者统计第一操作属性集合和第二操作属性集合之间的相同元素,或者计算第一操作属性集合和第二操作属性集合之间的相关系数或相似系数,来得到共现属性结果值,等等,本发明实施例对此不作具体限定。
这里,检测设备基于对比出的相同的操作属性确定共现属性结果值时,可以是根据预设计算方式确定,比如,将相同的操作属性的数量作为共现属性结果值,或者将相同的操作属性的数量所对应的预设范围值作为共现属性结果值,再或者将相同的操作属性的数量占总操作属性的数量的比值作为共现属性结果值,等等,本发明实施例对此不作具体限定。
需要说明的是,共现属性结果值为第一操作属性集合和第一操作属性集合之间的操作属性的相同程度。
S104、当共现属性结果值大于预设共现属性阈值时,确定第一待检测实体和第二待检测实体为异常实体。
在本发明实施例中,检测设备中预先设置有预设共现属性阈值,比如,6;该预设共现属性阈值用于衡量出现属性共现的实体是否是异常实体。这里,当共现属性结果值大于预设共现属性阈值时,表明第一待检测实体与第二待检测实体之间出现了较多的共同的操作属性,此时,也就能够确定第一待检测实体和第二待检测实体存在异常行为,进而确定第一待检测实体和第二待检测实体为异常实体。
需要说明的是,当共现属性结果值小于等于预设共现属性阈值时,表明第一待检测实体与第二待检测实体之间出现的共现操作属性少或者没有,此时,确定第一待检测实体和第二待检测实体中存在正常实体。
可以理解的是,由于多媒体信息的投放具有随机性,以及实体仅对目标多媒体信息(比如,感兴趣的广告)进行推广操作,因此,正常实体对多媒体信息进行推广操作的时间是分散的,不会出现规律性或周期性;另外,由于正常实体进行推广操作的多媒体信息,所对应的流量载体具有分散性,因此,正常实体进行推广操作时所对应的流量载体是随机的,不会出现流量载体的聚集;此外,正常实体进行推广操作的多媒体信息具有分散性。综上,正常实体所对应的预设时间段中的操作信息中出现共现的操作属性没有或者很少;因此,具有异常行为的实体对多媒体信息等内容进行操作时,所对应的操作信息之间是存在相同操作属性的;因此,本发明实施例在进行异常行为检测时,通过对实体的多个操作信息组成的操作序列进行获取,并根据实体间的操作序列对应的操作属性集合之间是否出现了属性共现来确定实体是否存在异常行为,进而确定实体是否是异常实体;如此,能够准确且全面地确定出具有异常行为的实体;从而,提升了异常行为检测的覆盖率和准确率。
在本发明实施例中,S102可通过S1021和S1022实现;也就是说,检测设备根据第一待检测操作序列和第二待检测操作序列,分别生成第一待检测实体对应的第一操作属性集合和第二待检测实体对应的第二操作属性集合,包括S1021和S1022,下面对各步骤分别进行说明。
S1021、从第一待检测操作序列中,提取与预设属性类别集合中的各个预设属性类别分别对应的各个操作属性,组合为第一待检测实体对应的第一操作属性集合。
在本发明实施例中,检测设备中预先设置有预设属性类别集合,检测设备基于预设属性类别集合中的各个预设属性类别,从第一待检测操作序列和第二待检测操作序列中,提取用于组合成第一操作属性集合和第二操作属性集合的操作属性。针对第一待检测操作序列,检测设备从第一待检测操作序列中提取与预设属性类别集合中的各个预设属性类别分别对应的各个操作属性,并将提取到的第一待检测操作序列中各个预设属性类别分别对应的各个操作属性进行组合,也就得到了第一待检测实体对应的第一操作属性集合。
需要说明的是,第一操作属性集合与预设属性类别集合相对应;预设属性类别类型为用于进行异常行为检测的各个属性类别所组成的集合,因此,预设属性类别集合中的各个预设属性类别可以是操作信息中的各操作属性对应的类别的全部组合,也可以是部分组合,等等,本发明实施例对此不作具体限定。
S1022、从第二待检测操作序列中,提取与预设属性类别集合中的各个预设属性类别分别对应的各个操作属性,组合为第二待检测实体对应的第二属性序列集合。
在本发明实施例中,同S1021描述的获取第一操作属性集合的过程类似;针对第二待检测操作序列,检测设备从第二待检测操作序列中提取与预设属性类别集合中的各个预设属性类别分别对应的各个操作属性,并将提取到的第二待检测操作序列中各个预设属性类别分别对应的各个操作属性进行组合,也就得到了第二待检测实体对应的第二操作属性集合。这里,第二操作属性集合与预设属性类别集合相对应。
可以理解的是,检测设备通过利用预先设置的预设属性类别集合,从第一待检测操作序列和第二待检测操作序列中提取操作属性组成对应的操作属性集合,由于预设属性类别集合中的各个属性类别与异常行为具有强相关,避免了无关操作属性的对比,从而使得异常行为检测的准确度更高。
在本发明实施例中,S1021可通过S10211-S10213实现;也就是说,检测设备从第一待检测操作序列中,提取与预设属性类别集合中的各个预设属性类别分别对应的各个操作属性,组合为第一待检测实体对应的第一操作属性集合,包括S10211-S10213,下面对各步骤分别进行说明。
S10211、将第一待检测操作序列中,与预设属性类别集合中的每个预设属性类别对应的各个操作属性,组合为第一初始类别属性集合。
在本发明实施例中,检测设备针对预设属性类别集合中的每个预设属性类别,从第一待检测操作序列中获取与每个预设属性类别对应的各个属性操作并进行组合,也就得到了关于第一待检测操作序列的每个预设属性类别对应的第一初始类别属性集合;易知,针对第一待检测操作序列,存在多个第一初始类别属性集合,且,多个第一初始类别属性集合的数量与预设属性类别集合中预设属性类别的数量相同。
S10212、对第一初始类别属性集合进行属性去重,得到第一类别属性集合,从而得到与预设属性类别集合对应的第一类别属性集合序列。
在本发明实施例中,检测设备获得了关于第一待检测操作序列的每个预设属性类别对应的第一初始类别属性集合之后,还可以对第一初始类别属性集合中的操作属性进行去重处理,以对第一初始类别属性集合进行简化;如此,能够缩短对比时间,提升对比效率。这里,去重后的第一初始类别属性集合即第一类别属性集合。
另外,获得了关于第一待检测操作序列的每个预设属性类别对应的第一类别属性集合之后,也就得到了关于第一待检测操作序列的与预设属性类别集合对应的第一类别属性集合序列;易知,第一类别属性集合序列包括至少一个第一类别属性集合,且第一类别属性集合序列中的第一类别属性集合与预设属性类别集合中的预设属性类别一一对应。
S10213、将第一类别属性集合序列中的各个操作属性,组合为第一待检测实体对应的第一操作属性集合。
需要说明的是,检测设备获得了第一待检测操作序列中的与预设属性类别集合对应的第一类别属性集合序列之后,将第一类别属性集合序列中的各个操作属性组合,也就得到了与第一待检测实体对应的第一操作属性集合。
还需要说明的是,还可以直接将第一类别属性集合序列作为第一操作属性集合,从而在对比第一操作属性集合和第二操作属性集合时,共现属性结果值可以是基于序列顺序确定的第一操作属性集合和第二操作属性集合之间的距离,也可以是确定出的与序列顺序无关的第一操作属性集合和第二操作属性集合之间的距离,等等,本发明实施例对此不作具体限定。
同理,在本发明实施例中,第二操作属性集合的获取方式与S10211-S10213描述的获取第一操作属性集合的获取方式相同,包括:检测设备将第二待检测操作序列中,与预设属性类别集合中的每个预设属性类别对应的各个操作属性,组合为第二初始类别属性集合;对第二初始类别属性集合进行属性去重,得到第二类别属性集合,从而得到与预设属性类别集合对应的第二类别属性集合序列;将第二类别属性集合序列中的各个操作属性,组合为第二待检测实体对应的第二操作属性集合。
在本发明实施例中,S10211可通过S102111和S102112实现;也就是说,检测设备将第一待检测操作序列中,与预设属性类别集合中的每个预设属性类别对应的各个操作属性,组合为第一初始类别属性集合,包括S102111和S102112,下面对各步骤分别进行说明。
S102111、基于预设属性类型,对第一待检测操作序列中的多个操作信息进行排序,得到排序后的第一待检测操作序列。
需要说明的是,检测设备中预先设置有用于对多个操作信息进行排序的属性类别,即预设属性类型,比如,广告点击时间,或停留时长等;因此,为了提升操作属性对比的效率,在根据第一待检测操作序列生成对应的第一操作属性集合时,检测设备可以先对第一待检测操作序列中的多个操作信息依据预设属性类型进行排序,此时,也就得到了排序后的第一待检测操作序列。这里,预设属性类型属于多个操作属性对应的类型。
S102112、将排序后的第一待检测操作序列中,与预设属性类别集合中的每个预设属性类别对应的各个操作属性,组合为第一初始类别属性集合。
在本发明实施例中,检测设备获得了排序后的第一待检测操作序列之后,针对预设属性类别集合中的每个预设属性类别,从排序后的第一待检测操作序列中获取与每个预设属性类别对应的各个操作属性并进行组合,也就得到了每个预设属性类别对应的第一初始类别属性集合。
同理,在本发明实施例中,第二初始类别属性集合的获取方式与S102111和S102112描述的第一初始类别属性集合的获取方式相同,包括:检测设备基于预设属性类型,对第二待检测操作序列中的多个操作信息进行排序,得到排序后的第二待检测操作序列;预设属性类型属于多个操作属性对应的类型;将排序后的第二待检测操作序列中,与预设属性类别集合中的每个预设属性类别对应的各个操作属性,组合为第二初始类别属性集合。
在本发明实施例中,S103可通过S1031实现;也就是说,检测设备对比第一操作属性集合和第二操作属性集合,得到第一待检测实体和第二待检测实体之间的共现属性结果值,包括S1031,下面对该步骤进行说明。
S1031、确定第一操作属性集合和第二操作属性集合之间的相同操作属性的数量,得到共现属性结果值。
在本发明实施例中,检测设备获得了与第一待检测实体对应的第一操作属性集合,以及与第二待检测实体对应的第二操作属性集合之后,在进行第二待检测实体和第一待检测实体之间的操作属性的对比时,先确定第一操作属性集合和第二操作属性集合之间的共同的操作属性,然后将确定的共同的操作属性的数量作为共现属性结果值;这里,检测设备在确定第一操作属性集合和第二操作属性集合之间的共同的操作属性时,可以通过对第一操作属性集合和第二操作属性集合进行交集处理,还可以对第一操作属性集合和第二操作属性集合中的操作属性一一对比,等等,本发明实施例对此不作具体限定。
需要说明的是,共现属性结果值指第二待检测实体和第一待检测实体之间的共现的操作属性的数量;从而,共现属性结果值越大,表明第二待检测实体和第一待检测实体之间的共现的操作属性越多,是异常实体的可能性越大;共现属性结果值越小,表明第二待检测实体和第一待检测实体之间的共现的操作属性越少,是异常实体的可能性越小。
参见图4,图4是本发明实施例提供的异常行为检测方法的另一个可选的流程示意图;如图4所示,在本发明实施例中,S104之后还包括S105-S109;也就是说,当共现属性结果值大于预设共现属性阈值时,检测设备确定第一待检测实体和第二待检测实体为异常实体之后,该异常行为检测方法还包括S105-S109,下面对各步骤分别进行说明。
S105、将待检测流量载体中的任意两个实体,作为第一待检测实体和第二待检测实体进行异常行为检测,直到完成待检测流量载体中的实体相互之间的检测时,得到待检测流量载体中存在异常行为的异常实体集合。
在本发明实施例中,检测设备确定了第一待检测实体和第二待检测实体为异常实体之后,对待检测流量载体中的任意两个实体,按照对第一待检测实体和第二待检测实体进行检测的方式进行检测,当完成待检测流量载体中的实体相互之间的检测时,所获得的待检测流量载体中所有的异常实体也就构成了待检测流量载体中存在异常行为的异常实体集合。
S106、将异常实体集合中实体的数量,作为目标异常实体数量。
在本发明实施例中,检测设备获得了异常实体集合之后,对异常实体集合中实体的数量进行获取,也就获得了目标异常实体数量。
S107、将待检测流量载体对应的实体的数量,作为目标总实体数量。
在本发明实施例中,检测设备获取待检测流量载体上进行了操作的实体的数量进行,也就获得了目标总实体数量;易知,这里的待检测流量载体对应的实体即后续描述的目标实体集合,从而,目标总实体数量为目标实体集合中实体的数量。
S108、计算目标异常实体数量与目标总实体数量的比值,得到待检测流量载体对应的流量载体异常值。
在本发明实施例中,检测设备获得了目标异常实体数量与目标总实体数量之后,根据异常实体的数量占总实体数量的比值,确定待检测流量载体的异常行为;从而,检测设备将目标异常实体数量作为分子,将目标总实体数量作为分母,计算比值,所获得的比值结果即待检测流量载体对应的流量载体异常值;易知,流量载体异常值表征了待检测载体对应的异常实体的占比。
S109、当流量载体异常值大于预设流量载体异常阈值时,确定待检测流量载体为异常流量载体。
需要说明的是,检测设备中预先设置了用于衡量流量载体是否存在异常行为的信息,即预设流量载体异常阈值,比如,0.5;因此,当检测设备获得了流量载体异常值之后,将该流量载体异常值与预设流量载体异常阈值进行比较,当流量载体异常值大于预设流量载体异常阈值时,表明待检测流量载体中对多媒体信息进行了推广操作的实体大多为异常实体,从而确定待检测流量载体为异常流量载体。然而,当流量载体异常值小于等于预设流量载体异常阈值时,表明待检测流量载体中对多媒体信息进行了推广操作的实体中,仅存在很少的实体为异常实体或不存在异常实体,此时,无法确定待检测流量载体存在异常行为。
参见图5,图5是本发明实施例提供的异常行为检测方法的又一个可选的流程示意图;如图5所示,在本发明实施例中,S101之前还包括S110和S111;也就是说,检测设备获取在待检测流量载体上第一待检测实体对应的第一待检测操作序列和第二待检测实体对应的第二待检测操作序列之前,该异常行为检测方法还包括S110和S111,下面对各步骤分别进行说明。
S110、获取当前操作信息。
在本发明实施例中,当实体在客户端设备上对待检测流量载体上的多媒体信息等内容进行操作时,客户端设备响应该操作生成用于上报操作对应的操作信息的操作上报请求,并将该操作上报请求中发送至检测设备;此时,检测设备也就获得了操作上报请求,进而对该操作上报请求进行响应,进行操作对应的操作信息的获取,或者从操作上报请求中获取操作对应的操作信息,也就获得了当前操作信息。
需要说明的是,当前操作信息为实体对待检测流量载体上的内容进行操作的任一操作信息,比如,{用户标识、当前时间、广告场景、用户标识、转发者标识、群标识、Wi-Fi、网络地址、设备标识、文本停留时长、落地页停留时长和流量载体}就是一条当前操作信息;易知,每次实体对待检测流量载体上的内容进行操作并存储对应的操作信息的过程均是依据S110和S111进行的。
在本发明实施例中,当前操作信息包括操作时间信息、网络环境信息、设备信息、操作类型信息和流量载体信息中的至少一种。其中,操作时间信息指实体对多媒体信息进行推广操作的时间,比如,广告点击时间;网络环境信息指实体对多媒体信息进行推广操作的网络环境,比如,Wi-Fi,IP地址;设备信息指实体对多媒体信息进行推广操作时所对应的设备,比如,设备标识;操作类型信息指实体对多媒体信息进行推广操作时所对应的类型的信息,比如,广告场景,广告转发者,广告转发群,文章停留时长,落地页停留时长;流量载体信息指实体所进行的推广处理对应的多媒体信息所投放的流量载体,比如,流量主。
可以理解的是,检测设备综合多维度信息进行异常行为的检测,能够提高异常行为检测的准确率。
S111、存储当前操作信息,得到预设操作库。
在本发明实施例中,检测设备获得了当前操作信息之后,将该当前操作信息进行存储;这里,当检测设备不断地进行操作信息的存储时,也就得到了预设操作库。
需要说明的是,检测设备可以包括两个模块,一个模块用于依据预设操作库进行异常行为检测,另一个模块用于存储操作信息,生成预设操作库。
相应地,S101中检测设备获取在待检测流量载体上第一待检测实体对应的第一待检测操作序列和第二待检测实体对应的第二待检测操作序列,包括:检测设备从预设操作库中,获取在待检测流量载体上第一待检测实体对应的第一待检测操作序列和第二待检测实体对应的第二待检测操作序列。也就是说,第一待检测操作序列和第二待检测操作序列为检测设备从预设操作库中提取到的操作信息。
参见图6,图6是本发明实施例提供的异常行为检测方法的再一个可选的流程示意图;如图6所示,在本发明实施例中,S101之前,以及S111之后还包括S112-S114实现;也就是说,检测设备获取在待检测流量载体上第一待检测实体对应的第一待检测操作序列和第二待检测实体对应的第二待检测操作序列之前,以及存储当前操作信息,得到预设操作库之后,包括S112-S114,下面对各步骤分别进行说明。
S112、获取第一异常检测请求,从异常检测请求中,获取第一待检测实体和待检测流量载体。
在本发明实施例中,当对第一待检测实体的实时推广处理是否为异常行为进行检测时,检测设备也就获得了第一异常检测请求,该第一异常检测请求用于请求对第一待检测实体进行异常行为检测。这里,第一异常检测请求中包含第一待检测实体和第一待检测实体对应的流量载体即待检测流量载体,从而,检测设备能够从第一异常检测请求中,获取到第一待检测实体和待检测流量载体。
S113、从预设操作库中,获取与待检测流量载体对应的其他实体集合。
需要说明的是,由于正常实体进行推广操作时所对应的流量载体不同,因此,当第一待检测实体和第二待检测实体为异常实体时,该第一待检测实体,与该实时推广操作对应的流量载体(即待检测流量载体)中的其他实体的操作信息之间的操作属性会出现共现的情况。从而,检测设备从预设操作库中,获取对待检测流量载体上的内容进行操作的实体,将对待检测流量载体上的内容进行操作的实体中除第一待检测实体之外的实体,作为其他实体集合,以从该其他实体集合中确定待与第一待检测实体进行操作属性对比的实体。
S114、从其他实体集合中选择第二待检测实体。
在本发明实施例中,检测设备获得了其他实体集合之后,从该其他实体集合中任选一实体,也就得到了第二待检测实体。易知,S112-S114,以及S101-S104,描述了一种实时进行异常行为检测的应用场景。
可以理解的是,当实体对多媒体信息进行操作(比如,曝光、点击或转换等)时,生成第一异常检测请求,此时,该实体即第一待检测实体;检测设备响应该第一异常检测请求,对第一待检测实体和第二待检测实体的异常行为进行检测,当确定第一待检测实体和第二待检测实体为异常实体时,则确定该第一待检测实体当前的操作属于异常行为。如此,实现了一种实时确定实体进行的操作是否为异常行为的技术方案,达到了实时检测异常行为的目的。
进一步地,参见图7,图7是本发明实施例提供的异常行为检测方法的另又一个可选的流程示意图;如图7所示,在本发明实施例中,S101之前,以及S111之后还包括S115-S117实现;也就是说,检测设备获取在待检测流量载体上第一待检测实体对应的第一待检测操作序列和第二待检测实体对应的第二待检测操作序列之前,以及存储当前操作信息,得到预设操作库之后,包括S115-S117,下面对各步骤分别进行说明。
S115、获取第二异常检测请求,从第二异常检测请求中,获取待检测流量载体。
在本发明实施例中,当对流量载体是否存在异常行为进行检测时,检测设备也就获得了第二异常检测请求,该第二异常检测请求用于请求对待检测流量载体进行异常行为检测。这里,第二异常检测请求中包含待检测流量载体;从而,检测设备能够从第二异常检测请求中,获取到待检测流量载体。
S116、从预设操作库中,获取与待检测流量载体对应的目标实体集合。
需要说明的是,由于同一个流量载体中对投放的多媒体信息进行了推广操作的实体,在对应的操作信息中的操作属性上出现共现的概率很小,而具有协同作弊等异常行为的实体在操作属性上则存在属性共现的情况。因此,检测设备从预设操作库中,获取与待检测流量载体对应的进行了推广操作的实体,也就得到了目标实体集合;以对该目标实体集合中任意两个实体进行属性共现的情况的检测,并根据目标实体集合中任意两个实体之间的属性共现的情况,确定待检测流量载体中存在异常行为的实体。
S117、从目标实体集合中选择第一待检测实体和第二待检测实体。
在本发明实施例中,检测设备获得了目标实体集之后,从该目标实体集合中任选两个实体,将该两个实体中的一个实体作为第一待检测实体,另一个实体作为第二待检测实体。易知,S115-S117,以及S101-S104,描述了一种对流量载体中的实体进行协同作弊等异常行为检测的应用场景。
可以理解的是,本发明实施例的异常行为检测方法,通过确定属性共现来自动确定异常行为,不需要获取异常样本,属于无监督的异常行为检测方法,降低了异常行为检测的难度和复杂度,同时也降低了人工成本,提升了异常行为检测的准确度和效率。
下面,将说明本发明实施例在一个实际的应用场景中的示例性应用。
参见图8,图8是本发明实施例提供的一种示例性的异常行为检测系统架构图;如图8所示,在CPC模式下,用户(第一待检测实体)在客户端设备8-1上对投放的广告(多媒体信息等内容,比如图9示出的微信公众号中的广告9-1,图10示出的小程序中的广告10-1,图11示出的小程序中的广告11-1)进行点击(操作)时,客户端设备8-1会获取到当次广告行为数据8-2{用户标识,广告点击时间,广告场景,广告转发者,广告转发群,Wi-Fi,IP地址,设备标识,文章停留时长,落地页停留时长,流量主},将该当次广告行为数据8-2作为操作信息(当前操作信息)存储在操作上报请求中,并将该操作上报请求发送至接入层服务器8-3;此时,接入层服务器8-3从操作信息上报请求中获取该操作信息存储至广告点击数据库8-4(预设操作库)中,同时,接入层服务器8-3向实时计算服务器8-5(广告日志数据库8-4和实时计算服务器8-5统称为检测设备)发送包括用户标识(第一待检测实体对应的标识)和流量主(待检测流量载体)的异常检测请求8-6;实时计算服务器8-5响应异常检测请求8-6(第一异常检测请求),从广告点击数据库8-4中获取广告点击记录(第一待检测操作序列),以对用户标识所对应的用户的异常行为进行检测,进而确定当次点击是否为异常行为。
继续参见图8,当需要对流量主的异常行为进行检测时,实时计算服务器8-5会接收到包括流量主的异常检测请求8-7(第二异常检测请求);此时,实时计算服务器8-5响应异常检测请求8-7,从广告点击数据库8-4中获取各实体的广告点击记录,以对流量主的异常行为进行检测。
需要说明的是,不论是对当次点击是否为异常行为进行检测,还是对流量主的异常行为进行检测,均是通过对两用户在一段时间内(过去7天或30天)的操作信息是否出现属性共现进行判断来实现的,下面结合图12详细说明获取用于判断属性共现的共现属性结果值的详细步骤:
S201、从广告点击数据库(预设操作库)中,提取用户1(第一待检测实体)过去30天(预设时间段)与流量主1(待检测流量载体)对应的广告点击记录1-1(第一待检测操作序列),并以广告点击时间(预设属性类型)进行排序,得到广告点击记录1-2(排序后的第一待检测操作序列)。
需要说明的是,广告点击记录1-2如下所示:
(用户1,广告点击时间1,广告场景1,广告转发者1,广告转发群1,Wi-Fi 1,IP地址1,设备标识1,文章停留时长1,落地页停留时长1,流量主1)
(用户1,广告点击时间2,广告场景2,广告转发者2,广告转发群2,Wi-Fi 2,IP地址2,设备标识2,文章停留时长2,落地页停留时长2,流量主1)
(用户1,广告点击时间3,广告场景3,广告转发者3,广告转发群3,Wi-Fi 3,IP地址3,设备标识3,文章停留时长3,落地页停留时长3,流量主1)
(用户1,广告点击时间n,广告场景n,广告转发者n,广告转发群n,Wi-Fi n,IP地址n,设备标识n,文章停留时长n,落地页停留时长n,流量主1)
其中,n为正整数,为广告点击记录1-2中的记录的数量;用户1、广告点击时间1、广告场景1、广告转发者1、广告转发群1、Wi-Fi 1、IP地址1、设备标识1、文章停留时长1、落地页停留时长1和流量主1等均为操作属性。
S202、从广告点击记录1-2中提取出属性列表1-3(第一初始类别属性集合序列),并去重组合为用户1点击广告的属性列表A1(第一操作属性集合)。
需要说明说明的是,检测设备提取出的属性列表1-3为:
广告点击时间a1=[广告点击时间1,广告点击时间2,广告点击时间3,……,广告点击时间n];
广告场景a2=[广告场景1,广告场景2,广告场景3,……,广告场景n];
广告转发者a3=[广告转发者1,广告转发者2,广告转发者3,……,广告转发者n];
广告转发群a4=[广告转发群1,广告转发群2,广告转发群3,……,广告转发群n];
Wi-Fi a5=[Wi-Fi 1,Wi-Fi 2,Wi-Fi 3,……,Wi-Fi n];
IP地址a6=[IP地址1,IP地址2,IP地址3,……,IP地址n];
设备标识a7=[设备标识1,设备标识2,设备标识3,……,设备标识n];
文章停留时长a8=[文章停留时长1,文章停留时长2,文章停留时长3,……,文章停留时长n];
落地页停留时长a9=[落地页停留时长1,落地页停留时长2,落地页停留时长3,……,落地页停留时长n]。
其中,a1-a9中的任一个为第一初始类别属性集合;广告点击时间、广告场景、广告转发者、广告转发群、Wi-Fi、IP地址、设备标识、文章停留时长和落地页停留时长中的任一个为预设属性类别,广告点击时间、广告场景、广告转发者、广告转发群、Wi-Fi、IP地址、设备标识、文章停留时长和落地页停留时长共称为预设属性类别集合;易知,A1
Figure 142264DEST_PATH_IMAGE001
S203、获取用户2点击广告的属性列表A2(第二操作属性集合)。
需要说明的是,A2的获取方式与A1的获取方式类似,本发明实施例在此不再赘述。
S204、计算用户1点击广告的属性列表A1与用户2点击广告的属性列表A2的属性共现个数w(共现属性结果值)。
其中,计算属性共现个数w的过程参见式(1)
Figure 401207DEST_PATH_IMAGE002
这里,由于正常用户只会点击自己感兴趣的广告,因而同一个流量主下两个正常用户之间出现属性共现的概率较低,因此设置一个阈值K(通常为6,即预设共现属性阈值),当
Figure 995350DEST_PATH_IMAGE003
时,两个用户不属于属性共现用户,当
Figure 263520DEST_PATH_IMAGE004
时,两个用户之间的属性存在共现,确定用户1和用户2为异常用户(异常实体)。
至此,已经完成了属性共现的判断。进一步地,基于图12,参见图13,完成属性共现的判断之后,为进一步提高检测的准确性,还可以对流量主进行检测,以实现只对存在属性共现且集中在某一个流量主(异常流量主)下的用户进行打击,详细步骤如下:
S205、获取流量主1对应的所有点击用户数m(目标实体集合的实体的数量),以及所有点击用户中存在属性共现的用户数t;基于存在属性共现的用户数t和所有点击用户数m计算流量主1的指标
Figure 849222DEST_PATH_IMAGE005
需要说明的是,确定流量主1对应的所有点击用户中存在属性共现的用户的过程,与确定用户1和用户2存在属性共现的过程一致,参见S201-S204,本发明实施例在此不再赘述。
其中,计算指标
Figure 341383DEST_PATH_IMAGE005
的过程参见式(2):
Figure 114167DEST_PATH_IMAGE006
S206、当指标
Figure 923379DEST_PATH_IMAGE005
大于指定的阈值0.5(预设流量载体异常阈值)时,确定流量主1为异常流量主(异常流量载体)。
需要说明的是,确定流量主1为异常流量主之后,对流量主1中的属性共现用户进行打击。
下面继续说明本发明实施例提供的异常行为检测装置455的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的异常行为检测装置455中的软件模块可以包括:
信息获取模块4551,用于获取在待检测流量载体上第一待检测实体对应的第一待检测操作序列和第二待检测实体对应的第二待检测操作序列,其中,所述第一待检测操作序列包括所述第一待检测实体对所述待检测流量载体上的内容进行操作的多个操作信息,所述第二待检测操作序列包括所述第二待检测实体对所述待检测流量载体上的内容进行操作的多个操作信息,并且每个操作信息包括多个操作属性;
属性获取模块4552,用于根据所述第一待检测操作序列和所述第二待检测操作序列,分别生成所述第一待检测实体对应的第一操作属性集合和所述第二待检测实体对应的第二操作属性集合,其中,所述第一操作属性集合和所述第二操作属性集合分别是从所对应待检测操作序列中提取出的操作属性所组成的集合;
属性对比模块4553,用于对比所述第一操作属性集合和所述第二操作属性集合,得到所述第一待检测实体和所述第二待检测实体之间的共现属性结果值;
异常确定模块4554,用于当所述共现属性结果值大于预设共现属性阈值时,确定所述第一待检测实体和所述第二待检测实体为异常实体。
在本发明实施例中,所述属性获取模块4552,还用于从所述第一待检测操作序列中,提取与预设属性类别集合中的各个预设属性类别分别对应的各个操作属性,组合为所述第一待检测实体对应的所述第一操作属性集合,其中,所述第一操作属性集合与所述预设属性类别集合相对应,所述预设属性类别类型为用于进行异常行为检测的各个属性类别所组成的集合;从所述第二待检测操作序列中,提取与所述预设属性类别集合中的各个预设属性类别分别对应的各个操作属性,组合为所述第二待检测实体对应的所述第二属性序列集合,其中,所述第二操作属性集合与所述预设属性类别集合相对应。
在本发明实施例中,所述属性获取模块4552,还用于将所述第一待检测操作序列中,与所述预设属性类别集合中的每个预设属性类别对应的各个操作属性,组合为第一初始类别属性集合;对所述第一初始类别属性集合进行属性去重,得到第一类别属性集合,从而得到与所述预设属性类别集合对应的第一类别属性集合序列;将所述第一类别属性集合序列中的各个操作属性,组合为所述第一待检测实体对应的所述第一操作属性集合。
在本发明实施例中,所述属性获取模块4552,还用于基于预设属性类型,对所述第一待检测操作序列中的多个操作信息进行排序,得到排序后的第一待检测操作序列;所述预设属性类型属于多个操作属性对应的类型;将所述排序后的第一待检测操作序列中,与所述预设属性类别集合中的所述每个预设属性类别对应的各个操作属性,组合为所述第一初始类别属性集合。
在本发明实施例中,所述属性对比模块4553,还用于确定所述第一操作属性集合和所述第二操作属性集合之间的相同操作属性的数量,得到所述共现属性结果值。
在本发明实施例中,所述异常行为检测装置455还包括载体检测模块4555,用于将所述待检测流量载体中的任意两个实体,作为所述第一待检测实体和所述第二待检测实体进行异常行为检测,直到完成所述待检测流量载体中的实体相互之间的检测时,得到所述待检测流量载体中存在异常行为的异常实体集合;将所述异常实体集合中实体的数量,作为目标异常实体数量;将所述待检测流量载体对应的实体的数量,作为目标总实体数量;计算所述目标异常实体数量与所述目标总实体数量的比值,得到所述待检测流量载体对应的流量载体异常值;当所述流量载体异常值大于预设流量载体异常阈值时,确定所述待检测流量载体为异常流量载体。
在本发明实施例中,所述异常行为检测装置455还包括操作存储模块4556,用于获取当前操作信息,所述当前操作信息为实体对所述待检测流量载体上的内容进行操作的任一操作信息;存储所述当前操作信息,得到预设操作库。
相应地,所述信息获取模块4551,还用于从所述预设操作库中,获取在所述待检测流量载体上所述第一待检测实体对应的所述第一待检测操作序列和所述第二待检测实体对应的所述第二待检测操作序列。
在本发明实施例中,所述异常行为检测装置455还包括请求获取模块4557,用于获取第一异常检测请求,从所述第一异常检测请求中,获取所述第一待检测实体和所述待检测流量载体;所述第一异常检测请求用于请求对所述第一待检测实体进行异常行为检测;从所述预设操作库中,获取与所述待检测流量载体对应的其他实体集合;从所述其他实体集合中选择所述第二待检测实体。
在本发明实施例中,所述请求获取模块4557,还用于获取第二异常检测请求,从所述第二异常检测请求中,获取所述待检测流量载体;所述第二异常检测请求用于请求对所述待检测流量载体进行异常行为检测;从所述预设操作库中,获取与所述待检测流量载体对应的目标实体集合;从所述目标实体集合中选择所述第一待检测实体和所述第二待检测实体。
在本发明实施例中,所述当前操作信息包括操作时间信息、网络环境信息、设备信息、操作类型信息和流量载体信息中的至少一种。
本发明实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的异常行为检测方法,例如,如图3示出的异常行为检测方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本发明实施例,由于具有异常行为的实体之间,在对多媒体信息进行操作时,所对应的操作中是存在相同操作属性的;因此,本发明实施例在进行异常行为检测时,通过对实体的操作序列进行获取,并根据实体间的操作序列对应的操作属性集合之间是否出现了属性共现来确定实体是否存在异常行为,进而确定实体是否是异常实体;如此,能够准确且全面地确定出具有异常行为的实体;从而,提升了异常行为检测的覆盖率和准确率。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。

Claims (13)

1.一种异常行为检测方法,其特征在于,包括:
获取在待检测流量载体上第一待检测实体对应的第一待检测操作序列和第二待检测实体对应的第二待检测操作序列,其中,所述第一待检测操作序列包括所述第一待检测实体对所述待检测流量载体上的内容进行操作的多个操作信息,所述第二待检测操作序列包括所述第二待检测实体对所述待检测流量载体上的内容进行操作的多个操作信息,并且每个操作信息包括多个操作属性;
根据所述第一待检测操作序列和所述第二待检测操作序列,分别生成所述第一待检测实体对应的第一操作属性集合和所述第二待检测实体对应的第二操作属性集合,其中,所述第一操作属性集合和所述第二操作属性集合分别是从所对应待检测操作序列中提取出的操作属性所组成的集合;
对比所述第一操作属性集合和所述第二操作属性集合,得到所述第一待检测实体和所述第二待检测实体之间的共现属性结果值;
当所述共现属性结果值大于预设共现属性阈值时,确定所述第一待检测实体和所述第二待检测实体为异常实体。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一待检测操作序列和所述第二待检测操作序列,分别生成所述第一待检测实体对应的第一操作属性集合和所述第二待检测实体对应的第二操作属性集合,包括:
从所述第一待检测操作序列中,提取与预设属性类别集合中的各个预设属性类别分别对应的各个操作属性,组合为所述第一待检测实体对应的所述第一操作属性集合,其中,所述第一操作属性集合与所述预设属性类别集合相对应,所述预设属性类别类型为用于进行异常行为检测的各个属性类别所组成的集合;
从所述第二待检测操作序列中,提取与所述预设属性类别集合中的各个预设属性类别分别对应的各个操作属性,组合为所述第二待检测实体对应的所述第二操作属性集合,其中,所述第二操作属性集合与所述预设属性类别集合相对应。
3.根据权利要求2所述的方法,其特征在于,所述从所述第一待检测操作序列中,提取与预设属性类别集合中的各个预设属性类别分别对应的各个操作属性,组合为所述第一待检测实体对应的所述第一操作属性集合,包括:
将所述第一待检测操作序列中,与所述预设属性类别集合中的每个预设属性类别对应的各个操作属性,组合为第一初始类别属性集合;
对所述第一初始类别属性集合进行属性去重,得到第一类别属性集合,从而得到与所述预设属性类别集合对应的第一类别属性集合序列;
将所述第一类别属性集合序列中的各个操作属性,组合为所述第一待检测实体对应的所述第一操作属性集合。
4.根据权利要求3所述的方法,其特征在于,所述将所述第一待检测操作序列中,与所述预设属性类别集合中的每个预设属性类别对应的各个操作属性,组合为第一初始类别属性集合,包括:
基于预设属性类型,对所述第一待检测操作序列中的多个操作信息进行排序,得到排序后的第一待检测操作序列;所述预设属性类型属于多个操作属性对应的类型;
将所述排序后的第一待检测操作序列中,与所述预设属性类别集合中的所述每个预设属性类别对应的各个操作属性,组合为所述第一初始类别属性集合。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述对比所述第一操作属性集合和所述第二操作属性集合,得到所述第一待检测实体和所述第二待检测实体之间的共现属性结果值,包括:
确定所述第一操作属性集合和所述第二操作属性集合之间的相同操作属性的数量,得到所述共现属性结果值。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述当所述共现属性结果值大于预设共现属性阈值时,确定所述第一待检测实体和所述第二待检测实体为异常实体之后,所述方法还包括:
将所述待检测流量载体中的任意两个实体,作为所述第一待检测实体和所述第二待检测实体进行异常行为检测,直到完成所述待检测流量载体中的实体相互之间的检测时,得到所述待检测流量载体中存在异常行为的异常实体集合;
将所述异常实体集合中实体的数量,作为目标异常实体数量;
将所述待检测流量载体对应的实体的数量,作为目标总实体数量;
计算所述目标异常实体数量与所述目标总实体数量的比值,得到所述待检测流量载体对应的流量载体异常值;
当所述流量载体异常值大于预设流量载体异常阈值时,确定所述待检测流量载体为异常流量载体。
7.根据权利要求1至4任一项所述的方法,其特征在于,所述获取在待检测流量载体上第一待检测实体对应的第一待检测操作序列和第二待检测实体对应的第二待检测操作序列之前,所述方法还包括:
获取当前操作信息,所述当前操作信息为实体对所述待检测流量载体上的内容进行操作的任一操作信息;
存储所述当前操作信息,得到预设操作库;
所述获取在待检测流量载体上第一待检测实体对应的第一待检测操作序列和第二待检测实体对应的第二待检测操作序列,包括:
从所述预设操作库中,获取在所述待检测流量载体上所述第一待检测实体对应的所述第一待检测操作序列和所述第二待检测实体对应的所述第二待检测操作序列。
8.根据权利要求7所述的方法,其特征在于,所述获取在待检测流量载体上第一待检测实体对应的第一待检测操作序列和第二待检测实体对应的第二待检测操作序列之前,以及所述存储所述当前操作信息,得到预设操作库之后,所述方法还包括:
获取第一异常检测请求,从所述第一异常检测请求中,获取所述第一待检测实体和所述待检测流量载体;所述第一异常检测请求用于请求对所述第一待检测实体进行异常行为检测;
从所述预设操作库中,获取与所述待检测流量载体对应的其他实体集合;
从所述其他实体集合中选择所述第二待检测实体。
9.根据权利要求7所述的方法,其特征在于,所述获取在待检测流量载体上第一待检测实体对应的第一待检测操作序列和第二待检测实体对应的第二待检测操作序列之前,以及所述存储所述当前操作信息,得到预设操作库之后,所述方法还包括:
获取第二异常检测请求,从所述第二异常检测请求中,获取所述待检测流量载体;所述第二异常检测请求用于请求对所述待检测流量载体进行异常行为检测;
从所述预设操作库中,获取与所述待检测流量载体对应的目标实体集合;
从所述目标实体集合中选择所述第一待检测实体和所述第二待检测实体。
10.根据权利要求7所述的方法,其特征在于,所述当前操作信息包括操作时间信息、网络环境信息、设备信息、操作类型信息和流量载体信息中的至少一种。
11.一种异常行为检测装置,其特征在于,包括:
信息获取模块,用于获取在待检测流量载体上第一待检测实体对应的第一待检测操作序列和第二待检测实体对应的第二待检测操作序列,其中,所述第一待检测操作序列包括所述第一待检测实体对所述待检测流量载体上的内容进行操作的多个操作信息,所述第二待检测操作序列包括所述第二待检测实体对所述待检测流量载体上的内容进行操作的多个操作信息,并且每个操作信息包括多个操作属性;
属性获取模块,用于根据所述第一待检测操作序列和所述第二待检测操作序列,分别生成所述第一待检测实体对应的第一操作属性集合和所述第二待检测实体对应的第二操作属性集合,其中,所述第一操作属性集合和所述第二操作属性集合分别是从所对应待检测操作序列中提取出的操作属性所组成的集合;
属性对比模块,用于对比所述第一操作属性集合和所述第二操作属性集合,得到所述第一待检测实体和所述第二待检测实体之间的共现属性结果值;
异常确定模块,用于当所述共现属性结果值大于预设共现属性阈值时,确定所述第一待检测实体和所述第二待检测实体为异常实体。
12.一种异常行为检测设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至10任一项所述的异常行为检测方法。
13.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1至10任一项所述的异常行为检测方法。
CN202010509793.5A 2020-06-08 2020-06-08 一种异常行为检测方法、装置、设备及存储介质 Active CN111401976B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010509793.5A CN111401976B (zh) 2020-06-08 2020-06-08 一种异常行为检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010509793.5A CN111401976B (zh) 2020-06-08 2020-06-08 一种异常行为检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111401976A CN111401976A (zh) 2020-07-10
CN111401976B true CN111401976B (zh) 2020-09-04

Family

ID=71431924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010509793.5A Active CN111401976B (zh) 2020-06-08 2020-06-08 一种异常行为检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111401976B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650608B (zh) * 2020-12-28 2024-03-01 广州虎牙科技有限公司 异常根因定位方法以及相关装置、设备
CN114493374B (zh) * 2022-04-01 2022-07-05 广东海洋大学 一种基于操作序列分析的准确率自动计算方法及系统
CN116051185B (zh) * 2023-04-03 2023-06-09 深圳媒介之家文化传播有限公司 广告位数据的异常检测与筛选方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3677907B2 (ja) * 1996-12-13 2005-08-03 株式会社日立製作所 情報の送受信方法及びそれを用いたシステム
US9536250B2 (en) * 2010-12-20 2017-01-03 Excalibur Ip, Llc Blending advertiser data with ad network data in order to serve finely targeted ads
CN105912652B (zh) * 2016-04-08 2019-05-31 华南师范大学 基于关联规则和用户属性的异常行为检测方法和系统
CN106657410B (zh) * 2017-02-28 2018-04-03 国家电网公司 基于用户访问序列的异常行为检测方法
CN106982235B (zh) * 2017-06-08 2021-01-26 江苏省电力试验研究院有限公司 一种基于iec 61850的电力工业控制网络入侵检测方法及系统

Also Published As

Publication number Publication date
CN111401976A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111401976B (zh) 一种异常行为检测方法、装置、设备及存储介质
Alam et al. Processing social media images by combining human and machine computing during crises
US10948526B2 (en) Non-parametric statistical behavioral identification ecosystem for electricity fraud detection
US20190332675A1 (en) Method and system for implementing semantic technology
KR100996311B1 (ko) 스팸 ucc를 감지하기 위한 방법 및 시스템
US20190058719A1 (en) System and a method for detecting anomalous activities in a blockchain network
WO2021174944A1 (zh) 基于目标对象活跃度的消息推送方法及相关设备
CN111641629B (zh) 一种异常行为检测方法、装置、设备及存储介质
US20150120583A1 (en) Process and mechanism for identifying large scale misuse of social media networks
WO2019084922A1 (zh) 信息处理方法和系统、服务器、终端、计算机存储介质
Hornick et al. Extending recommender systems for disjoint user/item sets: The conference recommendation problem
US20090089285A1 (en) Method of detecting spam hosts based on propagating prediction labels
CN111831636A (zh) 一种数据处理方法、装置、计算机系统及可读存储介质
WO2019061664A1 (zh) 电子装置、基于用户上网数据的产品推荐方法及存储介质
US20230004979A1 (en) Abnormal behavior detection method and apparatus, electronic device, and computer-readable storage medium
CN110717597A (zh) 利用机器学习模型获取时序特征的方法和装置
WO2016188334A1 (zh) 一种用于处理应用访问数据的方法与设备
US20130151519A1 (en) Ranking Programs in a Marketplace System
Zhao et al. Detecting profilable and overlapping communities with user-generated multimedia contents in LBSNs
CN112686717A (zh) 一种广告召回的数据处理方法及系统
KR20190109628A (ko) 개인화된 기사 컨텐츠 제공 방법 및 장치
CN116860311A (zh) 脚本分析方法、装置、计算机设备及存储介质
CN111241821A (zh) 确定用户的行为特征的方法和装置
CN107920100B (zh) 信息推送方法和装置
CN110619541B (zh) 应用程序管理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025783

Country of ref document: HK