CN108322363A - 推送数据异常监控方法、装置、计算机设备和存储介质 - Google Patents
推送数据异常监控方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN108322363A CN108322363A CN201810145565.7A CN201810145565A CN108322363A CN 108322363 A CN108322363 A CN 108322363A CN 201810145565 A CN201810145565 A CN 201810145565A CN 108322363 A CN108322363 A CN 108322363A
- Authority
- CN
- China
- Prior art keywords
- propelling data
- data object
- wait
- encoded
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/026—Capturing of monitoring data using flow identification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种推送数据异常监控方法、装置、计算机可读存储介质和计算机设备,该方法包括:获取待推送数据集合,待推送数据集合包括多个待推送数据;生成与各个待推送数据对应的待推送数据对象,待推送数据对象包括不同类型的特征集;对各个待推送数据对应的待推送数据对象进行编码,得到对应的各个已编码待推送数据对象;对各个已编码待推送数据对象进行聚类,得到多个聚类簇;从多个聚类簇中确定异常聚类簇;根据异常聚类簇对应的已编码待推送数据对象对待推送数据进行异常分析。本申请提供的方案能够从海量的推送数据中定位找到异常的推送数据从而提高推送数据的处理效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种推送数据异常监控方法、装置、计算机可读存储介质和计算机设备。
背景技术
随着计算机技术的发展,出现了移动应用服务这个产品,移动应用服务是针对终端这种移动连接到互联网的业务或者无线网卡业务而开发的应用程序服务。而推送服务是连接线上移动应用服务和服务器后台的一个重要纽带,可以连接已上线的移动应用和服务器后台,可以让服务器从后台更新给已上线移动应用服务,去修复缺陷或者主动推送信息给用户,提高移动应用的活跃度。
然而,随着移动互联网的飞速发展,移动应用服务中推送服务推送消息也日益增长,对于移动应用服务的海量推送数据,目前无法对海量推送数据的质量进行监控,从而造成对海量推送数据处理效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够从海量的推送数据中定位找到异常的推送数据,从而提高推送数据的处理效率的推送数据异常监控方法、装置、计算机可读存储介质和计算机设备。
一种推送数据异常监控方法,该方法包括:
获取待推送数据集合,待推送数据集合包括多个待推送数据;
生成与各个待推送数据对应的待推送数据对象,待推送数据对象包括不同类型的特征集;
对各个待推送数据对应的待推送数据对象进行编码,得到对应的各个已编码待推送数据对象;
对各个已编码待推送数据对象进行聚类,得到多个聚类簇;
从多个聚类簇中确定异常聚类簇;
根据异常聚类簇对应的已编码待推送数据对象对待推送数据进行异常分析。
一种推送数据异常监控装置,该装置包括:
待推送数据集合获取模块,用于获取待推送数据集合,待推送数据集合包括多个待推送数据;
待推送数据对象生成模块,用于生成与各个待推送数据对应的待推送数据对象,待推送数据对象包括不同类型的特征集;
待推送数据对象编码模块,用于对各个待推送数据对应的待推送数据对象进行编码,得到对应的各个已编码待推送数据对象;
待推送数据对象聚类模块,用于对各个已编码待推送数据对象进行聚类,得到多个聚类簇;
异常聚类簇检测模块,用于从多个聚类簇中确定异常聚类簇;
待推送数据对象分析模块,用于根据异常聚类簇对应的已编码待推送数据对象对待推送数据进行异常分析。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行所述程序时实现以下步骤:
获取待推送数据集合,待推送数据集合包括多个待推送数据;
生成与各个待推送数据对应的待推送数据对象,待推送数据对象包括不同类型的特征集;
对各个待推送数据对应的待推送数据对象进行编码,得到对应的各个已编码待推送数据对象;
对各个已编码待推送数据对象进行聚类,得到多个聚类簇;
从多个聚类簇中确定异常聚类簇;
根据异常聚类簇对应的已编码待推送数据对象对待推送数据进行异常分析。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取待推送数据集合,待推送数据集合包括多个待推送数据;
生成与各个待推送数据对应的待推送数据对象,待推送数据对象包括不同类型的特征集;
对各个待推送数据对应的待推送数据对象进行编码,得到对应的各个已编码待推送数据对象;
对各个已编码待推送数据对象进行聚类,得到多个聚类簇;
从多个聚类簇中确定异常聚类簇;
根据异常聚类簇对应的已编码待推送数据对象对待推送数据进行异常分析。
上述推送数据异常监控方法、装置、计算机可读存储介质和计算机设备,终端将待推送数据集合发送至服务器,服务器在获取到待推送数据集合后,生成待推送数据集合中的各个待推送数据对应的待推送数据对应的待推送数据对象。进一步对各个待推送数据对应的待推送数据对象进行编码,得到各个已编码待推送数据对象,再对各个已编码待推送数据对象进行聚类,得到多个聚类簇。在多个聚类簇中确定出异常聚类簇,根据异常聚类簇对应的已编码待推送数据对象对待推送数据进行异常分析,可将异常分析结果发送至终端。通过在对海量的推送数据进行聚类后,从聚类得到的多个聚类簇中找到异常聚类簇,对异常聚类簇进行异常检测分析进而找到异常的推送数据,不仅可对海量的推送数据进行监控,也可提高推送数据的处理效率。
附图说明
图1为一个实施例中推送数据异常监控方法的应用环境图;
图2为一个实施例推送数据异常监控方法的流程示意图;
图3为一个实施例中生成待推送数据对象的流程示意图;
图4为一个实施例中对待推送数据对象进行编码的流程示意图;
图5为一个实施例中对已编码待推送数据对象进行聚类的流程示意图;
图6为一个实施例中聚类过程的原理示意图;
图7为一个实施例中从多个聚类簇中确定异常聚类簇的流程示意图;
图8为一个实施例中对异常聚类簇进行异常分析的流程示意图;
图9为一个实施例中推送数据异常监控方法的流程示意图;
图10为一个实施例中推送数据异常监控装置的结构框图;
图11为一个实施例中待推送数据对象生成模块的结构框图;
图12为一个实施例中待推送数据对象编码模块的结构框图;
图13为一个实施例中待推送数据对象分析模块的结构框图;
图14为一个实施例中待推送数据对象聚类模块的结构框图;
图15为一个实施例中异常聚类簇检测模块的结构框图;
图16为一个实施例中推送数据异常监控装置的结构框图;
图17为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中推送数据异常监控方法的应用环境图。参照图1,该推送数据异常监控方法应用于推送数据异常监控系统。该推送数据异常监控系统包括终端110和服务器120。服务器在获取到待推送数据集合后,生成待推送数据集合中的各个待推送数据对应的待推送数据对应的待推送数据对象。进一步对各个待推送数据对应的待推送数据对象进行编码,得到各个已编码待推送数据对象,再对各个已编码待推送数据对象进行聚类,得到多个聚类簇。在多个聚类簇中确定出异常聚类簇,服务器根据异常聚类簇对应的已编码待推送数据对象对待推送数据进行异常分析,可将异常分析结果发送至终端。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图2所示,在一个实施例中,提供了一种推送数据异常监控方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图2,该推送数据异常监控方法具体包括如下步骤:
步骤202,获取待推送数据集合,待推送数据集合包括多个待推送数据。
其中,待推送数据是用来等待推送的消息数据。比如,待推送数据可以是但不限于图片、文本内容、语音、广告通知消息、活动通知消息、新闻通知消息等等。而待推送数据集合是由多个待推送数据组成的集合。服务器可通过终端相关的应用程序将待推送消息数据推送至对应的终端,这里的应用程序可以是但不限于具有各种推送消息数据服务的新闻应用程序、视频应用、社交网络应用、论坛应用等。服务器可通过自身具有采集能力的推送相关服务从而采集各个待推送数据,将采集到的各个待推送数据组成待推送数据集合。
具体地,服务器可通过自身的采集能力采集待推送数据,服务器将获取到的各种等待推送的数据组成待推送数据集合。
步骤204,生成与各个待推送数据对应的待推送数据对象,待推送数据对象包括不同类型的特征集。
其中,待推送数据对象是用来对待推送数据的抽象表示。由于待推送数据中有很多与待推送数据相关的指标,因此可将与待推送数据相关的指标抽象成对应的特征,将多个具有可比性的特征组成对应类型的特征集。其中,不同类型的特征集可根据特征集中的特征的属性或者类型进行确定。这里的与待推送数据相关的指标包括但不限于静态指标和动态指标,其中,静态指标可以是但不限于待推送数据本身的大小、服务器处理待推送数据和待推送数据到达服务器的时延等等,而动态指标包括但不限于服务器消耗的资源,推送待推送数据的应用app的内存大小、待推送数据消耗的流量等等。这里的静态指标是服务器采集到的待推送数据中的指标大小或者数值可准确得知的指标,不受服务器的采集能力或者采集的时间而影响的指标。而动态指标是静态指标的相对概念,是指有些采集到的待推送数据中的某些指标本身与服务器的采集能力或者采集时间相关的指标定义为动态指标。
具体地,通过终端和服务器自身相关的推送服务采集各个待推送数据相关的各个指标,将采集到的各个指标抽象成各个特征,根据各个特征之间的可比性、属性或者类型将各个特征组成不同类型的特征集,进一步将不同类型的特征集抽象成各个待推送数据对应的待推送数据对象。比如,将各个待推送数据抽象成对应的待推送数据对象M,各个待推送数据对象M有很多与其相关的指标,可将每个指标抽象成一个特征r,多个具有可比性之间的特征r组成一个类型的特征集R,将不同类型的特征集R组成待推送数据对象M,待推送数据对象M可被描述为:
M={R1,R2,…Rn}Ri={r1,r2,…rj}i,j≥0,i∈n
步骤206,对各个待推送数据对应的待推送数据对象进行编码,得到对应的各个已编码待推送数据对象。
其中,编码是将待推送数据从一种形式或格式转换成另一种形式的过程,这里的编码是根据待推送数据对象中不同类型的特征集对应的编码方式进行编码。比如,编码方式可以是但不限于将带量纲单位的指标转化成为对应具体的维度属性值。因为不同类型的特征集组成待推送数据对象,因此特征集的类型是待推送数据对象的维度属性,也就是说待推送数据对象中的各个维度的属性与对应的特征集的类型相对应。所谓维度属性值是用来表示维度属性的具体数值。
具体地,在生成与各个待推送数据对应的待推送数据对象后,将各个待推送数据对象中的各个特征集中的带量纲的特征转化成各个待推送数据对象中的维度属性值,得到对应的各个已编码待推送数据对象。例如,待推送数据对象中的一个时延特征集为:时延特征集={服务器接收时延,服务器转存时延,服务器队列等候时延,传输时延,终端处理时延},对该时延特征集进行编码得到已编码时延特征集为:时延特征集={10,10,10,10,10}。其中,10可表示服务器接收时延为10s,经过编码处理后得到服务器接收时延维度属性值为10。其中,由于待推送数据自带时间戳,因此某个环节时延可通过待推送数据离开当前环节的时间戳和离开上个环节的时间戳之差计算得到。
步骤208,对各个已编码待推送数据对象进行聚类,得到多个聚类簇。
其中,聚类是将抽象的待推送数据对象分成由类似的待推送数据对象组成的多个聚类簇的过程。聚类过程所生成的聚类簇是一组待推送数据对象的集合,这些待推送数据对象与同一个聚类簇中的待推送数据对象彼此相似,与其他聚类簇中的待推送数据对象相异。具体地,在得到对应的各个已编码待推送数据对象后,将各个抽象的已编码待推送数据对象中类似的待推送数据对象生成对应的聚类簇,得到聚类过程所生成的多个聚类簇。
步骤210,从多个聚类簇中确定异常聚类簇。
其中,异常聚类簇是聚类过程所生成的多个聚类簇中出现问题的聚类簇。异常聚类簇也是一组待推送数据对象的集合,而异常聚类簇可以是但不限于待推送数据对象部分出现问题或者待推送数据对象全部出现问题。具体地,对得到聚类过程所生成多个聚类簇后,根据一定的预设规则从多个聚类簇中确定出异常聚类簇。其中,预设规则可以是但不限于以聚类簇中待推送数据对象的数量进行确定,当多个聚类簇中某个聚类簇中的待推送数据对象的数量明显少于其他聚类簇时,可确定待推送数据对象数量明显少于其他聚类簇中的待推送数据对象的聚类簇为异常聚类簇,或可根据各个聚类簇中的各个待推送数据对象的分布进行确定,如若某一聚类簇中的各个待推送数据对象的分布过于稀疏,而其他聚类簇中的各个待推送数据对象的分布紧密,则可确定各个待推送数据对象稀疏分布组成的聚类簇为异常聚类簇。
步骤212,根据异常聚类簇对应的已编码待推送数据对象对待推送数据进行异常分析。
其中,异常分析是对异常聚类簇中的待推送数据对象进行问题检测分析的过程。比如,异常分析可以是但不限于可找出未归入任何一个聚类簇的待推送数据对象进而找出待推送数据,或若异常聚类簇中的待推送数据对象的数量少,则可根据异常聚类簇中的待推送数据对象对待推送数据进行检测分析。具体地,在从多个聚类簇中确定出异常聚类簇后,根据异常聚类簇中的待推送数据对象对待推送数据进行检测分析,通过对整个异常聚类簇的监控,可以对异常聚类簇中的待推送数据的指标进行监控以及分析。
上述推送数据异常监控方法,终端将待推送数据集合发送至服务器,服务器在获取到待推送数据集合后,生成待推送数据集合中的各个待推送数据对应的待推送数据对应的待推送数据对象。进一步对各个待推送数据对应的待推送数据对象进行编码,得到各个已编码待推送数据对象,再对各个已编码待推送数据对象进行聚类,得到多个聚类簇。在多个聚类簇中确定出异常聚类簇,服务器根据异常聚类簇对应的已编码待推送数据对象对待推送数据进行异常分析,可将异常分析结果发送至终端。通过在对海量的推送数据进行聚类后,得到多个聚类簇,从多个聚类簇中找到异常聚类簇,进而找到异常的推送数据,不仅可对海量的推送数据进行监控,也提高推送数据的处理效率。
在一个实施例中,如图3所示,生成与各个待推送数据对应的待推送数据对象,包括:
步骤302,获取待推送数据对应的各个特征,将各个特征归入对应类型的特征集,该类型包括时间类型、资源类型、地理位置类型中的至少一种。
步骤304,不同类型的特征集组成待推送数据对应的待推送数据对象。
其中,特征是将各个待推送数据中的各个指标的抽象表示,由于终端和服务器自身相关的推送服务都具有采集各个待推送数据的各个指标的能力,则通过终端和服务器的采集能力采集到各个待推送数据中的各个指标,将各个指标抽象成对应的特征。
具体地,在采集到待推送数据对应的各个特征后,将根据各个特征之间的可比性、属性或者类型将各个特征组成不同类型的特征集,这里不同类型的特征集包括但不限于时间类型、资源类型、地理位置类型。其中时间类型特征集是各个待推送数据中关于待推送数据时间的相关特征组成的特征集,资源类型特征集是各个待推送数据中关于待推送数据占据资源内存大小的相关特征组成的特征集,同样地,地理位置类型特征集是各个待推送数据所在的经纬度和省份标记的相关特征组成的特征集。进一步地,将来自同一条待推送数据的不同类型的特征集组成与该待推送数据对应的待推送数据对象。
比如,通过对终端和服务器的采集到待推送数据的指标抽成特征可以是但不限于:通知标题,通知内容,发送时间,通知行业,通知大小,终端类型,终端系统版本,终端内存大小,终端位置服务,通知消耗的流量,后台消耗内存,处理器CPU,流量,电量,时延1,时延2,时延3。可根据各个特征之间的可比性、属性或者类型等将这些特征划分为三个类型特征集为:通知本身特征集={通知标题,通知内容,发送时间,通知行业,通知大小};接收通知终端特征集={终端类型,终端系统版本,终端内存大小,终端位置服务};后台资源特征集={后台消耗内存,处理器CPU,流量,电量,时延1,时延2,时延3}。进一步地,将不同类型的特征集组成待推送数据对应的待推送数据对象M={通知本身特征集,接收通知终端特征集,后台资源特征集}。
在一个实施例中,如图4所示,对各个待推送数据对应的待推送数据对象进行编码,包括:
步骤402,获取待推送数据对象对应的各个特征集。
步骤404,根据特征集对应的类型,确定各个特征集对应的编码方式。
步骤406,根据特征集对应的编码方式对匹配的特征集中的各个特征进行编码。
具体地,待推送数据对象是由不同类型的特征集组成的,即每个类型的特征集称为待推送数据对象的维度属性。获取待推送数据对象中的对应的各个类型的特征集,由于不同类型的特征集对应的编码方式不同,因此根据特征集对应的类型确定各个特征集对应的编码方式。所谓编码方式是将待推送数据从一种形式转换成另一种形式进行编码的方式。进一步地,在确定不同类型的特征集对应的编码方式后,需要将根据不同类型的编码方式对匹配的特征集中的各个特征从一种形式或格式转换成另一种形式或者格式。
例如,若特征集对应的类型为时间时,则时间类型特征集对应的编码为将特征集中的带量纲的特征转换为同一单位后去除量纲单位,最后得到纯数字表示的时间特征集。同样地,若特征集对应的类型为资源时,则资源特征集对应的编码为将特征集中的消耗资源的大小的带量纲单位的特征转换为同一单位后去除量纲单位,若某一特征未消耗资源则设定为0,最后得到纯数字表示的资源特征集。若特征集对应的类型为地理位置时,则地理位置特征集对应的编码需对待推送数据所在的省份以及需推送至的目标省份进行统计,采用三维坐标进行定义,三维坐标分别表示经纬度和省份标记,最后得到三维坐标的纯数字表示的地理位置特征集。
在一个实施例中,如图5所示,对各个已编码待推送数据对象进行聚类,得到多个聚类簇,包括:
步骤502,根据各个已编码待推送数据对象中的特征集确定对应数量的类簇。
具体地,类簇是用来对待推送数据对象进行分类的类别,也可称为类别。如图6所示,图6示出一个实施例中聚类过程的原理示意图,在得到各个已编码待推送数据对象后,需对各个已编码待推送数据对象中的特征集进行分类,其中确定对应数量的类簇可根据待推送数据中的各个指标进行实际设定。其中根据各个已编码待推送数据对象中的特征集确定对应的数量的类簇可根据设定的类簇数量越多,聚类结果越准确,聚类时间消耗多的原则进行确定。
步骤504,从各个已编码待推送数据对象中随机选取与各个类簇对应的目标已编码待推送数据对象,将目标已编码待推送数据对象作为各个类簇的初始聚类中心,将初始聚类中心作为当前聚类中心。
如图6所示,在确定各个已编码待推送数据对象中的特征集对应数量的类簇,即确定类簇的数量为K个后,随机初始化K个聚类中心。具体地,从各个已编码待推送数据对象中随机选取与各个类簇对应的目标已编码待推送数据对象。进一步地,将选取出的各个目标已编码待推送数据对象作为各个类簇的初始聚类中心,其中初始聚类中心是用来当前需要计算初始聚类中心所在的类簇中各个待推送数据对象与初始聚类中心之间相似度。例如,若根据各个已编码待推送数据对象的特征集确定类簇的数量为5个,则从各个已编码待推送数据对象中随机选取5个目标已编码待推送数据对象作为这5个类簇的初始聚类中心,将这5个初始聚类中心作为当前需要使用的聚类中心。其中聚类中心是用来计算聚类中心所处的类簇中的待推送数据对象与聚类中心的相似度的。
步骤506,将各个已编码待推送数据对象与各个当前聚类中心进行相似度计算得到对应的初始相似度。
步骤508,当初始相似度大于预设相似度时,将初始相似度对应的已编码待推送数据对象分配到当前聚类中心对应的类簇中,得到多个当前聚类簇。
具体地,如图6所示,在确定各个类簇的初始聚类中心,并将初始聚类中心作为当前聚类中心后,将各个已编码待推送数据对象与各个当前聚类中心进行相似度计算得到对应的初始相似度值。进一步地,当初始相似度值大于预设相似度时,说明初始相似度对应的已编码待推送数据对象与当前聚类中心所在的类簇更相似,则将初始相似度对应的已编码待推送数据对象分配到当前聚类中心对应的类簇中,得到多个当前聚类簇。即,将每个已编码待推送数据对象分配给离其所在距离最近的当前聚类中心的类簇中。
步骤510,根据各个当前聚类簇中的当前已编码待推送数据对象计算得到对应的各个更新聚类中心,将各个更新聚类中心作为当前聚类中心,返回将各个已编码待推送数据对象与各个当前聚类中心进行相似度计算得到对应的初始相似度的步骤进行重复聚类,直到满足收敛条件,得到多个聚类簇。
具体地,如图6所示,在将每个已编码待推送数据对象分配给离其所在距离最近的当前聚类中心的类簇后,计算新的聚类中心,直至满足中心收敛时输出聚类结果。具体地,在得到多个当前聚类簇后,需要根据各个当前聚类簇中的当前已编码待推送数据对象重新计算得到对应的聚类中心,将重新计算得到的聚类中心作为当前聚类中心,重新返回将各个待推送数据对象与各个当前聚类中心进行相似度计算得到对应的初始相似度的步骤进行重复聚类,直至达到聚类结果满足中心收敛时,即满足收敛条件,输出多个聚类簇。所谓中心收敛是当重新计算的更新聚类中心与上一个聚类中心的误差满足一定范围内时,可判定为满足收敛条件。其中,相似度可以采用如下计算方式计算得到:
数值型相似度计算如公式1:
其中,Sim(Si,Sj)表示待推送数据对象Si,Sj的相似度,即它们之间的距离,n为待推送数据对象的个数。
区间连续型相似度计算如公式2:
其中,Sim(i,Ij)表示某区间范围内待推送数据对象之间的相似度,其中rs表示区间的起点取值,re表示区间的上限值。
地理位置等距离型相似度计算如公式3:
其中,Sim(i,Lj)表示不同待推送数据对象在不同地理位置之间的相似度,(xi,yi)表示待推送数据对象的位置点。实际运算中,只有当两个待推送数据对象在不同的省份的时候,才会使用公式3计算。当两个待推送数据对象的在同一个省份时候,他们地理位置特征的相似度为1。
在一个实施例中,收敛条件为更新聚类中心与上一个聚类中心相同。本实施例中,收敛条件是当重新计算的更新聚类中心与上一个聚类中心满足一定范围内时,则可判定为满足收敛条件。这里的更新聚类中心是在未满足收敛条件时,一直在进行重新计算得到的聚类中心,而上一个聚类中心是相对于重新计算得到的更新聚类中心的前一个聚类中心。为了提高对待推送数据进行聚类得到的聚类结果的准确性,当重新计算的更新聚类中心与上一个聚类中心相同时,可判定为满足收敛条件。如:上一个聚类中心为{1,2},重新计算的更新聚类中心为{1,2}时,可判定为满足收敛条件。
在一个实施例中,如图7所示,从多个聚类簇中确定异常聚类簇,包括:
步骤702,获取各个聚类簇中的已编码待推送数据对象的数量。
步骤704,将已编码待推送数据对象的数量小于预设阈值的聚类簇确定为异常聚类簇。
具体地,在对各个已编码待推送数据对象进行聚类,得到多个聚类簇后,需先获取各个聚类簇中的已编码待推送数据对象的数量,再根据各个聚类簇中的已编码待推送数据对象的数量与预设阈值进行检测。当某一聚类簇中的已编码待推送数据对象的数量小于预设阈值的聚类簇确定为出现问题异常聚类簇时,说明聚类过程中未将很多相似的待推送数据对象聚类在一起,因此可判定已编码待推送数据对象的数量小于预设阈值的聚类簇为异常聚类簇。比如,得到多个聚类簇为:A为30个已编码待推送数据对象,B为100个已编码待推送数据对象,C为150个已编码待推送数据对象,D为200个已编码待推送数据对象,预设阈值为50个已编码待推送数据对象,因此可判定聚类簇A为出现问题的异常聚类簇。
在一个实施例中,如图8所示,根据异常聚类簇对应的已编码待推送数据对象对待推送数据进行异常分析,包括:
步骤802,获取异常聚类簇中的各个已编码待推送数据对象。
步骤804,根据各个已编码待推送数据对象中的特征集对应的类型,确定各个特征集对应的解码方式。
步骤806,根据特征集对应的解码方式对匹配的特征集中的各个特征进行解码,得到对应的解码结果。
步骤808,根据解码结果对异常聚类簇对应的已编码待推送数据对象对应的待推送数据进行异常分析。
其中,由于对各个待推送数据对应的待推送数据对象进行编码,最后得到用纯数字表示的各个待推送数据对象,因此需要对各个已编码待推送数据对象进行解码,将各个已编码的待推送数据对象对应的待推送数据还原实际意义。其中,解码是编码的逆过程。具体地,在从多个聚类簇确定出异常聚类簇后,获取异常聚类簇中的各个已编码待推送数据对象,由于各个已编码待推送数据对象由不同类型的特征集组成,且不同类型的特征有不同的解码方式。因此根据各个已编码待推送数据对象中的特征集对应的类型确定各个特征集对应的解码方式。进一步地,在确定不同类型的特征集对应的解码方式后,需要将根据不同类型的解码方式对匹配的特征集中的各个特征从一种形式或格式转换成另一种形式或者格式,得到对应的解码结果。再根据解码结果对异常聚类簇对应的已编码待推送数据对象对应的待推送数据进行异常检测分析。
比如,若特征集对应的类型为时间时,则时间类型特征集对应的解码为将特征集中的纯数字表示的时间特征的量纲单位还原,最后得到具有实际意义的时间特征集,如时延过长的时间特征集或者时延短的时间特征集。若特征集对应的类型为资源时,则资源特征集对应的解码为将特征集中的纯数字表示的资源特征的量纲单位还原,最后得到具有实际意义的资源特征集,如资源消耗大的资源特征集或者资源消耗小的资源特征集。若特征集对应的类型为地理位置时,则地理位置对应的解码为将特征集中用三维坐标的纯数字表示的地理位置特征的量纲单元还原,最后得到具有省份标记和经纬度的地理位置特征集。进一步地,例如异常簇中的某一已编码待推送数据对象的解码结果包含时延过长的时间特征集或者资源消耗大的资源特征集,则可对该已编码待推送数据对象对应的待推送数据进行异常检测分析。
在一个实施例中,如图9所示,对各个已编码待推送数据对象进行聚类之前,还包括:
步骤902,获取各个已编码待推送数据对象对应的各个特征集。
步骤904,根据预设权重分配规则获取各个特征集对应的权重,根据权重对各个特征集进行加权得到各个更新特征集。
步骤906,根据各个更新特征集得到更新后的待监控推送数据对象。
其中,在对各个已编码待推送数据对象进行聚类之前,需要对各个已编码待推送数据对象中的不同类型的特征集进行权重分配。在真实情况下,各个已编码待推送数据对象中的不同类型的特征集对各个已编码待推送数据对象的影响作用不同,因此需根据实际需求对各个已编码待推送数据对象中的各个特征集的权重进行分配。具体地,获取各个已编码待推送数据对象中的各个特征集,根据各个特征集对各个已编码待推送数据对象的影响作用获取预先与各个特征集对应的权重,根据权重对各个特征集进行加权进而得到对应的更新特征集。进一步地,根据各个更新特征集得到更新后的待监控推送数据对象。
比如,高峰期可能对待推送数据的抵达率要求高,按省份给用户推送待推送数据时,只对地理位置特征集的权重要求,其他的类型的特征集对应的权重甚至可设置为0,仅仅按地理位置特征集进行聚类就可以了。而整个特征集的相似度计算时应考虑每个特征所占权重,计算如公式4:
Sim(R)表示待推送数据对象中某个类型特征集,Simi为在第i个特征的相似度,γi为其对应的权重。
在一个实施例中,获取待推送数据集合之后,还包括:对待推送数据集合中的各个待推送数据进行数据清洗处理,得到清洗处理后的待推送数据集合。
本实施例中,在获取到待推送数据集合之后,需对待推送数据集合中的多个待推送数据进行数据清洗处理,数据清洗处理是对数据进行重新审查和校验的过程,目的在于删除重复的待推送数据、纠正存在错误的待推送数据,并提供待推送数据集合的一致性。进一步地,在对待推送数据集合中的各个待推送数据进行数据清洗处理后,得到清洗处理后的各个待推送数据组成的待推送数据集合。
在一个具体的实施例中,提供了一种推送数据异常监控方法。具体包括如下步骤:
步骤1002,终端通过相关的应用程序或者相关的服务自带的采集能力采集到多个待推送消息数据,将多个待推送消息数据组成的待推送数据集合发送至服务器。
步骤1004,服务器在获取到待推送数据集合后,对待推送数据集合中的各个待推送消息数据进行数据清洗处理,得到清洗处理后的待推送数据集合。
步骤1006,获取待推送数据集合中各个待推送数据对应的各个特征,如关于时间的特征、关于资源的特征或者关于地理位置的特征等等,将各个特征归入对应类型的特征集。如将关于时间的特征归入时间类型特征集中,将关于资源的特征归入资源类型特征集中,将关于地理位置的特征归入地理位置类型特征集中。
步骤1008,将不同类型的特征集组成各个待推送数据对应的待推送数据对象,即每个待推送数据对应一个待推送数据对象。
步骤1010,获取各个待推送数据对象中对应的各个特征集。
步骤1012,由于不同类型的特征集的编码方式不同,因此根据各个特征集对应的类型确定各个特征集对应的编码方式。
步骤1014,根据各个特征集对应的编码方式对匹配的特征集中的各个特征进行编码,得到对应的各个已编码待推送数据对象。
步骤1016,获取各个已编码待推送数据对象对应的各个特征集。
步骤1018,根据预设权重分配规则获取各个特征集对应的权重,根据权重对各个特征集进行加权得到各个更新特征集。
步骤1020,根据各个更新特征集得到更新后的待监控推送数据对象。
步骤1022,根据各个已编码待推送数据对象中的特征集确定对应数量的类簇。
步骤1024,从各个已编码待推送数据对象中随机选取与类簇相同数量的目标已编码待推送数据对象,将选取到的目标已编码待推送数据对象作为各个类簇的初始聚类中心,将各个初始聚类中心作为当前聚类中心。
步骤1026,将各个已编码待推送数据对象与各个当前聚类中心进行相似度计算得到对应的初始相似度。
步骤1028,当初始相似度大于预设相似度时,说明初始相似度对应的已编码待推送数据对象更接近当前聚类中心所在类簇,则将初始相似度对应的已编码待推送数据对象分配到当前聚类中心对应的类簇中,得到多个当前聚类簇。
步骤1030,根据各个当前聚类簇中的当前已编码待推送数据对象重新计算得到对应的各个更新聚类中心,将各个更新聚类中心作为当前聚类中心,返回将各个已编码待推送数据对象与各个当前聚类中心进行相似度计算得到对应的初始相似度的步骤进行重复聚类,直到满足更新聚类中心与上一个聚类中心相同时,得到多个聚类簇。
步骤1032,获取各个聚类簇中的已编码待推送数据对象的数量。
步骤1034,将已编码待推送数据对象的数量小于预设阈值的聚类簇确定为异常聚类簇。
步骤1036,获取异常聚类簇中的各个已编码待推送数据对象。
步骤1038,根据各个已编码待推送数据对象中的特征集对应的类型,确定各个特征集对应的解码方式。
步骤1040,根据特征集对应的解码方式对匹配的特征集中的各个特征进行解码,得到对应的解码结果。
步骤1042,根据解码结果对异常聚类簇对应的已编码待推送数据对象对应的待推送数据进行异常分析。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
需要说明的是,上述各个实施例中的推送数据异常监控方法可以用于任何对海量的待推送消息进行聚类的场景中。比如,可以应用于对游戏待推送消息进行聚类的场景中,也可以应用于对社交应用待推送消息进行聚类的场景中,还可以应用于对新闻待推送消息进行聚类的场景中等等。在不同的应用场景下,待推送消息可来源于不同的应用,如游戏待推送消息进行聚类的场景中,待推送消息来源于游戏数据;社交应用待推送消息进行聚类的场景中,待推送消息来源于社交应用使用过程中的用户数据;新闻待推送消息进行聚类的场景中,待推送消息来源于论坛、门户网站等等。在不同的应用场景下,上述推送数据异常监控方法都能达到较好的聚类结果,进而找到异常的聚类结果。
在一个游戏待推送消息进行聚类的场景中,服务器将游戏中海量相关的游戏待推送消息进行聚类,从而找到出现异常游戏待推送消息。比如,游戏待推送消息大约有上亿条关于游戏的待推送消息,将上亿条关于游戏的待推送消息组成待推送消息集合,将各个待推送消息中的各个指标抽象成对应的特征,根据各个特征之间的可比性组成不同类型的特征集,将不同类型的特征集组成游戏待推送数据对象,即一条游戏待推送数据对象对应一条游戏待推送消息。然后对各个游戏待推送消息对应的游戏待推送数据对象进行编码,再对各个已编码游戏待推送数据对象进行聚类,得到多个聚类簇,从多个聚类簇中确定出现异常的聚类簇,如在游戏过程中内存消耗过大的游戏待推送消息可聚类成一个聚类簇,或者在游戏过程中抵达率良好的游戏待推送消息聚类成一个聚类簇。通过将上述推送数据异常监控方法应用到游戏待推送消息聚类的场景中,能提高对游戏待推送消息的处理效率以及定位找出出现问题的游戏待推送消息。
在一个社交应用待推送消息聚类的场景中,服务器对关于社交应用使用过程中的用户数据的待推送消息进行聚类,从而找到出现异常的社交应用待推送消息。获取不同内容的待推送消息数据,将不同内容的待推送消息数据组成待推送消息数据集合,根据各个待推送消息数据中的特征组成不同类型的特征集,将不同类型的特征集组成各个待推送消息数据对应的待推送数据对象。然后在对各个待推送消息数据对应的待推送数据对象进行编码,进一步地对各个已编码待推送数据对象进行聚类,得到多个聚类簇,从多个聚类簇中确定出现问题的聚类簇,从而对出现问题的聚类簇进行异常分析,可得到出现问题的待推送消息数据,如有些内容内存消耗过大的待推送消息数据可聚类成一个聚类簇,或按着待推送消息推送的同一省份的待推送消息数据都可聚类成一个聚类簇。通过将上述推送数据异常监控方法应用到社交应用待推送消息进行聚类的场景中,能提高对社交应用待推送消息的处理效率以及定位找出出现问题的社交应用待推送消息。
如图10所示,在一个实施例中,提供了一种推送数据异常监控装置1100,该装置包括:
待推送数据集合获取模块1102,用于获取待推送数据集合,待推送数据集合包括多个待推送数据。
待推送数据对象生成模块1104,用于生成与各个待推送数据对应的待推送数据对象,待推送数据对象包括不同类型的特征集。
待推送数据对象编码模块1106,用于对各个待推送数据对应的待推送数据对象进行编码,得到对应的各个已编码待推送数据对象。
待推送数据对象聚类模块1108,用于对各个已编码待推送数据对象进行聚类,得到多个聚类簇。
异常聚类簇检测模块1110,用于从多个聚类簇中确定异常聚类簇。
待推送数据对象分析模块1112,用于根据异常聚类簇对应的已编码待推送数据对象对待推送数据进行异常分析。
如图11所示,在一个实施例中,待推送数据对象生成模块1104包括:
特征获取单元1104a,用于获取待推送数据对应的各个特征,将各个特征归入对应类型的特征集,类型包括时间类型、资源类型、地理位置类型中的至少一种。
待推送数据对象生成单元1104b,用于不同类型的特征集组成待推送数据对应的待推送数据对象。
如图12所示,在一个实施例中,待推送数据对象编码模块1106包括:
特征集获取单元1106a,用于获取待推送数据对象对应的各个特征集。
编码方式生成单元1106b,用于根据特征集对应的类型,确定各个特征集对应的编码方式。
特征编码单元1106c,用于根据特征集对应的编码方式对匹配的特征集中的各个特征进行编码。
如图13所示,在一个实施例中,待推送数据对象分析模块1112包括:
已编码待推送数据对象获取单元1112a,用于获取异常聚类簇中的各个已编码待推送数据对象。
解码方式获取单元1112b,用于根据各个已编码待推送数据对象中的特征集对应的类型,确定各个特征集对应的解码方式。
特征集解码单元1112c,用于根据特征集对应的解码方式对匹配的特征集中的各个特征进行解码,得到对应的解码结果。
待推送数据分析单元1112d,用于根据解码结果对异常聚类簇对应的已编码待推送数据对象对应的待推送数据进行异常分析。
如图14所示,在一个实施例中,待推送数据对象聚类模块1108包括:
类簇获取单元1108a,用于根据各个已编码待推送数据对象中的特征集确定对应数量的类簇。
当前聚类中心获取单元1108b,用于从各个已编码待推送数据对象中随机选取与各个类簇对应的目标已编码待推送数据对象,将目标已编码待推送数据对象作为各个类簇的初始聚类中心,将初始聚类中心作为当前聚类中心。
相似度计算单元1108c,用于将各个已编码待推送数据对象与各个当前聚类中心进行相似度计算得到对应的初始相似度。
当前聚类簇获取单元1108d,用于当初始相似度大于预设相似度时,将初始相似度对应的已编码待推送数据对象分配到当前聚类中心对应的类簇中,得到多个当前聚类簇。
当前聚类中心获取单元1108b还用于根据各个当前聚类簇中的当前已编码待推送数据对象计算得到对应的各个更新聚类中心,将各个更新聚类中心作为当前聚类中心,相似度计算单元1108c还用于将各个已编码待推送数据对象与各个当前聚类中心进行相似度计算得到对应的初始相似度的步骤进行重复聚类,直到满足收敛条件,得到多个聚类簇。
在一个实施例中,收敛条件为更新聚类中心与上一个聚类中心相同。
如图15所示,在一个实施例中,异常聚类簇检测模块1110包括:
获取单元1110a,用于获取各个聚类簇中的已编码待推送数据对象的数量。
异常聚类簇检测单元1110b,用于将已编码待推送数据对象的数量小于预设阈值的聚类簇确定为异常聚类簇。
如图16所示,在一个实施例中,该推送数据异常监控装置1100还包括:
特征集获取模块1602,用于获取各个已编码待推送数据对象对应的各个特征集。
特征集加权模块1604,用于根据预设权重分配规则获取各个特征集对应的权重,根据权重对各个特征集进行加权得到各个更新特征集。
待监控推送数据对象更新模块1606,用于根据各个更新特征集得到更新后的待监控推送数据对象。
在一个实施例中,该推送数据异常监控装置1100还用于对待推送数据集合中的各个待推送数据进行数据清洗处理,得到清洗处理后的待推送数据集合。
图17示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图17所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和输入装置。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现推送数据异常监控方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行推送数据异常监控方法。计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图17中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的推送数据异常监控装置可以实现为一种计算机程序的形式,计算机程序可在如图17所示的计算机设备上运行。计算机设备的存储器中可存储组成该推送数据异常监控装置的各个程序模块,比如,图10所示的待推送数据集合获取模块、待推送数据对象生成模块、待推送数据对象编码模块、待推送数据对象聚类模块、异常聚类簇检测模块和待推送数据对象分析模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的推送数据异常监控方法中的步骤。
例如,图17所示的计算机设备可以通过如图10所示的推送数据异常监控装置中的待推送数据集合获取模块执行获取待推送数据集合,该待推送数据集合包括多个待推送数据。计算机设备可通过待推送数据对象生成模块执行生成与各个待推送数据对应的待推送数据对象,该待推送数据对象包括不同类型的特征集。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:获取待推送数据集合,待推送数据集合包括多个待推送数据;生成与各个待推送数据对应的待推送数据对象,待推送数据对象包括不同类型的特征集;对各个待推送数据对应的待推送数据对象进行编码,得到对应的各个已编码待推送数据对象;对各个已编码待推送数据对象进行聚类,得到多个聚类簇;从多个聚类簇中确定异常聚类簇;根据异常聚类簇对应的已编码待推送数据对象对待推送数据进行异常分析。
在一个实施例中,生成与各个待推送数据对应的待推送数据对象,包括:获取待推送数据对应的各个特征,将各个特征归入对应类型的特征集,该类型包括时间类型、资源类型、地理位置类型中的至少一种;不同类型的特征集组成待推送数据对应的待推送数据对象。
在一个实施例中,对各个待推送数据对应的待推送数据对象进行编码,包括:获取待推送数据对象对应的各个特征集;根据特征集对应的类型,确定各个特征集对应的编码方式;根据特征集对应的编码方式对匹配的特征集中的各个特征进行编码。
在一个实施例中,对各个已编码待推送数据对象进行聚类,得到多个聚类簇,包括:根据各个已编码待推送数据对象中的特征集确定对应数量的类簇;从各个已编码待推送数据对象中随机选取与各个类簇对应的目标已编码待推送数据对象,将目标已编码待推送数据对象作为各个类簇的初始聚类中心,将初始聚类中心作为当前聚类中心;将各个已编码待推送数据对象与各个当前聚类中心进行相似度计算得到对应的初始相似度;当初始相似度大于预设相似度时,将初始相似度对应的已编码待推送数据对象分配到当前聚类中心对应的类簇中,得到多个当前聚类簇;根据各个当前聚类簇中的当前已编码待推送数据对象计算得到对应的各个更新聚类中心,将各个更新聚类中心作为当前聚类中心,返回将各个已编码待推送数据对象与各个当前聚类中心进行相似度计算得到对应的初始相似度的步骤进行重复聚类,直到满足收敛条件,得到多个聚类簇。
在一个实施例中,收敛条件为更新聚类中心与上一个聚类中心相同。
在一个实施例中,从多个聚类簇中确定异常聚类簇,包括:获取各个聚类簇中的已编码待推送数据对象的数量;将已编码待推送数据对象的数量小于预设阈值的聚类簇确定为异常聚类簇。
在一个实施例中,根据异常聚类簇对应的已编码待推送数据对象对待推送数据进行异常分析,包括:获取异常聚类簇中的各个已编码待推送数据对象;根据各个已编码待推送数据对象中的特征集对应的类型,确定各个特征集对应的解码方式;根据特征集对应的解码方式对匹配的特征集中的各个特征进行解码,得到对应的解码结果;根据解码结果对异常聚类簇对应的已编码待推送数据对象对应的待推送数据进行异常分析。
在一个实施例中,所述计算机程序还使得所述处理器执行如下步骤:获取各个已编码待推送数据对象对应的各个特征集;根据预设权重分配规则获取各个特征集对应的权重,根据权重对各个特征集进行加权得到各个更新特征集;根据各个更新特征集得到更新后的待监控推送数据对象。
在一个实施例中,所述计算机程序还使得所述处理器执行如下步骤:对待推送数据集合中的各个待推送数据进行数据清洗处理,得到清洗处理后的待推送数据集合。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:获取待推送数据集合,待推送数据集合包括多个待推送数据;生成与各个待推送数据对应的待推送数据对象,待推送数据对象包括不同类型的特征集;对各个待推送数据对应的待推送数据对象进行编码,得到对应的各个已编码待推送数据对象;对各个已编码待推送数据对象进行聚类,得到多个聚类簇;从多个聚类簇中确定异常聚类簇;根据异常聚类簇对应的已编码待推送数据对象对待推送数据进行异常分析。
在一个实施例中,生成与各个待推送数据对应的待推送数据对象,包括:获取待推送数据对应的各个特征,将各个特征归入对应类型的特征集,类型包括时间类型、资源类型、地理位置类型中的至少一种;不同类型的特征集组成待推送数据对应的待推送数据对象。
在一个实施例中,对各个待推送数据对应的待推送数据对象进行编码,包括:获取待推送数据对象对应的各个特征集;根据特征集对应的类型,确定各个特征集对应的编码方式;根据特征集对应的编码方式对匹配的特征集中的各个特征进行编码。
在一个实施例中,对各个已编码待推送数据对象进行聚类,得到多个聚类簇,包括:根据各个已编码待推送数据对象中的特征集确定对应数量的类簇;从各个已编码待推送数据对象中随机选取与各个类簇对应的目标已编码待推送数据对象,将目标已编码待推送数据对象作为各个类簇的初始聚类中心,将初始聚类中心作为当前聚类中心;将各个已编码待推送数据对象与各个当前聚类中心进行相似度计算得到对应的初始相似度;当初始相似度大于预设相似度时,将初始相似度对应的已编码待推送数据对象分配到当前聚类中心对应的类簇中,得到多个当前聚类簇;根据各个当前聚类簇中的当前已编码待推送数据对象计算得到对应的各个更新聚类中心,将各个更新聚类中心作为当前聚类中心,返回将各个已编码待推送数据对象与各个当前聚类中心进行相似度计算得到对应的初始相似度的步骤进行重复聚类,直到满足收敛条件,得到多个聚类簇。
在一个实施例中,收敛条件为更新聚类中心与上一个聚类中心相同。
在一个实施例中,从多个聚类簇中确定异常聚类簇,包括:获取各个聚类簇中的已编码待推送数据对象的数量;将已编码待推送数据对象的数量小于预设阈值的聚类簇确定为异常聚类簇。
在一个实施例中,根据异常聚类簇对应的已编码待推送数据对象对待推送数据进行异常分析,包括:获取异常聚类簇中的各个已编码待推送数据对象;根据各个已编码待推送数据对象中的特征集对应的类型,确定各个特征集对应的解码方式;根据特征集对应的解码方式对匹配的特征集中的各个特征进行解码,得到对应的解码结果;根据解码结果对异常聚类簇对应的已编码待推送数据对象对应的待推送数据进行异常分析。
在一个实施例中,所述计算机程序还使得所述处理器执行如下步骤:获取各个已编码待推送数据对象对应的各个特征集;根据预设权重分配规则获取各个特征集对应的权重,根据权重对各个特征集进行加权得到各个更新特征集;根据各个更新特征集得到更新后的待监控推送数据对象。
在一个实施例中,所述计算机程序还使得所述处理器执行如下步骤:对待推送数据集合中的各个待推送数据进行数据清洗处理,得到清洗处理后的待推送数据集合。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种推送数据异常监控方法,包括:
获取待推送数据集合,所述待推送数据集合包括多个待推送数据;
生成与各个待推送数据对应的待推送数据对象,所述待推送数据对象包括不同类型的特征集;
对所述各个待推送数据对应的待推送数据对象进行编码,得到对应的各个已编码待推送数据对象;
对所述各个已编码待推送数据对象进行聚类,得到多个聚类簇;
从所述多个聚类簇中确定异常聚类簇;
根据所述异常聚类簇对应的已编码待推送数据对象对所述待推送数据进行异常分析。
2.根据权利要求1所述的方法,其特征在于,所述生成与各个待推送数据对应的待推送数据对象,包括:
获取所述待推送数据对应的各个特征,将所述各个特征归入对应类型的特征集,所述类型包括时间类型、资源类型、地理位置类型中的至少一种;
不同类型的特征集组成所述待推送数据对应的待推送数据对象。
3.根据权利要求1所述的方法,其特征在于,所述对所述各个待推送数据对应的待推送数据对象进行编码,包括:
获取所述待推送数据对象对应的各个特征集;
根据所述特征集对应的类型,确定各个所述特征集对应的编码方式;
根据所述特征集对应的编码方式对匹配的特征集中的各个特征进行编码。
4.根据权利要求1所述的方法,其特征在于,所述对所述各个已编码待推送数据对象进行聚类,得到多个聚类簇,包括:
根据各个所述已编码待推送数据对象中的所述特征集确定对应数量的类簇;
从各个所述已编码待推送数据对象中随机选取与所述各个类簇对应的目标已编码待推送数据对象,将所述目标已编码待推送数据对象作为各个所述类簇的初始聚类中心,将所述初始聚类中心作为当前聚类中心;
将各个所述已编码待推送数据对象与各个所述当前聚类中心进行相似度计算得到对应的初始相似度;
当所述初始相似度大于预设相似度时,将所述初始相似度对应的所述已编码待推送数据对象分配到所述当前聚类中心对应的所述类簇中,得到多个当前聚类簇;
根据各个所述当前聚类簇中的当前已编码待推送数据对象计算得到对应的各个更新聚类中心,将所述各个更新聚类中心作为当前聚类中心,返回所述将各个所述已编码待推送数据对象与各个所述当前聚类中心进行相似度计算得到对应的初始相似度的步骤进行重复聚类,直到满足收敛条件,得到所述多个聚类簇。
5.根据权利要求4所述的方法,其特征在于,所述收敛条件为更新聚类中心与上一个聚类中心相同。
6.根据权利要求1所述的方法,其特征在于,所述从所述多个聚类簇中确定异常聚类簇,包括:
获取各个聚类簇中的已编码待推送数据对象的数量;
将已编码待推送数据对象的数量小于预设阈值的聚类簇确定为异常聚类簇。
7.根据权利要求1所述的方法,其特征在于,所述根据所述异常聚类簇对应的已编码待推送数据对象对所述待推送数据进行异常分析,包括:
获取所述异常聚类簇中的各个所述已编码待推送数据对象;
根据各个所述已编码待推送数据对象中的所述特征集对应的类型,确定各个所述特征集对应的解码方式;
根据所述特征集对应的解码方式对匹配的特征集中的各个特征进行解码,得到对应的解码结果;
根据所述解码结果对所述异常聚类簇对应的已编码待推送数据对象对应的所述待推送数据进行异常分析。
8.根据权利要求1所述的方法,其特征在于,所述对所述各个已编码待推送数据对象进行聚类之前,还包括:
获取各个所述已编码待推送数据对象对应的各个所述特征集;
根据预设权重分配规则获取各个所述特征集对应的权重,根据所述权重对各个所述特征集进行加权得到各个更新特征集;
根据所述各个更新特征集得到更新后的所述待监控推送数据对象。
9.根据权利要求1所述的方法,其特征在于,所述获取待推送数据集合之后,还包括:
对待推送数据集合中的各个待推送数据进行数据清洗处理,得到清洗处理后的所述待推送数据集合。
10.一种推送数据异常监控装置,其特征在于,所述装置包括:
待推送数据集合获取模块,用于获取待推送数据集合,所述待推送数据集合包括多个待推送数据;
待推送数据对象生成模块,用于生成与各个待推送数据对应的待推送数据对象,所述待推送数据对象包括不同类型的特征集;
待推送数据对象编码模块,用于对所述各个待推送数据对应的待推送数据对象进行编码,得到对应的各个已编码待推送数据对象;
待推送数据对象聚类模块,用于对所述各个已编码待推送数据对象进行聚类,得到多个聚类簇;
异常聚类簇检测模块,用于从所述多个聚类簇中确定异常聚类簇;
待推送数据对象分析模块,用于根据所述异常聚类簇对应的已编码待推送数据对象对所述待推送数据进行异常分析。
11.根据权利要求10所述的装置,其特征在于,所述待推送数据对象生成模块包括:
特征获取单元,用于获取所述待推送数据对应的各个特征,将所述各个特征归入对应类型的特征集,所述类型包括时间类型、资源类型、地理位置类型中的至少一种;
待推送数据对象生成单元,用于不同类型的特征集组成所述待推送数据对应的待推送数据对象。
12.根据权利要求10所述的装置,其特征在于,所述待推送数据对象编码模块包括:
特征集获取单元,用于获取所述待推送数据对象对应的各个特征集;
编码方式生成单元,用于根据所述特征集对应的类型,确定各个所述特征集对应的编码方式;
特征编码单元,用于根据所述特征集对应的编码方式对匹配的特征集中的各个特征进行编码。
13.根据权利要求10所述的装置,其特征在于,所述待推送数据对象分析模块包括:
已编码待推送数据对象获取单元,用于获取所述异常聚类簇中的各个所述已编码待推送数据对象;
解码方式获取单元,用于根据各个所述已编码待推送数据对象中的所述特征集对应的类型,确定各个所述特征集对应的解码方式;
特征集解码单元,用于根据所述特征集对应的解码方式对匹配的特征集中的各个特征进行解码,得到对应的解码结果;
待推送数据分析单元,用于根据所述解码结果对所述异常聚类簇对应的已编码待推送数据对象对应的所述待推送数据进行异常分析。
14.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810145565.7A CN108322363B (zh) | 2018-02-12 | 2018-02-12 | 推送数据异常监控方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810145565.7A CN108322363B (zh) | 2018-02-12 | 2018-02-12 | 推送数据异常监控方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108322363A true CN108322363A (zh) | 2018-07-24 |
CN108322363B CN108322363B (zh) | 2020-11-13 |
Family
ID=62904042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810145565.7A Active CN108322363B (zh) | 2018-02-12 | 2018-02-12 | 推送数据异常监控方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108322363B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109949070A (zh) * | 2019-01-28 | 2019-06-28 | 平安科技(深圳)有限公司 | 用户黏度评估方法、装置、计算机设备及存储介质 |
CN110378200A (zh) * | 2019-06-03 | 2019-10-25 | 特斯联(北京)科技有限公司 | 一种基于行为特征聚类的智能安防提示设备与方法 |
CN110457175A (zh) * | 2019-07-08 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 业务数据处理方法、装置、电子设备及介质 |
WO2020155756A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 基于聚类和sse的异常点比例优化方法及装置 |
WO2020155755A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 基于谱聚类的异常点比例优化方法、装置及计算机设备 |
CN111538897A (zh) * | 2020-03-16 | 2020-08-14 | 北京三快在线科技有限公司 | 推荐的异常检测方法、装置、电子设备及可读存储介质 |
CN114448968A (zh) * | 2021-12-15 | 2022-05-06 | 广州市玄武无线科技股份有限公司 | 推送量校验方法和装置、电子设备、存储介质 |
CN115327675A (zh) * | 2022-10-13 | 2022-11-11 | 安徽省大气探测技术保障中心 | 气象装备运行状态监控方法、系统、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021140A (zh) * | 2014-05-08 | 2014-09-03 | 北京奇艺世纪科技有限公司 | 一种网络视频的处理方法及装置 |
CN104994366A (zh) * | 2015-06-02 | 2015-10-21 | 陕西科技大学 | 一种基于特征加权的fcm视频关键帧提取方法 |
CN105873113A (zh) * | 2015-01-21 | 2016-08-17 | 中国移动通信集团福建有限公司 | 无线质量问题定位方法及系统 |
CN106227792A (zh) * | 2016-07-20 | 2016-12-14 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN106254153A (zh) * | 2016-09-19 | 2016-12-21 | 腾讯科技(深圳)有限公司 | 一种网络异常监控方法和装置 |
CN106469318A (zh) * | 2016-09-30 | 2017-03-01 | 华东交通大学 | 一种基于L2稀疏限制的特征加权k‑means聚类方法 |
CN106649517A (zh) * | 2016-10-17 | 2017-05-10 | 北京京东尚科信息技术有限公司 | 数据挖掘方法、装置及系统 |
-
2018
- 2018-02-12 CN CN201810145565.7A patent/CN108322363B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021140A (zh) * | 2014-05-08 | 2014-09-03 | 北京奇艺世纪科技有限公司 | 一种网络视频的处理方法及装置 |
CN105873113A (zh) * | 2015-01-21 | 2016-08-17 | 中国移动通信集团福建有限公司 | 无线质量问题定位方法及系统 |
CN104994366A (zh) * | 2015-06-02 | 2015-10-21 | 陕西科技大学 | 一种基于特征加权的fcm视频关键帧提取方法 |
CN106227792A (zh) * | 2016-07-20 | 2016-12-14 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN106254153A (zh) * | 2016-09-19 | 2016-12-21 | 腾讯科技(深圳)有限公司 | 一种网络异常监控方法和装置 |
CN106469318A (zh) * | 2016-09-30 | 2017-03-01 | 华东交通大学 | 一种基于L2稀疏限制的特征加权k‑means聚类方法 |
CN106649517A (zh) * | 2016-10-17 | 2017-05-10 | 北京京东尚科信息技术有限公司 | 数据挖掘方法、装置及系统 |
Non-Patent Citations (1)
Title |
---|
JOSHUA ZHEXUE HUANG,ET AL.,: ""Automated variable weighting in k-means type Clustering"", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020155756A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 基于聚类和sse的异常点比例优化方法及装置 |
WO2020155755A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 基于谱聚类的异常点比例优化方法、装置及计算机设备 |
CN109949070A (zh) * | 2019-01-28 | 2019-06-28 | 平安科技(深圳)有限公司 | 用户黏度评估方法、装置、计算机设备及存储介质 |
CN109949070B (zh) * | 2019-01-28 | 2024-03-26 | 平安科技(深圳)有限公司 | 用户黏度评估方法、装置、计算机设备及存储介质 |
CN110378200A (zh) * | 2019-06-03 | 2019-10-25 | 特斯联(北京)科技有限公司 | 一种基于行为特征聚类的智能安防提示设备与方法 |
CN110457175B (zh) * | 2019-07-08 | 2023-04-18 | 创新先进技术有限公司 | 业务数据处理方法、装置、电子设备及介质 |
CN110457175A (zh) * | 2019-07-08 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 业务数据处理方法、装置、电子设备及介质 |
CN111538897A (zh) * | 2020-03-16 | 2020-08-14 | 北京三快在线科技有限公司 | 推荐的异常检测方法、装置、电子设备及可读存储介质 |
CN111538897B (zh) * | 2020-03-16 | 2023-06-02 | 北京三快在线科技有限公司 | 推荐的异常检测方法、装置、电子设备及可读存储介质 |
CN114448968A (zh) * | 2021-12-15 | 2022-05-06 | 广州市玄武无线科技股份有限公司 | 推送量校验方法和装置、电子设备、存储介质 |
CN114448968B (zh) * | 2021-12-15 | 2023-01-10 | 广州市玄武无线科技股份有限公司 | 推送量校验方法和装置、电子设备、存储介质 |
CN115327675B (zh) * | 2022-10-13 | 2023-01-06 | 安徽省大气探测技术保障中心 | 气象装备运行状态监控方法、系统、设备及存储介质 |
CN115327675A (zh) * | 2022-10-13 | 2022-11-11 | 安徽省大气探测技术保障中心 | 气象装备运行状态监控方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108322363B (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108322363A (zh) | 推送数据异常监控方法、装置、计算机设备和存储介质 | |
CN112148987B (zh) | 基于目标对象活跃度的消息推送方法及相关设备 | |
CN106506705B (zh) | 基于位置服务的人群分类方法及装置 | |
CN110245132B (zh) | 数据异常检测方法、装置、计算机可读存储介质和计算机设备 | |
CN108304935B (zh) | 机器学习模型训练方法、装置和计算机设备 | |
CN112508118B (zh) | 针对数据偏移的目标对象行为预测方法及其相关设备 | |
CN112035549B (zh) | 数据挖掘方法、装置、计算机设备及存储介质 | |
CN111148018B (zh) | 基于通信数据识别定位区域价值的方法和装置 | |
Zhong et al. | Multiple-aspect attentional graph neural networks for online social network user localization | |
CN106535129A (zh) | 一种统计移动设备数量的方法、装置和计算设备 | |
CN115795000A (zh) | 基于联合相似度算法对比的围标识别方法和装置 | |
CN113032525A (zh) | 虚假新闻检测方法、装置、电子设备以及存储介质 | |
CN115130711A (zh) | 一种数据处理方法、装置、计算机及可读存储介质 | |
EP4016325A1 (en) | A computer-implemented method for detecting anomalous behaviors of electronic devices and computer programs thereof | |
CN110782128B (zh) | 一种用户职业标签生成方法、装置和电子设备 | |
CN111182465A (zh) | 终端归属的确定方法及装置 | |
CN116094907A (zh) | 投诉信息的处理方法、装置及存储介质 | |
CN115756821A (zh) | 在线任务处理模型训练、任务处理方法及装置 | |
CN113627514A (zh) | 知识图谱的数据处理方法、装置、电子设备和存储介质 | |
CN111078984B (zh) | 网络模型发布方法、装置、计算机设备和存储介质 | |
Xuegang et al. | Missing Data Reconstruction Based on Spectral k‐Support Norm Minimization for NB‐IoT Data | |
CN112818235A (zh) | 基于关联特征的违规用户识别方法、装置和计算机设备 | |
CN111598390A (zh) | 服务器高可用性评估方法、装置、设备和可读存储介质 | |
Kowalczyk et al. | The complexity of social media response: Statistical evidence for one-dimensional engagement signal in twitter | |
CN110648208B (zh) | 群组识别方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |