CN110162419A - 一种消息消费状态检测方法及装置 - Google Patents

一种消息消费状态检测方法及装置 Download PDF

Info

Publication number
CN110162419A
CN110162419A CN201910469865.5A CN201910469865A CN110162419A CN 110162419 A CN110162419 A CN 110162419A CN 201910469865 A CN201910469865 A CN 201910469865A CN 110162419 A CN110162419 A CN 110162419A
Authority
CN
China
Prior art keywords
cluster
message
consumption data
input sample
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910469865.5A
Other languages
English (en)
Inventor
李恒
高恭顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910469865.5A priority Critical patent/CN110162419A/zh
Publication of CN110162419A publication Critical patent/CN110162419A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本申请提出一种消息传递异常检测方法及装置,该方法包括:获取输入样本,所述输入样本包括至少一个消息接收者的消息消费数据;通过预设的数据分析模型,确定所述输入样本的数据类型;其中,所述数据类型包括异常消费数据类型和正常消费数据类型;根据所述输入样本的数据类型,确定所述至少一个消息接收者的消息消费状态。上述技术方案实现了自动检测消息接收者的消息消费状态,将该技术方案应用于消息传递监测,可以省去对人力的依赖,降低人力消耗。

Description

一种消息消费状态检测方法及装置
技术领域
本申请涉及网络数据处理技术领域,尤其涉及一种消息消费状态检测方法及装置。
背景技术
ActiveMQ,作为一款消息中间件,为企业提供了高可用、性能出色、可扩展、稳定的消息传递服务,目前得到了广泛的应用。在ActiveMQ使用过程中,经常会出现消息队列堵塞、消息积压的情况,该情况一般是由两方面原因造成的,首先是消息发送者在短时间内发出大量的消息,消息接收者处理能力不够,导致消息队列堵塞;其次是消息接收者慢消费造成的。
为了保证ActiveMQ高效地进行消息传递,需要人工值守,以便能够及时发现异常的消息接收者,从而有针对性的解决消息队列堵塞情况,但这势必会带来繁重的人力消耗。
发明内容
基于上述现有技术的缺陷和不足,本申请提出一种消息消费状态检测方法及装置,可以实现自动化地检测消息接收者的消息消费状态,从而可以降低消息传递监测对人工的依赖。
为了达到上述目的,本申请具体提出如下技术方案:
一种消息消费状态检测方法,包括:
获取输入样本,所述输入样本包括至少一个消息接收者的消息消费数据;
通过预设的数据分析模型,确定所述输入样本的数据类型;其中,所述数据类型包括异常消费数据类型和正常消费数据类型;
根据所述输入样本的数据类型,确定所述至少一个消息接收者的消息消费状态。
可选的,所述通过预设的数据分析模型,确定所述输入样本的数据类型,包括:
通过预设的数据分析模型,计算所述输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离;
根据所述输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离,确定所述输入样本的数据类型。
可选的,所述计算所述输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离,包括:
计算所述输入样本与预设的,与所述输入样本相同时间段的异常消费数据簇和/或正常消费数据簇的簇心的距离。
可选的,所述根据所述输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离,确定所述输入样本的数据类型,包括:
当所述输入样本与异常消费数据簇的簇心的距离小于设定的第一距离阈值时,确定所述输入样本的数据类型为异常消费数据类型;
或者,
当所述输入样本与正常消费数据簇的簇心的距离大于设定的第二距离阈值时,确定所述输入样本的数据类型为异常消费数据类型。
一种消息消费状态检测装置,包括:
数据获取单元,用于获取输入样本,所述输入样本包括至少一个消息接收者的消息消费数据;
计算单元,用于通过预设的数据分析模型,确定所述输入样本的数据类型;其中,所述数据类型包括异常消费数据类型和正常消费数据类型;
判断处理单元,用于根据所述输入样本的数据类型,确定所述至少一个消息接收者的消息消费状态。
可选的,所述计算单元,包括:
距离计算单元,用于通过预设的数据分析模型,计算所述输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离;
数据类型确定单元,用于根据所述输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离,确定所述输入样本的数据类型。
可选的,所述距离计算单元计算所述输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离时,具体用于:
计算所述输入样本与预设的,与所述输入样本相同时间段的异常消费数据簇和/或正常消费数据簇的簇心的距离。
可选的,所述数据类型确定单元根据所述输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离,确定所述输入样本的数据类型时,具体用于:
当所述输入样本与异常消费数据簇的簇心的距离小于设定的第一距离阈值时,确定所述输入样本的数据类型为异常消费数据类型;
或者,
当所述输入样本与正常消费数据簇的簇心的距离大于设定的第二距离阈值时,确定所述输入样本的数据类型为异常消费数据类型。
本申请提出的消息消费状态检测方法,能够通过确定消息接收者的消息消费数据的数据类型,进而确定该消息接收者的消息消费状态。上述技术方案实现了自动检测消息接收者的消息消费状态,将该技术方案应用于消息传递监测,可以省去对人力的依赖,降低人力消耗。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请实施例提供的一种消息传递系统的结构示意图;
图2是本申请实施例提供的一种消息消费状态检测方法的流程示意图;
图3是本申请实施例提供的消息消费数据类簇划分处理流程示意图;
图4是本申请实施例提供的一种消息消费状态检测装置的结构示意图。
具体实施方式
本申请实施例技术方案适用于图1所示的消息传递系统,在图1所示的消息传递系统中,消息由消息发送者发送到消息代理服务器,消息代理服务器维护一个消息队列,并将接收的消息加入该消息队列,以及将该消息队列中的消息发送至消息接收者。
在将消息从消息队列发送到消息接收者时,消息代理服务器需要考量消息接收者的消息消费情况,只有当消息接收者确认接收到消息,即确认已消费消息后,才可以向消息接收者继续发送后续消息。因此,消息代理服务器向消息接收者传递消息的效率受消息接收者的消息消费状态影响。消息代理服务器应当能够对消息接收者的消息消费状态进行确认,以便及时检测到消息传递异常,尤其是检测到由于消息接收者引起的消息传递异常,进而可以及时应对,避免造成消息队列堵塞。
基于上述需求,本申请实施例提出一种消息消费状态检测方法,该方法可应用于消费状态检测模块,该消费状态检测模块作为执行本申请实施例提出的消息消费状态检测方法的硬件主体,其可以直接装载于消消息代理服务器,以使消息代理服务器可以直接通过消费状态检测模块确定消息接收者的消息消费状态,或者消费状态检测模块也可以单独设置并且与消息代理服务器建立连接,以便将消息接收者的消息消费状态检测结果发送给消息代理服务器。通过执行本申请实施例提出的消息消费状态检测方法,能够对消息接收者的消息消费状态进行检测,进而可以用于异常消息接收者的检测发现。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图2所示,本申请实施例提出的消息消费状态检测方法,包括:
S201、消息接收者定时向ZooKeeper中的注册目录更新消息消费数据;
具体的,本申请实施例设定,当消息接收者Consumer启动时,在ZooKeeper中进行注册,具体是注册与Consumer对应的目录,如/service/consumer。
然后,在消息接收者Consumer工作过程中,定时向ZooKeeper中的注册目录/service/consumer中更新消息消费数据,该消息消费数据是对消息接收者对消息的消费情况进行统计、记录的数据,例如可以包括消息吞吐量、未确认消息的messageID等。
S202、消费状态检测模块获取输入样本;
其中,上述输入样本,包括至少一个消息接收者的消息消费数据,该消息接收者的消息消费数据,即为如步骤S201所述的,消息接收者更新到ZooKeeper中的注册目录中的消息消费数据。
示例性的,消费状态检测模块对上述ZooKeeper进行订阅监测,当消息接收者对其注册的目录/service/consumer中的消息消费数据进行更新时,消费状态检测模块读取更新后的消息消费数据,即获取消息接收者的消息消费数据。
需要说明的是,当上述输入样本包括多个消息接收者的消息消费数据时,本申请实施例分别针对每个消息接收者的消息消费数据进行处理,从而确定每个消息接收者的消息消费状态。本申请实施例以对某一个消息接收者的消息消费数据的处理为例,介绍本申请实施例提出的消息消费状态检测方法的处理过程,可以理解,当上述的输入样本包括更多的消息接收者的消息消费数据时,针对每个消息接收者的消息消费数据,分别按照本申请实施例技术方案进行处理,即可分别确定每个消息接收者的消息消费状态。
S203、消费状态检测模块通过预设的数据分析模型,计算输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离;
其中,所述异常消费数据簇和/或所述正常消费数据簇,是通过对上述输入样本对应的消息接收者在历史时间段内的消息消费数据进行类簇划分处理得到的。上述输入样本所包含的消息消费数据具体为哪个消息接收者的消息消费数据,则该消息接收者即为该输入样本对应的消息接收者。
示例性的,本申请实施例预先采集上述输入样本对应的消息接收者在历史工作过程中积累的大量的消息消费数据样本,然后对消息消费数据样本进行类簇划分及簇心计算处理,最终将消息消费数据样本划分为异常消费数据簇和正常消费数据簇。上述的数据处理过程,即为模型构建过程,最终划分得到的异常消费数据簇和正常消费数据簇,作为与该消息接收者对应的数据分析模型。
在此基础上,当消费状态检测装置获取到上述输入样本后,通过上述数据分析模型,计算该输入样本包含的消息消费数据与该数据分析模型包含的异常消费数据簇和/或正常消费数据簇的簇心的距离。
示例性的,可以计算输入样本包含的消息消费数据与上述异常消费数据簇和/或正常消费数据簇的簇心的欧式距离,作为该消息消费数据与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离度量。
可以理解,如果上述输入样本包含的消息接收者的消息消费数据与异常消费数据簇的簇心比较接近,则可以认为该消息接收者的消息消费数据属于异常消费数据,进而可以认为该消息接收者为异常消息接收者;或者如果消息接收者的消息消费数据与正常消费数据簇的簇心距离较远,则可以认为该消息接收者的消息消费数据不属于正常消费数据,进而可以认为该消息接收者为异常消息接收者。
即,通过计算消息接收者的消息消费数据与预先构建的数据分析模型所包含的异常消费数据簇的簇心的距离,或者计算消息接收者的消息消费数据与正常消费数据簇的簇心的距离,均可以判断出消息接收者是否为异常消息接收者。
本申请实施例在具体计算输入样本包含的消息接收者的消息消费数据与预先构建的数据分析模型所包含的数据簇的簇心的距离时,可以选择计算与异常消费数据簇的簇心的距离,或者计算与正常消费数据簇的簇心的距离,或者是同时计算与异常消费数据簇和正常消费数据簇的簇心的距离。并且,在后续处理步骤中,可以根据步骤S203所计算的距离的不同,通过不同的方式确定消息接收者是否为异常消息接收者。
由于消息接收者在不同时间段的工作状态或性能有差异,因此在不同时间段对消息的消费状态不同。如果按照统一的标准衡量消息接收者在不同时间段内的消息消费状态,则会存在一定程度的误判。
作为一种优选的实现方式,为了更真实地衡量消息接收者在不同时间段的消息消费状态,本申请实施例设定,在将上述输入样本对应的消息接收者的历史消息消费数据进行类簇划分时,先对该消息接收者的历史消息消费数据按照时间段进行划分,例如划分为分属0:00~3:00、4:00~7:00、8:00~11:00、12:00~15:00、16:00~19:00、20:00~23:00这6个时间段的消息消费数据。然后针对每个时间段内的消息消费数据再分别进行类簇划分以及簇心计算,每个时间段内的正常消费数据簇和异常消费数据簇均构成所在时间段内的数据分析模型。
在此基础上,在计算输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离时,具体是计算输入样本与预设的,与该输入样本相同时间段的异常消费数据簇和/或正常消费数据簇的簇心的距离。
具体的,首先确定输入样本所包含的消息接收者的消息消费数据的时间所属的时间段,例如确定输入样本是属于0:00~3:00、4:00~7:00、8:00~11:00、12:00~15:00、16:00~19:00、20:00~23:00这6个时间段中的哪个时间段的数据。
然后,将该输入样本与预设的与该输入样本相同时间段的异常消费数据簇和/或正常消费数据簇的簇心的距离。例如,假设输入样本所包含的是消息接收者在5:00时刻的消息消费数据,则本申请实施例计算该输入样本与4:00~7:00时间段的异常消费数据簇和/或正常消费数据簇的簇心的距离。
上述的对消息接收者的历史消息消费数据进行类簇划分以及簇心计算从而构建数据分析模型的处理过程,可参见以下图3所示实施例的介绍。事实上,上述数据类簇划分及簇心计算处理过程,也可以参照现有技术中常用的数据分类处理过程实现。例如通过数据分类算法模型实现等。
按照上述处理过程,在计算得到输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离后,消费状态检测模块进一步地根据输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离,确定输入样本的数据类型。
示例性的,根据上述距离计算的具体内容的不同,可以具体分为如下处理步骤:
S204、判断输入样本与异常消费数据簇的簇心的距离是否小于设定的第一距离阈值;
具体的,当步骤S203中计算得到上述输入你与异常消费数据簇的簇心的距离后,执行步骤S204的判断。
当上述输入样本与异常消费数据簇的簇心的距离小于设定的第一距离阈值时,执行步骤S205、确定输入样本的数据类型为异常消费数据类型。
相反,如果输入样本与异常消费数据簇的簇心的距离不小于设定的第一距离阈值,则可以执行步骤S206、确定输入样本的数据类型为正常消费数据类型。
可以理解,如果上述输入样本所包含的消息接收者的消息消费数据与异常消费数据簇的簇心的距离足够小,例如小于上述设定的第一距离阈值,则可以确定该消息接收者的消息消费数据属于该异常消费数据簇,因此可以确定该输入样本的数据类型为异常消费数据类型。相反,如果上述输入样本所包含的消息消费数据与异常消费数据簇的簇心的距离较大,例如不小于上述设定的第一距离阈值,则可以确定该消息接收者的消息消费数据不属于该异常消费数据簇,因此可以确定该输入样本的数据类型为正常消费数据类型。
或者,当上述步骤S203计算得到上述输入样本与正常消费数据簇的簇心的距离后,执行步骤S207:
S207、判断输入样本与正常消费数据簇的簇心的距离是否大于设定的第二距离阈值;
当上述输入样本与正常消费数据簇的簇心的距离大于设定的第二距离阈值时,执行步骤S208、确定输入样本的数据类型为异常消费数据类型;
如果上述输入样本与正常消费数据簇的簇心的距离不大于设定的第二距离阈值,则可以执行步骤S209、确定输入样本的数据类型为正常消费数据类型。
可以理解,如果上述输入样本所包含的消息接收者的消息消费数据与正常消费数据簇的簇心的距离大于设定的第二距离阈值,则可以确定该消息消费数据不属于正常消费数据簇,进而可以确定上述输入样本的数据类型不是征程消费数据类型,也就是异常消费数据类型。相反,如果上述输入样本所包含的消息接收者的消息消费数据与正常消费数据簇的簇心的距离不大于设定的第二距离阈值,则可以认为该消息消费数据与正常数据簇的簇心的距离很近,即可以认为该消息消费数据属于正常数据簇,进而可以认为该输入样本的数据类型为正常消费数据类型。
进一步的,作为另一种可选的实现方式,消费状态检测模块还可以同时根据上述输入样本与异常消费数据簇的簇心的距离,以及与正常消费数据簇的簇心的距离,来确定上述输入样本的数据类型。
示例性的,当确定上述输入样本所包含的消息接收者的消息消费数据与异常消费数据簇的簇心的距离不小于设定的第一距离阈值时,进一步判断上述输入样本所包含的消息接收者的消息消费数据与正常消费数据簇的簇心的距离是否大于设定的第二距离阈值,如果不大于设定的第二距离阈值,则可以确定该输入样本的数据类型为正常消息数据类型。
或者,当确定上述输入样本所包含的消息接收者的消息消费数据与正常消费数据簇的簇心的距离大于设定的第二距离阈值时,进一步判断上述消息接收者的消息消费数据与异常消费数据簇的簇心的距离是否小于设定的第一距离阈值,如果小于设定的第一距离阈值,则可以确定该输入样本的数据类型为异常消费数据类型。
需要说明的是,上述的第一距离阈值和第二距离阈值可以灵活设定。在实际操作中,最优的方案是,通过设定上述第一距离阈值和第二距离阈值的具体数值,使上述输入样本所包含的消息接收者的消息消费数据不是属于异常消费数据簇,就是属于正常消费数据簇,这样可以更直接、更准确地确定上述输入样本的数据类型。
S210、消费状态检测模块根据输入样本的数据类型,确定消息接收者的消息消费状态。
其中,上述确定消息接收者的消息消费状态,具体是指确定上述输入样本对应的消息接收者的消息消费状态。上述的输入样本所包含的消息消费数据具体是哪个消息接收者的消息消费数据,则该消息接收者即作为该输入样本对应的消息接收者。消费状态检测装置对该输入样本所包含的消息消费数据进行上述步骤S203~S209所示的处理后,即可确定该数据为正常消费数据还是异常消费数据,也就是确定该输入样本的数据类型,从而确定该消息接收者为处于正常消息消费状态还是处于异常消息消费状态。
如果该输入样本为异常消费数据类型,则可以确定该输入样本对应的消息接收者处于异常消息消费状态。
如果该输入样本为正常消费数据类型,则可以确定该输入样本对应的消息接收者处于正常消息消费状态。
当上述的输入样本包含多个消息接收者的消息消费数据时,消费状态检测模块针对每个消息接收者的消息消费数据,分别对其进行上述步骤S03~S209所示的处理后,按照步骤S210的处理可以分别确定各个消息接收者的消息消费状态。
通过上述介绍可见,本申请实施例提出的消息消费状态检测方法,能够通过确定消息接收者的消息消费数据的数据类型,进而确定该消息接收者的消息消费状态。上述技术方案实现了自动检测消息接收者的消息消费状态,将该技术方案应用于消息传递监测,可以省去对人力的依赖,降低人力消耗。
示例性的,本申请另一实施例还公开了利用消息接收者的历史消息消费数据构建数据分析模型,也就是对消息接收者的历史消息消费数据进行类簇划分及簇心计算处理得到异常消费数据簇和/或正常消费数据簇的具体实现方式。
参见图3所示,上述对消息接收者的消息消费数据进行类簇划分处理得到异常消费数据簇和/或正常消费数据簇,包括:
S301、获取消息接收者的消息消费数据样本;
其中,所述消息消费数据样本包括异常消费状态标签或正常消费状态标签;
具体的,本申请实施例采集消息接收者一段时间内的消息消费数据T={(x1,y1),(x2,y2),....(xN,yN)}作为样本数据,其中N表示采样的消息消费数据样本的数量,xi表示采集的消息消费数据样本,R6表示6维实数空间,则可以理解,xi实际上是6维数据,每一维表示不同含义,xi 1表示本次采样的订阅监测主题部署的消息接收者数量,xi 2表示采样时间,xi 3表示消息处理的速度,xi 4表示当前消息接收者的ip,xi 5表示当前消息接收者的消息处理速度,xi 6表示该订阅监测主题消息队列的消息积压量;yi={0,1},为样本数据的标签,标签0表示消息接收者Consumer处于异常消费状态,1表示处于正常消费状态。示例性的,上述标签为人工标注的标签。
需要说明的是,为了保证数据样本的研究价值,本申请实施例设定,在获取的上述消息消费数据样本中,保持标签为0的样本和标签为1的样本大致均等分布,即使标签为0和的数据样本和标签为1的数据样本的数量大致相同。
S302、对所述消息消费数据样本进行标准化处理;
具体的,本申请实施例在获取消息消费数据样本后,根据数据的分布情况,剔除其中比较严重的离群点,即剔除明显无参考价值的数据。
然后对剩余的消息消费样本数据进行各维度的标准化处理:
首先计算数据的均值:
其中,N表示消息消费数据样本的数量。
接着计算数据的标准差:
最后对各个消息消费数据进行标准化:
其中,xi *表示标准化后的数据。
S303、分别从标准化处理后的消息消费数据中选择一个携带异常消费状态标签的消息消费数据作为第一数据簇的簇心,以及从标准化处理后的消息消费数据中选择一个携带正常消费状态标签的消息消费数据作为第二数据簇的簇心;
具体的,在对消息消费数据样本分别进行标准化处理后,本申请实施例分别从中选择一个携带标签0的消息消费数据和一个携带标签1的消息消费数据分别作为数据簇的簇心,用Sj表示,其中j表示划分的数据簇的数量,由于本申请实施例划分为两个数据簇,因此可设置j=2。
然后,执行步骤S304、依次遍历其它各个消息消费数据样本,即依次遍历步骤S302得到的标准化处理后的,未被选为数据簇簇心的其它消息消费数据样本,每遍历到一个数据样本时,分别执行以下操作:
S305、计算消息消费数据样本与所述第一数据簇的簇心的距离,以及与所述第二数据簇的簇心的距离;
具体的,计算样本xi与簇心Sj的欧式距离Dij
S306、根据消息消费数据样本与所述第一数据簇的簇心的距离,以及与所述第二数据簇的簇心的距离,将消息消费数据样本归集到与其距离最小的簇心所在的数据簇,并更新该数据簇的簇心;
具体的,根据步骤S305计算得到的消息消费数据样本与第一数据簇的簇心的距离,以及与第二数据簇的簇心的距离,确定在上述第一数据簇的簇心和第二数据簇的簇心中,与消息消费数据样本的距离最小的簇心,然后将该消息消费数据样本归集到该簇心所在的数据簇。
在将该消息消费数据样本归集到该数据簇后,本申请实施例还对该数据簇更新簇心,具体按照如下公式进行:
其中,x表示数据簇中的消息消费数据,nj表示数据簇中的消息消费数据量。
通过执行步骤S304的遍历过程,以及按照上述步骤S305和S306,依次将各个消息消费数据样本归集到第一数据簇或第二数据簇,并且同步更新第一数据簇和第二数据簇的簇心。
同时,在每次更新第一数据簇和第二数据簇的簇心时,还执行步骤S307、判断上述第一数据簇的簇心和第二数据簇的簇心是否发生变化;
示例性的,可以通过计算更新前和更新后的簇心的位置变化,来确定簇心是否发生变化,如果更新前和更新后的簇心的位置没有变化,或者变化足够小,则可以认为簇心不再变化。
如果第一数据簇的簇心和第二数据簇的簇心发生变化,则返回步骤S304,继续遍历下一个消息消费数据样本,并且执行后续的步骤S305~S307。
当某一次执行步骤S307确定第一数据簇和第二数据簇的簇心不再变化时,执行步骤S308、确定所述第一数据簇和所述第二数据簇的属性;其中,所述属性包括异常消费数据簇或正常消费数据簇。
具体的,本申请实施例分别统计上述第一数据簇和第二数据簇中的,携带异常消费状态标签的消息消费数据的数量和携带正常消费状态标签的消息消费数据数量,即统计携带标签0的消息消费数据的数量和携带标签1的消息消费数据数量;
然后,根据所述第一数据簇和所述第二数据簇中的,携带异常消费状态标签的消息消费数据的数量和携带正常消费状态标签的消息消费数据数量,分别确定所述第一数据簇的属性和所述第二数据簇的属性。
示例性的,本申请实施例将上述第一数据簇和第二数据簇中多数的标签,作为数据簇的标签,从而确定数据簇的属性。
例如,假设上述第一数据簇中的异常消费状态标签占多数,则将异常消费状态标签作为第一数据簇的标签,从而可以确定第一数据簇为异常消费数据簇。
由于标签为0和标签为1的消息消费数据样本的数量大致相同,则按照图3所述的处理方法,可以得到异常消费数据簇和正常消费数据簇,并且两个数据簇的数据量大致相同。
经过上述图3所示的数据类簇划分和簇心计算处理,最终得到的异常消费数据簇和正常消费数据簇,即作为数据分析模型。
作为一种优选的实现方式,本申请实施例设定,在执行图3所示的步骤S302对消息消费数据样本进行标准化处理之前,本申请实施例还对消息消费数据样本进行时间离散化处理,将消息消费数据样本划分为多个时间段的数据样本。
具体的,本申请实施例对获取的消息消费数据样本按照时间维度进行划分,将其划分为不同时间段的数据样本,例如,划分为0:00~3:00、4:00~7:00、8:00~11:00、12:00~15:00、16:00~19:00、20:00~23:00共6个时间段的数据样本。
然后,针对每个时间段内的数据样本,分别通过图3所示步骤S302~S308,确定每个时间段内的异常消费数据簇和正常消费数据簇。
在此基础上,当执行图2所示的步骤S203、消费状态检测模块通过预设的数据分析模型,计算输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离时,具体是计算输入样本所包含的消息接收者的消息消费数据与预先构建的,与该消息消费数据相同时间段内的异常消费数据簇和/或正常消费数据簇的簇心的距离。
与上述消息消费状态检测方法相对应的,本申请另一实施例还提出一种消息消费状态检测装置,参见图4所示,该装置包括:
数据获取单元100,用于获取输入样本,所述输入样本包括至少一个消息接收者的消息消费数据;
计算单元110,用于通过预设的数据分析模型,确定所述输入样本的数据类型;其中,所述数据类型包括异常消费数据类型和正常消费数据类型;
判断处理单元120,用于根据所述输入样本的数据类型,确定所述至少一个消息接收者的消息消费状态。
可选的,在本申请的另一个实施例中还公开了,所述计算单元,包括:
距离计算单元,用于通过预设的数据分析模型,计算所述输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离;
数据类型确定单元,用于根据所述输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离,确定所述输入样本的数据类型。
可选的,在本申请的另一个实施例中还公开了,所述距离计算单元计算所述输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离时,具体用于:
计算所述输入样本与预设的,与所述输入样本相同时间段的异常消费数据簇和/或正常消费数据簇的簇心的距离。
可选的,在本申请的另一个实施例中还公开了,所述数据类型确定单元根据所述输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离,确定所述输入样本的数据类型时,具体用于:
当所述输入样本与异常消费数据簇的簇心的距离小于设定的第一距离阈值时,确定所述输入样本的数据类型为异常消费数据类型;
或者,
当所述输入样本与正常消费数据簇的簇心的距离大于设定的第二距离阈值时,确定所述输入样本的数据类型为异常消费数据类型。
具体的,上述的消息消费状态检测装置的各实施例中的各个单元的具体工作内容,请参见上述方法实施例的内容,此处不再赘述。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种消息消费状态检测方法,其特征在于,包括:
获取输入样本,所述输入样本包括至少一个消息接收者的消息消费数据;
通过预设的数据分析模型,确定所述输入样本的数据类型;其中,所述数据类型包括异常消费数据类型和正常消费数据类型;
根据所述输入样本的数据类型,确定所述至少一个消息接收者的消息消费状态。
2.根据权利要求1所述的方法,其特征在于,所述通过预设的数据分析模型,确定所述输入样本的数据类型,包括:
通过预设的数据分析模型,计算所述输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离;
根据所述输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离,确定所述输入样本的数据类型。
3.根据权利要求2所述的方法,其特征在于,所述计算所述输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离,包括:
计算所述输入样本与预设的,与所述输入样本相同时间段的异常消费数据簇和/或正常消费数据簇的簇心的距离。
4.根据权利要求2所述的方法,其特征在于,所述根据所述输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离,确定所述输入样本的数据类型,包括:
当所述输入样本与异常消费数据簇的簇心的距离小于设定的第一距离阈值时,确定所述输入样本的数据类型为异常消费数据类型;
或者,
当所述输入样本与正常消费数据簇的簇心的距离大于设定的第二距离阈值时,确定所述输入样本的数据类型为异常消费数据类型。
5.一种消息消费状态检测装置,其特征在于,包括:
数据获取单元,用于获取输入样本,所述输入样本包括至少一个消息接收者的消息消费数据;
计算单元,用于通过预设的数据分析模型,确定所述输入样本的数据类型;其中,所述数据类型包括异常消费数据类型和正常消费数据类型;
判断处理单元,用于根据所述输入样本的数据类型,确定所述至少一个消息接收者的消息消费状态。
6.根据权利要求5所述的装置,其特征在于,所述计算单元,包括:
距离计算单元,用于通过预设的数据分析模型,计算所述输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离;
数据类型确定单元,用于根据所述输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离,确定所述输入样本的数据类型。
7.根据权利要求6所述的装置,其特征在于,所述距离计算单元计算所述输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离时,具体用于:
计算所述输入样本与预设的,与所述输入样本相同时间段的异常消费数据簇和/或正常消费数据簇的簇心的距离。
8.根据权利要求6所述的装置,其特征在于,所述数据类型确定单元根据所述输入样本与预设的异常消费数据簇和/或正常消费数据簇的簇心的距离,确定所述输入样本的数据类型时,具体用于:
当所述输入样本与异常消费数据簇的簇心的距离小于设定的第一距离阈值时,确定所述输入样本的数据类型为异常消费数据类型;
或者,
当所述输入样本与正常消费数据簇的簇心的距离大于设定的第二距离阈值时,确定所述输入样本的数据类型为异常消费数据类型。
CN201910469865.5A 2019-05-31 2019-05-31 一种消息消费状态检测方法及装置 Pending CN110162419A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910469865.5A CN110162419A (zh) 2019-05-31 2019-05-31 一种消息消费状态检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910469865.5A CN110162419A (zh) 2019-05-31 2019-05-31 一种消息消费状态检测方法及装置

Publications (1)

Publication Number Publication Date
CN110162419A true CN110162419A (zh) 2019-08-23

Family

ID=67630929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910469865.5A Pending CN110162419A (zh) 2019-05-31 2019-05-31 一种消息消费状态检测方法及装置

Country Status (1)

Country Link
CN (1) CN110162419A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115242457A (zh) * 2022-06-28 2022-10-25 中国电信股份有限公司 一种日志数据的检测方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070006177A1 (en) * 2005-05-10 2007-01-04 International Business Machines Corporation Automatic generation of hybrid performance models
CN104935622A (zh) * 2014-03-21 2015-09-23 阿里巴巴集团控股有限公司 一种用于消息分配、消费的方法及装置,用于消息处理的系统
CN107528823A (zh) * 2017-07-03 2017-12-29 中山大学 一种基于改进的K‑Means聚类算法的网络异常检测方法
CN109714311A (zh) * 2018-11-15 2019-05-03 北京天地和兴科技有限公司 一种基于聚类算法的异常行为检测的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070006177A1 (en) * 2005-05-10 2007-01-04 International Business Machines Corporation Automatic generation of hybrid performance models
CN104935622A (zh) * 2014-03-21 2015-09-23 阿里巴巴集团控股有限公司 一种用于消息分配、消费的方法及装置,用于消息处理的系统
CN107528823A (zh) * 2017-07-03 2017-12-29 中山大学 一种基于改进的K‑Means聚类算法的网络异常检测方法
CN109714311A (zh) * 2018-11-15 2019-05-03 北京天地和兴科技有限公司 一种基于聚类算法的异常行为检测的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115242457A (zh) * 2022-06-28 2022-10-25 中国电信股份有限公司 一种日志数据的检测方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN110868336B (zh) 数据管理方法、装置和计算机可读存储介质
CN110213068B (zh) 一种消息中间件的监控方法及相关设备
CN108028778B (zh) 生成信息传输性能警告的方法、系统和装置
US9917735B2 (en) System and method for big data aggregation in sensor network
CN107404408B (zh) 一种虚拟身份关联识别方法及装置
CN104618948B (zh) 一种监控上传文件的方法和系统
CN106911519B (zh) 一种数据采集监控方法及装置
CN116166499A (zh) 数据监测方法、装置、电子设备及非易失性存储介质
CN102468982A (zh) 元素终端以及通信系统
CN114430383A (zh) 探测节点筛选方法、装置、电子设备和存储介质
CN105471938B (zh) 服务器负载管理方法及装置
CN110162419A (zh) 一种消息消费状态检测方法及装置
CN115038088A (zh) 一种智能网络安全检测预警系统和方法
CN114827168A (zh) 告警聚合上报方法、装置、计算机设备及存储介质
CN111064656A (zh) 数据管理方法、装置、系统、存储介质及电子设备
CN114221988A (zh) 一种内容分发网络热点分析方法和系统
CN115002009A (zh) 一种流量采样方法、装置、系统、电子设备及介质
CN102567470A (zh) 系统级性能数据的处理方法及设备
JP5362769B2 (ja) ネットワーク監視装置及びネットワーク監視方法
CN107395460B (zh) 终端的稳定性检测方法、终端心跳频率的统计方法及系统
CN109388546B (zh) 处理应用程序的故障的方法、装置和系统
CN114816778A (zh) 一种时延控制方法、系统及相关设备
CN112131198A (zh) 一种日志分析方法、装置及电子设备
CN111427878A (zh) 数据监控告警方法、装置、服务器和存储介质
CN113268551B (zh) 一种统一测控系统数据监测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190823

RJ01 Rejection of invention patent application after publication