CN116956086A - 数据监控预警方法、装置、电子设备及存储介质 - Google Patents
数据监控预警方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116956086A CN116956086A CN202310506165.5A CN202310506165A CN116956086A CN 116956086 A CN116956086 A CN 116956086A CN 202310506165 A CN202310506165 A CN 202310506165A CN 116956086 A CN116956086 A CN 116956086A
- Authority
- CN
- China
- Prior art keywords
- data
- public opinion
- cluster
- sample
- anomaly
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012544 monitoring process Methods 0.000 title claims abstract description 50
- 238000007621 cluster analysis Methods 0.000 claims abstract description 34
- 238000013507 mapping Methods 0.000 claims abstract description 32
- 238000001514 detection method Methods 0.000 claims abstract description 31
- 230000005856 abnormality Effects 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000002159 abnormal effect Effects 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 15
- 238000013075 data extraction Methods 0.000 claims description 13
- 230000001788 irregular Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004138 cluster model Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请涉及一种数据监控预警方法、装置、电子设备及存储介质,应用于数据处理技术领域,所述方法包括:获取待检测舆情数据,对待检测舆情数据进行聚类分析,得到待检测舆情数据在预先建立的多个数据簇中所属的目标数据簇;根据预先建立的数据簇和数据异常类型的映射关系,确定目标数据簇对应的数据异常类型;其中,该映射关系是通过对样本舆情数据进行聚类分析和异常检测确定的;当目标数据簇对应的数据异常类型属于目标异常类型时,对待检测舆情数据进行预警。本申请可以解决因舆情数据波动不规律性而导致数据监控预警不准确的问题,可以准确地实现数据业务预警监控。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据监控预警方法、装置、电子设备及存储介质。
背景技术
目前,随着互联网技术的发展,信息传播的速度也越来越快,为了保证自身业务正常发展,各公司都会对涉及自身的舆情数据进行分析和监控,当舆情数据出现问题时,需要及时处理。但是目前的舆情监控方式多是利用人工进行监控,由人工对舆情数据进行分析并进行后续的上报预警等工作;实际当中,舆论数据多种多样,每个人的思想和观念也不尽相同,即使对同样的舆情数据可能会产生不同的分析结果,在舆情分析结果不准确的情况下,后续预警信息也未必有效。因此,如何在舆情监控中更加准确的得到舆情分析结果并有效得到预警信息就成为亟待解决的问题。
发明内容
为了解决上述技术问题,本申请提供了一种数据监控预警方法、装置、电子设备及存储介质。
根据本申请的第一方面,提供了一种数据监控预警方法,包括:
获取待检测舆情数据,对所述待检测舆情数据进行聚类分析,得到所述待检测舆情数据在预先建立的多个数据簇中所属的目标数据簇;
根据预先建立的所述数据簇和数据异常类型的映射关系,确定所述目标数据簇对应的数据异常类型;其中,所述映射关系是通过对样本舆情数据进行聚类分析和异常检测确定的;
当所述目标数据簇对应的数据异常类型属于目标异常类型时,对所述待检测舆情数据进行预警。
可选的,在所述根据预先建立的所述数据簇和数据异常类型的映射关系,确定所述目标数据簇对应的数据异常类型之前,所述方法还包括:
获取样本舆情数据,对所述样本舆情数据进行异常检测,确定所述样本舆情数据中的异常阈值;
基于所述异常阈值,将所述样本舆情数据划分为多种数据异常类型,并确定所述多种数据异常类型分别对应的数据范围;
对所述样本舆情数据进行聚类分析,得到多个数据簇,其中,所述数据簇的数量与所述数据异常类型的数量相同;
根据单个所述数据簇中的样本舆情数据所对应的数据范围,确定单个所述数据簇对应的数据异常类型。
可选的,所述根据单个所述数据簇中的样本舆情数据所对应的数据范围,确定单个所述数据簇对应的数据异常类型,包括:
将单个所述数据簇中的样本舆情数据所对应的数据范围中占比最高的数据范围确定为目标数据范围;
将所述目标数据范围对应的数据异常类型确定为单个数据簇对应的数据异常类型。
可选的,所述对所述样本舆情数据进行异常检测,确定所述样本舆情数据中的异常阈值,包括:
对所述样本舆情数据进行异常检测,确定所述样本舆情数据中的上限阈值和下限阈值;
所述基于所述异常阈值,将所述样本舆情数据划分为多种数据异常类型,包括:
基于所述上限阈值和所述下限阈值,将所述样本舆情数据划分为三种数据异常类型;
所述确定所述多种数据异常类型分别对应的数据范围,包括:
将第一异常类型对应的数据范围确定为大于或等于所述上限阈值;
将第二异常类型对应的数据范围确定为小于或等于所述下限阈值;
将第三异常类型对应的数据范围确定为大于所述下限阈值且小于所述上限阈值。
可选的,所述对所述样本舆情数据进行异常检测,确定所述样本舆情数据中的上限阈值和下限阈值,包括:
对所述样本舆情数据进行四分位处理,得到第一四分位数和第三四分位数;
将所述第三四分位数和所述第一四分位数的差值,确定为四分位距;
将所述第三四分位数和预设上限系数与所述四分位距之积的差值,确定所述样本舆情数据中的上限阈值;
将所述第一四分位数和预设下限系数与所述四分位距之积的差值,确定所述样本舆情数据中的下限阈值。
可选的,在所述获取样本舆情数据之前,所述方法包括:
按照时间粒度采集历史时间段内的源舆情数据,并将所述源舆情数据存储至数据库中;
对所述源舆情数据进行数据分类和数据提取,得到所述样本舆情数据。
可选的,所述对所述源舆情数据进行数据分类和数据提取,得到所述样本舆情数据,包括:
按照所述源舆情数据的来源对所述源舆情数据进行分类,得到多个类型的舆情数据;
按照预设关键词对单个类型的舆情数据进行数据提取,得到所述样本舆情数据。
可选的,所述对所述待检测舆情数据进行预警,包括:
按照以下一种或多种方式推送针对所述待检测舆情数据的预警数据:以短信方式、邮件方式、即时通讯工具推送;
其中,所述预警数据包括:所述待检测舆情数据的异常情况和存储所述待检测舆情数据的数据库。
根据本申请的第二方面,提供了一种数据监控预警装置,所述装置包括:
目标数据簇确定模块,用于获取待检测舆情数据,对所述待检测舆情数据进行聚类分析,得到所述待检测舆情数据在预先建立的多个数据簇中所属的目标数据簇;
数据异常类型确定模块,用于根据预先建立的所述数据簇和数据异常类型的映射关系,确定所述目标数据簇对应的数据异常类型;其中,所述映射关系是通过对样本舆情数据进行聚类分析和异常检测确定的;
数据预警模块,用于当所述目标数据簇对应的数据异常类型属于目标异常类型时,对所述待检测舆情数据进行预警。
可选的,所述数据监控预警装置还包括:
异常阈值确定模块,用于获取样本舆情数据,对所述样本舆情数据进行异常检测,确定所述样本舆情数据中的异常阈值;
数据范围划分模块,用于基于所述异常阈值,将所述样本舆情数据划分为多种数据异常类型,并确定所述多种数据异常类型分别对应的数据范围;
聚类分析模块,用于对所述样本舆情数据进行聚类分析,得到多个数据簇,其中,所述数据簇的数量与所述数据异常类型的数量相同;
映射关系确定模块,用于根据单个所述数据簇中的样本舆情数据所对应的数据范围,确定单个所述数据簇对应的数据异常类型。
可选的,所述映射关系确定模块,具体用于将单个所述数据簇中的样本舆情数据所对应的数据范围中占比最高的数据范围确定为目标数据范围;将所述目标数据范围对应的数据异常类型确定为单个数据簇对应的数据异常类型。
可选的,所述异常阈值确定模块,具体用于获取样本舆情数据,对所述样本舆情数据进行异常检测,确定所述样本舆情数据中的上限阈值和下限阈值;
所述数据范围划分模块,具体用于基于所述上限阈值和所述下限阈值,将所述样本舆情数据划分为三种数据异常类型,将第一异常类型对应的数据范围确定为大于或等于所述上限阈值;将第二异常类型对应的数据范围确定为小于或等于所述下限阈值;将第三异常类型对应的数据范围确定为大于所述下限阈值且小于所述上限阈值。
可选的,所述异常阈值确定模块,具体用于获取样本舆情数据,对所述样本舆情数据进行四分位处理,得到第一四分位数和第三四分位数;将所述第三四分位数和所述第一四分位数的差值,确定为四分位距;将所述第三四分位数和预设上限系数与所述四分位距之积的差值,确定所述样本舆情数据中的上限阈值;将所述第一四分位数和预设下限系数与所述四分位距之积的差值,确定所述样本舆情数据中的下限阈值。
可选的,所述数据监控预警装置还包括:
数据采集模块,用于按照时间粒度采集历史时间段内的源舆情数据,并将所述源舆情数据存储至数据库中;
数据处理模块,用于对所述源舆情数据进行数据分类和数据提取,得到所述样本舆情数据。
可选的,所述数据处理模块,具体用于按照所述源舆情数据的来源对所述源舆情数据进行分类,得到多个类型的舆情数据;按照预设关键词对单个类型的舆情数据进行数据提取,得到所述样本舆情数据。
可选的,所述数据预警模块,具体用于如果所述目标数据簇对应的数据异常类型属于目标异常类型,按照以下一种或多种方式推送针对所述待检测舆情数据的预警数据:以短信方式、邮件方式、即时通讯工具推送;
其中,所述预警数据包括:所述待检测舆情数据的异常情况和存储所述待检测舆情数据的数据库。
根据本申请的第三方面,提供了一种电子设备,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
根据本申请的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
根据本申请的第五方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面所述的方法。
本申请实施例提供的技术方案与现有技术相比具有如下优点:
通过预先对样本舆情数据进行异常检测,可以确定样本舆情数据的数据分布,进一步确定多种数据异常类型。同时对样本舆情数据进行聚类分析,可以建立数据簇和数据异常类型的映射关系,从而将样本舆情数据按数据簇划分为多种数据异常类型。可见,本申请实施例提供了一种数据分布与聚类相结合的数据监控预警方法,在获取到待检测舆情数据的情况下,对待检测舆情数据进行聚类分析,得到待检测舆情数据在多个数据簇中所属的目标数据簇。如果目标数据簇对应的数据异常类型属于目标异常类型,对待检测舆情数据进行预警。本申请实施例中,在舆情数据波动不规律性的情况下,利用该方法可以先分析待检测舆情数据所属的数据簇,根据数据簇再判断待检测舆情数据的数据异常类型。这样,可以避免舆情数据波动时直接使用设定的阈值进行预警导致预警不准确的问题,提高数据业务预警监控的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用于本申请实施例的数据监控预警方法的示例性应用环境的系统架构的示意图;
图2为本申请实施例中数据监控预警方法的一种流程图;
图3为本申请实施例中建立数据簇和数据异常类型的映射关系的一种流程图;
图4为本申请实施例中箱线图的一种示意图;
图5为本申请实施例中的一种聚类结果示意图;
图6为本申请实施例中数据监控预警装置的一种结构示意图;
图7为本申请实施例中电子设备的一种结构示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面将对本申请的方案进行进一步描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但本申请还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本申请的一部分实施例,而不是全部的实施例。
图1示出了可以应用于本申请实施例的数据监控预警方法的示例性应用环境的系统架构的示意图。
如图1所示,系统架构100可以包括数据源服务器101、数据源服务器102、数据源服务器103中的一个或多个,网络104和数据监控预警服务器105。网络104用以在数据源服务器101、数据源服务器102、数据源服务器103和数据监控预警服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。数据源服务器101、数据源服务器102、数据源服务器103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数量仅仅是示意性的。根据实现需要,可以具有任意数量的终端设备、网络和服务器。比如数据监控预警服务器105可以是多个服务器组成的服务器集群等。
本申请实施例所提供的数据监控预警方法一般由数据监控预警服务器105执行,相应地,数据监控预警装置可以设置于数据监控预警服务器105中。举例而言,数据监控预警服务器105可以从数据源服务器101、数据源服务器102、数据源服务器103获取样本舆情数据,对样本舆情数据进行聚类分析和异常检测得到数据簇和数据异常类型的映射关系。进一步地,从数据源服务器101、数据源服务器102、数据源服务器103获取样本舆情数据后,按照本申请实施例的数据监控预警方法,先对待检测舆情数据进行聚类分析,得到待检测舆情数据在预先建立的多个数据簇中所属的目标数据簇,根据数据簇和数据异常类型的映射关系,确定目标数据簇对应的数据异常类型,如果目标数据簇对应的数据异常类型属于目标异常类型,对待检测舆情数据进行预警。由于舆情数据波动的不规律性,因此,通过数据分布与聚类相结合的方法,可以避免直接通过阈值进行预警导致数据监控预警不准确的问题。
以下首先对本申请实施例的数据监控预警方法进行详细介绍。
参见图2,图2为本申请实施例中数据监控预警方法的一种流程图,可以包括以下步骤:
步骤S210,获取待检测舆情数据,对待检测舆情数据进行聚类分析,得到待检测舆情数据在预先建立的多个数据簇中所属的目标数据簇。
舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕某一领域的事件的发生、发展和变化,民众所持有的社会态度。例如,针对某企业所生产的产品,用户可以对该产品进行评价,用户的评价数据即为舆情数据。或者,针对网络中的某些页面,用户对该页面的点击量、浏览量也可以为舆情数据。通过对舆情数据进行分析,可以了解用户的需求,从而对产品或服务进行改进。
待检测舆情数据是当前实时采集的数据,可以是用户对某产品的评价数据、用户对某事件的评价数据,也可以是用户对某个网页的点击量、浏览量等等。待检测舆情数据的数量可以是一个或多个,在采集到待检测舆情数据后,可以将待检测舆情数据存储至数据库中。
本申请实施例中,可以预先设置舆情数据的数据异常类型,按照舆情数据的数据异常类型,将舆情数据分为多个数据簇。也就是,建立数据簇和数据异常类型的映射关系。通过分析待检测舆情数据所属的数据簇,来判断待检测舆情数据的数据异常类型。进而,确定是否对待检测舆情数据进行预警。
基于此,可以对待检测舆情数据进行聚类分析,得到待检测舆情数据在预先建立的多个数据簇中所属的目标数据簇。例如,假设一共包含三个数据簇,通过对待检测舆情数据进行聚类分析,可以得到待检测舆情数据在三个数据簇中所属的数据簇。
在一些实施例中,可以采用聚类模型(例如密度聚类模型等)对待检测舆情数据进行聚类分析,得到待检测舆情数据在多个数据簇中所属的目标数据簇。其中,密度聚类模型可以包括:DBSCAN(Density-Based Spatial Clustering of Applications with Noise)模型、OPTICS(Ordering Points To Identify the Clustering Structure)模型、DENCLUE(DENsity based CLUstEring)模型等。本申请以DBSCAN模型为例进行说明,下文将对DBSCAN模型的算法进行介绍,在此不再详述。
步骤S220,根据预先建立的数据簇和数据异常类型的映射关系,确定目标数据簇对应的数据异常类型。
本申请实施例中,数据簇和数据异常类型的映射关系可以通过对样本舆情数据进行聚类分析和异常检测确定。异常检测指的是检测样本舆情数据中的异常数据,根据异常数据对样本舆情数据进行分类,得到多种数据异常类型。基于数据异常类型的数量,对样本舆情数据进行聚类分析,得到多个数据簇,从而建立数据簇和数据异常类型的映射关系。这样,基于该映射关系,可以得到待检测舆情数据所属的目标数据簇对应的数据异常类型。
步骤S230,当目标数据簇对应的数据异常类型属于目标异常类型时,对待检测舆情数据进行预警。
目标异常类型指的是需要预警的异常类型,如果目标数据簇对应的数据异常类型属于目标异常类型,说明需要对待检测舆情数据进行预警,则对待检测舆情数据进行预警。在一些实施例中,可以按照以下一种或多种方式推送针对待检测舆情数据的预警数据:以短信方式、邮件方式、即时通讯工具推送。其中,预警数据包括:待检测舆情数据的异常情况和存储待检测舆情数据的数据库。
例如,待检测舆情数据为评论数据,如果监控到评论数据的数据量较少,那么预警数据可以包括:评论数据的数据量较少、评论数据的具体数量、评论数据的具体时间,以及评论数据所在的数据库等等。
本申请实施例的数据监控预警方法,通过预先对样本舆情数据进行异常检测,可以确定样本舆情数据的数据分布,进一步确定多种数据异常类型。同时对样本舆情数据进行聚类分析,可以建立数据簇和数据异常类型的映射关系,从而将样本舆情数据按数据簇划分为多种数据异常类型。可见,本申请实施例提供了一种数据分布与聚类相结合的数据监控预警方法,在获取到待检测舆情数据的情况下,对待检测舆情数据进行聚类分析,得到待检测舆情数据在多个数据簇中所属的目标数据簇。如果目标数据簇对应的数据异常类型属于目标异常类型,对待检测舆情数据进行预警。本申请实施例中,在舆情数据波动不规律性的情况下,利用该方法可以先分析待检测舆情数据所属的数据簇,根据数据簇再判断待检测舆情数据的数据异常类型。这样,可以避免舆情数据波动时直接使用设定的阈值进行预警导致预警不准确的问题,提高数据业务预警监控的准确性。
参见图3,图3为本申请实施例中建立数据簇和数据异常类型的映射关系的一种流程图,可以包括以下步骤:
步骤S310,获取样本舆情数据,对样本舆情数据进行异常检测,确定样本舆情数据中的异常阈值。
样本舆情数据指的是历史时间段内采集到的舆情数据,与前述的待检测舆情数据属于同一种舆情数据,区别仅在于采集的时间点不同。在一些实施例中,可以按照时间粒度采集历史时间段内的源舆情数据,并将源舆情数据存储至数据库中。时间粒度可以根据需求自行调整,例如,可以按天或者按小时采集源舆情数据等,并将源舆情数据存储至数据库中。然后,对源舆情数据进行数据分类和数据提取,得到样本舆情数据。
由于源舆情数据的来源可能不同,例如,可以来自于微博,或者来自于短视频平台等,因此,在一些实施例中,可以按照源舆情数据的来源对源舆情数据进行分类,得到多个类型的舆情数据,进一步地,可以按照数据监控需求,按照预设关键词对单个类型的舆情数据进行数据提取,得到样本舆情数据。可见,样本舆情数据可以包括一类或多类源舆情数据。需要说明的是,本申请对数据分类和数据提取的执行顺序不做限定。
本申请实施例中,在将源舆情数据存储至数据库中之前,还可以对源舆情数据进行预处理,例如,源舆情数据中如果包含明显的异常数据,可以剔除该异常数据等。
可以理解的是,获取到的样本舆情数据离当前时刻越近,基于该样本舆情数据进行聚类分析和异常检测后,得到数据簇和数据异常类型的映射关系,并基于该映射关系对当前采集到的待检测舆情数据进行数据监控预警时越准确。因此,样本舆情数据可以是当前时刻前预设时间段内(例如15天或30天等)的数据增量。
本申请实施例中,异常检测的方式不同,样本舆情数据中的异常阈值的数量也可以不同。在一些实施例中,可以利用箱线图(Box-plot)来对样本舆情数据进行异常检测,将游离于箱线图以外的点作为异常点。例如,可以利用箱线图对样本舆情数据进行异常检测,确定样本舆情数据中的上限阈值和下限阈值。参见图4,图4为本申请实施例中箱线图的一种示意图。纵坐标表示评论数据的数量,箱线图包含两个异常阈值:上限阈值和下限阈值,游离于箱线图以外的数据为异常数据。
具体而言,可以对样本舆情数据进行四分位处理,得到第一四分位数和第三四分位数。其中,一组数据按照从小到大顺序排列后,把该组数据四等分的数,称为四分位数。第一四分位数(Q1)、第二四分位数(Q2,也叫“中位数”)和第三四分位数(Q3)分别等于该样本中所有数值由小到大排列后第25%、第50%和第75%的数字。将第三四分位数和第一四分位数的差值,确定为四分位距,可以表示为IQR。将第三四分位数和预设上限系数与四分位距之积的差值,确定样本舆情数据中的上限阈值;将第一四分位数和预设下限系数与四分位距之积的差值,确定样本舆情数据中的下限阈值。
上述计算方法可以表示为如下公式:
上限阈值UpperLimit=Q3-a×IQR;
下限阈值LowerLimit=Q1-b×IQR。
其中,a为预设上限系数,b为预设下限系数,a和b可以结合数据使用场景多次实验得到,例如,在某些场景下,a可以为2,b可以为1.5等。
步骤S320,基于异常阈值,将样本舆情数据划分为多种数据异常类型,并确定多种数据异常类型分别对应的数据范围。
异常阈值的数量不同,划分数据异常类型的方式也会不同。例如,如果异常值阈的数量为三个,可以将数据异常类型划分为四种。如果异常值阈的数量为两个,可以将数据异常类型划分为三种。在异常值阈包括上限阈值和下限阈值的情况下,基于上限阈值和下限阈值,可以将样本舆情数据划分为三种数据异常类型,将第一异常类型对应的数据范围确定为大于或等于上限阈值;将第二异常类型对应的数据范围确定为小于或等于下限阈值;将第三异常类型对应的数据范围确定为大于下限阈值且小于上限阈值。
假设第一异常类型表示为1,第二异常类型表示为-1,第三异常类型表示为0。
样本舆情数据划分的划分方式可以表示为:
至此可以得到每种数据异常类型对应的数据范围。
步骤S330,对样本舆情数据进行聚类分析,得到多个数据簇,其中,数据簇的数量与数据异常类型的数量相同。
如前所述,聚类分析可以通过聚类模型实现,聚类模型可以包括密度聚类模型等。密度聚类模型可以包括:DBSCAN模型等,在此以DBSCAN模型为例进行介绍。
DBSCAN模型的处理过程为:根据给定的邻域参数ε和MinPts确定所有的核心对象,其中,ε表示搜索半径,MinPts表示在搜索半径内的数据的个数,当前选定的参数ε可以是0.8,MinPts可以是2。算法会按照这个搜索半径搜索在该半径范围内的所有数据,如果数据的个数大于MinPts,则认为是一类,否则不是,继续遍历下一个点。
具体而言,假设输入样本舆情数据D={x_1,x_2,…x_m},邻域参数(ε,MinPts)。可以包括以下步骤:
1.初始化核心对象集合Ω=φ,初始化类别k=0;
2.遍历D中的元素,如果是核心对象,则将其加入到核心对象集合中Ω;
3.如果核心对象集合Ω中元素都已经被访问,则算法结束,否则转入步骤4;
4.在核心对象集合Ω中,随机选择一个未访问的核心对象o,首先将o标记为已访问,然后将o标记类别k,最后将o的ε-邻域中未访问的数据,存放到种子集合Seeds中。
5.如果种子集合Seeds=φ,则当前聚类簇Ck生成完毕,且k=1,跳转到步骤3。否则,从种子集合Seeds中挑选一个种子点seed,首先将其标记为已访问、标记类别k,然后判断seed是否为核心对象,如果是将seeds中未访问的种子点加入到种子集合中,跳转到步骤5。
举例而言,假设样本舆情数据D={x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12}。设定ε是0.8,MinPts是2。遍历样本舆情数据D,首先选出x1,计算x1与其他样本舆情数据的距离,判断小于0.8的样本舆情数据的数量是否大于等于2,如果大于等于2,则x1为中心点(即前述的核心对象),停止遍历。
假设x1与x4、x6、x10、x12的距离小于0.8,则将x1、x4、x6、x10、x12聚类为一个数据簇。将从x1、x4、x6、x10、x12样本舆情数据D中剔除,重复上述步骤,找出新的中心点,直至样本舆情数据D为空。
参见图5,图5为本申请实施例中的一种聚类结果示意图。其中,横坐标和纵坐标表示对样本舆情数据进行数据处理之后所对应的值。可以看出,聚类结果一共包含3个数据簇,第一异常类型1和第二异常类型-1对应的数据簇中的数据密度比较集中,剩余数据属于第三异常类型0,对应的数据簇中的数据密度比较分散。
步骤S340,根据单个数据簇中的样本舆情数据所对应的数据范围,确定单个数据簇对应的数据异常类型。
数据簇中的每个样本舆情数据均具有对应的数值,可以通过该公式确定每个样本舆情数据所对应的数据范围,
根据数据簇中各个样本舆情数据所对应的数据范围,可以确定各个样本舆情数据所属的数据异常类型,进而根据各个样本舆情数据所属的数据异常类型确定数据簇对应的数据异常类型。在一些实施例中,可以将单个数据簇中的样本舆情数据所对应的数据范围中占比最高的数据范围确定为目标数据范围,将目标数据范围对应的数据异常类型确定为单个数据簇对应的数据异常类型。
假设某个数据簇中包含8个样本舆情数据,该8个样本舆情数据中7个样本舆情数据满足x≥UpperLimit,剩余1个样本舆情数据满足LowerLimit<x<UpperLimit,该7个样本舆情数据的占比最大,可以确定该数据簇对应的数据异常类型为1。
需要说明的是,确定数据簇对应的数据异常类型的方式不限于此,例如,在确定目标数据范围后,如果目标数据范围所对应的样本舆情数据在单个数据簇中的占比大于预设阈值(例如可以为80%),将目标数据范围对应的数据异常类型确定为单个数据簇对应的数据异常类型。
本申请实施例的数据监控预警方法,通过预先对样本舆情数据进行异常检测,可以确定样本舆情数据的数据分布,得到样本舆情数据中的异常阈值,根据异常阈值将样本舆情数据划分为多种数据异常类型。同时对样本舆情数据进行聚类分析,得到多个数据簇,数据簇的数量与数据异常类型的数量相同,从而可以建立数据簇和数据异常类型的映射关系。可见,本申请实施例提供了一种数据分布与聚类相结合的数据监控预警方法,在获取到待检测舆情数据的情况下,对待检测舆情数据进行聚类分析,得到待检测舆情数据在多个数据簇中所属的目标数据簇。如果目标数据簇对应的数据异常类型属于目标异常类型,对待检测舆情数据进行预警。本申请实施例中,在舆情数据波动不规律性的情况下,利用该方法可以先分析待检测舆情数据所属的数据簇,根据数据簇再判断待检测舆情数据的数据异常类型。这样,可以避免舆情数据波动时直接使用设定的阈值进行预警导致预警不准确的问题,提高数据业务预警监控的准确性。
相应于上述方法实施例,本申请实施例还提供了一种数据监控预警装置,参见图6,数据监控预警装置600包括:
目标数据簇确定模块610,用于获取待检测舆情数据,对待检测舆情数据进行聚类分析,得到待检测舆情数据在预先建立的多个数据簇中所属的目标数据簇;
数据异常类型确定模块620,用于根据预先建立的数据簇和数据异常类型的映射关系,确定目标数据簇对应的数据异常类型;其中,该映射关系是通过对样本舆情数据进行聚类分析和异常检测确定的;
数据预警模块630,用于当目标数据簇对应的数据异常类型属于目标异常类型时,对待检测舆情数据进行预警。
可选的,数据监控预警装置600还包括:
异常阈值确定模块,用于获取样本舆情数据,对样本舆情数据进行异常检测,确定样本舆情数据中的异常阈值;
数据范围划分模块,用于基于异常阈值,将样本舆情数据划分为多种数据异常类型,并确定多种数据异常类型分别对应的数据范围;
聚类分析模块,用于对样本舆情数据进行聚类分析,得到多个数据簇,其中,数据簇的数量与数据异常类型的数量相同;
映射关系确定模块,用于根据单个数据簇中的样本舆情数据所对应的数据范围,确定单个数据簇对应的数据异常类型。
可选的,映射关系确定模块,具体用于将单个数据簇中的样本舆情数据所对应的数据范围中占比最高的数据范围确定为目标数据范围;将目标数据范围对应的数据异常类型确定为单个数据簇对应的数据异常类型。
可选的,异常阈值确定模块,具体用于获取样本舆情数据,对样本舆情数据进行异常检测,确定样本舆情数据中的上限阈值和下限阈值;
数据范围划分模块,具体用于基于上限阈值和下限阈值,将样本舆情数据划分为三种数据异常类型,将第一异常类型对应的数据范围确定为大于或等于上限阈值;将第二异常类型对应的数据范围确定为小于或等于下限阈值;将第三异常类型对应的数据范围确定为大于下限阈值且小于上限阈值。
可选的,异常阈值确定模块,具体用于获取样本舆情数据,对样本舆情数据进行四分位处理,得到第一四分位数和第三四分位数;将第三四分位数和第一四分位数的差值,确定为四分位距;将第三四分位数和预设上限系数与四分位距之积的差值,确定样本舆情数据中的上限阈值;将第一四分位数和预设下限系数与四分位距之积的差值,确定样本舆情数据中的下限阈值。
可选的,数据监控预警装置600还包括:
数据采集模块,用于按照时间粒度采集历史时间段内的源舆情数据,并将源舆情数据存储至数据库中;
数据处理模块,用于对源舆情数据进行数据分类和数据提取,得到样本舆情数据。
可选的,数据处理模块,具体用于按照源舆情数据的来源对源舆情数据进行分类,得到多个类型的舆情数据;按照预设关键词对单个类型的舆情数据进行数据提取,得到样本舆情数据。
可选的,数据预警模块,具体用于如果目标数据簇对应的数据异常类型属于目标异常类型,按照以下一种或多种方式推送针对待检测舆情数据的预警数据:以短信方式、邮件方式、即时通讯工具推送;其中,预警数据包括:待检测舆情数据的异常情况和存储待检测舆情数据的数据库。
上述装置中各模块或单元的具体细节已经在对应的方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本申请的示例性实施例中,还提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行本示例实施方式中上述数据监控预警方法。
图7为本申请实施例中电子设备的一种结构示意图。需要说明的是,图7示出的电子设备700仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统操作所需的各种程序和数据。中央处理单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如局域网(LAN)卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元701执行时,执行本申请的装置中限定的各种功能。
本申请实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述数据监控预警方法。
需要说明的是,本申请所示的计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器、只读存储器、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频等等,或者上述的任意合适的组合。
本申请实施例中,还提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述数据监控预警方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.一种数据监控预警方法,其特征在于,所述方法包括:
获取待检测舆情数据,对所述待检测舆情数据进行聚类分析,得到所述待检测舆情数据在预先建立的多个数据簇中所属的目标数据簇;
根据预先建立的所述数据簇和数据异常类型的映射关系,确定所述目标数据簇对应的数据异常类型;其中,所述映射关系是通过对样本舆情数据进行聚类分析和异常检测确定的;
当所述目标数据簇对应的数据异常类型属于目标异常类型时,对所述待检测舆情数据进行预警。
2.根据权利要求1所述的方法,其特征在于,在所述根据预先建立的所述数据簇和数据异常类型的映射关系,确定所述目标数据簇对应的数据异常类型之前,所述方法还包括:
获取样本舆情数据,对所述样本舆情数据进行异常检测,确定所述样本舆情数据中的异常阈值;
基于所述异常阈值,将所述样本舆情数据划分为多种数据异常类型,并确定所述多种数据异常类型分别对应的数据范围;
对所述样本舆情数据进行聚类分析,得到多个数据簇,其中,所述数据簇的数量与所述数据异常类型的数量相同;
根据单个所述数据簇中的样本舆情数据所对应的数据范围,确定单个所述数据簇对应的数据异常类型。
3.根据权利要求2所述的方法,其特征在于,所述根据单个所述数据簇中的样本舆情数据所对应的数据范围,确定单个所述数据簇对应的数据异常类型,包括:
将单个所述数据簇中的样本舆情数据所对应的数据范围中占比最高的数据范围确定为目标数据范围;
将所述目标数据范围对应的数据异常类型确定为单个数据簇对应的数据异常类型。
4.根据权利要求2所述的方法,其特征在于,所述对所述样本舆情数据进行异常检测,确定所述样本舆情数据中的异常阈值,包括:
对所述样本舆情数据进行异常检测,确定所述样本舆情数据中的上限阈值和下限阈值;
所述基于所述异常阈值,将所述样本舆情数据划分为多种数据异常类型,包括:
基于所述上限阈值和所述下限阈值,将所述样本舆情数据划分为三种数据异常类型;
所述确定所述多种数据异常类型分别对应的数据范围,包括:
将第一异常类型对应的数据范围确定为大于或等于所述上限阈值;
将第二异常类型对应的数据范围确定为小于或等于所述下限阈值;
将第三异常类型对应的数据范围确定为大于所述下限阈值且小于所述上限阈值。
5.根据权利要求4所述的方法,其特征在于,其特征在于,所述对所述样本舆情数据进行异常检测,确定所述样本舆情数据中的上限阈值和下限阈值,包括:
对所述样本舆情数据进行四分位处理,得到第一四分位数和第三四分位数;
将所述第三四分位数和所述第一四分位数的差值,确定为四分位距;
将所述第三四分位数和预设上限系数与所述四分位距之积的差值,确定所述样本舆情数据中的上限阈值;
将所述第一四分位数和预设下限系数与所述四分位距之积的差值,确定所述样本舆情数据中的下限阈值。
6.根据权利要求2所述的方法,其特征在于,在所述获取样本舆情数据之前,所述方法包括:
按照时间粒度采集历史时间段内的源舆情数据,并将所述源舆情数据存储至数据库中;
对所述源舆情数据进行数据分类和数据提取,得到所述样本舆情数据。
7.根据权利要求6所述的方法,所述对所述源舆情数据进行数据分类和数据提取,得到所述样本舆情数据,包括:
按照所述源舆情数据的来源对所述源舆情数据进行分类,得到多个类型的舆情数据;
按照预设关键词对单个类型的舆情数据进行数据提取,得到所述样本舆情数据。
8.根据权利要求1所述的方法,其特征在于,所述对所述待检测舆情数据进行预警,包括:
按照以下一种或多种方式推送针对所述待检测舆情数据的预警数据:以短信方式、邮件方式、即时通讯工具推送;
其中,所述预警数据包括:所述待检测舆情数据的异常情况和存储所述待检测舆情数据的数据库。
9.一种数据监控预警装置,其特征在于,所述装置包括:
目标数据簇确定模块,用于获取待检测舆情数据,对所述待检测舆情数据进行聚类分析,得到所述待检测舆情数据在预先建立的多个数据簇中所属的目标数据簇;
数据异常类型确定模块,用于根据预先建立的所述数据簇和数据异常类型的映射关系,确定所述目标数据簇对应的数据异常类型;其中,所述映射关系是通过对样本舆情数据进行聚类分析和异常检测确定的;
数据预警模块,用于当所述目标数据簇对应的数据异常类型属于目标异常类型时,对所述待检测舆情数据进行预警。
10.一种电子设备,其特征在于,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的数据监控预警方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的数据监控预警方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310506165.5A CN116956086A (zh) | 2023-05-06 | 2023-05-06 | 数据监控预警方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310506165.5A CN116956086A (zh) | 2023-05-06 | 2023-05-06 | 数据监控预警方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116956086A true CN116956086A (zh) | 2023-10-27 |
Family
ID=88457159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310506165.5A Pending CN116956086A (zh) | 2023-05-06 | 2023-05-06 | 数据监控预警方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116956086A (zh) |
-
2023
- 2023-05-06 CN CN202310506165.5A patent/CN116956086A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20170192872A1 (en) | Interactive detection of system anomalies | |
CN111309539A (zh) | 一种异常监测方法、装置和电子设备 | |
CN110083475B (zh) | 一种异常数据的检测方法及装置 | |
CN111427974A (zh) | 数据质量评估管理方法和装置 | |
WO2023134188A1 (zh) | 指标确定方法、装置、电子设备和计算机可读介质 | |
CN114202256B (zh) | 架构升级预警方法、装置、智能终端及可读存储介质 | |
CN113111139A (zh) | 一种基于物联传感器的告警检测方法和装置 | |
CN116756616A (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
US11636377B1 (en) | Artificial intelligence system incorporating automatic model updates based on change point detection using time series decomposing and clustering | |
US11651271B1 (en) | Artificial intelligence system incorporating automatic model updates based on change point detection using likelihood ratios | |
CN116956086A (zh) | 数据监控预警方法、装置、电子设备及存储介质 | |
CN113778781B (zh) | 数据的监控的方法和装置 | |
CN115408236A (zh) | 一种日志数据审计系统、方法、设备及介质 | |
CN111275466B (zh) | 一种超期单量预警的方法和装置 | |
CN111767938B (zh) | 一种异常数据检测方法、装置及电子设备 | |
CN113052509A (zh) | 模型评估方法、模型评估装置、电子设备和存储介质 | |
CN113537519A (zh) | 一种识别异常设备的方法和装置 | |
CN112131381A (zh) | 警情高发地的识别方法、装置、电子设备及存储介质 | |
CN114089712B (zh) | 一种数据处理方法和装置 | |
CN112906723A (zh) | 一种特征选择的方法和装置 | |
CN113434713B (zh) | 一种基于一张图的林业大数据建设方法及系统 | |
CN111813765B (zh) | 一种异常数据处理的方法、装置、电子设备、计算机可读介质 | |
CN116361112B (zh) | 一种告警收敛方法和装置 | |
CN113362097B (zh) | 一种用户确定方法和装置 | |
CN117371856A (zh) | 数据质量的监控方法、装置、存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |