CN116561607A - 资源交互数据异常检测方法、装置和计算机设备 - Google Patents
资源交互数据异常检测方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN116561607A CN116561607A CN202310566742.XA CN202310566742A CN116561607A CN 116561607 A CN116561607 A CN 116561607A CN 202310566742 A CN202310566742 A CN 202310566742A CN 116561607 A CN116561607 A CN 116561607A
- Authority
- CN
- China
- Prior art keywords
- interaction data
- data
- resource interaction
- data set
- resource
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 736
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000005856 abnormality Effects 0.000 title abstract description 32
- 238000001514 detection method Methods 0.000 claims abstract description 44
- 230000002159 abnormal effect Effects 0.000 claims abstract description 16
- 238000004590 computer program Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 9
- 230000002452 interceptive effect Effects 0.000 abstract description 16
- 239000004973 liquid crystal related substance Substances 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种资源交互数据异常检测方法、装置和计算机设备,涉及大数据技术领域。该方法包括:获取携带时间标识的待检测资源交互数据,以及与待检测资源交互数据相关联的资源交互数据,形成包含预设个数的资源交互数据集合;从预先构建的多个交互数据集合类别中,获取与资源交互数据集合相关联的目标交互数据集合类别;获取目标交互数据集合类别对应的聚类中心数据集合;从聚类中心数据集合中,确定与待检测资源交互数据对应的目标聚类中心数据;根据待检测资源交互数据,与目标聚类中心数据之间的相似程度数据,确定待检测资源交互数据的数据状态。采用本方法能够有效完成对待检测资源交互数据的异常检测,并且能够保证异常检测的准确性。
Description
技术领域
本申请涉及大数据技术领域,特别是涉及一种资源交互数据异常检测方法、装置和计算机设备。
背景技术
随着社会科技发展,社会之间的资源交互更加紧密且频繁,在资源交互过程中,会产生大量的资源交互数据。资源交互数据往往是分析资源交互等社会活动的数据基础。因此,资源交互数据的准确性起着至关重要的作用,特别是针对资源交互过程中产生的携带时间标识的资源交互数据(时间序列数据)。资源管理机构在上报资源交互数据时,必须保证数据的准确性、完整性。
现有技术中,缺乏针对携带时间标识的资源交互数据的异常检测方法。
发明内容
基于此,有必要针对上述技术问题,提供一种能够有效检测资源交互数据是否异常的资源交互数据异常检测方法、装置和计算机设备。
第一方面,本申请提供了一种资源交互数据异常检测方法,该方法包括:
获取携带时间标识的待检测资源交互数据,以及与待检测资源交互数据相关联的资源交互数据,形成包含预设个数的资源交互数据集合;预设个数的资源交互数据携带有连续的时间标识;
从预先构建的多个交互数据集合类别中,获取与资源交互数据集合相关联的目标交互数据集合类别;
获取目标交互数据集合类别对应的,包含有预设个数的聚类中心数据的聚类中心数据集合;
从聚类中心数据集合中,确定与待检测资源交互数据对应的目标聚类中心数据;
根据待检测资源交互数据,与目标聚类中心数据之间的相似程度数据,确定待检测资源交互数据的数据状态。
在其中一个实施例中,从预先构建的多个交互数据集合类别中,获取与资源交互数据集合相关联的目标交互数据集合类别之前,包括:
获取多个样本资源交互数据集合;各样本资源交互数据集合包括预设个数携带时间标识的样本资源交互数据,各样本资源交互数据携带有连续的时间标识;
对多个样本资源交互数据集合进行分类,确定多个交互数据集合类别,以及各交互数据集合类别对应的聚类中心数据集合;
从预先构建的多个交互数据集合类别中,获取与资源交互数据集合相关联的目标交互数据集合类别,包括:
根据资源交互数据集合,与各交互数据集合类别对应的聚类中心数据集合之间的集合相似度,确定目标交互数据集合类别。
在其中一个实施例中,对多个样本资源交互数据集合进行分类,确定多个交互数据集合类别,包括:
获取任意两个样本资源交互数据集合之间的集合相似度;
根据多个集合相似度的聚类结果,得到多个交互数据集合类别。
在其中一个实施例中,根据多个集合相似度的聚类结果,得到多个交互数据集合类别,包括:
根据聚类结果,对多个样本资源交互数据集合进行分类,得到多个候选交互数据集合类别;
将满足预设校验条件的候选交互数据集合类别作为交互数据集合类别。
在其中一个实施例中,将满足预设校验条件的候选交互数据集合类别作为交互数据集合类别,包括:
获取当前候选交互数据集合类别对应的,包括预设个数的聚类中心数据的聚类中心数据集合,和包括预设个数的差异程度数据的差异程度数据集合;
从聚类中心数据集合中,获取与当前样本资源交互数据对应的当前聚类中心数据,并从差异程度数据集合中获取,获取与当前样本资源交互数据对应的当前差异程度数据;当前样本资源交互数据为当前候选交互数据集合中包含的任意一个样本资源交互数据;
在当前样本资源交互数据和当前聚类中心数据的相似程度数据,小于当前差异程度数据的预设倍数的情况下,将当前候选交互数据集合类别作为交互数据集合类别。
在其中一个实施例中,获取任意两个样本资源交互数据集合之间的集合相似度,包括:
将各样本资源交互数据集合进行归一化处理,得到归一化后的样本资源交互数据集合;
将任意两个归一化后的样本资源交互数据集合之间的集合相似度,作为任意两个样本资源交互数据集合之间的集合相似度。
在其中一个实施例中,根据待检测资源交互数据,与目标聚类中心数据之间的相似程度数据,确定待检测资源交互数据的数据状态,包括:
获取目标交互数据集合类别对应的目标差异程度数据集合;目标差异程度数据集合包括预设个数的目标差异程度数据;
从目标差异程度数据集合,确定与待检测资源交互数据对应的目标差异程度数据;
获取待检测资源交互数据与目标聚类中心数据之间的相似程度数据,并根据相似程度数据以及目标差异程度数据,确定待检测资源交互数据的数据状态。
在其中一个实施例中,从聚类中心数据集合中,确定与待检测资源交互数据对应的目标聚类中心数据,包括:
基于待检测资源交互数据在资源交互数据集合中的时间标识顺序,从聚类中心数据集合包含的聚类中心数据中,确定与时间标识顺序相对应的目标聚类中心数据;
从目标差异程度数据集合,确定与待检测资源交互数据对应的目标差异程度数据,包括:
基于待检测资源交互数据在资源交互数据集合中的时间标识顺序,从目标差异程度数据集合包含的差异程度数据中,确定与时间标识顺序相对应的目标差异程度数据。
在其中一个实施例中,根据相似程度数据以及目标差异程度数据,确定待检测资源交互数据的数据状态,包括:
在相似程度数据小于目标差异程度数据的预设倍数的情况下,将待检测资源交互数据的数据状态确认为正常状态;
在相似程度数据大于或者等于目标差异程度数据的预设倍数的情况下,将待检测资源交互数据的数据状态确认为异常状态。
第二方面,本申请还提供了一种资源交互数据异常检测装置,该装置包括:
待检测数据获取模块,用于获取携带时间标识的待检测资源交互数据,以及与待检测资源交互数据相关联的资源交互数据,形成包含预设个数的资源交互数据集合;预设个数的资源交互数据携带有连续的时间标识
目标类别获取模块,用于从预先构建的多个交互数据集合类别中,获取与资源交互数据集合相关联的目标交互数据集合类别;
中心数据集合获取模块,用于获取目标交互数据集合类别对应的,包含有预设个数的聚类中心数据的聚类中心数据集合;
聚类中心数据确定模块,用于从聚类中心数据集合中,确定与待检测资源交互数据对应的目标聚类中心数据;
数据状态确定模块,用于根据待检测资源交互数据,与目标聚类中心数据之间的相似程度数据,确定待检测资源交互数据的数据状态。
第三方面,本申请还提供了一种计算机设备。该计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述的方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。该计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。该计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。
上述资源交互数据异常检测方法、装置和计算机设备,通过获取携带时间标识的待检测资源交互数据,以及与待检测资源交互数据相关联的资源交互数据,形成包含预设个数的资源交互数据集合;预设个数的资源交互数据携带有连续的时间标识;通过从预先构建的多个交互数据集合类别中,获取与资源交互数据集合相关联的目标交互数据集合类别;并且通过获取目标交互数据集合类别对应的,包含有预设个数的聚类中心数据的聚类中心数据集合;从聚类中心数据集合中,确定与待检测资源交互数据对应的目标聚类中心数据;通过根据待检测资源交互数据,与目标聚类中心数据之间的相似程度数据,确定待检测资源交互数据的数据状态。本申请通过将待检测资源交互数据所在的资源交互数据集合分到相对应的目标交互数据集合类别中,能够有效地完成对待检测资源交互数据进行分类;并根据目标交互数据集合类别对应的聚类中心数据集合中,与待检测资源交互数据相关联的目标聚类中心数据,对待检测资源交互数据进行异常检测,能够基于将待检测资源交互数据与分类后的聚类中心数据进行异常检测,从而能够有效完成对待检测资源交互数据的异常检测,并且能够保证异常检测的准确性。
附图说明
图1为一个实施例中资源交互数据异常检测方法的流程示意图;
图2为另一个实施例中资源交互数据异常检测方法的流程示意图;
图3为一个实施例中多个交互数据集合类别获取步骤的流程示意图;
图4为另一个实施例中多个交互数据集合类别获取步骤的流程示意图;
图5为另一个实施例中确定待检测资源交互数据的数据状态步骤的流程示意图;
图6为一个实施例中资源交互数据异常检测装置的结构框图;
图7一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种资源交互数据异常检测方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
S102,获取携带时间标识的待检测资源交互数据,以及与待检测资源交互数据相关联的资源交互数据,形成包含预设个数的资源交互数据集合;预设个数的资源交互数据携带有连续的时间标识。
其中,时间标识可以是对某一个时间进行记录后得到的时间标签。待检测资源交互数据可以是某一个时间内获取得到的资源交互数据,可以对该资源交互数据进行异常检测,该资源交互数据作为待检测资源交互数据。携带时间标识的待检测资源交互数据可以是在产生资源交互数据的时间内,对该资源交互数据打上当前产生该资源交互数据的时间,以得到携带有时间标识的资源交互数据;可以将任意一个待检测的携带有时间标识的资源交互数据,作为携带时间标识的待检测资源交互数据。相关联的资源交互数据可以是携带有时间标识的资源交互数据,并且相关联的资源交互数据和待检测资源交互数据携带的时间标识是连续的时间标识。例如,待检测资源交互数据携带的时间标识是2023年1月1日,则多个相关联的资源交互数据携带的时间标识可以是2022年12月31日、2023年1月2日、2023年1月3日。预设个数可以是待检测资源交互数据和相关联的资源交互数据的总和。资源交互数据集合可以是待检测资源交互数据和相关联的资源交互数据形成的数据集合。
例如,选取2022年1月1日的资源交互数据α,作为检测资源交互数据,与该资源交互数据相关联的2021年12月22日至2021年12月31日分别对应的资源交互数据α1,α2,...,α9组成资源交互数据集合A(α1,α2,..,α9,α)。
示例性地,可以获取待检测的资源交互数据,以及和待检测的资源交互数据相关联的资源交互数据;上述的多个资源交互数据均携带有时间标识,且携带的时间标识是连续的时间标识,即时间标识是连续的。基于上述的多个资源交互数据形成资源交互数据集合,资源交互数据集合中是包含有待检测资源交互数据的;同时,资源交互数据集合中的各个资源交互数据都可以作为待检测资源交互数据。如此,可以基于连续时间标识的资源交互数据进行待检测资源交互数据的异常检测,能够基于资源交互数据的时间特性进行异常检测,从而能够提高对资源交互数据进行异常检测的准确性。
S104,从预先构建的多个交互数据集合类别中,获取与资源交互数据集合相关联的目标交互数据集合类别。
其中,交互数据集合类别可以是针对资源交互数据集合进行分类后得到的类别,交互数据集合类别可以是预先分类好的类别;交互数据集合类别可以是根据多个样本资源交互数据集合进行分类得到的类别;例如,可以是对多个样本资源交互数据集合A、B、C、D进行分类,得到分类结果,将样本资源交互数据集合A、B分在第一交互数据集合类别,将C、D分在第二交互数据集合类别,如此,第一交互数据集合类别和第二交互数据集合类别均为预先构建好的交互数据集合类别。目标交互数据集合类别可以是资源交互数据集合对应的类别,例如,目标交互数据集合类别可以是将资源交互数据集合所在的类别,即可以将资源交互数据集合分到目标交互数据集合类别中。
示例性地,可以获取预先构建的多个交互数据集合类别,并且根据资源交互数据集合与交互数据集合类别的相关对应关系,将资源交互数据集合分到对应的交互数据集合类别中,并且将该对应的交互数据集合类别作为目标交互数据集合类别。如此,可以将资源交互数据集合归类到其所述的类别中,并且基于所在的目标交互数据集合类别对应的数据集合进行待检测资源交互数据的异常检测处理,能够保证对待检测资源交互数据进行异常检测的准确性。
例如,预先构建的多个交互数据集合类别可以包括第一交互数据集合类别、第二交互数据集合类别、第三交互数据集合类别,可以获取资源交互数据集合与各个交互数据集合类别之间的关联程度,并且基于各个关联程度,将与资源交互数据集合关联程度最大的交互数据集合类别作为目标交互数据集合类别。例如,第一交互数据集合类别和资源交互数据集合关联程度为50%,第二交互数据集合类别和资源交互数据集合关联程度为30%,第三交互数据集合类别和资源交互数据集合关联程度为90%,则可以将第三交互数据集合类别作为目标交互数据集合类别。
S106,获取目标交互数据集合类别对应的,包含有预设个数的聚类中心数据的聚类中心数据集合。
其中,聚类中心数据可以是目标交互数据集合类别中包含的多个样本资源交互数据集合的数据中心值。样本资源交互数据集合中包含的资源交互数据的数量和资源交互数据集合中包含的资源交互数据的数量相同,并且多个样本资源交互数据集合中包含的资源交互数据也可以是携带有连续时间标识的数据。目标交互数据集合类别中包含的样本资源交互数据集合中,如果样本资源交互数据集合的资源交互数据的数量为预设个数,则目标交互数据集合类别对应的聚类中心数据也可以是预设个数;例如,各个样本资源交互数据集合中的资源交互数据的数量为10个,则可以根据各个样本资源交互数据集合中10个分别对应的资源交互数据计算得到10个聚类中心数据。聚类中心数据集合可以是预设个数的聚类中心数据形成的数据集合。
示例性地,可以根据目标交互数据集合类别包含的多个样本资源交互数据集合,计算得到样本资源交互数据集合中每个资源交互数据对应的聚类中心数据,多个样本资源交互数据集合包含有预设个数的资源交互数据,则可以根据预设个数的聚类中心数据形成聚类中心数据集合。如此,可以基于聚类中心数据集合对资源交互数据集合包含的待检测资源交互数据进行异常检测,能够保证异常检测的准确性。
例如,包含有待检测资源交互数据的资源交互数据集合中,资源交互数据的数量为10个,则资源交互数据集合所对应的目标交互数据集合类别中包含的各个样本资源交互数据集合的资源交互数据的数量也为10个,可以根据各个样本资源交互数据集合中包含的10个资源交互数据携带的时间标识的对应关系,对多个样本资源交互数据集合中的10个资源交互数据对应计算得到10个聚类中心数据,10个聚类中心数据形成聚类中心数据集合。例如,目标交互数据集合类别中包含多个样本资源交互数据集合A、B、C,样本资源交互数据集合A包含有资源交互数据a1、b1、c1,样本资源交互数据集合B包含有资源交互数据a2、b2、c2,样本资源交互数据集合C包含有资源交互数据a3、b3、c3,并且a1、a2、a3所携带的时间标识相对应,b1、ab、b3所携带的时间标识相对应,c1、c2、c3所携带的时间标识相对应;可以根据a1、a2、a3计算得到聚类中心数据am,可以根据b1、b2、b3计算得到聚类中心数据bm,可以根据c1、c2、c3计算得到聚类中心数据cm。聚类中心数据am、bm、cm形成目标交互数据集合类别对应的聚类中心数据集合。
S108,从聚类中心数据集合中,确定与待检测资源交互数据对应的目标聚类中心数据。
其中,目标聚类中心数据可以是与待检测资源交互数据携带的时间标识相对应的聚类中心数据。例如可以是按照时间标识的排序对应,如待检测资源交互数据携带的时间标识在资源交互数据集合中的排序为5,则待检测资源交互数据对应的目标聚类中心数据携带的时间标识在聚类中心数据集合中的排序也可以是5。
示例性地,可以根据待检测资源交互数据携带的时间标识,根据时间标识,获取与时间标识对应的聚类中心数据,并将该与时间标识对应的聚类中心数据作为目标聚类中心数据。如此,可以根据与待检测资源交互数据相关联的聚类中心数据进行异常检测,能够保证待检测资源交互数据进行异常检测的准确性。
例如,可以待检测资源交互数据携带的时间标识在其对应的资源交互数据集合中的排序为5,则将聚类中心数据集合中时间标识排序为的5的聚类中心数据作为目标聚类中心数据。时间标识排序可以是根据时间先后进行排序,例如,时间标识包括3月1日,3月2日,2月28日,则时间标识排序可以是2月28日、3月1日、3月2日,即2月28日排序为1,3月1日排序为2,3月2日排序为3。
S110,根据待检测资源交互数据,与目标聚类中心数据之间的相似程度数据,确定待检测资源交互数据的数据状态。
其中,相似程度数据可以是相似度数据,可以是距离数据;例如,可以通过计算待检测资源交互数据和目标聚类中心数据之间的二范数,作为相似程度数据。数据状态可以用于表征待检测资源交互数据是否异常。
示例性地,可以获取待检测资源交互数据,与目标聚类中心数据之间的距离,作为相似程度数据,进一步可以根据相似程度数据,确定待检测资源交互数据的数据状态。例如,如果相似程度数据可以满足预先设定的相似程度条件,则可以将待检测资源交互数据确认为正常数据,如果相似程度数据不满足预先设定的相似程度条件则可以将待检测资源交互数据确认为异常数据。如此,可以有效地对待检测资源交互数据进行异常检测,同时保证异常检测的准确性。
本实施例中,通过获取携带时间标识的待检测资源交互数据,以及与待检测资源交互数据相关联的资源交互数据,形成包含预设个数的资源交互数据集合;预设个数的资源交互数据携带有连续的时间标识;通过从预先构建的多个交互数据集合类别中,获取与资源交互数据集合相关联的目标交互数据集合类别;并且通过获取目标交互数据集合类别对应的,包含有预设个数的聚类中心数据的聚类中心数据集合;从聚类中心数据集合中,确定与待检测资源交互数据对应的目标聚类中心数据;通过根据待检测资源交互数据,与目标聚类中心数据之间的相似程度数据,确定待检测资源交互数据的数据状态。本实施例通过将待检测资源交互数据所在的资源交互数据集合分到相对应的目标交互数据集合类别中,能够有效地完成对待检测资源交互数据进行分类;并根据目标交互数据集合类别对应的聚类中心数据集合中,与待检测资源交互数据相关联的目标聚类中心数据,对待检测资源交互数据进行异常检测,能够基于将待检测资源交互数据与分类后的聚类中心数据进行异常检测,从而能够有效完成对待检测资源交互数据的异常检测,并且能够保证异常检测的准确性。
在一个实施例中,如图2所示,从预先构建的多个交互数据集合类别中,获取与资源交互数据集合相关联的目标交互数据集合类别之前,包括:
S202,获取多个样本资源交互数据集合;各样本资源交互数据集合包括预设个数携带时间标识的样本资源交互数据,各样本资源交互数据携带有连续的时间标识。
S204,对多个样本资源交互数据集合进行分类,确定多个交互数据集合类别,以及各交互数据集合类别对应的聚类中心数据集合。
其中,样本资源交互数据集合可以是根据多个样本资源交互数据形成的数据集合。例如,样本资源交互数据集合M可以包含有多个样本资源交互数据m1、m2、m3;样本资源交互数据集合N可以包含有多个样本资源交互数据n1、n2、n3。样本资源交互数据携带有时间标识的资源交互数据,样本资源交互数据可以是数据正常的资源交互数据。样本资源交互数据集合中包含的多个样本资源交互数据所携带的时间标识是连续的时间标识。
示例性地,可以利用多个样本资源交互数据集合,进行预先构建交互数据集合类别。例如,可以是对样本资源交互数据集合进行分类处理,得到分类后的至少一个交互数据集合类别。其中,各个样本资源交互数据集合中包含的样本资源交互数据的数量应该与包含有待检测资源交互数据的资源交互数据集合中的资源交互数据的数量相同,即各个资源交互数据集合中的样本资源交互数据和资源交互数据集合中的资源交互数据的数量都应该同样的预设个数,例如,资源交互数据集合中的样本资源交互数据和资源交互数据集合中的资源交互数据的数量都可以是10个。如此,可以基于交互数据集合类别中包含的样本资源交互数据集合中的资源交互数据和资源交互数据集合中的资源交互数据的数量相同,能够保证对资源交互数据集合中包含的待检测资源交互数据进行异常检测的准确性。
示例性地,可以根据各交互数据集合类别中所包含的样本资源交互数据集合,计算得到各交互数据集合类别对应的聚类中心数据集合。聚类中心数据集合中包含的聚类中心数据的数量可以与样本资源交互数据集合包含的样本资源交互数据的数量相同。例如,可以根据多个样本资源交互数据集合中包含携带的时间标识,确定多个样本资源交互数据集合之间相关联的样本资源交互数据,并且根据时间标识的相关联关系,对存在相关联时间标识的样本资源交互数据计算得到多个聚类中心数据。各交互数据集合类别对应的聚类中心数据集合的获取方式,可以同上述目标交互数据集合类别对应的聚类中心数据集合的获取方式一致。
从预先构建的多个交互数据集合类别中,获取与资源交互数据集合相关联的目标交互数据集合类别,包括:
S206,根据资源交互数据集合,与各交互数据集合类别对应的聚类中心数据集合之间的集合相似度,确定目标交互数据集合类别。
其中,集合相似度可以是资源交互数据集合和聚类中心数据集合之间的距离,例如,可以用资源交互数据集合和聚类中心数据集合之间的余弦距离来表征集合相似度。
示例性地,可以获取资源交互数据集合,和各交互数据集合类别对应的聚类中心数据集合之间的集合相似度。根据各个集合相似度,确定目标交互数据集合类别。例如,可以将多个集合相似度中,最大的集合相似度对应的交互数据集合类别作为目标交互数据集合类别。如此,根据资源交互数据集合和聚类中心数据集合之间的集合相似度,确定目标交互数据集合类别,能够提高对资源交互数据集合进行分类的准确性,从而能够提高对资源交互数据集合包含的待检测资源交互数据进行异常检测的准确性。
本实施例中,通过多个样本资源交互数据集合进行分类,构建多个交互数据集合类别,如此,能够为资源交互数据集合进行分类提供类别基础,通过资源交互数据集合和聚类中心数据集合之间的集合相似度,对资源交互数据集合进行分类,能够提高对资源交互数据集合包含的待检测资源交互数据进行异常检测的准确性。
在一个实施例中,对多个样本资源交互数据集合进行分类,确定多个交互数据集合类别,包括:
获取任意两个样本资源交互数据集合之间的集合相似度;
根据多个集合相似度的聚类结果,得到多个交互数据集合类别。
其中,集合相似度可以是样本资源交互数据集合之间的距离,例如,可以用样本资源交互数据集合之间的余弦距离来表征集合相似度。聚类结果可以根据集合相似度进行聚类,得到的聚类结果。
示例性地,可以获取任意两个样本资源交互数据集合之间的余弦距离,作为相似度集合。对多个集合相似度的聚类结果利用任意一种聚类方法进行聚类,得到聚类结果,得到多个交互数据集合类别。如此,能够有效地构建交互数据集合类别。
可选地,可以通过以下公式(1)计算集合相似度:
其中,dij为集合相似度;为样本资源交互数据集合i,/>为样本资源交互数据集合j;/>为/>中包含的样本资源交互数据,/>为/>中包含的样本资源交互数据;n为/>包含的样本资源交互数据的数量,/>中包含的样本资源交互数据的数量与/>包含的样本资源交互数据的数量相同。
本实施例中,通过获取任意两个样本资源交互数据集合之间的集合相似度;并根据多个集合相似度的聚类结果,得到多个交互数据集合类别。如此,能够有效地构建交互数据集合类别,从而可提高对待检测资源交互数据进行异常检测的准确性。
在一个实施例中,如图3所示,根据多个集合相似度的聚类结果,得到多个交互数据集合类别,包括:
S302,根据聚类结果,对多个样本资源交互数据集合进行分类,得到多个候选交互数据集合类别;
S304,将满足预设校验条件的候选交互数据集合类别作为交互数据集合类别。
其中,候选交互数据集合类别可以是进行分类聚类后得到的交互数据集合类别。预设校验条件可以是预先设定的对候选交互数据集合类别进行校验的条件。
示例性地,可以根据聚类结果,对多个样本资源交互数据集合进行分类,得到分类后的候选交互数据集合类别。利用预设校验条件,对预设校验条件进行校验,如果候选交互数据集合类别满足预设校验条件,则可以将该候选交互数据集合类别作为交互数据集合类别。如此,可以提高交互数据集合类别的准确性。
例如,可以使得两两样本资源交互数据集合之间的距离和最小的情况下,对多个样本资源交互数据集合进行分类。
本实施例中,通过对分类得到的候选交互数据集合类别进行校验,能够提高构建交互数据集合类别的准确性,从而可以提高对待检测资源交互数据进行异常检测的准确性。
在一个实施例中,如图4所示,将满足预设校验条件的候选交互数据集合类别作为交互数据集合类别,包括:
S402,获取当前候选交互数据集合类别对应的,包括预设个数的聚类中心数据的聚类中心数据集合,和包括预设个数的差异程度数据的差异程度数据集合;
其中,当前候选交互数据集合类别可以是任意一个候选交互数据集合类别,可以针对任意一个候选交互数据集合类别,利用本实施例提供的方法进行处理。差异程度数据可以是候选交互数据集合类别中包含的多个样本资源交互数据之间的差异程度数据,差异程度数据可以是标准差。差异程度数据集合可以是多个差异程度数据形成的数据集合,例如可以是预设个数的差异程度数据形成的数据集合。
示例性地,可以根据当前候选交互数据集合类别包含的多个样本资源交互数据集合,计算得到样本资源交互数据集合中每个资源交互数据对应的差异程度数据,多个样本资源交互数据集合包含有预设个数的资源交互数据,则可以根据预设个数的差异程度数据形成差异程度数据集合。
例如,当前候选交互数据集合类别中包含的各个样本资源交互数据集合的资源交互数据的数量为10个,可以根据各个样本资源交互数据集合中包含的10个资源交互数据携带的时间标识的对应关系,对多个样本资源交互数据集合中的10个资源交互数据对应计算得到10个差异程度数据,10个差异程度数据形成差异程度数据集合。例如,当前候选交互数据集合类别中包含多个样本资源交互数据集合A、B、C,样本资源交互数据集合A包含有资源交互数据a1、b1、c1,样本资源交互数据集合B包含有资源交互数据a2、b2、c2,样本资源交互数据集合C包含有资源交互数据a3、b3、c3,并且a1、a2、a3所携带的时间标识相对应,b1、ab、b3所携带的时间标识相对应,c1、c2、c3所携带的时间标识相对应;可以根据a1、a2、a3计算得到差异程度数据an,可以根据b1、b2、b3计算得到差异程度数据bn,可以根据c1、c2、c3计算得到差异程度数据cn。差异程度数据an、bn、cn形成差异程度数据集合,
S404,从聚类中心数据集合中,获取与当前样本资源交互数据对应的当前聚类中心数据,并从差异程度数据集合中获取,获取与当前样本资源交互数据对应的当前差异程度数据;当前样本资源交互数据为当前候选交互数据集合中包含的任意一个样本资源交互数据。
其中,当前样本资源交互数据可以是当前候选交互数据集合类别中的任意一个样本资源交互数据。可以针对任意一个样本资源交互数据,利用本实施例提供的方法进行处理。当前聚类中心数据指的是与当前样本资源交互数据相关联的聚类中心数据。当前差异程度数据指的是与前样本资源交互数据相关联的差异程度数据。
示例性地,可以根据当前样本资源交互数据携带的时间标识,根据时间标识,从聚类中心数据集合中,获取与时间标识对应的聚类中心数据,并将该与时间标识对应的聚类中心数据作为当前样本资源交互数据对应的当前聚类中心数据。可以根据当前样本资源交互数据携带的时间标识,根据时间标识,从差异程度数据集合中,获取与时间标识对应的差异程度数据,并将该与时间标识对应的差异程度数据作为当前样本资源交互数据对应的当前差异程度数据。
S406,在当前样本资源交互数据和当前聚类中心数据的相似程度数据,小于当前差异程度数据的预设倍数的情况下,将当前候选交互数据集合类别作为交互数据集合类别。
其中,相似程度数据可以用当前样本资源交互数据和当前聚类中心数据之间的二范数进行表征。预设倍数可以是3倍。
示例性地,可以获取当前样本资源交互数据和当前聚类中心数据的相似程度数据,并将相似程度数据和当前差异程度数据的预设倍数进行比较,如果对于当前候选交互数据集合类别中的任意一个样本资源交互数据,任意一个样本资源交互数据对应的相似程度数据小于当前差异程度数据的预设倍数,则将当前候选交互数据集合类别作为交互数据集合类别。如果当前候选交互数据集合类别中的任意一个样本资源交互数据对应的相似程度数据大于或者等于当前差异程度数据的预设倍数,则可以将该当前候选交互数据集合类别剔除,不作为预先构建的交互数据集合类别。
可选地,可以根据以下公式(2)(3)对当前候选交互数据集合类别进行聚类、校验:
其中,分别为任意两个样本资源交互数据集合;/>为任意两个样本资源交互数据集合之间的距离;||Ωl||为样本资源交互数据集合的元素个数;L为类别个数。/>
其中,为当前样本资源交互数据;/>为当前聚类中心数据;/>为当前差异程度数据。
本实施例中,通过根据当前样本资源交互数据和当前聚类中心数据的相似程度数据、与当前差异程度数据的预设倍数进行比较,并根据比较结果确定当前候选交互数据集合类别是否满足校验条件,如果相似程度数据,小于当前差异程度数据的预设倍数,将当前候选交互数据集合类别作为交互数据集合类别,能够提高构建交互数据集合类别进行异常检测的准确性,从而能够提高对待检测资源交互数据的准确性。
在一个实施例中,获取任意两个样本资源交互数据集合之间的集合相似度,包括:
将各样本资源交互数据集合进行归一化处理,得到归一化后的样本资源交互数据集合;
将任意两个归一化后的样本资源交互数据集合之间的集合相似度,作为任意两个样本资源交互数据集合之间的集合相似度。
示例性地,可以对样本资源交互数据集合进行归一化处理,得到归一化后的样本资源交互数据集合,并且将任意两个归一化后的样本资源交互数据集合之间的集合相似度,作为任意两个样本资源交互数据集合之间的集合相似度。
可选地,可以根据以下公式(4)进行归一化处理:
其中,为样本资源交互数据,Ak为样本资源交互数据集合,n为样本资源交互数据的数量。
本实施例中,通过将各样本资源交互数据集合进行归一化处理,得到归一化后的样本资源交互数据集合,能够提高对样本资源交互数据集合进行处理的准确性,从而能够保证有效对待检测资源交互数据进行异常检测。
在一个实施例中,如图5所示,根据待检测资源交互数据,与目标聚类中心数据之间的相似程度数据,确定待检测资源交互数据的数据状态,包括:
S502,获取目标交互数据集合类别对应的目标差异程度数据集合;目标差异程度数据集合包括预设个数的目标差异程度数据;
S504,从目标差异程度数据集合,确定与待检测资源交互数据对应的目标差异程度数据;
S506,获取待检测资源交互数据与目标聚类中心数据之间的相似程度数据,并根据相似程度数据以及目标差异程度数据,确定待检测资源交互数据的数据状态。
其中,目标差异程度数据集合可以是目标交互数据集合类别对应的数据集合,目标差异程度数据集合可以多个差异程度数据形成的数据集合。目标差异程度数据可以是与待检测资源交互数据携带的时间标识相对应的差异程度数据;例如可以是按照时间标识的排序对应,如待检测资源交互数据携带的时间标识在资源交互数据集合中的排序为5,则待检测资源交互数据对应的目标差异程度数据携带的时间标识在目标差异程度数据集合中的排序也可以是5。
示例性地,可以根据目标交互数据集合类别包含的多个样本资源交互数据集合,计算得到样本资源交互数据集合中每个资源交互数据对应的差异程度数据。多个样本资源交互数据集合包含有预设个数的资源交互数据,则可以根据预设个数的差异程度数据形成差异程度数据集合。
可以根据待检测资源交互数据携带的时间标识,根据时间标识,获取与时间标识对应的差异程度数据,并将该与时间标识对应的差异程度数据作为目标差异程度数据。
可以获取待检测资源交互数据与目标聚类中心数据之间的相似程度数据,并将相似程度数据和目标差异程度数据进行比较,根据比较结果确定待检测资源交互数据的数据状态。
本实施例中,通过获取待检测资源交互数据与目标聚类中心数据之间的相似程度数据,并根据相似程度数据以及目标差异程度数据,确定待检测资源交互数据的数据状态,能够提高对待检测资源交互数据进行异常检测的准确性。
在一个实施例中,从聚类中心数据集合中,确定与待检测资源交互数据对应的目标聚类中心数据,包括:
基于待检测资源交互数据在资源交互数据集合中的时间标识顺序,从聚类中心数据集合包含的聚类中心数据中,确定与时间标识顺序相对应的目标聚类中心数据。
其中,时间标识顺序可以是时间的排序,例如可以是日期的先后顺序。
示例性地,可以根据待检测资源交互数据在资源交互数据集合中的时间标识顺序,确定与时间标识顺序相对应的聚类中心数据;并将与时间标识顺序相对应的聚类中心数据作为目标聚类中心数据。
例如,资源交互数据集合中包含的资源交互数据携带的时间标识分别为2月28日、3月1日、3月2日,并且时间标识2月28日对应的资源交互数据为待检测资源交互数据。聚类中心数据集合包含的聚类中心数据携带的时间标识分别为6月10日、6月11日、6月12日。待检测资源交互数据携带的时间标识在资源交互数据集合中的时间标识顺序为1,则将聚类中心数据集合的时间标识顺序为1的6月10日对应的聚类中心数据作为目标聚类中心数据。
从目标差异程度数据集合,确定与待检测资源交互数据对应的目标差异程度数据,包括:
基于待检测资源交互数据在资源交互数据集合中的时间标识顺序,从目标差异程度数据集合包含的差异程度数据中,确定与时间标识顺序相对应的目标差异程度数据。
示例性地,可以根据待检测资源交互数据在资源交互数据集合中的时间标识顺序,确定与时间标识顺序相对应的差异程度数据;并将与时间标识顺序相对应的差异程度数据作为目标差异程度数据。
例如,差异程度数据集合包含的差异程度数据携带的时间标识分别为6月10日、6月11日、6月12日。待检测资源交互数据携带的时间标识在资源交互数据集合中的时间标识顺序为1,则将差异程度数据集合的时间标识顺序为1的6月10日对应的差异程度数据作为目标聚类中心数据。
本实施例中,通过从聚类中心数据集合包含的聚类中心数据中,确定与时间标识顺序相对应的目标聚类中心数据,并且从目标差异程度数据集合包含的差异程度数据中,确定与时间标识顺序相对应的目标差异程度数据,能够提高确定目标聚类中心数据和目标差异程度数据的准确性,从而能够提高对检测资源交互数据进行异常检测的准确性。
在一个实施例中,根据相似程度数据以及目标差异程度数据,确定待检测资源交互数据的数据状态,包括:
在相似程度数据小于目标差异程度数据的预设倍数的情况下,将待检测资源交互数据的数据状态确认为正常状态;
在相似程度数据大于或者等于目标差异程度数据的预设倍数的情况下,将待检测资源交互数据的数据状态确认为异常状态。
示例性地,预设倍数可以是3倍。如果相似程度数据小于目标差异程度数据的预设倍数,将待检测资源交互数据的数据状态确认为正常状态。如果相似程度数据大于或者等于目标差异程度数据的预设倍数,将待检测资源交互数据的数据状态确认为异常状态。
例如,相似程度数据可以是距离,差异程度数据可以是标准差,如果距离小于3倍标准差,则待检测资源交互数据为正常数据。如果距离大于或者等于3倍标准差,则待检测资源交互数据为异常数据
本实施例中,在相似程度数据小于目标差异程度数据的预设倍数的情况下,将待检测资源交互数据的数据状态确认为正常状态;在相似程度数据大于或者等于目标差异程度数据的预设倍数的情况下,将待检测资源交互数据的数据状态确认为异常状态。如此,能够有效对待检测资源交互数据进行异常检测,并且能够保证异常检测的准确性。
在一个实施例中,提供了一种资源交互数据异常检测方法,该方法包括以下步骤:
选取同一指标下2017年1月1号至2021年12月31号连续5年的资源交互数据ai(i=1,2,..)。可以考虑到资源交互数据的时间特性,按照时间序列,从2017年1月1号起,每10个连续的资源交互数据移动分割为1组资源交互数据集合Ak(ak,ak+1,...,ak+10)(k=1,2,3,...),作为训练样本资源交互数据集合。
可以按照以下公式(5)计算Ak归一化后的样本资源交互数据集合
其中,为归一化后的样本资源交互数据集合。/>为归一化后的样本资源交互数据,Ak为归一化前的样本资源交互数据集合。
可以按照以下公式(6)计算两两数据归一化后的样本间的距离dij(i≠j),
其中,为归一化后的样本资源交互数据集合i,/>为归一化后的样本资源交互数据集合j;/>为/>中包含的样本资源交互数据,/>为/>中包含的样本资源交互数据。/>
可以根据分组样本间距离dij(i≠j),对分组样本进行分类,使每类中两两分组样本间的距离和最小;且每类中,分组样本到聚类中心数据的距离小于3倍标准差数据。
样本资源交互数据集合经过分类,得到L个类,每类集合用Ω表示,集合元素个数用||Ω||表示,则第l(l=1,2,...,L)类中的集合元素表示如下:
聚类中心数据集合聚类中心数据可以按照以下公式(7)计算:
其中,为聚类中心数据,/>为分类中第h个样本资源交互数据集合中第k个资源交互数据。
标准差数据集合标准差数据可以按照以下公式(8)计算:
其中,聚类中心数据,/>为分类中第h个样本资源交互数据集合中第k个资源交互数据。
可以按照以下公式(9),确定最终的分类:
获取
选取上述同一指标下2022年1月1号的资源交互数据作为待检测资源交互数据。与该资源交互数据对应的2021年12月22号至2021年12月31号的指资源交互数据α1,α2,...,α9组成资源交互数据集合A(α1,α2,..,α9,α)。
对资源交互数据集合进行归一化处理,得到
计算到上述各类的聚类中心数据集合/>的相似度dl。取相似度dl最大值为dλ,dλ对应的类为Ωλ。
计算中的α′到/>间的距离D。若/>则表示2022年1月1号的资源交互数据α无异常;反之,存在异常的可能。
本实施例中,通过将待检测资源交互数据α所在的资源交互数据集合分到相对应的目标交互数据集合类别Ωλ中,能够有效地完成对待检测资源交互数据α进行分类;并根据目标聚类中心数据/>对待检测资源交互数据α进行异常检测,能够基于将待检测资源交互数据α与分类后的聚类中心数据/>进行异常检测,从而能够有效完成对待检测资源交互数据α的异常检测,并且能够保证异常检测的准确性。同时,在聚类过程中还保证了时间序列指标的连续性、指标变化的趋势性等指标数据特性,使指标值异常的判断更符合实际。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的资源交互数据异常检测方法的资源交互数据异常检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个资源交互数据异常检测装置实施例中的具体限定可以参见上文中对于资源交互数据异常检测方法的限定,在此不再赘述。
在一个实施例中,如图6所示,提供了一种资源交互数据异常检测装置600,包括:待检测数据获取模块610、目标类别获取模块620、中心数据集合获取模块630、聚类中心数据确定模块640和数据状态确定模块650,其中:
待检测数据获取模块610,用于获取携带时间标识的待检测资源交互数据,以及与待检测资源交互数据相关联的资源交互数据,形成包含预设个数的资源交互数据集合;预设个数的资源交互数据携带有连续的时间标识
目标类别获取模块620,用于从预先构建的多个交互数据集合类别中,获取与资源交互数据集合相关联的目标交互数据集合类别。
中心数据集合获取模块630,用于获取目标交互数据集合类别对应的,包含有预设个数的聚类中心数据的聚类中心数据集合。
聚类中心数据确定模块640,用于从聚类中心数据集合中,确定与待检测资源交互数据对应的目标聚类中心数据。
数据状态确定模块650,用于根据待检测资源交互数据,与目标聚类中心数据之间的相似程度数据,确定待检测资源交互数据的数据状态。
在一个实施例中,该装置还包括样本数据集合模块、分类模块;目标类别获取模块包括类别确定单元。
样本数据集合模块用于获取多个样本资源交互数据集合;各样本资源交互数据集合包括预设个数携带时间标识的样本资源交互数据,各样本资源交互数据携带有连续的时间标识。分类模块用于对多个样本资源交互数据集合进行分类,确定多个交互数据集合类别,以及各交互数据集合类别对应的聚类中心数据集合。类别确定单元用于根据资源交互数据集合,与各交互数据集合类别对应的聚类中心数据集合之间的集合相似度,确定目标交互数据集合类别。
在一个实施例中,分类模块包括集合相似度单元和聚类结果单元。
集合相似度单元用于获取任意两个样本资源交互数据集合之间的集合相似度。聚类结果单元用于根据多个集合相似度的聚类结果,得到多个交互数据集合类别。
在一个实施例中,聚类结果单元包括候选类别单元和预设校验条件单元。
候选类别单元用于根据聚类结果,对多个样本资源交互数据集合进行分类,得到多个候选交互数据集合类别。预设校验条件单元用于将满足预设校验条件的候选交互数据集合类别作为交互数据集合类别。
在一个实施例中,预设校验条件单元包括数据集合单元、当前数据获取单元、当前数据比较单元。
数据集合单元用于获取当前候选交互数据集合类别对应的,包括预设个数的聚类中心数据的聚类中心数据集合,和包括预设个数的差异程度数据的差异程度数据集合。当前数据获取单元用于从聚类中心数据集合中,获取与当前样本资源交互数据对应的当前聚类中心数据,并从差异程度数据集合中获取,获取与当前样本资源交互数据对应的当前差异程度数据;当前样本资源交互数据为当前候选交互数据集合中包含的任意一个样本资源交互数据。当前数据比较单元用于在当前样本资源交互数据和当前聚类中心数据的相似程度数据,小于当前差异程度数据的预设倍数的情况下,将当前候选交互数据集合类别作为交互数据集合类别。
在一个实施例中,集合相似度单元包括归一化处理单元。
归一化处理单元用于将各样本资源交互数据集合进行归一化处理,得到归一化后的样本资源交互数据集合;还用于将任意两个归一化后的样本资源交互数据集合之间的集合相似度,作为任意两个样本资源交互数据集合之间的集合相似度。
在一个实施例中,数据状态确定模块包括目标集合获取单元、目标数据单元、数据状态单元。
目标集合获取单元用于获取目标交互数据集合类别对应的目标差异程度数据集合;目标差异程度数据集合包括预设个数的目标差异程度数据。目标数据单元用于从目标差异程度数据集合,确定与待检测资源交互数据对应的目标差异程度数据。数据状态单元用于获取待检测资源交互数据与目标聚类中心数据之间的相似程度数据,并根据相似程度数据以及目标差异程度数据,确定待检测资源交互数据的数据状态。
在一个实施例中,聚类中心数据确定模块包括目标中心数据单元。目标数据单元包括目标差异数据单元。
目标中心数据单元用于基于待检测资源交互数据在资源交互数据集合中的时间标识顺序,从聚类中心数据集合包含的聚类中心数据中,确定与时间标识顺序相对应的目标聚类中心数据。目标差异数据单元用于基于待检测资源交互数据在资源交互数据集合中的时间标识顺序,从目标差异程度数据集合包含的差异程度数据中,确定与时间标识顺序相对应的目标差异程度数据。
在一个实施例中,数据状态单元包括第一目标数据比较单元和第二目标数据比较单元。
第一目标数据比较单元用于在相似程度数据小于目标差异程度数据的预设倍数的情况下,将待检测资源交互数据的数据状态确认为正常状态。第二目标数据比较单元用于在相似程度数据大于或者等于目标差异程度数据的预设倍数的情况下,将待检测资源交互数据的数据状态确认为异常状态。
上述资源交互数据异常检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待检测资源交互数据、资源交互数据集合、交互数据集合类别。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种资源交互数据异常检测方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (13)
1.一种资源交互数据异常检测方法,其特征在于,所述方法包括:
获取携带时间标识的待检测资源交互数据,以及与所述待检测资源交互数据相关联的资源交互数据,形成包含预设个数的资源交互数据集合;所述预设个数的资源交互数据携带有连续的时间标识;
从预先构建的多个交互数据集合类别中,获取与所述资源交互数据集合相关联的目标交互数据集合类别;
获取所述目标交互数据集合类别对应的,包含有所述预设个数的聚类中心数据的聚类中心数据集合;
从所述聚类中心数据集合中,确定与所述待检测资源交互数据对应的目标聚类中心数据;
根据所述待检测资源交互数据,与所述目标聚类中心数据之间的相似程度数据,确定所述待检测资源交互数据的数据状态。
2.根据权利要求1所述的方法,其特征在于,所述从预先构建的多个交互数据集合类别中,获取与所述资源交互数据集合相关联的目标交互数据集合类别之前,包括:
获取多个样本资源交互数据集合;各所述样本资源交互数据集合包括所述预设个数携带时间标识的样本资源交互数据,各所述样本资源交互数据携带有连续的时间标识;
对所述多个样本资源交互数据集合进行分类,确定所述多个交互数据集合类别,以及各所述交互数据集合类别对应的聚类中心数据集合;
所述从预先构建的多个交互数据集合类别中,获取与所述资源交互数据集合相关联的目标交互数据集合类别,包括:
根据所述资源交互数据集合,与各所述交互数据集合类别对应的聚类中心数据集合之间的集合相似度,确定所述目标交互数据集合类别。
3.根据权利要求2所述的方法,其特征在于,所述对所述多个样本资源交互数据集合进行分类,确定所述多个交互数据集合类别,包括:
获取任意两个样本资源交互数据集合之间的集合相似度;
根据多个所述集合相似度的聚类结果,得到所述多个交互数据集合类别。
4.根据权利要求3所述的方法,其特征在于,所述根据多个所述集合相似度的聚类结果,得到所述多个交互数据集合类别,包括:
根据所述聚类结果,对所述多个样本资源交互数据集合进行分类,得到多个候选交互数据集合类别;
将满足预设校验条件的候选交互数据集合类别作为交互数据集合类别。
5.根据权利要求4所述的方法,其特征在于,所述将满足预设校验条件的候选交互数据集合类别作为交互数据集合类别,包括:
获取当前候选交互数据集合类别对应的,包括所述预设个数的聚类中心数据的聚类中心数据集合,和包括所述预设个数的差异程度数据的差异程度数据集合;
从所述聚类中心数据集合中,获取与所述当前样本资源交互数据对应的当前聚类中心数据,并从所述差异程度数据集合中获取,获取与所述当前样本资源交互数据对应的当前差异程度数据;所述当前样本资源交互数据为所述当前候选交互数据集合中包含的任意一个样本资源交互数据;
在所述当前样本资源交互数据和所述当前聚类中心数据的相似程度数据,小于所述当前差异程度数据的预设倍数的情况下,将所述当前候选交互数据集合类别作为交互数据集合类别。
6.根据权利要求3所述的方法,其特征在于,所述获取任意两个样本资源交互数据集合之间的集合相似度,包括:
将各所述样本资源交互数据集合进行归一化处理,得到归一化后的样本资源交互数据集合;
将任意两个所述归一化后的样本资源交互数据集合之间的集合相似度,作为所述任意两个样本资源交互数据集合之间的集合相似度。
7.根据权利要求1所述的方法,其特征在于,所述根据所述待检测资源交互数据,与所述目标聚类中心数据之间的相似程度数据,确定所述待检测资源交互数据的数据状态,包括:
获取所述目标交互数据集合类别对应的目标差异程度数据集合;所述目标差异程度数据集合包括预设个数的目标差异程度数据;
从所述目标差异程度数据集合,确定与所述待检测资源交互数据对应的目标差异程度数据;
获取所述待检测资源交互数据与所述目标聚类中心数据之间的相似程度数据,并根据所述相似程度数据以及所述目标差异程度数据,确定所述待检测资源交互数据的数据状态。
8.根据权利要求7所述的方法,其特征在于,所述从所述聚类中心数据集合中,确定与所述待检测资源交互数据对应的目标聚类中心数据,包括:
基于所述待检测资源交互数据在所述资源交互数据集合中的时间标识顺序,从所述聚类中心数据集合包含的聚类中心数据中,确定与所述时间标识顺序相对应的目标聚类中心数据;
所述从所述目标差异程度数据集合,确定与所述待检测资源交互数据对应的目标差异程度数据,包括:
基于所述待检测资源交互数据在所述资源交互数据集合中的时间标识顺序,从目标差异程度数据集合包含的差异程度数据中,确定与所述时间标识顺序相对应的目标差异程度数据。
9.根据权利要求7所述的方法,其特征在于,所述根据所述相似程度数据以及所述目标差异程度数据,确定所述待检测资源交互数据的数据状态,包括:
在所述相似程度数据小于所述目标差异程度数据的预设倍数的情况下,将所述待检测资源交互数据的数据状态确认为正常状态;
在所述相似程度数据大于或者等于所述目标差异程度数据的预设倍数的情况下,将所述待检测资源交互数据的数据状态确认为异常状态。
10.一种资源交互数据异常检测装置,其特征在于,所述装置包括:
待检测数据获取模块,用于获取携带时间标识的待检测资源交互数据,以及与所述待检测资源交互数据相关联的资源交互数据,形成包含预设个数的资源交互数据集合;所述预设个数的资源交互数据携带有连续的时间标识
目标类别获取模块,用于从预先构建的多个交互数据集合类别中,获取与所述资源交互数据集合相关联的目标交互数据集合类别;
中心数据集合获取模块,用于获取所述目标交互数据集合类别对应的,包含有所述预设个数的聚类中心数据的聚类中心数据集合;
聚类中心数据确定模块,用于从所述聚类中心数据集合中,确定与所述待检测资源交互数据对应的目标聚类中心数据;
数据状态确定模块,用于根据所述待检测资源交互数据,与所述目标聚类中心数据之间的相似程度数据,确定所述待检测资源交互数据的数据状态。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
13.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310566742.XA CN116561607A (zh) | 2023-05-18 | 2023-05-18 | 资源交互数据异常检测方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310566742.XA CN116561607A (zh) | 2023-05-18 | 2023-05-18 | 资源交互数据异常检测方法、装置和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116561607A true CN116561607A (zh) | 2023-08-08 |
Family
ID=87503295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310566742.XA Pending CN116561607A (zh) | 2023-05-18 | 2023-05-18 | 资源交互数据异常检测方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116561607A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117632773A (zh) * | 2024-01-26 | 2024-03-01 | 深圳市吉方工控有限公司 | 一种基于计算机终端的数据交互异常检测方法及检测端口 |
-
2023
- 2023-05-18 CN CN202310566742.XA patent/CN116561607A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117632773A (zh) * | 2024-01-26 | 2024-03-01 | 深圳市吉方工控有限公司 | 一种基于计算机终端的数据交互异常检测方法及检测端口 |
CN117632773B (zh) * | 2024-01-26 | 2024-03-26 | 深圳市吉方工控有限公司 | 一种基于计算机终端的数据交互异常检测方法及检测端口 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107622326B (zh) | 用户分类、可用资源预测方法、装置及设备 | |
CN115563477B (zh) | 谐波数据识别方法、装置、计算机设备和存储介质 | |
CN112818162A (zh) | 图像检索方法、装置、存储介质和电子设备 | |
CN116561607A (zh) | 资源交互数据异常检测方法、装置和计算机设备 | |
CN116414815A (zh) | 数据质量检测方法、装置、计算机设备和存储介质 | |
Song et al. | Asymptotic distribution-free changepoint detection for data with repeated observations | |
CN115759742A (zh) | 企业风险评估方法、装置、计算机设备和存储介质 | |
CN115905654A (zh) | 业务数据的处理方法、装置、设备、存储介质和程序产品 | |
CN117130904A (zh) | 用于金融分析的测试数据生成方法、装置和计算机设备 | |
CN116894031A (zh) | 一种数据质量检测方法、装置、计算机设备 | |
CN117041015A (zh) | 网络故障检测方法、装置、计算机设备和存储介质 | |
CN115098686A (zh) | 分级信息确定方法、装置、计算机设备 | |
CN117251816A (zh) | 碳排放数据的验证方法、装置、计算机设备和存储介质 | |
CN116880927A (zh) | 规则管理方法、装置、计算机设备和存储介质 | |
CN116307711A (zh) | 签约数据的处理方法、装置、计算机设备和存储介质 | |
CN116127160A (zh) | 样本标注方法、装置、计算机设备和存储介质 | |
CN117172720A (zh) | 审计疑点追踪排查方法、系统、计算机设备和存储介质 | |
CN117389960A (zh) | 文件解析方法、装置、设备、存储介质和程序产品 | |
CN115795120A (zh) | 一种用户画像信息的验证方法、装置 | |
CN115049470A (zh) | 数据处理方法、装置、计算机设备、存储介质和程序产品 | |
CN117271445A (zh) | 日志数据处理方法、装置、服务器、存储介质和程序产品 | |
CN115146051A (zh) | 样本处理方法、装置、计算机设备和存储介质 | |
CN116821147A (zh) | 数据查找工具识别方法、装置、设备和存储介质 | |
CN117635105A (zh) | 抢修方案确定方法、装置、计算机设备和存储介质 | |
CN117786632A (zh) | 业务系统对目标对象的身份审核方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |