CN111858245A - 一种异常数据的分析方法、装置、电子设备及存储介质 - Google Patents
一种异常数据的分析方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111858245A CN111858245A CN202010691614.4A CN202010691614A CN111858245A CN 111858245 A CN111858245 A CN 111858245A CN 202010691614 A CN202010691614 A CN 202010691614A CN 111858245 A CN111858245 A CN 111858245A
- Authority
- CN
- China
- Prior art keywords
- frequent item
- preset dimension
- preset
- sets
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 66
- 238000007405 data analysis Methods 0.000 title abstract description 27
- 230000008859 change Effects 0.000 claims abstract description 112
- 230000008569 process Effects 0.000 claims abstract description 21
- 230000001174 ascending effect Effects 0.000 claims description 81
- 238000004891 communication Methods 0.000 claims description 19
- 230000000630 rising effect Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 13
- 238000007418 data mining Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 3
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 7
- 230000003247 decreasing effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种异常数据的分析方法、装置、电子设备及存储介质,上述方法包括:获取业务应用运行过程中预设时长内产生的业务数据;基于该业务数据的预设的数据维度分别对业务数据不同数据维度的数据进行统计,得到不同数据维度的统计结果;针对每种数据维度检测各个预设维度值的统计结果是否发生异常变化;获得发生异常变化的预设维度值作为待分析预设维度值;根据预先确定的各个预设维度值之间的关联关系,获得与该待分析预设维度值关联的其他预设维度值的统计结果的变化情况,将变化情况作为该待分析预设维度值的统计结果发生异常变化的原因。采用本发明实施例提供的方法在进行数据分析时可以减少人力资源的消耗,提高数据分析的效率。
Description
技术领域
本发明涉及数据分析技术领域,特别是涉及一种异常数据的分析方法、装置、电子设备及存储介质。
背景技术
在很多网络业务应用中,需要对数据进行分析。例如:视频网站,当统计的用户数据或视频数据等数据出现异常波动时,需要对数据进行分析,如对用户数据的折线图、柱状图、饼图等形式的数据产生波动的原因进行分析。
目前,当数据发生波动时,主要是通过人工排查,确定引起当前数据产生波动的原因。例如,当某些业务应用软件的DAU(Daily Active User,日活跃用户数量)报表数据产生波动,可以通过排查该应用软件的用户类型、用户来源类型以及该应用软件的内容等级,确定出DAU报表数据发生波动的原因。
然而,现有的通过人工排查分析数据产生波动的原因的方式,非常消耗人力资源,并且,在人力资源有限的情况下,通过人工排查的方式分析数据产生波动的原因的效率也比较低下。
发明内容
本发明实施例的目的在于提供一种异常数据的分析方法、装置、电子设备及存储介质,用以解决现有的分析数据产生波动的原因的方式,所存在的消耗人力资源较多以及数据分析效率低下的问题。
为了达到上述目的,本发明实施例提供了一种异常数据的分析方法,包括:
获取业务应用运行过程中,预设时长内产生的业务数据;
基于该业务数据的预设的数据维度,分别对所述业务数据不同数据维度的数据进行统计,得到不同数据维度的统计结果;其中,每种数据维度具有多个预设维度值;统计结果为针对不同数据维度的各个预设维度值的统计数据;
针对每种数据维度,检测各个预设维度值的统计结果是否发生异常变化;
获得发生异常变化的预设维度值,作为待分析预设维度值;
根据预先确定的各个预设维度值之间的关联关系,获得与该待分析预设维度值关联的其他预设维度值的统计结果的变化情况,将所述变化情况,作为该待分析预设维度值的统计结果发生异常变化的原因。
进一步的,所述各个预设维度值之间的关联关系为:预先基于数据挖掘算法确定的。
进一步的,预先基于数据挖掘算法确定各个预设维度值之间的关联关系,包括如下步骤:
针对每种数据维度,每隔预设时间段采集该数据维度的所有预设维度值的统计结果;
根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果的1项频繁项集,至包含k个预设维度值的统计结果的k项频繁项集;1≤k≤N,N表示该数据维度的所有预设维度值的数量;频繁项集为支持度大于等于预设支持度阈值的集合;将由各个频繁项集构成的集合作为待分析集合;所述频繁项集的支持度为:频繁项集中每次所采集得到的各个预设维度值的统计结果相比前次所采集得到的都发生特定变化的次数,除以采集次数的比值;所述采集次数为:采集所有预设维度值的统计结果的次数;特定变化为:上升变化或下降变化;
针对每个m项频繁项集,将所述待分析集合中的多个m-1项频繁项集中,属于该m项频繁项集的子集的m-1项频繁项集,确定为该m项频繁项集的指定子集;m∈{2,3,...,k};
针对m项频繁项集的每个指定子集,分别确定该指定子集相对该m项频繁项集的置信度;
针对每个指定子集,当该指定子集相对该m项频繁项集的置信度大于等于预设置信度阈值时,确定该指定子集中相对于该m项频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系。
进一步的,所述根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果的1项频繁项集,至包含k个预设维度值的统计结果的k项频繁项集,包括:
当n等于1时,根据所采集的所有预设维度值的统计结果,生成包含n个预设维度值的统计结果的n项候选集;
针对每个n项候选集,确定该n项候选集的支持度;所述采集次数为:采集所有预设维度值的统计结果的次数;
将支持度大于等于支持度阈值的n项候选集确定为n项频繁项集;
当n项频繁项集的数量大于等于2时,将任意两个n项频繁项集的并集作为n+1项候选集;
针对每个n+1项候选集,确定该n+1项候选集的支持度;
将支持度大于等于支持度阈值的n+1项候选集确定为n+1项频繁项集;
判断n+1项频繁项集的数量是否大于等于2;
若判断为是,将n+1作为新的n的值,返回将任意两个n项频繁项集的并集作为n+1项候选集的步骤;
若判断为否,确定n+1项频繁项集为k项频繁项集;n+1=k。
进一步的,所述针对m项频繁项集的每个指定子集,分别确定该指定子集相对该m项频繁项集的置信度,包括:
针对m项频繁项集的每个指定子集,计算该m项频繁项集的支持度,除以该指定子集的支持度的比值,作为该指定子集相对该m项频繁项集的置信度。
进一步的,所述根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果的1项频繁项集,至包含k个预设维度值的统计结果的k项频繁项集,包括:
当n等于1时,根据所采集的所有预设维度值的统计结果,生成包含n个预设维度值的统计结果的n项候选集;
针对每个n项候选集,分别计算该n项候选集中,每次所采集得到的n个预设维度值的统计结果相比前次所采集得到的都发生上升变化的次数,除以采集次数的比值,作为该n项候选集的上升支持度;以及计算该n项候选集中,每次所采集得到的n个预设维度值的统计结果相比前次所采集得到的都发生下降变化的次数,除以采集次数的比值,作为该n项候选集的下降支持度;所述采集次数为:采集所有预设维度值的统计结果的次数;
将上升支持度或下降支持度大于等于预设支持度阈值的n项候选集确定为n项频繁项集;
当n项频繁项集的数量大于等于2时,将任意两个n项频繁项集的并集作为n+1项候选集;
针对每个n+1项候选集,分别计算该n+1项候选集中,每次所采集得到的n+1个预设维度值的统计结果相比前次所采集得到的都发生上升变化的次数,除以采集次数的比值,作为该n+1项候选集的上升支持度;以及计算该n+1项候选集中,每次所采集得到的n+1个预设维度值的统计结果相比前次所采集得到的都发生下降变化的次数,除以采集次数的比值,作为该n+1项候选集的下降支持度;
将上升支持度或下降支持度大于等于预设支持度阈值的n+1项候选集确定为n+1项频繁项集;
判断n+1项频繁项集的数量是否大于等于2;
若判断为是,将n+1作为新的n的值,返回将任意两个n项频繁项集的并集作为n+1项候选集的步骤;
若判断为否,确定n+1项频繁项集为k项频繁项集,n+1=k。
进一步的,所述针对m项频繁项集的每个指定子集,分别确定该指定子集相对该m项频繁项集的置信度,包括:
针对m项频繁项集的每个指定子集,分别计算该m项频繁项集的上升支持度,除以该指定子集的上升支持度的比值,作为该指定子集相对该m项频繁项集的上升置信度;以及计算该m项频繁项集的下降支持度,除以该指定子集的下降支持度的比值,作为该指定子集相对该m项频繁项集的下降置信度;
所述针对每个指定子集,当该指定子集相对该m项频繁项集的置信度大于等于预设置信度阈值时,确定该指定子集中相对于该m项频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系,包括:
针对每个指定子集,当该指定子集相对该m项频繁项集的上升置信度或下降置信度大于等于预设置信度阈值时,确定该指定子集中相对于该m项频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系。
进一步的,所述各个预设维度值之间的关联关系,采用如下步骤确定:
针对每种数据维度,每隔预设时间段采集该数据维度的所有预设维度值的统计结果;
根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果至包含N个预设维度值的统计结果的多个数据集,作为候选集;N表示该数据维度的所有预设维度值的数量;
针对每个所述候选集,计算该候选集中每次所采集得到的所有预设维度值的统计结果相比前次所采集得到的都发生上升变化或下降变化的次数,除以采集次数的比值,作为该候选集的支持度;所述采集次数为:采集所有预设维度值的统计结果的次数;
根据候选集的支持度,从多个所述候选集中,选取支持度大于等于支持度阈值的候选集,作为频繁项集,将由各个频繁项集构成的集合作为待分析集合;
针对每个频繁项集,当该频繁项集包含至少2个预设维度值的统计结果时,将所述待分析集合中,相对该频繁项集缺少一个预设维度值的频繁项集,确定为该频繁项集的指定子集;
针对每个频繁项集,分别计算该频繁项集的支持度除以该频繁项集的每个指定子集的支持度的比值,作为每个指定子集相对该频繁项集的置信度;
针对每个指定子集,当该指定子集相对该频繁项集的置信度大于等于预设置信度阈值时,确定该指定子集中相对于该频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系。
进一步的,所述各个预设维度值之间的关联关系,采用如下步骤确定:
针对每种数据维度,每隔预设时间段采集该数据维度的所有预设维度值的统计结果;
根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果至包含N个预设维度值的统计结果的多个数据集,作为候选集;N表示该数据维度的所有预设维度值的数量;
针对每个所述候选集,分别计算该候选集中每次所采集得到的所有预设维度值的统计结果相比前次所采集得到的都发生上升变化的次数,除以采集次数的比值,作为该候选集的上升支持度;以及计算该候选集中每次所采集得到的所有预设维度值的统计结果相比前次所采集得到的都发生下降变化的次数,除以采集次数的比值,作为该候选集的下降支持度;所述采集次数为:采集所有预设维度值的统计结果的次数;
根据候选集的上升支持度和候选集的下降支持度,从多个所述候选集中,选取上升支持度或下降支持度大于等于支持度阈值的候选集,作为频繁项集,将由各个频繁项集构成的集合作为待分析集合;
针对每个频繁项集,当该频繁项集包含至少2个预设维度值的统计结果时,将所述待分析集合中,相对该频繁项集缺少一个预设维度值的频繁项集,确定为该频繁项集的指定子集;
针对每个指定子集,分别计算该频繁项集的上升支持度除以该指定子集的上升支持度的比值,作为该指定子集相对该频繁项集的上升置信度;以及该频繁项集的下降支持度除以该指定子集的下降支持度的比值,作为该指定子集相对该频繁项集的下降置信度;
针对每个指定子集,当该指定子集相对该频繁项集的上升置信度或下降置信度大于等于预设置信度阈值时,确定该指定子集中相对于该频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系。
为了达到上述目的,本发明实施例还提供了一种异常数据的分析装置,包括:
业务数据获取模块,用于获取业务应用运行过程中,预设时长内产生的业务数据;
数据统计模块,用于基于该业务数据的预设的数据维度,分别对所述业务数据不同数据维度的数据进行统计,得到不同数据维度的统计结果;其中,每种数据维度具有多个预设维度值;统计结果为针对不同数据维度的各个预设维度值的统计数据;
异常检测模块,用于针对每种数据维度,检测各个预设维度值的统计结果是否发生异常变化;
异常变化获取模块,用于获得发生异常变化的预设维度值,作为待分析预设维度值;
异常原因确定模块,用于根据预先确定的各个预设维度值之间的关联关系,获得与该待分析预设维度值关联的其他预设维度值的统计结果的变化情况,将所述变化情况,作为该待分析预设维度值的统计结果发生异常变化的原因。
进一步的,所述各个预设维度值之间的关联关系为:预先基于数据挖掘算法确定的。
进一步的,所述装置还包括:关联关系确定模块;关联关系确定模块用于采用如下步骤确定各个预设维度值之间的关联关系:
针对每种数据维度,每隔预设时间段采集该数据维度的所有预设维度值的统计结果;
根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果的1项频繁项集,至包含k个预设维度值的统计结果的k项频繁项集;1≤k≤N,N表示该数据维度的所有预设维度值的数量;频繁项集为支持度大于等于预设支持度阈值的集合;将由各个频繁项集构成的集合作为待分析集合;所述频繁项集的支持度为:频繁项集中每次所采集得到的各个预设维度值的统计结果相比前次所采集得到的都发生特定变化的次数,除以采集次数的比值;所述采集次数为:采集所有预设维度值的统计结果的次数;特定变化为:上升变化或下降变化;
针对每个m项频繁项集,将所述待分析集合中的多个m-1项频繁项集中,属于该m项频繁项集的子集的m-1项频繁项集,确定为该m项频繁项集的指定子集;m∈{2,3,...,k};
针对m项频繁项集的每个指定子集,分别确定该指定子集相对该m项频繁项集的置信度;
针对每个指定子集,当该指定子集相对该m项频繁项集的置信度大于等于预设置信度阈值时,确定该指定子集中相对于该m项频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系。
进一步的,所述根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果的1项频繁项集,至包含k个预设维度值的统计结果的k项频繁项集的步骤,包括:
当n等于1时,根据所采集的所有预设维度值的统计结果,生成包含n个预设维度值的统计结果的n项候选集;
针对每个n项候选集,确定该n项候选集的支持度;所述采集次数为:采集所有预设维度值的统计结果的次数;
将支持度大于等于支持度阈值的n项候选集确定为n项频繁项集;
当n项频繁项集的数量大于等于2时,将任意两个n项频繁项集的并集作为n+1项候选集;
针对每个n+1项候选集,确定该n+1项候选集的支持度;
将支持度大于等于支持度阈值的n+1项候选集确定为n+1项频繁项集;
判断n+1项频繁项集的数量是否大于等于2;
若判断为是,将n+1作为新的n的值,返回将任意两个n项频繁项集的并集作为n+1项候选集的步骤;
若判断为否,确定n+1项频繁项集为k项频繁项集;n+1=k。
进一步的,所述针对m项频繁项集的每个指定子集,分别确定该指定子集相对该m项频繁项集的置信度,包括:
针对m项频繁项集的每个指定子集,计算该m项频繁项集的支持度,除以该指定子集的支持度的比值,作为该指定子集相对该m项频繁项集的置信度。
进一步的,所述根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果的1项频繁项集,至包含k个预设维度值的统计结果的k项频繁项集,包括:
当n等于1时,根据所采集的所有预设维度值的统计结果,生成包含n个预设维度值的统计结果的n项候选集;
针对每个n项候选集,分别计算该n项候选集中,每次所采集得到的n个预设维度值的统计结果相比前次所采集得到的都发生上升变化的次数,除以采集次数的比值,作为该n项候选集的上升支持度;以及计算该n项候选集中,每次所采集得到的n个预设维度值的统计结果相比前次所采集得到的都发生下降变化的次数,除以采集次数的比值,作为该n项候选集的下降支持度;所述采集次数为:采集所有预设维度值的统计结果的次数;
将上升支持度或下降支持度大于等于预设支持度阈值的n项候选集确定为n项频繁项集;
当n项频繁项集的数量大于等于2时,将任意两个n项频繁项集的并集作为n+1项候选集;
针对每个n+1项候选集,分别计算该n+1项候选集中,每次所采集得到的n+1个预设维度值的统计结果相比前次所采集得到的都发生上升变化的次数,除以采集次数的比值,作为该n+1项候选集的上升支持度;以及计算该n+1项候选集中,每次所采集得到的n+1个预设维度值的统计结果相比前次所采集得到的都发生下降变化的次数,除以采集次数的比值,作为该n+1项候选集的下降支持度;
将上升支持度或下降支持度大于等于预设支持度阈值的n+1项候选集确定为n+1项频繁项集;
判断n+1项频繁项集的数量是否大于等于2;
若判断为是,将n+1作为新的n的值,返回将任意两个n项频繁项集的并集作为n+1项候选集的步骤;
若判断为否,确定n+1项频繁项集为k项频繁项集,n+1=k。
进一步的,所述针对m项频繁项集的每个指定子集,分别确定该指定子集相对该m项频繁项集的置信度,包括:
针对m项频繁项集的每个指定子集,分别计算该m项频繁项集的上升支持度,除以该指定子集的上升支持度的比值,作为该指定子集相对该m项频繁项集的上升置信度;以及计算该m项频繁项集的下降支持度,除以该指定子集的下降支持度的比值,作为该指定子集相对该m项频繁项集的下降置信度;
所述针对每个指定子集,当该指定子集相对该m项频繁项集的置信度大于等于预设置信度阈值时,确定该指定子集中相对于该m项频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系,包括:
针对每个指定子集,当该指定子集相对该m项频繁项集的上升置信度或下降置信度大于等于预设置信度阈值时,确定该指定子集中相对于该m项频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系。
进一步的,关联关系确定模块还用于采用如下步骤确定各个预设维度值之间的关联关系:
针对每种数据维度,每隔预设时间段采集该数据维度的所有预设维度值的统计结果;
根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果至包含N个预设维度值的统计结果的多个数据集,作为候选集;N表示该数据维度的所有预设维度值的数量;
针对每个所述候选集,计算该候选集中每次所采集得到的所有预设维度值的统计结果相比前次所采集得到的都发生上升变化或下降变化的次数,除以采集次数的比值,作为该候选集的支持度;所述采集次数为:采集所有预设维度值的统计结果的次数;
根据候选集的支持度,从多个所述候选集中,选取支持度大于等于支持度阈值的候选集,作为频繁项集,将由各个频繁项集构成的集合作为待分析集合;
针对每个频繁项集,当该频繁项集包含至少2个预设维度值的统计结果时,将所述待分析集合中,相对该频繁项集缺少一个预设维度值的频繁项集,确定为该频繁项集的指定子集;
针对每个频繁项集,分别计算该频繁项集的支持度除以该频繁项集的每个指定子集的支持度的比值,作为每个指定子集相对该频繁项集的置信度;
针对每个指定子集,当该指定子集相对该频繁项集的置信度大于等于预设置信度阈值时,确定该指定子集中相对于该频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系。
进一步的,关联关系确定模块也用于采用如下步骤确定各个预设维度值之间的关联关系:
针对每种数据维度,每隔预设时间段采集该数据维度的所有预设维度值的统计结果;
根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果至包含N个预设维度值的统计结果的多个数据集,作为候选集;N表示该数据维度的所有预设维度值的数量;
针对每个所述候选集,分别计算该候选集中每次所采集得到的所有预设维度值的统计结果相比前次所采集得到的都发生上升变化的次数,除以采集次数的比值,作为该候选集的上升支持度;以及计算该候选集中每次所采集得到的所有预设维度值的统计结果相比前次所采集得到的都发生下降变化的次数,除以采集次数的比值,作为该候选集的下降支持度;所述采集次数为:采集所有预设维度值的统计结果的次数;
根据候选集的上升支持度和候选集的下降支持度,从多个所述候选集中,选取上升支持度或下降支持度大于等于支持度阈值的候选集,作为频繁项集,将由各个频繁项集构成的集合作为待分析集合;
针对每个频繁项集,当该频繁项集包含至少2个预设维度值的统计结果时,将所述待分析集合中,相对该频繁项集缺少一个预设维度值的频繁项集,确定为该频繁项集的指定子集;
针对每个指定子集,分别计算该频繁项集的上升支持度除以该指定子集的上升支持度的比值,作为该指定子集相对该频繁项集的上升置信度;以及该频繁项集的下降支持度除以该指定子集的下降支持度的比值,作为该指定子集相对该频繁项集的下降置信度;
针对每个指定子集,当该指定子集相对该频繁项集的上升置信度或下降置信度大于等于预设置信度阈值时,确定该指定子集中相对于该频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系。
进一步的,所述业务数据为:视频应用的用户活跃度数据;
所述数据维度包括:视频应用的用户品类、视频应用的内容等级、视频应用的指数等级、视频应用的用户类型、视频应用的用户来源类型、视频应用的用户原创身份、视频应用的用户是否上传过小视频、视频应用的用户是否为专业版用户、视频应用的用户活跃类型、视频应用的用户上传视频的上传入口。
为了达到上述目的,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述异常数据的分析方法步骤。
为了达到上述目的,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的异常数据的分析方法步骤。
为了达到上述目的,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的异常数据的分析方法步骤。
本发明实施例有益效果:
采用本发明实施例提供的方法,通过获取业务应用运行过程中,预设时长内产生的业务数据;基于该业务数据的预设的数据维度,分别对业务数据不同数据维度的数据进行统计,得到不同数据维度的统计结果;针对每种数据维度,检测各个预设维度值的统计结果是否发生异常变化;获得发生异常变化的预设维度值,作为待分析预设维度值;根据预先确定的各个预设维度值之间的关联关系,获得与该待分析预设维度值关联的其他预设维度值的统计结果的变化情况,将变化情况,作为该待分析预设维度值的统计结果发生异常变化的原因。即可以根据预先确定的各个预设维度值之间的关联关系,确定出待分析预设维度值的统计结果发生异常变化的原因,而不再需要通过人工排查分析数据发生变化的原因。因此,在进行数据分析时可以减少人力资源的消耗,提高数据分析的效率。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种异常数据的分析方法的流程图;
图2为本发明实施例提供的另一种异常数据的分析方法的流程图;
图3为本发明实施例提供的一种确定各个预设维度值之间的关联关系的的流程图;
图4为本发明实施例提供的一种生成频繁项集的流程图;
图5为本发明实施例提供的生成的频繁项集的示意图;
图6为本发明实施例提供的另一种生成频繁项集的流程图;
图7为本发明实施例提供的另一种确定各个预设维度值之间的关联关系的的流程图;
图8为本发明实施例提供的又一种确定各个预设维度值之间的关联关系的的流程图;
图9为本发明实施例提供的一种异常数据的分析装置的结构图;
图10为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
由于现有的分析数据产生波动的原因的方式,存在的消耗人力资源较多以及数据分析效率低下的问题,为解决这一技术问题,本发明实施例提供了一种异常数据的分析方法,如图1所示,包括:
步骤101,获取业务应用运行过程中,预设时长内产生的业务数据。
步骤102,基于该业务数据的预设的数据维度,分别对业务数据不同数据维度的数据进行统计,得到不同数据维度的统计结果;其中,每种数据维度具有多个预设维度值;统计结果为针对不同数据维度的各个预设维度值的统计数据。
步骤103,针对每种数据维度,检测各个预设维度值的统计结果是否发生异常变化。
步骤104,获得发生异常变化的预设维度值,作为待分析预设维度值。
步骤105,根据预先确定的各个预设维度值之间的关联关系,获得与该待分析预设维度值关联的其他预设维度值的统计结果的变化情况,将变化情况,作为该待分析预设维度值的统计结果发生异常变化的原因。
采用本发明实施例提供的方法,通过获取业务应用运行过程中,预设时长内产生的业务数据;基于该业务数据的预设的数据维度,分别对业务数据不同数据维度的数据进行统计,得到不同数据维度的统计结果;针对每种数据维度,检测各个预设维度值的统计结果是否发生异常变化;获得发生异常变化的预设维度值,作为待分析预设维度值;根据预先确定的各个预设维度值之间的关联关系,获得与该待分析预设维度值关联的其他预设维度值的统计结果的变化情况,将变化情况,作为该待分析预设维度值的统计结果发生异常变化的原因。即可以根据预先确定的各个预设维度值之间的关联关系,确定出待分析预设维度值的统计结果发生异常变化的原因,而不再需要通过人工排查分析数据发生变化的原因。因此,在进行数据分析时可以减少人力资源的消耗,提高数据分析的效率。
下面结合附图,对本申请实施例提供的异常数据的分析方法及装置进行详细描述。
在本申请的一个实施例中,提供一种异常数据的分析方法,如图2所示,包括如下步骤:
步骤201,获取业务应用运行过程中,预设时长内产生的业务数据。
其中,预设时长可以设定为一天的时长或者一个月的时长等等,不做具体限定。
本发明实施例中,业务应用可以为视频应用和社交应用等等。本步骤中,业务应用运行过程中所产生的业务数据可以为反映业务平台的用户活跃程度的数据。具体的,若预设时长为一天的时长(即24小时),则可以获取业务应用的DAU(Daily Active User,日活跃用户数量)作为业务数据;若预设时长为一个月的时长,则可以获取业务应用的MAU(monthly active users,月活跃用户人数)作为业务数据。
步骤202,基于该业务数据的预设的数据维度,分别对业务数据不同数据维度的数据进行统计,得到不同数据维度的统计结果。
其中,业务数据可以有预设的多个数据维度,每种数据维度具有多个预设维度值,统计结果为针对不同数据维度的各个预设维度值的统计数据。
本发明实施例中,若业务应用为视频应用,则业务数据可以为视频应用的用户活跃度数据,业务数据预设的数据维度可以包括:视频应用的用户品类、视频应用的内容等级、视频应用的指数等级、视频应用的用户来源类型和视频应用的用户活跃类型等等。
具体的,视频应用的用户品类对应的多个预设维度值可以为:将视频应用的用户按照用户年龄划分的多个年龄段。本步骤中可以统计预设时长内各个年龄段的用户数量,作为视频应用的用户品类对应的多个预设维度值的统计数据。例如,可以将用户年龄划分为:[0-19)、[20-39)、[40-60)和[60-60以上)四个年龄段,则视频应用的用户品类可以对应4个预设维度值:[0-19)、[20-39)、[40-60)和[60-60以上)。则可以统计预设时长内视频应用在[0-19)、[20-39)、[40-60)和[60-60以上)四个年龄段的用户数量,作为视频应用的用户品类对应的4个预设维度值的统计数据。
视频应用的内容等级对应的多个预设维度值可以为:视频应用的用户上传到视频应用的视频对应的多个等级。内容等级可以包括1级到6级,等级越高表示用户所上传的视频的质量越好。本步骤中可以统计预设时长内各个内容等级的用户数量,作为视频应用的内容等级对应的多个预设维度值的统计数据。例如,若内容等级包括1级到6级,则视频应用的内容等级可以对应6个预设维度值:1级-6级。则可以统计预设时长内视频应用中上传了1级到6级这六个内容等级的内容的用户数量,作为视频应用的内容等级对应的6个预设维度值的统计数据。
视频应用的指数等级对应的多个预设维度值可以为:视频应用的用户对应的多个等级。指数等级可以包括1级到5级,等级越高表示用户在该视频应用的经验值越高。本步骤中可以统计预设时长内各个指数等级的用户数量,作为视频应用的指数等级对应的多个预设维度值的统计数据。例如,若指数等级包括1级到5级,则视频应用的指数等级可以对应5个预设维度值:指数等级1至指数等级5。则可以统计预设时长内视频应用中指数等级1至指数等级5这五个指数等级的用户数量,作为视频应用的指数等级对应的5个预设维度值的统计数据。
视频应用的用户来源类型对应的多个预设维度值可以为:将视频应用中的用户按照来源地区的不同划分为多个类型。例如,若视频应用的用户来源地区包括A地区、B地区、C地区和D地区,则A地区、B地区、C地区和D地区为用户来源类型对应的多个预设维度值。本步骤中可以统计预设时长内各个来源于地区的用户的数量作为视频应用的用户来源类型对应的多个预设维度值的统计数据。
视频应用的用户活跃类型对应的多个预设维度值可以为:按照用户在视频应用中活跃程度对用户的所划分的多个类型。具体的,可以根据用户在视频应用中是否上传视频内容、用户在视频应用观看视频的时长以及用户在视频应用参与评论等互动行为,将用户划分为L1-L5多个活跃类型,其中,L1至L5的用户的活跃程度依次增大。可以将L1-L5这5个活跃类型作为视频应用的用户活跃类型对应的5个预设维度值。本步骤中可以统计预设时长内各个活跃类型的用户的数量作为视频应用的用户活跃类型对应的多个预设维度值的统计数据。
本发明实施例中,业务数据预设的数据维度还可以包括:视频应用的用户是否为专业版用户、视频应用的用户原创身份、视频应用的用户上传视频的上传入口、视频应用的用户类型和视频应用的用户是否上传过小视频等等。
具体的,举例说明:视频应用的用户是否为专业版用户对应的预设维度值可以包括:普通版本用户、专业版本和VIP用户(Very Important Person,贵宾)版本用户;视频应用的用户原创身份对应的预设维度值可以包括:上传原创视频的原创用户、上传非原创视频的非原创用户和不上传视频的普通用户;视频应用的用户上传视频的上传入口对应的预设维度值可以包括:pc(Personal Computer,个人电脑)端、电脑网页端和手机客户端;视频应用的用户类型对应的预设维度值可以包括:初级用户、普通用户和高级用户;视频应用的用户是否上传过小视频对应的预设维度值可以包括:上传小视频的用户、上传其他视频的用户和不上传视频的用户。
步骤203,针对每种数据维度,针对该数据维度的每个预设维度值,判断该预设维度值的统计结果是否发生异常变化;若是,执行步骤204,若否,继续返回执行该步骤。
本发明实施例中,每种数据维度的各个预设维度值可以有一个预先设定的数据范围。本步骤中,针对每种数据维度,针对该数据维度的每个预设维度值,可以检测该预设维度值的统计结果是否超出该预设维度值对应的数据范围,若该预设维度值的统计结果超出对应的数据范围,则可以判断出该预设维度值的统计结果发生异常变化;否则,则可以判断出该预设维度值的统计结果未发生异常变化。
举例说明,若预设时长为24小时,数据维度为视频应用的指数等级,且视频应用的指数等级对应的多个预设维度值为:1级到5级的指数等级。若统计的24小时内指数等级为1级的用户数量为5万、指数等级为2级的用户数量为8万、指数等级为3级的用户数量为10万、指数等级为4级的用户数量为4万和指数等级为5级的用户数量为2万。
若指数等级为1级的预设维度值对应的数据范围为0~6万、指数等级为3级的预设维度值对应的数据范围为0~9万、指数等级为3级的预设维度值对应的数据范围为0~9万、指数等级为3级的预设维度值对应的数据范围为0~6万和指数等级为3级的预设维度值对应的数据范围为0~5万,本步骤中,可以先针对指数等级为1级的预设维度值,可以判断出该预设维度值的统计结果未超出指数等级为1级的预设维度值对应的数据范围;继续执行本步骤,针对指数等级为2级的预设维度值,可以判断出指数等级为2级的预设维度值的统计结果也未超出该预设维度值对应的数据范围;继续执行本步骤,针对指数等级为3级的预设维度值,可以判断出指数等级为3级的预设维度值的统计结果超出了该预设维度值对应的数据范围,则可以执行步骤204。
步骤204,将该预设维度值确定为待分析预设维度值。
步骤205,根据预先确定的各个预设维度值之间的关联关系,获得与该待分析预设维度值关联的其他预设维度值的统计结果的变化情况,将变化情况,作为该待分析预设维度值的统计结果发生异常变化的原因。
本发明实施例中,针对每个数据维度,可以预先根据数据挖掘算法确定出该数据维度的各个预设维度值之间的关联关系。其中,数据挖掘算法具体可以为Apriori算法(一种挖掘关联规则的算法)。
举例说明,若数据维度为视频应用的指数等级,且视频应用的指数等级对应的多个预设维度值为:1级的指数等级到5级的指数等级。若预先确定出1级的指数等级与3级的指数等级和4级的指数等级之间具有关联关系,如果确定出1级的指数等级发生异常变化(即1级的指数等级为待分析预设维度值),则可以将3级的指数等级和4级的指数等级的变化情况,作为1级的指数等级发生异常变化的原因。
步骤206,判断是否还存在未分析的预设维度值,若是,返回执行步骤203,若否,执行步骤207。
本步骤中,可以检测各个数据维度的各个预设维度值是否均已被分析过,若所有数据维度的每个预设维度值都被分析过,则结束分析;若多个数据维度中,还存在数据维度的预设维度值未被分析过,则返回执行步骤203,判断该未分析的预设维度值的统计结果是否发生异常变化。
步骤207,结束分析。
本发明实施例中,参见图3,确定各个预设维度值之间的关联关系的一种流程,可以包括如下步骤:
步骤301,针对每种数据维度,每隔预设时间段采集该数据维度的所有预设维度值的统计结果。
其中,预设时间段可以设定为1小时或2小时等等,不做具体限定。
本步骤中,针对每种数据维度,可以每隔预设时间段同时采集该数据维度的各个预设维度值的统计结果。采集次数不做具体限定,采集次数具体可以设定为30次或者100次等等。
举例说明,若采集次数设定为100次且预设时间段设定为2小时,则可以针对每种数据维度,每隔2小时同时采集该数据维度的各个预设维度值的统计结果,直至连续采集100次为止。
步骤302,根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果的1项频繁项集,至包含k个预设维度值的统计结果的k项频繁项集。
其中,1≤k≤N,N表示该数据维度的所有预设维度值的数量。频繁项集为支持度大于等于预设支持度阈值的集合;频繁项集的支持度为:频繁项集中每次所采集得到的各个预设维度值的统计结果相比前次所采集得到的都发生特定变化的次数,除以采集次数的比值;采集次数为:采集所有预设维度值的统计结果的次数;特定变化为:上升变化或下降变化。
本发明实施例中,可以将由各个频繁项集构成的集合作为待分析集合。
步骤303,针对每个m项频繁项集,将待分析集合中的多个m-1项频繁项集中,属于该m项频繁项集的子集的m-1项频繁项集,确定为该m项频繁项集的指定子集。
其中,m项频繁项集中包含m个预设维度值,m∈{2,3,...,k}。举例说明,若待分析集合中包含:频繁项集{a,b}、频繁项集{a,c}、频繁项集{a,d}、频繁项集{b,c}、频繁项集{b,d}、频繁项集{c,d}、频繁项集{a,b,c}和频繁项集{b,c,d}。若m等于3,针对3项频繁项集{a,b,c},可以从待分析集合中的多个2项频繁项集中选出属于该3项频繁项集{a,b,c}的子集:频繁项集{a,b}、频繁项集{a,c}和频繁项集{b,c},作为该3项频繁项集{a,b,c}的指定子集。
步骤304,针对m项频繁项集的每个指定子集,分别确定该指定子集相对该m项频繁项集的置信度。
具体的,针对m项频繁项集的每个指定子集,可以将该m项频繁项集的支持度除以该指定子集的支持度的比值,作为该指定子集相对该m项频繁项集的置信度。
步骤305,针对每个指定子集,当该指定子集相对该m项频繁项集的置信度大于等于预设置信度阈值时,确定该指定子集中相对于该m项频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系。
举例说明,若频繁项集{a,b,c}的指定子集为频繁项集{a,b},该指定子集{a,b}相对频繁项集{a,b,c}所缺少一个预设维度值为:预设维度值c。若该指定子集{a,b}相对频繁项集{a,b,c}的置信度大于等于预设置信度阈值,则可以确定出预设维度值c与该指定子集{a,b}中的预设维度值a和预设维度值b之间具有关联关系。且关联关系表示:若预设维度值c的统计结果发生异常变化,则预设维度值a和预设维度值b的统计结果的变化情况为预设维度值c的统计结果发生异常变化的原因。
本发明实施例中,置信度阈值可以设定为0.7或0.8,不做具体限定。
参见图4,上述步骤302中,根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果的1项频繁项集,至包含k个预设维度值的统计结果的k项频繁项集的步骤,可以包括:
步骤401:当n等于1时,根据所采集的所有预设维度值的统计结果,生成包含n个预设维度值的统计结果的n项候选集。
具体的,针对每种数据维度,该数据维度包括N个预设维度值。可以从该数据维度的N个预设维度值中,任意选取n个预设维度值的统计结果,将所选取的n个预设维度值的统计结果所构成的集合作为所生成的n项候选集,可以生成个n项候选集。当n等于1时,可以生成个1项候选集;当n等于2时,可以生成个2项候选集;当n等于k时,可以生成个k项候选集。其中,n={1,2,...,N}。
举例说明,若数据维度为视频应用的指数等级,且视频应用的指数等级对应的5个预设维度值为:1级的指数等级到5级的指数等级。采集次数设定为100次且预设时间段设定为2小时,若针对数据维度为视频应用的指数等级,每隔2小时同时采集该数据维度的所有个预设维度值的统计结果,直至连续采集100次。当n等于1时,可以从该数据维度的5个预设维度值中,任意选取1个预设维度值的统计结果,将所选取的1个预设维度值的统计结果所构成的集合作为所生成的1项候选集,可以生成个1项候选集:包含1级的指数等级的统计结果所构成的1项候选集,包含2级的指数等级的统计结果所构成的1项候选集,包含3级的指数等级的统计结果所构成的1项候选集,包含4级的指数等级的统计结果所构成的1项候选集,包含5级的指数等级的统计结果所构成的1项候选集。当n等于2时,可以从该数据维度的5个预设维度值中,任意选取2个预设维度值的统计结果,将所选取的2个预设维度值的统计结果所构成的集合作为所生成的2项候选集,可以生成个1项候选集:包含1级和2级的指数等级的统计结果所构成的2项候选集,包含1级和3级的指数等级的统计结果所构成的2项候选集,包含1级和4级的指数等级的统计结果所构成的2项候选集,包含1级和5级的指数等级的统计结果所构成的2项候选集,包含2级和3级的指数等级的统计结果所构成的2项候选集,包含2级和4级的指数等级的统计结果所构成的2项候选集,包含2级和5级的指数等级的统计结果所构成的2项候选集,包含3级和4级的指数等级的统计结果所构成的2项候选集,包含3级和5级的指数等级的统计结果所构成的2项候选集,包含4级和5级的指数等级的统计结果所构成的2项候选集。当n等于3时,可以从该数据维度的5个预设维度值中,任意选取3个预设维度值的统计结果,将所选取的3个预设维度值的统计结果所构成的集合作为所生成的3项候选集,可以生成个3项候选集。当n等于4时,可以从该数据维度的5个预设维度值中,任意选取4个预设维度值的统计结果,将所选取的4个预设维度值的统计结果所构成的集合作为所生成的4项候选集,可以生成个4项候选集。当n等于5时,可以将该数据维度的5个预设维度值的统计结果所构成的集合作为所生成的5项候选集,可以生成个5项候选集。
步骤402:针对每个n项候选集,计算该n项候选集中,每次所采集得到的n个预设维度值的统计结果相比前次所采集得到的都发生特定变化的次数,除以采集次数的比值,作为该n项候选集的支持度。
其中,采集次数为采集所有预设维度值的统计结果的次数。举例说明,若数据维度为视频应用的指数等级,且视频应用的指数等级对应的5个预设维度值。若预设时间段设定为2小时,针对数据维度为视频应用的指数等级,若连续每个2小时同时采集该数据维度的5个预设维度值的统计结果,采集了100次,则采集次数为100。
若特定变化为上升变化,本步骤中,针对每个n项候选集的n个预设维度值,可以统计每次采集的这n个预设维度值的统计结果相比前一次采集的,这n个预设维度值的统计结果均呈上升变化的次数,作为该n项候选集的变化次数,可以将该n项候选集的变化次数除以采集次数的比值作为该n项候选集的支持度。若特定变化为下降变化,本步骤中,针对每个n项候选集的n个预设维度值,可以统计每次采集的这n个预设维度值的统计结果相比前一次采集的,这n个预设维度值的统计结果均呈下降变化的次数,作为该n项候选集的变化次数,可以将该n项候选集的变化次数除以采集次数的比值作为该n项候选集的支持度。
举例说明,若存在3项候选集F,且3项候选集F包括3个预设维度值:预设维度值f1、预设维度值f2和预设维度值f3。若采集次数为10次,且每次采集的各个预设维度值的统计结果如表1所示。若特定变化为上升变化,根据表1可知,每次采集的3项候选集F的3个预设维度值f1、f2和f3的统计结果相比前一次采集的,均呈上升变化的次数为4次,则3项候选集F的变化次数为4,可以将3项候选集F的变化次数除以采集次数的比值:作为3项候选集F的支持度。
表1:每次所采集的3项候选集F的各个预设维度值的统计结果
步骤403:将支持度大于等于支持度阈值的n项候选集确定为n项频繁项集。
其中,支持度阈值可以设定为0.8或0.9等,不做具体限定。
步骤404:当n项频繁项集的数量大于等于2时,将任意两个n项频繁项集的并集作为n+1项候选集。
步骤405:针对每个n+1项候选集,计算该n+1项候选集中,每次所采集得到的n+1个预设维度值的统计结果相比前次所采集得到的都发生特定变化的次数,除以采集次数的比值,作为该n+1项候选集的支持度。
步骤406:将支持度大于等于支持度阈值的n+1项候选集确定为n+1项频繁项集。
步骤407:判断n+1项频繁项集的数量是否大于等于2,若判断结果为是,将n+1作为新的n的值,返回执行步骤404,若判断结果为否,执行步骤408。
步骤408:确定n+1项频繁项集为k项频繁项集,n+1=k。
针对图4所述的根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果的1项频繁项集,至包含k个预设维度值的统计结果的k项频繁项集,可以举例说明:
如图5所示,针对同一数据维度的4个预设维度值:预设维度值A、预设维度值B、预设维度值C和预设维度值D,可以将预设维度值A、预设维度值B、预设维度值C和预设维度值D各自的统计结果所构成的集合,作为1项候选集,得到4个1项候选集:1项候选集A、1项候选集B、1项候选集C和1项候选集D。分别确定1项候选集A、1项候选集B、1项候选集C和1项候选集D的支持度。若1项候选集A、1项候选集B、1项候选集C和1项候选集D的支持度均大于等于支持度阈值,则可以将1项候选集A、1项候选集B、1项候选集C和1项候选集D分别确定为1项频繁项集A、1项频繁项集B、1项频繁项集C和1项频繁项集D。
然后可以将任意两个1项频繁项集的并集作为2项候选集,得到6个2项候选集:2项候选集AB、2项候选集AC、2项候选集AD、2项候选集BC、2项候选集BD和2项候选集CD。然后可以继续分别确定各个2项候选集的支持度。若6个2项候选集的支持度均大于等于支持度阈值,则可以将这6个2项候选集均确定为2项频繁项集,得到6个2项频繁项集:2项频繁项集AB、2项频繁项集AC、2项频繁项集AD、2项频繁项集BC、2项频繁项集BD和2项频繁项集CD。
然后可以继续将任意两个2项频繁项集的并集作为3项候选集,得到4个3项候选集:3项候选集ABC、3项候选集ABD、3项候选集ACD和3项候选集BCD。然后可以继续分别确定各个3项候选集的支持度。若4个3项候选集的支持度均大于等于支持度阈值,则可以将这4个3项候选集均确定为3项频繁项集,得到4个3项频繁项集:3项频繁项集ABC、3项频繁项集ABD、3项频繁项集ACD和3项频繁项集BCD。
然后还可以继续将任意两个3项频繁项集的并集作为4项候选集,得到1个4项候选集:4项候选集ABCD。然后可以确定4项候选集的支持度。若4项候选集的支持度大于等于支持度阈值,则可以将这个4项候选集确定为4项频繁项集,得到4项频繁项集:4项频繁项集ABCD。
针对4项频繁项集ABCD,其指定子集包括:3项频繁项集ABC、3项频繁项集ABD、3项频繁项集ACD和3项频繁项集BCD。可以计算每个指定子集相对于4项频繁项集ABCD的置信度,例如,可以计算3项频繁项集ACD相对于4项频繁项集ABCD的置信度,若计算得到的3项频繁项集ACD相对于4项频繁项集ABCD的置信度大于等于预设置信度阈值,则表示:指定子集ACD中相对于该4项频繁项集ABCD所缺少一个预设维度值:预设维度值B,与该指定子集ACD中所有预设维度值之间具有关联关系,即预设维度值B与预设维度值A、预设维度值C和预设维度值D之间具有关联关系。同样的,可以针对每个3项频繁项集,计算该3项频繁项集的每个指定子集相对于该3项频繁项集的置信度,确定出各个预设维度值之间的关联关系;可以针对每个2项频繁项集,计算该2项频繁项集的每个指定子集相对于该2项频繁项集的置信度,确定出各个预设维度值之间的关联关系。
参见图6,上述步骤302中,根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果的1项频繁项集,至包含k个预设维度值的统计结果的k项频繁项集的步骤,还可以包括:
步骤601,当n等于1时,根据所采集的所有预设维度值的统计结果,生成包含n个预设维度值的统计结果的n项候选集。
本步骤与上述步骤401相同,此处不再赘述。
步骤602,针对每个n项候选集,分别计算该n项候选集中,每次所采集得到的n个预设维度值的统计结果相比前次所采集得到的都发生上升变化的次数,除以采集次数的比值,作为该n项候选集的上升支持度;以及计算该n项候选集中,每次所采集得到的n个预设维度值的统计结果相比前次所采集得到的都发生下降变化的次数,除以采集次数的比值,作为该n项候选集的下降支持度。
其中,采集次数为:采集所有预设维度值的统计结果的次数。
步骤603,将上升支持度或下降支持度大于等于预设支持度阈值的n项候选集确定为n项频繁项集。
步骤604,当n项频繁项集的数量大于等于2时,将任意两个n项频繁项集的并集作为n+1项候选集。
步骤605,针对每个n+1项候选集,分别计算该n+1项候选集中,每次所采集得到的n+1个预设维度值的统计结果相比前次所采集得到的都发生上升变化的次数,除以采集次数的比值,作为该n+1项候选集的上升支持度;以及计算该n+1项候选集中,每次所采集得到的n+1个预设维度值的统计结果相比前次所采集得到的都发生下降变化的次数,除以采集次数的比值,作为该n+1项候选集的下降支持度。
步骤606,将上升支持度或下降支持度大于等于预设支持度阈值的n+1项候选集确定为n+1项频繁项集。
步骤607,判断n+1项频繁项集的数量是否大于等于2,若判断结果为是,将n+1作为新的n的值返回执行步骤604,若判断结果为否,执行步骤608。
步骤608,确定n+1项频繁项集为k项频繁项集,n+1=k。
基于图6所示的根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果的1项频繁项集,至包含k个预设维度值的统计结果的k项频繁项集的步骤,则上述步骤304中针对m项频繁项集的每个指定子集,分别确定该指定子集相对该m项频繁项集的置信度的步骤,可以包括步骤A1-步骤A2:
步骤A1:针对m项频繁项集的每个指定子集,计算该m项频繁项集的上升支持度除以该指定子集的上升支持度的比值,作为该指定子集相对该m项频繁项集的上升置信度。
步骤A2:针对m项频繁项集的每个指定子集,计算该m项频繁项集的下降支持度除以该指定子集的下降支持度的比值,作为该指定子集相对该m项频繁项集的下降置信度。
步骤A1和步骤A2不限定执行顺序。
进一步的,基于上述步骤A1-步骤A2,上述步骤305中,针对每个指定子集,当该指定子集相对该m项频繁项集的置信度大于等于预设置信度阈值时,确定该指定子集中相对于该m项频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系,可以包括步骤B1:
步骤B1:针对每个指定子集,当该指定子集相对该m项频繁项集的上升置信度或下降置信度大于等于预设置信度阈值时,确定该指定子集中相对于该m项频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系。
举例说明,如图5所示,可以分别确定1项候选集A、1项候选集B、1项候选集C和1项候选集D的上升支持度和下降支持度。将上升支持度或下降支持度大于等于预设支持度阈值的1项候选集确定为1项频繁项集。若1项候选集A、1项候选集B、1项候选集C和1项候选集D均满足条件,则可以将1项候选集A、1项候选集B、1项候选集C和1项候选集D分别确定为1项频繁项集A、1项频繁项集B、1项频繁项集C和1项频繁项集D。
然后可以将任意两个1项频繁项集的并集作为2项候选集,得到6个2项候选集:2项候选集AB、2项候选集AC、2项候选集AD、2项候选集BC、2项候选集BD和2项候选集CD。然后可以继续分别确定各个2项候选集的上升支持度和下降支持度。若6个2项候选集的上升支持度或下降支持度都大于等于支持度阈值,则可以将这6个2项候选集均确定为2项频繁项集,得到6个2项频繁项集:2项频繁项集AB、2项频繁项集AC、2项频繁项集AD、2项频繁项集BC、2项频繁项集BD和2项频繁项集CD。
然后可以继续将任意两个2项频繁项集的并集作为3项候选集,得到4个3项候选集:3项候选集ABC、3项候选集ABD、3项候选集ACD和3项候选集BCD。然后可以继续分别确定各个3项候选集的上升支持度和下降支持度。若4个3项候选集的上升支持度或下降支持度都大于等于支持度阈值,则可以将这4个3项候选集均确定为3项频繁项集,得到4个3项频繁项集:3项频繁项集ABC、3项频繁项集ABD、3项频繁项集ACD和3项频繁项集BCD。
然后还可以继续将任意两个3项频繁项集的并集作为4项候选集,得到1个4项候选集:4项候选集ABCD。然后可以确定4项候选集的上升支持度和下降支持度。若4项候选集的上升支持度或下降支持度大于等于支持度阈值,则可以将这个4项候选集确定为4项频繁项集,得到4项频繁项集:4项频繁项集ABCD。
针对4项频繁项集ABCD,其指定子集包括:3项频繁项集ABC、3项频繁项集ABD、3项频繁项集ACD和3项频繁项集BCD。可以计算每个指定子集相对于4项频繁项集ABCD的上升置信度和下降置信度,例如,可以计算3项频繁项集ACD相对于4项频繁项集ABCD的上升置信度和下降置信度,若计算得到的3项频繁项集ACD相对于4项频繁项集ABCD的上升置信度或下降置信度大于等于预设置信度阈值,则表示:指定子集ACD中相对于该4项频繁项集ABCD所缺少一个预设维度值:预设维度值B,与该指定子集ACD中所有预设维度值之间具有关联关系,即预设维度值B与预设维度值A、预设维度值C和预设维度值D之间具有关联关系。同样的,可以针对每个3项频繁项集,计算该3项频繁项集的每个指定子集相对于该3项频繁项集的上升置信度和下降置信度,确定出各个预设维度值之间的关联关系;可以针对每个2项频繁项集,计算该2项频繁项集的每个指定子集相对于该2项频繁项集的上升置信度和下降置信度,确定出各个预设维度值之间的关联关系。
本发明实施例中,参见图7,确定各个预设维度值之间的关联关系的另一种流程,可以包括如下步骤:
步骤701,针对每种数据维度,每隔预设时间段采集该数据维度的所有预设维度值的统计结果。
本步骤与上述步骤301相同,此处不再赘述。
步骤702,根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果至包含N个预设维度值的统计结果的多个数据集,作为候选集。
其中,N表示该数据维度的所有预设维度值的数量。本步骤中,该数据维度有N个预设维度值,可以生成只包含1个预设维度值的个候选集,生成只包含2个预设维度值的个候选集,直至生成包含N个预设维度值的个候选集。则最终可以生成个候选集。
举例说明,若数据维度α包含三个预设维度值:预设维度值W、预设维度值Y和预设维度值Z。则可以生成只包含1个预设维度值的个候选集:{W}、{Y}和{Z};生成只包含2个预设维度值的个候选集:{W,Y}、{W,Z}和{Y,Z};可以生成包含3个预设维度值的个候选集:{W,Y,Z}。则最终可以生成6个候选集。
步骤703,针对每个候选集,计算该候选集中每次所采集得到的所有预设维度值的统计结果相比前次所采集得到的都发生上升变化或下降变化的次数,除以采集次数的比值,作为该候选集的支持度。
其中,采集次数为:采集所有预设维度值的统计结果的次数。
举例说明,可以针对候选集{W}、{Y}、{Z}、{W,Y}、{W,Z}、{Y,Z}和{W,Y,Z}中的每一个候选集,计算该候选集的支持度。
步骤704,根据候选集的支持度,从多个候选集中,选取支持度大于等于支持度阈值的候选集,作为频繁项集。
本步骤中,可以将由各个频繁项集构成的集合作为待分析集合。
举例说明,若候选集{W}、{Y}、{Z}、{W,Y}、{W,Z}、{Y,Z}和{W,Y,Z}的支持度均大于等于支持度阈值,则可以将{W}、{Y}、{Z}、{W,Y}、{W,Z}、{Y,Z}和{W,Y,Z}均作为频繁项集。并且,可以将各个频繁项集{W}、{Y}、{Z}、{W,Y}、{W,Z}、{Y,Z}和{W,Y,Z}所构成的集合:{{W},{Y},{Z},{W,Y},{W,Z},{Y,Z},{W,Y,Z}}作为待分析集合。
步骤705,针对每个频繁项集,当该频繁项集包含至少2个预设维度值的统计结果时,将待分析集合中,相对该频繁项集缺少一个预设维度值的频繁项集,确定为该频繁项集的指定子集。
步骤706,针对每个频繁项集,分别计算该频繁项集的支持度除以该频繁项集的每个指定子集的支持度的比值,作为每个指定子集相对该频繁项集的置信度。
步骤707,针对每个指定子集,当该指定子集相对该频繁项集的置信度大于等于预设置信度阈值时,确定该指定子集中相对于该频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系。
本发明实施例中,参见图8,确定各个预设维度值之间的关联关系的又一种流程,可以包括如下步骤:
步骤801,针对每种数据维度,每隔预设时间段采集该数据维度的所有预设维度值的统计结果。
本步骤与上述步骤301相同,此处不再赘述。
步骤802,根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果至包含N个预设维度值的统计结果的多个数据集,作为候选集。
本步骤与上述步骤702相同,此处不再赘述。
步骤803,针对每个所述候选集,分别计算该候选集中每次所采集得到的所有预设维度值的统计结果相比前次所采集得到的都发生上升变化的次数除以采集次数的比值,作为该候选集的上升支持度;以及计算该候选集中每次所采集得到的所有预设维度值的统计结果相比前次所采集得到的都发生下降变化的次数,除以采集次数的比值,作为该候选集的下降支持度。
其中,采集次数为:采集所有预设维度值的统计结果的次数。
举例说明,可以针对候选集{W}、{Y}、{Z}、{W,Y}、{W,Z}、{Y,Z}和{W,Y,Z}中的每一个候选集,计算该候选集的上升支持度和下降支持度。例如,针对候选集{W,Y},可以计算该候选集{W,Y}中每次所采集得到的预设维度值W和Y的统计结果相比前次所采集得到的,W和Y都发生上升变化的次数除以采集次数的比值,作为该候选集的上升支持度;以及计算该候选集{W,Y}中每次所采集得到的预设维度值W和Y的统计结果相比前次所采集得到的,W和Y都发生下降变化的次数除以采集次数的比值,作为该候选集的下降支持度。
步骤804,根据候选集的上升支持度和候选集的下降支持度,从多个候选集中,选取上升支持度或下降支持度大于等于支持度阈值的候选集,作为频繁项集,将由各个频繁项集构成的集合作为待分析集合。
步骤805,针对每个频繁项集,当该频繁项集包含至少2个预设维度值的统计结果时,将待分析集合中,相对该频繁项集缺少一个预设维度值的频繁项集,确定为该频繁项集的指定子集。
步骤806,针对每个指定子集,分别计算该频繁项集的上升支持度除以该指定子集的上升支持度的比值,作为该指定子集相对该频繁项集的上升置信度;以及该频繁项集的下降支持度除以该指定子集的下降支持度的比值,作为该指定子集相对该频繁项集的下降置信度。
步骤807,针对每个指定子集,当该指定子集相对该频繁项集的上升置信度或下降置信度大于等于预设置信度阈值时,确定该指定子集中相对于该频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系。
采用本发明实施例提供的方法,可以根据预先确定的各个预设维度值之间的关联关系,确定出待分析预设维度值的统计结果发生异常变化的原因,而不再需要通过人工排查分析数据发生变化的原因。因此,在进行数据分析时可以减少人力资源的消耗,提高数据分析的效率。并且,由于本发明不仅可以分析各个预设维度值的上升变化趋势,同时也可以分析各个预设维度值的下降变化趋势,弥补了单一分析的不全性,使得所确定的各个预设维度值的关联关系更为准确,进一步的,使得所确定出的待分析预设维度值的统计结果发生异常变化的原因也更为准确。
基于同一发明构思,根据本发明上述实施例提供的异常数据的分析方法,相应地,本发明另一实施例还提供了一种异常数据的分析装置,其结构示意图如图9所示,具体包括:
业务数据获取模块901,用于获取业务应用运行过程中,预设时长内产生的业务数据;
数据统计模块902,用于基于该业务数据的预设的数据维度,分别对所述业务数据不同数据维度的数据进行统计,得到不同数据维度的统计结果;其中,每种数据维度具有多个预设维度值;统计结果为针对不同数据维度的各个预设维度值的统计数据;
异常检测模块903,用于针对每种数据维度,检测各个预设维度值的统计结果是否发生异常变化;
异常变化获取模块904,用于获得发生异常变化的预设维度值,作为待分析预设维度值;
异常原因确定模块905,用于根据预先确定的各个预设维度值之间的关联关系,获得与该待分析预设维度值关联的其他预设维度值的统计结果的变化情况,将所述变化情况,作为该待分析预设维度值的统计结果发生异常变化的原因。
可见,采用本发明实施例提供的装置,通过获取业务应用运行过程中,预设时长内产生的业务数据;基于该业务数据的预设的数据维度,分别对业务数据不同数据维度的数据进行统计,得到不同数据维度的统计结果;针对每种数据维度,检测各个预设维度值的统计结果是否发生异常变化;获得发生异常变化的预设维度值,作为待分析预设维度值;根据预先确定的各个预设维度值之间的关联关系,获得与该待分析预设维度值关联的其他预设维度值的统计结果的变化情况,将变化情况,作为该待分析预设维度值的统计结果发生异常变化的原因。即可以根据预先确定的各个预设维度值之间的关联关系,确定出待分析预设维度值的统计结果发生异常变化的原因,而不再需要通过人工排查分析数据发生变化的原因。因此,在进行数据分析时可以减少人力资源的消耗,提高数据分析的效率。
具体的,本发明实施例提供的异常数据的分析装置所包括的内容,与本申请说明书中发明内容部分所记载的相同。
基于同一发明构思,根据本发明上述实施例提供的风险识别方法,相应地,本发明另一实施例还提供了一种电子设备,参见图10,本发明实施例的电子设备包括处理器1001,通信接口1002,存储器1003和通信总线1004,其中,处理器1001,通信接口1002,存储器1003通过通信总线1004完成相互间的通信。
存储器1003,用于存放计算机程序;
处理器1001,用于执行存储器1003上所存放的程序时,实现如下步骤:
获取业务应用运行过程中,预设时长内产生的业务数据;
基于该业务数据的预设的数据维度,分别对所述业务数据不同数据维度的数据进行统计,得到不同数据维度的统计结果;其中,每种数据维度具有多个预设维度值;统计结果为针对不同数据维度的各个预设维度值的统计数据;
针对每种数据维度,检测各个预设维度值的统计结果是否发生异常变化;
获得发生异常变化的预设维度值,作为待分析预设维度值;
根据预先确定的各个预设维度值之间的关联关系,获得与该待分析预设维度值关联的其他预设维度值的统计结果的变化情况,将所述变化情况,作为该待分析预设维度值的统计结果发生异常变化的原因。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一异常数据的分析方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一异常数据的分析方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备及存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (13)
1.一种异常数据的分析方法,其特征在于,包括:
获取业务应用运行过程中,预设时长内产生的业务数据;
基于该业务数据的预设的数据维度,分别对所述业务数据不同数据维度的数据进行统计,得到不同数据维度的统计结果;其中,每种数据维度具有多个预设维度值;统计结果为针对不同数据维度的各个预设维度值的统计数据;
针对每种数据维度,检测各个预设维度值的统计结果是否发生异常变化;
获得发生异常变化的预设维度值,作为待分析预设维度值;
根据预先确定的各个预设维度值之间的关联关系,获得与该待分析预设维度值关联的其他预设维度值的统计结果的变化情况,将所述变化情况,作为该待分析预设维度值的统计结果发生异常变化的原因。
2.根据权利要求1所述的方法,其特征在于,所述各个预设维度值之间的关联关系为:预先基于数据挖掘算法确定的。
3.根据权利要求2所述的方法,其特征在于,预先基于数据挖掘算法确定各个预设维度值之间的关联关系,包括如下步骤:
针对每种数据维度,每隔预设时间段采集该数据维度的所有预设维度值的统计结果;
根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果的1项频繁项集,至包含k个预设维度值的统计结果的k项频繁项集;1≤k≤N,N表示该数据维度的所有预设维度值的数量;频繁项集为支持度大于等于预设支持度阈值的集合;将由各个频繁项集构成的集合作为待分析集合;所述频繁项集的支持度为:频繁项集中每次所采集得到的各个预设维度值的统计结果相比前次所采集得到的都发生特定变化的次数,除以采集次数的比值,作为频繁项集的支持度;所述采集次数为:采集所有预设维度值的统计结果的次数;特定变化为:上升变化或下降变化;
针对每个m项频繁项集,将所述待分析集合中的多个m-1项频繁项集中,属于该m项频繁项集的子集的m-1项频繁项集,确定为该m项频繁项集的指定子集;m∈{2,3,...,k};
针对m项频繁项集的每个指定子集,分别确定该指定子集相对该m项频繁项集的置信度;
针对每个指定子集,当该指定子集相对该m项频繁项集的置信度大于等于预设置信度阈值时,确定该指定子集中相对于该m项频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系。
4.根据权利要求3所述的方法,其特征在于,所述根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果的1项频繁项集,至包含k个预设维度值的统计结果的k项频繁项集,包括:
当n等于1时,根据所采集的所有预设维度值的统计结果,生成包含n个预设维度值的统计结果的n项候选集;
针对每个n项候选集,确定该n项候选集的支持度;
将支持度大于等于支持度阈值的n项候选集确定为n项频繁项集;
当n项频繁项集的数量大于等于2时,将任意两个n项频繁项集的并集作为n+1项候选集;
针对每个n+1项候选集,确定该n+1项候选集的支持度;
将支持度大于等于支持度阈值的n+1项候选集确定为n+1项频繁项集;
判断n+1项频繁项集的数量是否大于等于2;
若判断为是,将n+1作为新的n的值,返回将任意两个n项频繁项集的并集作为n+1项候选集的步骤;
若判断为否,确定n+1项频繁项集为k项频繁项集;n+1=k。
5.根据权利要求3所述的方法,其特征在于,所述针对m项频繁项集的每个指定子集,分别确定该指定子集相对该m项频繁项集的置信度,包括:
针对m项频繁项集的每个指定子集,计算该m项频繁项集的支持度,除以该指定子集的支持度的比值,作为该指定子集相对该m项频繁项集的置信度。
6.根据权利要求3所述的方法,其特征在于,所述根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果的1项频繁项集,至包含k个预设维度值的统计结果的k项频繁项集,包括:
当n等于1时,根据所采集的所有预设维度值的统计结果,生成包含n个预设维度值的统计结果的n项候选集;
针对每个n项候选集,分别计算该n项候选集中,每次所采集得到的n个预设维度值的统计结果相比前次所采集得到的都发生上升变化的次数,除以采集次数的比值,作为该n项候选集的上升支持度;以及计算该n项候选集中,每次所采集得到的n个预设维度值的统计结果相比前次所采集得到的都发生下降变化的次数,除以采集次数的比值,作为该n项候选集的下降支持度;所述采集次数为:采集所有预设维度值的统计结果的次数;
将上升支持度或下降支持度大于等于预设支持度阈值的n项候选集确定为n项频繁项集;
当n项频繁项集的数量大于等于2时,将任意两个n项频繁项集的并集作为n+1项候选集;
针对每个n+1项候选集,分别计算该n+1项候选集中,每次所采集得到的n+1个预设维度值的统计结果相比前次所采集得到的都发生上升变化的次数,除以采集次数的比值,作为该n+1项候选集的上升支持度;以及计算该n+1项候选集中,每次所采集得到的n+1个预设维度值的统计结果相比前次所采集得到的都发生下降变化的次数,除以采集次数的比值,作为该n+1项候选集的下降支持度;
将上升支持度或下降支持度大于等于预设支持度阈值的n+1项候选集确定为n+1项频繁项集;
判断n+1项频繁项集的数量是否大于等于2;
若判断为是,将n+1作为新的n的值,返回将任意两个n项频繁项集的并集作为n+1项候选集的步骤;
若判断为否,确定n+1项频繁项集为k项频繁项集,n+1=k。
7.根据权利要求3所述的方法,其特征在于,所述针对m项频繁项集的每个指定子集,分别确定该指定子集相对该m项频繁项集的置信度,包括:
针对m项频繁项集的每个指定子集,分别计算该m项频繁项集的上升支持度,除以该指定子集的上升支持度的比值,作为该指定子集相对该m项频繁项集的上升置信度;以及计算该m项频繁项集的下降支持度,除以该指定子集的下降支持度的比值,作为该指定子集相对该m项频繁项集的下降置信度;
所述针对每个指定子集,当该指定子集相对该m项频繁项集的置信度大于等于预设置信度阈值时,确定该指定子集中相对于该m项频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系,包括:
针对每个指定子集,当该指定子集相对该m项频繁项集的上升置信度或下降置信度大于等于预设置信度阈值时,确定该指定子集中相对于该m项频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系。
8.根据权利要求1所述的方法,其特征在于,所述各个预设维度值之间的关联关系,采用如下步骤确定:
针对每种数据维度,每隔预设时间段采集该数据维度的所有预设维度值的统计结果;
根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果至包含N个预设维度值的统计结果的多个数据集,作为候选集;N表示该数据维度的所有预设维度值的数量;
针对每个所述候选集,计算该候选集中每次所采集得到的所有预设维度值的统计结果相比前次所采集得到的都发生上升变化或下降变化的次数,除以采集次数的比值,作为该候选集的支持度;所述采集次数为:采集所有预设维度值的统计结果的次数;
根据候选集的支持度,从多个所述候选集中,选取支持度大于等于支持度阈值的候选集,作为频繁项集,将由各个频繁项集构成的集合作为待分析集合;
针对每个频繁项集,当该频繁项集包含至少2个预设维度值的统计结果时,将所述待分析集合中,相对该频繁项集缺少一个预设维度值的频繁项集,确定为该频繁项集的指定子集;
针对每个频繁项集,分别计算该频繁项集的支持度除以该频繁项集的每个指定子集的支持度的比值,作为每个指定子集相对该频繁项集的置信度;
针对每个指定子集,当该指定子集相对该频繁项集的置信度大于等于预设置信度阈值时,确定该指定子集中相对于该频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系。
9.根据权利要求1所述的方法,其特征在于,所述各个预设维度值之间的关联关系,采用如下步骤确定:
针对每种数据维度,每隔预设时间段采集该数据维度的所有预设维度值的统计结果;
根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果至包含N个预设维度值的统计结果的多个数据集,作为候选集;N表示该数据维度的所有预设维度值的数量;
针对每个所述候选集,分别计算该候选集中每次所采集得到的所有预设维度值的统计结果相比前次所采集得到的都发生上升变化的次数,除以采集次数的比值,作为该候选集的上升支持度;以及计算该候选集中每次所采集得到的所有预设维度值的统计结果相比前次所采集得到的都发生下降变化的次数,除以采集次数的比值,作为该候选集的下降支持度;所述采集次数为:采集所有预设维度值的统计结果的次数;
根据候选集的上升支持度和候选集的下降支持度,从多个所述候选集中,选取上升支持度或下降支持度大于等于支持度阈值的候选集,作为频繁项集,将由各个频繁项集构成的集合作为待分析集合;
针对每个频繁项集,当该频繁项集包含至少2个预设维度值的统计结果时,将所述待分析集合中,相对该频繁项集缺少一个预设维度值的频繁项集,确定为该频繁项集的指定子集;
针对每个指定子集,分别计算该频繁项集的上升支持度除以该指定子集的上升支持度的比值,作为该指定子集相对该频繁项集的上升置信度;以及该频繁项集的下降支持度除以该指定子集的下降支持度的比值,作为该指定子集相对该频繁项集的下降置信度;
针对每个指定子集,当该指定子集相对该频繁项集的上升置信度或下降置信度大于等于预设置信度阈值时,确定该指定子集中相对于该频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系。
10.根据权利要求1所述的方法,其特征在于,所述业务数据为:视频应用的用户活跃度数据;
所述数据维度包括:视频应用的用户品类、视频应用的内容等级、视频应用的指数等级、视频应用的用户类型、视频应用的用户来源类型、视频应用的用户原创身份、视频应用的用户是否上传过小视频、视频应用的用户是否为专业版用户、视频应用的用户活跃类型、视频应用的用户上传视频的上传入口。
11.一种异常数据的分析装置,其特征在于,包括:
业务数据获取模块,用于获取业务应用运行过程中,预设时长内产生的业务数据;
数据统计模块,用于基于该业务数据的预设的数据维度,分别对所述业务数据不同数据维度的数据进行统计,得到不同数据维度的统计结果;其中,每种数据维度具有多个预设维度值;统计结果为针对不同数据维度的各个预设维度值的统计数据;
异常检测模块,用于针对每种数据维度,检测各个预设维度值的统计结果是否发生异常变化;
异常变化获取模块,用于获得发生异常变化的预设维度值,作为待分析预设维度值;
异常原因确定模块,用于根据预先确定的各个预设维度值之间的关联关系,获得与该待分析预设维度值关联的其他预设维度值的统计结果的变化情况,将所述变化情况,作为该待分析预设维度值的统计结果发生异常变化的原因。
12.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-10任一所述的方法步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-10任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010691614.4A CN111858245A (zh) | 2020-07-17 | 2020-07-17 | 一种异常数据的分析方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010691614.4A CN111858245A (zh) | 2020-07-17 | 2020-07-17 | 一种异常数据的分析方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111858245A true CN111858245A (zh) | 2020-10-30 |
Family
ID=73001801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010691614.4A Pending CN111858245A (zh) | 2020-07-17 | 2020-07-17 | 一种异常数据的分析方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858245A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667827A (zh) * | 2020-12-23 | 2021-04-16 | 北京奇艺世纪科技有限公司 | 一种数据异常分析方法、装置、电子设备及存储介质 |
CN113448761A (zh) * | 2021-06-17 | 2021-09-28 | 新浪网技术(中国)有限公司 | 一种根因定位方法及装置 |
CN117591964A (zh) * | 2024-01-12 | 2024-02-23 | 山西思极科技有限公司 | 基于人工智能的电力智能分析方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160092515A1 (en) * | 2014-09-29 | 2016-03-31 | International Business Machines Corporation | Mining association rules in the map-reduce framework |
CN107832416A (zh) * | 2017-11-08 | 2018-03-23 | 山东浪潮云服务信息科技有限公司 | 一种关联规则的确定方法及装置 |
CN109656969A (zh) * | 2018-11-16 | 2019-04-19 | 北京奇虎科技有限公司 | 数据异动分析方法及装置 |
CN110162566A (zh) * | 2019-04-15 | 2019-08-23 | 平安普惠企业管理有限公司 | 业务数据的关联分析方法、装置、计算机设备及存储介质 |
US20190294485A1 (en) * | 2018-03-22 | 2019-09-26 | Microsoft Technology Licensing, Llc | Multi-variant anomaly detection from application telemetry |
CN110704751A (zh) * | 2019-10-22 | 2020-01-17 | 北京字节跳动网络技术有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN111309787A (zh) * | 2020-03-02 | 2020-06-19 | 广州大学 | 一种基于Apriori算法挖掘二维数据间关联规则的方法 |
-
2020
- 2020-07-17 CN CN202010691614.4A patent/CN111858245A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160092515A1 (en) * | 2014-09-29 | 2016-03-31 | International Business Machines Corporation | Mining association rules in the map-reduce framework |
CN107832416A (zh) * | 2017-11-08 | 2018-03-23 | 山东浪潮云服务信息科技有限公司 | 一种关联规则的确定方法及装置 |
US20190294485A1 (en) * | 2018-03-22 | 2019-09-26 | Microsoft Technology Licensing, Llc | Multi-variant anomaly detection from application telemetry |
CN109656969A (zh) * | 2018-11-16 | 2019-04-19 | 北京奇虎科技有限公司 | 数据异动分析方法及装置 |
CN110162566A (zh) * | 2019-04-15 | 2019-08-23 | 平安普惠企业管理有限公司 | 业务数据的关联分析方法、装置、计算机设备及存储介质 |
CN110704751A (zh) * | 2019-10-22 | 2020-01-17 | 北京字节跳动网络技术有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN111309787A (zh) * | 2020-03-02 | 2020-06-19 | 广州大学 | 一种基于Apriori算法挖掘二维数据间关联规则的方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667827A (zh) * | 2020-12-23 | 2021-04-16 | 北京奇艺世纪科技有限公司 | 一种数据异常分析方法、装置、电子设备及存储介质 |
CN113448761A (zh) * | 2021-06-17 | 2021-09-28 | 新浪网技术(中国)有限公司 | 一种根因定位方法及装置 |
CN117591964A (zh) * | 2024-01-12 | 2024-02-23 | 山西思极科技有限公司 | 基于人工智能的电力智能分析方法 |
CN117591964B (zh) * | 2024-01-12 | 2024-04-05 | 山西思极科技有限公司 | 基于人工智能的电力智能分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110659388B (zh) | 一种待推荐信息筛选方法、装置、电子设备及存储介质 | |
US10884891B2 (en) | Interactive detection of system anomalies | |
CN111858245A (zh) | 一种异常数据的分析方法、装置、电子设备及存储介质 | |
EP4198775A1 (en) | Abnormal user auditing method and apparatus, electronic device, and storage medium | |
CN108390788B (zh) | 用户识别方法、装置及电子设备 | |
KR100921618B1 (ko) | 기술창업기업에 대한 기술평가방법 | |
CN109857618B (zh) | 一种监控方法、装置及系统 | |
CN112686521B (zh) | 一种风控规则调优方法和系统 | |
CN115952426B (zh) | 基于随机采样的分布式噪音数据聚类方法及用户分类方法 | |
CN114780606B (zh) | 一种大数据挖掘方法及系统 | |
CN108197795B (zh) | 恶意团体账户识别方法、装置、终端及存储介质 | |
CN111046141B (zh) | 一种基于历史时间特征的文本库关键词精炼方法 | |
US8543552B2 (en) | Detecting statistical variation from unclassified process log | |
CN112995765B (zh) | 一种网络资源显示方法及装置 | |
CN112487021B (zh) | 业务数据的关联分析方法、装置及设备 | |
CN114490786A (zh) | 数据排序方法及装置 | |
CN111767938B (zh) | 一种异常数据检测方法、装置及电子设备 | |
CN112686423A (zh) | 基于机器学习的信托产品收益率预测方法及装置 | |
WO2018044955A1 (en) | Systems and methods for measuring collected content significance | |
CN114510405B (zh) | 指标数据评估方法、装置、设备、存储介质及程序产品 | |
CN114330720A (zh) | 用于云计算的知识图谱构建方法、设备及存储介质 | |
CN112016975A (zh) | 产品筛选方法、装置、计算机设备及可读存储介质 | |
CN112269924A (zh) | 基于排名的点评方法、装置、电子设备和介质 | |
US20170199911A1 (en) | Method and Query Processing Server for Optimizing Query Execution | |
CN113626698A (zh) | 视频推荐方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |