CN118296321A - 一种数据分析方法、介质、装置、计算设备和程序产品 - Google Patents

一种数据分析方法、介质、装置、计算设备和程序产品 Download PDF

Info

Publication number
CN118296321A
CN118296321A CN202410426183.7A CN202410426183A CN118296321A CN 118296321 A CN118296321 A CN 118296321A CN 202410426183 A CN202410426183 A CN 202410426183A CN 118296321 A CN118296321 A CN 118296321A
Authority
CN
China
Prior art keywords
user
behavior data
historical behavior
period
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410426183.7A
Other languages
English (en)
Inventor
杜婷
谢蕾
刘峰奇
季哲
罗霄
张泽辉
胡稚灵
陈锦海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Cloud Music Technology Co Ltd
Original Assignee
Hangzhou Netease Cloud Music Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Netease Cloud Music Technology Co Ltd filed Critical Hangzhou Netease Cloud Music Technology Co Ltd
Priority to CN202410426183.7A priority Critical patent/CN118296321A/zh
Publication of CN118296321A publication Critical patent/CN118296321A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开的实施方式提供了一种数据分析方法、介质、装置、计算设备和程序产品。该方法包括:获取用户在指定业务场景下预设周期内的第一历史行为数据,所述预设周期内包括设定数目的单位周期,所述设定数目大于预设值;将所述预设周期内的第一历史行为数据按照预设子周期划分为多组,并根据每组内第一历史行为数据的运算结果,确定所述用户在预设子周期内的业务行为所服从的正态分布的参数;获取所述用户在目标子周期内的第二历史行为数据的运算结果;根据所述第二历史行为数据的运算结果和所述正态分布的参数,确定所述用户在目标子周期内的波动情况。通过本公开不仅可以提高分析该用户业务行为波动情况的准确性,而且能够节省标记成本。

Description

一种数据分析方法、介质、装置、计算设备和程序产品
技术领域
本公开的实施方式涉及数据处理领域,更具体地,本公开的实施方式涉及一种数据分析方法、介质、装置、计算设备和程序产品。
背景技术
随着互联网行业的快速发展,各个平台之间的竞争日益激烈,若能够快速从海量业务数据中感知到用户行为数据的变化,将有助于其他业务的开展。
相关技术中可以通过对多个样本用户的行为进行统计,得到参考阈值,并将待检测用户的行为数据与该参考阈值进行比较,得到待检测用户的检测结果。该方式没有考虑不同用户之间的差异,导致检测结果并不准确。相关技术中还可以利用携带有标注的测试集数据对有监督的分类算法进行训练,获得可以检测异常流量的分类器,再利用训练好的分类器对待检测用户进行分类,完成对待检测用户的业务流量检测。但该方式需要投入大量的成本获得标注好的测试数据集,具有很高的业务成本。因此,亟需一种业务成本低、准确性高的数据分析方法。
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
发明内容
在本上下文中,本公开的实施方式期望提供一种数据分析方法、介质、装置、计算设备和程序产品,以便提高获取用户行为波动情况的准确性。
在本公开实施方式的第一方面中,提供了一种数据分析方法,包括:获取用户在指定业务场景下预设周期内的第一历史行为数据,所述预设周期内包括设定数目的单位周期,所述设定数目大于预设值;将所述预设周期内的第一历史行为数据按照预设子周期划分为多组,并根据每组内第一历史行为数据的运算结果,确定所述用户在预设子周期内的业务行为所服从的正态分布的参数;获取所述用户在目标子周期内的第二历史行为数据的运算结果;根据所述第二历史行为数据的运算结果和所述正态分布的参数,确定所述用户在目标子周期内的波动情况。
在一些实施例中,所述运算结果包括求和结果;
所述根据每组内第一历史行为数据的运算结果,确定所述用户在预设子周期内的业务行为所服从的正态分布的参数,包括:根据每组内的第一历史行为数据,分别确定每组内第一历史行为数据的和;根据每组内第一历史行为数据的和与分组个数的比值,确定所述用户在预设子周期内的业务行为所服从的正态分布的期望值;获取每组对应的中间参数值,所述中间参数值为每组内第一历史行为数据的和与所述期望值的差值的平方;根据每组对应的中间参数值的和与所述分组个数的比值,确定所述用户在预设子周期内的业务行为所服从的正态分布的方差。
在一些实施例中,所述运算结果包括求均值结果;
所述根据每组内第一历史行为数据的运算结果,确定所述用户在预设子周期内的业务行为所服从的正态分布的参数,包括:根据每组内的第一历史行为数据,分别确定每组内第一历史行为数据的均值;根据每组内第一历史行为数据的均值与分组个数的比值,确定所述用户在预设子周期内的业务行为所服从的正态分布的期望值;获取每组对应的中间参数值,所述中间参数值为每组内第一历史行为数据的均值与所述期望值的差值的平方;根据每组对应的中间参数值的和与所述分组个数的比值,确定所述用户在预设子周期内的业务行为所服从的正态分布的方差。
在一些实施例中,所述根据所述第二历史行为数据的运算结果和所述正态分布的参数,确定所述用户在目标子周期内的波动情况,包括:根据所述第二历史行为数据的运算结果和所述正态分布的参数,确定标准分数,所述标准分数用于衡量所述第二历史行为数据运算结果与所述正态分布的偏移程度;根据所述标准分数确定所述用户在目标子周期内的波动情况。
在一些实施例中,所述根据所述第二历史行为数据的运算结果和所述正态分布的参数,确定标准分数,包括:获取所述第二历史行为数据的运算结果与所述正态分布的期望值的差值;根据所述差值与所述正态分布的方差的比值,得到标准分数。
在一些实施例中,所述根据所述标准分数确定所述用户在目标子周期内的波动情况,包括:将所述标准分数的绝对值确定为所述用户在目标子周期内的波动程度;若所述波动程度大于或等于预设风险程度,则将所述用户标记为异常用户;若所述波动程度小于所述预设风险程度,则将所述用户标记为正常用户。
在一些实施例中,所述方法还包括:获取目标子周期内被标记为异常用户的异常用户总数量;根据目标子周期内所有异常用户的标准分数,计算所述目标子周期内所有异常用户的标准分数均值;根据所述异常用户总数量和/或所述标准分数均值,确定所述指定业务在目标子周期内的业务变化情况。
在本公开实施方式的第二方面中,提供了一种数据分析装置,包括:
获取单元,用于获取用户在指定业务场景下预设周期内的第一历史行为数据,所述预设周期内包括设定数目的单位周期,所述设定数目大于预设值;
确定单元,用于将所述预设周期内的第一历史行为数据按照预设子周期划分为多组,并根据每组内第一历史行为数据的运算结果,确定所述用户在预设子周期内的业务行为所服从的正态分布的参数;
分析单元,用于获取所述用户在目标子周期内的第二历史行为数据的运算结果,并根据所述第二历史行为数据的运算结果和所述正态分布的参数确定所述用户在目标子周期内的波动情况。
在一些实施例中,所述运算结果包括求和结果;所述确定单元,用于根据每组内的第一历史行为数据,分别确定每组内第一历史行为数据的和;根据每组内第一历史行为数据的和与分组个数的比值,确定所述用户在预设子周期内的业务行为所服从的正态分布的期望值;获取每组对应的中间参数值,所述中间参数值为每组内第一历史行为数据的和与所述期望值的差值的平方;根据每组对应的中间参数值的和与所述分组个数的比值,确定所述用户在预设子周期内的业务行为所服从的正态分布的方差。
在一些实施例中,所述运算结果包括求均值结果;所述确定单元,用于根据每组内的第一历史行为数据,分别确定每组内第一历史行为数据的均值;根据每组内第一历史行为数据的均值与分组个数的比值,确定所述用户在预设子周期内的业务行为所服从的正态分布的期望值;获取每组对应的中间参数值,所述中间参数值为每组内第一历史行为数据的均值与所述期望值的差值的平方;根据每组对应的中间参数值的和与所述分组个数的比值,确定所述用户在预设子周期内的业务行为所服从的正态分布的方差。
在一些实施例中,所述分析单元,用于根据所述第二历史行为数据的运算结果和所述正态分布的参数,确定标准分数,所述标准分数用于衡量所述第二历史行为数据运算结果与所述正态分布的偏移程度;根据所述标准分数确定所述用户在目标子周期内的波动情况。
在一些实施例中,所述分析单元,具体用于获取所述第二历史行为数据的运算结果与所述正态分布的期望值的差值;根据所述差值与所述正态分布的方差的比值,得到标准分数。
在一些实施例中,所述分析单元,具体用于将所述标准分数的绝对值确定为所述用户在目标子周期内的波动程度;若所述波动程度大于或等于预设风险程度,则将所述用户标记为异常用户;若所述波动程度小于所述预设风险程度,则将所述用户标记为正常用户。
在一些实施例中,所述分析单元,还用于获取目标子周期内被标记为异常用户的异常用户总数量;根据目标子周期内所有异常用户的标准分数,计算所述目标子周期内所有异常用户的标准分数均值;根据所述异常用户总数量和/或所述标准分数均值,确定所述指定业务在目标子周期内的业务变化情况。
在本公开实施方式的第三方面中,提供了一种计算机可读存储介质,其上储存有计算机程序指令,所述计算机程序指令被处理器执行时实现任一实施例所述的方法。
在本公开实施方式的第四方面中,提供了一种计算设备,包括:存储器、处理器;
所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现上述任一实施例中所述的方法。
在本公开实施方式的第五方面中,提供了一种计算机程序产品,包括计算机程序和指令,该计算机程序/指令被处理器执行时实现上述任一实施例中所述的方法。
根据本公开实施方式的数据分析方法,本公开根据同一用户在多个预设子周期内的业务行为所服从的正态分布的参数,获取该用户在目标子周期内的行为波动情况。通过本公开不仅可以提高分析该用户业务行为波动情况的准确性,而且能够节省标记成本。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1示例性提供一种数据分析方法的流程图;
图2示例性提供一种数据分析方法的实现流程图;
图3示例性提供一种数据分析装置的结构图;
图4是本公开提供的一种计算机可读存储介质的示意图;
图5是本公开提供的一种计算设备的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本公开的实施方式,提出了一种数据分析方法、装置、设备、存储介质及程序产品。
下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
随着互联网行业的快速发展,各个平台之间的竞争日益激烈,若能够快速从海量业务数据中感知到用户行为数据的变化,将有助于其他业务的开展。例如,在用户留存业务,若能及时感知到日活下降的用户群体,则可以给予这些日活下降的群体一些业务奖励或福利等,从而避免用户流失。又例如,在风控领域,若能及时感知到行为异常变化的用户群体,则可以快速筛选出可疑群体,减少风控模型的输入量,降低风险识别成本。
目前,相关技术中可以依据多个样本用户的行为标准判断其他用户的行为。具体的,通过选取部分正样本用户或全量用户作为样本,对这些样本用户在目标业务指标领域的行为进行统计分析,得到业务指标数值,并将该数值作为参考阈值。之后将待检测用户的行为数值与该参考阈值进行比较,若待检测用户的行为数值小于参考阈值,则该检测用户被标记为负样本,反之则为正样本。然而,由于这种方法没有考虑到不同用户之间的差异,即不同用户的业务行为在统计意义上具有不同的分布参数,因此,利用多个样本用户确定的参考阈值与具体用户行为进行比较时,会导致对具体用户的检测结果并不准确。
除此之外,还可以利用有监督的分类算法基于标注好的测试数据集训练目标分类器,利用训练好的目标分类器对待检测用户进行分类打标,以完成对待检测用户的业务流量检测。但该方法需要投入大量的成本对行为数据进行标注,以获得测试数据集,导致业务成本很高。
鉴于此,本公开提供了一种在大数据场景下,基于中心极限定理的数据分析方法。为了便于理解,下述实施例将对中心极限定理进行简要介绍。
中心极限定理(central limit theorem,CLT)是概率论中的一组定理,该定理说明在许多情况下,对于独立同分布的随机变量,即使原始变量本身不是正态分布,标准化样本均值的抽样也趋于标准正态分布。
其中“独立同分布”是指随机变量之间相互独立且具有相同的概率分布。
首先,独立性是指两个或多个随机变量之间的取值不会相互影响。也就是说,知道其中一个随机变量的取值并不能提供有关其他随机变量的信息。例如,掷骰子两次,每次结果为1到6之间的一个数字,第一次掷骰子的结果和第二次掷骰子的结果是独立的,因为它们的结果互不相关。
其次,同分布是指多个随机变量具有相同的概率分布函数或概率密度函数。也就是说,这些随机变量在概率上是相同的。例如,从同一批产品中抽取多个样本进行测试,这些样本的测量结果具有相同的概率分布。
在指定业务场景中,由于不同的用户具有不同的习惯和属性,因此不同用户的业务行为数据的分布是不同的。但对于同一个用户,其各单位周期内的相同业务行为可以看成独立同分布的随机变量。因此,对于任意用户X,可以获取n个单位周期内同一业务场景下的业务行为数据,并记作X1,X2,X3,…,Xi,…,Xn,1<=i<=n,n为任意正整数,其中Xi为用户X在第i个单位周期内在指定业务场景下的业务行为数据。Xi可以看作一个随机变量,因此X1,X2,X3,…,Xi,…,Xn是独立同分布的,具有相同的有限数学期望和方差:E(Xi)=μ,D(Xi)=σ2
根据中心极限定理可知:当n足够大时,随机变量近似地服从正态分布:N(nμ,nσ2),因此可以通过采样方式估算出用户X在指定业务领域的业务行为分布情况。
下述实施例将结合附图对本公开提供的基于中心极限定理进行数据分析的方法进行说明。
图1示例性提供一种数据分析方法的流程图,如图1所示,本公开提供的数据分析方法,包括以下步骤S101至步骤S104。
在步骤S101中,获取用户在指定业务场景下预设周期内的第一历史行为数据。
其中,所述预设周期内包括设定数目的单位周期,所述设定数目大于预设值。本实施例中为了与后续提及的历史行为数据进行区分,将预设周期内的历史行为数据称为第一历史行为数据。示例的,所述单位周期可以是“天”,所述预设值可以是280,也即是可以获取用户在指定业务场景下300天内的第一历史行为数据。
本领域技术人员应当理解,所述单位周期和预设值可以根据实际业务需求确定,例如所述单位周期还可以是“小时”,本公开对此不进行限定。
以天为单位周期,对于目标用户X,取其近300天内指定业务场景下的第一历史行为数据{X1,X2,X3,…,Xi,…,X300},1<=i<=300。其中,Xi为第i天目标用户x在指定业务场景下的第一历史行为数据。Xi可以看作一个随机变量,X1,X2,X3,…,Xi,…,X300为独立同分布。
在步骤S102中,将所述预设周期内的第一历史行为数据按照预设子周期划分为多组,并根据每组内第一历史行为数据的运算结果,确定所述用户在预设子周期内的业务行为所服从的正态分布的参数。
所述预设周期是指获取的所有第一历史行为数据的整体时间跨度,而预设子周期是指多个第一历史行为数据对应的部分时间跨度。在本实施例中,预设周期可以是预设子周期的整数倍,即预设周期内包含有整数个预设子周期。
按照中心极限定理,对于独立并同分布的第一历史行为数据,在第一历史行为数据的数量大于预设值的情况下,将预设周期内的第一历史行为数据按照预设子周期划分为多组,多组内第一历史行为数据的运算结果符合正态分布。因此,可以根据每组内第一历史行为数据的运算结果,确定用户在预设子周期内的业务行为所服从的正态分布的参数。
接续上例,预设子周期为30天,即将获取的300天的第一历史行为数据按照30天为一组分为10组,假设第1组为{X1,X2,…,X30},第2组为{X31,X32,…,X60},同理类推第10组为{X271,X272,…,X300}。据中心极限定理可知,每组随机变量的运算结果满足正态分布,因此根据上述10组数据,可以估算出目标用户30天内在指定业务场景下的期望值μ和方差σ2,进而确定目标用户X在指定业务场景下30天内业务行为满足的正态分布N(μ,σ2)。
本领域技术人员应当理解,上述示例是为了更好地说明本公开,具体获取多长时间的第一历史行为数据,以及如何对获取的第一历史行为数据进行分组可以按照具体情况进行设定。
在步骤S103中,获取所述用户在目标子周期内的第二历史行为数据的运算结果。
在本实施例中,将用户在目标子周期内的历史行为数据,称为第二历史行为数据。
所述目标子周期内所包含单位周期的个数等于预设子周期内所包含单位周期的个数。所述目标子周期内的各时间与所述预设周期内的各时间没有交集。在一例中,所述目标子周期可以包括距离当前时间最近的多个历史时间,在这种情况下,所述目标子周期也称为最近子周期。
示例的,假设可以获取到距离当前时间前7个月的历史行为数据,这种情况下,可以将前6个月的历史行为数据称为第一历史行为数据,第7个月的历史行为数据称为第二历史行为数据,利用前6个月的第一历史行为数据所服从的正态分布,预测第7个月的第二历史行为数据的波动情况。在该示例中,第7个月也可以称为最近子周期。
在步骤S104中,根据所述第二历史行为数据的运算结果和所述正态分布的参数,确定所述用户在目标子周期内的波动情况。
本公开根据同一用户在多个预设子周期内的业务行为所服从的正态分布的参数,获取该用户在目标子周期内的行为波动情况。通过本公开不仅可以提高分析该用户业务行为波动情况的准确性,而且能够节省标记成本。对于存在业务行为变化的用户,可以落实不同的业务处置以实现业务价值的最大化,提高业务规模,实现业务增长。
所述正态分布的参数可以包括均值和方差,即通过均值和方差可以唯一确定正态分布。由于均值和期望值都用来描述随机变量的集中趋势,因此,在正态分布中,均值和期望值具有相同的含义,可以互换使用。下述实施例中将对确定正态分布的参数过程进行说明。
在一些实施例中,所述运算结果可以包括求和结果,在这种情况下,所述根据每组内第一历史行为数据的运算结果,确定所述用户在预设子周期内的业务行为所服从的正态分布的参数,可以通过以下步骤确定:根据每组内的第一历史行为数据,分别确定每组内第一历史行为数据的和;根据每组内第一历史行为数据的和与分组个数的比值,确定所述用户在预设子周期内的业务行为所服从的正态分布的期望值;获取每组对应的中间参数值,所述中间参数值为每组内第一历史行为数据的和与所述期望值的差值的平方;根据每组对应的中间参数值的和与所述分组个数的比值,确定所述用户在预设子周期内的业务行为所服从的正态分布的方差。
示例的,可以通过下列公式(1)计算正态分布的方差。
式中,X表示该组内第一历史行为数据的和;σ2表示所述用户在预设子周期内的业务行为所服从的正态分布的方差;μ表示所述用户在预设子周期内的业务行为所服从的正态分布的期望值,N表示分组个数。
在另一些实施例中,所述运算结果可以包括求均值结果,在这种情况下,所述根据每组内第一历史行为数据的运算结果,确定所述用户在预设子周期内的业务行为所服从的正态分布的参数,可以通过以下步骤确定:根据每组内的第一历史行为数据,分别确定每组内第一历史行为数据的均值;根据每组内第一历史行为数据的均值与分组个数的比值,确定所述用户在预设子周期内的业务行为所服从的正态分布的期望值;获取每组对应的中间参数值,所述中间参数值为每组内第一历史行为数据的均值与所述期望值的差值的平方;根据每组对应的中间参数值的和与所述分组个数的比值,确定所述用户在预设子周期内的业务行为所服从的正态分布的方差。
标准分数(standard score),也称为Z分数(z-score),是一种用于描述数据点在正态分布曲线上位置的统计量。标准分数表示一个数据点与其所在数据集均值的偏差程度。本实施例将根据用户业务行为所服从正态分布的期望值和方差,计算用户近期业务行为的z-score。用z-score的正负情况表示用户近期业务行为是否上升或下降,用z-core分的绝对值表示用户近期业务行为的变化程度。
在本公开实施例中,所述根据所述第二历史行为数据的运算结果和所述正态分布的参数,确定所述用户在目标子周期内的波动情况,可以包括:根据所述第二历史行为数据的运算结果和所述正态分布的参数,确定标准分数,所述标准分数用于衡量所述第二历史行为数据运算结果与所述正态分布的偏移程度;根据所述标准分数确定所述用户在目标子周期内的波动情况。
在已知目标用户X在指定业务场景的30天内业务行为满足正态分布N(μ,σ2)的情况下,可以取该目标用户X在目标子周期内的第二历史行为数据,例如可以获取近30天内的业务行为情况,记为
在一种示例性的实施方式中,所述根据所述第二历史行为数据的运算结果和所述正态分布的参数,确定标准分数,包括:获取所述第二历史行为数据的运算结果与所述正态分布的期望值的差值;根据所述差值与所述正态分布的方差的比值,得到标准分数。
示例的,可以根据下列公式(2)计算用户X在特定业务领域的波动情况z-score。
在上式中,Y表示标准分数,Y取值范围(-∞,+∞)。当Y为负值时,说明目标用户近期业务行为下降;当Y为正值时,说明目标用户近期业务行为上升;当Y=0时,说明目标用户近期业务行为和期望值一样。用户业务行为波动程度为Y的绝对值,记为|Y|。
在一种示例性的实施方式中,所述根据所述标准分数确定所述用户在目标子周期内的波动情况,可以包括:将所述标准分数的绝对值确定为所述用户在目标子周期内的波动程度;若所述波动程度大于或等于预设风险程度,则将所述用户标记为异常用户;若所述波动程度小于所述预设风险程度,则将所述用户标记为正常用户。
将波动程度和预设风险程度进行比对,若波动程度高于预设风险程度,则将该目标用户标记为异常用户,反之则为正常用户。
在本公开实施例中,可以获取符合预设条件的多个用户;针对每一用户,利用上述实施例确定该用户在目标子周期内的波动情况。也即是,在获得多个用户在目标子周期内的波动情况的情况下,可以根据多个用户在目标子周期内的波动情况,确定所述指定业务在目标子周期内的业务变化情况。其中,预设条件可以为用户第一历史行为数据的数量满足预设值。
也就是说,所述方法还可以包括:获取目标子周期内被标记为异常用户的异常用户总数量;根据目标子周期内所有异常用户的标准分数,计算所述目标子周期内所有异常用户的标准分数均值;根据所述异常用户总数量和/或所述标准分数均值,确定所述指定业务在目标子周期内的业务变化情况。
在利用上述实施例计算出全量满足计算条件的用户在指定业务场景下目标子周期内的波动情况和波动程度的情况下,可以进一步获得目标子周期内的异常用户总数量和目标子周期内所有异常用户的标准分数均值。
根据异常用户总数量可以确定目标子周期内业务变化用户数;根据目标子周期内所有异常用户的标准分数均值,可以确定目标子周期内业务的异常用户的波动程度。通过异常用户总数量和/或标准分数均值,可以感知到业务变化情况。
为了便于理解,本实施例将结合图2对本公开提供的数据分析方法进行整体说明。
图2示例性提供一种数据分析方法的实现流程图,如图2所示,假设有M个用户符合预设条件,针对每一用户j,基于用户j在预设周期内的第一历史行为数据,获得用户j在指定业务场景的业务行为所服从的正态分布;根据正态分布的参数以及用户j在目标子周期内的第二历史行为数据的运算结果,确定用户j在目标子周期内的波动情况;根据波动程度和预设风险程度的关系,判定用户j是否为异常用户。在完成对符合条件的所有用户的标记后,获取目标子周期内被标记为异常用户的异常用户总数量,以及所有异常用户的标准分数均值。
本公开考虑了用户习惯的差异,基于中心极限定理实现具有用户特征的业务行为分布情况。该方法具有高鲁棒性、高便利性、高准确性、高实用性、低成本优点,可快速解决大规模用户业务流量检测问题。
需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
图3示例性提供一种数据分析装置的结构图,如图3所示,本公开提供的一种数据分析装置,包括:
获取单元301,用于获取用户在指定业务场景下预设周期内的第一历史行为数据,所述预设周期内包括设定数目的单位周期,所述设定数目大于预设值;
确定单元302,用于将所述预设周期内的第一历史行为数据按照预设子周期划分为多组,并根据每组内第一历史行为数据的运算结果,确定所述用户在预设子周期内的业务行为所服从的正态分布的参数;
分析单元303,用于获取所述用户在目标子周期内的第二历史行为数据的运算结果,并根据所述第二历史行为数据的运算结果和所述正态分布的参数确定所述用户在目标子周期内的波动情况。
应当注意,尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
图4是本公开提供的一种计算机可读存储介质的示意图,该介质400上存储有计算机程序,所述程序被处理器执行时实现本公开任一实施例的方法。
本公开还提供了一种计算设备,包括存储器、处理器;所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现本公开任一实施例的方法。
图5是本公开提供的一种计算设备的结构示意图,该计算设备500可以包括但不限于:处理器501、存储器502、连接不同系统组件(包括存储器502和处理器501)的总线503。
其中,存储器502存储有计算机指令,该计算机指令可以被处理器501执行,使得处理器501能够执行本公开任一实施例的方法。存储器502可以包括随机存取存储单元RAM5021、高速缓存存储单元5022和/或只读存储单元ROM5023。该存储器502还可以包括:具有一组程序模块5024的程序工具5025,该程序模块5024包括但不限于:操作系统、一个或多个应用程序、其他程序模块和程序数据,这些程序模块一种或多种组合可以包含网络环境的实现。
总线503例如可以包括数据总线、地址总线和控制总线等。该计算设备500还可以通过I/O接口504与外部设备505通信,该外部设备505例如可以是键盘、蓝牙设备等。该计算设备500还可以通过网络适配器506与一个或多个网络通信,例如,该网络可以是局域网、广域网、公共网络等。该网络适配器506还可以通过总线503与计算设备500的其他模块进行通信。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种数据分析方法,其特征在于,包括:
获取用户在指定业务场景下预设周期内的第一历史行为数据,所述预设周期内包括设定数目的单位周期,所述设定数目大于预设值;
将所述预设周期内的第一历史行为数据按照预设子周期划分为多组,并根据每组内第一历史行为数据的运算结果,确定所述用户在预设子周期内的业务行为所服从的正态分布的参数;
获取所述用户在目标子周期内的第二历史行为数据的运算结果;
根据所述第二历史行为数据的运算结果和所述正态分布的参数,确定所述用户在目标子周期内的波动情况。
2.根据权利要求1所述的方法,其特征在于,所述运算结果包括求和结果;
所述根据每组内第一历史行为数据的运算结果,确定所述用户在预设子周期内的业务行为所服从的正态分布的参数,包括:
根据每组内的第一历史行为数据,分别确定每组内第一历史行为数据的和;
根据每组内第一历史行为数据的和与分组个数的比值,确定所述用户在预设子周期内的业务行为所服从的正态分布的期望值;
获取每组对应的中间参数值,所述中间参数值为每组内第一历史行为数据的和与所述期望值的差值的平方;
根据每组对应的中间参数值的和与所述分组个数的比值,确定所述用户在预设子周期内的业务行为所服从的正态分布的方差。
3.根据权利要求1所述的方法,其特征在于,所述运算结果包括求均值结果;
所述根据每组内第一历史行为数据的运算结果,确定所述用户在预设子周期内的业务行为所服从的正态分布的参数,包括:
根据每组内的第一历史行为数据,分别确定每组内第一历史行为数据的均值;
根据每组内第一历史行为数据的均值与分组个数的比值,确定所述用户在预设子周期内的业务行为所服从的正态分布的期望值;
获取每组对应的中间参数值,所述中间参数值为每组内第一历史行为数据的均值与所述期望值的差值的平方;
根据每组对应的中间参数值的和与所述分组个数的比值,确定所述用户在预设子周期内的业务行为所服从的正态分布的方差。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第二历史行为数据的运算结果和所述正态分布的参数,确定所述用户在目标子周期内的波动情况,包括:
根据所述第二历史行为数据的运算结果和所述正态分布的参数,确定标准分数,所述标准分数用于衡量所述第二历史行为数据运算结果与所述正态分布的偏移程度;
根据所述标准分数确定所述用户在目标子周期内的波动情况。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第二历史行为数据的运算结果和所述正态分布的参数,确定标准分数,包括:
获取所述第二历史行为数据的运算结果与所述正态分布的期望值的差值;
根据所述差值与所述正态分布的方差的比值,得到标准分数。
6.根据权利要求4所述的方法,其特征在于,所述根据所述标准分数确定所述用户在目标子周期内的波动情况,包括:
将所述标准分数的绝对值确定为所述用户在目标子周期内的波动程度;
若所述波动程度大于或等于预设风险程度,则将所述用户标记为异常用户;
若所述波动程度小于所述预设风险程度,则将所述用户标记为正常用户。
7.一种数据分析装置,其特征在于,包括:
获取单元,用于获取用户在指定业务场景下预设周期内的第一历史行为数据,所述预设周期内包括设定数目的单位周期,所述设定数目大于预设值;
确定单元,用于将所述预设周期内的第一历史行为数据按照预设子周期划分为多组,并根据每组内第一历史行为数据的运算结果,确定所述用户在预设子周期内的业务行为所服从的正态分布的参数;
分析单元,用于获取所述用户在目标子周期内的第二历史行为数据的运算结果,并根据所述第二历史行为数据的运算结果和所述正态分布的参数确定所述用户在目标子周期内的波动情况。
8.一种计算机可读存储介质,其上储存有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至6任一项所述的方法。
9.一种计算设备,其特征在于,包括:存储器、处理器;
所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现权利要求1至6任一项所述的方法。
10.一种计算机程序产品,包括计算机程序和指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至6任一所述的方法。
CN202410426183.7A 2024-04-09 2024-04-09 一种数据分析方法、介质、装置、计算设备和程序产品 Pending CN118296321A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410426183.7A CN118296321A (zh) 2024-04-09 2024-04-09 一种数据分析方法、介质、装置、计算设备和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410426183.7A CN118296321A (zh) 2024-04-09 2024-04-09 一种数据分析方法、介质、装置、计算设备和程序产品

Publications (1)

Publication Number Publication Date
CN118296321A true CN118296321A (zh) 2024-07-05

Family

ID=91685613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410426183.7A Pending CN118296321A (zh) 2024-04-09 2024-04-09 一种数据分析方法、介质、装置、计算设备和程序产品

Country Status (1)

Country Link
CN (1) CN118296321A (zh)

Similar Documents

Publication Publication Date Title
CN110363387B (zh) 基于大数据的画像分析方法、装置、计算机设备及存储介质
CN113688042A (zh) 测试场景的确定方法、装置、电子设备及可读存储介质
CN113837596A (zh) 一种故障确定方法、装置、电子设备及存储介质
CN112596964A (zh) 磁盘故障的预测方法及装置
CN110991761B (zh) 一种供热负荷预测方法及装置
CN114091783A (zh) 一种企业用电预警方法、装置、计算机设备和存储介质
CN116881718A (zh) 一种基于大数据清洗的人工智能训练方法及系统
CN110147493B (zh) 活跃因子的确定方法、装置、计算机设备及存储介质
CN107886217A (zh) 一种基于聚类算法的员工离职风险预测方法及装置
CN117540325B (zh) 基于数据变化量捕获的业务数据库异常检测方法及系统
Bian SPSS discriminant function analysis
CN110602207A (zh) 基于离网预测推送信息的方法、装置、服务器和存储介质
CN114202256A (zh) 架构升级预警方法、装置、智能终端及可读存储介质
CN115146890A (zh) 企业运营风险告警方法、装置、计算机设备和存储介质
CN117435937A (zh) 一种智能电表异常数据识别方法、装置、设备及存储介质
CN116975520A (zh) Ab实验的可信度评估方法、装置、设备和存储介质
CN110458713B (zh) 模型监控方法、装置、计算机设备及存储介质
CN111783883A (zh) 一种异常数据的检测方法及装置
CN113986970B (zh) 一种基于基线库数据的量费计算结果检测方法
CN118296321A (zh) 一种数据分析方法、介质、装置、计算设备和程序产品
CN114820003A (zh) 定价信息异常识别方法、装置、电子设备及存储介质
CN111258788A (zh) 磁盘故障预测方法、装置及计算机可读存储介质
CN111597934A (zh) 用于为统计应用处理训练数据的系统和方法
CN112445632A (zh) 基于故障数据建模的hpc可靠性评估方法
CN115083442B (zh) 数据处理方法、装置、电子设备以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination