CN115795376A - 阈值确定方法、装置、设备、介质和产品 - Google Patents
阈值确定方法、装置、设备、介质和产品 Download PDFInfo
- Publication number
- CN115795376A CN115795376A CN202211557889.4A CN202211557889A CN115795376A CN 115795376 A CN115795376 A CN 115795376A CN 202211557889 A CN202211557889 A CN 202211557889A CN 115795376 A CN115795376 A CN 115795376A
- Authority
- CN
- China
- Prior art keywords
- historical
- characteristic data
- target
- time period
- preset time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种阈值确定方法、装置、设备、介质和产品。该方法包括:获取预设时间段内目标对象的特征数据;计算所述预设时间段内所述特征数据对应的平均值和标准差;基于所述平均值和所述标准差,确定所述特征数据对应的阈值,根据本申请实施例,确定的阈值更加符合特征数据对应的实际情况,可以更好的监测业务质量,提升了业务监测的精确性。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种阈值确定方法、装置、设备、介质和产品。
背景技术
现如今,物联终端多数为“无声”用户,即在发生业务问题时,用户不会主动去投诉,故存在业务故障发现难的问题。目前,在确定用户业务是否有异常时,通常是将用户的业务数据发送至检测模型中,得到用户业务存在故障的概率值,在概率值存在大于一定阈值的情况下,确定该用户的业务存在异常。
然而,上述阈值的确定是根据人工经验统一设置的一个门限值,此种方式可能会出现某项指标已严重影响用户感知但当前未达到阈值,所以就不会触发告警,导致人工告警阈值偏离了用户实际感知,无法准确监测业务质量。
发明内容
本申请实施例的目的是提供一种阈值确定方法、装置、设备、介质和产品,以实现精确确定阈值的效果。
本申请的技术方案如下:
第一方面,提供了一种阈值确定方法,该方法包括:
获取预设时间段内目标对象的特征数据;
计算预设时间段内特征数据对应的平均值和标准差;
基于平均值和标准差,确定特征数据对应的阈值。
在一个可能实现的实施例中,计算预设时间段内特征数据对应的平均值和标准差,包括:
基于预设划分规则,将预设时间段划分为N个预设时间块;其中,N为正整数;
将第1个预设时间块对应的第一特征数据,以及第N个预设时间块对应的第二特征数据提取出来,计算剩下的N-2个预设时间块对应的第三特征数据的平均值和标准差;
利用第K个预设时间块对应的特征数据更新第1个预设时间块对应的第一特征数据,循环执行计算剩下的N-2个预设时间块对应的第三特征数据的平均值和标准差;其中,2≤K≤N-1;
基于平均值和标准差,确定特征数据对应的阈值,包括:
基于N-1个平均值和N-1个标准差,确定特征数据对应的阈值。
在一个可能实现的实施例中,基于N-1个平均值和N-1个标准差,确定特征数据对应的阈值,包括:
从N-1个平均值中选取出最小平均值,作为目标平均值;
从N-1个标准差中选取出最小标准差,作为目标标准差;
基于目标平均值和目标标准差,确定特征数据对应的阈值。
在一个可能实现的实施例中,在获取预设时间段内目标对象的特征数据之前,方法还包括:
获取预设时间段之前的历史时间段内,M个对象的历史特征数据;其中,M为正整数;
在确定历史时间段内,每相邻历史时间内的历史特征数据之间的差值大于预设差值阈值的情况下,对历史时间段内的特征数据进行预设阶数差分运算,得到第一目标历史特征数据;
计算第一目标历史特征数据的自相关系数和偏自相关系数;
基于预设阶数、自相关系数和偏自相关系数,得到预测模型;其中,预测模型用于基于预设时间段内的特征数据,预测特征数据对应的阈值。
在一个可能实现的实施例中,预测模型如下的加法模型:
F(x)=T(x)+S(x)+R(x)
其中,T(x)用于表征趋势变化;S(x)用于表征周期性变化;R(x)用于表征随机变化。
在一个可能实现的实施例中,在得到预测模型之后,该方法还包括:
对历史特征数据取对数,得到第二历史目标特征数据;
对第二历史目标特征数据进行预设偏移量计算,得到第三历史目标特征数据;
基于第三历史目标特征数据,将预测模型转换为目标预测模型;其中,目标预测模型用于基于预设时间段内的特征数据,预测特征数据对应的阈值。
在一个可能实现的实施例中,目标预测模型为如下的乘法模型:
F(x)=T(x)*S(x)*R(x)
其中,T(x)用于表征趋势变化;S(x)用于表征周期性变化;R(x)用于表征随机变化。
在一个可能实现的实施例中,在得到目标预测模型之后,该方法还包括:
基于k折交叉验证对目标预测模型进行训练,得到训练好的目标预测模型,以基于训练好的目标预测模型预测预设时间段内的特征数据对应的阈值。
在一个可能实现的实施例中,在获取预设时间段之前的历史时间段内,M个对象的历史特征数据之后,该方法还包括:
针对每个对象,基于对象的历史特征数据,确定对象的行业分类;
针对每个行业分类中的每个第一对象,对第一对象的历史特征数据进行预处理,得到第四目标历史特征数据;
在确定历史时间段内,每相邻历史时间内的历史特征数据之间的差值大于预设差值阈值的情况下,对历史时间段内的特征数据进行预设阶数差分运算,得到第一目标历史特征数据,包括:
在确定历史时间段内,每相邻历史时间内的第四目标历史特征数据之间的差值大于预设差值阈值的情况下,对历史时间段内的第四目标特征数据进行预设阶数差分运算,得到第一目标历史特征数据。
在一个可能实现的实施例中,基于对象的历史特征数据,确定对象的行业分类,包括:
获取识别模型;其中,识别模型包括不同维度的识别模型,每个维度的识别模型中包括不同分类算法;
针对每个维度的识别模型,计算对象分别基于维度的识别模型中的不同分类算法,得到的对象属于各行业分类的第一概率值;
针对每个维度的识别模型,基于不同分类算法对应的第一权重,将各第一概率值进行加权计算,得到基于维度的识别模型,对象属于各行业分类的第二概率值;
基于每个维度的识别模型对应的第二权重,将各第二概率值进行加权计算,得到对象所属于的行业分类。
在一个可能实现的实施例中,对第一对象的历史特征数据进行预处理,得到第四目标历史特征数据,包括:
对第一对象的历史特征数据进行如下预处理,得到第四目标历史特征数据:
针对数值型历史特征数据进行保留;
针对非数值型历史特征数据,进行独热编码;
删除缺失的历史特征数据;
对重复的历史特征数据进行去重处理。
第二方面,提供了一种阈值确定装置,该装置包括:
第一获取模块,用于获取预设时间段内目标对象的特征数据;
第一计算模块,用于计算预设时间段内特征数据对应的平均值和标准差;
第一确定模块,用于基于平均值和标准差,确定特征数据对应的阈值。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现本申请实施例任一所述的阈值确定方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现本申请实施例任一所述的阈值确定方法的步骤。
第五方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备能够执行本申请实施例任一所述的阈值确定方法的步骤。
本申请的实施例提供的技术方案至少带来以下有益效果:
在本申请实施例中,通过计算预设时间段内目标对象的特征数据对应的平均值和标准差,来确定特征数据对应的阈值,而非是根据人为经验预设阈值,如此确定的阈值更加符合特征数据对应的实际情况,可以更好的监测业务质量,提升了业务监测的精确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理,并不构成对本申请的不当限定。
图1是本申请第一方面实施例涉及的阈值确定方法的流程示意图之一;
图2是本申请第一方面实施例涉及的阈值确定方法的流程示意图之二;
图3时本申请第一方面实施例涉及的行业的分类的处理流程示意图;
图4时本申请第一方面实施例涉及的每个训练库内部结构示意图;
图5是本申请第二方面实施例提供的一种阈值确定装置的结构示意图;
图6是本申请第三方面实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本申请的技术方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的例子。
如背景技术部分所述,现有技术中存在人工告警阈值偏离了用户实际感知,无法准确监测业务质量的问题,为了解决上述问题,本申请实施例提供了一种阈值确定方法、装置、设备、介质和产品,通过计算预设时间段内目标对象的特征数据对应的平均值和标准差,来确定特征数据对应的阈值,而非是根据人为经验预设阈值,如此确定的阈值更加符合特征数据对应的实际情况,可以更好的监测业务质量,提升了业务监测的精确性。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的阈值确定方法进行详细地说明。
图1示出了本申请一个实施例提供的阈值确定方法的流程示意图。
如图1所示,本申请实施例提供的阈值确定方法包括以下步骤:
S110、获取预设时间段内目标对象的特征数据。
目标对象可以是在目标行业中的一部分用户,目标行业可以但不限于是房地产行业和教育行业。预定时间段可以从目标行业在忙碌时或闲暇时的任意一段时间内选取的。预设时间段内目标对象的特征数据可以是随机变化的。
S120、计算预设时间段内特征数据对应的平均值和标准差。
平均值可以是通过预设时间段内所有特征数据进行求和取平均值,还可以是将预设时间段中的特征数据划分成多个组成部分,对这多个组成部分分别求取平均值再将这多个组成部分的平均值进一步求取平均值。
S130、基于平均值和标准差,确定特征数据对应的阈值。
基于平均值和标准差,可以根据3σ准则计算得到正常的特征数据区间,即特征数据对应的阈值,其中σ表示标准差。
在一些实施例中,3σ准则可以确定一个数量区间,由3σ准则所构建的阈值对于异常数据检测是实时进行计算的,可以动态对数据进行监控。
作为一个示例,当平均值μ=3,标准差σ=2.82时,根据(μ-3σ,μ+3σ)准则,可以得到正常的数量区间为(-5.46,11.46),即特征数据对应的阈值为(-5.46,11.46)。
这样,通过计算预设时间段内目标对象的特征数据对应的平均值和标准差,来确定特征数据对应的阈值,而非是根据人为经验预设阈值,如此确定的阈值更加符合特征数据对应的实际情况,可以更好的监测业务质量,提升了业务监测的精确性。
基于此,在一些实施例中,上述S120具体可以包括:
基于预设划分规则,将预设时间段划分为N个预设时间块;其中,N为正整数;
将第1个预设时间块对应的第一特征数据,以及第N个预设时间块对应的第二特征数据提取出来,计算剩下的N-2个预设时间块对应的第三特征数据的平均值和标准差;
利用第K个预设时间块对应的特征数据更新第1个预设时间块对应的第一特征数据,循环执行计算剩下的N-2个预设时间块对应的第三特征数据的平均值和标准差;其中,2≤K≤N-1;
基于平均值和标准差,确定特征数据对应的阈值,包括:
基于N-1个平均值和N-1个标准差,确定特征数据对应的阈值。
在一些实施例中,预设时间块可以是以月划分的,还可以是以日或周进行划分的,还可以是以小时进行划分的。具体的划分规则可以根据用户需求自行设置,这里不做限定,只要该预设时间块是与预设时间段相对应即可。
在一些实施例中,N可以是大于等于3的正整数。
在一些实施例中,第三特征数据的平均值可以是通过剩下的N-2个预设时间块对应的第三特征数据进行求和取平均值,还可以是将预设时间段中的特征数据划分成多个组成部分,对这多个组成部分分别求取平均值再将这多个组成部分的平均值进一步求取平均值。
在一些实施例中,第N个预设时间块对应的第二特征数据可以为待判断是否为异常的特征数据。
作为一个示例,若想要判断今天的特征数据是否异常,选取前一周的特征数据进行比较,将前一周的时间按日划分为7日,将第1日的特征数据和第7日的特征数据提取出来,计算第2日至第7日的特征数据的平均值μ1和标准差σ1,将第2日的特征数据和第7日的特征数据提取出来,计算第1日,以及第3日至第7日的特征数据的平均值μ2和标准差σ2,将第3日的特征数据和第7日的特征数据提取出来,计算第1日至第2日,以及第4日至第7日的特征数据的平均值μ3和标准差σ3,以此类推,计算出平均值μ4、μ5和μ6,标准差σ4、σ5和σ6。,基于上述平均值和标准差,确定特征数据对应的阈值。
这样,将一段时间划分为N个时间块,根据这N个时间块分别计算出N-1个平均值和标准差,通过这种计算方式找到最合适的平均值和标准差,如此确定的阈值更加符合特征数据对应的实际情况,可以更好的监测业务质量,提升了业务监测的精确性。
基于此,在一些实施例中,基于N-1个平均值和N-1个标准差,确定特征数据对应的阈值,可以包括:
从N-1个平均值中选取出最小平均值,作为目标平均值;
从N-1个标准差中选取出最小标准差,作为目标标准差;
基于目标平均值和目标标准差,确定特征数据对应的阈值。
这样,通过最小平均值和标准差作为行为基线,如此确定的阈值更加符合特征数据对应的实际情况,可以更严格的监测业务质量,准确找出异常的数据,提升了业务监测的精确性。
在一些实施例中,如图2所示,在上述S110之前,该方法还可以包括:
S101、获取预设时间段之前的历史时间段内,M个对象的历史特征数据;其中,M为正整数。
其中,历史时间段可以是在预设时间段之前的一段时间段。
针对M个对象中的每个对象,其对应的历史特征数据可以是该对象在历史时间段内的特征数据。
S102、在确定历史时间段内,每相邻历史时间内的历史特征数据之间的差值大于预设差值阈值的情况下,对历史时间段内的特征数据进行预设阶数差分运算,得到第一目标历史特征数据。
其中,预设差值阈值可以是预先设置的每相邻历史时间内的历史特征数据之间的差值的阈值,该阈值可以根据用户需求自行设置,这里不做限定。
在一个示例中,历史时间段为2022.1.1-2022.1.31,历史特征数据可以是用户每天接收到的短信数量,若每相邻两天用户接收到的短信的数量大于某一阈值,则说明历史时间段内的特征数据并非是平稳时间序列排序的,则需对历史时间段内的特征数据进行预设阶数差分运算(例如可以是d阶差分运算),得到第一目标历史特征数据。
第一目标历史特征数据可以是对历史时间段内的特征数据进行预设阶数差分运算后得到的数据。
在本申请的一些实施例中,若每相邻历史时间内的历史特征数据之间的差值小于或等于预设差值阈值,则说明历史时间段内的特征数据是平稳时间序列排序的,无需对历史时间段内的特征数据进行预设阶数差分运算。
S103、计算第一目标历史特征数据的自相关系数和偏自相关系数。
S104、基于预设阶数、自相关系数和偏自相关系数,得到预测模型;其中,预测模型用于基于预设时间段内的特征数据,预测特征数据对应的阈值。
在一些实施例中,在进行应用之前需要对预测模型进行训练,可以通过前一段时间的历史特征数据训练预测模型,以此来基于该训练好的预测模型预测当前或未来特征数据对应的阈值。
在一些实施例中,在确定历史时间段内,每相邻历史时间内的历史特征数据之间的差值大于预设差值阈值的情况下,获取的历史特征数据为非平稳的,需要对历史时间段内的特征数据进行预设阶数差分运算,得到第一目标历史特征数据,这里的第一目标历史特征数据是平稳的。
在一些实施例中,通过自相关图和偏自相关图的分析,可以得到预定阶数,这里的预定阶数是最佳的。
在一些实施例中,由于忙时、闲时在业务模型、用户特征方面会存在较大的差异,会调用不同的预测模型进行动态阈值的分析,工作日和节假日也会分别调用不同的预测模型进行分析。
在一些实施例中,还支持对天气情况的自动爬取并形成异常天气对应的预测模型,从而实现差异化动态阈值。
这样,通过前一段时间的历史特征数据训练得到的模型,能够更准确的确定的阈值,更加符合特征数据对应的实际情况,可以更好的监测业务质量。
基于此,在一些实施例中,预测模型可以为如下的加法模型:
F(x)=T(x)+S(x)+R(x)
其中,T(x)用于表征趋势变化;S(x)用于表征周期性变化;R(x)用于表征随机变化。
这样,能够清楚的知道趋势变化、周期变化和随机变化对预测模型的影响,这三个变化基本是相互独立的,所以使用加法模型作为预测模型能够基于预设时间段内的特征数据,预测特征数据对应的阈值。
基于此,在一些实施例中,在上述S104之后,该方法还可以包括:
对历史特征数据取对数,得到第二历史目标特征数据;
对第二历史目标特征数据进行预设偏移量计算,得到第三历史目标特征数据;
基于第三历史目标特征数据,将预测模型转换为目标预测模型;其中,目标预测模型用于基于预设时间段内的特征数据,预测特征数据对应的阈值。
其中,第二历史目标特征数据可以是对历史特征数据取对数后得到的数据。
第三历史目标特征数据可以是对第二历史目标特征数据进行预设偏移量计算后得到的数据。
预设偏移量可以是预先设置的偏移量,具体的可以根据用户需求自行设置,这里不做限定。
目标预测模型可以是基于第三历史目标特征数据,将预测模型进行转换后得到的预测模型。
在本申请的一些实施例中,具体的该目标预测模型可以是如下的乘法模型:
F(x)=T(x)*S(x)*R(x)
其中,T(x)用于表征趋势变化;S(x)用于表征周期性变化;R(x)用于表征随机变化。
在一些实施例中,将历史特征数据取对数并进行偏移量的计算,将加法模型转换为乘法模型。这样,解决了在实际应用中单独使用加法模型易受数值范围影响的问题。
在一些实施例中,将趋势变化、周期变化和随机变化这三个变化函数分别取对数转换为乘法模型,增加各因子之间的相互影响力。
在本申请的一些实施例中,加法模型更多倾向组成模型的各个因子是独立的,乘法模型更多倾向于各个因子之间有影响,尤其是周期性变化比较明显的应用,因此使用乘法模型解决了各个因子之间有影响时的阈值确定问题。
基于此,在一些实施例中,在得到目标预测模型之后,该方法还可以包括:
基于k折交叉验证对目标预测模型进行训练,得到训练好的目标预测模型,以基于训练好的目标预测模型预测预设时间段内的特征数据对应的阈值。
这里,k折交叉验证一般指的是在进行模型训练时,将数据集等比分成k份,用k份中的一份作为验证数据库,而其他k-1份作为训练数据集。一般来说,每进行一次训练,算作一次实验,k份需要进行k次所以又叫k次交叉验证。
作为一个示例,将历史特征数据分成了6份,首先拿出第一份,用剩下的5份进行验证。之后拿出第2份,再使用剩下的5份进行验证,如此往复,直到最后一份作为验证集,进行模型训练。
这样,能够更好的训练目标预测模型,进而能够更准确的确定的阈值,更加符合特征数据对应的实际情况,可以更好的监测业务质量。
基于此,在一些实施例中,在获取预设时间段之前的历史时间段内,M个对象的历史特征数据之后,该方法还可以包括:
针对每个对象,基于对象的历史特征数据,确定对象的行业分类;
针对每个行业分类中的每个第一对象,对第一对象的历史特征数据进行预处理,得到第四目标历史特征数据;
在确定历史时间段内,每相邻历史时间内的历史特征数据之间的差值大于预设差值阈值的情况下,对历史时间段内的特征数据进行预设阶数差分运算,得到第一目标历史特征数据,包括:
在确定历史时间段内,每相邻历史时间内的第四目标历史特征数据之间的差值大于预设差值阈值的情况下,对历史时间段内的第四目标特征数据进行预设阶数差分运算,得到第一目标历史特征数据。
其中,针对某一行业分类,该行业分类中的第一对象可以是该行业分类中的任一对象。
第四目标历史特征数据可以是对第一对象的历史特征数据进行预处理后得到数据。
这样,实现不同维度的动态阈值,及时实现了劣化指标预警,避免了大量的无效告警的产生。
基于此,在一些实施例中,基于对象的历史特征数据,确定对象的行业分类,可以包括:
获取识别模型;其中,识别模型包括不同维度的识别模型,每个维度的识别模型中包括不同分类算法;
针对每个维度的识别模型,计算对象分别基于维度的识别模型中的不同分类算法,得到的对象属于各行业分类的第一概率值;
针对每个维度的识别模型,基于不同分类算法对应的第一权重,将各第一概率值进行加权计算,得到基于维度的识别模型,对象属于各行业分类的第二概率值;
基于每个维度的识别模型对应的第二权重,将各第二概率值进行加权计算,得到对象所属于的行业分类。
其中,维度可以是预先设置的与特征数据对应的维度,例如可以是基于接入点(Access Point Name,APN)、网络协议(Internet Protocol,IP)、号段、终端和域名系统(Domain Name System,DNS)等维度构建识别模型。
针对每个维度的识别模型,第一概率值可以是基于某一模型的不同分类算法,计算得到的对象属于各行业分类的概率值。
针对每个维度的识别模型,第一权重可以是该维度的识别模型中的各分类算法所占的比重。
第二概率值可以是基于某一维度的识别模型得到的该对象属于某一行业分类的概率值。
第二权重可以是每个维度的识别模型所对应的权重。
在一个示例中,有5个维度的识别模型,每个识别模型中具有3个分类算法,首先针对第一个维度的识别模型,利用该识别模型中的3个分类算法,分别计算出对象所属的概率值(即第一概率值),然后根据这3个分类算法的权重,对计算出的3个第一概率值进行加权计算,得到第二概率值。然后根据上述第一个维度的识别模型的计算方法,分别计算出其他维度的识别模型对应的第二概率值,最后根据各维度的识别模型对应的权重,将各维度的识别模型的第二概率值进行加权计算,即可得到对象属于某一行业分类的最终概率值,根据该概率值可确定出对象所属于的行业分类。
作为一个示例,基于历史特征数据训练模型,确定对象行业的分类的处理流程如图3所示,不同维度的识别模型的核心部分是数据分配单元以及五个维度的训练库,正常情况下,五个数量控制阀直通,不会阻碍数据通过,而在有特殊需要情况下,还可以通过设置输出量的多少来控制各训练库的训练情况,从而控制五维模型中各个识别模型的权重。
每个训练库均包含常用的若干分类以及聚类算法,其内部结构相同,如图4所示,无论是分类算法还是聚类算法,都会根据历史特征数据的类别进行识别,可以根据权重W来调节训练库内的算法占比情况。在这里聚类和分类的算法包括但不限于K邻近算法(k-NearestNeighbor,KNN)、K均值算法(K-Means)、聚类算法((Density-Based SpatialClustering of Applications with Noise,DBSCAN)、人工神经网络(Artificial NeuralNetwork,ANN)、支持向量机(Support Vector Machine,SVM)这五个算法,默认权重设置为0.2,之后对模型进行训练的过程中使用boosting的思想的Adaboost算法,基于错误反馈提升各个分类器的性能从而确定各训练库中各算法的权重。
在使用Adaboost算法对各个模型的权重进行校准后,我们会得到5*N个权重参数,其中,N代表训练库中的算法数量。随后引入人工经验模块,结合专家观点对其中不合适的部分进行修改,再对5个训练库所得到的模型进行复合,最终建立新的识别模型。
这样,该识别模型能够从APN、IP、号段、终端、DNS五个维度对历史特征数据进行分析,将其分配到不同的行业中。
基于此,在一些实施例中,对第一对象的历史特征数据进行预处理,得到第四目标历史特征数据,可以包括:
对第一对象的历史特征数据进行如下预处理,得到第四目标历史特征数据:
针对数值型历史特征数据进行保留;
针对非数值型历史特征数据,进行独热编码;
删除缺失的历史特征数据;
对重复的历史特征数据进行去重处理。
在一个示例中,针对年龄、短信数量等这些数值型的历史数据可以进行保留。
在另一示例中,针对非数值型历史数据,例如性别,可对其进行独热编码,例如可以是将性别为男进行独热编码为(1,0),将性别为女进行独热编码为(0,1)。
在另一个示例中,若获取的数据中,用户的身高并没有对应的数值,则可将该身高特征进行删除。
在本申请的一些实施例中,用户数据具有数量大、纬度高的特点,在进行分析时,往往需要对特征进行抽取,除基础特征外,还需要建立通用类指标体系与特征类指标体系。具体的在对用户数据的基础特征进行了深入分析,得到了相关特征如下表所示:
通过对用户数据进行逐条处理,能够分析得到上述特征,例如,对于上下行流量占比,在某个特定时间段内,用户会产生流量使用记录,将用户的上行流量记为uplinktraffic,下行流量记为downlink traffic,总的流量记为traffic,则:
这里的上行流量表示上传的流量,下行流量表示下载的流量。
在本申请的一些实施例中,上述仅为对部分特征数据进行预处理的示例,针对其他特征数据也需要根据具体定义进行处理。这里不做限定。
这样,对历史特征数据进行降维以及删除和去重的处理,得到精确的特征数据,进而确保了后后续计算的精确性。
需要说明的是,本申请实施例提供的阈值确定方法,执行主体可以为阈值确定装置,或者该阈值确定装置中的用于执行阈值确定方法的控制模块。
基于与上述的阈值确定方法相同的发明构思,本申请还提供了一种阈值确定装置。下面结合图5对本申请实施例提供的阈值确定装置进行详细说明。
图5是根据一示例性实施例示出的一种阈值确定装置的结构示意图。
如图5所示,该阈值确定装置500可以包括:
第一获取模块510,用于获取预设时间段内目标对象的特征数据;
第一计算模块520,用于计算预设时间段内特征数据对应的平均值和标准差;
第一确定模块530,用于基于平均值和标准差,确定特征数据对应的阈值。
基于此,在一些实施例中,第一计算模块520具体可以包括:
划分子模块,用于基于预设划分规则,将预设时间段划分为N个预设时间块;其中,N为正整数;
计算子模块,用于将第1个预设时间块对应的第一特征数据,以及第N个预设时间块对应的第一特征数据提取出来,计算剩下的N-2个预设时间块对应的第三特征数据的平均值和标准差;
计算子模块,还用于利用第K个预设时间块对应的特征数据更新第1个预设时间块对应的第一特征数据,循环执行计算剩下的N-2个预设时间块对应的第三特征数据的平均值和标准差;其中,2≤K≤N-1;
确定子模块,用于基于平均值和标准差,确定特征数据对应的阈值,包括:
确定子模块,还用于基于N-1个平均值和N-1个标准差,确定特征数据对应的阈值。
基于此,在一些实施例中,确定子模块具体可以包括:
选取单元,用于从N-1个平均值中选取出最小平均值,作为目标平均值;
选取单元,还用于从N-1个标准差中选取出最小标准差,作为目标标准差;
确定单元,用于基于目标平均值和目标标准差,确定特征数据对应的阈值。
基于此,在一些实施例中,装置500还可以包括:
第一获取模块510,还用于在获取预设时间段内目标对象的特征数据之后,获取预设时间段之前的历史时间段内,M个对象的历史特征数据;其中,M为正整数;
差分运算模块,用于在确定历史时间段内,每相邻历史时间内的历史特征数据之间的差值大于预设差值阈值的情况下,对历史时间段内的特征数据进行预设阶数差分运算,得到第一目标历史特征数据;
第一计算模块520,还用于计算第一目标历史特征数据的自相关系数和偏自相关系数;
预测模型确定模块,用于基于预设阶数、自相关系数和偏自相关系数,得到预测模型;其中,预测模型用于基于预设时间段内的特征数据,预测特征数据对应的阈值。
基于此,在一些实施例中,预测模型确定模块具体可以包括如下的加法模型:
F(x)=T(x)+S(x)+R(x)
其中,T(x)用于表征趋势变化;S(x)用于表征周期性变化;R(x)用于表征随机变化。
基于此,在一些实施例中,该装置500还可以包括:
第一计算模块520,还用于在得到预测模型之后,对历史特征数据取对数,得到第二历史目标特征数据;
第一计算模块520,还用于对第二历史目标特征数据进行预设偏移量计算,得到第三历史目标特征数据;
目标预测模型转换模块,用于基于第三历史目标特征数据,将预测模型转换为目标预测模型;其中,目标预测模型用于基于预设时间段内的特征数据,预测特征数据对应的阈值。
基于此,在一些实施例中,目标预测模型转换模块具体可以包括如下的乘法模型:
F(x)=T(x)*S(x)*R(x)
其中,T(x)用于表征趋势变化;S(x)用于表征周期性变化;R(x)用于表征随机变化。
基于此,在一些实施例中,该装置500还可以包括:
训练模块,用于在得到目标预测模型之后,基于k折交叉验证对目标预测模型进行训练,得到训练好的目标预测模型,以基于训练好的目标预测模型预测预设时间段内的特征数据对应的阈值。
基于此,在一些实施例中,该装置500还可以包括:
第一确定模块530,用于在获取预设时间段之前的历史时间段内,M个对象的历史特征数据之后,针对每个对象,基于对象的历史特征数据,确定对象的行业分类;
数据处理模块,用于针对每个行业分类中的每个第一对象,对第一对象的历史特征数据进行预处理,得到第四目标历史特征数据;
差分运算模块,还用于在确定历史时间段内,每相邻历史时间内的历史特征数据之间的差值大于预设差值阈值的情况下,对历史时间段内的特征数据进行预设阶数差分运算,得到第一目标历史特征数据,包括:
在确定历史时间段内,每相邻历史时间内的第四目标历史特征数据之间的差值大于预设差值阈值的情况下,对历史时间段内的第四目标特征数据进行预设阶数差分运算,得到第一目标历史特征数据。
基于此,在一些实施例中,第一确定模块530具体可以包括:
获取子模块,用于获取识别模型;其中,识别模型包括不同维度的识别模型,每个维度的识别模型中包括不同分类算法;
计算子模块,还用于针对每个维度的识别模型,计算对象分别基于维度的识别模型中的不同分类算法,得到的对象属于各行业分类的第一概率值;
计算子模块,还用于针对每个维度的识别模型,基于不同分类算法对应的第一权重,将各第一概率值进行加权计算,得到基于维度的识别模型,对象属于各行业分类的第二概率值;
计算子模块,还用于基于每个维度的识别模型对应的第二权重,将各第二概率值进行加权计算,得到对象所属于的行业分类。
基于此,在一些实施例中,数据预处理模块具体可以用于:
对第一对象的历史特征数据进行如下预处理,得到第四目标历史特征数据:
针对数值型历史特征数据进行保留;
针对非数值型历史特征数据,进行独热编码;
删除缺失的历史特征数据;
对重复的历史特征数据进行去重处理。
本申请实施例提供的阈值确定装置,可以用于执行上述各方法实施例提供的阈值确定方法,其实现原理和技术效果类似,为简介起见,在此不再赘述。
基于同一发明构思,本申请实施例还提供了一种电子设备。
图6是本申请实施例提供的一种电子设备的结构示意图。如图6所示,电子设备可以包括处理器601以及存储有计算机程序或指令的存储器602。
具体地,上述处理器601可以包括中央处理器(Central Processing Unit,CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器602可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器602可在综合网关容灾设备的内部或外部。在特定实施例中,存储器602是非易失性固态存储器。
存储器可包括只读存储器(Read Only Memory image,ROM)、随机存取存储器(Random-Access Memory,RAM)、磁盘存储介质设备、光存储介质设备、闪存设备、电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行上述实施例提供的阈值确定方法所描述的操作。
处理器601通过读取并执行存储器602中存储的计算机程序指令,以实现上述实施例中的任意一种阈值确定方法。
在一个示例中,电子设备还可包括通信接口603和总线610。其中,如图6所示,处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。
通信接口603,主要用于实现本发明实施例中各模块、设备、单元和/或设备之间的通信。
总线610包括硬件、软件或两者,将道路拥堵预测设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,EISA)总线、前端总线(Front Side Bus,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(Industry Standard Architecture,ISA)总线、无限带宽互连、低引脚数(LinearPredictive Coding,LPC)总线、存储器总线、微信道架构(MicroChannel Architecture,MCA)总线、外围组件互连(Peripheral Component Interconnect,PCI)总线、PCI-Express(Peripheral Component Interconnect-X,PCI-X)总线、串行高级技术附件(SerialAdvanced Technology Attachment,SATA)总线、视频电子标准协会局部(VESA Local Bus,VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线610可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。该电子设备可以执行本发明实施例中的阈值确定方法,从而实现图1和图2描述的阈值确定方法。
另外,结合上述实施例中的阈值确定方法,本发明实施例可提供一种可读存储介质来实现。该可读存储介质上存储有程序指令;该程序指令被处理器执行时实现上述实施例中的任意一种阈值确定方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (15)
1.一种阈值确定方法,其特征在于,所述方法包括:
获取预设时间段内目标对象的特征数据;
计算所述预设时间段内所述特征数据对应的平均值和标准差;
基于所述平均值和所述标准差,确定所述特征数据对应的阈值。
2.根据权利要求1所述的方法,其特征在于,所述计算所述预设时间段内所述特征数据对应的平均值和标准差,包括:
基于预设划分规则,将所述预设时间段划分为N个预设时间块;其中,N为正整数;
将第1个预设时间块对应的第一特征数据,以及第N个预设时间块对应的第二特征数据提取出来,计算剩下的N-2个预设时间块对应的第三特征数据的平均值和标准差;
利用第K个预设时间块对应的特征数据更新第1个预设时间块对应的第二特征数据,循环执行所述计算剩下的N-2个预设时间块对应的第三特征数据的平均值和标准差;其中,2≤K≤N-1;
所述基于所述平均值和所述标准差,确定所述特征数据对应的阈值,包括:
基于N-1个平均值和N-1个标准差,确定所述特征数据对应的阈值。
3.根据权利要求2所述的方法,其特征在于,所述基于N-1个平均值和N-1个标准差,确定所述特征数据对应的阈值,包括:
从N-1个平均值中选取出最小平均值,作为目标平均值;
从N-1个标准差中选取出最小标准差,作为目标标准差;
基于所述目标平均值和所述目标标准差,确定所述特征数据对应的阈值。
4.根据权利要求1所述的方法,其特征在于,在所述获取预设时间段内目标对象的特征数据之前,所述方法还包括:
获取所述预设时间段之前的历史时间段内,M个对象的历史特征数据;其中,M为正整数;
在确定所述历史时间段内,每相邻历史时间内的历史特征数据之间的差值大于预设差值阈值的情况下,对所述历史时间段内的特征数据进行预设阶数差分运算,得到第一目标历史特征数据;
计算所述第一目标历史特征数据的自相关系数和偏自相关系数;
基于所述预设阶数、所述自相关系数和所述偏自相关系数,得到预测模型;其中,所述预测模型用于基于所述预设时间段内的特征数据,预测所述特征数据对应的所述阈值。
5.根据权利要求4所述的方法,其特征在于,所述预测模型如下的加法模型:
F(x)=T(x)+S(x)+R(x)
其中,T(x)用于表征趋势变化;S(x)用于表征周期性变化;R(x)用于表征随机变化。
6.根据权利要求5所述的方法,其特征在于,在所述得到预测模型之后,所述方法还包括:
对所述历史特征数据取对数,得到第二历史目标特征数据;
对所述第二历史目标特征数据进行预设偏移量计算,得到第三历史目标特征数据;
基于所述第三历史目标特征数据,将所述预测模型转换为目标预测模型;其中,所述目标预测模型用于基于所述预设时间段内的特征数据,预测所述特征数据对应的所述阈值。
7.根据权利要求6所述的方法,其特征在于,所述目标预测模型为如下的乘法模型:
F(x)=T(x)*S(x)*R(x)
其中,T(x)用于表征趋势变化;S(x)用于表征周期性变化;R(x)用于表征随机变化。
8.根据权利要求7所述的方法,其特征在于,在得到目标预测模型之后,所述方法还包括:
基于k折交叉验证对所述目标预测模型进行训练,得到训练好的目标预测模型,以基于训练好的目标预测模型预测所述预设时间段内的特征数据对应的所述阈值。
9.根据权利要求4所述的方法,其特征在于,在所述获取所述预设时间段之前的历史时间段内,M个对象的历史特征数据之后,所述方法还包括:
针对每个对象,基于所述对象的历史特征数据,确定所述对象的行业分类;
针对每个行业分类中的每个第一对象,对所述第一对象的历史特征数据进行预处理,得到第四目标历史特征数据;
所述在确定所述历史时间段内,每相邻历史时间内的历史特征数据之间的差值大于预设差值阈值的情况下,对所述历史时间段内的特征数据进行预设阶数差分运算,得到第一目标历史特征数据,包括:
在确定所述历史时间段内,每相邻历史时间内的第四目标历史特征数据之间的差值大于预设差值阈值的情况下,对所述历史时间段内的第四目标特征数据进行预设阶数差分运算,得到第一目标历史特征数据。
10.根据权利要求9所述的方法,其特征在于,所述基于所述对象的历史特征数据,确定所述对象的行业分类,包括:
获取识别模型;其中,所述识别模型包括不同维度的识别模型,每个维度的识别模型中包括不同分类算法;
针对每个维度的识别模型,计算所述对象分别基于所述维度的识别模型中的不同分类算法,得到的所述对象属于各行业分类的第一概率值;
针对每个维度的识别模型,基于不同分类算法对应的第一权重,将所述各第一概率值进行加权计算,得到基于所述维度的识别模型,所述对象属于各行业分类的第二概率值;
基于每个维度的识别模型对应的第二权重,将各所述第二概率值进行加权计算,得到所述对象所属于的行业分类。
11.根据权利要求9所述的方法,其特征在于,所述对所述第一对象的历史特征数据进行预处理,得到第四目标历史特征数据,包括:
对所述第一对象的历史特征数据进行如下预处理,得到第四目标历史特征数据:
针对数值型历史特征数据进行保留;
针对非数值型历史特征数据,进行独热编码;
删除缺失的历史特征数据;
对重复的历史特征数据进行去重处理。
12.一种阈值确定装置,其特征在于,所述装置包括:
第一获取模块,用于获取预设时间段内目标对象的特征数据;
第一计算模块,用于计算所述预设时间段内所述特征数据对应的平均值和标准差;
第一确定模块,用于基于所述平均值和所述标准差,确定所述特征数据对应的阈值。
13.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-11任一所述的阈值确定方法的步骤。
14.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-11任一所述的阈值确定方法的步骤。
15.一种计算机程序产品,其特征在于,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如权利要求1-11任一所述的阈值确定方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211557889.4A CN115795376A (zh) | 2022-12-06 | 2022-12-06 | 阈值确定方法、装置、设备、介质和产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211557889.4A CN115795376A (zh) | 2022-12-06 | 2022-12-06 | 阈值确定方法、装置、设备、介质和产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115795376A true CN115795376A (zh) | 2023-03-14 |
Family
ID=85417955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211557889.4A Pending CN115795376A (zh) | 2022-12-06 | 2022-12-06 | 阈值确定方法、装置、设备、介质和产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115795376A (zh) |
-
2022
- 2022-12-06 CN CN202211557889.4A patent/CN115795376A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177505A (zh) | 指标异常检测模型的训练方法、推荐的方法及装置 | |
CN111294819B (zh) | 一种网络优化方法及装置 | |
CN114140713A (zh) | 一种图像识别系统、图像识别方法 | |
CN114564370B (zh) | 告警阈值的确定方法、装置、设备及计算机存储介质 | |
CN112994960B (zh) | 业务数据异常检测方法、装置及计算设备 | |
CN114140712A (zh) | 一种自动图像识别分发系统及方法 | |
CN111064719B (zh) | 文件异常下载行为的检测方法及装置 | |
CN112990080A (zh) | 基于大数据和人工智能的规则确定方法 | |
CN111901134B (zh) | 一种基于循环神经网络模型rnn的预测网络质量的方法和装置 | |
CN114844762A (zh) | 告警真实性检测方法和装置 | |
CN111368858B (zh) | 用户满意度评估方法及装置 | |
CN115795376A (zh) | 阈值确定方法、装置、设备、介质和产品 | |
CN116257885A (zh) | 基于联邦学习的隐私数据通信方法、系统和计算机设备 | |
CN115278757A (zh) | 一种检测异常数据的方法、装置及电子设备 | |
CN112398706B (zh) | 数据评估标准确定方法、装置及存储介质、电子设备 | |
CN113537087A (zh) | 一种智慧交通信息处理方法、装置及服务器 | |
CN111258788A (zh) | 磁盘故障预测方法、装置及计算机可读存储介质 | |
CN113239236B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN117493820B (zh) | 一种数据要素处理方法和装置 | |
CN113473124B (zh) | 信息获取方法、装置、电子设备及存储介质 | |
CN112258093B (zh) | 风险等级的数据处理方法及装置、存储介质、电子设备 | |
CN116542762A (zh) | 用户风险决策方法、装置、计算机设备及介质 | |
CN118247951A (zh) | 路况识别方法、装置及电子设备 | |
CN116665128A (zh) | 一种图像识别方法和相关装置 | |
CN115347963A (zh) | 无线通信的干扰定位方法和装置、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |