CN110147902A - 一种多项运营指标联合异常监测方法 - Google Patents
一种多项运营指标联合异常监测方法 Download PDFInfo
- Publication number
- CN110147902A CN110147902A CN201910283721.0A CN201910283721A CN110147902A CN 110147902 A CN110147902 A CN 110147902A CN 201910283721 A CN201910283721 A CN 201910283721A CN 110147902 A CN110147902 A CN 110147902A
- Authority
- CN
- China
- Prior art keywords
- operation indicator
- value
- day
- time
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种多项运营指标联合异常监测方法,其特征在于,包括步骤1,获取待监测的运营指标的历史时间序列数据,并对其进行预处理;步骤2,进行维度扩展,增加每一个时间节点本身所包含的特征信息;步骤3,进行标准化后,放入长短时记忆网络(LSTM)中进行训练;步骤4,计算每个历史时间节点上各项运营指标的预测值,使用箱型图分别对每项运营指标历史时刻的预测值和实际值的偏差进行统计,获得各项运营指标正常浮动的上限和下限;步骤5,使对下一时刻的各项运营指标值统一进行预测,判断该时刻的各项运营指标值是否异常;达到高效且准确地对多项运营指标中出现的异常情况进行捕获的效果。
Description
技术领域
本发明涉及领域机器学习与数据挖掘领域,特别是涉及一种多项运营指标联合异常监测方法。
背景技术
随着大数据技术的普及和社会信息化程度的提升,企业在发展过程中积累了大量的数据,这些数据包含着企业历史上的各种信息,每一类数据都可以作为一个指标,如:企业网站日点击量、订单量、企业营收等。企业的这些运营指标反映了企业的业务状况,反过来,一旦企业的业务出现了异常,也会在运营指标上体现出来。因此对企业的运营指标进行异常监测,可以有效地量化业务的历史情况和未来情况,及时发现问题,也可以为企业高层的准确决策提供数据支持。
异常监测的过程可以分为时序预测与异常检测两个步骤。
时序预测是根据历史统计数据的时间序列,对未来的变化趋势进行预测分析。现有的较为简单的时序预测方法有简单平均法、移动平均法、指数平滑法等,这些方法中参数较少,使用方便,但预测的准确性偏低,且仅适合于对较为平稳的序列进行预测。此外,统计学上还有一种经典的、且被广泛使用的时间序列模型ARIMA(Autoregressive IntegratedMoving Average,自回归求和移动平均),也记作ARIMA(p,d,q)。该模型由自回归模型(AR模型)与滑动平均模型(MA模型)为基础混合构成,并增加了差分操作,只需要内生变量而不需要借助其他外生变量。尽管ARIMA模型比简单平均法、指数平滑法等方法的预测准确度提升许多,但它要求时序数据是稳定的,或者通过差分化以后是稳定的,且只能捕捉线性关系,而无法捕捉非线性关系。对于运营指标数据而言,它受季节、节假日等外部因素的影响较大,而国内的节假日同时包含阳历和阴历,每年的时间不固定,使用ARIMA模型对其进行预测时只借助了序列本身所包含的信息,精度较低。
企业在监控运营指标时,往往不会只监控某一项运营指标,而是同时监控大量的运营指标数值变化,而且这些运营指标之间也具有关联性,例如官网浏览量的增加可能会导致订单数的增加,通过渠道A访问产品的用户数增加可能会导致渠道B的访问量下降等。现有的预测方法每次仅能对一项运营指标进行预测,即每项运营指标对应一个预测模型,当需要同时预测一系列相互之间存在关联的运营指标时,现有方法仅能使用指标自身的信息,这样会丧失指标之间的相关性信息,不仅降低了预测精度,且指标数量的增加也会造成模型个数的增加,不便于模型的管理和维护。
异常检测是为了发现运营指标的异常波动,在已获得运营指标预测值的基础上,可以将运营指标的实际值与预测值进行对比,检测实际值是否超出了一定的波动范围,如果超过,则可认为检测到异常。在时序预测精度较高的前提下,实际值会处在关于预测值的一个较小的波动范围内,因此可以根据历史实际值相对于历史预测值的波动范围设置一个阈值,未来若运营指标的实际值相对于预测值的波动超过了设定好的阈值,则异常报警。现有的阈值计算方法大多采用3σ准则,它需要待检测的数据服从正态分布,这组数据按一定的概率确定一个区间,数据落在(μ-3σ,μ+3σ)中的概率为99.73%。当用于异常检测时,将运营指标的历史实际值与模型预测值的偏差作为待检测数据,计算出这组数据的标准差作为σ,正常波动阈值即为3σ。然而时序预测模型在实际应用时,运营指标的历史实际值与预测值的偏差并不服从正态分布,若继续将波动阈值按照正态分布的情况设置,则会导致业务正常情况下的误报警,或无法检测出业务异常。
因此,需要一种多项运营指标联合异常监测方法来解决现有问题。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种系统及方法。
为解决上述技术问题,本发明提供一种多项运营指标联合异常监测方法,其特征在于,包含如下步骤:步骤1,获取待监测的运营指标的历史时间序列数据,并对其进行预处理;
步骤2,对步骤1预处理好的多项运营指标时序数据进行维度扩展,增加每一个时间节点本身所包含的特征信息;
步骤3,将步骤2得到的多维度运营指标时序数据进行标准化后,放入长短时记忆网络(LSTM)中进行训练;
步骤4,使用步骤3训练出的长短时记忆网络模型计算每个历史时间节点上各项运营指标的预测值,使用箱型图分别对每项运营指标历史时刻的预测值和实际值的偏差进行统计,获得各项运营指标正常浮动的上限和下限;
步骤5,使用步骤3训练出的多项运营指标联合预测模型对下一时刻的各项运营指标值统一进行预测,将下一时刻各项运营指标的实际值与步骤4得到的正常浮动区间进行对比,从而判断该时刻的各项运营指标值是否异常。
所述步骤1中,获取到的所有待监测运营指标历史数据需要按照相同的时间间隔且时间由远及近的顺序存储,每一条样本表示该时刻对应的各项运营指标数值,若获得的运营指标时间序列数据中存在缺失值或异常值,需要填补缺失值和替换异常值。
所述步骤2中,对步骤1得到的多项运营指标数据进行维度扩展,扩展出的维度对应每个时刻本身所包含的信息,即为原始的时序数据增加额外的外部信息,扩展的维度依据被监测的运营指标来选择。
所述步骤3中,在标准化时,需要对步骤2中得到的多维运营指标时序数据中的每一个维度分别进行标准化,采用的方法是z-score标准化,使得经过处理后的每一维数据均值为0,方差为1,具体计算方法为:
其中,x是标准化前的时间序列数据,μ是对应维度上所有数据的均值,σ是对应维度上所有数据的标准差,x*是经过标准化的时间序列数据,经过标准化后的多维运营指标时序数据表示为:
其中n是样本个数,即采样的历史时刻数量,是扩展出的维度标准化后的结果,p是扩展出的维度数量,是标准化后的多项运营指标时序数据,q是待监测的运营指标个数。
所述步骤4中,当使用训练好的多项运营指标联合预测模型时,将当前时刻及之前一段时间的标准化后的多维数据输入多项运营指标联合预测模型,时间段的长度与步骤3训练模型时设置的时间窗口长度相同,通过预测模型的前向传播得到当前时刻各项运营指标在标准化空间中的预测值将预测值y*通过y=y*·σ+μ将标准化后的值倒回到原始空间,即可得到当前时刻各项运营指标的预测结果(y1,y2,...,yq);以此获得历史各时刻每一项运营指标的预测值序列(yi1,...,yik)i∈q,与其对应的是历史各时刻该项运营指标的实际值序列(yi1,...,yik′)i∈q;对于每一项运营指标,将该指标历史各时刻的实际值与预测值相减,可得到预测模型在该指标上的实际值相对于预测值的波动序列(di1,...,dik)i∈q;使用箱型图对每一项运营指标的波动序列分布进行统计,计算出每个序列的下四分位数QiL(i∈q)和上四分位数QiU(i∈q),四分位间距IQRi=QiU-QiL(i∈q),实际值相对于预测值的正常浮动上限为QiU+1.5IQRi(i∈q),下限为QiL-1.5IQRi(i∈q)。
所述步骤5中,使用多项运营指标联合预测模型对下一时刻的各项运营指标值进行预测的方法与步骤4中的所述方法相同,将下一时刻对应的时间窗口数据输入多项运营指标联合预测模型,得到的模型输出为下一时间节点在标准化空间中的各项运营指标预测值,将每一项指标预测值倒回到原始空间后的预测结果为Pi(i∈q),将下一时间节点的各项运营指标实际值Ri(i∈q)与预测值Pi(i∈q)对比,若Pi+QiL-1.5IQRi≤Ri≤Pi+QiU+1.5IQRi(i∈q),则该时刻的该项运营指标正常,否则监测到该项运营指标异常。
所述步骤3中,用于运营指标时序预测的长短时记忆网络通过深度学习框架TensorFlow中的LSTM API构建,训练该预测模型时,每一个LSTM cell对应一个时间节点,t时刻的输入数据为即标准化后的该时刻本身的信息与前一时刻的各项指标数值,目标输出为即该时刻所对应的标准化后的各项运营指标实际值,所述LSTM cell的个数为在训练数据上开的时间窗口的长度,即提取连续时间段内的多维时序数据作为整个LSTM模型的输入。
所述步骤1中,填补缺失值和替换异常值采用数据预处理方法包括人工填写、均值填充、极大似然估计和就近补齐,每一条数据记录的格式为时间及该时间下各项运营指标的数值;所述步骤2中,所属多项运营指标为网站日总订单数、触屏端日浏览量、渠道端日浏览量、触屏端日订单数、渠道端日订单数、网站日总成交金额、网站日总在线人数这7项,将每个时间节点对应的七维运营指标数据扩展为一个由星期几、日期属性、指标数值所构成的九维向量,其中,星期几和日期属性为扩展出的维度,指标数值为原始的时序数据,星期几这一维度下的特征值由数值1至7构成,分别表示星期一至星期日,日期属性这一维度下的特征值由数值1至5构成,1表示正常工作日,2表示正常周末,3表示法定节假日,4表示法定节假日附带的休息日,5表示法定节假日导致的周末变为工作日情况;额外的外部信息包括月份、天气、温度、对应时间是否有运营促销活动;对于月份和温度,直接将该数值作为所属扩展维度下对应时刻的数值;对于天气,将晴对应数值1,多云对应数值2,雨对应数值3,雪对应数值4;对于对应时间是否有运营促销活动,将无促销对应数值1,周年促销对应数值2,会员日促销对应数值3;所述步骤3中,使用深度学习框架TensorFlow中的LSTM API构建用于网站日总订单数、触屏端日浏览量、渠道端日浏览量、触屏端日订单数、渠道端日订单数、网站日总成交金额、网站日总在线人数这7项运营指标的联合时序预测模型,LSTM cell的个数即时间窗口的大小为14,输出层神经元数为7,对应7个运营指标,输入层神经元数为9,对应扩展出的两个时间维度与7个运营指标,LSTM隐藏层神经元数设置为200,学习率为0.0005,dropout参数为0.5,LSTM的层数为2,训练时每个batch的数据规模为128,L2正则化项权重为0.001,优化方法为tf.train.AdamOptimizer,训练的epoch数设置为3000。
本发明所达到的有益效果:本发明基于现有异常监测方法中时序预测与异常检测两方面存在的问题,提出一种基于长短时记忆网络的多项运营指标联合异常监测方法,利用深度学习中的长短时记忆网络训练多项运营指标的联合预测模型,然后使用箱型图分别对每项运营指标历史预测值和实际值的偏差进行统计,获得每项运营指标正常波动的阈值,最后使用预测模型对未来时刻的各项运营指标值进行预测,并根据各自的波动阈值判断运营指标是否出现异常。该方法可以高效且准确地对多项运营指标中出现的异常情况进行捕获。
附图说明
图1为本发明的示例性实施例的方法流程图;
图2为本发明的示例性实施例中的模型结构示意图;
图3为本发明的示例性实施例中的TensorFlow长短时记忆网络涉及的参数设定。
具体实施方式
本发明所要解决的技术问题是多项运营指标的联合异常监测问题,提出一种基于长短时记忆网络的多项运营指标联合异常监测方法。该方法利用深度学习中的长短时记忆网络对多项运营指标的预测模型进行训练,各项运营指标之间存在相互关系,且训练过程中加入了节假日信息,有效提升了运营指标预测的准确性,通过箱型图分别对各运营指标的历史预测偏差进行统计,获得各运营指标实际值相对于预测值正常波动的阈值,利用该阈值实现未来时间节点上各运营指标异常的自动、精准、统一捕获,同时也降低人为异常判断的工作量。
本发明提供一种多项运营指标联合异常监测方法,其特征在于,包含如下步骤:步骤1,获取待监测的运营指标的历史时间序列数据,并对其进行预处理;
步骤2,对步骤1预处理好的多项运营指标时序数据进行维度扩展,增加每一个时间节点本身所包含的特征信息;
步骤3,将步骤2得到的多维度运营指标时序数据进行标准化后,放入长短时记忆网络(LSTM)中进行训练;
步骤4,使用步骤3训练出的长短时记忆网络模型计算每个历史时间节点上各项运营指标的预测值,使用箱型图分别对每项运营指标历史时刻的预测值和实际值的偏差进行统计,获得各项运营指标正常浮动的上限和下限;
步骤5,使用步骤3训练出的多项运营指标联合预测模型对下一时刻的各项运营指标值统一进行预测,将下一时刻各项运营指标的实际值与步骤4得到的正常浮动区间进行对比,从而判断该时刻的各项运营指标值是否异常。
所述步骤1中,获取到的所有待监测运营指标历史数据需要按照相同的时间间隔且时间由远及近的顺序存储,每一条样本表示该时刻对应的各项运营指标数值,若获得的运营指标时间序列数据中存在缺失值或异常值,需要填补缺失值和替换异常值。
所述步骤2中,对步骤1得到的多项运营指标数据进行维度扩展,扩展出的维度对应每个时刻本身所包含的信息,即为原始的时序数据增加额外的外部信息,扩展的维度依据被监测的运营指标来选择。
所述步骤3中,在标准化时,需要对步骤2中得到的多维运营指标时序数据中的每一个维度分别进行标准化,采用的方法是z-score标准化,使得经过处理后的每一维数据均值为0,方差为1,具体计算方法为:
其中,x是标准化前的时间序列数据,μ是对应维度上所有数据的均值,σ是对应维度上所有数据的标准差,x*是经过标准化的时间序列数据,经过标准化后的多维运营指标时序数据表示为:
其中n是样本个数,即采样的历史时刻数量,是扩展出的维度标准化后的结果,p是扩展出的维度数量,是标准化后的多项运营指标时序数据,q是待监测的运营指标个数。
所述步骤4中,当使用训练好的多项运营指标联合预测模型时,将当前时刻及之前一段时间的标准化后的多维数据输入多项运营指标联合预测模型,时间段的长度与步骤3训练模型时设置的时间窗口长度相同,通过预测模型的前向传播得到当前时刻各项运营指标在标准化空间中的预测值将预测值y*通过y=y*·σ+μ将标准化后的值倒回到原始空间,即可得到当前时刻各项运营指标的预测结果(y1,y2,...,yq);以此获得历史各时刻每一项运营指标的预测值序列(yi1,...,yik)i∈q,与其对应的是历史各时刻该项运营指标的实际值序列(yi1,...,yik')i∈q;对于每一项运营指标,将该指标历史各时刻的实际值与预测值相减,可得到预测模型在该指标上的实际值相对于预测值的波动序列(di1,...,dik)i∈q;使用箱型图对每一项运营指标的波动序列分布进行统计,计算出每个序列的下四分位数QiL(i∈q)和上四分位数QiU(i∈q),四分位间距IQRi=QiU-QiL(i∈q),实际值相对于预测值的正常浮动上限为QiU+1.5IQRi(i∈q),下限为QiL-1.5IQRi(i∈q)。
所述步骤5中,使用多项运营指标联合预测模型对下一时刻的各项运营指标值进行预测的方法与步骤4中的所述方法相同,将下一时刻对应的时间窗口数据输入多项运营指标联合预测模型,得到的模型输出为下一时间节点在标准化空间中的各项运营指标预测值,将每一项指标预测值倒回到原始空间后的预测结果为Pi(i∈q),将下一时间节点的各项运营指标实际值Ri(i∈q)与预测值Pi(i∈q)对比,若Pi+QiL-1.5IQRi≤Ri≤Pi+QiU+1.5IQRi(i∈q),则该时刻的该项运营指标正常,否则监测到该项运营指标异常。
所述步骤3中,用于运营指标时序预测的长短时记忆网络通过深度学习框架TensorFlow中的LSTM API构建,训练该预测模型时,每一个LSTM cell对应一个时间节点,t时刻的输入数据为即标准化后的该时刻本身的信息与前一时刻的各项指标数值,目标输出为即该时刻所对应的标准化后的各项运营指标实际值,所述LSTM cell的个数为在训练数据上开的时间窗口的长度,即提取连续时间段内的多维时序数据作为整个LSTM模型的输入。
所述步骤1中,填补缺失值和替换异常值采用数据预处理方法包括人工填写、均值填充、极大似然估计和就近补齐,每一条数据记录的格式为时间及该时间下各项运营指标的数值;所述步骤2中,所属多项运营指标为网站日总订单数、触屏端日浏览量、渠道端日浏览量、触屏端日订单数、渠道端日订单数、网站日总成交金额、网站日总在线人数这7项,将每个时间节点对应的七维运营指标数据扩展为一个由星期几、日期属性、指标数值所构成的九维向量,其中,星期几和日期属性为扩展出的维度,指标数值为原始的时序数据,星期几这一维度下的特征值由数值1至7构成,分别表示星期一至星期日,日期属性这一维度下的特征值由数值1至5构成,1表示正常工作日,2表示正常周末,3表示法定节假日,4表示法定节假日附带的休息日,5表示法定节假日导致的周末变为工作日情况;额外的外部信息包括月份、天气、温度、对应时间是否有运营促销活动;对于月份和温度,直接将该数值作为所属扩展维度下对应时刻的数值;对于天气,将晴对应数值1,多云对应数值2,雨对应数值3,雪对应数值4;对于对应时间是否有运营促销活动,将无促销对应数值1,周年促销对应数值2,会员日促销对应数值3;所述步骤3中,使用深度学习框架TensorFlow中的LSTM API构建用于网站日总订单数、触屏端日浏览量、渠道端日浏览量、触屏端日订单数、渠道端日订单数、网站日总成交金额、网站日总在线人数这7项运营指标的联合时序预测模型,LSTM cell的个数即时间窗口的大小为14,输出层神经元数为7,对应7个运营指标,输入层神经元数为9,对应扩展出的两个时间维度与7个运营指标,LSTM隐藏层神经元数设置为200,学习率为0.0005,dropout参数为0.5,LSTM的层数为2,训练时每个batch的数据规模为128,L2正则化项权重为0.001,优化方法为tf.train.AdamOptimizer,训练的epoch数设置为3000。
下面结合附图和示例性实施例对本发明作进一步的说明:
本实施案例对原始的多项运营指标时序数据进行维度扩展,然后使用深度学习中的长短时记忆网络构造多指标联合预测模型,并通过箱型图计算每项指标值的正常波动范围,从而实现对各项运营指标的异常监测。如图1所示,本方法包含如下步骤:
步骤10,获取待监测的一系列运营指标的历史时间序列数据,并对其进行预处理;
步骤101,待监测的运营指标时序数据本身具有相等的时间间隔,如一天、一小时、一分钟等,将获取到的多项运营指标时序数据按照相同的时间间隔、时间由远及近的顺序存储至文本、数据库或电子表格中,每一条数据记录的格式为时间及该时间下各项运营指标的数值;
步骤102,对获取的各项运营指标数据进行预处理,通过数据挖掘中的人工填写、均值填充、极大似然估计、就近补齐等数据预处理方法,填补数据中的缺失值,替换其中不符合业务逻辑的异常值;
步骤20,对上一步预处理好的多项运营指标时序数据进行维度扩展,增加每一个时间节点本身所包含的特征信息;
步骤201,以网站日总订单数、触屏端日浏览量、渠道端日浏览量、触屏端日订单数、渠道端日订单数、网站日总成交金额、网站日总在线人数这7项运营指标为例,这7项运营指标之间存在关联性,且这些指标的数值大小与当日是周几、是否是节假日等时间因素关系密切,因此这里将每个时间节点对应的七维运营指标数据扩展为一个由星期几、日期属性、指标数值所构成的九维向量,其中,星期几和日期属性为扩展出的维度,指标数值为原始的时序数据,星期几这一维度下的特征值可以由数值1至7构成,分别表示星期一至星期日,日期属性这一维度下的特征值可以由数值1至5构成,1表示正常工作日,2表示正常周末,3表示法定节假日,4表示法定节假日附带的休息日,5表示法定节假日导致的周末变为工作日情况;
步骤202,扩展出的维度对应每个时刻本身所包含的信息,即为原始的时序数据增加额外的外部信息,其他可扩展的维度还包括月份、天气、温度、对应时间是否有运营促销活动等,对于月份、温度这类外部信息,信息本身与数值一一对应,一月至十二月对应数值1至12,温度亦然,直接将该数值作为所属扩展维度下对应时刻的数值即可;对于天气、是否有促销活动这类外部信息,不具有信息到数值的直接对应关系,则需要对每个扩展维度中不同类型的信息赋予不同的数值:天气这一维度,可以将晴对应数值1,多云对应数值2,雨对应数值3,雪对应数值4等;是否有促销活动这一维度,可以将无促销对应数值1,周年促销对应数值2,会员日促销对应数值3等,扩展的维度和各维度下特征值的构成不局限于上述的几种,需要根据待监测运营指标的实际情况来合理选择;
步骤30,对上一步得到的多维度运营指标时序数据进行标准化后,放入长短时记忆网络(LSTM)中进行训练;
步骤301,根据公式分别计算经过维度扩展后的九维时序数据中每个维度标准化之后的数值每个元组中的值分别对应每一天标准化后的星期几、日期属性和待监测的7项运营指标数值;
步骤302,使用谷歌开源深度学习框架TensorFlow中的LSTM API构建用于网站日总订单数、触屏端日浏览量、渠道端日浏览量、触屏端日订单数、渠道端日订单数、网站日总成交金额、网站日总在线人数这7项运营指标的联合时序预测模型,模型的结构如图2所示,LSTM cell的个数即时间窗口的大小,这里所开的时间窗口为14天,即用前14天的时序数据来预测当天的7项运营指标数值;
步骤303,训练该网站日在线人数预测模型时,每一个LSTM cell的输入数据为即当天标准化后的星期几、日期属性和前一天的7项运营指标,目标输出为即当天标准化后的7项运营指标,其他TensorFlow长短时记忆网络中所涉及的参数设定如图3所示,输出层神经元数为7,对应7个运营指标,输入层神经元数为9,对应扩展出的两个时间维度与7个运营指标,LSTM隐藏层神经元数设置为200,学习率为0.0005,dropout参数为0.5,LSTM的层数为2,训练时每个batch的数据规模为128,L2正则化项权重为0.001,用于防止过拟合,优化方法为tf.train.AdamOptimizer,训练的epoch数设置为3000;
步骤40,使用上一步训练出的长短时记忆网络模型计算每个历史时间节点上各项运营指标的预测值,使用箱型图分别对每项运营指标历史时刻的预测值和实际值的偏差进行统计,获得指标正常浮动的上限和下限;
步骤401,对步骤30中用于训练预测模型的标准化九维时序数据同样开长度为14天的时间窗口,然后将每个时间窗口中的样本输入步骤30训练好的7项指标联合预测模型中,即可通过预测模型的前向传播得到每个时间窗口对应的模型预测结果输出,也就是历史各时刻7项运营指标在标准化空间中的预测值序列
步骤402,根据公式y=y*·σ+μ,将步骤401得到的模型输出值倒回到原始空间,得到7项待监测运营指标的预测结果序列(yi,14,yi,15,...,yi,n-1,yi,n)1≤i≤7;
步骤403,对于每一项运营指标,将该指标历史各时刻实际值序列(y′i,14,y′i,15,...,y′i,n-1,y′i,n)1≤i≤7与对应的模型预测结果序列(yi,14,yi,15,...,yi,n-1,yi,n)1≤i≤7相减,得到该指标的实际值相对于预测模型在该指标上的预测值的波动序列(di,14,di,15,...,di,n)1≤i≤7=(y′i,14-yi,14,y′i,15-yi,15,...,y′i,n-yi,n)1≤i≤7;
步骤404,使用箱型图对每一项运营指标的波动序列(di,14,di,15,...,di,n)1≤i≤7的分布分布进行统计,计算出每个序列的下四分位数QiL(1≤i≤7)和上四分位数QiU(1≤i≤7),根据公式IQRi=QiU-QiL(1≤i≤7)计算出四分位间距,每项指标的实际值相对于预测值的正常浮动上限表示为QiU+1.5IQRi(1≤i≤7),下限表示为QiL-1.5IQRi(1≤i≤7);
步骤50,使用步骤30中训练出的多项运营指标联合预测模型对下一时刻的各项运营指标值统一进行预测,将下一时刻各项运营指标的实际值与步骤40中得到的每项运营指标各自的正常浮动区间进行对比,从而判断该时刻的各项运营指标值是否异常;
步骤501,将下一时刻对应的标准化时间窗口数据输入到步骤30训练出的7项运营指标联合预测模型中,模型输出下一时间节点在标准化空间中的7项运营指标预测值通过公式y=y*·σ+μ将标准化结果倒回到原始空间,得到下一日的7项运营指标预测值(yn+1,1,...,yn+1,7);
步骤502,将下一日的各项运营指标实际值bn+1,i(1≤i≤7)与预测值yn+1,i(1≤i≤7)对比,若yn+1,i+QiL-1.5IQRi≤bn+1,i≤yn+1,i+QiU+1.5IQRi(1≤i≤7),则该日的此项运营指标正常,否则监测到该项运营指标异常。
本发明所达到的有益效果:本发明基于现有异常监测方法中时序预测与异常检测两方面存在的问题,提出一种基于长短时记忆网络的多项运营指标联合异常监测方法,利用深度学习中的长短时记忆网络训练多项运营指标的联合预测模型,然后使用箱型图分别对每项运营指标历史预测值和实际值的偏差进行统计,获得每项运营指标正常波动的阈值,最后使用预测模型对未来时刻的各项运营指标值进行预测,并根据各自的波动阈值判断运营指标是否出现异常。该方法可以高效且准确地对多项运营指标中出现的异常情况进行捕获。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。
Claims (8)
1.一种多项运营指标联合异常监测方法,其特征在于,包括如下步骤:
步骤1,获取待监测的运营指标的历史时间序列数据,并对其进行预处理;
步骤2,对步骤1预处理好的多项运营指标时序数据进行维度扩展,增加每一个时间节点本身所包含的特征信息;
步骤3,将步骤2得到的多维度运营指标时序数据进行标准化后,放入长短时记忆网络(LSTM)中进行训练;
步骤4,使用步骤3训练出的长短时记忆网络模型计算每个历史时间节点上各项运营指标的预测值,使用箱型图分别对每项运营指标历史时刻的预测值和实际值的偏差进行统计,获得各项运营指标正常浮动的上限和下限;
步骤5,使用步骤3训练出的多项运营指标联合预测模型对下一时刻的各项运营指标值统一进行预测,将下一时刻各项运营指标的实际值与步骤4得到的正常浮动区间进行对比,从而判断该时刻的各项运营指标值是否异常。
2.如权利要求1所述的一种多项运营指标联合异常监测方法,其特征在于:所述步骤1中,获取到的所有待监测运营指标历史数据需要按照相同的时间间隔且时间由远及近的顺序存储,每一条样本表示该时刻对应的各项运营指标数值,若获得的运营指标时间序列数据中存在缺失值或异常值,需要填补缺失值和替换异常值。
3.如权利要求2所述的一种多项运营指标联合异常监测方法,其特征在于:所述步骤2中,对步骤1得到的多项运营指标数据进行维度扩展,扩展出的维度对应每个时刻本身所包含的信息,即为原始的时序数据增加额外的外部信息,扩展的维度依据被监测的运营指标来选择。
4.如权利要求3所述的一种多项运营指标联合异常监测方法,其特征在于:所述步骤3中,在标准化时,需要对步骤2中得到的多维运营指标时序数据中的每一个维度分别进行标准化,采用的方法是z-score标准化,使得经过处理后的每一维数据均值为0,方差为1,具体计算方法为:
其中,x是标准化前的时间序列数据,μ是对应维度上所有数据的均值,σ是对应维度上所有数据的标准差,x*是经过标准化的时间序列数据,经过标准化后的多维运营指标时序数据表示为:
其中n是样本个数,即采样的历史时刻数量,是扩展出的维度标准化后的结果,p是扩展出的维度数量,是标准化后的多项运营指标时序数据,q是待监测的运营指标个数。
5.如权利要求1所述的一种多项运营指标联合异常监测方法,其特征在于:所述步骤4中,当使用训练好的多项运营指标联合预测模型时,将当前时刻及之前一段时间的标准化后的多维数据输入多项运营指标联合预测模型,时间段的长度与步骤3训练模型时设置的时间窗口长度相同,通过预测模型的前向传播得到当前时刻各项运营指标在标准化空间中的预测值将预测值y*通过y=y*·σ+μ将标准化后的值倒回到原始空间,即可得到当前时刻各项运营指标的预测结果(y1,y2,...,yq);以此获得历史各时刻每一项运营指标的预测值序列(yi1,...,yik)i∈q,与其对应的是历史各时刻该项运营指标的实际值序列(yi1',...,yik')i∈q;对于每一项运营指标,将该指标历史各时刻的实际值与预测值相减,可得到预测模型在该指标上的实际值相对于预测值的波动序列(di1,...,dik)i∈q;使用箱型图对每一项运营指标的波动序列分布进行统计,计算出每个序列的下四分位数QiL(i∈q)和上四分位数QiU(i∈q),四分位间距IQRi=QiU-QiL(i∈q),实际值相对于预测值的正常浮动上限为QiU+1.5IQRi(i∈q),下限为QiL-1.5IQRi(i∈q)。
6.如权利要求5所述的一种多项运营指标联合异常监测方法,其特征在于,所述步骤5中,使用多项运营指标联合预测模型对下一时刻的各项运营指标值进行预测的方法与步骤4中的所述方法相同,将下一时刻对应的时间窗口数据输入多项运营指标联合预测模型,得到的模型输出为下一时间节点在标准化空间中的各项运营指标预测值,将每一项指标预测值倒回到原始空间后的预测结果为Pi(i∈q),将下一时间节点的各项运营指标实际值Ri(i∈q)与预测值Pi(i∈q)对比,若Pi+QiL-1.5IQRi≤Ri≤Pi+QiU+1.5IQRi(i∈q),则该时刻的该项运营指标正常,否则监测到该项运营指标异常。
7.如权利要求6所述的一种多项运营指标联合异常监测方法,其特征在于,所述步骤3中,用于运营指标时序预测的长短时记忆网络通过深度学习框架TensorFlow中的LSTM API构建,训练该预测模型时,每一个LSTM cell对应一个时间节点,t时刻的输入数据为即标准化后的该时刻本身的信息与前一时刻的各项指标数值,目标输出为即该时刻所对应的标准化后的各项运营指标实际值,所述LSTM cell的个数为在训练数据上开的时间窗口的长度,即提取连续时间段内的多维时序数据作为整个LSTM模型的输入。
8.如权利要求7所述的一种多项运营指标联合异常监测方法,其特征在于,所述步骤1中,填补缺失值和替换异常值采用数据预处理方法包括人工填写、均值填充、极大似然估计和就近补齐,每一条数据记录的格式为时间及该时间下各项运营指标的数值;所述步骤2中,所属多项运营指标为网站日总订单数、触屏端日浏览量、渠道端日浏览量、触屏端日订单数、渠道端日订单数、网站日总成交金额、网站日总在线人数这7项,将每个时间节点对应的七维运营指标数据扩展为一个由星期几、日期属性、指标数值所构成的九维向量,其中,星期几和日期属性为扩展出的维度,指标数值为原始的时序数据,星期几这一维度下的特征值由数值1至7构成,分别表示星期一至星期日,日期属性这一维度下的特征值由数值1至5构成,1表示正常工作日,2表示正常周末,3表示法定节假日,4表示法定节假日附带的休息日,5表示法定节假日导致的周末变为工作日情况;额外的外部信息包括月份、天气、温度、对应时间是否有运营促销活动;对于月份和温度,直接将该数值作为所属扩展维度下对应时刻的数值;对于天气,将晴对应数值1,多云对应数值2,雨对应数值3,雪对应数值4;对于对应时间是否有运营促销活动,将无促销对应数值1,周年促销对应数值2,会员日促销对应数值3;所述步骤3中,使用深度学习框架TensorFlow中的LSTM API构建用于网站日总订单数、触屏端日浏览量、渠道端日浏览量、触屏端日订单数、渠道端日订单数、网站日总成交金额、网站日总在线人数这7项运营指标的联合时序预测模型,LSTM cell的个数即时间窗口的大小为14,输出层神经元数为7,对应7个运营指标,输入层神经元数为9,对应扩展出的两个时间维度与7个运营指标,LSTM隐藏层神经元数设置为200,学习率为0.0005,dropout参数为0.5,LSTM的层数为2,训练时每个batch的数据规模为128,L2正则化项权重为0.001,优化方法为tf.train.AdamOptimizer,训练的epoch数设置为3000。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910283721.0A CN110147902A (zh) | 2019-04-10 | 2019-04-10 | 一种多项运营指标联合异常监测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910283721.0A CN110147902A (zh) | 2019-04-10 | 2019-04-10 | 一种多项运营指标联合异常监测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110147902A true CN110147902A (zh) | 2019-08-20 |
Family
ID=67588928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910283721.0A Withdrawn CN110147902A (zh) | 2019-04-10 | 2019-04-10 | 一种多项运营指标联合异常监测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110147902A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110430224A (zh) * | 2019-09-12 | 2019-11-08 | 贵州电网有限责任公司 | 一种基于随机块模型的通信网络异常行为检测方法 |
CN110880128A (zh) * | 2019-10-31 | 2020-03-13 | 支付宝(杭州)信息技术有限公司 | 异常信息挖掘方法、装置、系统及终端设备 |
CN111382838A (zh) * | 2020-01-15 | 2020-07-07 | 南宁市勘察测绘地理信息院 | 城市液位高程的内涝预测方法、装置和设备 |
CN111882338A (zh) * | 2020-08-11 | 2020-11-03 | 网易(杭州)网络有限公司 | 在线人数的异常检测方法、装置及电子设备 |
CN112215514A (zh) * | 2020-10-22 | 2021-01-12 | 星云海数字科技股份有限公司 | 一种经营分析报告生成方法及系统 |
CN112363890A (zh) * | 2020-11-18 | 2021-02-12 | 合肥城市云数据中心股份有限公司 | 基于Prophet模型的数据中心运维系统阈值自适应告警监测方法 |
CN113419465A (zh) * | 2021-07-13 | 2021-09-21 | 浙江菲达环保科技股份有限公司 | 火电机组环保系统的数据预处理方法及系统 |
CN113435753A (zh) * | 2021-06-29 | 2021-09-24 | 平安科技(深圳)有限公司 | 高危行业中企业风险判定方法、装置、设备及介质 |
CN114353881A (zh) * | 2022-03-18 | 2022-04-15 | 广东银纳增材制造技术有限公司 | 一种基于复合传感器的设备异常监测方法及系统 |
CN115829160A (zh) * | 2022-12-29 | 2023-03-21 | 上海鼎茂信息技术有限公司 | 一种时序异常预测方法、装置、设备及存储介质 |
-
2019
- 2019-04-10 CN CN201910283721.0A patent/CN110147902A/zh not_active Withdrawn
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110430224A (zh) * | 2019-09-12 | 2019-11-08 | 贵州电网有限责任公司 | 一种基于随机块模型的通信网络异常行为检测方法 |
CN110880128A (zh) * | 2019-10-31 | 2020-03-13 | 支付宝(杭州)信息技术有限公司 | 异常信息挖掘方法、装置、系统及终端设备 |
CN111382838A (zh) * | 2020-01-15 | 2020-07-07 | 南宁市勘察测绘地理信息院 | 城市液位高程的内涝预测方法、装置和设备 |
CN111882338A (zh) * | 2020-08-11 | 2020-11-03 | 网易(杭州)网络有限公司 | 在线人数的异常检测方法、装置及电子设备 |
CN111882338B (zh) * | 2020-08-11 | 2023-06-30 | 网易(杭州)网络有限公司 | 在线人数的异常检测方法、装置及电子设备 |
CN112215514A (zh) * | 2020-10-22 | 2021-01-12 | 星云海数字科技股份有限公司 | 一种经营分析报告生成方法及系统 |
CN112363890A (zh) * | 2020-11-18 | 2021-02-12 | 合肥城市云数据中心股份有限公司 | 基于Prophet模型的数据中心运维系统阈值自适应告警监测方法 |
CN113435753A (zh) * | 2021-06-29 | 2021-09-24 | 平安科技(深圳)有限公司 | 高危行业中企业风险判定方法、装置、设备及介质 |
CN113419465A (zh) * | 2021-07-13 | 2021-09-21 | 浙江菲达环保科技股份有限公司 | 火电机组环保系统的数据预处理方法及系统 |
CN114353881A (zh) * | 2022-03-18 | 2022-04-15 | 广东银纳增材制造技术有限公司 | 一种基于复合传感器的设备异常监测方法及系统 |
CN115829160A (zh) * | 2022-12-29 | 2023-03-21 | 上海鼎茂信息技术有限公司 | 一种时序异常预测方法、装置、设备及存储介质 |
CN115829160B (zh) * | 2022-12-29 | 2023-09-01 | 上海鼎茂信息技术有限公司 | 一种时序异常预测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147902A (zh) | 一种多项运营指标联合异常监测方法 | |
CN109615226A (zh) | 一种运营指标异常监测方法 | |
US20220358528A1 (en) | Methods and apparatus for self-adaptive time series forecasting engine | |
US10248528B2 (en) | System monitoring method and apparatus | |
CN108537544B (zh) | 一种交易系统实时监控方法及其监控系统 | |
Jones-Farmer et al. | Applying control chart methods to enhance data quality | |
CN113888235B (zh) | 一种销量预测模型的训练方法、销量预测方法及相关装置 | |
US20220374827A1 (en) | Method and system for automatic replenishment of retail enterprise store, and computer-readable storage medium | |
CN109214863B (zh) | 一种基于快递数据预测城市房屋需求的方法 | |
CN111737314A (zh) | 一种运营日系统的客流信息检测方法 | |
CN116843071B (zh) | 一种用于智慧港口的运输网络运行指数预测方法及装置 | |
CN115145993A (zh) | 基于自学习规则运算的铁路货运大数据可视化展示平台 | |
CN115983900A (zh) | 用户营销策略的构建方法、装置、设备、介质和程序产品 | |
CN113418841B (zh) | 一种空气质量颗粒物浓度预测数据的补全方法 | |
US11403652B1 (en) | Customer-level lifetime value | |
Sun | Intelligent data mining based on market circulation of production factors | |
US20230052619A1 (en) | Real-time error prevention during invoice creation | |
Xia et al. | Analysis and prediction of telecom customer churn based on machine learning | |
Liang et al. | Outliers detect methods for time series data | |
CN111242672A (zh) | 一种基于增量算法的需求预测方法 | |
CN113837782A (zh) | 时间序列模型的周期项参数优化方法、装置、计算机设备 | |
Petiau | Confidence interval estimation for short-term load forecasting | |
Jiang | Short‐Term Traffic Prediction of the Urban Road Network based on the Intelligent Transportation System | |
Chu | An empirical study to determine freight travel time at a major port | |
CN116452313B (zh) | 银行游戏客群中客户价值的计算方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190820 |