CN109117449B - 基于非线性最小二乘模型测算网吧安装率的方法 - Google Patents

基于非线性最小二乘模型测算网吧安装率的方法 Download PDF

Info

Publication number
CN109117449B
CN109117449B CN201810839017.4A CN201810839017A CN109117449B CN 109117449 B CN109117449 B CN 109117449B CN 201810839017 A CN201810839017 A CN 201810839017A CN 109117449 B CN109117449 B CN 109117449B
Authority
CN
China
Prior art keywords
installation
internet
online
internet bar
clients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810839017.4A
Other languages
English (en)
Other versions
CN109117449A (zh
Inventor
赵丽丽
祝小斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Wenwang Yilian Technology Co ltd
Original Assignee
Wuhan Wenwang Yilian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Wenwang Yilian Technology Co ltd filed Critical Wuhan Wenwang Yilian Technology Co ltd
Priority to CN201810839017.4A priority Critical patent/CN109117449B/zh
Publication of CN109117449A publication Critical patent/CN109117449A/zh
Application granted granted Critical
Publication of CN109117449B publication Critical patent/CN109117449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Abstract

本发明公开了基于非线性最小二乘模型测算网吧安装率的方法,包含步骤一、设定网吧安装的客户端分布随机,来上网的人无成群结队,座位的选择随机;步骤二、通过实时打点的方式每隔固定时间采集一次网吧在线客户端检测数和安装数,经过n次采集后,获取样本量为n的网吧在线客户端检测数和安装数的数据,绘制安装数样本分布图并计算安装数样本分布的偏度值skew,其中n>2;步骤三、安装数样本分布图和计算出的安装数样本分布偏度值skew,了解网吧在线客户端检测数、安装数的分布情况,判断安装数是否存在异常,需要处理;步骤四、使用非线性最小二乘模型,在参数约束的情况下,估算网吧安装率。本发明具有计算结果稳健,估算的网吧安装率更真实。

Description

基于非线性最小二乘模型测算网吧安装率的方法
技术领域
本发明涉及一种软件安装率的测算技术,具体的说是涉及基于非线性最小二乘模型测算网吧安装率的方法。
背景技术
客户端是否安装软件一般是通过路由器对客户端进行监控,先根据设定的规则通过UDP广播包通知客户端,当客户端收到广播包后回应约定的消息给路由器,再由路由器根据客户端的回应来判断是否安装,路由器每隔一定的时间把客户端在线总数和客户端安装数的统计信息上传到WEB管理平台,并将日志数据存放到Hadoop平台中用于算法处理。
软件安装率真实值=总客户端安装数/总客户端数,因数据采集只能监控实时在线安装数和在线客户端数,并不能反映处软件的真实安装率,故而每一次采集数据计算得到的安装率(即在线安装数/在线客户端数)仅是对真实安装率的估计值。当需要获得软件真实安装率时,通常是通过多次采集数据的安装率的平均值来代表真实安装率的,根据点估计原理,只有在抽样次数足够多时,样本估计的平均值才会接近于真实值。
然而,在实际应用中,通常会因软件bug、杀毒软件拦截、多镜像等原因导致路由器采集的数据异常,使得安装率极易受到极大或极小时点安装率的影响,从而导致计算结果不稳健。并且在总的客户端中还会包含部分不能安装软件的白名单,如摄像头、无盘服务器、交换机之类的,若存在wifi直连路由器的特殊情况,检测的客户端数还会包含手机数,故软件的安装率应为在线安装数/剔除白名单和手机数后的在线客户端数。
对于特定网吧,白名单的个数相对固定,而手机数相对不可控,手机数会随着上网人数变化而波动,因手机问题较复杂且属于特殊情况,故不考虑手机数问题,只需剔除白名单的影响。但在实时监控中,在线白名单个数也是未知,使用平均值的方式很难去剔除白名单,估计的安装率具有系统偏差。
故基于上述不稳健和白名单两点原因,本发明提出了一种使用非线性最小二乘模型来解决此类问题。
发明内容
本发明的目的在于提供一种基于非线性最小二乘模型测算网吧安装率的方法,用以解决背景技术中存在的问题。
为实现上述目的,本发明采取的技术方案为:基于非线性最小二乘模型测算网吧安装率的方法,包括如下步骤:
步骤一、设定网吧安装的客户端分布随机,来上网的人无成群结队,座位的选择随机;
步骤二、通过实时打点的方式每隔固定时间采集一次网吧在线客户端检测数和安装数,经过n次采集后,获取样本量为n的网吧在线客户端检测数和安装数的数据,绘制网吧在线客户端安装数样本分布图并计算网吧在线客户端安装数样本分布的偏度值skew,其中n>2;
步骤三、根据步骤二的网吧在线客户端安装数样本分布图和计算出的网吧在线客户端安装数样本分布偏度值skew,了解网吧在线客户端安装数的样本分布情况,判断是否存在异常网吧在线客户端安装数需要处理的情况,并同时对网吧在线客户端安装数的取值变异个数不足、网吧在线客户端安装数最大值不大于1的网吧给予特殊赋值;其中,所述网吧在线客户端安装数的取值变异个数不足表示的是网吧在线客户端安装数的取值变异个数≤1,所述网吧在线客户端安装数的取值变异个数表示的是网吧在线客户端安装数的取值出现异常的个数;
(1)当网吧在线客户端安装数的取值变异个数≤1时,给予网吧安装率赋值-1;
(2)当网吧在线客户端安装数最大值≤1时,给予网吧安装率赋值0;
(3)当网吧在线客户端安装数的取值变异个数>1且网吧在线客户端安装数最大值>1且无异常网吧在线客户端安装数的需处理时,直接使用非线性最小二乘模型估算网吧安装率P;
(4)当网吧在线客户端安装数的样本取值变异个数>1且网吧在线客户端安装数最大值>1且同时存在异常网吧在线客户端安装数需处理时,先剔除异常网吧在线客户端安装数的样本值,然后观测是否存在需重新设置
Figure GDA0003510099400000031
取值范围的特殊情况,即是否存在检测到的网吧在线客户端安装数最大值
Figure GDA0003510099400000032
的上限10的情况;
(4a)若检测到的网吧在线客户端安装数最大值<10时,在剔除异常安装数的样本值后,先将
Figure GDA0003510099400000033
的上限改为检测到的网吧在线客户端安装数最大值,然后再使用非线性最小二乘模型进行网吧安装率P估算;
(4b)若检测到的网吧在线客户端安装数最大值≥10时,在剔除异常安装数的样本值后,即可使用非线性最小二乘模型进行网吧安装率P估算;
步骤四、使用非线性最小二乘模型:
Figure GDA0003510099400000034
式中y表示网吧在线客户端检测数,x表示网吧在线客户端安装数,
Figure GDA0003510099400000035
表示白名单数,β表示网吧在线客户端安装数增加一个网吧在线客户端检测数增加的个数;
在参数约束的情况下,通过最小化损失函数
Figure GDA0003510099400000036
求得
Figure GDA0003510099400000037
和β的估计值
Figure GDA0003510099400000038
Figure GDA0003510099400000039
估计得到的
Figure GDA00035100994000000310
即代表白名单数的最优估计值,估计得到的
Figure GDA00035100994000000311
即代表网吧安装率的最优估计值,即
Figure GDA00035100994000000312
进一步,步骤三中,剔除异常网吧在线客户端安装数的样本值的具体方法如下:
(1)根据获取到的网吧在线客户端安装数的样本分布图,计算网吧在线客户端安装数的样本分布偏度值skew,判断网吧在线客户端安装数的样本分布是否出现极度右偏的情形,所述右偏表示偏度值skew>0时;
(2)当偏度值0<skew<4时,不做处理;
(3)当偏度值skew>4时,表示网吧在线客户端安装数出现了极度右偏的情况,需进行极大值处理,即将网吧在线客户端安装数在99%分位数以上的样本值当作异常值剔除。
进一步,步骤四中,所述白名单数为不能安装网吧客户端软件的客户端设备数,其数量少且打开的个数较固定,不会随一天24小时的变化而大幅波动;所述网吧在线客户端安装数为检测到的网吧安装有客户端软件的电脑数,其能随一天24小时的网吧人数变化而变动;所述网吧在线客户端检测数由网吧在线客户端安装数、网吧在线客户端未安装数、白名单数及手机数四部分组成。
与现有技术相比,本发明的优点和有益效果是:采用非线性最小二乘模型进行安装率的测算,不仅避免了安装率极易受到极大或极小时点安装率的影响,保证了计算结果稳健,同时还剔除了白名单对安装率的影响,保证计算结果更趋近于客户端真实安装率,为实现实时监控网吧软件安装率提供更为可靠的技术途径。
附图说明
图1为网吧在线客户端安装数接近网吧在线客户端检测数时,监测到的某网吧在线客户端安装数、检测数的实测时序图;
图中:横坐标轴表示时间,其轴上的间隔点表示的是一天中从00:00至24:00中的某时间节点,纵坐标轴表示个数,其轴上的每个点表示的检测到的网吧在线客户端安装数、检测数个数;图中位于上方的曲线表示网吧在线客户端检测数随上网时间变化而变化的波动线,位于下方的曲线表示网吧在线客户端安装数随上网时间变化而变化的波动线;
图2为基于图1中的某网吧在线客户端安装数接近检测数时的散点图;
图中:横坐标轴表示网吧在线客户端安装数,纵坐标轴表示网吧在线客户端检测数;图中的某个散点对应的横坐标轴、纵坐标轴的取值即表示某次监测中获取的网吧在线客户端安装数和检测数数据;
图3为网吧在线客户端检测数大于网吧在线客户端安装数时,监测到的某网吧在线客户端安装数、检测数的实测时序图;
图中:横坐标轴表示时间,其轴上的间隔点表示的是一天中从00:00至24:00中的某时间节点,纵坐标轴表示个数,其轴上的每个点表示该时刻检测到的网吧在线客户端安装数、检测数的个数;图中位于上方的曲线表示网吧在线客户端检测数随上网时间变化而变化的波动线,位于下方的曲线表示网吧在线客户端安装数随上网时间变化而变化的波动线;
图4为基于图3的网吧在线客户端检测数大于安装数时的散点图;
图中:横坐标轴表示网吧在线客户端安装数,纵坐标轴表示网吧在线客户端检测数;图中的某个散点对应的横坐标轴、纵坐标轴的取值表示某次监测中获取的网吧在线客户端安装数和检测数数据。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合附图和具体实施方式,进一步阐述本发明是如何实施的。
基于非线性最小二乘模型测算网吧安装率的方法,其特征在于,包括如下步骤:
步骤一、设定网吧安装的客户端分布随机,来上网的人无成群结队,座位的选择随机;
步骤二、通过实时打点的方式每隔固定时间采集一次网吧在线客户端检测数和安装数,经过n次采集后,获取样本量为n的网吧在线客户端检测数和安装数的数据,绘制网吧在线客户端安装数样本分布图并计算网吧在线客户端安装数样本分布的偏度值skew,其中n>2;
步骤三、根据步骤二的网吧在线客户端安装数样本分布图和计算出的网吧在线客户端安装数样本分布偏度值skew,了解网吧在线客户端安装数的样本分布情况,判断是否存在异常网吧在线客户端安装数需要处理的情况,并同时对网吧在线客户端安装数的取值变异个数不足、网吧在线客户端安装数最大值不大于1的网吧给予特殊赋值;其中,所述网吧在线客户端安装数的取值变异个数不足表示的是网吧在线客户端安装数的取值变异个数≤1;所述网吧在线客户端安装数的取值变异个数表示的是网吧在线客户端安装数的取值出现异常的个数;
(1)当网吧在线客户端安装数的取值变异个数≤1时,给予网吧安装率赋值-1;
(2)当网吧在线客户端安装数最大值≤1时,给予网吧安装率赋值0;
(3)当网吧在线客户端安装数的取值变异个数>1且网吧在线客户端安装数最大值>1且无异常网吧在线客户端安装数需处理时,直接使用非线性最小二乘模型估算网吧安装率P;
(4)当网吧在线客户端安装数的样本取值变异个数>1且网吧在线客户端安装数最大值>1且同时存在异常网吧在线客户端安装数需处理时,先剔除异常网吧在线客户端安装数的样本值,然后观测是否存在需重新设置
Figure GDA0003510099400000061
取值范围的特殊情况,即是否存在检测到的网吧在线客户端安装数最大值
Figure GDA0003510099400000062
的上限10的情况;
(4a)若检测到的网吧在线客户端安装数最大值<10时,在剔除异常网吧在线客户端安装数的样本值后,先将
Figure GDA0003510099400000063
的上限改为检测到的网吧在线客户端安装数最大值,然后再使用非线性最小二乘模型进行网吧安装率P估算;
(4b)若检测到的网吧在线客户端安装数最大值≥10时,在剔除异常网吧在线客户端安装数的样本值后,即可使用非线性最小二乘模型进行网吧安装率P估算;
步骤四、使用非线性最小二乘模型:
Figure GDA0003510099400000071
式中y表示网吧在线客户端检测数,x表示网吧在线客户端安装数,
Figure GDA0003510099400000072
表示白名单数,β表示网吧在线客户端安装数增加一个网吧在线客户端检测数增加的个数;
在参数约束的情况下,通过最小化损失函数
Figure GDA0003510099400000073
求得
Figure GDA0003510099400000074
和β的估计值
Figure GDA0003510099400000075
Figure GDA0003510099400000076
估计得到的
Figure GDA0003510099400000077
即代表白名单数的最优估计值,估计得到的
Figure GDA0003510099400000078
即代表网吧安装率的最优估计值,即
Figure GDA0003510099400000079
步骤三中,剔除异常网吧在线客户端安装数的样本值的具体方法如下:
(1)根据获取到的网吧在线客户端安装数的样本分布图,计算网吧在线客户端安装数的样本分布偏度值skew,判断网吧在线客户端安装数的样本分布是否出现极度右偏的情形,所述右偏表示偏度值skew>0时;
(2)当偏度值0<skew<4时,不做处理;
(3)当偏度值skew>4时,表示网吧在线客户端安装数出现了极度右偏的情况,需进行极大值处理,即将网吧在线客户端安装数在99%分位数以上的样本值当作异常值剔除。
步骤四中,所述白名单数为不能安装网吧客户端软件的客户端设备数,其数量少且打开的个数较固定,不会随一天24小时的变化而大幅波动;所述网吧在线客户端安装数为检测到的网吧安装有客户端软件的电脑数,其能随一天24小时的网吧人数变化而变动;所述网吧在线客户端检测数由网吧在线客户端安装数、网吧在线客户端未安装数、白名单数及手机数四部分组成。
下面论证上述使用非线性最小二乘模型估计安装率的过程:
在实际应用中,通常网吧在线客户端检测数由四部分组成,即网吧在线客户端安装数+网吧在线客户端未安装数+白名单数+手机数;
在满足上述步骤一中设定条件即:假设1:网吧安装的客户端分布随机,假设2:上网的人无成群结队,座位的选择随机;在满足假设1和假设2时,网吧在线客户端安装数与网吧在线客户端未安装数近似成比例关系,即网吧在线客户端安装数与未安装数成比例关系。假设2保证了先后来上网的人的座位选择随机且不相互干扰,假设1和假设2保证了每次来网吧上网的人座到安装有客户端的电脑概率相同,这样就可以通过监测网吧在线客户端检测数和安装数大致估算出网吧安装率P,以下为具体论证:
(1)假设网吧安装率为P,网吧总共有N台电脑,有M台安装了客户端,在客户端分布随机和座位选择随机的假设下,则可计算出来网吧上网的第一个人坐上安装有客户端的电脑的概率:
Figure GDA0003510099400000081
第二个人坐上安装有客户端的电脑的概率:
Figure GDA0003510099400000082
第三个人坐上安装有客户端的电脑的概率:
Figure GDA0003510099400000083
以此类推,即可得到每个来网吧上网的人坐上安装有客户端的电脑的概率均为M/N,也即得出网吧安装率P≈M/N。
(2)假设现有n人来网吧上网,有x人坐上了安装有客户端的电脑,其中,x服从二项分布,x~B(n,P),则x可能取值为0、1、2…n,而x取值为k的概率为:
Figure GDA0003510099400000084
因通过网吧路由器对网吧进行监控,能实时获取到网吧在线客户端检测数及在线安装客户端的电脑数;而x表示坐上安装有客户端的电脑的人数,也即在线客户端安装数,其取值为一个随机事件,可能为0~n之间的任何一种取值;而实时采集到的网吧在线客户端安装数即为x的一次实际观测值。根据概率论中的大概率事件,概率最大的最可能被观测到,也即采集到的在线客户端安装数对应的事件概率近似为最大值,而根据比值推导法x=k=(n+1)p时概率最大,也即网吧在线客户端安装数x≈(n+1)P时发生概率最大(最可能发生),故认为上网人数n≈X/P=在线客户端安装数/P,而上网人数n包括坐上安装客户端电脑的人和坐上未安装客户端电脑的人,故可认为网吧在线客户端安装数+网吧在线客户端未安装数≈网吧在线客户端安装数/P。
其中,比值推导法公式为:P(x=k)/P(x=k-1)=(n-k+1)p/k(1-p),
当(n-k+1)p>k(1-p),即k<(n+1)p时,P(x=k)函数单调递增;
当k>(n+1)p时,P(x=k)函数单调递减;
故得出,当k=(n+1)p时概率最大。
(3)综合上述论证步骤(1)和(2)即可知,网吧在线客户端检测数=白名单数+手机数+网吧在线客户端安装数+网吧在线客户端未安装数=白名单数+手机数+网吧在线客户端安装数/P;因白名单为网吧的收银机、服务器等量少且不会经常开机关机的设备,故每次采集的检测数中固定包含一部分不变或近似少量波动的白名单个数,也即常数。故而在不考虑手机直连路由器的情况下,网吧在线客户端检测数=白名单数+网吧在线客户端安装数+网吧在线客户端未安装数=白名单数+网吧在线客户端安装数/P,据此即可得到网吧在线客户端检测数与网吧在线客户端安装数的一元线性回归等式关系即:
Figure GDA0003510099400000091
式中,
Figure GDA0003510099400000092
表示白名单数,β表示1/P,y表示网吧在线客户端检测数,x表示网吧在线客户端安装数;
(4)使用非线性最小二乘模型求解最小化损失函数
Figure GDA0003510099400000101
得出
Figure GDA0003510099400000102
和β的最优估计取值,即可得到网吧客户端安装率P的最优估计取值≈1/β。
上述步骤(1)~(3)主要用于证明上网人数=安装数/p,而在不考虑手机的情况下,检测数=白名单数+上网人数(安装数+未安装数),因上网人数与安装数成比例关系,则网吧在线客户端检测数=白名单数+网吧在线客户端安装数/p,即在以上假设条件下,证明了可以使用一元线性回归模型,去估计网吧安装率P。
下面从白名单数、安装数、检测数的特征出发解释使用非线性最小二乘模型去估计网吧安装率的原因:
白名单的特征:数量少且打开的个数较固定,不会随一天24小时的变化而大幅波动。
检测数和安装数的特征:由于来网吧上网的人数会随一天24小时变动,故在安装率一定的情况下,来上网的人越多,监测到的检测数也越多,坐上安装有客户端的电脑的人数也越多,检测数与安装数之间存在一定的正向影响关系。
在无手机直连路由器的情况下,检测数=白名单数+安装数+未安装数,而在假设1、假设2的情况下:上网人数≈安装数/P,也即(安装数+未安装数)与安装数接近比例关系,故检测数=白名单数+β×安装数,白名单可以理解为固定不变的常数或者近似少量波动的常数,该等式关系即为一元线性回归:
Figure GDA0003510099400000103
Figure GDA0003510099400000104
使用最小二乘法计算出
Figure GDA0003510099400000105
和β,进而得到网吧客户端安装率P的估算值即
Figure GDA0003510099400000106
通常在实际应用中,在网吧客户端无安装时,无需计算
Figure GDA0003510099400000107
和β,可以直接给网吧安装率为0;而对于有安装客户端的网吧,不同程度的安装率在一元线性回归等式中β具有不同的表现,其具体如下:
当网吧的电脑全部安装客户端时,通过非线性最小二乘模型计算得到的β≈1,也即新增一个网吧在线客户端安装数就新增一个网吧在线客户端检测数,网吧在线客户端检测数的增加全部源于网吧在线客户端安装数。
当网吧的电脑非全部安装客户端时,通过非线性最小二乘模型计算得到的β>1,也即新增一个网吧在线客户端安装数,会增加β个网吧在线客户端检测数,而β×安装数=上网人数,故新增一个网吧在线客户端安装数,会新增β个上网人数,故1/β可以看做客户端安装率。
另外,因业务应用需要,
Figure GDA0003510099400000111
作为白名单的个数必须非负且取值不能太高,通过对网吧客户端进行监控,经人工验证,一般实时在线的白名单个数在10个以内,故约束
Figure GDA0003510099400000112
的下限和上限分别为0、10。
而根据上述一元线性回归等式关系,可知β表示安装数增加一个检测数增加的个数,从业务逻辑上说,网吧在线客户端检测数包含在线客户端安装数,故β一定大于或等于1;在正常情况下使用上述最小二乘法模型求解的β也一定会大于或等于1,但对于某些特殊情况,如安装数取值个数变异不足,会导致求得的β值具有一定的偶然性,会出现小于1甚至小于0的情况,故约束β≥1。
在实际应用中,
Figure GDA0003510099400000113
Figure GDA0003510099400000114
的等式关系进行估计之前,通常需要先了解网吧在线客户端安装数的分布,以判断是否存在一些异常网吧在线客户端安装数需要处理:
因为在实际情况中,除了高峰期上网人数较多时才会采集到较多的网吧在线客户端安装数,大多时候网吧在线客户端安装数是较少的,也即低安装数的概率会更高些,而不太可能出现采集到的安装数大部分很高,而少量的很低。也即安装数不太可能出现“左偏”分布,因左偏表示仅少量的安装数很小,导致安装数分布左边有拖尾。故网吧客户端安装数大部分呈现“近似正态”或“右偏”分布。
故只需对“右偏”分布进行极大值的处理,而“近似正态”分布并不进行异常值的处理,因“近似正态分布”可理解为并不存在离群值,而“右偏”分布就是存在一些极大值远远脱离于其它值,处于一种离群的状态。
根据网吧在线客户端安装数的样本分布计算偏度值skew,判断网吧在线客户端安装数的分布情况;其中偏度值skew的计算公式如下:
Figure GDA0003510099400000121
当skew<0时表示“左偏”,skew值越小,表示左偏越严重,有更少量的安装数数值很小,使得安装数分布的左侧尾部拖得很长,也即左边更离群,但实际网吧在线客户端安装数并不存在偏度值skew为负且很小;
当skew>0时,表示“右偏”,skew值越大,表示右偏越严重,有更少量的安装数数值很大,使得安装数分布的右侧尾部拖得很长,也即右边更离群。
故skew值越大,安装数越存在极大的离群值。通过对大量的网吧计算安装数偏度值并经统计分析,发现计算出的偏度值中存在一些较大的且大概以4为临界点,故将偏度值skew>4的作为“右偏”较严重的分布,即网吧存在一些极大的安装数。需要对极大的安装数进行处理,也即进行异常值处理,本发明采用较简单方法,直接将安装数99%分位数以上的值当作异常值,进行剔除。
因使用非线性最小二乘模型计算网吧安装率,要求样本个数>待估参数,且自变量具有变异性。故对样本个数不足、取值变异不足的网吧单独给定安装率的值,具体情况如下:
(1)对于检测到的网吧在线客户端安装数一直在[0,1]之间取值的网吧,即为网吧在线客户端安装数最大值≤1的情形,则直接认为网吧安装率=0,原因在于:网吧在线客户端安装数在0和1之间取值,基本是大多采集到0,偶尔出现1,本身说明安装的很少。另外采集到的网吧在线客户端安装数为1时的网吧在线客户端检测数的大小,直接影响使用最小二乘模型估计到的β的正负,结果会很不稳定。故赋值安装率为0。
(2)对于网吧在线客户端安装数最大值>1且网吧数据采集次数≤2的网吧,则给网吧安装率赋值-1,代表无法估计,其原因是样本量不足。
(3)对于网吧在线客户端安装数取值变异个数≤1的网吧,网吧安装率也赋值-1,因安装数无变异无法估计、且过少的变异会导致偶然的回归结果。
其中,网吧在线客户端安装数的取值变异个数表示网吧在线客户端安装数不同的取值个数,例如:采集到的网吧在线客户端安装数取值全部0,则表示变异个数为1,若采集到的网吧在线客户端安装数取值有0、1、2、3、4这五种情形时,则表示变异个数为5。
综上所述,只有满足网吧在线客户端安装数最大值>1且网吧数据采集次数>2同时网吧在线客户端安装数的取值变异个数>1时,才使用本发明提供的非线性最小二乘模型,估计网吧安装率。
下面介绍网吧客户端安装率的计算流程如下:
第一步,计算网吧客户端安装数的偏度值skew,用于判断是否极度“右偏”;
第二步,对于偏度值skew>4的网吧,剔除网吧在线客户端安装数大于99%分位数的样本;对于偏度值≤4的网吧,不做极大值处理;处理极大值的原因是安装数极大值会导致β的估计值变低,安装率1/β的估计变高。
第三步,在极大值处理完后,对一些特殊情况,需重新设置
Figure GDA0003510099400000141
的范围,因为
Figure GDA0003510099400000142
作为白名单,上限不能超过10,但是有的网吧采集的网吧在线客户端安装数的最大值都不大于10,若以10作为
Figure GDA0003510099400000143
的上限,则可能估算出的
Figure GDA0003510099400000144
大于安装数最大值,而估算的β小于0的不合理情况。故对于网吧在线客户端安装数最大值小于10的,
Figure GDA0003510099400000145
上限改为网吧在线客户端安装数最大值,而对于网吧在线客户端安装数最大值大于10的,
Figure GDA0003510099400000146
上限设置为10,对于β的范围依然为β≥1。
第四步,使用非线性最小二乘模型估计
Figure GDA0003510099400000147
和β,得到网吧安装率P的估计值1/β。
以下展示在某一天同时监测到的两类网吧,分别在如下情形下,使用非线性最小二乘模型,测算网吧安装率结果:
第一类网吧:如图1所示,网吧在线客户端安装数接近网吧在线客户端检测数;使用非线性最小二乘模型通过对损失函数
Figure GDA0003510099400000148
最小化计算出的该网吧在线客户端检测数与安装数的等式关系为:网吧在线客户端检测数=5.835+1.008*网吧在线客户端安装数;
对于这类安装率较高并且无手机的网吧,除去白名单外的检测数基本等于安装数,也即新增一个安装数就新增一个检测数,β接近于1,并且散点图如图2所示,会发现散点会紧紧围绕β≈1的直线;这是因为未安装的比例越少,对散点图造成的波动也越小;在本情形下,该网吧的安装率为1/1.008=99%。
第二类网吧:如图3所示,网吧在线客户端检测数大于安装数时;使用非线性最小二乘模型通过对损失函数
Figure GDA0003510099400000151
最小化计算出的该网吧在线客户端检测数与安装数的等式关系为:网吧在线客户端检测数=10+2.421*网吧在线客户端安装数;
对于这类安装率较低的网吧,系数β会大于1,并且因未安装的比例较大,散点图并不会紧紧围绕一条斜率线,而是在斜率线附近有较大的波动,如图4所示;如果有手机的影响,这种波动会更大,但因手机问题复杂且属于特殊情况,所以本发明并不考虑手机的影响,故β×安装数仅当做包含安装数和未安装数的影响。在本情形下,该网吧的安装率为1/2.421=42%。
最后说明,以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (2)

1.基于非线性最小二乘模型测算网吧安装率的方法,其特征在于,包括如下步骤:
步骤一、设定网吧安装的客户端分布随机,来上网的人无成群结队,座位的选择随机;
步骤二、通过实时打点的方式每隔固定时间采集一次网吧在线客户端检测数和安装数,经过n次采集后,获取样本量为n的网吧在线客户端检测数和安装数的数据,绘制网吧在线客户端安装数样本分布图并计算网吧在线客户端安装数样本分布的偏度值skew,其中n>2;
步骤三、根据步骤二的网吧在线客户端安装数样本分布图和计算出的网吧在线客户端安装数样本分布偏度值skew,了解网吧在线客户端安装数的样本分布情况,判断是否存在异常网吧在线客户端安装数需要处理的情况,并同时对网吧在线客户端安装数的取值变异个数≤1、网吧在线客户端安装数最大值不大于1的网吧给予特殊赋值;其中,网吧在线客户端安装数的取值变异个数表示网吧在线客户端安装数不同的取值个数;
(1)当网吧在线客户端安装数的取值变异个数≤1时,给予网吧安装率赋值-1;
(2)当网吧在线客户端安装数最大值≤1时,给予网吧安装率赋值0;
(3)当网吧在线客户端安装数的取值变异个数>1且网吧在线客户端安装数最大值>1且无异常网吧在线客户端安装数需处理时,直接使用非线性最小二乘模型估算网吧安装率P;
(4)当网吧在线客户端安装数的样本取值变异个数>1且网吧在线客户端安装数最大值>1且同时存在异常网吧在线客户端安装数需处理时,先剔除异常网吧在线客户端安装数的样本值,然后观测是否存在需重新设置
Figure FDA0003510099390000011
取值范围的特殊情况,即是否存在检测到的
Figure FDA0003510099390000012
的上限10的情况;
(4a)若检测到的网吧在线客户端安装数最大值<10时,在剔除异常网吧在线客户端安装数的样本值后,先将
Figure FDA0003510099390000021
的上限改为检测到的网吧在线客户端安装数最大值,然后再使用非线性最小二乘模型进行网吧安装率P估算;
(4b)若检测到的网吧在线客户端安装数最大值≥10时,在剔除异常网吧在线客户端安装数的样本值后,即可使用非线性最小二乘模型进行网吧安装率P估算;
步骤四、使用非线性最小二乘模型:
Figure FDA0003510099390000022
式中y表示网吧在线客户端检测数,x表示网吧在线客户端安装数,
Figure FDA0003510099390000023
表示白名单数,β表示网吧在线客户端安装数增加一个网吧在线客户端检测数增加的个数;
在参数约束的情况下,通过最小化损失函数
Figure FDA0003510099390000024
求得
Figure FDA0003510099390000025
和β的估计值
Figure FDA0003510099390000026
Figure FDA0003510099390000027
估计得到的
Figure FDA0003510099390000028
即代表白名单数的最优估计值,估计得到的
Figure FDA0003510099390000029
即代表网吧安装率的最优估计值,即
Figure FDA00035100993900000210
所述白名单数为不能安装网吧客户端软件的客户端设备数;所述网吧在线客户端安装数为检测到的网吧安装有客户端软件的电脑数;所述网吧在线客户端检测数由网吧在线客户端安装数、网吧在线客户端未安装数、白名单数及手机数四部分组成。
2.根据权利要求1所述的基于非线性最小二乘模型测算网吧安装率的方法,其特征在于,步骤三中,剔除异常网吧在线客户端安装数的样本值的具体方法如下:
(1)根据获取到的网吧在线客户端安装数的样本分布图,计算网吧在线客户端安装数的样本分布偏度值skew,判断网吧在线客户端安装数的样本分布是否出现极度右偏的情形,所述右偏表示偏度值skew>0时;
(2)当偏度值0<skew<4时,不做处理;
(3)当偏度值skew>4时,表示网吧在线客户端安装数出现了极度右偏的情况,需进行极大值处理,即将网吧在线客户端安装数在99%分位数以上的样本值当作异常值剔除。
CN201810839017.4A 2018-07-27 2018-07-27 基于非线性最小二乘模型测算网吧安装率的方法 Active CN109117449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810839017.4A CN109117449B (zh) 2018-07-27 2018-07-27 基于非线性最小二乘模型测算网吧安装率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810839017.4A CN109117449B (zh) 2018-07-27 2018-07-27 基于非线性最小二乘模型测算网吧安装率的方法

Publications (2)

Publication Number Publication Date
CN109117449A CN109117449A (zh) 2019-01-01
CN109117449B true CN109117449B (zh) 2022-04-15

Family

ID=64863641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810839017.4A Active CN109117449B (zh) 2018-07-27 2018-07-27 基于非线性最小二乘模型测算网吧安装率的方法

Country Status (1)

Country Link
CN (1) CN109117449B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797143B (zh) * 2020-07-07 2023-12-15 长沙理工大学 基于用电量统计分布偏度系数的水产养殖业窃电检测方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916241A (zh) * 2010-08-06 2010-12-15 北京理工大学 一种基于时频分布图的时变结构模态频率辨识方法
CN102280884A (zh) * 2011-08-26 2011-12-14 华中科技大学 一种电网等值方法
CN102693229A (zh) * 2011-03-22 2012-09-26 腾讯科技(深圳)有限公司 软件分析方法、推荐方法、分析装置及推荐装置
KR20130117914A (ko) * 2012-04-18 2013-10-29 전북대학교산학협력단 수정 마쿼트 알고리즘을 이용한 데이터 피팅 방법
CN103581155A (zh) * 2012-08-08 2014-02-12 贵州电网公司信息通信分公司 信息安全态势分析方法与系统
CN104717107A (zh) * 2015-03-27 2015-06-17 北京奇虎科技有限公司 网络设备探测的方法、装置及系统
CN104899919A (zh) * 2015-05-19 2015-09-09 武汉变色龙数据科技有限公司 一种建模方法及装置
US9311481B1 (en) * 2014-09-15 2016-04-12 Symantec Corporation Systems and methods for classifying package files as trojans
CN106022609A (zh) * 2016-05-19 2016-10-12 中国建设银行股份有限公司河北省分行 一种大中型企业员工办公计算机信息安全综合分析和管理的方法
CN106021710A (zh) * 2016-05-13 2016-10-12 南京航空航天大学 基于大气电离层参数的震前卫星轨道异常识别方法
CN107463395A (zh) * 2016-06-03 2017-12-12 腾讯科技(深圳)有限公司 组件调用方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7680868B2 (en) * 2005-12-20 2010-03-16 Roche Molecular Systems, Inc. PCR elbow determination by use of a double sigmoid function curve fit with the Levenburg-Marquardt algorithm and normalization

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916241A (zh) * 2010-08-06 2010-12-15 北京理工大学 一种基于时频分布图的时变结构模态频率辨识方法
CN102693229A (zh) * 2011-03-22 2012-09-26 腾讯科技(深圳)有限公司 软件分析方法、推荐方法、分析装置及推荐装置
CN102280884A (zh) * 2011-08-26 2011-12-14 华中科技大学 一种电网等值方法
KR20130117914A (ko) * 2012-04-18 2013-10-29 전북대학교산학협력단 수정 마쿼트 알고리즘을 이용한 데이터 피팅 방법
CN103581155A (zh) * 2012-08-08 2014-02-12 贵州电网公司信息通信分公司 信息安全态势分析方法与系统
US9311481B1 (en) * 2014-09-15 2016-04-12 Symantec Corporation Systems and methods for classifying package files as trojans
CN104717107A (zh) * 2015-03-27 2015-06-17 北京奇虎科技有限公司 网络设备探测的方法、装置及系统
CN104899919A (zh) * 2015-05-19 2015-09-09 武汉变色龙数据科技有限公司 一种建模方法及装置
CN106021710A (zh) * 2016-05-13 2016-10-12 南京航空航天大学 基于大气电离层参数的震前卫星轨道异常识别方法
CN106022609A (zh) * 2016-05-19 2016-10-12 中国建设银行股份有限公司河北省分行 一种大中型企业员工办公计算机信息安全综合分析和管理的方法
CN107463395A (zh) * 2016-06-03 2017-12-12 腾讯科技(深圳)有限公司 组件调用方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Cumulative Rainfall Function for Subhourly Design Storm in Mediterranean Urban Areas;Marco Carbone et al.;《Advances in Meteorology》;20151231;第1-11页 *
非线性回归模型参数估计方法研究——以C-D生产函数为例;叶宗裕;《统计与信息论坛》;20100131;第25卷(第1期);第41-45页 *

Also Published As

Publication number Publication date
CN109117449A (zh) 2019-01-01

Similar Documents

Publication Publication Date Title
EP3467661B1 (en) Systems and methods for robust anomaly detection
US10554526B2 (en) Feature vector based anomaly detection in an information technology environment
CN105049291B (zh) 一种检测网络流量异常的方法
US8874649B2 (en) Determination of a spammer through social network characterization
CN110233860B (zh) 一种负载均衡方法、装置和系统
CN108183950B (zh) 一种网络设备建立连接的方法及装置
CN109005085B (zh) 一种服务可用性监控系统、方法、装置及设备
CN109617868B (zh) 一种ddos攻击的检测方法、装置及检测服务器
CN103533016A (zh) 一种宽带网络测速及智能分析系统
Cheminod et al. Performance evaluation and modeling of an industrial application-layer firewall
Liu et al. A queueing-theoretic foundation of available bandwidth estimation: single-hop analysis
CN112015557A (zh) 资源调整方法、装置和服务器
EP3343421A1 (en) System to detect machine-initiated events in time series data
CN107306200B (zh) 网络故障预警方法和用于网络故障预警的网关
CN109117449B (zh) 基于非线性最小二乘模型测算网吧安装率的方法
US20090240476A1 (en) Method and device for forecasting computational needs of an application
Hamidi et al. The Implementation of Alert System for LAN Network Monitoring Using the Dude Based Email
EP3460769B1 (en) System and method for managing alerts using a state machine
US10936401B2 (en) Device operation anomaly identification and reporting system
CN113901441A (zh) 一种用户异常请求检测方法、装置、设备及存储介质
CN105245591A (zh) 一种桌面云性能体验的监控方法及系统
CN113746790A (zh) 一种异常流量管理方法、电子设备及存储介质
Borisov et al. Filtering of the Markov jump process given the observations of multivariate point process
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统
CN109508356B (zh) 数据异常预警方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant