CN116389108A - Ab实验方法、系统与存储介质 - Google Patents

Ab实验方法、系统与存储介质 Download PDF

Info

Publication number
CN116389108A
CN116389108A CN202310345343.0A CN202310345343A CN116389108A CN 116389108 A CN116389108 A CN 116389108A CN 202310345343 A CN202310345343 A CN 202310345343A CN 116389108 A CN116389108 A CN 116389108A
Authority
CN
China
Prior art keywords
flow
experiment
time
real
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310345343.0A
Other languages
English (en)
Other versions
CN116389108B (zh
Inventor
麻锦欣
张柏强
陈铁成
吴大卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Nuohe Network Technology Co ltd
Original Assignee
Hangzhou Nuohe Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Nuohe Network Technology Co ltd filed Critical Hangzhou Nuohe Network Technology Co ltd
Priority to CN202310345343.0A priority Critical patent/CN116389108B/zh
Publication of CN116389108A publication Critical patent/CN116389108A/zh
Application granted granted Critical
Publication of CN116389108B publication Critical patent/CN116389108B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Automatic Analysis And Handling Materials Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种AB实验方法,属于互联网技术领域,具体包括:基于AB实验所对应的网站类型以及业务类型,并结合实时流量的流量特征实现对异常流量的筛选,并至少基于所述异常流量在所述实时流量的流量占比、持续时间确定不需要暂停实验时,基于实时流量与异常实时流量进行可靠流量的确定,并当可靠流量的数据量存在异常的持续时间确定需要异常评估时,至少基于可靠流量在预设时间内的数据量以及变动量、可靠流量的数据量存在异常的持续时间确定流量特征值,并基于流量特征值确定不需要暂停实验时,基于实时流量生成实验结果,并基于实验结果进行实时显示,从而进一步提升了实验结果的准确性和显著性。

Description

AB实验方法、系统与存储介质
技术领域
本发明属于互联网技术领域,尤其涉及一种AB实验方法、系统与存储介质。
背景技术
AB实验是为应用或者系统搭建两个版本,通过对测试用户的数据的收集,从而得到一个业务指标最好的版本,因此为了满足AB实验的结果的实时显示以及异常的处理,在发明专利授权公告号CN110019072B《基于实时数据的AB实验方法及系统》中通过按照历史数据对真实指标数据进行校验,并当异常次数大于设定值之后自动进行熔断,并通过对数据的聚合,实现了实验数据的实时展示,但是却忽视了对于异常流量的识别,例如对于购物网站而言,若存在大量不属于该购物网站的服务范围的异常流量,若不能将上述异常流量或者无效流量排除在外,则会使得最终的筛选结果的准确度受到影响,同时仅仅依靠单一的历史数据进行真实指标数据的筛选其准确程度也无法满足要求,同样的对于购物网站而言,不同的时间段内,其在单位时间内的流量或者订单数量往往是不同的,特别是凌晨或者活动期间的数据,因此若仅仅结合历史数据,同样会使得最终的筛选结果的准确度受到影响。
针对上述技术问题,本发明提供了一种AB实验方法、系统与存储介质。
发明内容
根据本发明的一个方面,提供了一种AB实验方法。
一种AB实验方法,其特征在于,具体包括:
S11基于预设频率获取AB实验的实时日志,并基于所述实时日志进行解析得到实时流量以及所述实时流量的流量特征;
S12基于所述AB实验所对应的网站类型以及业务类型,并结合所述实时流量的流量特征实现对异常流量的筛选,并至少基于所述异常流量在所述实时流量的流量占比、持续时间确定流量异常值,并基于所述流量异常值确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入步骤S13;
S13基于所述实时流量与所述异常实时流量进行可靠流量的确定,并当所述可靠流量的数据量存在异常的持续时间确定是否需要异常评估,若是,则进入步骤S14,若否,则进入步骤S15;
S14至少基于所述可靠流量在预设时间内的数据量以及变动量、可靠流量的数据量存在异常的持续时间确定流量特征值,并基于所述流量特征值确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入步骤S15;
S15基于所述实时流量生成实验结果,并基于所述实验结果进行实时显示。
通过结合基于所述AB实验所对应的网站类型以及业务类型,并结合所述实时流量的流量特征实现对异常流量的筛选,从而实现了对异常流量的准确筛选,减少了异常流量对最终的实验结果的准确性的影响,在保证实验效率的基础上,保证了最终的实验结果的准确性和显著性。
通过基于所述异常流量在所述实时流量的流量占比、持续时间确定流量异常值,并基于所述流量异常值确定是否需要暂停实验,从而实现了从异常流量的角度实现了对AB实验的异常运行状态的评估,进一步提升了实验的准确性和效率,同时也避免了由于数据失真导致的显著性下降的问题的出现。
通过至少基于所述可靠流量在预设时间内的数据量以及变动量、可靠流量的数据量存在异常的持续时间确定流量特征值,并基于所述流量特征值确定是否需要暂停实验,从而保证了可靠流量的数据量存在异常的数据量较长的情况下的AB实验的可靠流量的真实情况的准确评估,从而进一步保障饿了实验结果的准确性和显著性。
另一方面,本申请实施例中提供一种计算机系统,包括:通信连接的存储器和处理器,以及存储在所述存储器上并能够在所述处理器上运行的计算机程序,其特征在于:所述处理器运行所述计算机程序时执行上述的一种AB实验方法。
另一方面,本发明提供了一种计算机存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述的一种AB实验方法。
其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1是根据实施例1的一种AB实验方法的流程图;
图2是根据实施例1的异常流量的筛选的流程图;
图3是根据实施例1的流量异常值评估的具体步骤的流程图;
图4是根据实施例1的流量特征值确定的具体步骤的流程图;
图5是根据实施例2的一种计算机系统的框架图;
图6是根据实施例3的一种计算机存储介质的结构图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。图中相同的附图标记表示相同或类似的结构,因而将省略它们的详细描述。
用语“一个”、“一”、“该”、“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等。
实施例1
为解决上述问题,根据本发明的一个方面,如图1所示,提供了根据本发明的一个方面,提供了一种AB实验方法,其特征在于,具体包括:
S11基于预设频率获取AB实验的实时日志,并基于所述实时日志进行解析得到实时流量以及所述实时流量的流量特征;
需要说明的是,所述预设频率根据所述AB实验的实时性要求进行动态确定,具体的取值范围不得大于2小时一次。
具体的举例说明,根据AB实验的进行阶段的不同,其实时性要求也不尽相同,例如在前20%的阶段,此时实验不是很稳定,因此可以将预设频率设置为30分钟、10分钟等时间较短的时间段进行采集频率的设置,而在实验的后期,此时的实验已经相对稳定,例如后20%的阶段,此时设置为2小时一次、1小时30分钟一次等。
需要说明的是,所述流量特征包括但不限于时间、IP、用户访问终端标识,具体的根据所述日志的解析结果进行确定。
S12基于所述AB实验所对应的网站类型以及业务类型,并结合所述实时流量的流量特征实现对异常流量的筛选,并至少基于所述异常流量在所述实时流量的流量占比、持续时间确定流量异常值,并基于所述流量异常值确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入步骤S13;
具体的举例说明,如图2所示,所述异常流量根据所述AB实验所对应的网站类型以及业务类型进行确定,具体的:
基于所述AB实验所对应的网站类型以及业务类型确定所述AB实验的受众群体;
需要说明的是,所述AB实验所对应的网站类型为购物网站时,其受众范围为IP地址在特定地址内的人群,具体的根据所述购物网站的配送范围等进行确定。
基于所述实时流量的流量特征确定所述实时流量的用户并不属于所述AB实验的受众群体时,则将所述实时流量作为异常流量。
具体的举例说明,如图3所示,所述流量异常值评估的具体步骤为:
S21基于所述异常流量的持续时间确定是否潜在的实验失真风险,若是,则进入步骤S22,若否,则无需进行流量异常值的评估,不需要暂停实验;
可以理解的是,当异常流量的持续时间大于一定的时长之后,则确定存在潜在的实验失真风险,因此需要进行流量异常值的评估。
S22在所述持续时间内,基于所述异常流量在所述实时流量的流量占比的平均值确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入步骤S23;
可以理解的是,当该平均值大于70%以上时,则说明实验受到了不必要的影响,实验结果也肯定不能准确反应实际情况,因此需要暂停实验或者输出告警信号。
S23在所述持续时间内,获取所述异常流量的数据量,并基于所述数据量确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入步骤S24;
S24基于所述异常流量的持续时间,持续时间内所述异常流量在所述实时流量的流量占比以及所述异常流量的数据量,确定所述流量异常值。
需要说明的是,所述流量异常值采用基于DEH-SSA-BP神经网络的模型进行构建,具体的其构建步骤为:
步骤1:初始化算法的所有相关参数。包括BP神经网络各层的神经元数量以及网络包含的各项参数,并根据确定的网络的结构依据上述编码方式对麻雀个体的维度D进行编码;还包括麻雀的种群数n,最大的迭代次数T,种群当中分别作为发现者PD和警戒者SD的比例以及警戒阈值ST,DE算法的缩放因子F、交叉概率CR;
步骤2:确定适应度函数并通过反向学习对麻雀种群进行初始化,个体适应度值计算,逐个择优个体作为初始种群;种群当中的个体数分别对应BP神经网络的一组权值和偏置;
步骤3:将种群个体解码作为网络的权值和偏置,然后将训练的数据样本输入网络进行训练并对个体进行适应度值计算;
步骤4:对个体位置进行迭代更新,然后条件判断是否达到最大迭代次数的终止条件,是则记录最优个体,并对其解码输出,否则返回步骤3。
步骤5:通过输出的最优个体对网络进行初始化,随即对DEH-SSA-BP网络模型进行训练和验证,并根据验证结果确定模型,并根据该模型进行结果的输出。
需要说明的是,麻雀搜索算法作为一种新型的群智能优化算法,由于该算法拥有参数较少、较好的鲁棒性、优化效果较强等优点被越来越广泛的应用于实际工程问题中。然而,SSA在搜索后期仍存在易陷入局部最优、收敛速度和精度仍有限、稳定性差等缺陷,存在的这些问题不仅仅是仅限于麻雀搜索算法,而是一般群智能优化算法都普遍性存在的问题。该如何协调权衡算法的局部和全局搜索能力就成了麻雀搜索算法和其他群智能优化算法克服的关键难点。
针对SSA存在收敛速度慢、稳定性差和易陷入局部最优的问题,本发明在认真研究这些改进算法的优化方法基础上,将采用反向学习的方法初始化以增加麻雀搜索算法种群的多样性,然后引入非线性权重因子改进麻雀发现者的位置更新公式,更好的平衡麻雀搜索算法的局部和全局搜索能力,加快算法收敛速度,最后融入差分进化算法和精英策略对算法的收敛精度和全局搜索能力加以提升,从而提出了融合差分进化和混合多策略的麻雀搜索算法(DEH-SSA)。
为提升麻雀搜索算法局部的寻优能力,引入精英策略在第t次迭代后得到的当前最优解best附近产生符合正态分布的随机数Q,取值在0到1之间,具体的计算公式如下所示:
Figure BDA0004159483440000051
其中
Figure BDA0004159483440000052
为在第t代迭代时的第i个个体的第j维位置,Tmax为最大迭代次数。
通过对SSA算法的原理模型进行实验分析,SSA在迭代求解的过程中,种群中的发现者作为相对较优位置个体,它的位置更新对自身位置的依赖性较强,导致算法迭代前期的搜索能力不足和收敛速度过慢;而在迭代后期又会导致陷入局部极值点。由此,引入非线性权重因子来改进种群中发现者的位置更新公式以平衡算法的局部和全局的搜索能力,同时改善算法的收敛速度。算法迭代前期,应降低发现者个体对于自身位置的依赖性,以获取更大的解空间并提升全局优化能力;迭代后期,应加大对自身位置的依赖程度,以提高收敛速度。非线性权重因子公式为:
Figure BDA0004159483440000061
此时对发现者位置更新公式进行简化和改进为:
Figure BDA0004159483440000062
其中R2和ST分别是预警值和预警阈值。
在本实施例中,通过结合基于所述AB实验所对应的网站类型以及业务类型,并结合所述实时流量的流量特征实现对异常流量的筛选,从而实现了对异常流量的准确筛选,减少了异常流量对最终的实验结果的准确性的影响,在保证实验效率的基础上,保证了最终的实验结果的准确性和显著性。
在本实施例中,通过基于所述异常流量在所述实时流量的流量占比、持续时间确定流量异常值,并基于所述流量异常值确定是否需要暂停实验,从而实现了从异常流量的角度实现了对AB实验的异常运行状态的评估,进一步提升了实验的准确性和效率,同时也避免了由于数据失真导致的显著性下降的问题的出现。
S13基于所述实时流量与所述异常实时流量进行可靠流量的确定,并当所述可靠流量的数据量存在异常的持续时间确定是否需要异常评估,若是,则进入步骤S14,若否,则进入步骤S15;
需要说明的是,所述可靠流量为所述实时流量中排除所述异常流量的剩余的实时流量,并当所述可靠流量的数据量小于设定数据量时,则确定所述可靠流量存在异常。
可以理解的是,当可靠流量的数据量存在异常的持续时间大于一定的时间时,则确定此时需要异常评估。
S14至少基于所述可靠流量在预设时间内的数据量以及变动量、可靠流量的数据量存在异常的持续时间确定流量特征值,并基于所述流量特征值确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入步骤S15;
需要说明的是,如图4所示,所述流量特征值确定的具体步骤为:
S31基于所述可靠流量在预设时间内的数据量确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入步骤S32;
S32基于所述可靠流量在预设时间内的不同采集时刻的数据量,得到所述可靠流量在预设时间内的数据量的波峰值和波谷值,并给予所述波峰值和波谷值构建变动量,并基于所述变动量确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入步骤S33;
S33基于所述可靠流量在预设时间内的不同采集时刻的数据量,得到所述可靠流量在预设时间内的数据量的差分中位数、波峰值与波谷值的时间距离,并基于所述变动量、差分中位数、波峰值与波谷值的时间距离、预设时间内的数据量,确定所述可靠流量的流量评估值,并基于所述流量评估值确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入步骤S34;
S34基于所述流量评估值以及所述可靠流量的数据量存在异常的持续时间确定流量特征值。
需要说明的是,该流量特征值的取值范围在0到1之间,其中其越大,则说明此时的异常程度越高。
需要说明的是,当所述流量特征值小于预设特征量时,则确定需要暂停实验。
在本实施例中,通过至少基于所述可靠流量在预设时间内的数据量以及变动量、可靠流量的数据量存在异常的持续时间确定流量特征值,并基于所述流量特征值确定是否需要暂停实验,从而保证了可靠流量的数据量存在异常的数据量较长的情况下的AB实验的可靠流量的真实情况的准确评估,从而进一步保障饿了实验结果的准确性和显著性。
S15基于所述实时流量生成实验结果,并基于所述实验结果进行实时显示。
为方便理解,本申请给出一个最佳的实施例:
根据AB实验的进行阶段的不同,进行预设频率的确定,并基于预设频率获取AB实验的实时日志,并基于所述实时日志进行解析得到实时流量以及所述实时流量的流量特征,其中流量特征包括但不限于时间、IP、用户访问终端标识;
基于所述AB实验所对应的网站类型以及业务类型确定所述AB实验的受众群体;
需要说明的是,所述AB实验所对应的网站类型为购物网站时,其受众范围为IP地址在特定地址内的人群,具体的根据所述购物网站的配送范围等进行确定。
基于所述实时流量的流量特征确定所述实时流量的用户并不属于所述AB实验的受众群体时,则将所述实时流量作为异常流量。
并至少基于所述异常流量在所述实时流量的流量占比、持续时间确定流量异常值,并基于所述流量异常值确定不需要暂停实验时,进入下一步骤;
基于所述实时流量与所述异常实时流量进行可靠流量的确定,所述可靠流量为所述实时流量中排除所述异常流量的剩余的实时流量,并当所述可靠流量的数据量小于设定数据量时,则确定所述可靠流量存在异常,需要进行异常评估;
至少基于所述可靠流量在预设时间内的数据量以及变动量、可靠流量的数据量存在异常的持续时间确定流量特征值,并基于所述流量特征值确定不需要暂停实验时,基于所述实时流量生成实验结果,并基于所述实验结果进行实时显示。
在另外一种可能的实施例中,所述流量特征值构建的具体步骤如图4所示,具体为:
S31基于所述可靠流量在预设时间内的数据量确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入步骤S32;
S32基于所述可靠流量在预设时间内的不同采集时刻的数据量,得到所述可靠流量在预设时间内的数据量的波峰值和波谷值,并给予所述波峰值和波谷值构建变动量,并基于所述变动量确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入步骤S33;
S33基于所述可靠流量在预设时间内的不同采集时刻的数据量,得到所述可靠流量在预设时间内的数据量的差分中位数、波峰值与波谷值的时间距离,并基于所述变动量、差分中位数、波峰值与波谷值的时间距离、预设时间内的数据量,确定所述可靠流量的流量评估值,并基于所述流量评估值确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入步骤S34;
S34基于所述流量评估值以及所述可靠流量的数据量存在异常的持续时间确定流量特征值。
需要说明的是,该流量特征值的取值范围在0到1之间,其中其越大,则说明此时的异常程度越高。
需要说明的是,当所述流量特征值小于预设特征量时,则确定需要暂停实验。
实施例2
如图5所示,本申请实施例中提供一种计算机系统,包括:通信连接的存储器和处理器,以及存储在所述存储器上并能够在所述处理器上运行的计算机程序,其特征在于:所述处理器运行所述计算机程序时执行上述一种AB实验方法。
其中所述一种AB实验方法具体包括:
根据AB实验的进行阶段的不同,进行预设频率的确定,并基于预设频率获取AB实验的实时日志,并基于所述实时日志进行解析得到实时流量以及所述实时流量的流量特征,其中流量特征包括但不限于时间、IP、用户访问终端标识;
基于所述AB实验所对应的网站类型以及业务类型确定所述AB实验的受众群体;
需要说明的是,所述AB实验所对应的网站类型为购物网站时,其受众范围为IP地址在特定地址内的人群,具体的根据所述购物网站的配送范围等进行确定。
基于所述实时流量的流量特征确定所述实时流量的用户并不属于所述AB实验的受众群体时,则将所述实时流量作为异常流量。
并至少基于所述异常流量在所述实时流量的流量占比、持续时间确定流量异常值,并基于所述流量异常值确定不需要暂停实验时,进入下一步骤;
基于所述实时流量与所述异常实时流量进行可靠流量的确定,所述可靠流量为所述实时流量中排除所述异常流量的剩余的实时流量,并当所述可靠流量的数据量小于设定数据量时,则确定所述可靠流量存在异常,需要进行异常评估;
至少基于所述可靠流量在预设时间内的数据量以及变动量、可靠流量的数据量存在异常的持续时间确定流量特征值,并基于所述流量特征值确定不需要暂停实验时,基于所述实时流量生成实验结果,并基于所述实验结果进行实时显示。
在另外一种可能的实施例中,所述流量特征值构建的具体步骤如图4所示,具体为:
S31基于所述可靠流量在预设时间内的数据量确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入步骤S32;
S32基于所述可靠流量在预设时间内的不同采集时刻的数据量,得到所述可靠流量在预设时间内的数据量的波峰值和波谷值,并给予所述波峰值和波谷值构建变动量,并基于所述变动量确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入步骤S33;
S33基于所述可靠流量在预设时间内的不同采集时刻的数据量,得到所述可靠流量在预设时间内的数据量的差分中位数、波峰值与波谷值的时间距离,并基于所述变动量、差分中位数、波峰值与波谷值的时间距离、预设时间内的数据量,确定所述可靠流量的流量评估值,并基于所述流量评估值确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入步骤S34;
S34基于所述流量评估值以及所述可靠流量的数据量存在异常的持续时间确定流量特征值。
需要说明的是,该流量特征值的取值范围在0到1之间,其中其越大,则说明此时的异常程度越高。
具体的,本实施例还提供了一种计算机系统,该计算机系统包括通过系统总线连接的处理器、存储器、网络接口和数据库;其中,该计算机系统的处理器用于提供计算和控制能力;该计算机系统的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述的一种AB实验方法。
实施例3
如图6所示,本发明提供了一种计算机存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述的一种AB实验方法。
其中所述一种AB实验方法具体包括:
根据AB实验的进行阶段的不同,进行预设频率的确定,并基于预设频率获取AB实验的实时日志,并基于所述实时日志进行解析得到实时流量以及所述实时流量的流量特征,其中流量特征包括但不限于时间、IP、用户访问终端标识;
基于所述AB实验所对应的网站类型以及业务类型确定所述AB实验的受众群体;
需要说明的是,所述AB实验所对应的网站类型为购物网站时,其受众范围为IP地址在特定地址内的人群,具体的根据所述购物网站的配送范围等进行确定。
基于所述实时流量的流量特征确定所述实时流量的用户并不属于所述AB实验的受众群体时,则将所述实时流量作为异常流量。
并至少基于所述异常流量在所述实时流量的流量占比、持续时间确定流量异常值,并基于所述流量异常值确定不需要暂停实验时,进入下一步骤;
基于所述实时流量与所述异常实时流量进行可靠流量的确定,所述可靠流量为所述实时流量中排除所述异常流量的剩余的实时流量,并当所述可靠流量的数据量小于设定数据量时,则确定所述可靠流量存在异常,需要进行异常评估;
至少基于所述可靠流量在预设时间内的数据量以及变动量、可靠流量的数据量存在异常的持续时间确定流量特征值,并基于所述流量特征值确定不需要暂停实验时,基于所述实时流量生成实验结果,并基于所述实验结果进行实时显示。
在另外一种可能的实施例中,所述流量异常值构建的具体步骤如图3所示,具体为:
S21基于所述异常流量的持续时间确定是否潜在的实验失真风险,若是,则进入步骤S22,若否,则无需进行流量异常值的评估,不需要暂停实验;
可以理解的是,当异常流量的持续时间大于一定的时长之后,则确定存在潜在的实验失真风险,因此需要进行流量异常值的评估。
S22在所述持续时间内,基于所述异常流量在所述实时流量的流量占比的平均值确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入步骤S23;
可以理解的是,当该平均值大于70%以上时,则说明实验受到了不必要的影响,实验结果也肯定不能准确反应实际情况,因此需要暂停实验或者输出告警信号。
S23在所述持续时间内,获取所述异常流量的数据量,并基于所述数据量确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入步骤S24;
S24基于所述异常流量的持续时间,持续时间内所述异常流量在所述实时流量的流量占比以及所述异常流量的数据量,确定所述流量异常值。
需要说明的是,所述流量异常值采用基于DEH-SSA-BP神经网络的模型进行构建,具体的其构建步骤为:
步骤1:初始化算法的所有相关参数。包括BP神经网络各层的神经元数量以及网络包含的各项参数,并根据确定的网络的结构依据上述编码方式对麻雀个体的维度D进行编码;还包括麻雀的种群数n,最大的迭代次数T,种群当中分别作为发现者PD和警戒者SD的比例以及警戒阈值ST,DE算法的缩放因子F、交叉概率CR;
步骤2:确定适应度函数并通过反向学习对麻雀种群进行初始化,个体适应度值计算,逐个择优个体作为初始种群;种群当中的个体数分别对应BP神经网络的一组权值和偏置;
步骤3:将种群个体解码作为网络的权值和偏置,然后将训练的数据样本输入网络进行训练并对个体进行适应度值计算;
步骤4:对个体位置进行迭代更新,然后条件判断是否达到最大迭代次数的终止条件,是则记录最优个体,并对其解码输出,否则返回步骤3。
步骤5:通过输出的最优个体对网络进行初始化,随即对DEH-SSA-BP网络模型进行训练和验证,并根据验证结果确定模型,并根据该模型进行结果的输出。
需要说明的是,麻雀搜索算法作为一种新型的群智能优化算法,由于该算法拥有参数较少、较好的鲁棒性、优化效果较强等优点被越来越广泛的应用于实际工程问题中。然而,SSA在搜索后期仍存在易陷入局部最优、收敛速度和精度仍有限、稳定性差等缺陷,存在的这些问题不仅仅是仅限于麻雀搜索算法,而是一般群智能优化算法都普遍性存在的问题。该如何协调权衡算法的局部和全局搜索能力就成了麻雀搜索算法和其他群智能优化算法克服的关键难点。
针对SSA存在收敛速度慢、稳定性差和易陷入局部最优的问题,本发明在认真研究这些改进算法的优化方法基础上,将采用反向学习的方法初始化以增加麻雀搜索算法种群的多样性,然后引入非线性权重因子改进麻雀发现者的位置更新公式,更好的平衡麻雀搜索算法的局部和全局搜索能力,加快算法收敛速度,最后融入差分进化算法和精英策略对算法的收敛精度和全局搜索能力加以提升,从而提出了融合差分进化和混合多策略的麻雀搜索算法(DEH-SSA)。
为提升麻雀搜索算法局部的寻优能力,引入精英策略在第t次迭代后得到的当前最优解best附近产生符合正态分布的随机数Q,取值在0到1之间,具体的计算公式如下所示:
Figure BDA0004159483440000121
其中
Figure BDA0004159483440000122
为在第t代迭代时的第i个个体的第j维位置,Tmax为最大迭代次数。
通过对SSA算法的原理模型进行实验分析,SSA在迭代求解的过程中,种群中的发现者作为相对较优位置个体,它的位置更新对自身位置的依赖性较强,导致算法迭代前期的搜索能力不足和收敛速度过慢;而在迭代后期又会导致陷入局部极值点。由此,引入非线性权重因子来改进种群中发现者的位置更新公式以平衡算法的局部和全局的搜索能力,同时改善算法的收敛速度。算法迭代前期,应降低发现者个体对于自身位置的依赖性,以获取更大的解空间并提升全局优化能力;迭代后期,应加大对自身位置的依赖程度,以提高收敛速度。非线性权重因子公式为:
Figure BDA0004159483440000123
此时对发现者位置更新公式进行简化和改进为:
Figure BDA0004159483440000131
其中R2和ST分别是预警值和预警阈值。
在本实施例中,通过结合基于所述AB实验所对应的网站类型以及业务类型,并结合所述实时流量的流量特征实现对异常流量的筛选,从而实现了对异常流量的准确筛选,减少了异常流量对最终的实验结果的准确性的影响,在保证实验效率的基础上,保证了最终的实验结果的准确性和显著性。
在本实施例中,通过基于所述异常流量在所述实时流量的流量占比、持续时间确定流量异常值,并基于所述流量异常值确定是否需要暂停实验,从而实现了从异常流量的角度实现了对AB实验的异常运行状态的评估,进一步提升了实验的准确性和效率,同时也避免了由于数据失真导致的显著性下降的问题的出现。
具体的,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (10)

1.一种AB实验方法,其特征在于,具体包括:
S11基于预设频率获取AB实验的实时日志,并基于所述实时日志进行解析得到实时流量以及所述实时流量的流量特征;
S12基于所述AB实验所对应的网站类型以及业务类型,并结合所述实时流量的流量特征实现对异常流量的筛选,并至少基于所述异常流量在所述实时流量的流量占比、持续时间确定流量异常值,并基于所述流量异常值确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入步骤S13;
S13基于所述实时流量与所述异常实时流量进行可靠流量的确定,并当所述可靠流量的数据量存在异常的持续时间确定是否需要异常评估,若是,则进入步骤S14,若否,则进入步骤S15;
S14至少基于所述可靠流量在预设时间内的数据量以及变动量、可靠流量的数据量存在异常的持续时间确定流量特征值,并基于所述流量特征值确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入步骤S15;
S15基于所述实时流量生成实验结果,并基于所述实验结果进行实时显示。
2.如权利要求1所述的一种AB实验方法,其特征在于,所述预设频率根据所述AB实验的实时性要求进行动态确定,具体的取值范围不得大于2小时一次。
3.如权利要求1所述的一种AB实验方法,其特征在于,所述流量特征包括但不限于时间、IP、用户访问终端标识。
4.如权利要求1所述的一种AB实验方法,其特征在于,所述异常流量根据所述AB实验所对应的网站类型以及业务类型进行确定,具体的基于所述AB实验所对应的网站类型以及业务类型确定所述AB实验的受众群体,并基于所述实时流量的流量特征确定所述实时流量的用户并不属于所述AB实验的受众群体时,则将所述实时流量作为异常流量。
5.如权利要求1所述的一种AB实验方法,其特征在于,所述流量异常值评估的具体步骤为:
基于所述异常流量的持续时间确定是否潜在的实验失真风险,若是,则进入下一步骤,若否,则无需进行流量异常值的评估,不需要暂停实验;
在所述持续时间内,基于所述异常流量在所述实时流量的流量占比的平均值确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入下一步骤;
在所述持续时间内,获取所述异常流量的数据量,并基于所述数据量确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入下一步骤;
基于所述异常流量的持续时间,持续时间内所述异常流量在所述实时流量的流量占比以及所述异常流量的数据量,确定所述流量异常值。
6.如权利要求1所述的一种AB实验方法,其特征在于,所述可靠流量为所述实时流量中排除所述异常流量的剩余的实时流量,并当所述可靠流量的数据量小于设定数据量时,则确定所述可靠流量存在异常。
7.如权利要求1所述的一种AB实验方法,其特征在于,所述流量特征值确定的具体步骤为:
基于所述可靠流量在预设时间内的数据量确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入下一步骤;
基于所述可靠流量在预设时间内的不同采集时刻的数据量,得到所述可靠流量在预设时间内的数据量的波峰值和波谷值,并给予所述波峰值和波谷值构建变动量,并基于所述变动量确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入下一步骤;
基于所述可靠流量在预设时间内的不同采集时刻的数据量,得到所述可靠流量在预设时间内的数据量的差分中位数、波峰值与波谷值的时间距离,并基于所述变动量、差分中位数、波峰值与波谷值的时间距离、预设时间内的数据量,确定所述可靠流量的流量评估值,并基于所述流量评估值确定是否需要暂停实验,若是,则暂停实验或者输出告警信号,若否,则进入下一步骤;
基于所述流量评估值以及所述可靠流量的数据量存在异常的持续时间确定流量特征值。
8.如权利要求1所述的一种AB实验方法,其特征在于,当所述流量特征值小于预设特征量时,则确定需要暂停实验。
9.一种计算机系统,包括:通信连接的存储器和处理器,以及存储在所述存储器上并能够在所述处理器上运行的计算机程序,其特征在于:所述处理器运行所述计算机程序时执行权利要求1-8任一项所述的一种AB实验方法。
10.一种计算机存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8任一项所述的一种AB实验方法。
CN202310345343.0A 2023-04-03 2023-04-03 Ab实验方法、系统与存储介质 Active CN116389108B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310345343.0A CN116389108B (zh) 2023-04-03 2023-04-03 Ab实验方法、系统与存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310345343.0A CN116389108B (zh) 2023-04-03 2023-04-03 Ab实验方法、系统与存储介质

Publications (2)

Publication Number Publication Date
CN116389108A true CN116389108A (zh) 2023-07-04
CN116389108B CN116389108B (zh) 2023-10-10

Family

ID=86961045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310345343.0A Active CN116389108B (zh) 2023-04-03 2023-04-03 Ab实验方法、系统与存储介质

Country Status (1)

Country Link
CN (1) CN116389108B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117294657A (zh) * 2023-11-24 2023-12-26 杭银消费金融股份有限公司 一种流量治理方法和装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090030859A1 (en) * 2007-07-24 2009-01-29 Francois Buchs Method and apparatus for real-time website optimization
CN107733921A (zh) * 2017-11-14 2018-02-23 深圳中兴网信科技有限公司 网络流量异常检测方法、装置、计算机设备和存储介质
CN110019072A (zh) * 2017-11-21 2019-07-16 北京京东尚科信息技术有限公司 基于实时数据的ab实验方法及系统
CN110086649A (zh) * 2019-03-19 2019-08-02 深圳壹账通智能科技有限公司 异常流量的检测方法、装置、计算机设备及存储介质
CN111711608A (zh) * 2020-05-20 2020-09-25 南方电网调峰调频发电有限公司信息通信分公司 一种电力数据网流量异常检测方法、系统及电子设备
CN112751835A (zh) * 2020-12-23 2021-05-04 石溪信息科技(上海)有限公司 一种流量预警方法,系统、设备和存储装置
CN112817856A (zh) * 2021-02-04 2021-05-18 上海哔哩哔哩科技有限公司 Ab实验集成方法及系统
CN113448876A (zh) * 2021-08-31 2021-09-28 腾讯科技(深圳)有限公司 一种业务测试方法、装置、计算机设备及存储介质
CN115025497A (zh) * 2022-05-26 2022-09-09 网易(杭州)网络有限公司 异常数据检测方法、装置、电子设备及存储介质
CN115705413A (zh) * 2021-08-12 2023-02-17 中国移动通信集团广东有限公司 异常日志的确定方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090030859A1 (en) * 2007-07-24 2009-01-29 Francois Buchs Method and apparatus for real-time website optimization
CN107733921A (zh) * 2017-11-14 2018-02-23 深圳中兴网信科技有限公司 网络流量异常检测方法、装置、计算机设备和存储介质
US20200374306A1 (en) * 2017-11-14 2020-11-26 ZICT Technology Co., Ltd Network traffic anomaly detection method, apparatus, computer device and storage medium
CN110019072A (zh) * 2017-11-21 2019-07-16 北京京东尚科信息技术有限公司 基于实时数据的ab实验方法及系统
CN110086649A (zh) * 2019-03-19 2019-08-02 深圳壹账通智能科技有限公司 异常流量的检测方法、装置、计算机设备及存储介质
CN111711608A (zh) * 2020-05-20 2020-09-25 南方电网调峰调频发电有限公司信息通信分公司 一种电力数据网流量异常检测方法、系统及电子设备
CN112751835A (zh) * 2020-12-23 2021-05-04 石溪信息科技(上海)有限公司 一种流量预警方法,系统、设备和存储装置
CN112817856A (zh) * 2021-02-04 2021-05-18 上海哔哩哔哩科技有限公司 Ab实验集成方法及系统
CN115705413A (zh) * 2021-08-12 2023-02-17 中国移动通信集团广东有限公司 异常日志的确定方法及装置
CN113448876A (zh) * 2021-08-31 2021-09-28 腾讯科技(深圳)有限公司 一种业务测试方法、装置、计算机设备及存储介质
CN115025497A (zh) * 2022-05-26 2022-09-09 网易(杭州)网络有限公司 异常数据检测方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
杨威超;郭渊博;钟雅;甄帅辉;: "基于设备型号分类和BP神经网络的物联网流量异常检测", 信息网络安全, no. 12 *
胡洋瑞;陈兴蜀;王俊峰;叶晓鸣;: "基于流量行为特征的异常流量检测", 信息网络安全, no. 11 *
许晓东;朱士瑞;孙亚民;: "基于小波偏差值的大规模网络异常检测算法", 江苏大学学报(自然科学版), no. 01 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117294657A (zh) * 2023-11-24 2023-12-26 杭银消费金融股份有限公司 一种流量治理方法和装置
CN117294657B (zh) * 2023-11-24 2024-02-13 杭银消费金融股份有限公司 一种流量治理方法和装置

Also Published As

Publication number Publication date
CN116389108B (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
CN109816221B (zh) 项目风险决策方法、装置、计算机设备和存储介质
CN106951984B (zh) 一种系统健康度动态分析预测方法及装置
CN116389108B (zh) Ab实验方法、系统与存储介质
CN113839817B (zh) 一种网络资产风险评估方法、装置及电子设备
Pfrommer et al. Establishing causation in climate litigation: admissibility and reliability
CN111639798A (zh) 智能的预测模型选择方法及装置
CN116029876B (zh) 智慧校园综合管理装置与方法
CN109873832B (zh) 流量识别方法、装置、电子设备和存储介质
CN116737597B (zh) 测试用例处理方法、系统与存储介质
CN113409167B (zh) 一种水质异常分析方法及装置
CN110162958B (zh) 用于计算设备的综合信用分的方法、装置和记录介质
CN113221104A (zh) 用户异常行为的检测方法及用户行为重构模型的训练方法
CN116797226B (zh) 一种基于大数据的咖啡现货交易的信息安全的评估方法
CN109242141B (zh) 一种商品库存数量的预测方法及装置
CN114169054A (zh) 公路桥梁地震易损性分析方法、装置及终端设备
CN116055900B (zh) 一种基于摄像装置的图像质量修正方法
CN116010228B (zh) 面向网络安全扫描的时间预估方法及装置
CN116662904A (zh) 数据类型的变异检测方法、装置、计算机设备及介质
Ramos et al. Comparison of Model Output Statistics and Neural Networks to Postprocess Wind Gusts
CN116627949A (zh) 一种基于查询语句分析的数据库运维方法
CN110147881B (zh) 语言处理方法、装置、设备及存储介质
CN113256422A (zh) 分仓账户识别方法、装置、计算机设备和存储介质
CN112348656A (zh) 一种基于ba-wnn的个人贷款信用评分方法
CN113553754A (zh) 存储器、火灾风险预测模型构建方法、系统和装置
Fiske et al. Inference for finite-sample trajectories in dynamic multi-state site-occupancy models using hidden Markov model smoothing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant