CN105488539B - 分类模型的生成方法及装置、系统容量的预估方法及装置 - Google Patents

分类模型的生成方法及装置、系统容量的预估方法及装置 Download PDF

Info

Publication number
CN105488539B
CN105488539B CN201510941147.5A CN201510941147A CN105488539B CN 105488539 B CN105488539 B CN 105488539B CN 201510941147 A CN201510941147 A CN 201510941147A CN 105488539 B CN105488539 B CN 105488539B
Authority
CN
China
Prior art keywords
data
environment
disaggregated model
production environment
power system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510941147.5A
Other languages
English (en)
Other versions
CN105488539A (zh
Inventor
唐华溢
彭耀明
马梦成
周建龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510941147.5A priority Critical patent/CN105488539B/zh
Publication of CN105488539A publication Critical patent/CN105488539A/zh
Application granted granted Critical
Publication of CN105488539B publication Critical patent/CN105488539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明实施例提供了一种分类模型的生成方法及装置、系统容量的预估方法及装置。一方面,本发明实施例所提供的分类模型的生成方法中,通过采集生产环境的系统数据和测试环境的系统数据;然后,分别从所述生产环境的系统数据和所述测试环境的系统数据中提取特征向量;从而,生成系统容量与系统容量级别的对应关系;进而,对提取出的特征向量、生产环境的系统容量数据、测试环境的系统容量数据和所述对应关系进行机器学习,以生成分类模型。因此,本发明实施例提供的技术方案能够解决现有技术中对生产环境进行压力测试导致的故障风险较高、成本较大且效率较低的问题。

Description

分类模型的生成方法及装置、系统容量的预估方法及装置
【技术领域】
本发明涉及互联网软件测试技术领域,尤其涉及一种分类模型的生成方法及装置、系统容量的预估方法及装置。
【背景技术】
目前,对于如电子商务平台以及其他实时流量受活动等影响强烈的互联网软件而言,在活动期间服务器上软件系统的性能表现会影响用户体验、品牌口碑甚至运营收入。因此,有必要对承载软件系统的实际的生产环境的系统容量进行预估,以获得生产环境的性能瓶颈,进而可以对生产环境的进行优化调整。
如果通过对测试环境进行压力测试来获取系统容量,虽然成本比较低,但是数据的可信度也比较低。因此现有技术中都是对实际的生产环境进行压力测试来预估系统容量的。然而,对实际的生产环境进行压力测试存在故障风险较高、成本较大且效率较低等诸多缺陷,所以目前如何更好的实现生产环境的系统容量数据是亟待解决的问题。
【发明内容】
有鉴于此,本发明实施例提供了一种分类模型的生成方法及装置、系统容量的预估方法及装置,用以解决现有技术中对生产环境进行压力测试导致的故障风险较高、成本较大且效率较低的问题。
本发明实施例的一方面,提供一种分类模型的生成方法,包括:
采集生产环境的系统数据和测试环境的系统数据;
分别从所述生产环境的系统数据和所述测试环境的系统数据中提取特征向量;
生成系统容量与系统容量级别的对应关系;
对提取出的特征向量、生产环境的系统容量数据、测试环境的系统容量数据和所述对应关系进行机器学习,以生成分类模型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述生产环境的系统数据包括:生产环境的系统运行性能数据、生产环境的系统部署数据和生产环境的系统配置数据中至少一个。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述测试环境的系统数据包括:测试环境的系统运行性能数据、测试环境的系统部署数据和测试环境的系统配置数据中至少一个。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,从系统数据中提取特征向量的方法包括:
对所述系统数据进行数据格式的标准化处理,所述系统数据为所述生产环境的系统数据或者所述测试环境的系统数据;
对经过标准化处理的所述系统数据进行去噪处理;
利用降维算法,对经过去噪处理的所述系统数据进行降维处理,获得所述系统数据的特征向量。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,对提取出的特征向量、生产环境的系统容量数据、测试环境的系统容量数据和所述对应关系进行机器学习,以生成分类模型,包括:
根据从测试环境的系统数据中提取出的特征向量、从实际环境的系统数据中提取出的特征向量、各系统容量数据,生成第一数据集和第二数据集;
获得未标定数据集和第一权重向量;
利用分类算法对所述第一数据集、所述第二数据集、所述未标定数据集和所述第一权重向量进行机器学习,以生成分类模型;
利用所述分类模型在第二数据集上误差,并根据所述误差重新计算权重向量,以获得第二权重向量;
利用所述第二权重向量重新生成分类模型,直到达到指定的迭代次数达时停止;
输出所述分类模型。
本发明实施例的一方面,提供一种系统容量的预估方法,包括:
采集测试环境的系统数据;
根据所述测试环境的系统数据,并利用分类模型,获得生产环境的系统容量级别;其中,所述分类模型为利用上述分类模型的生成方法获得的。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,根据所述测试环境的系统数据,并利用分类模型,获得生产环境的系统容量级别,包括;
对所述系统数据进行数据格式的标准化处理;
对经过标准化处理的所述系统数据进行去噪处理;
利用降维算法,对经过去噪处理的所述系统数据进行降维处理,获得所特征向量;
根据从所述系统数据提取出的特征向量,并利用分类模型,获得生产环境的系统容量级别。
本发明实施例的一方面,提供一种分类模型的生成装置,包括:
数据采集模块,用于采集生产环境的系统数据和测试环境的系统数据;
特征提取模块,用于分别从所述生产环境的系统数据和所述测试环境的系统数据中提取特征向量;
级别处理模块,用于生成系统容量与系统容量级别的对应关系;
模型生成模块,用于对提取出的特征向量、生产环境的系统容量数据、测试环境的系统容量数据和所述对应关系进行机器学习,以生成分类模型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述生产环境的系统数据包括:生产环境的系统运行性能数据、生产环境的系统部署数据和生产环境的系统配置数据中至少一个。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述测试环境的系统数据包括:测试环境的系统运行性能数据、测试环境的系统部署数据和测试环境的系统配置数据中至少一个。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特征提取模块,具体用于:
对所述系统数据进行数据格式的标准化处理,所述系统数据为所述生产环境的系统数据或者所述测试环境的系统数据;
对经过标准化处理的所述系统数据进行去噪处理;
利用降维算法,对经过去噪处理的所述系统数据进行降维处理,获得所述系统数据的特征向量。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述模型生成模块,具体用于:
根据从测试环境的系统数据中提取出的特征向量、从实际环境的系统数据中提取出的特征向量、各系统容量数据,生成第一数据集和第二数据集;
获得未标定数据集和第一权重向量;
利用分类算法对所述第一数据集、所述第二数据集、所述未标定数据集和所述第一权重向量进行机器学习,以生成分类模型;
利用所述分类模型在第二数据集上误差,并根据所述误差重新计算权重向量,以获得第二权重向量;
利用所述第二权重向量重新生成分类模型,直到达到指定的迭代次数达时停止;
输出所述分类模型。
本发明实施例的一方面,提供一种系统容量的预估装置,包括:
数据采集模块,用于采集测试环境的系统数据;
容量预估模块,用于根据所述测试环境的系统数据,并利用分类模型,获得生产环境的系统容量级别;其中,所述分类模型为利用上述分类模型的生成装置获得的。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括:特征提取模块,用于对所述系统数据进行数据格式的标准化处理;以及,对经过标准化处理的所述系统数据进行去噪处理;以及,利用降维算法,对经过去噪处理的所述系统数据进行降维处理,获得所特征向量;
所述容量预估模块,具体用于:根据从所述系统数据提取出的特征向量,并利用分类模型,获得生产环境的系统容量级别。
由以上技术方案可以看出,本发明实施例具有以下有益效果:
本发明实施例所提供的技术方案中,利用生产环境的系统数据和测试环境的系统数据以及压力测试后的系统容量数据,生成用于估算生产环境的系统容量等级的分类模型。与现有技术中,对实际的生产环境进行压力测试来获取系统容量的方式相比,本发明实施例由于避免使用测试环境的压力测试数据对生产环境的系统容量进行预估,因此能够减少生产环境的压力测试的故障风险,降低了成本,提高的效率,所以解决了现有技术中对生产环境进行压力测试导致的故障风险较高、成本较大且效率较低的问题。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例所提供的分类模型的生成架构示例图;
图2是本发明实施例所提供的分类模型的生成方法的流程示意图;
图3是本发明实施例所提供的采集系统数据的示例图;
图4是本发明实施例所提供的从系统数据中提取特征向量的示例图;
图5是本发明实施例所提供的系统容量的预估方法的流程示意图;
图6是本发明实施例所提供的系统容量的预估的示例图;
图7是本发明实施例所提供的分类模型的生成装置的功能方块图;
图8是本发明实施例所提供的系统容量的预估装置的功能方块图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二等来描述权重向量,但这些权重向量不应限于这些术语。这些术语仅用来将权重向量彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一权重向量也可以被称为第二权重向量,类似地,第二权重向量也可以被称为第一权重向量。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
利用测试环境的压力测试结果预估系统容量的关键点在于,如何获取测试环境的系统数据与生产环境的系统数据之间的关系。由于生产环境的系统数据和测试环境的系统数据是具有高度非线性的,因此需要引入机器学习方法解决非线性关系的聚类和拟合问题。常见的机器学习算法通常需要对特定的领域有大量数据作为训练样本,同时需要假设测试环境的系统数据与生产环境的系统数据服从相同的数据分布。而生产环境仅有极少量的训练样本,甚至没有训练样本,测试环境与生产环境的差异也可能导致数据分布不同。
请参考图1,其为本发明实施例所提供的分类模型的生成架构示例图,如图所示,本发明实施例中,为解决上述技术难点,根据生产环境的系统数据和测试环境的系统数据,并采用基于实例的迁移学习算法TrAdaBoost和支持向量机(Support Vector Machine,SVM)算法,来构建具备迁移学习能力的分类模型,并利用该分类模型实现对生产系统的系统容量等级进行预估。
实施例一
本发明实施例给出一种分类模型的生成方法,请参考图2,其为本发明实施例所提供的分类模型的生成方法的流程示意图,如图所示,该方法包括以下步骤:
S201,采集生产环境的系统数据和测试环境的系统数据。
具体的,本发明实施例中为了提高生产环境的系统容量预估的准确性,需要采集生产环境的系统数据和测试环境的系统数据。
请参考图3,其为本发明实施例所提供的采集系统数据的示例图,如图所示,本发明实施例中,所述生产环境的系统数据可以包括但不限于:生产环境的系统运行性能数据、生产环境的系统部署数据和生产环境的系统配置数据中至少一个。
其中,生产环境的系统运行性能数据指的是生产环境中所有相关的子系统在一段时间内的每秒查询率(Query Per Second,QPS)、端到端的响应时间和并发数据。本发明实施例中,可以周期的从生产环境中的实时流式文件传输系统采集生产环境的系统运行性能数据。如图3所示,可以将采集的生产环境的系统运行性能数据存入数据库。
其中,生产环境的系统部署数据指的是生产环境中各子系统中机房数目、各机房中机器数目。本发明实施例中,可以从生产环境中的运营平台采集生产环境的系统部署数据。如图3所示,可以将采集的生产环境的系统部署数据存入数据库。
其中,生产环境的系统配置数据指的是生产环境中各机器中的CPU、内存大小和网卡大小等。本发明实施例中,可以利用shell脚本进行ssh登录生产环境中的各机器,进行生产环境的系统配置数据的采集。如图3所示,可以将采集的生产环境的系统配置数据存入数据库。
如图3所示,本发明实施例中,所述测试环境的系统数据可以包括但不限于:测试环境的系统运行性能数据、测试环境的系统部署数据和测试环境的系统配置数据中至少一个。
其中,测试环境的系统运行性能数据指的是测试环境中所有相关的子系统在一段时间内的QPS、端到端的响应时间和并发数据。本发明实施例中,可以周期的从测试环境中的实时流式文件传输系统采集测试环境的系统运行性能数据。如图3所示,可以将采集的测试环境的系统运行性能数据存入数据库。
其中,测试环境的系统部署数据指的是测试环境中各子系统中机房数目、各机房中机器数目。本发明实施例中,可以从测试环境中的运营平台采集测试环境的系统部署数据。如图3所示,可以将采集的测试环境的系统部署数据存入数据库。
其中,测试环境的系统配置数据指的是测试环境中各机器中的CPU、内存大小和网卡大小等。本发明实施例中,可以利用shell脚本进行ssh登录测试环境中的各机器,进行测试环境的系统配置数据的采集。如图3所示,可以将采集的测试环境的系统配置数据存入数据库。
如图3所示,本发明实施例中,还需要采集生产环境的系统容量数据以及测试环境的系统容量数据,然后将采集的各系统容量数据存储到上述数据库中。
其中,生产环境的系统容量数据可以利用压力测试工具对生产环境进行压力测试获得,然后将生产环境的系统容量数据存储到压力测试平台中的数据库中。因此,本发明实施例中,可以从压力测试平台的数据库中采集所需要的生产环境的系统容量数据。
同理,测试环境的系统容量数据可以利用压力测试工具对测试环境进行压力测试获得,然后将测试环境的系统容量数据存储到压力测试平台中的数据库中。因此,本发明实施例中,可以从压力测试平台的数据库中采集所需要的测试环境的系统容量数据。
在一个具体的实现方式中,存储生产环境的系统数据、生产环境的系统容量数据、测试环境的系统数据、测试环境的系统容量数据的数据库可以利用结构化查询语言(Structured Query Language,SQL)数据库实现,或者,也可以利用MySQL数据库实现。
S202,分别从所述生产环境的系统数据和所述测试环境的系统数据中提取特征向量。
具体的,在采集到生产环境的系统数据和测试环境的系统数据后,可以从数据库中提取这些系统数据,然后分别对这两个系统数据进行处理,从两个系统数据中分别提取出相应的特征向量。
举例说明,从系统数据中提取特征向量的方法可以包括但不限于:
首先,对所述系统数据进行数据格式的标准化处理,所述系统数据为所述生产环境的系统数据或者所述测试环境的系统数据。然后,对经过标准化处理的所述系统数据进行去噪处理。最后,利用降维算法,对经过去噪处理的所述系统数据进行降维处理,获得所述系统数据的特征向量。
需要说明的是,本发明实施例中,从生产环境的系统数据中提取特征向量与从测试环境的系统数据中提取特征向量的方法是相同的,因此上面举例说明的从系统数据中提取特征向量的方法适用于生产环境的系统数据,也同时适用于测试环境的系统数据,这里不再分开进行描述。
可以理解的是,由于采集到的系统数据中各项数据的数据格式不同,因此为了方便后面的去噪处理和降维处理,需要先对各项数据进行数据格式的标准化处理。请参考图4,其为本发明实施例所提供的从系统数据中提取特征向量的示例图,如图所示,对于系统数据包含的系统运行性能数据、系统部署数据和系统配置数据,需要分别进行数据格式的标准化处理,将各项数据的数据格式都处理成相同的数据格式。例如,可以使用z分数(z-score)算法实现数据格式的标准化处理。
可以理解的是,由于数据的采集操作或者系统异常都有可能导致出现较多的异常数据,异常数据会严重影响生成的分类模型,使得分类模型的输出结果误差增大,导致准确率降低,因此,本发明实施例中,需要对采集的系统数据进行去噪处理,从而可以去除采集的系统数据中的孤立数据和/或异常数据。
可以理解的是,由于测试环境的系统或者生产环境的系统中会包含20多个子系统,每个子系统都采集七个维度的数据后,将得到140多个维度的数据,并且随着系统的迭代升级,子系统的数量将持续增加,因此本发明实施例中需要对采集的系统数据进行降维处理,提取系统数据中的主要特征数据。
在一个具体的实现过程中,可以利用主成分分析(Principal ComponentAnalysis,PCA)降维算法实现降维处理。
举例说明,利用PCA降维算法,对经过去噪处理的所述系统数据进行降维处理,获得所述系统数据的特征向量的方法可以包括但不限于:
首先,根据采集的系统数据生成对应的数据矩阵。然后对数据矩阵进行零均值化处理,即计算数据矩阵中所述数据的平均值,然后对于每个数据都减去平均值。接着,根据经过零均值化处理的数据矩阵,计算协方差矩阵,以及计算协方差矩阵的特征值和特征向量。最后,按照由大到小的顺序,对特征值进行排序,选择其中最大的k个特征值,将k个特征值对应的k个特征向量分别作为列向量,利用列向量组成特征向量。
S203,生成系统容量与系统容量级别的对应关系。
具体的,需要说明的是,由于生产环境的系统容量数据的数据量比较少,即便基于迁移技术对未标定数据集进行建模来提高分类准确率,进行回归分析后发现仍然会有较大的泛化误差,因此为了进一步提高系统容量预估的准确性,本发明实施例中需要采用对系统容量进行分级的方式,为预估出的生产环境的系统容量生成对应的系统容量级别。
例如,可以将生产环境的系统容量数据,如PC子系统、NA子系统和WAP子系统等子系统的系统容量数据分别分为不多于10个系统容量等级。
例如,对PC子系统进行压力测试后,获得PC子系统的系统容量数据为2000QPS,这样,PC子系统的系统容量等级与系统容量数据的对应关系可以包括:
等级1:1400QPS~1600QPS
等级2:1600QPS~1800QPS
等级3:1800QPS~1900QPS
等级4:1900QPS~2000QPS
等级5:2000QPS~2100QPS
等级6:2100QPS~2200QPS
等级7:2200QPS~2400QPS
等级8:2400QPS~2600QPS
利用上述系统容量数据与系统容量等级之间的对应关系生成的分类模型,可以根据测试环境的系统数据,预估出生产环境的系统容量,以获得系统容量等级。
S204,对提取出的特征向量、生产环境的系统容量数据、测试环境的系统容量数据和所述对应关系进行机器学习,以生成分类模型。
具体的,对从生产环境的系统数据和测试环境的系统数据中分别提取出的特征向量、生产环境的系统容量数据、测试环境的系统容量数据和系统容量数据与系统容量等级之间的对应关系,进行机器学习,以生成分类模型。
本发明实施例中,生成分类模型的方法可以包括但不限于:
首先,根据从测试环境的系统数据中提取出的特征向量、从实际环境的系统数据中提取出的特征向量、各系统容量数据,生成第一数据集和第二数据集。然后,获得未标定数据集和第一权重向量。接着,利用分类算法对所述第一数据集、所述第二数据集、所述未标定数据集和所述第一权重向量进行机器学习,以生成分类模型。最后,利用所述分类模型在第二数据集上误差,并根据所述误差重新计算权重向量,以获得第二权重向量;并利用所述第二权重向量重新生成分类模型,直到达到指定的迭代次数达时停止,并输出所述分类模型。
下面给出一个具体的生成分类模型的方法,需要说明的是,该方法仅为举例说明,不对生成分类模型的方法进行特别限定。
步骤a:根据从测试环境的系统数据中提取出的特征向量和测试环境的系统容量数据,生成数据集Ta,如数据集Ta可以为(从测试环境的系统数据中提取出的特征向量,生产环境的系统容量数据,维数a,每个维度中数据的数目n)。以及,根据从生产环境的系统数据中提取出的特征向量和生产系统的系统容量数据,生成数据集Tb,如数据集Tb可以为(从生产环境的系统数据中提取出的特征向量,生产环境的系统容量数据,维数b,每个维度中数据的数目m)。以及,生成未标定数据集S,未标定数据集S中可以包括从没有标定系统容量数据的生产环境中提取出的特征向量和从没有标定系统容量数据的测试环境中提取出的特征向量。
步骤b:定义分类模型为:g:X→Y,其中,g表示分类模型,X表示从采集的测试环境的系统数据中提取出的特征向量,Y表示该分类模型预估出的生产环境的系统容量级别。
步骤c:生成初始的权重向量w1,如其中,w1中的角标1表示该权重向量是初始的权重向量。而且,
步骤d:计算初始的调权参数β1
其中,β1表示初始的调权参数,N表示预先指定的迭代次数,作为迭代的停止条件。
步骤e:根据当前的权重向量,获得权重分布Pt
其中,权重分布Pt表示当前的权重向量中每个数值与权重向量中所有数值总和的比值,t表示当前的迭代次数,t=1,2,…,N。
例如,如果当前的权重向量为初始的权重向量w1,则当前的迭代次数t=1。
步骤f:利用SVM算法对合并数据集Ta和数据集Tb后得到的数据集、未标注数据集S、权重分布Pt和系统容量数据与系统容量级别的对应关系,进行机器学习,生成分类模型g:X→Y。
步骤g:计算生成的分类模型在数据集Tb上的误差εt
其中,xi表示数据集Tb中的数据,c(xi)表示生产系统的系统容量数据。
步骤h:重新计算调权参数βt
βt=εt/(1-εt)b
步骤i:利用步骤h计算得到的新的调权参数βt,重新计算权重向量
步骤j:利用重新计算出的权重向量重新计算权重分布,然后,利用SVM算法对合并数据集Ta和数据集Tb后得到的数据集、未标注数据集S和重新计算出的权重分布Pt,重新进行机器学习,生成新的分类模型。如此反复迭代计算,直到迭代次数t达到指定的迭代次数N时停止迭代计算,然后输出最新生成的分类模型,作为本发明实施例所需要的分类模型。
根据上面的迭代过程可以看出,每一次迭代都会降低测试环境对应的数据集中错误率较高的数据的权重,从而可以在测试环境对应的数据集中找到符合生产环境对应的数据集中的数据,从而得到更好的、更适用于生产环境的分类模型,提高了生产环境的系统容量数据的预估准确性。
实施例二
本发明实施例给出一种系统容量的预估方法,请参考图5,其为本发明实施例所提供的系统容量的预估方法的流程示意图,如图所示,该方法包括以下步骤:
S501,采集测试环境的系统数据。
具体的,本发明实施例中,为了利用分类模型获得生产环境的系统容量级别,需要使用测试环境的系统数据,因此在对生产环境的系统容量数据进行预估时,需要先采集测试环境的系统数据,然后将采集到的测试环境的系统数据存入数据库,需要进行生产环境的系统容量数据的预估时,从数据库中读取。
本发明实施例中,所述测试环境的系统数据可以包括但不限于:测试环境的系统运行性能数据、测试环境的系统部署数据和测试环境的系统配置数据中至少一个。
其中,测试环境的系统运行性能数据指的是测试环境中所有相关的子系统在一段时间内的QPS、端到端的响应时间和并发数据。本发明实施例中,可以周期的从测试环境中的实时流式文件传输系统采集测试环境的系统运行性能数据。可以将采集的测试环境的系统运行性能数据存入数据库。
其中,测试环境的系统部署数据指的是测试环境中各子系统中机房数目、各机房中机器数目。本发明实施例中,可以从测试环境中的运营平台采集测试环境的系统部署数据。
其中,测试环境的系统配置数据指的是测试环境中各机器中的CPU、内存大小和网卡大小等。本发明实施例中,可以利用shell脚本进行ssh登录测试环境中的各机器,进行测试环境的系统配置数据的采集。
S502,根据所述测试环境的系统数据,并利用分类模型,获得生产环境的系统容量级别;其中,所述分类模型为利用实施例一中所述的分类模型的生成方法获得的。
具体的,举例说明,根据所述测试环境的系统数据,并利用分类模型,获得生产环境的系统容量级别的方法可以包括但不限于:
请参考图6,其为本发明实施例所提供的系统容量的预估的示例图,如图所示,首先,对所述系统数据进行数据格式的标准化处理。然后,对经过标准化处理的所述系统数据进行去噪处理。接着,利用降维算法,对经过去噪处理的所述系统数据进行降维处理,获得所特征向量。最后,根据从所述系统数据提取出的特征向量,并利用分类模型,获得生产环境的系统容量级别。
需要说明的是,对系统数据进行数据格式的标准化处理、去噪处理和降维处理的实现方法可以参考实施例一中的描述,这里不再赘述。
在一个具体的实现过程中,可以将从所述测试环境的系统数据中提取出的特征向量输入生成的分类模型,以使得分类模型根据输入的特征向量,获得并输出生产环境的系统容量数据,如生产环境的系统容量数据可以是生产环境的系统容量级别,从而可以实现对生产环境的系统容量级别的预估。
本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。
请参考图7,其为本发明实施例所提供的分类模型的生成装置的功能方块图。如图所示,该装置包括:
数据采集模块71,用于采集生产环境的系统数据和测试环境的系统数据;
特征提取模块72,用于分别从所述生产环境的系统数据和所述测试环境的系统数据中提取特征向量;
级别处理模块73,用于生成系统容量与系统容量级别的对应关系;
模型生成模块74,用于对提取出的特征向量、生产环境的系统容量数据、测试环境的系统容量数据和所述对应关系进行机器学习,以生成分类模型。
在一个具体的实现过程中,所述生产环境的系统数据包括:生产环境的系统运行性能数据、生产环境的系统部署数据和生产环境的系统配置数据中至少一个。
在一个具体的实现过程中,所述测试环境的系统数据包括:测试环境的系统运行性能数据、测试环境的系统部署数据和测试环境的系统配置数据中至少一个。
在一个具体的实现过程中,所述特征提取模块72,具体用于:
对所述系统数据进行数据格式的标准化处理,所述系统数据为所述生产环境的系统数据或者所述测试环境的系统数据;
对经过标准化处理的所述系统数据进行去噪处理;
利用降维算法,对经过去噪处理的所述系统数据进行降维处理,获得所述系统数据的特征向量。
在一个具体的实现过程中,所述模型生成模块74,具体用于:
根据从测试环境的系统数据中提取出的特征向量、从实际环境的系统数据中提取出的特征向量、各系统容量数据,生成第一数据集和第二数据集;
获得未标定数据集和第一权重向量;
利用分类算法对所述第一数据集、所述第二数据集、所述未标定数据集和所述第一权重向量进行机器学习,以生成分类模型;
利用所述分类模型在第二数据集上误差,并根据所述误差重新计算权重向量,以获得第二权重向量;
利用所述第二权重向量重新生成分类模型,直到达到指定的迭代次数达时停止;
输出所述分类模型。
由于本实施例中的各单元能够执行图2所示的方法,本实施例未详细描述的部分,可参考对图2的相关说明。
请参考图8,其为本发明实施例所提供的系统容量的预估装置的功能方块图。如图所示,该装置包括:
数据采集模块81,用于采集测试环境的系统数据;
容量预估模块82,用于根据所述测试环境的系统数据,并利用分类模型,获得生产环境的系统容量级别;其中,所述分类模型为利用权利要求8至12中任一项所述的分类模型的生成装置获得的。
在一个具体的实现过程中,所述装置还包括:特征提取模块83,用于对所述系统数据进行数据格式的标准化处理;以及,对经过标准化处理的所述系统数据进行去噪处理;以及,利用降维算法,对经过去噪处理的所述系统数据进行降维处理,获得所特征向量;
所述容量预估模块82,具体用于:根据从所述系统数据提取出的特征向量,并利用分类模型,获得生产环境的系统容量级别。
由于本实施例中的各单元能够执行图5所示的方法,本实施例未详细描述的部分,可参考对图5的相关说明。
本发明实施例的技术方案具有以下有益效果:
本发明实施例所提供的技术方案中,利用生产环境的系统数据和测试环境的系统数据以及压力测试后的系统容量数据,生成用于估算生产环境的系统容量等级的分类模型。与现有技术中,对实际的生产环境进行压力测试来获取系统容量的方式相比,本发明实施例由于避免使用测试环境的压力测试数据对生产环境的系统容量进行预估,因此能够减少生产环境的压力测试的故障风险,降低了成本,提高的效率,所以解决了现有技术中对生产环境进行压力测试导致的故障风险较高、成本较大且效率较低的问题。
另外,本发明实施例所提供的技术方案中基于迁移学习的机器学习算法,来生成分类模型,解决了现有技术汇总由于生产环境的数据量较少导致的预估结果不准确的问题,提高了对生产环境的系统容量级别的预估准确性。
而且,本发明实施例建立了完整的数据自动采集、处理和生成模型的预估体系,可以自动完成数据处理和系统容量级别的预估,因此能够高效的完成系统容量级别的预估。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种分类模型的生成方法,其特征在于,所述方法包括:
采集生产环境的系统数据和测试环境的系统数据;
分别从所述生产环境的系统数据和所述测试环境的系统数据中提取特征向量;
生成系统容量与系统容量级别的对应关系;
对提取出的特征向量、生产环境的系统容量数据、测试环境的系统容量数据和所述对应关系进行机器学习,以生成分类模型;
其中,对提取出的特征向量、生产环境的系统容量数据、测试环境的系统容量数据和所述对应关系进行机器学习,以生成分类模型,包括:
根据从测试环境的系统数据中提取出的特征向量、从实际环境的系统数据中提取出的特征向量、各系统容量数据,生成第一数据集和第二数据集;
获得未标定数据集和第一权重向量;
利用分类算法对所述第一数据集、所述第二数据集、所述未标定数据集和所述第一权重向量进行机器学习,以生成分类模型;
利用所述分类模型在第二数据集上误差,并根据所述误差重新计算权重向量,以获得第二权重向量;
利用所述第二权重向量重新生成分类模型,直到达到指定的迭代次数达时停止;
输出所述分类模型。
2.根据权利要求1所述的方法,其特征在于,所述生产环境的系统数据包括:生产环境的系统运行性能数据、生产环境的系统部署数据和生产环境的系统配置数据中至少一个。
3.根据权利要求1所述的方法,其特征在于,所述测试环境的系统数据包括:测试环境的系统运行性能数据、测试环境的系统部署数据和测试环境的系统配置数据中至少一个。
4.根据权利要求1至3中任一项所述的方法,其特征在于,从系统数据中提取特征向量的方法包括:
对所述系统数据进行数据格式的标准化处理,所述系统数据为所述生产环境的系统数据或者所述测试环境的系统数据;
对经过标准化处理的所述系统数据进行去噪处理;
利用降维算法,对经过去噪处理的所述系统数据进行降维处理,获得所述系统数据的特征向量。
5.一种系统容量的预估方法,其特征在于,所述方法包括:
采集测试环境的系统数据;
根据所述测试环境的系统数据,并利用分类模型,获得生产环境的系统容量级别;其中,所述分类模型为利用权利要求1至4中任一项所述的分类模型的生成方法获得的。
6.根据权利要求5所述的方法,其特征在于,根据所述测试环境的系统数据,并利用分类模型,获得生产环境的系统容量级别,包括;
对所述系统数据进行数据格式的标准化处理;
对经过标准化处理的所述系统数据进行去噪处理;
利用降维算法,对经过去噪处理的所述系统数据进行降维处理,获得所特征向量;
根据从所述系统数据提取出的特征向量,并利用分类模型,获得生产环境的系统容量级别。
7.一种分类模型的生成装置,其特征在于,所述装置包括:
数据采集模块,用于采集生产环境的系统数据和测试环境的系统数据;
特征提取模块,用于分别从所述生产环境的系统数据和所述测试环境的系统数据中提取特征向量;
级别处理模块,用于生成系统容量与系统容量级别的对应关系;
模型生成模块,用于对提取出的特征向量、生产环境的系统容量数据、测试环境的系统容量数据和所述对应关系进行机器学习,以生成分类模型;
其中,所述模型生成模块,具体用于:
根据从测试环境的系统数据中提取出的特征向量、从实际环境的系统数据中提取出的特征向量、各系统容量数据,生成第一数据集和第二数据集;
获得未标定数据集和第一权重向量;
利用分类算法对所述第一数据集、所述第二数据集、所述未标定数据集和所述第一权重向量进行机器学习,以生成分类模型;
利用所述分类模型在第二数据集上误差,并根据所述误差重新计算权重向量,以获得第二权重向量;
利用所述第二权重向量重新生成分类模型,直到达到指定的迭代次数达时停止;
输出所述分类模型。
8.根据权利要求7所述的装置,其特征在于,所述生产环境的系统数据包括:生产环境的系统运行性能数据、生产环境的系统部署数据和生产环境的系统配置数据中至少一个。
9.根据权利要求7所述的装置,其特征在于,所述测试环境的系统数据包括:测试环境的系统运行性能数据、测试环境的系统部署数据和测试环境的系统配置数据中至少一个。
10.根据权利要求7至9中任一项所述的装置,其特征在于,所述特征提取模块,具体用于:
对所述系统数据进行数据格式的标准化处理,所述系统数据为所述生产环境的系统数据或者所述测试环境的系统数据;
对经过标准化处理的所述系统数据进行去噪处理;
利用降维算法,对经过去噪处理的所述系统数据进行降维处理,获得所述系统数据的特征向量。
11.一种系统容量的预估装置,其特征在于,所述装置包括:
数据采集模块,用于采集测试环境的系统数据;
容量预估模块,用于根据所述测试环境的系统数据,并利用分类模型,获得生产环境的系统容量级别;其中,所述分类模型为利用权利要求7至10中任一项所述的分类模型的生成装置获得的。
12.根据权利要求11所述的装置,其特征在于,
所述装置还包括:特征提取模块,用于对所述系统数据进行数据格式的标准化处理;以及,对经过标准化处理的所述系统数据进行去噪处理;以及,利用降维算法,对经过去噪处理的所述系统数据进行降维处理,获得所特征向量;
所述容量预估模块,具体用于:根据从所述系统数据提取出的特征向量,并利用分类模型,获得生产环境的系统容量级别。
CN201510941147.5A 2015-12-16 2015-12-16 分类模型的生成方法及装置、系统容量的预估方法及装置 Active CN105488539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510941147.5A CN105488539B (zh) 2015-12-16 2015-12-16 分类模型的生成方法及装置、系统容量的预估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510941147.5A CN105488539B (zh) 2015-12-16 2015-12-16 分类模型的生成方法及装置、系统容量的预估方法及装置

Publications (2)

Publication Number Publication Date
CN105488539A CN105488539A (zh) 2016-04-13
CN105488539B true CN105488539B (zh) 2019-05-24

Family

ID=55675510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510941147.5A Active CN105488539B (zh) 2015-12-16 2015-12-16 分类模型的生成方法及装置、系统容量的预估方法及装置

Country Status (1)

Country Link
CN (1) CN105488539B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022387A (zh) * 2016-05-27 2016-10-12 大连楼兰科技股份有限公司 测试损伤等级模型的方法及系统
CN105867360B (zh) * 2016-06-14 2018-05-08 江南大学 一种机电控制系统的初值预估迭代学习故障诊断算法
CN108459951B (zh) * 2017-02-21 2022-07-29 腾讯科技(深圳)有限公司 测试方法和装置
CN109327421A (zh) * 2017-08-01 2019-02-12 阿里巴巴集团控股有限公司 数据加密、机器学习模型训练方法、装置及电子设备
CN108334439B (zh) * 2018-03-14 2021-06-04 百度在线网络技术(北京)有限公司 一种压力测试方法、装置、设备和存储介质
CN109213965B (zh) * 2018-08-02 2022-04-29 平安科技(深圳)有限公司 一种系统容量预测方法、计算机可读存储介质及终端设备
CN109446049A (zh) * 2018-11-01 2019-03-08 郑州云海信息技术有限公司 一种基于监督学习的服务器错误诊断方法和装置
CN110413856B (zh) * 2019-08-05 2023-11-10 腾讯科技(深圳)有限公司 分类标注方法、装置、可读存储介质及设备
CN110618922B (zh) * 2019-08-15 2022-10-04 平安普惠企业管理有限公司 性能测试方法及相关设备
CN111767222A (zh) * 2020-06-28 2020-10-13 杭州数梦工场科技有限公司 数据模型的验证方法、装置、电子设备、存储介质
CN112783747B (zh) * 2021-02-09 2024-06-11 中国工商银行股份有限公司 一种应用程序的执行时间预测方法及装置
CN114510518B (zh) * 2022-04-15 2022-07-12 北京快立方科技有限公司 一种海量结构化数据的自适应聚合方法、系统及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309843A (zh) * 2012-03-06 2013-09-18 百度在线网络技术(北京)有限公司 服务器的配置方法和系统
CN104866408A (zh) * 2014-02-20 2015-08-26 阿里巴巴集团控股有限公司 一种应用系统的容量预测方法和装置
CN104965787A (zh) * 2015-07-06 2015-10-07 南京航空航天大学 一种基于三支决策的两阶段软件缺陷预测方法
CN105069690A (zh) * 2015-06-11 2015-11-18 国家电网公司 一种电网运行数据处理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130253898A1 (en) * 2012-03-23 2013-09-26 Power Analytics Corporation Systems and methods for model-driven demand response
US20130253718A1 (en) * 2012-03-23 2013-09-26 Power Analytics Corporation Systems and methods for integrated, model, and role-based management of a microgrid based on real-time power management
CN103970806B (zh) * 2013-02-05 2019-02-05 北京音之邦文化科技有限公司 一种建立歌词感情分类模型的方法及装置
CN104468262B (zh) * 2014-11-17 2017-12-15 中国科学院信息工程研究所 一种基于语义敏感的网络协议识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309843A (zh) * 2012-03-06 2013-09-18 百度在线网络技术(北京)有限公司 服务器的配置方法和系统
CN104866408A (zh) * 2014-02-20 2015-08-26 阿里巴巴集团控股有限公司 一种应用系统的容量预测方法和装置
CN105069690A (zh) * 2015-06-11 2015-11-18 国家电网公司 一种电网运行数据处理方法
CN104965787A (zh) * 2015-07-06 2015-10-07 南京航空航天大学 一种基于三支决策的两阶段软件缺陷预测方法

Also Published As

Publication number Publication date
CN105488539A (zh) 2016-04-13

Similar Documents

Publication Publication Date Title
CN105488539B (zh) 分类模型的生成方法及装置、系统容量的预估方法及装置
CN110009171B (zh) 用户行为模拟方法、装置、设备及计算机可读存储介质
CN106570513B (zh) 大数据网络系统的故障诊断方法和装置
US11915104B2 (en) Normalizing text attributes for machine learning models
CN108108743B (zh) 异常用户识别方法和用于识别异常用户的装置
CN103988175A (zh) 识别用于响应云计算系统中的异常的动作的方法和系统
CN106803799B (zh) 一种性能测试方法和装置
CN107423190B (zh) 一种日志数据异常指向识别方法及装置
CN109934301B (zh) 一种电力负荷聚类分析方法、装置和设备
CN111612041A (zh) 异常用户识别方法及装置、存储介质、电子设备
CN111343147B (zh) 一种基于深度学习的网络攻击检测装置及方法
CN110110610B (zh) 一种用于短视频的事件检测方法
CN116560895B (zh) 用于机械装备的故障诊断方法
CN110708285B (zh) 流量监控方法、装置、介质及电子设备
CN110348516B (zh) 数据处理方法、装置、存储介质及电子设备
CN111950660A (zh) 一种人工智能训练平台的告警预测方法及装置
CN117078048A (zh) 基于数字孪生的智慧城市资源管理方法及系统
CN111210332A (zh) 贷后管理策略生成方法、装置及电子设备
CN112686312A (zh) 一种数据分类方法、装置及系统
CN114756420A (zh) 故障预测方法及相关装置
CN117011859A (zh) 一种图片处理的方法以及相关装置
WO2017063178A1 (en) System and method for selecting controllable parameters for equipment operation safety
CN110852322B (zh) 感兴趣区域的确定方法及装置
CN104572820B (zh) 模型的生成方法及装置、重要度获取方法及装置
CN112541705B (zh) 生成用户行为评估模型的方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant