CN113393169A

CN113393169A - 基于大数据技术的金融行业交易系统性能指标分析方法

Info

Publication number: CN113393169A
Application number: CN202110791479.5A
Authority: CN
Inventors: 孙瑞超; 王博威; 刘进; 肖昱; 高锋远; 张磊; 李婷婷; 都兴森; 姜鑫; 聂琦
Original assignee: Dashangsuo Feitai Testing Technology Co ltd
Current assignee: Dashangsuo Feitai Testing Technology Co ltd
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2021-09-14
Anticipated expiration: 2041-07-13
Also published as: CN113393169B

Abstract

本发明提供了基于大数据技术的金融行业交易系统性能指标分析方法，涉及系统性能指标分析技术领域，该方法包括：获取金融行业交易系统的性能分析文件，对性能分析文件中的数据进行数据清洗；根据监控属性的取值，采用K均值算法将性能分析文件中所有数据划分为k个子集；根据k个子集的聚类中心取值进行降序排列，排序后的第一个子集资源消耗最多，在该子集中，统计每种业务组合的出现频率，确定每种业务组合的出现频率与资源消耗走势，建立业务组合与性能指标的对应关系模型；针对k个子集，利用决策树算法建立哪些业务组合规则可能出现性能瓶颈的预测模型；基于所述业务组合与性能指标的对应关系模型和所述预测模型进行性能指标分析和预测。

Description

基于大数据技术的金融行业交易系统性能指标分析方法

技术领域

本发明涉及系统性能指标分析技术领域，尤其涉及适用于基于大数据技术的金融行业交易系统性能指标分析方法。

背景技术

在金融行业中，很多券商公司都会面临想要检测交易系统性能基线的情况。针对这一情况，传统的做法是：

制定性能测试方案：由专业的测试团队根据实际生产数据及对未来市场的预测拟定性能指标及测试场景(测试场景通常会限定交易阶段、协议类型、下单速率、总下单量等)，必要时需要开发相应的性能测试工具；搭建测试环境：依据生产系统的环境部署搭建类似的性能测试环境；测试业务数据构造：根据测试场景，构造测试业务数据，或直接使用生产系统的真实数据做为测试业务数据；测试场景执行与监控：对各个测试场景逐一测试，并在测试过程中使用监控工具(如Windows系统中的Performance Counter工具、Linux系统中的Top命令等)采集机器性能指标；测试结果分析与报告：测试人员手动或者使用统计工具对性能指标进行分析，找出测试场景与测试结果之间的规律性及可能存在的噪点，根据分析结构得出交易系统性能指标。

该传统方法存在下列问题：

1、性能分析不够全面：在金融行业中，协议种类千差万别，协议的性能也各不相同，但现有的性能测试方案中，测试人员通常是根据性能场景的压力值及监控结果进行性能定位与分析，而忽略了测试业务数据(包含不同的协议)对监控结果的影响，如不同协议组合的性能开销走势，以及哪些协议组合下系统资源消耗更大；

2、不具备分析预测能力：金融行业每日的交易数据是GB级的，若仅仅为了验证某一交易日的性能问题而搭建测试环境，回放测试，会带来较大的人力与时间开销。

发明内容

有鉴于此，本发明提供了基于大数据技术的金融行业交易系统的性能指标分析方法，通过建立一种适用于金融行业交易系统的性能指标分析模型，尤其是建立一种性能测试场景与性能指标的相关性分析及性能指标预测模型，实现金融行业交易系统的全面性能指标分析以及预测。

为此，本发明提供了以下技术方案：

本发明提供了一种基于大数据技术的金融行业交易系统性能指标分析方法，所述方法包括：

S1、获取金融行业交易系统的测试业务数据及监控日志，将测试业务数据及监控日志这两个文件合并，得到性能分析文件，对所述性能分析文件中的数据进行数据清洗；

S2、根据监控属性的取值，采用K均值算法将性能分析文件中所有数据划分为多个子集，得到k个子集；

S3、根据这k个子集的聚类中心取值进行降序排列，排序后的第一个子集资源消耗最多，在该子集中，统计每种业务组合的出现频率，确定每种业务组合的出现频率与资源消耗走势，建立业务组合与性能指标的对应关系模型；

S4、针对k个子集，利用决策树算法建立哪些业务组合规则可能出现性能瓶颈的预测模型；

S5、基于所述业务组合与性能指标的对应关系模型和所述预测模型进行性能指标分析和预测。

进一步地，对所述性能分析文件中的数据进行数据清洗，包括：

对所述性能分析文件中的监控数据进行重复值处理，以及缺失值填充。

进一步地，所述重复值处理，包括：依据字段相似度规则，即字段之间的相似度S是根据两个字段的内容，利用如下公式而计算出来的一个表示两字段相似程度的数值：

S(s₁,s₂)＝|s₁–s₂|/max(s₁,s₂)；

其中，s表示监控数据的某一属性，s₁、s₂表示两行不同的性能分析记录，S表示监控数据中某两行在属性s上的相似程度，0<S<1，S越小，两字段的相似度越高。

进一步地，所述缺失值填充，包括：

当缺失测试业务数据时，处理规则是不予处理；

当缺失监控数据时，处理规则是根据该监控属性在其上下两条记录的取值的平均值来填充。

进一步地，K均值算法的详细处理流程包括：

设X＝{x₁，x₂，…，x_n}，X表示第一步中得到的文件中任意一行记录，具有n个可度量的监控属性；

S21、格式化处理，将监控数据的各个属性按比例映射到[0，1]区间，以平衡各个属性对后续计算结果的影响；

其中，x′_i表示映射后的第i个监控属性；x_i表示第i个监控属性，0<i<n，max(x_i)、min(x_i)分别表示第i个监控属性的最大值和最小值；

S22、从监控数据X中任意选择k行记录作为初始聚类中心C＝{c₁，c₂，…，c_n}，k值根据实际情况自由配置；

S23、根据k个聚类中心，计算数据中每行记录与这些聚类中心的距离，并根据最小距离对记录进行划分，得到k个子集；

S24、重新计算每个子集的中心点；

其中，C_ij表示第i个子集在第j个属性上的值，0<i<k，0<j<n，p表示第i个子集中总的记录行数，x_j1表示第i个子集中第一行记录在第j个属性上的值；

S25、循环步骤S22、S23，直到每个子集均不在发生变化或者达到最大迭代次数。

进一步地，利用决策树算法建立哪些业务组合规则可能出现性能瓶颈的预测模型，包括：

S41、利用下述公式计算各监控属性的信息增益率：

其中，N_A表示监控属性A上的样本集合，

表示在监控属性A的全部样本中属于类别C_i的样本数量，N_Am表示监控属性A的取值为m的数据记录数量，

表示监控属性A取值为m的数据记录中，属于类别C_i的数据记录数量；

S42、从属性集中选择信息增益率最大的监控属性F；

S43、根据监控属性F的每一个值v及其阈值，将数据集划分为不同的子集，对于每一个子集：

e1.计算各监控属性的信息增益率，并选择信息增益率最大的监控属性F₁；

e2.根据监控属性F₁，将所述子集进一步划分为两个子集；

e3.若子集为空，则该子集处理结束，若子集不为空，则对每一个子集，重复步骤e₁、e₂。

进一步地，还包括：大数据算法的科学利用及结果的展示，包括：

以折线图形式展现监控属性走势；

以柱状图形式展现各业务数据的性能开销。

本发明的优点和积极效果：

本发明提供了更加全面的性能结果分析模型，不仅仅是监控结果的分析，而且还可以帮助测试人员发现隐藏的测试数据与监控数据间的关联关系；本发明可辅助用于性能预测，即借由本发明，用户无需进行现场实测，只需要提供测试数据，就可自动建模，预测可能的监控指标走势，降低了测试与运维成本；本发明中的算法对非线性关系的适应性较好，保证了预测结果的准确度；同一套交易系统，部署在不同配置的机器上，监控指标是有区别的，通过本发明中基于的监督学习模型，用户可调整训练参数，使模型适应当前机器配置，从而保证预测结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为决策树算法结构图；

图2为本发明实施例中适用于金融行业的基于大数据技术的性能指标分析方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明的产品为独立的客户端软件，可部署于任何Windows机器上，使用者只需将测试业务数据及监控数据(包括CPU利用率、内存利用率、磁盘利用率)导入该软件，其即可自动进行性能指标分析模型建模。

本发明中的性能指标分析主要基于决策树算法。

决策树是附加概率结果的一个树状决策图(如图1所示)，在机器学习中，决策树表示对象属性和对象值之间的一种映射，树中每一个节点表示对象属性的判断条件，其分支表示符合节点条件的对象，而叶子节点表示对象所属的预测结果。由于决策树具有易于理解和解释，无论是离散型数据还是连续型数据都可以使用等优点，其在分析数据与预测方面得到广泛应用。

参见图2，本发明实施例中基于决策树算法的性能指标分析模型具体实现过程如下：

S1、数据获取及数据清洗：

本发明实施例的输入数据是测试业务数据及监控日志，测试业务数据即包含要压入交易系统的各种协议的数据，该数据可以从交易系统的日志文件提取也可以由测试人员构造。

由于测试业务数据及监控日志中均会含有无用数据，且格式并不符合需求，数据清洗步骤将把这两个文件合并，得到以时间戳为标志位、换行符为分割符的数据文件，称为性能分析文件，文件前两列为日期与时间，后面跟随n个监控属性，监控属性后面以420开头的称为业务属性，类似如下格式(以第一行为例：“20161201”为日期属性，“8:43:05”为时间属性，“50％”为CPU属性，“40％”为内存利用率属性，“60％”为磁盘利用率属性，“70％”为网络流量属性，其后以420开头的多个属性代表生产系统实际收到的协议的功能号，“420411”为委托，“420501”为股东查询，“420502”为资金查询，“420503”为股份明细查询)：

20161201 8:43:05 50％40％60％70％420411 420501 420502 420503

20161201 8:43:06 51％40％60％70％420411 420501 420502 420503

……

数据清洗的具体过程包括对监控数据的重复值处理，以及缺失值填充：

S11、重复值处理：重复值处理主要依据字段相似度规则，即字段之间的相似度S是根据两个字段的内容，利用如下公式而计算出来的一个表示两字段相似程度的数值：

S(s₁,s₂)＝|s₁–s₂|/max(s₁,s₂)(1)

S12、缺失值填充：文件合并指将测试业务数据与监控日志根据时间(时间精度默认为秒，可通过配置文件进行配置)合并为一个文件。

当这两个数据文件存在无法完全匹配的数据时(即某一时间点只有测试业务数据而没有或缺失部分监控数据，或者只有监控数据而无测试业务数据)，则需要进行缺失值处理，具体的处理规则取决于缺失数据。当缺失测试业务数据时，处理规则是不予处理；当缺失监控数据时，处理规则是平均值填充，即根据该监控属性在其上下两条记录的取值的平均值来填充。

S2、K均值聚类：这一步根据监控属性的取值，将性能分析文件中所有数据划分为多个子集，进而可获知哪些业务属性组合的性能开销更高。

设X＝{x₁，x₂，…，x_n}，X表示第一步中得到的文件中任意一行记录，具有n个可度量的监控属性(不包括业务属性)，K均值算法(K-means)的详细处理流程为：

S21、格式化处理。将监控数据的各个属性按比例映射到[0,1]区间，以平衡各个属性对后续计算结果的影响。

S22、从监控数据X中任意选择k行记录最为初始聚类中心，C＝{c₁，c₂，…，c_n}，k值选择可根据实际情况自由配置，默认为20；

S23、根据k个聚类中心，使用公式(3)计算数据中每行记录与这些聚类中心的距离，并根据最小距离对记录进行划分，得到k个子集，也就是k个簇；

S24、重新计算每个簇的中心点；

其中，C_ij表示第i(0<i<k)个簇在第j个属性(0<j<n)上的值，p表示第i个簇中总的记录行数，x_j1表示第i个簇中第一行记录在第j个属性上的值。

S25、循环步骤S22、S23，直到每个簇均不在发生变化或者达到最大迭代次数，最大迭代次数可由用户配置，默认为100。

通过这一步对监控属性的处理，得到k个子集，即k个簇。

S3、建立业务组合与性能指标的对应关系模型：

根据这k个子集的聚类中心取值进行降序排列，排序后的第一个子集资源消耗最多，在该子集中，统计每种业务组合的出现频率，确定每种业务组合的出现频率与资源消耗走势，建立业务组合与性能指标的对应关系模型。

其中，每种业务组合的出现频率与资源消耗走势可以柱形图方式展现。

S4、建立预测模型：

针对k个子集，利用决策树算法建立哪些业务组合规则可能出现性能瓶颈的预测模型。

在第二步基础上，针对k个子集，利用决策树算法(C4.5算法)进行性能指标预测，可获知哪些簇可能出现了性能瓶颈：

S41、利用下述公式计算各监控属性的信息增益率：

其中，N_A表示监控属性A上的样本集合，

表示监控属性A取值为m的数据记录中，属于类别C_i的数据记录数量。

S42、从属性集中选择信息增益率最大的监控属性F；

S43、根据监控属性F的每一个值v，及其阈值(阈值由用户通过配置文件设置，监控数据低于阈值说明系统运行良好，监控数据高于阈值则可能存在性能问题，如CPU的阈值一般设置为80％)将数据集划分为不同的子集DS₁、DS₂，对于每一个DS：

e2.根据监控属性F₁，讲DS进一步划分为两个子集；

S5、性能指标分析和预测：

基于所述业务组合与性能指标的对应关系模型和所述预测模型进行性能指标分析和预测。

S6、根据上述建立的学习模型，进行大数据算法的科学利用及结果展示。

如，

以折线图形式展现监控属性走势；

以柱状图形式展现各业务数据的性能开销，即哪些协议组合的性能开销较高，以及协议与监控结果间存在的规律。

通过以上步骤中的学习过程，已建立业务组合与性能指标的对应关系模型(步骤S2)及哪些业务组合规则可能出现性能瓶颈的预测模型(步骤S4)，基于此，当用户输入带有时间戳的业务数据到本系统时，模型即可判断是否可能存在性能瓶颈。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。