CN113393169A - 基于大数据技术的金融行业交易系统性能指标分析方法 - Google Patents
基于大数据技术的金融行业交易系统性能指标分析方法 Download PDFInfo
- Publication number
- CN113393169A CN113393169A CN202110791479.5A CN202110791479A CN113393169A CN 113393169 A CN113393169 A CN 113393169A CN 202110791479 A CN202110791479 A CN 202110791479A CN 113393169 A CN113393169 A CN 113393169A
- Authority
- CN
- China
- Prior art keywords
- data
- monitoring
- attribute
- performance
- subset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 44
- 238000005516 engineering process Methods 0.000 title claims abstract description 13
- 238000012544 monitoring process Methods 0.000 claims abstract description 87
- 238000003066 decision tree Methods 0.000 claims abstract description 14
- 238000004140 cleaning Methods 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims 1
- 238000011056 performance test Methods 0.000 description 5
- 239000008186 active pharmaceutical agent Substances 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Educational Administration (AREA)
- Probability & Statistics with Applications (AREA)
- Technology Law (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供了基于大数据技术的金融行业交易系统性能指标分析方法,涉及系统性能指标分析技术领域,该方法包括:获取金融行业交易系统的性能分析文件,对性能分析文件中的数据进行数据清洗;根据监控属性的取值,采用K均值算法将性能分析文件中所有数据划分为k个子集;根据k个子集的聚类中心取值进行降序排列,排序后的第一个子集资源消耗最多,在该子集中,统计每种业务组合的出现频率,确定每种业务组合的出现频率与资源消耗走势,建立业务组合与性能指标的对应关系模型;针对k个子集,利用决策树算法建立哪些业务组合规则可能出现性能瓶颈的预测模型;基于所述业务组合与性能指标的对应关系模型和所述预测模型进行性能指标分析和预测。
Description
技术领域
本发明涉及系统性能指标分析技术领域,尤其涉及适用于基于大数据技术的金融行业交易系统性能指标分析方法。
背景技术
在金融行业中,很多券商公司都会面临想要检测交易系统性能基线的情况。针对这一情况,传统的做法是:
制定性能测试方案:由专业的测试团队根据实际生产数据及对未来市场的预测拟定性能指标及测试场景(测试场景通常会限定交易阶段、协议类型、下单速率、总下单量等),必要时需要开发相应的性能测试工具;搭建测试环境:依据生产系统的环境部署搭建类似的性能测试环境;测试业务数据构造:根据测试场景,构造测试业务数据,或直接使用生产系统的真实数据做为测试业务数据;测试场景执行与监控:对各个测试场景逐一测试,并在测试过程中使用监控工具(如Windows系统中的Performance Counter工具、Linux系统中的Top命令等)采集机器性能指标;测试结果分析与报告:测试人员手动或者使用统计工具对性能指标进行分析,找出测试场景与测试结果之间的规律性及可能存在的噪点,根据分析结构得出交易系统性能指标。
该传统方法存在下列问题:
1、性能分析不够全面:在金融行业中,协议种类千差万别,协议的性能也各不相同,但现有的性能测试方案中,测试人员通常是根据性能场景的压力值及监控结果进行性能定位与分析,而忽略了测试业务数据(包含不同的协议)对监控结果的影响,如不同协议组合的性能开销走势,以及哪些协议组合下系统资源消耗更大;
2、不具备分析预测能力:金融行业每日的交易数据是GB级的,若仅仅为了验证某一交易日的性能问题而搭建测试环境,回放测试,会带来较大的人力与时间开销。
发明内容
有鉴于此,本发明提供了基于大数据技术的金融行业交易系统的性能指标分析方法,通过建立一种适用于金融行业交易系统的性能指标分析模型,尤其是建立一种性能测试场景与性能指标的相关性分析及性能指标预测模型,实现金融行业交易系统的全面性能指标分析以及预测。
为此,本发明提供了以下技术方案:
本发明提供了一种基于大数据技术的金融行业交易系统性能指标分析方法,所述方法包括:
S1、获取金融行业交易系统的测试业务数据及监控日志,将测试业务数据及监控日志这两个文件合并,得到性能分析文件,对所述性能分析文件中的数据进行数据清洗;
S2、根据监控属性的取值,采用K均值算法将性能分析文件中所有数据划分为多个子集,得到k个子集;
S3、根据这k个子集的聚类中心取值进行降序排列,排序后的第一个子集资源消耗最多,在该子集中,统计每种业务组合的出现频率,确定每种业务组合的出现频率与资源消耗走势,建立业务组合与性能指标的对应关系模型;
S4、针对k个子集,利用决策树算法建立哪些业务组合规则可能出现性能瓶颈的预测模型;
S5、基于所述业务组合与性能指标的对应关系模型和所述预测模型进行性能指标分析和预测。
进一步地,对所述性能分析文件中的数据进行数据清洗,包括:
对所述性能分析文件中的监控数据进行重复值处理,以及缺失值填充。
进一步地,所述重复值处理,包括:依据字段相似度规则,即字段之间的相似度S是根据两个字段的内容,利用如下公式而计算出来的一个表示两字段相似程度的数值:
S(s1,s2)=|s1–s2|/max(s1,s2);
其中,s表示监控数据的某一属性,s1、s2表示两行不同的性能分析记录,S表示监控数据中某两行在属性s上的相似程度,0<S<1,S越小,两字段的相似度越高。
进一步地,所述缺失值填充,包括:
当缺失测试业务数据时,处理规则是不予处理;
当缺失监控数据时,处理规则是根据该监控属性在其上下两条记录的取值的平均值来填充。
进一步地,K均值算法的详细处理流程包括:
设X={x1,x2,…,xn},X表示第一步中得到的文件中任意一行记录,具有n个可度量的监控属性;
S21、格式化处理,将监控数据的各个属性按比例映射到[0,1]区间,以平衡各个属性对后续计算结果的影响;
其中,x′i表示映射后的第i个监控属性;xi表示第i个监控属性,0<i<n,max(xi)、min(xi)分别表示第i个监控属性的最大值和最小值;
S22、从监控数据X中任意选择k行记录作为初始聚类中心C={c1,c2,…,cn},k值根据实际情况自由配置;
S23、根据k个聚类中心,计算数据中每行记录与这些聚类中心的距离,并根据最小距离对记录进行划分,得到k个子集;
S24、重新计算每个子集的中心点;
其中,Cij表示第i个子集在第j个属性上的值,0<i<k,0<j<n,p表示第i个子集中总的记录行数,xj1表示第i个子集中第一行记录在第j个属性上的值;
S25、循环步骤S22、S23,直到每个子集均不在发生变化或者达到最大迭代次数。
进一步地,利用决策树算法建立哪些业务组合规则可能出现性能瓶颈的预测模型,包括:
S41、利用下述公式计算各监控属性的信息增益率:
其中,NA表示监控属性A上的样本集合,表示在监控属性A的全部样本中属于类别Ci的样本数量,NAm表示监控属性A的取值为m的数据记录数量,表示监控属性A取值为m的数据记录中,属于类别Ci的数据记录数量;
S42、从属性集中选择信息增益率最大的监控属性F;
S43、根据监控属性F的每一个值v及其阈值,将数据集划分为不同的子集,对于每一个子集:
e1.计算各监控属性的信息增益率,并选择信息增益率最大的监控属性F1;
e2.根据监控属性F1,将所述子集进一步划分为两个子集;
e3.若子集为空,则该子集处理结束,若子集不为空,则对每一个子集,重复步骤e1、e2。
进一步地,还包括:大数据算法的科学利用及结果的展示,包括:
以折线图形式展现监控属性走势;
以柱状图形式展现各业务数据的性能开销。
本发明的优点和积极效果:
本发明提供了更加全面的性能结果分析模型,不仅仅是监控结果的分析,而且还可以帮助测试人员发现隐藏的测试数据与监控数据间的关联关系;本发明可辅助用于性能预测,即借由本发明,用户无需进行现场实测,只需要提供测试数据,就可自动建模,预测可能的监控指标走势,降低了测试与运维成本;本发明中的算法对非线性关系的适应性较好,保证了预测结果的准确度;同一套交易系统,部署在不同配置的机器上,监控指标是有区别的,通过本发明中基于的监督学习模型,用户可调整训练参数,使模型适应当前机器配置,从而保证预测结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为决策树算法结构图;
图2为本发明实施例中适用于金融行业的基于大数据技术的性能指标分析方法的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明的产品为独立的客户端软件,可部署于任何Windows机器上,使用者只需将测试业务数据及监控数据(包括CPU利用率、内存利用率、磁盘利用率)导入该软件,其即可自动进行性能指标分析模型建模。
本发明中的性能指标分析主要基于决策树算法。
决策树是附加概率结果的一个树状决策图(如图1所示),在机器学习中,决策树表示对象属性和对象值之间的一种映射,树中每一个节点表示对象属性的判断条件,其分支表示符合节点条件的对象,而叶子节点表示对象所属的预测结果。由于决策树具有易于理解和解释,无论是离散型数据还是连续型数据都可以使用等优点,其在分析数据与预测方面得到广泛应用。
参见图2,本发明实施例中基于决策树算法的性能指标分析模型具体实现过程如下:
S1、数据获取及数据清洗:
本发明实施例的输入数据是测试业务数据及监控日志,测试业务数据即包含要压入交易系统的各种协议的数据,该数据可以从交易系统的日志文件提取也可以由测试人员构造。
由于测试业务数据及监控日志中均会含有无用数据,且格式并不符合需求,数据清洗步骤将把这两个文件合并,得到以时间戳为标志位、换行符为分割符的数据文件,称为性能分析文件,文件前两列为日期与时间,后面跟随n个监控属性,监控属性后面以420开头的称为业务属性,类似如下格式(以第一行为例:“20161201”为日期属性,“8:43:05”为时间属性,“50%”为CPU属性,“40%”为内存利用率属性,“60%”为磁盘利用率属性,“70%”为网络流量属性,其后以420开头的多个属性代表生产系统实际收到的协议的功能号,“420411”为委托,“420501”为股东查询,“420502”为资金查询,“420503”为股份明细查询):
20161201 8:43:05 50%40%60%70%420411 420501 420502 420503
20161201 8:43:06 51%40%60%70%420411 420501 420502 420503
……
数据清洗的具体过程包括对监控数据的重复值处理,以及缺失值填充:
S11、重复值处理:重复值处理主要依据字段相似度规则,即字段之间的相似度S是根据两个字段的内容,利用如下公式而计算出来的一个表示两字段相似程度的数值:
S(s1,s2)=|s1–s2|/max(s1,s2)(1)
其中,s表示监控数据的某一属性,s1、s2表示两行不同的性能分析记录,S表示监控数据中某两行在属性s上的相似程度,0<S<1,S越小,两字段的相似度越高。
S12、缺失值填充:文件合并指将测试业务数据与监控日志根据时间(时间精度默认为秒,可通过配置文件进行配置)合并为一个文件。
当这两个数据文件存在无法完全匹配的数据时(即某一时间点只有测试业务数据而没有或缺失部分监控数据,或者只有监控数据而无测试业务数据),则需要进行缺失值处理,具体的处理规则取决于缺失数据。当缺失测试业务数据时,处理规则是不予处理;当缺失监控数据时,处理规则是平均值填充,即根据该监控属性在其上下两条记录的取值的平均值来填充。
S2、K均值聚类:这一步根据监控属性的取值,将性能分析文件中所有数据划分为多个子集,进而可获知哪些业务属性组合的性能开销更高。
设X={x1,x2,…,xn},X表示第一步中得到的文件中任意一行记录,具有n个可度量的监控属性(不包括业务属性),K均值算法(K-means)的详细处理流程为:
S21、格式化处理。将监控数据的各个属性按比例映射到[0,1]区间,以平衡各个属性对后续计算结果的影响。
其中,x′i表示映射后的第i个监控属性;xi表示第i个监控属性,0<i<n,max(xi)、min(xi)分别表示第i个监控属性的最大值和最小值;
S22、从监控数据X中任意选择k行记录最为初始聚类中心,C={c1,c2,…,cn},k值选择可根据实际情况自由配置,默认为20;
S23、根据k个聚类中心,使用公式(3)计算数据中每行记录与这些聚类中心的距离,并根据最小距离对记录进行划分,得到k个子集,也就是k个簇;
S24、重新计算每个簇的中心点;
其中,Cij表示第i(0<i<k)个簇在第j个属性(0<j<n)上的值,p表示第i个簇中总的记录行数,xj1表示第i个簇中第一行记录在第j个属性上的值。
S25、循环步骤S22、S23,直到每个簇均不在发生变化或者达到最大迭代次数,最大迭代次数可由用户配置,默认为100。
通过这一步对监控属性的处理,得到k个子集,即k个簇。
S3、建立业务组合与性能指标的对应关系模型:
根据这k个子集的聚类中心取值进行降序排列,排序后的第一个子集资源消耗最多,在该子集中,统计每种业务组合的出现频率,确定每种业务组合的出现频率与资源消耗走势,建立业务组合与性能指标的对应关系模型。
其中,每种业务组合的出现频率与资源消耗走势可以柱形图方式展现。
S4、建立预测模型:
针对k个子集,利用决策树算法建立哪些业务组合规则可能出现性能瓶颈的预测模型。
在第二步基础上,针对k个子集,利用决策树算法(C4.5算法)进行性能指标预测,可获知哪些簇可能出现了性能瓶颈:
S41、利用下述公式计算各监控属性的信息增益率:
其中,NA表示监控属性A上的样本集合,表示在监控属性A的全部样本中属于类别Ci的样本数量,NAm表示监控属性A的取值为m的数据记录数量,表示监控属性A取值为m的数据记录中,属于类别Ci的数据记录数量。
S42、从属性集中选择信息增益率最大的监控属性F;
S43、根据监控属性F的每一个值v,及其阈值(阈值由用户通过配置文件设置,监控数据低于阈值说明系统运行良好,监控数据高于阈值则可能存在性能问题,如CPU的阈值一般设置为80%)将数据集划分为不同的子集DS1、DS2,对于每一个DS:
e1.计算各监控属性的信息增益率,并选择信息增益率最大的监控属性F1;
e2.根据监控属性F1,讲DS进一步划分为两个子集;
e3.若子集为空,则该子集处理结束,若子集不为空,则对每一个子集,重复步骤e1、e2。
S5、性能指标分析和预测:
基于所述业务组合与性能指标的对应关系模型和所述预测模型进行性能指标分析和预测。
S6、根据上述建立的学习模型,进行大数据算法的科学利用及结果展示。
如,
以折线图形式展现监控属性走势;
以柱状图形式展现各业务数据的性能开销,即哪些协议组合的性能开销较高,以及协议与监控结果间存在的规律。
通过以上步骤中的学习过程,已建立业务组合与性能指标的对应关系模型(步骤S2)及哪些业务组合规则可能出现性能瓶颈的预测模型(步骤S4),基于此,当用户输入带有时间戳的业务数据到本系统时,模型即可判断是否可能存在性能瓶颈。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (7)
1.一种基于大数据技术的金融行业交易系统性能指标分析方法,其特征在于,所述方法包括:
S1、获取金融行业交易系统的测试业务数据及监控日志,将测试业务数据及监控日志这两个文件合并,得到性能分析文件,对所述性能分析文件中的数据进行数据清洗;
S2、根据监控属性的取值,采用K均值算法将性能分析文件中所有数据划分为k个子集;
S3、根据k个子集的聚类中心取值进行降序排列,排序后的第一个子集资源消耗最多,在该子集中,统计每种业务组合的出现频率,确定每种业务组合的出现频率与资源消耗走势,建立业务组合与性能指标的对应关系模型;
S4、针对k个子集,利用决策树算法建立哪些业务组合规则可能出现性能瓶颈的预测模型;
S5、基于所述业务组合与性能指标的对应关系模型和所述预测模型进行性能指标分析和预测。
2.根据权利要求1所述的一种基于大数据技术的金融行业交易系统性能指标分析方法,对所述性能分析文件中的数据进行数据清洗,包括:
对所述性能分析文件中的监控数据进行重复值处理,以及缺失值填充。
3.根据权利要求2所述的一种基于大数据技术的金融行业交易系统性能指标分析方法,所述重复值处理,包括:依据字段相似度规则,即字段之间的相似度S是根据两个字段的内容,利用如下公式而计算出来的一个表示两字段相似程度的数值:
S(s1,s2)=|s1-s2|/max(s1,s2);
其中,s表示监控数据的某一属性,s1、s2表示两行不同的性能分析记录,S表示监控数据中某两行在属性s上的相似程度,0<S<1,S越小,两字段的相似度越高。
4.根据权利要求2所述的一种基于大数据技术的金融行业交易系统性能指标分析方法,所述缺失值填充,包括:
当缺失测试业务数据时,处理规则是不予处理;
当缺失监控数据时,处理规则是根据该监控属性在其上下两条记录的取值的平均值来填充。
5.根据权利要求2所述的一种基于大数据技术的金融行业交易系统性能指标分析方法,其特征在于,K均值算法的详细处理流程包括:
设X={x1,x2,...,xn},X表示第一步中得到的文件中任意一行记录,具有n个可度量的监控属性;
S21、格式化处理,将监控数据的各个属性按比例映射到[0,1]区间,以平衡各个属性对后续计算结果的影响;
其中,x′i表示映射后的第i个监控属性;xi表示第i个监控属性,0<i<n,max(xi)、min(xi)分别表示第i个监控属性的最大值和最小值;
S22、从监控数据X中任意选择k行记录作为初始聚类中心C={c1,c2,...,cn},k值根据实际情况自由配置;
S23、根据k个聚类中心,计算数据中每行记录与这些聚类中心的距离,并根据最小距离对记录进行划分,得到k个子集;
S24、重新计算每个子集的中心点;
其中,Cij表示第i个子集在第j个属性上的值,0<i<k,0<j<n,p表示第i个子集中总的记录行数,xj1表示第i个子集中第一行记录在第j个属性上的值;
S25、循环步骤S22、S23,直到每个子集均不在发生变化或者达到最大迭代次数。
6.根据权利要求1所述的一种基于大数据技术的金融行业交易系统性能指标分析方法,其特征在于,利用决策树算法建立哪些业务组合规则可能出现性能瓶颈的预测模型,包括:
S41、利用下述公式计算各监控属性的信息增益率:
其中,NA表示监控属性A上的样本集合,表示在监控属性A的全部样本中属于类别Ci的样本数量,NAm表示监控属性A的取值为m的数据记录数量,表示监控属性A取值为m的数据记录中,属于类别Ci的数据记录数量;
S42、从属性集中选择信息增益率最大的监控属性F;
S43、根据监控属性F的每一个值v及其阈值,将数据集划分为不同的子集,对于每一个子集:
e1.计算各监控属性的信息增益率,并选择信息增益率最大的监控属性F1;
e2.根据监控属性F1,将所述子集进一步划分为两个子集;
e3.若子集为空,则该子集处理结束,若子集不为空,则对每一个子集,重复步骤e1、e2。
7.根据权利要求1所述的一种基于大数据技术的金融行业交易系统性能指标分析方法,其特征在于,还包括:大数据算法的科学利用及结果的可视化展示,包括:
以折线图形式展现监控属性走势;
以柱状图形式展现各业务数据的性能开销。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110791479.5A CN113393169B (zh) | 2021-07-13 | 2021-07-13 | 基于大数据技术的金融行业交易系统性能指标分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110791479.5A CN113393169B (zh) | 2021-07-13 | 2021-07-13 | 基于大数据技术的金融行业交易系统性能指标分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113393169A true CN113393169A (zh) | 2021-09-14 |
CN113393169B CN113393169B (zh) | 2024-03-01 |
Family
ID=77626125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110791479.5A Active CN113393169B (zh) | 2021-07-13 | 2021-07-13 | 基于大数据技术的金融行业交易系统性能指标分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113393169B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117952658A (zh) * | 2024-03-26 | 2024-04-30 | 江西省科技事务中心 | 基于大数据的城市资源配置和产业特色分析方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090171879A1 (en) * | 2007-12-28 | 2009-07-02 | Software Ag | Systems and/or methods for prediction and/or root cause analysis of events based on business activity monitoring related data |
CN106897109A (zh) * | 2017-02-13 | 2017-06-27 | 云南大学 | 基于随机森林回归的虚拟机性能预测方法 |
CN107908536A (zh) * | 2017-11-17 | 2018-04-13 | 华中科技大学 | Cpu‑gpu异构环境中对gpu应用的性能评估方法及系统 |
CN109684302A (zh) * | 2018-12-04 | 2019-04-26 | 平安科技(深圳)有限公司 | 数据预测方法、装置、设备及计算机可读存储介质 |
AU2019101189A4 (en) * | 2019-10-02 | 2020-01-23 | Han, Ming MISS | A financial mining method for credit prediction |
CN110912737A (zh) * | 2019-11-14 | 2020-03-24 | 国网浙江省电力有限公司信息通信分公司 | 一种基于混合模型的动态感知性能预告警方法 |
CN111242206A (zh) * | 2020-01-08 | 2020-06-05 | 吉林大学 | 一种基于层次聚类和随机森林的高分辨率海洋水温计算方法 |
-
2021
- 2021-07-13 CN CN202110791479.5A patent/CN113393169B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090171879A1 (en) * | 2007-12-28 | 2009-07-02 | Software Ag | Systems and/or methods for prediction and/or root cause analysis of events based on business activity monitoring related data |
CN106897109A (zh) * | 2017-02-13 | 2017-06-27 | 云南大学 | 基于随机森林回归的虚拟机性能预测方法 |
CN107908536A (zh) * | 2017-11-17 | 2018-04-13 | 华中科技大学 | Cpu‑gpu异构环境中对gpu应用的性能评估方法及系统 |
CN109684302A (zh) * | 2018-12-04 | 2019-04-26 | 平安科技(深圳)有限公司 | 数据预测方法、装置、设备及计算机可读存储介质 |
AU2019101189A4 (en) * | 2019-10-02 | 2020-01-23 | Han, Ming MISS | A financial mining method for credit prediction |
CN110912737A (zh) * | 2019-11-14 | 2020-03-24 | 国网浙江省电力有限公司信息通信分公司 | 一种基于混合模型的动态感知性能预告警方法 |
CN111242206A (zh) * | 2020-01-08 | 2020-06-05 | 吉林大学 | 一种基于层次聚类和随机森林的高分辨率海洋水温计算方法 |
Non-Patent Citations (2)
Title |
---|
冯赟龙,刘勇,何王全: "一种基于深度学习的性能分析框架设计与实现", 《计算机工程与科学》, 15 June 2018 (2018-06-15), pages 984 - 991 * |
邹方林,冷晟,廉鹏飞,晁翠华: "基于决策树的制造瓶颈改善方法", 《现代制造工程》, 18 June 2016 (2016-06-18), pages 121 - 128 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117952658A (zh) * | 2024-03-26 | 2024-04-30 | 江西省科技事务中心 | 基于大数据的城市资源配置和产业特色分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113393169B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6834266B2 (en) | Methods for estimating the seasonality of groups of similar items of commerce data sets based on historical sales data values and associated error information | |
CN104756106B (zh) | 表征数据存储系统中的数据源 | |
CN107993143A (zh) | 一种信贷风险评估方法及系统 | |
CN109934268B (zh) | 异常交易检测方法及系统 | |
CN108053087A (zh) | 反洗钱监测方法、设备及计算机可读存储介质 | |
US20100153330A1 (en) | Proactive Information Technology Infrastructure Management | |
CN109189861A (zh) | 基于指标的数据流统计方法、服务器及存储介质 | |
CN111984442A (zh) | 计算机集群系统的异常检测方法及装置、存储介质 | |
CN106612216A (zh) | 网站访问异常的检测方法及装置 | |
CN113051291A (zh) | 工单信息的处理方法、装置、设备及存储介质 | |
US8577776B2 (en) | Risk and reward assessment mechanism | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
CN111191720A (zh) | 一种业务场景的识别方法、装置及电子设备 | |
CN114022051A (zh) | 一种指标波动分析方法,存储介质和电子设备 | |
CN112631889B (zh) | 针对应用系统的画像方法、装置、设备及可读存储介质 | |
CN113393169A (zh) | 基于大数据技术的金融行业交易系统性能指标分析方法 | |
CN107480703A (zh) | 交易故障检测方法及装置 | |
CN116383645A (zh) | 一种基于异常检测的系统健康度智能监测评估方法 | |
CN112765553B (zh) | 一种基于大数据的工程项目管理系统 | |
US8108363B2 (en) | Computer product, method, and apparatus for analyzing computer system | |
CN114140241A (zh) | 一种交易监控指标的异常识别方法及装置 | |
CN112308419A (zh) | 数据处理方法、装置、设备及计算机存储介质 | |
CN108647298A (zh) | 一种三七数据的处理系统 | |
CN117371861B (zh) | 基于数字化的家政服务质量智能分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |