CN112148747A - 一种基于r语言的交易系统日志分析方法及装置 - Google Patents

一种基于r语言的交易系统日志分析方法及装置 Download PDF

Info

Publication number
CN112148747A
CN112148747A CN202010932728.3A CN202010932728A CN112148747A CN 112148747 A CN112148747 A CN 112148747A CN 202010932728 A CN202010932728 A CN 202010932728A CN 112148747 A CN112148747 A CN 112148747A
Authority
CN
China
Prior art keywords
data
transaction
specified
analysis
data item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010932728.3A
Other languages
English (en)
Inventor
杨建旭
周国威
霍玉豹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yinqing Technology Co ltd
Original Assignee
Yinqing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yinqing Technology Co ltd filed Critical Yinqing Technology Co ltd
Priority to CN202010932728.3A priority Critical patent/CN112148747A/zh
Publication of CN112148747A publication Critical patent/CN112148747A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/2445Data retrieval commands; View definitions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/389Keeping log of transactions for guaranteeing non-repudiation of a transaction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Accounting & Taxation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种基于R语言的交易系统日志分析方法及装置,所述方法包括:从交易系统日志中获取指定数据项的数据样本;将指定数据项的数据样本存储到数据库;载入R语言运行环境;从数据库获取预设时间段的指定数据项的数据样本;通过R语言运行环境对预设时间段的指定数据项的数据样本进行分析计算,获得指定数据项的统计结果和交易数据分布情况,交易数据分布情况包括分位数统计分析图、散点分布图、二项分布直方图和密度函数图;将指定数据项的统计结果和交易数据分布情况输出到指定文件。所述装置用于执行上述方法。本发明实施例提供的基于R语言的交易系统日志分析方法及装置,有利于后续对交易数据的分析,提高对交易数据分析的准确性。

Description

一种基于R语言的交易系统日志分析方法及装置
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于R语言的交易系统日志分析方法及装置。
背景技术
交易系统日志会记录在交易过程中产生的数据,通过对交易系统日志的分析,可以获得交易平均响应时间、交易最大响应时间、交易报文平均字节数、交易报文最大字节数等重要数据。
现有技术中,可以采用计算机程序直接统计交易系统日志相关数据。例如可采用静态语言(如Java)或动态语言(如Shell、Awk)编写上述计算机程序。上述计算机程序在执行过程中计算交易平均响应时间等统计数据,并记录交易最大响应时间等特殊数据。但是,如果需要统计的数据项发生变更,需要重新改写程序并重新运行,改写程序非常耗时,并且在日志数据量较大的情况下,重新运行程序也非常耗时。此外,还可以将采用计算机程序将所有交易系统日志中的重要数据提取并存入数据库,后续通过数据库SQL查询语句查询交易平均响应时间、交易最大响应时间、交易报文平均字节数的数据项。但是,无法查看到数据的分布情况,在进行交易系统的性能分析时,会影响到分析的准确性。
发明内容
针对现有技术中的问题,本发明实施例提供一种基于R语言的交易系统日志分析方法及装置,能够至少部分地解决现有技术中存在的问题。
一方面,本发明提出一种基于R语言的交易系统日志分析方法,包括:
从交易系统日志中获取指定数据项的数据样本;
将所述指定数据项的数据样本存储到数据库;
载入R语言运行环境;
从所述数据库获取预设时间段的指定数据项的数据样本;
通过所述R语言运行环境对所述预设时间段的指定数据项的数据样本进行分析计算,获得所述指定数据项的统计结果和交易数据分布情况;其中,所述交易数据分布情况包括分位数统计分析图、散点分布图、二项分布直方图和密度函数图;
将所述指定数据项的统计结果和交易数据分布情况输出到指定文件。
另一方面,本发明提供一种基于R语言的交易系统日志分析装置,包括:
第一获取单元,用于从交易系统日志中获取指定数据项的数据样本;
存储单元,用于将所述指定数据项的数据样本存储到数据库;
载入单元,用于载入R语言运行环境;
第二获取单元,用于从所述数据库获取预设时间段的指定数据项的数据样本;
分析单元,用于通过所述R语言运行环境对所述预设时间段的指定数据项的数据样本进行分析计算,获得所述指定数据项的统计结果和交易数据分布情况;其中,所述交易数据分布情况包括分位数统计分析图、散点分布图、二项分布直方图和密度函数图;
输出单元,用于将所述指定数据项的统计结果和交易数据分布情况输出到指定文件。
再一方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述基于R语言的交易系统日志分析方法的步骤。
又一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述基于R语言的交易系统日志分析方法的步骤。
本发明实施例提供的基于R语言的交易系统日志分析方法及装置,从交易系统日志中获取指定数据项的数据样本,将指定数据项的数据样本存储到数据库,载入R语言运行环境,从数据库获取预设时间段的指定数据项的数据样本,通过R语言运行环境对预设时间段的指定数据项的数据样本进行分析计算,获得指定数据项的统计结果和包括分位数统计分析图、散点分布图、二项分布直方图和密度函数图的交易数据分布情况,将指定数据项的统计结果和交易数据分布情况输出到指定文件,有利于后续对交易数据的分析,提高对交易数据分析的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一实施例提供的基于R语言的交易系统日志分析方法的流程示意图。
图2是本发明另一实施例提供的基于R语言的交易系统日志分析方法的流程示意图。
图3是本发明又一实施例提供的基于R语言的交易系统日志分析方法的流程示意图。
图4是本发明再一实施例提供的基于R语言的交易系统日志分析方法的流程示意图。
图5是本发明一实施例提供的交易响应时间的散点分布图的示意图。
图6是本发明一实施例提供的交易响应时间的密度函数图的示意图。
图7是本发明一实施例提供的基于R语言的交易系统日志分析装置的结构示意图。
图8是本发明另一实施例提供的基于R语言的交易系统日志分析装置的结构示意图。
图9是本发明又一实施例提供的基于R语言的交易系统日志分析装置的结构示意图。
图10是本发明再一实施例提供的基于R语言的交易系统日志分析装置的结构示意图。
图11是本发明一实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1是本发明一实施例提供的基于R语言的交易系统日志分析方法的流程示意图,如图1所示,本发明实施例提供的基于R语言的交易系统日志分析方法,包括:
S101、从交易系统日志中获取指定数据项的数据样本;
具体地,交易系统日志会在交易发生时实时记录交易相关数据,其中交易相关数据包括所述指定数据项的数据样本。所述服务器可以从所述交易系统日志中获取所述指定数据项的数据样本。其中,本发明实施例提供的交易数据的分析方法的执行主体包括但不限于服务器。
例如,所述指定数据项可以包括交易序号、交易开始处理时间、交易结束处理时间、交易响应时间、报文长度和交易类型。所述服务器在从所述交易系统日志中获取上述指定数据项的数据样本时,可以根据需要处理的所述交易系统日志的文件总数及设定的线程数,计算每个线程需处理的文件数量,然后通过多个线程并行处理所述交易系统日志,获得上述指定数据项的数据样本。其中,通过多线程并行处理交易系统日志,可以提高从交易系统日志中获取交易数据的效率。设定的线程数根据实际情况进行设置,本发明实施例不做限定。
S102、将所述指定数据项的数据样本存储到数据库;
具体地,所述服务器在获得所述指定数据项的数据样本之后,然后将所述指定数据项的数据样本存储到所述数据库中。其中,可以通过SQL语句将上述指定数据项的数据样本存到数据库中。
S103、载入R语言运行环境;
具体地,所述服务器可以载入R语言运行环境,以便在R语言的运行环境下对指定数据项的数据样本进行分析。
例如,在Linux环境载入R语言运行环境可以通过如下命令语句实现:>${R_HOME}/bin/R,其中,#${R_HOME}为R语言安装路径。在Windows环境载入R语言运行环境可以通过如下命令语句实现:>%R_HOME%\bin\R.exe,其中,#%R_HOME%为R语言安装路径。
S104、从所述数据库获取预设时间段的指定数据项的数据样本;
具体地,所述在载入R语言运行环境之后,所述服务器可以访问数据库,从数据库获取预设时间段的指定数据项的交易数据。所述预设时间段根据实际需要进行设置,例如过去7天或1个月,根据本发明实施例不做限定。
S105、通过所述R语言运行环境对所述预设时间段的指定数据项的数据样本进行分析计算,获得所述指定数据项的统计结果和交易数据分布情况;其中,所述交易数据分布情况包括分位数统计分析图、散点分布图、二项分布直方图和密度函数图;
具体地,所述服务器在获得所述指定数据项的交易数据之后,可以通过所述R语言运行环境对所述预设时间段的指定数据项的数据样本进行分析,能够得到所述指定数据项的统计结果和交易数据分布情况,所述统计结果包括但不限于所述预设时间段的交易平均响应时间、所述预设时间段的交易最大响应时间,所述预设时间段的交易报文平均字节数等,根据实际需要进行设置,本发明实施例不做限定。所述交易数据分布情况包括分位数统计分析图、散点分布图、二项分布直方图和密度函数图。
S106、将所述指定数据项的统计结果和交易数据分布情况输出到指定文件。
具体地,所述服务器在获得所述指定数据项的统计结果和交易数据分布情况之后,可以将所述指定数据项的统计结果和交易数据分布情况输出到指定文件。其中,所述指定文件是用户指定的。
例如,所述交易分析服务器通过sink函数实现数据的重定向输出。
所述交易分析服务器执行如下命令语句实现数据的重定向输出。
>>sink("output.txt",append=FALSE,split=FALSE)
>>sink()
其中,参数append=FALSE表示不追加,参数split=FALSE表示只输出到文件中,output.txt是用户指定的输出文件,>>sink()表示结束输出。
所述交易分析服务器执行如下命令语句实现图片的重定向输出。
>>png(file="MQTIME.jpg")
>>graphics.off()
其中,MQTIME.jpg是用户指定的图片输出文件,>>graphics.off()表示结束输出。
本发明实施例提供的基于R语言的交易系统日志分析方法,从交易系统日志中获取指定数据项的数据样本,将指定数据项的数据样本存储到数据库,载入R语言运行环境,从数据库获取预设时间段的指定数据项的数据样本,通过R语言运行环境对预设时间段的指定数据项的数据样本进行分析计算,获得指定数据项的统计结果和包括分位数统计分析图、散点分布图、二项分布直方图和密度函数图的交易数据分布情况,将指定数据项的统计结果和交易数据分布情况输出到指定文件,有利于后续对交易数据的分析,提高对交易数据分析的准确性。
图2是本发明另一实施例提供的基于R语言的交易系统日志分析方法的流程示意图,如图2所示,在上述各实施例的基础上,进一步地,所述从交易系统日志中获取指定数据项的数据样本包括:
S1011、根据待处理的交易系统日志的文件总数以及预设线程数量,计算每个线程处理的文件数量;
具体地,所述服务器可以统计获得待处理的交易系统日志的文件总数以及预设线程数量,然后根据待处理的交易系统日志的文件总数以及预设线程数量,计算每个线程处理的文件数量。
S1012、通过各个线程并行处理对应的文件,获得所述指定数据性的数据样本。
具体地,所述服务器在获得每个线程处理的文件数量之后,通过各个线程并行处理对应的文件,可以获得所述指定数据性的数据样本。
图3是本发明又一实施例提供的基于R语言的交易系统日志分析方法的流程示意图,如图3所示,在上述各实施例的基础上,进一步地,所述从所述数据库获取预设时间段的指定数据项的数据样本包括:
S1041、接收用户指定的所述预设时间段;
具体地,用户可以指定待分析的交易日志时间段,所述服务器可以接收用户指定的待分析的交易日志时间段,作为所述预设时间段。
S1042、连接所述数据库,根据所述预设时间段从所述数据库获取所述指定数据性的数据样本。
具体地,所述服务器可以与所述数据库建立连接,然后根据所述预设时间段从所述数据库获取所述指定数据性的数据样本。
图4是本发明再一实施例提供的基于R语言的交易系统日志分析方法的流程示意图,如图4所示,在上述各实施例的基础上,进一步地,所述通过所述R语言运行环境对所述预设时间段的指定数据项的数据样本进行分析计算包括:
S1051、对所述指定数据项的数据样本进行数据预处理,所述数据预处理包括采用order函数进行数据排序和采用na.omit函数进行不合规数据的剔除;
具体地,所述服务器可以对所述指定数据项的交易数据进行预处理,所述数据预处理包括采用order函数进行数据排序和采用na.omit函数进行不合规数据的剔除。其中,所述不合规数据可以是缺失值或者超出正常数据范围的无效值。
S1052、对数据预处理后的所述指定数据项的数据样本进行常规统计项分析、分位数统计分析、散点分布图绘制、二项分布直方图绘制和密度函数图绘制;其中,采用summary函数进行常规统计项分析,采用quantile函数进行分位数统计分析,采用plot函数进行散点分布图绘制,采用hist函数进行二项分布直方图绘制,采用density函数进行密度函数图绘制。
具体地,所述服务器在对所述指定数据项的数据样本进行数据预处理之后,可以对数据预处理后的所述指定数据项的数据样本进行常规统计项分析,常规统计项包括预设时间段的交易平均响应时间、预设时间段的交易最大响应时间等。所述服务器可以采用summary函数进行常规统计项分析。所述服务器还可以对数据预处理后的所述指定数据项的数据样本进行分位数统计分析、散点分布图绘制、二项分布直方图绘制和密度函数图绘制,可以采用quantile函数进行分位数统计分析,采用plot函数进行散点分布图绘制,采用hist函数进行二项分布直方图绘制,采用density函数进行密度函数图绘制。
其中,交易数据分布情况对于交易系统的性能分析非常重要。例如,某个交易系统所有交易的平均响应时间是20毫秒,如果不知道交易数据分布情况,可能会误以为大多数交易的响应时间在20毫秒左右;但许多交易系统的响应时间分布可能是95%的交易的响应时间低于平均响应时间,甚至99%的交易的响应时间低于平均响应时间。因此,如果不掌握交易数据分布情况,在后续进行交易系统性能分析时,存在影响分析的准确性,甚至导致误判的风险。
在上述各实施例的基础上,进一步地,所述指定数据项可以包括交易序号、交易开始处理时间、交易结束处理时间、交易响应时间、报文长度和交易类型。
下面以一个具体的实施例来说明本发明实施例提供的交易数据的分析方法的实现过程。
1、交易分析服务器从交易系统日志中获取所述指定数据项的交易数据存储到所述数据库。其中,所述指定数据项包括交易序号、交易开始处理时间、交易结束处理时间、交易响应时间、报文长度、交易类型。
(1)所述交易分析服务器根据需要处理的所述交易系统日志的文件总数a和设定的线程数b,计算出每个线程需要处理的文件数量为a/b;
(2)所述交易分析服务器启动b个线程并行从交易系统日志中提取所述指定数据项的交易数据。
(3)所述交易分析服务器将所述指定数据项的交易数据存储到数据库。
可以将交易序号、交易开始处理时间、交易结束处理时间、交易响应时间、报文长度、交易类型的交易数据通过SQL语句存储到数据库中。
例如,将上述指定数据项的交易数据存入到数据库的msgInfo表中:INSERT INTOmsgInfo(msgID,msgType,msgStartTimeStr,msgEndTimeStr,RPTIME,msgLength)VALUES(?,?,?,?,?,?)
表1为msgInfo表中数据项的说明,如表1所示,各个指定数据项在msgInfo表中具有唯一对应的字段标识,并设置了每个数据项的数据类型。
表1msgInfo表中数据项的说明
字段标识 数据类型 数据项
msgID 整型 交易序号
msgType 字符型 交易类型
msgStartTimeStr 字符型 交易开始处理时间
msgEndTimeStr 字符型 交易结束处理时间
RPTIME 整型 交易响应时间
msgLength 整型 报文长度
2、载入R语言运行环境。
所述交易分析服务器执行如下命令语句,载入R语言运行环境。
(1)在Linux环境载入R语言运行环境
#${R_HOME}为R语言安装路径
>${R_HOME}/bin/R
(2)Windows环境载入R语言运行环境
#%R_HOME%为R语言安装路径
>%R_HOME%\bin\R.exe
3、从数据库获取预设时间段的指定数据项的交易数据。
(1)所述交易分析服务器接收用户设置的预设时间段。
(2)所述交易分析服务器根据用户设置的预设时间段,连接数据库并将预设时间段的指定数据项的交易数据从数据库中读出。
以MySQL数据库为例,所述交易分析服务器执行如下命令语句获得所述指定数据项的交易数据。其中,mysqlconnection为数据库连接。
>>data<-dbSendQuery(mysqlconnection,"select msgID,msgType,msgStartTimeStr,msgEndTimeStr,RPTIME,msgLength from msgInfo")
4、通过R语言对所述指定数据项的交易数据进行分析。
(1)所述交易分析服务器对所述指定数据项的交易数据进行预处理。
所述交易分析服务器采用order函数进行数据排序及采用na.omit函数对不合规数据的剔除。
例如,所述交易分析服务器执行如下命令语句对交易数据按照msgStartTimeStr项进行排序:
>>sortedData<-data[order(data$msgStartTimeStr),]
所述交易分析服务器执行如下命令语句去除交易响应时间中的缺失数据:
>>processTime<-na.omit(sortedData$RPTIME)
(2)输出所述指定数据项的统计结果和交易数据分布情况
对所述指定数据项的交易数据进行分析之后,可以输出上述指定数据项的统计结果和交易数据分布情况。
上述指定数据项的统计结果可以包括预设时间段的交易平均响应时间和预设时间段的交易最大响应时间。所述交易分析服务器可以采用summary函数进行交易数据的分析,输出上述指定数据项的统计结果。其中,summary函数可以提供最小值、最大值、四分位数和数值型变量的均值。
例如,所述交易分析服务器可以执行如下命令语句,获得交易数据的最小值、最大值、四分位数和数值型变量的均值:
>>sumResult<-summary(processTime)
所述交易分析服务器可以执行如下命令语句,输出交易数据的最小值、最大值、四分位数和数值型变量的均值:
>>print(sumResult)
交易数据分布情况可以包括分位数统计分析图、散点分布图、二项分布直方图和密度函数图。所述交易分析服务器采用quantile函数进行分位数统计分析图的绘制,输出分位数统计分析图,采用plot函数进行散点分布图的绘制,采用hist函数进行二项分布直方图的绘制,采用density函数进行密度函数图的绘制。
分位数(Quantile),亦称分位点,是指将一个有限集合分为几个等份的数值点,如中位数(即二分位数)就是集合排序后总元素数的一半的位置。quantile函数是分位数函数,第N个分位数就表示数据集中有N%的数据小于它。
所述交易分析服务器执行如下命令语句,使seq函数在0.95~1之间产生了一个步长为0.01的序列,输出结果如表2所示,即共有95%,96%,97%,98%,99%和100%共6组数据序列,交易数据中95%的处理时间小于191.4800毫秒,99%的处理时间小于324.5680毫秒。其中,参数probs传入截取位置,na.rm=TRUE时,允许数据中有数据缺失。
>>quanResult<-quantile(processTime,probs=seq(0.95,1,0.01),na.rm=TRUE)
>>print(quanResult)
表2分位数统计数据
95% 96% 97% 98% 99% 100%
191.4800 199.6172 211.7808 239.5936 324.5680 964.9700
所述交易分析服务器通过plot()函数绘制x-y平面图的散点分布图,用法:plot(x=x轴数据,main="标题",ylab="y轴名称"),执行的命令语句如下:
>>plot(x=processTime,main="RPTIME",ylab="RPTIME(ms)")
绘制的交易响应时间的散点分布图如图5所示。
所述交易分析服务器通过hist函数绘制直方图的命令语句如下:
>>hist(processTime,breaks=100,prob=T,main="RPTIME",xlab="RPTIME(ms)")
其中,参数breaks用于控制组的数量,参数prob代表逻辑值,TRUE代表频率,参数main为标题,参数xlab为x轴名称,参数ylab为y轴名称。
所述交易分析服务器通过density函数绘制密度函数图的命令语句如下:
>>lines(density(processTime),col="black")
其中,lines函数用于绘制折线图,参数col设置折线颜色。
绘制的交易响应时间的密度函数图如图6所示。
5、将所述指定数据项的统计结果和交易数据分布情况输出到指定文件。
所述交易分析服务器根据用户指定的文件将所述指定数据项的统计结果和交易数据分布情况重定向到指定文件。
所述交易分析服务器通过sink函数实现数据的重定向输出。
所述交易分析服务器执行如下命令语句实现数据的重定向输出。
>>sink("output.txt",append=FALSE,split=FALSE)
>>sink()
其中,参数append=FALSE表示不追加,参数split=FALSE表示只输出到文件中,output.txt是用户指定的输出文件,>>sink()表示结束输出。
所述交易分析服务器执行如下命令语句实现图片的重定向输出。
>>png(file="MQTIME.jpg")
>>graphics.off()
其中,MQTIME.jpg是用户指定的图片输出文件,>>graphics.off()表示结束输出。
本发明实施例提供的交易数据的分析方法,能够获得交易系统日志的分位数分布图、散点分布图、二项分布直方图和密度函数图等交易数据分布情况,有利于在进行后续交易系统性能分析时,提高分析的准确性,减少性能问题的误判。
图7是本发明一实施例提供的基于R语言的交易系统日志分析装置的结构示意图,如图7所示,本发明实施例提供的基于R语言的交易系统日志分析装置包括第一获取单元701、存储单元702、载入单元703、第二获取单元704、分析单元705和输出单元706,其中:
第一获取单元701用于从交易系统日志中获取指定数据项的数据样本;存储单元702用于将所述指定数据项的数据样本存储到数据库;载入单元703用于载入R语言运行环境;第二获取单元704用于从所述数据库获取预设时间段的指定数据项的数据样本;分析单元705用于通过所述R语言运行环境对所述预设时间段的指定数据项的数据样本进行分析计算,获得所述指定数据项的统计结果和交易数据分布情况;其中,所述交易数据分布情况包括分位数统计分析图、散点分布图、二项分布直方图和密度函数图;输出单元706用于将所述指定数据项的统计结果和交易数据分布情况输出到指定文件。
具体地,交易系统日志会在交易发生时实时记录交易相关数据,其中交易相关数据包括所述指定数据项的数据样本。第一获取单元701可以从所述交易系统日志中获取所述指定数据项的数据样本。
在获得所述指定数据项的数据样本之后,存储单元702将所述指定数据项的数据样本存储到所述数据库中。其中,可以通过SQL语句将上述指定数据项的数据样本存到数据库中。
载入单元703可以载入R语言运行环境,以便在R语言的运行环境下对指定数据项的数据样本进行分析。
所述在载入R语言运行环境之后,第二获取单元704可以访问数据库,从数据库获取预设时间段的指定数据项的交易数据。所述预设时间段根据实际需要进行设置,例如过去7天或1个月,根据本发明实施例不做限定。
在获得所述指定数据项的交易数据之后,分析单元705可以通过所述R语言运行环境对所述预设时间段的指定数据项的数据样本进行分析,能够得到所述指定数据项的统计结果和交易数据分布情况,所述统计结果包括但不限于所述预设时间段的交易平均响应时间、所述预设时间段的交易最大响应时间,所述预设时间段的交易报文平均字节数等,根据实际需要进行设置,本发明实施例不做限定。所述交易数据分布情况包括分位数统计分析图、散点分布图、二项分布直方图和密度函数图。
在获得所述指定数据项的统计结果和交易数据分布情况之后,输出单元706可以将所述指定数据项的统计结果和交易数据分布情况输出到指定文件。其中,所述指定文件是用户指定的。
本发明实施例提供的基于R语言的交易系统日志分析装置,从交易系统日志中获取指定数据项的数据样本,将指定数据项的数据样本存储到数据库,载入R语言运行环境,从数据库获取预设时间段的指定数据项的数据样本,通过R语言运行环境对预设时间段的指定数据项的数据样本进行分析计算,获得指定数据项的统计结果和包括分位数统计分析图、散点分布图、二项分布直方图和密度函数图的交易数据分布情况,将指定数据项的统计结果和交易数据分布情况输出到指定文件,有利于后续对交易数据的分析,提高对交易数据分析的准确性。
图8是本发明另一实施例提供的基于R语言的交易系统日志分析装置的结构示意图,如图8所示,在上述各实施例的基础上,进一步地,第一获取单元701包括计算子单元7011和获得子单元7012,其中:
计算子单元7011用于根据待处理的交易系统日志的文件总数以及预设线程数量,计算每个线程处理的文件数量;获得子单元7012用于通过各个线程并行处理对应的文件,获得所述指定数据性的数据样本。
具体地,计算子单元7011可以统计获得待处理的交易系统日志的文件总数以及预设线程数量,然后根据待处理的交易系统日志的文件总数以及预设线程数量,计算每个线程处理的文件数量。
在获得每个线程处理的文件数量之后,获得子单元7012通过各个线程并行处理对应的文件,可以获得所述指定数据性的数据样本。
图9是本发明又一实施例提供的基于R语言的交易系统日志分析装置的结构示意图,如图9所示,在上述各实施例的基础上,进一步地,第二获取单元704包括接收子单元7041和获取子单元7042,其中:
接收子单元7041用于接收用户指定的所述预设时间段;获取子单元7042用于连接所述数据库,根据所述预设时间段从所述数据库获取所述指定数据性的数据样本。
具体地,用户可以指定待分析的交易日志时间段,接收子单元7041可以接收用户指定的待分析的交易日志时间段,作为所述预设时间段。
获取子单元7042可以与所述数据库建立连接,然后根据所述预设时间段从所述数据库获取所述指定数据性的数据样本。
图10是本发明再一实施例提供的基于R语言的交易系统日志分析装置的结构示意图,如图10所示,在上述各实施例的基础上,进一步地,分析单元705包括预处理子单元7051和数据分析子单元7052,其中:
预处理子单元7051用于对所述指定数据项的数据样本进行数据预处理,所述数据预处理包括采用order函数进行数据排序和采用na.omit函数进行不合规数据的剔除;数据分析子单元7052用于对数据预处理后的所述指定数据项的数据样本进行常规统计项分析、分位数统计分析、散点分布图绘制、二项分布直方图绘制和密度函数图绘制;其中,采用summary函数进行常规统计项分析,采用quantile函数进行分位数统计分析,采用plot函数进行散点分布图绘制,采用hist函数进行二项分布直方图绘制,采用density函数进行密度函数图绘制。
具体地,预处理子单元7051可以对所述指定数据项的交易数据进行预处理,所述数据预处理包括采用order函数进行数据排序和采用na.omit函数进行不合规数据的剔除。其中,所述不合规数据可以是缺失值或者超出正常数据范围的无效值。
在对所述指定数据项的数据样本进行数据预处理之后,数据分析子单元7052可以对数据预处理后的所述指定数据项的数据样本进行常规统计项分析,常规统计项包括预设时间段的交易平均响应时间、预设时间段的交易最大响应时间等。数据分析子单元7052可以采用summary函数进行常规统计项分析。数据分析子单元7052还可以对数据预处理后的所述指定数据项的数据样本进行分位数统计分析、散点分布图绘制、二项分布直方图绘制和密度函数图绘制,可以采用quantile函数进行分位数统计分析,采用plot函数进行散点分布图绘制,采用hist函数进行二项分布直方图绘制,采用density函数进行密度函数图绘制。
在上述各实施例的基础上,进一步地,所述指定数据项包括交易序号、交易开始处理时间、交易结束处理时间、交易响应时间、报文长度和交易类型。
本发明实施例提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图11是本发明一实施例提供的电子设备的实体结构示意图,如图11所示,该电子设备可以包括:处理器(processor)1101、通信接口(Communications Interface)1102、存储器(memory)1103和通信总线1104,其中,处理器1101,通信接口1102,存储器1103通过通信总线1104完成相互间的通信。处理器1101可以调用存储器1103中的逻辑指令,以执行如下方法:从交易系统日志中获取指定数据项的数据样本;将所述指定数据项的数据样本存储到数据库;载入R语言运行环境;从所述数据库获取预设时间段的指定数据项的数据样本;通过所述R语言运行环境对所述预设时间段的指定数据项的数据样本进行分析计算,获得所述指定数据项的统计结果和交易数据分布情况;其中,所述交易数据分布情况包括分位数统计分析图、散点分布图、二项分布直方图和密度函数图;将所述指定数据项的统计结果和交易数据分布情况输出到指定文件。
此外,上述的存储器1103中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:从交易系统日志中获取指定数据项的数据样本;将所述指定数据项的数据样本存储到数据库;载入R语言运行环境;从所述数据库获取预设时间段的指定数据项的数据样本;通过所述R语言运行环境对所述预设时间段的指定数据项的数据样本进行分析计算,获得所述指定数据项的统计结果和交易数据分布情况;其中,所述交易数据分布情况包括分位数统计分析图、散点分布图、二项分布直方图和密度函数图;将所述指定数据项的统计结果和交易数据分布情况输出到指定文件。
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述各方法实施例所提供的方法,例如包括:从交易系统日志中获取指定数据项的数据样本;将所述指定数据项的数据样本存储到数据库;载入R语言运行环境;从所述数据库获取预设时间段的指定数据项的数据样本;通过所述R语言运行环境对所述预设时间段的指定数据项的数据样本进行分析计算,获得所述指定数据项的统计结果和交易数据分布情况;其中,所述交易数据分布情况包括分位数统计分析图、散点分布图、二项分布直方图和密度函数图;将所述指定数据项的统计结果和交易数据分布情况输出到指定文件。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种基于R语言的交易系统日志分析方法,其特征在于,包括:
从交易系统日志中获取指定数据项的数据样本;
将所述指定数据项的数据样本存储到数据库;
载入R语言运行环境;
从所述数据库获取预设时间段的指定数据项的数据样本;
通过所述R语言运行环境对所述预设时间段的指定数据项的数据样本进行分析计算,获得所述指定数据项的统计结果和交易数据分布情况;其中,所述交易数据分布情况包括分位数统计分析图、散点分布图、二项分布直方图和密度函数图;
将所述指定数据项的统计结果和交易数据分布情况输出到指定文件。
2.根据权利要求1所述的方法,其特征在于,所述从交易系统日志中获取指定数据项的数据样本包括:
根据待处理的交易系统日志的文件总数以及预设线程数量,计算每个线程处理的文件数量;
通过各个线程并行处理对应的文件,获得所述指定数据性的数据样本。
3.根据权利要求1所述的方法,其特征在于,所述从所述数据库获取预设时间段的指定数据项的数据样本包括:
接收用户指定的所述预设时间段;
连接所述数据库,根据所述预设时间段从所述数据库获取所述指定数据性的数据样本。
4.根据权利要求1所述的方法,其特征在于,所述通过所述R语言运行环境对所述预设时间段的指定数据项的数据样本进行分析计算包括:
对所述指定数据项的数据样本进行数据预处理,所述数据预处理包括采用order函数进行数据排序和采用na.omit函数进行不合规数据的剔除;
对数据预处理后的所述指定数据项的数据样本进行常规统计项分析、分位数统计分析、散点分布图绘制、二项分布直方图绘制和密度函数图绘制;其中,采用summary函数进行常规统计项分析,采用quantile函数进行分位数统计分析,采用plot函数进行散点分布图绘制,采用hist函数进行二项分布直方图绘制,采用density函数进行密度函数图绘制。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述指定数据项包括交易序号、交易开始处理时间、交易结束处理时间、交易响应时间、报文长度和交易类型。
6.一种基于R语言的交易系统日志分析装置,其特征在于,包括:
第一获取单元,用于从交易系统日志中获取指定数据项的数据样本;
存储单元,用于将所述指定数据项的数据样本存储到数据库;
载入单元,用于载入R语言运行环境;
第二获取单元,用于从所述数据库获取预设时间段的指定数据项的数据样本;
分析单元,用于通过所述R语言运行环境对所述预设时间段的指定数据项的数据样本进行分析计算,获得所述指定数据项的统计结果和交易数据分布情况;其中,所述交易数据分布情况包括分位数统计分析图、散点分布图、二项分布直方图和密度函数图;
输出单元,用于将所述指定数据项的统计结果和交易数据分布情况输出到指定文件。
7.根据权利要求6所述的装置,其特征在于,所述第一获取单元包括:
计算子单元,用于根据待处理的交易系统日志的文件总数以及预设线程数量,计算每个线程处理的文件数量;
获得子单元,用于通过各个线程并行处理对应的文件,获得所述指定数据性的数据样本。
8.根据权利要求6所述的装置,其特征在于,所述第二获取单元包括:
接收子单元,用于接收用户指定的所述预设时间段;
获取子单元,用于连接所述数据库,根据所述预设时间段从所述数据库获取所述指定数据性的数据样本。
9.根据权利要求6所述的装置,其特征在于,所述分析单元包括:
预处理子单元,用于对所述指定数据项的数据样本进行数据预处理,所述数据预处理包括采用order函数进行数据排序和采用na.omit函数进行不合规数据的剔除;
数据分析子单元,用于对数据预处理后的所述指定数据项的数据样本进行常规统计项分析、分位数统计分析、散点分布图绘制、二项分布直方图绘制和密度函数图绘制;其中,采用summary函数进行常规统计项分析,采用quantile函数进行分位数统计分析,采用plot函数进行散点分布图绘制,采用hist函数进行二项分布直方图绘制,采用density函数进行密度函数图绘制。
10.根据权利要求6至9任一项所述的装置,其特征在于,所述指定数据项包括交易序号、交易开始处理时间、交易结束处理时间、交易响应时间、报文长度和交易类型。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。
CN202010932728.3A 2020-09-08 2020-09-08 一种基于r语言的交易系统日志分析方法及装置 Pending CN112148747A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010932728.3A CN112148747A (zh) 2020-09-08 2020-09-08 一种基于r语言的交易系统日志分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010932728.3A CN112148747A (zh) 2020-09-08 2020-09-08 一种基于r语言的交易系统日志分析方法及装置

Publications (1)

Publication Number Publication Date
CN112148747A true CN112148747A (zh) 2020-12-29

Family

ID=73889730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010932728.3A Pending CN112148747A (zh) 2020-09-08 2020-09-08 一种基于r语言的交易系统日志分析方法及装置

Country Status (1)

Country Link
CN (1) CN112148747A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882109A (zh) * 2010-07-16 2010-11-10 中国工商银行股份有限公司 一种基于银行业务的软件性能分析系统及方法
CN103853821A (zh) * 2014-02-21 2014-06-11 河海大学 一种面向多用户协作的数据挖掘平台的构建方法
CN105608517A (zh) * 2015-09-24 2016-05-25 北京华青融天技术有限责任公司 基于流的业务交易性能管理及可视化方法和装置
CN105786864A (zh) * 2014-12-24 2016-07-20 国家电网公司 一种实现海量数据离线分析的方法
CN106599325A (zh) * 2017-01-18 2017-04-26 河海大学 一种基于R和HighCharts的数据挖掘可视化平台的构建方法
CN107480296A (zh) * 2017-08-30 2017-12-15 杭州绿湾网络科技有限公司 基于sql的数据库性能分析方法和装置
CN109711896A (zh) * 2018-12-29 2019-05-03 科技谷(厦门)信息技术有限公司 一种基于旅客细分的官网访客流失分析方法
CN110618925A (zh) * 2019-09-26 2019-12-27 中国银行股份有限公司 数据处理方法及系统
CN110830450A (zh) * 2019-10-18 2020-02-21 平安科技(深圳)有限公司 基于统计的异常流量监测方法、装置、设备及存储介质
JP2020030771A (ja) * 2018-08-24 2020-02-27 富士通フロンテック株式会社 統計情報作成システム、統計情報作成方法および統計情報作成プログラム
CN111049684A (zh) * 2019-12-12 2020-04-21 闻泰通讯股份有限公司 数据分析方法、装置、设备和存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882109A (zh) * 2010-07-16 2010-11-10 中国工商银行股份有限公司 一种基于银行业务的软件性能分析系统及方法
CN103853821A (zh) * 2014-02-21 2014-06-11 河海大学 一种面向多用户协作的数据挖掘平台的构建方法
CN105786864A (zh) * 2014-12-24 2016-07-20 国家电网公司 一种实现海量数据离线分析的方法
CN105608517A (zh) * 2015-09-24 2016-05-25 北京华青融天技术有限责任公司 基于流的业务交易性能管理及可视化方法和装置
CN106599325A (zh) * 2017-01-18 2017-04-26 河海大学 一种基于R和HighCharts的数据挖掘可视化平台的构建方法
CN107480296A (zh) * 2017-08-30 2017-12-15 杭州绿湾网络科技有限公司 基于sql的数据库性能分析方法和装置
JP2020030771A (ja) * 2018-08-24 2020-02-27 富士通フロンテック株式会社 統計情報作成システム、統計情報作成方法および統計情報作成プログラム
CN109711896A (zh) * 2018-12-29 2019-05-03 科技谷(厦门)信息技术有限公司 一种基于旅客细分的官网访客流失分析方法
CN110618925A (zh) * 2019-09-26 2019-12-27 中国银行股份有限公司 数据处理方法及系统
CN110830450A (zh) * 2019-10-18 2020-02-21 平安科技(深圳)有限公司 基于统计的异常流量监测方法、装置、设备及存储介质
CN111049684A (zh) * 2019-12-12 2020-04-21 闻泰通讯股份有限公司 数据分析方法、装置、设备和存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
任立男 等: ""面向银行业务的交易监控可视化系统设计与实现"", 《中南大学学报(自然科学版)》, vol. 49, no. 10, pages 2490 - 2497 *
周磊 等: ""系统批量运行时间同交易量关联性分析"", 《中国金融电脑》, no. 07, pages 52 - 61 *
李琪主 等: "《电子商务教育、学术、生态及网商发展研究》", vol. 1, 中国铁道出版社, pages: 140 - 144 *
焦鑫鑫: ""基于学习分析的学习者学习状态系统设计与开发 ————以《数据库基础与应用》为例"", 《中国优秀硕士学位论文全文数据库 社会科学Ⅱ辑》, no. 07, pages 127 - 165 *
许翔: ""核心银行系统日志分析平台的实践与探索"", 《中国金融电脑》, no. 11, pages 42 - 45 *

Similar Documents

Publication Publication Date Title
CN112948828A (zh) 一种二进制程序恶意代码检测方法、终端设备及存储介质
CN112434003A (zh) 一种sql优化方法、装置、计算机设备及存储介质
CN111221721A (zh) 一种单元测试案例自动化录制和执行方法及装置
CN111966383A (zh) 一种操作系统内核兼容性量化分析方法、系统和介质
CN116560984A (zh) 一种基于调用依赖图的测试用例聚类分组方法
CN107656849B (zh) 一种软件系统性能问题定位方法以及装置
CN112148747A (zh) 一种基于r语言的交易系统日志分析方法及装置
CN113111351B (zh) 测试方法、装置和计算机可读存储介质
CN113127327B (zh) 一种用于性能测试的测试方法及装置
CN112667631A (zh) 业务字段自动编辑方法、装置、设备及存储介质
CN111193631B (zh) 信息处理方法、系统和计算机可读存储介质
CN111858366A (zh) 一种测试用例生成方法、装置、设备及存储介质
CN116450483A (zh) 一种确定软件分配的负载的方法、装置、服务器及介质
CN114500272B (zh) 一种配置信息采集处理方法及装置
CN110727565A (zh) 一种网络设备平台信息收集方法及系统
CN115510847A (zh) 代码工作量的分析方法及装置
CN115907400A (zh) 一种工单处理方法及装置
CN114201404A (zh) 一种区块链网络的压力测试系统及方法
CN114741162A (zh) 服务编排方法、装置、存储介质和设备
CN113849484A (zh) 一种大数据组件升级方法、装置、电子设备及存储介质
CN114168469A (zh) 基于数据库管理系统模糊测试的覆盖率分析方法及系统
CN112308519A (zh) 表单关联规则的配置方法、表单关联方法及其装置
CN112181831A (zh) 基于关键词的脚本性能校验方法、装置、设备及存储介质
CN110990648A (zh) 一种病毒查询方法、服务器及计算机可读存储介质
CN116225965B (zh) 一种面向io大小的数据库性能问题检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201229

RJ01 Rejection of invention patent application after publication