CN114092201A - 一种数据提取与分析方法和相关装置 - Google Patents
一种数据提取与分析方法和相关装置 Download PDFInfo
- Publication number
- CN114092201A CN114092201A CN202210063929.3A CN202210063929A CN114092201A CN 114092201 A CN114092201 A CN 114092201A CN 202210063929 A CN202210063929 A CN 202210063929A CN 114092201 A CN114092201 A CN 114092201A
- Authority
- CN
- China
- Prior art keywords
- transaction
- data
- element data
- obtaining
- application system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 151
- 238000013075 data extraction Methods 0.000 title claims abstract description 75
- 238000012360 testing method Methods 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000007405 data analysis Methods 0.000 claims abstract description 14
- 230000004044 response Effects 0.000 claims description 96
- 230000001360 synchronised effect Effects 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 48
- 238000009826 distribution Methods 0.000 claims description 42
- 230000014509 gene expression Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 33
- 230000006870 function Effects 0.000 description 26
- 238000003860 storage Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 13
- 239000000284 extract Substances 0.000 description 9
- 238000000605 extraction Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000008676 import Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- 230000010485 coping Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000012085 test solution Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请公开了一种数据提取与分析方法和相关装置。在本申请技术方案中,通过获取配置文件和票证应用系统的交易日志;依据所述配置文件读取并解析所述交易日志,从所述交易日志中提取得到包括测试相关要素数据、所述票证应用系统的性能相关要素数据和所述票证应用系统的交易相关要素数据的目标要素数据;所述测试相关要素数据用于复现系统问题和/或用于进行系统测试;基于所述性能相关要素数据获得所述票证应用系统的性能分析结果,并基于所述交易相关要素数据获得所述票证应用系统的交易分析结果。本申请中,可以以相对简捷、集中的方式提取票证应用系统多样化的数据并进行数据分析。
Description
技术领域
本申请涉及系统数据分析技术领域,特别是涉及一种数据提取与分析方法和相关装置。
背景技术
票证应用系统(EMD系统)能够满足用户的出票、退票、废票等多种交易请求,在人们日常出行中具有重要的作用。随着票证应用系统在多种场景中的广泛使用,面对系统维护、调整、优化等多种需求,数据提取和数据分析也变得尤为重要。
对票证应用系统的数据提取和分析的方向往往有许多种。例如,可以针对系统的运行性能进行数据提取和分析,或为航空公司等企业针对票证应用系统中发生的交易情况进行数据提取和分析等。目前,上述过程可以通过应用工具软件实现。应用工具软件基于性能分析需求和交易分析需求分别进行相应数据的提取与分析,无法对多方面的数据一步提取到位,操作相对分散和复杂。
从数据提取的实现角度而言,已有的技术也存在着诸多问题。性能分析是指应用工具软件对正在运行的票证应用系统进行实时的检测,此过程往往占用极大的生产运行资源和时间成本,有可能干扰数据库运行情况。比如频繁的查询,可导致数据库性能降低。交易分析则需要应用工具软件访问生产数据库,通过结构化查询语言(SQL,StructuredQuery Language)按照一定查询条件进行数据抽取和汇总统计。这种通过结构化查询语言(SQL,Structured Query Language)查询数据的方式不能全面反映业务处理情况,一般只能反映成功的业务处理数据,对于业务总共处理的概况则无法反映出来。
此外,单纯的性能分析和单纯的交易分析都不能成功分离输入请求和输出回复,这使得很难在另一个系统环境复现生产交易的完整过程,也难以复用这些数据来完成系统测试工作。因此对于模拟生产过程贴近性的测试,由于数据源的短缺很难提供高效,高可用,高复用的测试解决方案。
发明内容
基于上述问题,本申请提供了一种数据提取与分析方法和相关装置,以解决票证应用系统无法简捷、集中地提取多样化的数据并进行分析的问题。
本申请实施例公开了如下技术方案:
第一方面,本申请提供一种数据提取与分析方法,包括:
获取配置文件和票证应用系统的交易日志,所述配置文件包括数据提取规则;
依据所述配置文件读取并解析所述交易日志,从所述交易日志中提取得到目标要素数据;所述目标要素数据包括:测试相关要素数据、所述票证应用系统的性能相关要素数据和所述票证应用系统的交易相关要素数据,所述测试相关要素数据用于复现系统问题和/或用于进行系统测试;
基于所述性能相关要素数据获得所述票证应用系统的性能分析结果,并基于所述交易相关要素数据获得所述票证应用系统的交易分析结果。
第二方面,本申请提供一种数据提取与分析装置,包括:
获取模块,用于获取配置文件和票证应用系统的交易日志,所述配置文件包括数据提取规则;
解析模块,用于依据所述配置文件读取并解析所述交易日志;
数据提取模块,从所述交易日志中提取得到目标要素数据;所述目标要素数据包括:测试相关要素数据、所述票证应用系统的性能相关要素数据和所述票证应用系统的交易相关要素数据,所述测试相关要素数据用于复现系统问题和/或用于进行系统测试;
第一分析模块,用于基于所述性能相关要素数据获得所述票证应用系统的性能分析结果;
第二分析模块,用于基于所述交易相关要素数据获得所述票证应用系统的交易分析结果。
相较于现有技术,本申请具有以下有益效果:
本申请技术方案中,通过解析票证应用系统的交易日志提取数据可以用集中简单的操作,实时对多方面的数据(即目标要素数据)一步提取到位以及进行分析。这种实现方式不需要占用生产运行资源和时间成本,因此不会干扰数据库运行。并且通过配置文件从交易日志中提取出的目标要素数据相比于SQL方式得到的数据更加全面反映业务情况,而非仅限于交易成功的数据。因此在进行数据分析时也能获得更加准确、全面的分析结果,满足更加复杂或者多样化的分析需求。可见本申请基于交易日志,实现了对测试相关要素数据、票证应用系统的性能相关要素数据和交易相关要素数据这些多样化的数据的提取和分析,因此,实现了对数据的集中、简捷的提取并进而分析,有效避免了已有技术中实现数据提取或分析时需要面临的测试与生产分割,数据彼此孤立,功能相互分隔,不能有效集成高效处理的传统难题,从而显著提高票证应用系统的生产力效率。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本申请实施例提供的一种数据提取与分析方法流程图;
图2为本申请实施例提供的通过应用程序实现数据提取的示意图;
图3为本申请实施例提供的票证应用系统与应用程序运行图;
图4为本申请实施例提供的系统原理展示图;
图5为本申请实施例提供的另一种数据提取与分析方法流程图;
图6为本申请实施例提供的一种导入日志文件示例图;
图7为本申请实施例提供的一种存在同步调用的正则匹配配置项的配置文件样例图示;
图8为本申请实施例提供的一种输入文件目录示意图;
图9为本申请实施例提供的一种输出目录示意图;
图10为本申请实施例提供的一种正则匹配配置文件的中导入方式示意图;
图11为本申请实施例提供的一种单日输入请求次数随时间的分布情况样例图;
图12为本申请实施例提供的一种数据提取与分析装置的结构示意图;
图13为本申请实施例提供的一种适于用来实现数据提取与分析方法的电子设备的结构示意图。
具体实施方式
正如前文描述,目前缺少能以相对简捷、集中的方式提取票证应用系统多样化的数据并进行数据分析的方案。基于此问题,发明人经过研究,在本申请中提出了一种数据提取与分析方法和相关装置。由于在本申请技术方案中,通过交易日志进行解析数据可以简单、全面、集中的提取数据并进行分析,因此有效解决了以上问题。
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系,同时第一,第二也并不局限仅这两项,还可以标识拓展的第三,第四,…,甚至第N等等。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
方法实施例
参见图1,该图为本申请实施例提出的一种数据提取与分析方法流程图。
步骤S101:获取配置文件和票证应用系统的交易日志。
首先介绍票证应用系统的交易日志。交易日志是票证应用系统中以24小时自然天为一个量度形成的文件,在交易日志中可以包含当日发生的多笔交易的记录。可以将整个日志文件看做是多个单笔交易的集合。
接着介绍配置文件。在本申请实施例技术方案中,配置文件用于设置灵活的单笔票证交易数据块的边界参数。例如,通过配置文件可以将交易日志中不同笔票证交易的数据记录区分开。并且在配置文件中包含有数据提取规则。此处,数据提取规则与数据提取目标相互关联。例如,数据提取目标是提取日志中特定的几笔数据、特定时段内的数据、特定交易类型的数据等,则数据提取规则也是针对于以上目标而设定的规则。实际应用中,数据提取规则的形式可以包括但不限于:正则匹配配置项和/或解析功能表达式。
步骤S101获取配置文件以及票证应用系统的交易日志,目的是在后文提及的操作中,以交易日志为线索,通过配置文件中的数据提取规则对其中的数据进行提取,从而满足数据提取目标。为获取配置文件,首先可以确定数据提取目标,其后根据确定的数据提取目标构建正则匹配配置项和/或解析功能表达式作为所述数据提取规则,形成所述配置文件。
一方面,交易日志的规格应该满足含有关键字的起始和终止,满足清晰的要素数据层次,以便检索和提取数据。另一方面,在达到相同功能的地方,优先考虑文本查找,其次是正则匹配。而对于复杂数据提取时,简单的文本查找不能满足功能,此时要用正则匹配获取结果集的方式来实现。面对复杂的交易日志中的单笔票证交易数据块,单一的应对处置方法可能无法胜任处理各种情形,所以要针对具体的交易日志类型,风格和特点,采用正则匹配配置项还是解析功能表达式要做一定取舍,或者两者混合使用,采取更加适宜的方式作为数据提取规则来形成配置文件。后文中以正则匹配配置项作为数据提取规则的示例,介绍数据的提取过程。
步骤S102:依据所述配置文件读取并解析所述交易日志,从所述交易日志中提取得到目标要素数据。
目标要素数据至少包括以下三个方面的数据,分别是:测试相关要素数据、票证应用系统的性能相关要素数据和票证应用系统的交易相关要素数据。
测试相关要素数据用以复现系统问题和/或进行系统测试。另外,测试相关要素数据包括输入请求文本和输出回复文本,能够复用到其他类似的系统,用以对系统进行测试。此外,对于系统运行存在的一些问题通过测试相关要素数据也可以复现系统故障缺陷,从而排查追溯缺陷问题的起因,从而便于故障诊断和系统维护。在本步骤S102的具体实现中,要求单笔交易日志的待提取的目标要素数据符合正则匹配,每一个单笔交易作为一个正则匹配结果集,多个单笔交易的正则匹配汇总的结果集集合构成了目标要素数据的数据源和后续性能分析和交易分析的数据基础。
作为示例,票证应用系统的性能相关要素数据包括:交易请求的请求时间和回复时间。由于性能分析比较关注于接入响应时间差和同步调用响应时间差,为计算接入响应时间差,本申请将能够用于计算接入响应时间差的交易请求称为第一交易请求;将能够用于计算同步调用响应时间差的交易请求称为第二交易请求。第二交易请求是指所述票证应用系统对其他系统的同步调用交易请求。需要说明的是,接入响应时间差是指当前应用服务从收到其他应用服务发出的业务请求到返回给其他应用服务的输出回复的时间差。同步调用响应时间差是指当前应用服务向其他应用服务发出同步调用请求到收到其他应用服务的同步调用回复的时间差。为了便于后续的性能分析,本申请实施例提供的技术方案中性能相关要素数据具体可以包括:交易日志中第一交易请求的请求时间和回复时间、交易日志中第二交易请求的请求时间和回复时间。
为便于理解同步调用的含义,以A应用服务和B应用服务为示例进行描述。A应用服务向B应用服务发出业务处理请求,之后A应用服务并得到B应用服务返回的信息给自己。则A应用服务的动作称为同步调用。反之,若A应用服务只向B应用服务发出业务处理请求而不去等待也不去获得B应用服务返回的信息的动作,则称为该动作是异步调用。
步骤S103:基于性能相关要素数据获得所述票证应用系统的性能分析结果,并基于交易相关要素数据获得所述票证应用系统的交易分析结果。
首先介绍关于性能分析的实现:
在基于所述性能相关要素数据获得所述票证应用系统的性能分析结果之前,可以预先设置接入响应时间差限值和设置同步调用响应时间差限值。
基于所述性能相关要素数据获得所述票证应用系统的性能分析结果,具体包括两个部分:其一,基于所述交易日志中第一交易请求的请求时间和回复时间获得接入响应时间差,基于接入响应时间差和接入响应时间差限值比较得到对票证应用系统处理第一交易请求的处理性能分析结果。其二,基于所述交易日志中第二交易请求的请求时间和回复时间获得同步调用响应时间差,基于同步调用响应时间差和同步调用响应时间差限值比较得到所述票证应用系统和其他系统之间的协同响应性能分析结果。
如果事先在配置文件中设置接入响应时间差限值,则根据提取出的输入请求和输出回复的时间差数据也就是接入响应时间差,可以确定当前系统的处理性能的优劣。接入响应时间差越小,表明当前系统性能越好,效率越高。
如果涉及同步调用,则可以在配置文件中设置同步调用响应时间差限值,从日志文件中分离出同步调用请求和同步调用回复的时间差也就是同步调用响应时间差,就可以确定系统间调用的性能优劣。显然,如果这个时间差很长则表明系统间协同响应性能较差。如果很短则证明系统间协同响应性能较好。如果系统间协同响应性能较差,则可以进一步地根据提取出的同步调用请求方和同步调用接收方进一步诊断分析原因。
接着介绍关于交易分析的实现:
根据具体的分析需求,基于所述交易相关要素数据获得所述票证应用系统的交易分析结果,可以包括多种实现方式:
(1)根据交易相关要素数据随时间的分布情况获得所述交易分析结果;
(2)根据所述交易相关要素数据获得衍生数据,根据所述衍生数据获得交易分析结果;
(3)根据所述交易相关要素数据获得衍生数据,再根据所述衍生数据随时间的分布情况获得所述交易分析结果。
交易相关要素数据可以包括但不限于:输入请求、同步调用请求、同步调用回复、异步调用请求、输出回复、同步调用响应时间差、接入响应时间差等。
对于如上实现方式(1),直接获得的交易相关要素数据随时间的分布情况本身就可以满足对于交易情况的分析需求。因此,可以根据获得的交易相关要素数据和时间的关系形成分布曲线图,以此作为交易分析结果。
对于如上实现方式(2)和(3),直接获得的交易相关要素数据并不能够满足对于交易情况的分析需求。为此,需要基于交易相关要素数据来获得衍生数据。作为示例衍生数据可以包括:单日销售交易处理总次数、单日销售交易处理成功次数、单日销售交易处理成功占比、单日销售指定产品的成功次数、单日指定产品成功占比、单周和单月指定产品成功占比分布图等。
其中,单日销售交易处理总次数是单个自然日内当前应用服务销售交易处理的总次数,通过统计计算得出,用来实时反映系统的业务处理压力和业务处理日常状态,比如单日内出售票证业务总次数,单日内退票业务总次数,换开票证业务总次数。
单日销售交易处理成功次数是单个自然日内当前应用服务销售交易处理的成功次数,通过统计计算得出,用来实时反映系统的业务处理状态,比如单日内成功出售票证业务总次数,单日内成功退票业务总次数,成功换开票证业务总次数。
单日销售交易处理成功占比是单个自然日内当前应用服务销售交易处理的成功次数与单个自然日内当前应用服务销售交易处理的总次数的比值,通过统计计算得出,用来实时反映系统的业务处理健康状态。
单日销售指定产品的成功次数是单个自然日内当前应用服务销售指定产品的成功处理的总次数,通过统计计算得出,用来了解日频销售概况和销售业务类型的分布情况,为航空公司制定销售产品计划提供数据支撑,比如选座业务,单日内的成功销售次数,亦或者餐食单日内的成功销售次数。
单日指定产品成功占比是单日销售指定产品成功次数占单日销售交易处理总次数的比重,通过统计计算得出,用来了解日频销售概况和销售业务类型的分布情况,为航空公司制定销售产品计划提供数据支撑。
单周和单月指定产品成功占比分布图是由单日指定产品成功占比作为纵坐标y,按照自然日为横坐标绘制的分析图表,是单日指定产品成功占比的结果集合汇总数据,每周的最后一日和每月最后一日绘制生成图表数据,用来为航空公司制定销售产品计划,调整扩展航空产品类型取向提供数据分析支撑。由于日频销售概况分布具有一定偶然性(比如当日指定新产品上线,或者旧产品下线),为了解更一般性的长周期销售概况和销售业务类型的分布情况,输出按周按月计算的分布更有参考价值。
对于如上实现方式(2),衍生数据本身就可以反映交易情况满足交易分析的需求。则可以直接根据所述衍生数据获得交易分析结果。而对于如上实现方式(3),要求分析出衍生数据随时间的分布情况,因此,还可再根据所述衍生数据随时间的分布情况获得所述交易分析结果,具体地,也可以形成衍生数据随时间的分布曲线图作为交易分析结果。
通过交易相关要素数据或者衍生数据随时间的变化而绘制分布曲线图,可以更好地展示分析结果,方便用户视觉上直观感知数据的发展和走势,特别是体现业务产品的销售趋势。
以上即为本申请实施例提供的一种数据提取与分析方法。该方法获取配置文件和票证应用系统的交易日志;依据所述配置文件读取并解析所述交易日志,从所述交易日志中提取得到目标要素数据;所述测试相关要素数据用于复现系统问题和/或用于进行系统测试;基于所述性能相关要素数据获得所述票证应用系统的性能分析结果,并基于所述交易相关要素数据获得所述票证应用系统的交易分析结果。通过此方法,解决了票证应用系统无法简捷、集中地提取多样化的数据并进行分析的问题。实际应用中,本方案中的方法中的步骤也可以通过一种应用程序来实现。由应用程序、配置文件、票证应用系统的交易日志和输出文件构成了实现以上数据提取与分析方法的整个系统。下面结合实施例和附图进行说明。
参见图2,该图为本申请实施例提供的通过应用程序实现数据提取的示意图。参见图3,该图为本申请实施例提供的票证应用系统与应用程序运行图。参见图4,该图为本申请实施例提供的系统原理展示图。
如图2所示,该系统包括4个部分:
配置文件:用于设置灵活的单笔票证交易数据块的边界参数;
应用程序:解析票证应用系统的交易日志的应用程序;
票证应用系统的交易日志;
输出文件:用于存储体现性能结果的数据,可复现的测试相关要素数据,销售数据统计三者的文件。
其中配置文件是既支持正则匹配配置项也支持解析功能表达式,用于检索单笔票证交易数据块。
如图3、图4所示,外部票证销售的业务请求经过票证应用系统处理后,实时生成交易日志(按照日期生成),应用程序按照事先设定的配置文件(该配置文件可灵活调整限定参数)读取交易日志,解析交易日志,将票证应用系统处理的每一笔销售交易根据日志记载进行解析,分离提取出处理过程中的性能相关要素数据(比如同步调用响应时间差,接入响应时间差),分离提取出处理过程中的可复现的测试相关要素数据(输入请求文本和输出回复文本),销售过程产生的数据的周期性分布统计(比如单日销售交易处理总次数,单日销售交易处理成功次数,单日销售指定产品的成功次数,单日指定产品成功占比,单周和单月指定产品成功占比分布图)。
实际应用中由于该方案多用于票证应用系统,下面结合附图以输出单日输入请求次数对时间的曲线分布为例进行说明,其中横轴是时间,纵轴是单日销售交易在某个时间区间的数值,比如上午8点到9点的销售交易次数,可以认为是销售交易次数对时间横坐标轴的离散函数分布,它的意义在于:反映哪些时间段的销售业务的交易请求压力大,亦或者哪些时间段的销售业务的交易请求压力小,同时反映单位时间内的交易请求次数频度和强度,该值越高,反映票证交易系统的抗压能力越强。
参见图5,该图为本申请实施例提供的另一种数据提取与分析方法流程图。参见图6,该图为本申请实施例提供的一种导入日志文件示例图。参见图7,该图为本申请实施例提供的一种存在同步调用的正则匹配配置项的配置文件样例图。参见图8,该图为本申请实施例提供的一种输入文件目录示意图。参见图9,该图为本申请实施例提供的一种输出目录示意图。参见图10,该图为本申请实施例提供的一种正则匹配配置文件的中导入方式示意图。参见图11,该图为本申请实施例提供的一种单日输入请求次数随时间的分布情况样例图。
步骤S501:在输入目录导入日志文件。
如图6所示,该图为本申请实施例提供的一种导入日志文件示例图。
步骤S502:设置正则匹配配置项。
如图7所示,该图为本申请实施例提供的一种存在同步调用的正则匹配配置项的配置文件样例图示。
正则匹配配置项表达式保证正确无误,保证该表达式配置是预期的匹配目的。利用正则匹配配置项的配置方式具有提取功能全面,可以应对处理复杂情况等优点,但是在繁冗的票证交易数据块处理中,难免存在处理效率降低的情形,因此在不缺失提取数据准确性的前提下,可以定义一种解析功能表达式来解决。
所谓解析功能表达式,就是在配置文件约定的仅有当前应用程序才可识别的解析功能表达式(正则匹配配置项的表达式具有通用性,不仅仅应用程序识别,在其它系统或者软件中也可被识别)。这个表达式可快速被应用程序识别辨认翻译为计算机执行动作,从而迅速准确提取数据。
此处举一个简单的例子以形象说明。比如在提取一段文本的中第10个字符到第200个字符之间的文本部分(包含第10位和第200位字符),假设这个文本部分就是输入请求,我们可以定义这个解析功能表达式为:REQ_MSG_MATCH=extract[10,200],应用程序在载入配置文件后,当它读取REQ_MSG_MATCH=extract[10,200]后马上就明白了,在单笔票证交易数据块中待提取的输入请求是在第10位和第200位字符之间且含首末位边界字符的情况。然后应用程序直接采用文本截取手段截取这部分文本,从而快速提取输入请求。
这种方式的优点就是高效,但是应对情形不全面,面对复杂的交易日志中的单笔票证交易数据块,不能胜任处理各种情形,所以要针对具体的交易日志类型,风格和特点,是采用正则匹配配置项还是解析功能表达式要做一定取舍,采取对症的方式配置。概括一下就是,正则匹配具有功能全面,提取准确,大而全的优点,但在某些特定情形下,存在提取效率低的问题,而解析功能表达式具有特定情形下提取效率高的优点,缺点是不能应对全部提取情况。
步骤S503:启动应用程序。
步骤S504:设置接入响应时间差限值、同步调用响应时间差限值设置输入目录的路径,输出目录的路径,设置配置文件的路径。其中接入响应时间差限值要大于同步调用响应时间差限值,因为同步调用响应时间差限值是在模块内的同步调用中时产生,也就是说,同步调用的时间不可能多于整个接入响应时间,只能小于模块内经历的总时间,实施案例的时间单位是毫秒。另外注意输入文件目录下日志文件真实存在,输出目录的路径真实存在。
如图8、图9、图10所示,以上图示展示了输入文件目录和输出目录,以及正则匹配配置文件的中导入方式。在实际的处理实现中并不拘泥于此方式。本实施步骤谨以此作为一种样例展示,而不是强调必须采用这种导入方式。
步骤S505: 执行解析EMD日志的触发操作。具体的解析逻辑由载入的应用程序的正则匹配逻辑处理。
步骤S506:查看输出目录的输出文件,都是以交易请求时间命名的文本文件,打开文本文件可以看到提取到的数据。其中历时就是响应时间差,其单位是毫秒,界面上的响应时间限值的单位也是毫秒。
步骤S507: 触发输出分布图输出单日输入请求次数对时间的曲线分布。
如图11所示,从曲线分布可以清晰看出在凌晨2点到3点的请求次数较多,在凌晨4点到5点,以及晚上23点到次日0点请求次数较少。从而可以确定业务高峰期在当日凌晨2点到3点。
如果得到多个自然日期的单日输入请求次数对时间的曲线分布,还可以将各个业务请求峰值的时间区间作为样本进行概率性数据评估,为票证应用系统的维护提供可参考的时间区间。比如在某周,某月,甚至全年当中,该时间段的请求次数普遍较高,则这个时间段属于业务高峰期的结果是非常可信的。就可以在这个时间段布置重点的监测和应急准备。
假设绘制的分布图是同步调用响应时间差对时间的曲线分布,则可以对响应时间差较高的时段做概率性统计,如果在某个时间段经常性的同步调用响应时间差较长,则需要对该时间段的系统间调用,网络链路状态做定位追踪和分析,找出原因,完善和提高系统性能。
样例中全天9320次请求,呈现了当日的票证应用系统承载的压力和压力分布概况,当然这个输出结果只是作为一个说明样例,不具备事实上的真实情况。以上这个过程仅以输出单日输入请求次数对时间的曲线分布作为样例,其他相关的数据展示也存在类似过程。
单日输入请求次数对时间的曲线分布,同步调用响应时间差,接入响应时间差等参数的数据周期分布反映票证交易系统的处理性能方面的能力,而像单日销售交易处理成功占比分布图,单日指定产品成功占比分布图,单周和单月指定产品成功占比分布图则更多的展示航空产品销售概况和销售状态的情况。
因此在实施过程中,可以就交易日志这一“黑匣子”做不同的数据提取配置,进而获得不同展示,帮助解决不同的问题。需要对性能关注则侧重性能数据方向的配置,需要对航空产品销售概况和销售状态的方向重点关注则侧重航空产品销售方向的配置。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、C++、Smalltalk还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
装置实施例
参见图12,该图为本申请实施例提供的一种数据提取与分析装置的结构示意图。如图12所示,该装置包括获取模块1201,解析模块1202,数据提取模块1203,第一分析模块1204和第二分析模块1205。
其中,获取模块1201,用于获取配置文件和票证应用系统的交易日志,所述配置文件包括数据提取规则;
解析模块1202,用于依据所述配置文件读取并解析所述交易日志;
数据提取模块1203,从所述交易日志中提取得到目标要素数据;所述目标要素数据包括:测试相关要素数据、所述票证应用系统的性能相关要素数据和所述票证应用系统的交易相关要素数据;所述测试相关要素数据用于复现系统问题和/或用于进行系统测试;
第一分析模块1204,用于基于所述性能相关要素数据获得所述票证应用系统的性能分析结果;
第二分析模块1205,用于基于所述交易相关要素数据获得所述票证应用系统的交易分析结果。
利用该装置,可以以相对简捷、集中的方式提取票证应用系统多样化的数据并进行数据分析。
可选地,所述装置还包括:
第一时限设置模块,用于设置接入响应时间差限值;
可选地,所述装置还包括:
第二时限设置模块,用于设置同步调用响应时间差限值;
可选地,获取模块1201,具体包括:
目标确定单元,用于确定数据提取目标;
文件形成单元,用于根据所述数据提取目标构建正则匹配配置项和/或解析功能表达式作为所述数据提取规则,形成所述配置文件。
可选地,所述第一分析模块1204,具体包括:
第一时间差计算单元,用于获取基于所述交易日志中第一交易请求的请求时间和回复时间获得接入响应时间差;
第一分析单元,用于获取基于所述接入响应时间差和所述接入响应时间差限值比较得到对所述票证应用系统处理所述第一交易请求的处理性能分析结果。
可选地,所述第一分析模块1204,具体包括:
第二时间差计算单元,用于获取基于所述交易日志中第二交易请求的请求时间和回复时间获得同步调用响应时间差;
第二分析单元,用于获取基于所述同步调用响应时间差和所述同步调用响应时间差限值比较得到对所述票证应用系统和所述其他系统之间的协同响应性能分析结果。
可选地,第二时限设置模块设置的同步调用响应时间差限值小于所述第一时限设置模块设置的接入响应时间差限值。
可选地,第二分析模块1205,具体包括:
第三分析单元,用于根据所述交易相关要素数据随时间的分布情况获得所述交易分析结果;
第四分析单元,用于根据所述交易相关要素数据获得衍生数据,根据所述衍生数据获得所述交易分析结果;
第五分析单元,用于根据所述交易相关要素数据获得衍生数据,根据所述衍生数据随时间的分布情况获得所述交易分析结果。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
下面参考图13,其示出了适于用来实现本公开实施例的电子设备600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图13示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图13所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置606加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置606;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图13示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
基于前述实施例提供的数据提取与分析方法和相关装置,相应地,本申请实施例还提供了一种计算机可读存储介质。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
获取配置文件和票证应用系统的交易日志,所述配置文件包括数据提取规则;
依据所述配置文件读取并解析所述交易日志,从所述交易日志中提取得到目标要素数据;所述目标要素数据包括:测试相关要素数据、所述票证应用系统的性能相关要素数据和所述票证应用系统的交易相关要素数据;所述测试相关要素数据用于复现系统问题和/或用于进行系统测试;
基于所述性能相关要素数据获得所述票证应用系统的性能分析结果,并基于所述交易相关要素数据获得所述票证应用系统的交易分析结果。
或者,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
获取配置文件和票证应用系统的交易日志,所述配置文件包括数据提取规则;
依据所述配置文件读取并解析所述交易日志,从所述交易日志中提取得到目标要素数据;所述目标要素数据包括:测试相关要素数据、所述票证应用系统的性能相关要素数据和所述票证应用系统的交易相关要素数据;所述测试相关要素数据用于复现系统问题和/或用于进行系统测试;
基于所述性能相关要素数据获得所述票证应用系统的性能分析结果,并基于所述交易相关要素数据获得所述票证应用系统的交易分析结果。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置606被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。
根据本公开的一个或多个实施例,本申请提供了一种数据提取与分析方法,包括:
获取配置文件和票证应用系统的交易日志,所述配置文件包括数据提取规则;
依据所述配置文件读取并解析所述交易日志,从所述交易日志中提取得到目标要素数据;所述目标要素数据包括:测试相关要素数据、所述票证应用系统的性能相关要素数据和所述票证应用系统的交易相关要素数据;所述测试相关要素数据用于复现系统问题和/或用于进行系统测试;
基于所述性能相关要素数据获得所述票证应用系统的性能分析结果,并基于所述交易相关要素数据获得所述票证应用系统的交易分析结果。
可选地,所述获取配置文件,包括:
确定数据提取目标;
根据所述数据提取目标构建正则匹配配置项和/或解析功能表达式作为所述数据提取规则,形成所述配置文件。
可选地,所述性能相关要素数据包括所述交易日志中第一交易请求的请求时间和回复时间;
在所述基于所述性能相关要素数据获得所述票证应用系统的性能分析结果之前,所述方法还包括:
设置接入响应时间差限值;
所述基于所述性能相关要素数据获得所述票证应用系统的性能分析结果,具体包括:
基于所述交易日志中第一交易请求的请求时间和回复时间获得接入响应时间差;
基于所述接入响应时间差和所述接入响应时间差限值比较得到对所述票证应用系统处理所述第一交易请求的处理性能分析结果。
可选地,所述性能相关要素数据包括所述交易日志中第二交易请求的请求时间和回复时间;所述第二交易请求为票证应用系统对其他系统的同步调用交易请求;
在所述基于所述性能相关要素数据获得所述票证应用系统的性能分析结果之前,所述方法还包括:
设置同步调用响应时间差限值;
所述基于所述性能相关要素数据获得所述票证应用系统的性能分析结果,具体包括:
基于所述交易日志中第二交易请求的请求时间和回复时间获得同步调用响应时间差;
基于所述同步调用响应时间差和所述同步调用响应时间差限值比较得到对所述票证应用系统和所述其他系统之间的协同响应性能分析结果。
可选地,所述同步调用响应时间差限值小于所述接入响应时间差限值。
可选地,所述测试相关要素数据用于复现系统问题和/或进行系统测试;所述测试相关要素数据包括输入请求文本和输出回复文本。可选地,所述基于所述交易相关要素数据获得所述票证应用系统的交易分析结果,包括:
根据所述交易相关要素数据随时间的分布情况获得所述交易分析结果;或者,
根据所述交易相关要素数据获得衍生数据;根据所述衍生数据或者所述衍生数据随时间的分布情况获得所述交易分析结果。
本申请提供的数据提取与分析装置,包括:
获取模块,用于获取配置文件和票证应用系统的交易日志,所述配置文件包括数据提取规则;
解析模块,用于依据所述配置文件读取并解析所述交易日志;
数据提取模块,从所述交易日志中提取得到目标要素数据;所述目标要素数据包括:测试相关要素数据、所述票证应用系统的性能相关要素数据和所述票证应用系统的交易相关要素数据;所述测试相关要素数据用于复现系统问题和/或用于进行系统测试;
第一分析模块,用于基于所述性能相关要素数据获得所述票证应用系统的性能分析结果;
第二分析模块,用于基于所述交易相关要素数据获得所述票证应用系统的交易分析结果。
可选地,所述获取模块,具体包括:
目标确定单元,用于确定数据提取目标;
文件形成单元,用于根据所述数据提取目标构建正则匹配配置项和/或解析功能表达式作为所述数据提取规则,形成所述配置文件。
可选地,所述性能相关要素数据包括所述交易日志中第一交易请求的请求时间和回复时间;
所述装置还包括:
第一时限设置模块,用于设置接入响应时间差限值;
所述第一分析模块,具体包括:
第一时间差计算单元,用于获取基于所述交易日志中第一交易请求的请求时间和回复时间获得接入响应时间差;
第一分析单元,用于获取基于所述接入响应时间差和所述接入响应时间差限值比较得到对所述票证应用系统处理所述第一交易请求的处理性能分析结果。
可选地,所述性能相关要素数据包括所述交易日志中第二交易请求的请求时间和回复时间;所述第二交易请求为所述票证应用系统对其他系统的同步调用交易请求;
所述装置还包括:
第二时限设置模块,用于设置同步调用响应时间差限值;
所述第一分析模块,具体包括:
第二时间差计算单元,用于获取基于所述交易日志中第二交易请求的请求时间和回复时间获得同步调用响应时间差;
第二分析单元,用于获取基于所述同步调用响应时间差和所述同步调用响应时间差限值比较得到对所述票证应用系统和所述其他系统之间的协同响应性能分析结果。
可选地,所述第二时限设置模块设置的同步调用响应时间差限值小于所述第一时限设置模块设置的接入响应时间差限值。
可选地,所述测试相关要素数据包括输入请求文本和输出回复文本。
可选地,所述第二分析模块,具体包括:
第三分析单元,用于根据所述交易相关要素数据随时间的分布情况获得所述交易分析结果;
第四分析单元,用于根据所述交易相关要素数据获得衍生数据,根据所述衍生数据获得所述交易分析结果;
第五分析单元,用于根据所述交易相关要素数据获得衍生数据,根据所述衍生数据随时间的分布情况获得所述交易分析结果。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (14)
1.一种数据提取与分析方法,其特征在于,包括:
获取配置文件和票证应用系统的交易日志,所述配置文件包括数据提取规则;
依据所述配置文件读取并解析所述交易日志,从所述交易日志中提取得到目标要素数据;所述目标要素数据包括:测试相关要素数据、所述票证应用系统的性能相关要素数据和所述票证应用系统的交易相关要素数据;所述测试相关要素数据用于复现系统问题和/或用于进行系统测试;
基于所述性能相关要素数据获得所述票证应用系统的性能分析结果,并基于所述交易相关要素数据获得所述票证应用系统的交易分析结果。
2.根据权利要求1所述的方法,其特征在于,所述获取配置文件,包括:
确定数据提取目标;
根据所述数据提取目标构建正则匹配配置项和/或解析功能表达式作为所述数据提取规则,形成所述配置文件。
3.根据权利要求1所述的方法,其特征在于,
所述性能相关要素数据包括所述交易日志中第一交易请求的请求时间和回复时间;
在所述基于所述性能相关要素数据获得所述票证应用系统的性能分析结果之前,所述方法还包括:
设置接入响应时间差限值;
所述基于所述性能相关要素数据获得所述票证应用系统的性能分析结果,具体包括:
基于所述交易日志中第一交易请求的请求时间和回复时间获得接入响应时间差;
基于所述接入响应时间差和所述接入响应时间差限值比较得到对所述票证应用系统处理所述第一交易请求的处理性能分析结果。
4.根据权利要求3所述的方法,其特征在于,所述性能相关要素数据包括所述交易日志中第二交易请求的请求时间和回复时间;所述第二交易请求为所述票证应用系统对其他系统的同步调用交易请求;
在所述基于所述性能相关要素数据获得所述票证应用系统的性能分析结果之前,所述方法还包括:
设置同步调用响应时间差限值;
所述基于所述性能相关要素数据获得所述票证应用系统的性能分析结果,具体包括:
基于所述交易日志中第二交易请求的请求时间和回复时间获得同步调用响应时间差;
基于所述同步调用响应时间差和所述同步调用响应时间差限值比较得到对所述票证应用系统和所述其他系统之间的协同响应性能分析结果。
5.根据权利要求4所述的方法,其特征在于,所述同步调用响应时间差限值小于所述接入响应时间差限值。
6.根据权利要求1所述的方法,其特征在于,所述测试相关要素数据包括:输入请求文本和输出回复文本。
7.根据权利要求1所述的方法,其特征在于,所述基于所述交易相关要素数据获得所述票证应用系统的交易分析结果,包括:
根据所述交易相关要素数据随时间的分布情况获得所述交易分析结果;或者,
根据所述交易相关要素数据获得衍生数据;根据所述衍生数据或者所述衍生数据随时间的分布情况获得所述交易分析结果。
8.一种数据提取与分析装置,其特征在于,包括:
获取模块,用于获取配置文件和票证应用系统的交易日志,所述配置文件包括数据提取规则;
解析模块,用于依据所述配置文件读取并解析所述交易日志;
数据提取模块,从所述交易日志中提取得到目标要素数据;所述目标要素数据包括:测试相关要素数据、所述票证应用系统的性能相关要素数据和所述票证应用系统的交易相关要素数据;所述测试相关要素数据用于复现系统问题和/或用于进行系统测试;
第一分析模块,用于基于所述性能相关要素数据获得所述票证应用系统的性能分析结果;
第二分析模块,用于基于所述交易相关要素数据获得所述票证应用系统的交易分析结果。
9.根据权利要求8所述的装置,其特征在于,所述获取模块,具体包括:
目标确定单元,用于确定数据提取目标;
文件形成单元,用于根据所述数据提取目标构建正则匹配配置项和/或解析功能表达式作为所述数据提取规则,形成所述配置文件。
10.根据权利要求8所述的装置,其特征在于,
所述性能相关要素数据包括所述交易日志中第一交易请求的请求时间和回复时间;
所述装置还包括:
第一时限设置模块,用于设置接入响应时间差限值;
所述第一分析模块,具体包括:
第一时间差计算单元,用于获取基于所述交易日志中第一交易请求的请求时间和回复时间获得接入响应时间差;
第一分析单元,用于获取基于所述接入响应时间差和所述接入响应时间差限值比较得到对所述票证应用系统处理所述第一交易请求的处理性能分析结果。
11.根据权利要求10所述的装置,其特征在于,所述性能相关要素数据包括所述交易日志中第二交易请求的请求时间和回复时间;所述第二交易请求为所述票证应用系统对其他系统的同步调用交易请求;
所述装置还包括:
第二时限设置模块,用于设置同步调用响应时间差限值;
所述第一分析模块,具体包括:
第二时间差计算单元,用于获取基于所述交易日志中第二交易请求的请求时间和回复时间获得同步调用响应时间差;
第二分析单元,用于获取基于所述同步调用响应时间差和所述同步调用响应时间差限值比较得到对所述票证应用系统和所述其他系统之间的协同响应性能分析结果。
12.根据权利要求11所述的装置,其特征在于,所述第二时限设置模块设置的同步调用响应时间差限值小于所述第一时限设置模块设置的接入响应时间差限值。
13.根据权利要求8所述的装置,其特征在于,所述测试相关要素数据包括:输入请求文本和输出回复文本。
14.根据权利要求8所述的装置,其特征在于,所述第二分析模块,具体包括:
第三分析单元,用于根据所述交易相关要素数据随时间的分布情况获得所述交易分析结果;
第四分析单元,用于根据所述交易相关要素数据获得衍生数据,根据所述衍生数据获得所述交易分析结果;
第五分析单元,用于根据所述交易相关要素数据获得衍生数据,根据所述衍生数据随时间的分布情况获得所述交易分析结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210063929.3A CN114092201A (zh) | 2022-01-20 | 2022-01-20 | 一种数据提取与分析方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210063929.3A CN114092201A (zh) | 2022-01-20 | 2022-01-20 | 一种数据提取与分析方法和相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114092201A true CN114092201A (zh) | 2022-02-25 |
Family
ID=80308929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210063929.3A Pending CN114092201A (zh) | 2022-01-20 | 2022-01-20 | 一种数据提取与分析方法和相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114092201A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101044463A (zh) * | 2004-10-20 | 2007-09-26 | 意大利电信股份公司 | 用于监视客户端-服务器架构的性能的方法和系统 |
JP2014109975A (ja) * | 2012-12-04 | 2014-06-12 | Nippon Telegr & Teleph Corp <Ntt> | 性能分析装置、性能分析方法及び性能分析プログラム |
CN106407085A (zh) * | 2016-11-24 | 2017-02-15 | 中国银行股份有限公司 | 一种性能监控方法及装置 |
CN110362456A (zh) * | 2018-04-10 | 2019-10-22 | 挖财网络技术有限公司 | 一种获取服务端性能数据的方法及装置 |
CN112651785A (zh) * | 2020-12-31 | 2021-04-13 | 中国农业银行股份有限公司 | 交易量实时监测方法与系统 |
CN113419932A (zh) * | 2021-05-26 | 2021-09-21 | 荣耀终端有限公司 | 一种设备性能分析方法和装置 |
-
2022
- 2022-01-20 CN CN202210063929.3A patent/CN114092201A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101044463A (zh) * | 2004-10-20 | 2007-09-26 | 意大利电信股份公司 | 用于监视客户端-服务器架构的性能的方法和系统 |
JP2014109975A (ja) * | 2012-12-04 | 2014-06-12 | Nippon Telegr & Teleph Corp <Ntt> | 性能分析装置、性能分析方法及び性能分析プログラム |
CN106407085A (zh) * | 2016-11-24 | 2017-02-15 | 中国银行股份有限公司 | 一种性能监控方法及装置 |
CN110362456A (zh) * | 2018-04-10 | 2019-10-22 | 挖财网络技术有限公司 | 一种获取服务端性能数据的方法及装置 |
CN112651785A (zh) * | 2020-12-31 | 2021-04-13 | 中国农业银行股份有限公司 | 交易量实时监测方法与系统 |
CN113419932A (zh) * | 2021-05-26 | 2021-09-21 | 荣耀终端有限公司 | 一种设备性能分析方法和装置 |
Non-Patent Citations (1)
Title |
---|
艾德尔曼: "《使用Perl实现系统管理自动化 中文版》", 31 December 2011 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6286030B1 (en) | Systems and methods for recording and visually recreating sessions in a client-server environment | |
US9058631B2 (en) | Method and system for e-commerce transaction data accounting | |
CN105183912A (zh) | 异常日志确定方法和装置 | |
CN109032923A (zh) | 基于调用链的软件测试方法、装置、终端 | |
CN115757150A (zh) | 一种生产环境测试方法、装置、设备及存储介质 | |
CN110362456A (zh) | 一种获取服务端性能数据的方法及装置 | |
CN111008865A (zh) | 优惠券同步展示方法、装置、服务器及存储介质 | |
US8504995B2 (en) | Process flow analysis based on processing artifacts | |
CN112954056A (zh) | 监控数据处理方法、装置、电子设备及存储介质 | |
CN114092201A (zh) | 一种数据提取与分析方法和相关装置 | |
CN109189810B (zh) | 查询方法、装置、电子设备及计算机可读存储介质 | |
CN111523764A (zh) | 业务架构检测方法、装置、工具、电子设备和介质 | |
CN113485890B (zh) | 航班查询系统业务监控方法、装置、设备及存储介质 | |
CN110955709B (zh) | 一种数据的处理方法、装置及电子设备 | |
CN109672590A (zh) | 数据采集方法、装置、设备及计算机可读存储介质 | |
CN114238823A (zh) | 访问网站的方法、装置、计算机设备和存储介质 | |
CN114003567A (zh) | 数据采集的方法及相关装置 | |
CN112967035A (zh) | 跨数据库进行业务系统追账/测评方法及系统 | |
CN111831527A (zh) | 扫描数据库性能问题的方法、装置、电子设备、及介质 | |
CN112100159A (zh) | 数据处理方法、装置、电子设备和计算机可读介质 | |
CN113779102B (zh) | 数据特征生成方法、装置、电子设备以及计算机可读介质 | |
CN114997977B (zh) | 一种数据处理方法、装置、电子设备及计算机可读介质 | |
CN111179088B (zh) | 一种信息处理方法及装置 | |
CN113516333B (zh) | 一种基于精准化业务模型的性能测试方法和系统 | |
CN116932347A (zh) | 链路追踪方法、设备及计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220225 |