CN110674211A

CN110674211A - 一种Oracle数据库AWR报告的自动解析方法和设备

Info

Publication number: CN110674211A
Application number: CN201910937210.6A
Authority: CN
Inventors: 李文中; 万晨; 丁望祥; 张淋洺; 张根周; 房涛; 胡鑫; 裴瑛慧
Original assignee: Nanjing University; Information and Telecommunication Branch of State Grid Shaanxi Electric Power Co Ltd
Current assignee: Nanjing University; Information and Telecommunication Branch of State Grid Shaanxi Electric Power Co Ltd
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-01-10
Anticipated expiration: 2039-09-29
Also published as: CN110674211B

Abstract

本发明公开了一种Oracle数据库AWR报告的自动解析方法和设备。方法包括以下步骤：1、对AWR报告中的结构化数据进行解析，所述结构化数据包括表格形式的数据；2、对AWR报告中的非结构化数据进行解析，所述非结构化数据包括表格的描述文本和SQL事件的描述文本；3、将结构化数据解析结果和非结构化数据解析结果合并为统一的键值对形式，利用机器学习算法进行特征选择，作为AWR报告的最终解析结果；4、在特征选择的基础上缩小数据的解析范围，然后采用步骤1和2的解析方法，对线上的新产生的AWR报告进行解析。本发明以键值对为基础实现对AWR报告的解析转换，处理性能高效，采用特征选择的方法实现在有效获取信息的同时减少数据分析的存储和计算开销。

Description

一种Oracle数据库AWR报告的自动解析方法和设备

技术领域

本发明涉及数据库领域，具体涉及一种Oracle数据库AWR报告的自动解析方法和设备。

背景技术

在Oracle 10g中，加入了自动工作负载仓库(Automatic Workload Repository)，其对应生成的报告称为AWR报告。通常AWR会收集Oracle数据库的诸多方面的性能统计数据，其描述了Oracle数据库的基本信息和运行状况，可供运维专家对数据库进行分析诊断。但同时应该也意识到，AWR报告收集了数据库系统几乎全方面的信息，这样的信息量本身是巨大的，大到人们手工地去利用和分析AWR的开销几乎是不可以接受的。所以一直以来，对于Oracle数据库这样庞大而复杂的数据库管理系统的运行维护吸引了业界很多关注，这些关注已不仅仅在于如何有效地收集数据库运行状况的基本信息，更多的在于如何有效地利用已有的信息。

当前基于AWR仓库Oracle 10g及以上版本提供了一些数据库检测诊断和优化建议提供的工具，以提高数据库运维专家的报告阅读和诊断分析效率。但现实多变的情形下AWR报告的阅读是复杂的，80多张表格中包含了成千上万的数值属性和字符属性。能熟练阅读分析AWR报告的也只限于少数常年从事数据库运维方面的专家，而且有些时候还需要凭借一些经验和直觉。因此，更多的数据挖掘分析需要被应用以提取有效信息，以使运维工作自动化，减轻人力成本，同时降低对人的主观判断经验的依赖，提高分析效率；但其结构化和非结构化的数据难以直接应用数据挖掘分析技术，所以有必要提出一种有效地自动化解析AWR报告的技术。

发明内容

发明目的：为了解决如何有效地从Oracle数据库AWR报告获取有效信息以满足后续数据挖掘分析的需求，本发明提出基于键值对解析和特征选择的Oracle数据库AWR报告的自动解析方法和设备，对于AWR报告中结构化和非结构数据进行自动化解析，达到获取关键指标。

技术方案：为实现上述目的，第一方面，本发明提出一种AWR报告的自动解析方法，包括以下步骤：

1)、对AWR报告中的结构化数据进行解析，所述结构化数据包括表格形式的数据；

2)、对AWR报告中的非结构化数据进行解析，所述非结构化数据包括表格的描述文本和SQL事件的描述文本；

3)、将结构化数据解析结果和非结构化数据解析结果合并为统一的键值对形式，利用机器学习算法进行特征选择，作为AWR报告的最终解析结果；

4)、在特征选择的基础上缩小待解析数据的解析范围，然后采用步骤1和2的解析方法，对线上的新产生的AWR报告进行解析。

在第二方面，本发明提出一种计算机设备，所述设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现根据本发明的第一方面所述的方法。

有益效果：本发明提出基于键值对解析和特征选择的Oracle数据库AWR报告的自动化解析方法。从而实现Oracle数据库AWR报告的自动化解析，并通过嵌入式特征选择的方法，选择具有显著重要性的指标子集，有效获取信息的同时减少数据分析的存储和计算开销。

附图说明

图1是数据解析和特征选择的流程图；

图2是AWR报告中结构化数据样例；

图3是AWR报告中结构化数据解析结果样例；

图4是AWR报告在线解析的示意图。

具体实施方式

下面结合附图对本发明的技术方案做更进一步的说明。应当了解，以下提供的实施例仅是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的技术构思，本发明还可以用许多不同的形式来实施，并且不局限于此处描述的实施例。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。

为了实现AWR报告的自动化分析，首先一步是将AWR报告处理转换为一种形式上更为统一(对齐)的表示。键值对(KVP)是一种抽象数据类型，包含一组key标识符和一组关联值value，字典和散列表都是基于键值对。键值对这样的映射关系具有很强很普遍的表达形式，另一方面键值对的数据形式适合于key-value数据库的存储，能很好的扩展到大数据的任务中去。所以本发明采用键值对的数据表格形式对表格中成千上万的数据进行处理。如果AWR报告是Oracle数据库的一次体检报告的话，那么这份报告中每个表格还有各种各样的信息，如有数值型的，也有字符型的。第一步的目标是把这些“体检信息”从各个表格中抽取出来，并给每个值赋予一个唯一标识符；那么显然标识符对应一个key，每个值对应一个value，所有表格中这样的键值对集合就可以完整地描述这一AWR报告。所以，本发明采用基于键值对的自动化解析，以满足统一的表示AWR报告中结构化和非结构化的数据。通过将结构化的表格数据和非结构化的文本数据分治进行解析处理，然后合并为统一形式，再进行特征选择确定关键指标。

图1是基于键值对解析和特征选择的Oracle数据库AWR报告的自动化解析方法的流程图，包括以下步骤：

步骤1，结构化数据解析。

对结构化数据的解析具体包括：

步骤1-1，划分AWR报告中结构化数据的范围：主要包括以表格形式存在的数据库各方面指标的取值，有数值型和字符型的取值，如“99.88”、“200ms”；如图2所示为Top5Timed Foreground Events报告样例，其各项指标可视作结构化数据。

步骤1-2，定义结构化数据解析过程的键值对key-value，这里一个指标取值在表格中对应的行名列名组合“行名&列名”作为key，则指标的取值作为value；

步骤1-3，表格数据解析：采用pandas中高性能的html的表格数据处理模块pandas.read_html(url)进行.html格式的AWR报告中表格数据的解析；这里的文件目录以统一资源定位符URL的形式给出，表格数据的解析主要是获取各个表格中的具体数值型和字符型数据以及对应的行名和列名(如果存在的话)。pandas.read_html(url)能快速地对.html格式的AWR报告中的表格进行解析，并以列表的形式[df[0],df[1],…,df[n]]给出n个表格的解析结果，其中df[i]表示第i个表格的pandas.DataFrame解析结果。图3示出了一个结构化数据解析结果的样例。

针对结构化的表格形式数据采用性能优化的解析工具，加速解析。html的表格数据解析模块能快速的实现解析。

步骤2、非结构化数据解析。对非结构化数据的解析包括：

步骤2-1，划分AWR报告中非结构化数据的范围，主要包括80多张表格的描述文本信息、AWR报告对应时间戳内SQL事件的描述文本信息(通常在一个SQL事件表中)。

步骤2-2，定义非结构化数据解析过程的键值对key-value，一方面，解析表格的描述文本，并进行编码，所以key是表格的顺序编号，value是文本的编码结果；另一方面，解析SQL事件的描述文本，并进行编码，所以key是SQL事件的顺序编号，value是对应文本的编码结果。

步骤2-3，文本数据解析：采用基于正则匹配的lxml.html.parse标签解析技术获取文本信息，其中依据历史经验模板设计正则表达式，获取目标文本的同时进行编码。所谓历史经验模板是指，“日志记录程序”在打印文本信息时遵循的固定格式，如下的事件描述文本：

SQL*Net message to client,

SQL*Net more data from client，

SQL*Net more data to client，

SQL*Net break/reset to client，

SQL*Net message from client

遵循固定的格式，并以此设计‘SQL\*Net[*](to)|(from)client’正则表达式进行匹配；遵循此类格式的文本，匹配成功并被编为相同的编码。

采用基于正则匹配的html标签解析技术获取诸如各个表格描述信息(table的summary属性)，下面给出一个AWR报告转换为key-value后部分key的示例：['snapId',

'Archive Log&&Large Read&&This table displays IO Statistics fordifferent file types,such as data files,control files,log files and tempfiles.IO Statistics include amount of reads and writes,requests per second,data per second,wait count and average wait time',

'kupp process wait&&Avg wait(ms)&&This table displays Foreground WaitEvents and their wait statistics',

'Executes:&&Per Transaction&&This table displays load profile',

'intra txn parallel recovery&&Pct Get Miss&&This table displays latchstatistics.Get requests,％get miss,wait time,noWait requests are displayedfor each latch',

'sch_lj_oids&&Mod Reqs&&This table displays dictionary cachestatistics.Get requests,％misses,scan requests,final usage,etc.are displayedfor each cache']

说明：所示的AWR实例有83表格，有效的键值对数目为4640，这里只展示了部分，其中第一个key为AWR报告的快照表示ID，后续为解析的key，格式为’行名&&列名&&表格描述信息’。

可以看出打印出table的summary:This table displays…属性是描述该表格的表达内容。上述示例中parse为lxml.html中的强大的基于正则匹配的html标签解析模块parse，该方法依据便签的匹配结果进行html文件的解析，并以树的结构返回。这里以表格标签’.//table’进行匹配解析，并将解析结果打印出来；可以看出lxml.html.parse方法同样能解析出表格中的具体数据(都是字符类型)，不过相对于pandas.read_html方法，该方法解析速度较低。所以实际中lxml.html.parse只用作解析表格的描述信息，表格的具体数据由pandas.read_html解析。

步骤3，特征选择。

特征选择(Feature,Variable and Attribution Selection)是机器学习中Feature Construction的重要组成部分。在筛选原始数据，构造有用的特征集合方面，可以过滤无关特征、剔除冗余特征、实现特征重要性评估。嵌入式方法是继过滤式和包裹式后提出的特征选择方法，将特征选择嵌入到学习器的训练过程，通常该类算法计算复杂度比包裹式方法低，同时能获得不错的特征子集。嵌入式方法结合了前两种方法的优势，是十分流行的方法，前人基于已有的学习器模型提出了一些精致的方法，有基于线性模型的Lasso和SVM-RFE等，有基于树模型的正则化树(Regularized Tree)，方法都有不错的性能，但由于模型自身的表达力的限制，对于一些难的学习任务，模型本身的精度不够，也影响了特征选择的性能。所以，一些表达力较强的模型越来越多的用到嵌入式特征选择中，比如神经网络、集成学习模型。本发明采用正则化随机森林模型，进行嵌入式特征选择，对于Oracle数据库AWR报告中80多张表格中包含了成千上万的数值属性和字符属性所解析出的上万的属性键值对，进行特征重要性评估，然后选择具有显著重要性的指标子集，作为AWR自动解析的最后结果。

获取key-value键值对后，从单个AWR报告的所有键值对组成的集合中选择具有有效数据的键值对子集，构造对应的数据结构——字典，具体表达形式为:{rowName&&colName:data}。为了便于后续的处理，将字典转换为pandas.DataFrame的格式。一个key可以称为一个指标，对应的value称为该指标的取值。

首先，对所有指标进行简单的筛选过滤，包括：对数据缺失率大于10％的指标进行过滤；对数据方差为0的指标进行过滤。

然后，获取同时间段的专家健康度分数。目前的健康度分数来自现有的基于专家规则的健康度打分系统，每分钟对数据库进行打分。

最后，基于嵌入式的特征选择方法，对每个指标的重要性进行评估，并依据重要性评估结果的统计特性，选择具有显著重要性的指标子集，作为AWR自动解析的最后结果。

下面是对该过程的详细描述：

步骤S3-1，将步骤1中基于pandas.read_html的结构化数据解析结果和步骤2中基于lxml.html.parse的非结构化数据的解析结果进行合并，同时考虑缺失比率以及方差进行简单筛选。

步骤S3-2，建立嵌入式方法的学习模型并训练：

y＝Ensemble(X；reg₁,reg₂,…,reg_m)

y为学习模型的学习目标——对应时间点数据库系统的健康度分数，X为(1)(2)步的数据解析结果，作为学习模型的输入，记指标总数为n，则X为包含n个特征。为了提高学习模型的性能，采用随机森林这样的基于Bagging的集成学习模型，m个基学习器分别是reg₁,reg₂,…,reg_m，每个基学习器选择CART回归树。实施例中输入X对应的指标数为n＝7000，所以单个CART树的输入维度为[lg(n)]＝9。学习目标为数据库系统的专家健康度分数y∈[0,100]。

建立的嵌入式学习模型在历史数据集(一般需要收集2万条以上的AWR报告)上构建每一颗CART回归树基学习器，进行训练并集成为训练好的正则化随机森林模型。并在历史数据集上进行5折交叉验证，选择最优模型超参数的同时验证模型的泛化性能。

步骤S3-3，计算各个指标的重要性：

其中r_i为第i个指标的最终重要性比例，s_i为第i个指标所有基学习器给出的重要性的总和，w_ij表示第j个基学习器对于第i个指标给出的重要性(在CART树模型中基于Gini系数计算给出)，缺失则为零。n为指标总数，即学习模型的输入总维度；m为集成模型中基学习器的总个数。

步骤3-4，基于指标重要性，选择特征子集(指标子集)作为解析的结果。

对所有指标依据重要性进行降序排序，并在横坐标为指标、纵坐标为重要性的曲线上找出前1％附近的拐点，过滤拐点后面的指标，从而实现特征选择，即特征子集或指标子集的选取。

步骤4，在线运行解析。

对于现网新产生的AWR报告，采用前两步的结构化和非结构化数据的解析方法，进行解析；然后依据步骤3中集成学习模型选择出的特征子集，对所有指标进行过滤，所以在线运行解析时不再需要训练正则化随机森林模型；最后把新的解析结果与历史数据进行聚合，可见图4。

本领普通技术人员可以理解，实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中。在本发明的上下文中，所述计算机可读介质可以被认为是有形的且非暂时性的。非暂时性有形计算机可读介质的非限制性示例包括非易失性存储器电路(例如闪存电路、可擦除可编程只读存储器电路或掩膜只读存储器电路)、易失性存储器电路(例如静态随机存取存储器电路或动态随机存取存储器电路)、磁存储介质(例如模拟或数字磁带或硬盘驱动器)和光存储介质(例如CD、DVD或蓝光光盘)等。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本发明的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变换，这些等同变换均属于本发明的保护范围。

Claims

1.一种Oracle数据库AWR报告的自动解析方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的AWR报告的自动解析方法，其特征在于，所述步骤1包括：

1-1、划分AWR报告中结构化数据的范围：包括以表格形式存在的数据库各方面指标的取值；

1-2、定义结构化数据解析过程的键值对key-value：将一个指标取值在表格中对应的行名列名组合“行名&列名”作为key，指标的取值作为value；

1-3、对表格数据进行解析：采用pandas中html的表格数据处理模块pandas.read_html(url)进行.html格式的AWR报告中表格数据的解析，获取各个表格中的具体数值型和字符型数据以及对应的行名和列名，文件目录以统一资源定位符的形式给出。

3.根据权利要求1所述的AWR报告的自动解析方法，其特征在于，所述步骤2包括：

2-1、划分AWR报告中非结构化数据的范围：包括表格的描述文本信息、AWR报告对应时间戳内SQL事件的描述文本信息；

2-2、定义非结构化数据解析过程的键值对key-value：对于表格的描述文本，key是表格的顺序编号，value是文本的编码结果；对于SQL事件的描述文本，key是SQL事件的顺序编号，value是对应文本的编码结果；

2-3、对文本数据进行解析：采用基于正则匹配的lxml.html.parse标签解析技术获取文本信息，其中依据历史经验模板设计正则表达式，获取目标文本的同时进行编码。

4.根据权利要求1所述的AWR报告的自动解析方法，其特征在于，所述步骤3包括：

3-1、合并步骤1和步骤2的指标解析结果；

3-2、建立嵌入式特征选择模型并训练：

y＝Ensemble(X；reg₁,reg₂,…,reg_m)

y表示学习模型的学习目标，为对应时间点数据库系统的健康度分数；X表示学习模型的输入，为步骤3-1中合并后的数据解析结果，记指标总数为n，则X为包含n个特征；Ensemble表示集成学习模型，reg₁,reg₂,…,reg_m为m个基学习器；

3-3、计算各个指标的重要性：

其中r_i为第i个指标的最终重要性比例，s_i为第i个指标所有基学习器给出的重要性的总和，w_ij表示第j个基学习器对于第i个指标给出的重要性；

3-4、根据指标重要性的整体分布，选择符合指定阈值要求指标子集，作为AWR报告的最终解析结果。

5.根据权利要求4所述的AWR报告的自动解析方法，其特征在于，所述基学习器采用CART回归树。

6.根据权利要求4所述的AWR报告的自动解析方法，其特征在于，所述步骤3-1还包括：对合并后的指标进行筛选，包括：对数据缺失率大于10％的指标进行过滤；对数据方差为0的指标进行过滤。

7.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个处理器执行，所述程序被处理器执行时实现如权利要求1-6中的任一项所述的步骤。