CN115757461B

CN115757461B - 一种银行数据库应用系统结果聚类方法

Info

Publication number: CN115757461B
Application number: CN202211403060.9A
Authority: CN
Inventors: 王伟斌; 李超德; 刘宁; 王翔宇; 段天毅
Original assignee: Beijing Xinshu Technology Co ltd
Current assignee: Beijing Xinshu Technology Co ltd
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2023-06-23
Anticipated expiration: 2042-11-09
Also published as: CN115757461A

Abstract

本发明提出一种银行数据库应用系统结果聚类方法，用户通过业务系统提交查询请求，用户点击系统中热点SQL语句的TOP100功能，业务系统将查询请求转化为SQL语句，去数据库中查找前100个热点SQL并提交给银行数据库管理系统；银行数据库管理系统接收业务系统提交的SQL语句，在数据库中执行查询后，返回数据库查询结果；数据聚类模块获取数据库查询结果，并将结果聚类后提交给银行业务系统；最后聚类结果在银行业务系统中展示。采用该方法后，用户可以从银行业务系统中快速、准确定位到用户感兴趣的SQL语句，及时根据SQL语句信息发现银行业务系统中的潜在问题。

Description

一种银行数据库应用系统结果聚类方法

技术领域

本发明属于银行数据库存储及其应用领域，具体涉及一种银行数据库应用系统结果聚类方法。

背景技术

随着社会发展，各行各业都累积了大量数据。为了有效利用这些数据，首要需要解决数据存储问题。在众多存储方式中，数据库最为关键。在此基础上，开发出了为数众多的数据库应用系统。

银行数据库应用系统便利了人们对银行数据的使用，但是因为银行数据量的快速增大，导致银行数据库中存储的数据越来越多，即使用户提交了一个具体的请求，从数据库返回的结果仍可能数量庞大。而用户很容易被庞大的结果淹没，只能依靠人工方式从大量的数据中慢慢寻找所需的信息。为了提高用户的效率，利用数据挖掘技术对返回的结果数据进行整合是非常有效的方法。

发明内容

为了解决上述问题，本发明提出一种银行数据库应用系统结果聚类方法，具体地，该方法包括以下步骤：

(1)用户通过业务系统提交查询请求，用户点击系统中热点SQL语句的TOP100功能，业务系统将查询请求转化为SQL语句，去数据库中查找前100个热点SQL并提交给银行数据库管理系统；

(2)银行数据库管理系统接收业务系统提交的SQL语句，在数据库中执行查询后，返回数据库查询结果；

(3)数据聚类模块获取数据库查询结果，并将结果聚类后提交给银行业务系统；

(4)聚类结果在银行业务系统中展示。

其中数据聚类模块采用了基于信息瓶颈的聚类方法，该方法具体步骤为：

(1)将选中各列数据归一化：将结果中每一列的最大值归一化为1，每一列的最小值归一化为0，其余值按比例确定归一化取值；

(2)使用聚类方法CIB进行聚类；

(3)展示结果。

步骤(2)包括以下步骤：

1)将所有数据组成的数据集C随机划分为K个簇，记为c₁,c₂,…,c_K；

2)令K＝2，同时让用户指定最大的簇数目K_max，若用户未指定K_max，则默认

其中N为所有样本数目，K表示簇数目；

3)遍历K个簇中的每一个样本x，计算x与每一个簇间的信息损失d(x,p_i)，

并将x添加到信息损失值最小的簇c'中，即c'＝argmin_{v∈各簇的质心集合}d(x,v)，其中/>

p_i为第i个簇c_i的质心，x和p_i分别表示为特征向量{v₁,v₂,…v_n}和{v_i1,v_i2,…v_in}，n为特征数目；

4)计算簇内距离LI和簇间距离LE，

,其中

5)以K为横轴，信息损失为纵轴建立坐标系，判断LI和LE曲线是否相交，若未相交，则令K＝K+1，

若K≤K_max，则返回步骤3)；

若K>K_max，则令最终的簇数目K_final＝K-1，并退出；

若判断LI和LE曲线相交，则令最终的簇数目K_final＝K，并退出；

将簇数目为K_final时的聚类结果，作为最终聚类结果，聚类结束。

采用该方法后，用户可以从银行业务系统中快速、准确定位到用户感兴趣的SQL语句，及时根据SQL语句信息发现银行业务系统中的潜在问题。

附图说明

图1为某公司开发的某银行数据库业务系统中的热点SQL语句。

图2为银行业务系统与数据库应用系统之间的交互过程。

图3为具有结果聚类功能的数据库应用系统运行结果。

具体实施方式

图1列出了银行业务系统中的热点SQL语句，具体的信息包括SQL_ID、数据库名、SQL语句、执行次数、执行时间、平均执行时间、错误的总数、返回的行数、扫描的行数和影响的行数。通过这些信息可以清晰地了解所列SQL的执行情况。但是，在实际工作过程中，业务人员常常有这样一个要求：根据执行次数、执行时间、平均执行时间、错误的总数、返回的行数和扫描的行数中的一列或几列对所列的SQL语句进行分组。分组以后，有利于清晰地知道各SQL语句的分布情况。于是该问题转换为热点SQL语句的聚类问题。

为解决该问题，在数据库应用系统中加入了聚类模块，具体的设计如图2所示：

业务系统与数据库系统之间的交互过程主要包括以下的步骤：

(1)用户通过业务系统提交查询请求，用户点击系统中的热点SQL TOP100功能，业务系统将查询请求转化为SQL语句，去数据库中查找前100个热点SQL并提交给数据库管理系统；

(2)数据库管理系统：接收业务系统提交的SQL语句，在数据库中执行查询后，返回数据库查询结果；

(3)数据聚类模块：获取数据库查询结果，并将结果进行聚类后交给业务系统展示；

(4)数据查询结果：将聚类结果在业务系统中进行展示。

在数据聚类模块中，采用了基于信息瓶颈的聚类方法(Clustering based onInformation Bottleneck,CIB)。该方法的大概步骤为：

(1)将选中各列数据归一化：结果中每一列的最大值，归一化后为1；每一列的最小值，归一化后为0；其余值按照比例确定归一化后的取值。

(2)使用聚类方法CIB进行聚类

(3)展示结果。

重点在于上述步骤中的第(2)步，即聚类方法CIB的过程上。在介绍CIB方法前，先定义两个概念：簇内距离和簇间距离。

(1)簇内距离：一个簇内各样本与簇质心之间的信息损失之和，用LI表示，

其中，K表示簇数目，数据集C包含K个簇，分别为c₁,c₂,…,c_K，x为第i个簇c_i的一个样本，p_i为第i个簇c_i的质心。将x和p_i分别表示为特征向量{v₁,v₂,…v_n}和{v_i1,v_i2,…v_in}，n为特征数目。d(x,p_i)表示两者之间的信息损失，

(2)簇间距离：将全部数据划分为K个簇，分别为c₁,c₂,…,c_K，各簇质心之间的信息损失之和记为簇间距离用LE表示，

其中，

在聚类过程中，追求的目标为簇内距离的最小化和簇间距离的最大化，二者需要达到一个平衡。当K＝1时，所有样本划分为1个簇，此时簇内距离最大，簇间距离最小。随着K值增大，簇内距离逐渐减小，簇间距离增大。

基于上述两个概念，CIB聚类方法具体步骤如下：

(1)令K＝2，同时让用户指定最大的簇数目K_max，若用户未指定K_max，则默认

其中N为所有样本数目；

(2)将所有数据随机划分为K个簇，记为c₁,c₂,…,c_K；

(3)遍历K个簇中的每一个样本x，计算x与每一个簇间的信息损失，并将x添加到信息损失值最小的簇c'中，即c'＝argmin_{v∈各簇的质心集合}d(x,v)；

(4)计算LI和LE值；

(5)以K为横轴，信息损失为纵轴建立坐标系，判断LI和LE曲线是否相交，

若未相交，则令K＝K+1，

若K≤K_max，则返回步骤(3)；

若K>K_max，则令最终的簇数目K_final＝K-1，并退出；

图3为一个实际运行的例子，在该图中，结果数据按照执行时间和平均执行时间两列进行聚类，呈现的结果也是聚类后的结果。这种方式带来的好处是，用户可以更容易地对SQL语句的执行情况进行浏览，以便深入了解数据库的运行状态。采用该方法后，用户可以从银行业务系统中快速、准确定位到用户感兴趣的SQL语句，及时根据SQL语句信息发现银行业务系统中的潜在问题。