CN115757461A - 一种银行数据库应用系统结果聚类方法 - Google Patents
一种银行数据库应用系统结果聚类方法 Download PDFInfo
- Publication number
- CN115757461A CN115757461A CN202211403060.9A CN202211403060A CN115757461A CN 115757461 A CN115757461 A CN 115757461A CN 202211403060 A CN202211403060 A CN 202211403060A CN 115757461 A CN115757461 A CN 115757461A
- Authority
- CN
- China
- Prior art keywords
- clustering
- database
- result
- cluster
- clusters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种银行数据库应用系统结果聚类方法,用户通过业务系统提交查询请求,用户点击系统中热点SQL语句的TOP100功能,业务系统将查询请求转化为SQL语句,去数据库中查找前100个热点SQL并提交给银行数据库管理系统;银行数据库管理系统接收业务系统提交的SQL语句,在数据库中执行查询后,返回数据库查询结果;数据聚类模块获取数据库查询结果,并将结果聚类后提交给银行业务系统;最后聚类结果在银行业务系统中展示。采用该方法后,用户可以从银行业务系统中快速、准确定位到用户感兴趣的SQL语句,及时根据SQL语句信息发现银行业务系统中的潜在问题。
Description
技术领域
本发明属于银行数据库存储及其应用领域,具体涉及一种银行数据库应用系统结果聚类方法。
背景技术
随着社会发展,各行各业都累积了大量数据。为了有效利用这些数据,首要需要解决数据存储问题。在众多存储方式中,数据库最为关键。在此基础上,开发出了为数众多的数据库应用系统。
银行数据库应用系统便利了人们对银行数据的使用,但是因为银行数据量的快速增大,导致银行数据库中存储的数据越来越多,即使用户提交了一个具体的请求,从数据库返回的结果仍可能数量庞大。而用户很容易被庞大的结果淹没,只能依靠人工方式从大量的数据中慢慢寻找所需的信息。为了提高用户的效率,利用数据挖掘技术对返回的结果数据进行整合是非常有效的方法。
发明内容
为了解决上述问题,本发明提出一种银行数据库应用系统结果聚类方法,具体地,该方法包括以下步骤:
(1)用户通过业务系统提交查询请求,用户点击系统中热点SQL语句的TOP100功能,业务系统将查询请求转化为SQL语句,去数据库中查找前100个热点SQL并提交给银行数据库管理系统;
(2)银行数据库管理系统接收业务系统提交的SQL语句,在数据库中执行查询后,返回数据库查询结果;
(3)数据聚类模块获取数据库查询结果,并将结果聚类后提交给银行业务系统;
(4)聚类结果在银行业务系统中展示。
其中数据聚类模块采用了基于信息瓶颈的聚类方法,该方法具体步骤为:
(1)将选中各列数据归一化:将结果中每一列的最大值归一化为1,每一列的最小值归一化为0,其余值按比例确定归一化取值;
(2)使用聚类方法CIB进行聚类;
(3)展示结果。
步骤(2)包括以下步骤:
1)将所有数据组成的数据集C随机划分为K个簇,记为c1,c2,…,cK;
3)遍历K个簇中的每一个样本x,计算x与每一个簇间的信息损失d(x,pi),并将x添加到信息损失值最小的簇c'中,即c'=argminv∈各簇的质心集合d(x,v),其中pi为第i个簇ci的质心,x和pi分别表示为特征向量{v1,v2,…vn}和{vi1,vi2,…vin},n为特征数目;
5)以K为横轴,信息损失为纵轴建立坐标系,判断LI和LE曲线是否相交,若未相交,则令K=K+1,
若K≤Kmax,则返回步骤3);
若K>Kmax,则令最终的簇数目Kfinal=K-1,并退出;
若判断LI和LE曲线相交,则令最终的簇数目Kfinal=K,并退出;
将簇数目为Kfinal时的聚类结果,作为最终聚类结果,聚类结束。
采用该方法后,用户可以从银行业务系统中快速、准确定位到用户感兴趣的SQL语句,及时根据SQL语句信息发现银行业务系统中的潜在问题。
附图说明
图1为某公司开发的某银行数据库业务系统中的热点SQL语句。
图2为银行业务系统与数据库应用系统之间的交互过程。
图3为具有结果聚类功能的数据库应用系统运行结果。
具体实施方式
图1列出了银行业务系统中的热点SQL语句,具体的信息包括SQL_ID、数据库名、SQL语句、执行次数、执行时间、平均执行时间、错误的总数、返回的行数、扫描的行数和影响的行数。通过这些信息可以清晰地了解所列SQL的执行情况。但是,在实际工作过程中,业务人员常常有这样一个要求:根据执行次数、执行时间、平均执行时间、错误的总数、返回的行数和扫描的行数中的一列或几列对所列的SQL语句进行分组。分组以后,有利于清晰地知道各SQL语句的分布情况。于是该问题转换为热点SQL语句的聚类问题。
为解决该问题,在数据库应用系统中加入了聚类模块,具体的设计如图2所示:
业务系统与数据库系统之间的交互过程主要包括以下的步骤:
(1)用户通过业务系统提交查询请求,用户点击系统中的热点SQL TOP100功能,业务系统将查询请求转化为SQL语句,去数据库中查找前100个热点SQL并提交给数据库管理系统;
(2)数据库管理系统:接收业务系统提交的SQL语句,在数据库中执行查询后,返回数据库查询结果;
(3)数据聚类模块:获取数据库查询结果,并将结果进行聚类后交给业务系统展示;
(4)数据查询结果:将聚类结果在业务系统中进行展示。
在数据聚类模块中,采用了基于信息瓶颈的聚类方法(Clustering based onInformation Bottleneck,CIB)。该方法的大概步骤为:
(1)将选中各列数据归一化:结果中每一列的最大值,归一化后为1;每一列的最小值,归一化后为0;其余值按照比例确定归一化后的取值。
(2)使用聚类方法CIB进行聚类
(3)展示结果。
重点在于上述步骤中的第(2)步,即聚类方法CIB的过程上。在介绍CIB方法前,先定义两个概念:簇内距离和簇间距离。
(1)簇内距离:一个簇内各样本与簇质心之间的信息损失之和,用LI表示,其中,K表示簇数目,数据集C包含K个簇,分别为c1,c2,…,cK,x为第i个簇ci的一个样本,pi为第i个簇ci的质心。将x和pi分别表示为特征向量{v1,v2,…vn}和{vi1,vi2,…vin},n为特征数目。d(x,pi)表示两者之间的信息损失,
在聚类过程中,追求的目标为簇内距离的最小化和簇间距离的最大化,二者需要达到一个平衡。当K=1时,所有样本划分为1个簇,此时簇内距离最大,簇间距离最小。随着K值增大,簇内距离逐渐减小,簇间距离增大。
基于上述两个概念,CIB聚类方法具体步骤如下:
(2)将所有数据随机划分为K个簇,记为c1,c2,…,cK;
(3)遍历K个簇中的每一个样本x,计算x与每一个簇间的信息损失,并将x添加到信息损失值最小的簇c'中,即c'=argminv∈各簇的质心集合d(x,v);
(4)计算LI和LE值;
(5)以K为横轴,信息损失为纵轴建立坐标系,判断LI和LE曲线是否相交,
若未相交,则令K=K+1,
若K≤Kmax,则返回步骤(3);
若K>Kmax,则令最终的簇数目Kfinal=K-1,并退出;
若判断LI和LE曲线相交,则令最终的簇数目Kfinal=K,并退出;
将簇数目为Kfinal时的聚类结果,作为最终聚类结果,聚类结束。
图3为一个实际运行的例子,在该图中,结果数据按照执行时间和平均执行时间两列进行聚类,呈现的结果也是聚类后的结果。这种方式带来的好处是,用户可以更容易地对SQL语句的执行情况进行浏览,以便深入了解数据库的运行状态。采用该方法后,用户可以从银行业务系统中快速、准确定位到用户感兴趣的SQL语句,及时根据SQL语句信息发现银行业务系统中的潜在问题。
Claims (1)
1.一种银行数据库应用系统结果聚类方法,其特征在于,包括以下步骤:
(1)用户通过业务系统提交查询请求,用户点击系统中热点SQL语句的TOP100功能,业务系统将查询请求转化为SQL语句,去数据库中查找前100个热点SQL并提交给银行数据库管理系统;
(2)银行数据库管理系统接收业务系统提交的SQL语句,在数据库中执行查询后,返回数据库查询结果;
(3)数据聚类模块获取数据库查询结果,并将结果聚类后提交给银行业务系统;
(4)聚类结果在银行业务系统中展示。
其中数据聚类模块采用了基于信息瓶颈的聚类方法,该方法具体步骤为:
(1)将选中各列数据归一化:将结果中每一列的最大值归一化为1,每一列的最小值归一化为0,其余值按比例确定归一化取值;
(2)使用聚类方法CIB进行聚类;
(3)展示结果。
步骤(2)包括以下步骤:
1)将所有数据组成的数据集C随机划分为K个簇,记为c1,c2,…,cK;
3)遍历K个簇中的每一个样本x,计算x与每一个簇间的信息损失d(x,pi),并将x添加到信息损失值最小的簇c'中,即c'=argminv∈各簇的质心集合d(x,v),其中pi为第i个簇ci的质心,x和pi分别表示为特征向量{v1,v2,…vn}和{vi1,vi2,…vin},n为特征数目;
5)以K为横轴,信息损失为纵轴建立坐标系,判断LI和LE曲线是否相交,若未相交,则令K=K+1,
若K≤Kmax,则返回步骤3);
若K>Kmax,则令最终的簇数目Kfinal=K-1,并退出;
若判断LI和LE曲线相交,则令最终的簇数目Kfinal=K,并退出;
将簇数目为Kfinal时的聚类结果,作为最终聚类结果,聚类结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211403060.9A CN115757461B (zh) | 2022-11-09 | 2022-11-09 | 一种银行数据库应用系统结果聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211403060.9A CN115757461B (zh) | 2022-11-09 | 2022-11-09 | 一种银行数据库应用系统结果聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115757461A true CN115757461A (zh) | 2023-03-07 |
CN115757461B CN115757461B (zh) | 2023-06-23 |
Family
ID=85369090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211403060.9A Active CN115757461B (zh) | 2022-11-09 | 2022-11-09 | 一种银行数据库应用系统结果聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115757461B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591543A (zh) * | 2024-01-19 | 2024-02-23 | 成都工业学院 | 一种中文自然语言的sql语句生成方法和装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5926812A (en) * | 1996-06-20 | 1999-07-20 | Mantra Technologies, Inc. | Document extraction and comparison method with applications to automatic personalized database searching |
US6775666B1 (en) * | 2001-05-29 | 2004-08-10 | Microsoft Corporation | Method and system for searching index databases |
US7359913B1 (en) * | 2005-05-13 | 2008-04-15 | Ncr Corp. | K-means clustering using structured query language (SQL) statements and sufficient statistics |
CN103886072A (zh) * | 2014-03-24 | 2014-06-25 | 河南理工大学 | 煤矿搜索引擎中检索结果聚类系统 |
CN105072030A (zh) * | 2015-07-02 | 2015-11-18 | 哈尔滨工程大学 | 一种基于内容聚类的命名数据网络路由系统及其聚类查询方法 |
CN106446148A (zh) * | 2016-09-21 | 2017-02-22 | 中国运载火箭技术研究院 | 一种基于聚类的文本查重方法 |
CN107391306A (zh) * | 2017-07-27 | 2017-11-24 | 国家电网公司 | 一种异构数据库备份文件恢复方法 |
CN108647529A (zh) * | 2018-05-09 | 2018-10-12 | 上海海事大学 | 一种基于语义的多关键词排序搜索隐私保护系统及方法 |
CN109947904A (zh) * | 2019-03-22 | 2019-06-28 | 东北大学 | 一种基于Spark环境的偏好空间Skyline查询处理方法 |
CN111078702A (zh) * | 2019-12-17 | 2020-04-28 | 南京南瑞继保工程技术有限公司 | 一种sql语句分类管理及统一查询方法和装置 |
CN111353051A (zh) * | 2019-12-04 | 2020-06-30 | 江苏蓝河智能科技有限公司 | 一种基于K-means和Apriori的算法海事大数据关联分析的方法 |
US20200356569A1 (en) * | 2019-05-06 | 2020-11-12 | Google Llc | Triggering local extensions based on inferred intent |
CN112199722A (zh) * | 2020-10-15 | 2021-01-08 | 南京邮电大学 | 一种基于K-means的差分隐私保护聚类方法 |
-
2022
- 2022-11-09 CN CN202211403060.9A patent/CN115757461B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5926812A (en) * | 1996-06-20 | 1999-07-20 | Mantra Technologies, Inc. | Document extraction and comparison method with applications to automatic personalized database searching |
US6775666B1 (en) * | 2001-05-29 | 2004-08-10 | Microsoft Corporation | Method and system for searching index databases |
US7359913B1 (en) * | 2005-05-13 | 2008-04-15 | Ncr Corp. | K-means clustering using structured query language (SQL) statements and sufficient statistics |
CN103886072A (zh) * | 2014-03-24 | 2014-06-25 | 河南理工大学 | 煤矿搜索引擎中检索结果聚类系统 |
CN105072030A (zh) * | 2015-07-02 | 2015-11-18 | 哈尔滨工程大学 | 一种基于内容聚类的命名数据网络路由系统及其聚类查询方法 |
CN106446148A (zh) * | 2016-09-21 | 2017-02-22 | 中国运载火箭技术研究院 | 一种基于聚类的文本查重方法 |
CN107391306A (zh) * | 2017-07-27 | 2017-11-24 | 国家电网公司 | 一种异构数据库备份文件恢复方法 |
CN108647529A (zh) * | 2018-05-09 | 2018-10-12 | 上海海事大学 | 一种基于语义的多关键词排序搜索隐私保护系统及方法 |
CN109947904A (zh) * | 2019-03-22 | 2019-06-28 | 东北大学 | 一种基于Spark环境的偏好空间Skyline查询处理方法 |
US20200356569A1 (en) * | 2019-05-06 | 2020-11-12 | Google Llc | Triggering local extensions based on inferred intent |
CN111353051A (zh) * | 2019-12-04 | 2020-06-30 | 江苏蓝河智能科技有限公司 | 一种基于K-means和Apriori的算法海事大数据关联分析的方法 |
CN111078702A (zh) * | 2019-12-17 | 2020-04-28 | 南京南瑞继保工程技术有限公司 | 一种sql语句分类管理及统一查询方法和装置 |
CN112199722A (zh) * | 2020-10-15 | 2021-01-08 | 南京邮电大学 | 一种基于K-means的差分隐私保护聚类方法 |
Non-Patent Citations (3)
Title |
---|
GOKHAN KUL; DUC THANH ANH LUONG; TING XIE; VARUN CHANDOLA; OLIVER KENNEDY; SHAMBHU UPADHYAYA;: "Similarity Metrics for SQL Query Clustering", IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, pages 2408 - 2420 * |
王旭仁;冯安然;何发镁;马慧珍;杨杰;: "基于K-means和naive Bayes的数据库用户行为异常检测研究", 计算机应用研究, no. 04, pages 174 - 177 * |
邢长征;张园;: "基于密度与网格的聚类算法的改进", 计算机工程与应用, pages 81 - 85 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591543A (zh) * | 2024-01-19 | 2024-02-23 | 成都工业学院 | 一种中文自然语言的sql语句生成方法和装置 |
CN117591543B (zh) * | 2024-01-19 | 2024-04-02 | 成都工业学院 | 一种中文自然语言的sql语句生成方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115757461B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947904B (zh) | 一种基于Spark环境的偏好空间Skyline查询处理方法 | |
US8180781B2 (en) | Information processing apparatus , method, and computer-readable recording medium for performing full text retrieval of documents | |
CN102779140B (zh) | 一种关键词获取方法及装置 | |
US20070005556A1 (en) | Probabilistic techniques for detecting duplicate tuples | |
US8185536B2 (en) | Rank-order service providers based on desired service properties | |
CN110209808A (zh) | 一种基于文本信息的事件生成方法以及相关装置 | |
US11977567B2 (en) | Method of retrieving query, electronic device and medium | |
CN1896990A (zh) | 类别设定的支持方法和装置 | |
US10366108B2 (en) | Distributional alignment of sets | |
US9183223B2 (en) | System for non-deterministic disambiguation and qualitative entity matching of geographical locale data for business entities | |
CN111738341B (zh) | 一种分布式大规模人脸聚类方法及装置 | |
CN111325156A (zh) | 人脸识别方法、装置、设备和存储介质 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN112214335A (zh) | 基于知识图谱和相似度网络的Web服务发现方法 | |
CN115757461A (zh) | 一种银行数据库应用系统结果聚类方法 | |
CN113407700A (zh) | 一种数据查询方法、装置和设备 | |
CN117708270A (zh) | 企业数据查询方法、装置、设备及存储介质 | |
CN117493906A (zh) | 一种城市事件分拨方法、系统及存储介质 | |
CN107562872B (zh) | 基于sql的度量空间数据相似度查询方法及装置 | |
CN110675254B (zh) | 一种基于大数据的智慧金融交易系统 | |
CN113793191B (zh) | 商品的匹配方法、装置及电子设备 | |
CN114090757B (zh) | 对话系统的数据处理方法、电子设备及可读存储介质 | |
Le et al. | Classifying structured web sources using support vector machine and aggressive feature selection | |
CN111597212B (zh) | 一种数据检索方法及装置 | |
CN113781087B (zh) | 推荐对象的召回方法及装置、存储介质、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |