CN115757461A - 一种银行数据库应用系统结果聚类方法 - Google Patents

一种银行数据库应用系统结果聚类方法 Download PDF

Info

Publication number
CN115757461A
CN115757461A CN202211403060.9A CN202211403060A CN115757461A CN 115757461 A CN115757461 A CN 115757461A CN 202211403060 A CN202211403060 A CN 202211403060A CN 115757461 A CN115757461 A CN 115757461A
Authority
CN
China
Prior art keywords
clustering
database
result
cluster
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211403060.9A
Other languages
English (en)
Other versions
CN115757461B (zh
Inventor
王伟斌
李超德
刘宁
王翔宇
段天毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xinshu Technology Co ltd
Original Assignee
Beijing Xinshu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xinshu Technology Co ltd filed Critical Beijing Xinshu Technology Co ltd
Priority to CN202211403060.9A priority Critical patent/CN115757461B/zh
Publication of CN115757461A publication Critical patent/CN115757461A/zh
Application granted granted Critical
Publication of CN115757461B publication Critical patent/CN115757461B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种银行数据库应用系统结果聚类方法,用户通过业务系统提交查询请求,用户点击系统中热点SQL语句的TOP100功能,业务系统将查询请求转化为SQL语句,去数据库中查找前100个热点SQL并提交给银行数据库管理系统;银行数据库管理系统接收业务系统提交的SQL语句,在数据库中执行查询后,返回数据库查询结果;数据聚类模块获取数据库查询结果,并将结果聚类后提交给银行业务系统;最后聚类结果在银行业务系统中展示。采用该方法后,用户可以从银行业务系统中快速、准确定位到用户感兴趣的SQL语句,及时根据SQL语句信息发现银行业务系统中的潜在问题。

Description

一种银行数据库应用系统结果聚类方法
技术领域
本发明属于银行数据库存储及其应用领域,具体涉及一种银行数据库应用系统结果聚类方法。
背景技术
随着社会发展,各行各业都累积了大量数据。为了有效利用这些数据,首要需要解决数据存储问题。在众多存储方式中,数据库最为关键。在此基础上,开发出了为数众多的数据库应用系统。
银行数据库应用系统便利了人们对银行数据的使用,但是因为银行数据量的快速增大,导致银行数据库中存储的数据越来越多,即使用户提交了一个具体的请求,从数据库返回的结果仍可能数量庞大。而用户很容易被庞大的结果淹没,只能依靠人工方式从大量的数据中慢慢寻找所需的信息。为了提高用户的效率,利用数据挖掘技术对返回的结果数据进行整合是非常有效的方法。
发明内容
为了解决上述问题,本发明提出一种银行数据库应用系统结果聚类方法,具体地,该方法包括以下步骤:
(1)用户通过业务系统提交查询请求,用户点击系统中热点SQL语句的TOP100功能,业务系统将查询请求转化为SQL语句,去数据库中查找前100个热点SQL并提交给银行数据库管理系统;
(2)银行数据库管理系统接收业务系统提交的SQL语句,在数据库中执行查询后,返回数据库查询结果;
(3)数据聚类模块获取数据库查询结果,并将结果聚类后提交给银行业务系统;
(4)聚类结果在银行业务系统中展示。
其中数据聚类模块采用了基于信息瓶颈的聚类方法,该方法具体步骤为:
(1)将选中各列数据归一化:将结果中每一列的最大值归一化为1,每一列的最小值归一化为0,其余值按比例确定归一化取值;
(2)使用聚类方法CIB进行聚类;
(3)展示结果。
步骤(2)包括以下步骤:
1)将所有数据组成的数据集C随机划分为K个簇,记为c1,c2,…,cK
2)令K=2,同时让用户指定最大的簇数目Kmax,若用户未指定Kmax,则默认
Figure BDA0003935058650000011
其中N为所有样本数目,K表示簇数目;
3)遍历K个簇中的每一个样本x,计算x与每一个簇间的信息损失d(x,pi),
Figure BDA0003935058650000012
并将x添加到信息损失值最小的簇c'中,即c'=argminv∈各簇的质心集合d(x,v),其中
Figure BDA0003935058650000013
pi为第i个簇ci的质心,x和pi分别表示为特征向量{v1,v2,…vn}和{vi1,vi2,…vin},n为特征数目;
4)计算簇内距离LI和簇间距离LE,
Figure BDA0003935058650000014
,其中
Figure BDA0003935058650000021
5)以K为横轴,信息损失为纵轴建立坐标系,判断LI和LE曲线是否相交,若未相交,则令K=K+1,
若K≤Kmax,则返回步骤3);
若K>Kmax,则令最终的簇数目Kfinal=K-1,并退出;
若判断LI和LE曲线相交,则令最终的簇数目Kfinal=K,并退出;
将簇数目为Kfinal时的聚类结果,作为最终聚类结果,聚类结束。
采用该方法后,用户可以从银行业务系统中快速、准确定位到用户感兴趣的SQL语句,及时根据SQL语句信息发现银行业务系统中的潜在问题。
附图说明
图1为某公司开发的某银行数据库业务系统中的热点SQL语句。
图2为银行业务系统与数据库应用系统之间的交互过程。
图3为具有结果聚类功能的数据库应用系统运行结果。
具体实施方式
图1列出了银行业务系统中的热点SQL语句,具体的信息包括SQL_ID、数据库名、SQL语句、执行次数、执行时间、平均执行时间、错误的总数、返回的行数、扫描的行数和影响的行数。通过这些信息可以清晰地了解所列SQL的执行情况。但是,在实际工作过程中,业务人员常常有这样一个要求:根据执行次数、执行时间、平均执行时间、错误的总数、返回的行数和扫描的行数中的一列或几列对所列的SQL语句进行分组。分组以后,有利于清晰地知道各SQL语句的分布情况。于是该问题转换为热点SQL语句的聚类问题。
为解决该问题,在数据库应用系统中加入了聚类模块,具体的设计如图2所示:
业务系统与数据库系统之间的交互过程主要包括以下的步骤:
(1)用户通过业务系统提交查询请求,用户点击系统中的热点SQL TOP100功能,业务系统将查询请求转化为SQL语句,去数据库中查找前100个热点SQL并提交给数据库管理系统;
(2)数据库管理系统:接收业务系统提交的SQL语句,在数据库中执行查询后,返回数据库查询结果;
(3)数据聚类模块:获取数据库查询结果,并将结果进行聚类后交给业务系统展示;
(4)数据查询结果:将聚类结果在业务系统中进行展示。
在数据聚类模块中,采用了基于信息瓶颈的聚类方法(Clustering based onInformation Bottleneck,CIB)。该方法的大概步骤为:
(1)将选中各列数据归一化:结果中每一列的最大值,归一化后为1;每一列的最小值,归一化后为0;其余值按照比例确定归一化后的取值。
(2)使用聚类方法CIB进行聚类
(3)展示结果。
重点在于上述步骤中的第(2)步,即聚类方法CIB的过程上。在介绍CIB方法前,先定义两个概念:簇内距离和簇间距离。
(1)簇内距离:一个簇内各样本与簇质心之间的信息损失之和,用LI表示,
Figure BDA0003935058650000022
其中,K表示簇数目,数据集C包含K个簇,分别为c1,c2,…,cK,x为第i个簇ci的一个样本,pi为第i个簇ci的质心。将x和pi分别表示为特征向量{v1,v2,…vn}和{vi1,vi2,…vin},n为特征数目。d(x,pi)表示两者之间的信息损失,
Figure BDA0003935058650000031
(2)簇间距离:将全部数据划分为K个簇,分别为c1,c2,…,cK,各簇质心之间的信息损失之和记为簇间距离用LE表示,
Figure BDA0003935058650000032
其中,
Figure BDA0003935058650000033
在聚类过程中,追求的目标为簇内距离的最小化和簇间距离的最大化,二者需要达到一个平衡。当K=1时,所有样本划分为1个簇,此时簇内距离最大,簇间距离最小。随着K值增大,簇内距离逐渐减小,簇间距离增大。
基于上述两个概念,CIB聚类方法具体步骤如下:
(1)令K=2,同时让用户指定最大的簇数目Kmax,若用户未指定Kmax,则默认
Figure BDA0003935058650000034
其中N为所有样本数目;
(2)将所有数据随机划分为K个簇,记为c1,c2,…,cK;
(3)遍历K个簇中的每一个样本x,计算x与每一个簇间的信息损失,并将x添加到信息损失值最小的簇c'中,即c'=argminv∈各簇的质心集合d(x,v);
(4)计算LI和LE值;
(5)以K为横轴,信息损失为纵轴建立坐标系,判断LI和LE曲线是否相交,
若未相交,则令K=K+1,
若K≤Kmax,则返回步骤(3);
若K>Kmax,则令最终的簇数目Kfinal=K-1,并退出;
若判断LI和LE曲线相交,则令最终的簇数目Kfinal=K,并退出;
将簇数目为Kfinal时的聚类结果,作为最终聚类结果,聚类结束。
图3为一个实际运行的例子,在该图中,结果数据按照执行时间和平均执行时间两列进行聚类,呈现的结果也是聚类后的结果。这种方式带来的好处是,用户可以更容易地对SQL语句的执行情况进行浏览,以便深入了解数据库的运行状态。采用该方法后,用户可以从银行业务系统中快速、准确定位到用户感兴趣的SQL语句,及时根据SQL语句信息发现银行业务系统中的潜在问题。

Claims (1)

1.一种银行数据库应用系统结果聚类方法,其特征在于,包括以下步骤:
(1)用户通过业务系统提交查询请求,用户点击系统中热点SQL语句的TOP100功能,业务系统将查询请求转化为SQL语句,去数据库中查找前100个热点SQL并提交给银行数据库管理系统;
(2)银行数据库管理系统接收业务系统提交的SQL语句,在数据库中执行查询后,返回数据库查询结果;
(3)数据聚类模块获取数据库查询结果,并将结果聚类后提交给银行业务系统;
(4)聚类结果在银行业务系统中展示。
其中数据聚类模块采用了基于信息瓶颈的聚类方法,该方法具体步骤为:
(1)将选中各列数据归一化:将结果中每一列的最大值归一化为1,每一列的最小值归一化为0,其余值按比例确定归一化取值;
(2)使用聚类方法CIB进行聚类;
(3)展示结果。
步骤(2)包括以下步骤:
1)将所有数据组成的数据集C随机划分为K个簇,记为c1,c2,…,cK
2)令K=2,同时让用户指定最大的簇数目Kmax,若用户未指定Kmax,则默认
Figure FDA0003935058640000011
其中N为所有样本数目,K表示簇数目;
3)遍历K个簇中的每一个样本x,计算x与每一个簇间的信息损失d(x,pi),
Figure FDA0003935058640000012
并将x添加到信息损失值最小的簇c'中,即c'=argminv∈各簇的质心集合d(x,v),其中
Figure FDA0003935058640000013
pi为第i个簇ci的质心,x和pi分别表示为特征向量{v1,v2,…vn}和{vi1,vi2,…vin},n为特征数目;
4)计算簇内距离LI和簇间距离LE,
Figure FDA0003935058640000014
其中
Figure FDA0003935058640000015
5)以K为横轴,信息损失为纵轴建立坐标系,判断LI和LE曲线是否相交,若未相交,则令K=K+1,
若K≤Kmax,则返回步骤3);
若K>Kmax,则令最终的簇数目Kfinal=K-1,并退出;
若判断LI和LE曲线相交,则令最终的簇数目Kfinal=K,并退出;
将簇数目为Kfinal时的聚类结果,作为最终聚类结果,聚类结束。
CN202211403060.9A 2022-11-09 2022-11-09 一种银行数据库应用系统结果聚类方法 Active CN115757461B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211403060.9A CN115757461B (zh) 2022-11-09 2022-11-09 一种银行数据库应用系统结果聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211403060.9A CN115757461B (zh) 2022-11-09 2022-11-09 一种银行数据库应用系统结果聚类方法

Publications (2)

Publication Number Publication Date
CN115757461A true CN115757461A (zh) 2023-03-07
CN115757461B CN115757461B (zh) 2023-06-23

Family

ID=85369090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211403060.9A Active CN115757461B (zh) 2022-11-09 2022-11-09 一种银行数据库应用系统结果聚类方法

Country Status (1)

Country Link
CN (1) CN115757461B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591543A (zh) * 2024-01-19 2024-02-23 成都工业学院 一种中文自然语言的sql语句生成方法和装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5926812A (en) * 1996-06-20 1999-07-20 Mantra Technologies, Inc. Document extraction and comparison method with applications to automatic personalized database searching
US6775666B1 (en) * 2001-05-29 2004-08-10 Microsoft Corporation Method and system for searching index databases
US7359913B1 (en) * 2005-05-13 2008-04-15 Ncr Corp. K-means clustering using structured query language (SQL) statements and sufficient statistics
CN103886072A (zh) * 2014-03-24 2014-06-25 河南理工大学 煤矿搜索引擎中检索结果聚类系统
CN105072030A (zh) * 2015-07-02 2015-11-18 哈尔滨工程大学 一种基于内容聚类的命名数据网络路由系统及其聚类查询方法
CN106446148A (zh) * 2016-09-21 2017-02-22 中国运载火箭技术研究院 一种基于聚类的文本查重方法
CN107391306A (zh) * 2017-07-27 2017-11-24 国家电网公司 一种异构数据库备份文件恢复方法
CN108647529A (zh) * 2018-05-09 2018-10-12 上海海事大学 一种基于语义的多关键词排序搜索隐私保护系统及方法
CN109947904A (zh) * 2019-03-22 2019-06-28 东北大学 一种基于Spark环境的偏好空间Skyline查询处理方法
CN111078702A (zh) * 2019-12-17 2020-04-28 南京南瑞继保工程技术有限公司 一种sql语句分类管理及统一查询方法和装置
CN111353051A (zh) * 2019-12-04 2020-06-30 江苏蓝河智能科技有限公司 一种基于K-means和Apriori的算法海事大数据关联分析的方法
US20200356569A1 (en) * 2019-05-06 2020-11-12 Google Llc Triggering local extensions based on inferred intent
CN112199722A (zh) * 2020-10-15 2021-01-08 南京邮电大学 一种基于K-means的差分隐私保护聚类方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5926812A (en) * 1996-06-20 1999-07-20 Mantra Technologies, Inc. Document extraction and comparison method with applications to automatic personalized database searching
US6775666B1 (en) * 2001-05-29 2004-08-10 Microsoft Corporation Method and system for searching index databases
US7359913B1 (en) * 2005-05-13 2008-04-15 Ncr Corp. K-means clustering using structured query language (SQL) statements and sufficient statistics
CN103886072A (zh) * 2014-03-24 2014-06-25 河南理工大学 煤矿搜索引擎中检索结果聚类系统
CN105072030A (zh) * 2015-07-02 2015-11-18 哈尔滨工程大学 一种基于内容聚类的命名数据网络路由系统及其聚类查询方法
CN106446148A (zh) * 2016-09-21 2017-02-22 中国运载火箭技术研究院 一种基于聚类的文本查重方法
CN107391306A (zh) * 2017-07-27 2017-11-24 国家电网公司 一种异构数据库备份文件恢复方法
CN108647529A (zh) * 2018-05-09 2018-10-12 上海海事大学 一种基于语义的多关键词排序搜索隐私保护系统及方法
CN109947904A (zh) * 2019-03-22 2019-06-28 东北大学 一种基于Spark环境的偏好空间Skyline查询处理方法
US20200356569A1 (en) * 2019-05-06 2020-11-12 Google Llc Triggering local extensions based on inferred intent
CN111353051A (zh) * 2019-12-04 2020-06-30 江苏蓝河智能科技有限公司 一种基于K-means和Apriori的算法海事大数据关联分析的方法
CN111078702A (zh) * 2019-12-17 2020-04-28 南京南瑞继保工程技术有限公司 一种sql语句分类管理及统一查询方法和装置
CN112199722A (zh) * 2020-10-15 2021-01-08 南京邮电大学 一种基于K-means的差分隐私保护聚类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GOKHAN KUL; DUC THANH ANH LUONG; TING XIE; VARUN CHANDOLA; OLIVER KENNEDY; SHAMBHU UPADHYAYA;: "Similarity Metrics for SQL Query Clustering", IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, pages 2408 - 2420 *
王旭仁;冯安然;何发镁;马慧珍;杨杰;: "基于K-means和naive Bayes的数据库用户行为异常检测研究", 计算机应用研究, no. 04, pages 174 - 177 *
邢长征;张园;: "基于密度与网格的聚类算法的改进", 计算机工程与应用, pages 81 - 85 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591543A (zh) * 2024-01-19 2024-02-23 成都工业学院 一种中文自然语言的sql语句生成方法和装置
CN117591543B (zh) * 2024-01-19 2024-04-02 成都工业学院 一种中文自然语言的sql语句生成方法和装置

Also Published As

Publication number Publication date
CN115757461B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
US20210224286A1 (en) Search result processing method and apparatus, and storage medium
CN109947904B (zh) 一种基于Spark环境的偏好空间Skyline查询处理方法
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
US8180781B2 (en) Information processing apparatus , method, and computer-readable recording medium for performing full text retrieval of documents
US8185536B2 (en) Rank-order service providers based on desired service properties
CN1896990A (zh) 类别设定的支持方法和装置
CN110110225B (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN102779140A (zh) 一种关键词获取方法及装置
US9183223B2 (en) System for non-deterministic disambiguation and qualitative entity matching of geographical locale data for business entities
US11977567B2 (en) Method of retrieving query, electronic device and medium
US20160378847A1 (en) Distributional alignment of sets
CN103778206A (zh) 一种网络服务资源的提供方法
CN110569289A (zh) 基于大数据的列数据处理方法、设备及介质
CN115757461A (zh) 一种银行数据库应用系统结果聚类方法
CN111738341A (zh) 一种分布式大规模人脸聚类方法及装置
CN117708270A (zh) 企业数据查询方法、装置、设备及存储介质
CN107562872B (zh) 基于sql的度量空间数据相似度查询方法及装置
CN115687352A (zh) 一种存储的方法及装置
CN113407700A (zh) 一种数据查询方法、装置和设备
CN111325235A (zh) 面向多语种的通用地名语义相似度计算方法及其应用
CN113793191B (zh) 商品的匹配方法、装置及电子设备
Le et al. Classifying structured web sources using support vector machine and aggressive feature selection
CN111597212B (zh) 一种数据检索方法及装置
CN112883727B (zh) 一种确定人物间关联关系的方法及装置
EP3699781A1 (en) Query processing method and device, and computer readable medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant