CN110515990B

CN110515990B - 数据查询展示方法及查询展示系统

Info

Publication number: CN110515990B
Application number: CN201910665751.8A
Authority: CN
Inventors: 程立刚
Original assignee: Huaxin Yongdao Beijing Technology Co ltd
Current assignee: Huaxin Yongdao Beijing Technology Co ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2021-10-01
Anticipated expiration: 2039-07-23
Also published as: CN110515990A

Abstract

一种数据查询展示方法及查询展示系统，方法包括如下步骤：对查询队列按照设定的优先级进行动态编排顺序；按优先级处理查询任务，根据预置的配置信息连接分布式存储，通过中间件服务在缓存中建立多个并行队列，每个并行队列内置对查询信息按ID索引分析，将数据库中的数据以相关联的ID索引分配到多个并行队列中去处理，配置信息包括缓存服务IP地址池以及并行队列上限数，缓存服务IP地址池内包含有多个提供缓存服务的IP地址；按查询任务收集查询信息项，进行数据清洗后存入缓存数据库中以供展示。本发明通过将百亿级数据分解到动态创建的多个队列中去处理，全局以ID索引来关联，从而支撑对百亿级分表数据库进行查询分析，性能优势明显。

Description

数据查询展示方法及查询展示系统

技术领域

本发明涉及大数据技术领域，具体地说，涉及数据查询展示方法及查询展示系统。

背景技术

在互联网发展日新月异的时代背景下，人们的生活、工作、消费、活动的习惯与行为特点会留存大量数据，Oracle、mysql、sql server等常用的数据库只支持数据量最大5000万至2亿笔的查询分析与分页、及报表展示，然而，随着大数据技术的深入发展，目前对于各行各业，其数据量存储都很大，可能达到10-100亿级数据量。所以基于常见数据库无法实现10亿-100亿级数据分析和报表展示。

发明内容

为解决以上问题，本发明提供一种数据查询展示方法，包括如下步骤：

步骤S1，对查询队列按照设定的优先级进行动态编排顺序，其中查询队列是指实时的数据查询任务形成的队列；

步骤S2，按优先级处理查询任务，根据预置的配置信息连接分布式存储，通过mq中间件服务在缓存中建立多个并行队列，每个并行队列内置对查询信息按ID索引进行分析，将数据库中的数据以相关联的ID索引分配到动态创建的多个并行队列中去处理，其中，

所述配置信息包括缓存服务IP地址池以及并行队列上限数，缓存服务IP地址池内包含有多个提供缓存服务的IP地址；

步骤S3，按查询任务收集查询信息项，进行数据清洗后存入缓存数据库中以供展示。

优选地，所述优先级是指按照第一优先级、第二优先级、第三优先级的顺序来进行处理，其中，第一优先级表示已缓存和索引的查询，第二优先级表示是正在缓存和建立索引的查询任务，第三优先级表示未缓存和索引过的查询信息，其中已缓存和索引是指已经输入过的检索信息，并根据检索信息生成了与数据库之间的ID索引。

优选地，包括步骤S4，提供包括列表、分组、交叉表格、柱形图、条形图、饼图、面积图、组合图、仪表盘和地图中的至少一种或多种展示形式。

优选地，包括步骤S4，采用BI决策树对查询数据进行分析，生成决策树的算法包括CLS、ID3、C4.5、CART中的一种。

优选地，步骤S1中，在第一优先级中，还设置有多个第一优先子级，对查询任务被查询达到的频率进行排序，形成顺序排列的第一优先子级，并且，通过设置多个频率阈值，当查询任务被查询达到某一频率阈值，则该查询任务提升至所述某一频率阈值对应的第一优先子级。

优选地，还使用交叉分析生成多维数据，并且，交叉分析结果采用本地缓存与分布式缓存的多级缓存存储，ID索引存储于本地缓存，交叉分析结果则存储于分布式缓存中。

优选地，所述数据清洗包括缺失值处理、异常值处理、去重处理。

优选地，包括步骤S4，按照预设的模型生成待展示的查询汇总和展示明细结果，并支持使用SQL进行数据查询以及对查询结果的可视化设置。

本发明还提供一种数据查询展示系统，包括：

查询队列编排模块，用于对查询队列按照设定的优先级进行动态编排顺序，其中查询队列是指实时的数据查询任务形成的队列；

数据分配模块，用于按优先级处理查询任务，根据预置的配置信息连接分布式存储，通过mq中间件服务在缓存中建立多个并行队列，每个并行队列内置对查询信息按ID索引进行分析，将数据库中的数据以相关联的ID索引分配到动态创建的多个并行队列中去处理，其中，

数据清洗模块，用于按查询任务收集查询信息项，进行数据清洗后存入缓存数据库中以供展示。

本发明通过将100亿级数据分解到动态创建的多个队列中去处理，全局以ID索引来关联，从而能够支撑对百亿级分表数据库进行查询分析，性能优势非常明显；查询分析与报表展示采用多级缓存机制，使得在业务及前端页面展示数据时，运行速度高效快速。百亿条数据汇总计算均在10s内完成；对于明细表的分布展示，均在1s内即可完成；数据查询分析与报表展示支持各种多来源异构型业务数据的分析，并结合图表进行直观的展现，对未来亿级及百亿级数据量的大型业务平台数据分析的实现和支撑起着至关重要的作用。

附图说明

通过结合下面附图对其实施例进行描述，本发明的上述特征和技术优点将会变得更加清楚和容易理解。

图1是表示本发明实施例的数据查询展示方法的步骤示意图；

图2是表示本发明实施例的BI决策树的示意图；

图3是表示本发明实施例的数据查询展示系统的模块构成图。

具体实施方式

下面将参考附图来描述本发明所述的数据查询展示方法及查询展示系统的实施例。本领域的普通技术人员可以认识到，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式或其组合对所描述的实施例进行修正。因此，附图和描述在本质上是说明性的，而不是用于限制权利要求的保护范围。此外，在本说明书中，附图未按比例画出，并且相同的附图标记表示相同的部分。

本实施例的数据查询展示方法包括以下步骤：

步骤S1，对查询队列按照事先设定的优先级进行动态编排。其中查询队列是指实时的查询任务形成的队列，例如，同一时间有10000个查询任务汇集在查询展示系统，有的是正在处理，有的是刚接收到查询任务。对于这10000个查询信息，先按照优先级进行动态编排出先后顺序。所述查询任务是指在客户端输入的检索信息，例如，在客户端输入检索信息查询北京市30岁以上员工的公积金贷款的数据，则检索内容包括北京市、30岁以上、公积金贷款这些输入项，希望得到的是北京市30岁以上员工的公积金贷款的数据。所述优先级是指按照第一优先级、第二优先级、第三优先级的顺序来进行处理。其中，第一优先级表示已缓存和索引过的查询任务、第二优先级表示是正在缓存和建立索引的查询任务、第三优先级表示未缓存和索引过的查询信息。其中已缓存和索引是指已经输入过的检索信息，并根据检索信息生成了与数据库之间产生关联的ID索引。并将ID索引及其相关的检索信息对应的查询结果进行缓存。例如，检索信息是“北京市30岁以上员工的公积金贷款的数据”，如果之前已经建立了ID索引是“北京市”、“30岁以上”、“公积金贷款”。所以该查询任务为第一优先级，如果该ID索引是正在建立，则该查询任务为第二优先级，如果该ID索引还未有建立，则该查询任务为第三优先级。

步骤S2，按优先级处理查询任务，根据预置的配置信息连接分布式存储，所述配置信息包括缓存服务IP地址池、数据空间大小以及并行队列上限数。缓存服务IP地址池内包含有多个提供缓存服务的IP地址，提供缓存服务的IP地址可以是现有的数据库硬件设备的IP地址。例如，数据库是建立在集群服务器上的分布式存储方式，缓存服务IP对应着分布式存储的集群服务器中的一台服务器的IP地址。可以是一个IP地址对应一个用于缓存数据的并行队列，也可以是一个IP地址对应多个并行队列。所述并行队列的作用是，可以采用基于mq(消息通信服务)中间件来实现并行队列管理，具体说，是通过mq中间件服务在缓存中建立多个并行队列，将数据库中的数据分解到动态创建的多个并行队列中去处理，仅以唯一的ID索引来关联，每个并行队列内置对查询语言按ID索引进行分析。ID索引可以是在数据库中先建好的，也可以是根据检索内容自动生成的。

例如，输入的检索信息是“北京市的公积金缴存额”。如果按照常规的数据库的检索，则是会直接在数据库中检索北京市的公积金缴存额数据，并最终分页展示出来。但是公积金每月都有缴纳，整个北京市的公积金缴存额数据量巨大。直接在数据库中检索可能造成数据库没有响应，或者数据库崩溃都是有可能的。本实施例通过创建多个并行队列，所述并行队列是建立在缓存中，例如，200个并行队列，则数据库中的数据分解到200个并行队列中。这样可以用较小的内存实现大量数据的获取和分析，减少单个节点的数据量，提升查询速度。而ID索引可以包括业务ID索引，业务ID索引表示不同业务类型对应的业务数据，例如公积金缴存、公积金贷款、公积金购买国债、公积金购买基金、其他贷款等等。另外，还可以包括例如年份ID、月份ID等时间性的ID索引。还可以包括例如地域、地区性的ID索引。在数据库中直接检索“北京市公积金使用情况”的记录会很耗时，但是将数据库中的数据按照年份ID索引段(例如2001年～2005年、2006年～2010年、2011年～2015年)分配到各并行队列中，各并行队列则仅是对分配到该并行队列的某一年份ID索引段的内容进行检索，从中检索出符合“北京市公积金使用情况”的记录，多个并行队列可以同时并行计算，显然其加快了数据查询的速度。或者，ID索引还可以是不同业务ID索引，包括公积金个人贷款ID、其他贷款ID、公积金购买国债ID、公积金购买基金ID等等。则可以将数据库的数据按照业务ID索引分配到各并行队列中，各并行队列同时进行并行计算，从中检索出符合“北京市公积金使用情况”的数据。

并且，还可以按照年份ID索引段和业务ID索引号共同分配到各并行队列，进一步将数据库的数据划分到多个并行队列中。例如检索“北京市公积金使用情况”，这样就形成例如2001年～2005年公积金个人贷款ID、2001年～2005年其他贷款ID、2001年～2005年公积金购买国债ID、2001年～2005年公积金购买基金ID，2006年～2010年公积金个人贷款ID、2006年～2010年其他贷款ID、2006年～2010年公积金购买国债ID、2006年～2010年公积金购买基金ID，2011年～2015年公积金个人贷款ID、2011年～2015年其他贷款ID、2011年～2015年公积金购买国债ID、2011年～2015年公积金购买基金ID。

通过以上方式，就可以将数据库内的可能多达100亿级的数据量转换为动态可执行的5000万笔以下数据量，不用增加额外的硬件实现对大量数据进行分析用后期做报表展示。

以上ID索引仅是举例，可以根据不同的属性定义不同的ID索引，以便对数据库的数据进行分解到各并行队列中。

步骤S3，按查询信息收集查询信息项，进行数据清洗后存入缓存数据库中以供分析和快速汇总、展示。所述数据清洗包括缺失值处理、异常值处理、去重处理。其中，对于缺失值处理可以是删除缺失值或采用均值填补该缺失值，具体说是根据与缺失值的属性(例如年份、地区等)的相关系数最大的那个属性把数据分成几个组，然后分别计算每个组的均值，用这些均值代替缺失的数据。异常值的判断可以采用聚类的方式，并对异常值采用采用均值替换。

规范化数据可实现按条件自动化采集、编辑、规范化，降低获取大数据量信息的硬件成本、时间成本，提高效率。

步骤S4，按照预设的模型或生成的动态模型生成待展示的查询汇总和展示明细结果。所述模型是指在客户端预先设置好的用于查询、展示查询结果的结构形式，可以包括查询、展示的界面形式。当然也可以是根据查询结果的不同动态生成的模型，所述动态模型会根据不同的查询结果采用不同的展示界面来展示查询数据。

对于现有的标准化数据模型无法满足的高级数据需求，提供了自定义数据模型设置功能，支持使用标准SQL来对金融数据查询分析服务的所有数据进行查询，同时也包含对查询结果的可视化设置。

进一步地，还包括步骤S5，使用交叉分析从交叉、立体的角度出发，由单表到多表、由少量数据到大量数据。交叉分析结果采用多级缓存存储，交叉分析结果采用本地缓存与分布式缓存的多级缓存存储，ID索引存储于本地缓存，交叉分析结果则通过链表的形式存储于分布式缓存中。其中分布式缓存与本地缓存通过本地缓存的索引表的ID索引相关联，以提升访问效率和进行负载分流。

其中，所述交叉分析是指对一维的单表中的任两个变量进行交叉处理，形成交叉表。例如，对北京市的公积金使用情况进行调查分析，得到一个包含各区的公积金使用情况的一维数据调查表(表一)：

表一

住房公积金使用情况统计表

(2012年04月)

填报单位：住房公积金管理中心

例如，考虑公积金个人贷款上期末贷款总额和本期末购买国债两个变量，将所有各区的公积金使用情况数据进行交叉分析，得到交叉表(表二)：

表二

进一步地，在步骤S4中，还可以对查询出来的结果进行分页查询，为每笔查询都提供按条件的分页查询，可以方便用户浏览和报表页展示。

进一步地，在步骤S4中，还可以提供各种样式的表格和多种图表服务，配合各种业务需求展现数据。包括列表、分组、交叉表格，图表类型包括柱形图、条形图、饼图、面积图、组合图、仪表盘和地图。

例如，采用BI仪表盘显示按业务种类统计的金额所占比重，采用柱状图显示按业务种类统计发生笔数和金额。业务种类可以是例如归集缴存、贷款发放、公积金提取等。例如，采用BI决策树对查询数据进行分析，提供决策意见。所述BI决策树为树形结构，能从给定的无序的查询数据中，提炼出树型的分类模型，包括位于顶层的根节点(是决策树的开始)和从根节点分支出的各个内部节点，以及位于最末端的叶子节点。每个内部节点记录了使用哪个特征来进行类别的判断，每个叶子节点则代表了最后判断的类别。根节点到每个叶子节点均形成一条分类的路径规则。其中，在根节点和内部节点的分支处都设置有不同的判断条件，从而得到一定的与预设的判断条件对应的树形结构，提供决策意见。

如图2所示，净利润为根节点，利润总额、营业利润、主营业务利润为内部节点，其他为叶子节点。

生成决策树的算法包括CLS(概念学习系统)、ID3(一种贪心算法)、C4.5(一种ID3的改进算法)、CART(分类回归树)中的一种。

进一步地，在步骤S4中，还可以将查询结果数据按多笔查询为单位分块导出连续的多个EXCEL文件。例如，对于连续的多笔查询，“北京市公积金缴存情况”、“北京市公积金使用情况”。可以将这两笔查询结果形成一个excel文件，但由于excel文件能够支持的文本行数有限，可以设置判断条件，当超出其支持的行数，则按照excel所支持的最大行数将一个excel文件分块为多个excel文件，并依次导出。例如，导出为excel1、excel2、…excel15共15个excel文件。

进一步地，在步骤S1中，对查询分析完成后的检索信息加入查询缓存中，以供后期快速处理(后期再次进行查询则会按照第一优先级进行处理)。更进一步地，在第一优先级中，还可以设置多个第一优先子级，可以对最常用的查询任务(包含至少一个检索信息)保存起来为一个查询方案，按照查询任务被查询达到频率进行排序，形成顺序排列的第一优先子级，设置多个频率阈值，当查询任务被查询达到某一频率阈值，则该查询任务提升至所述某一频率阈值对应的第一优先子级。

另外，本发明还提供一种数据查询展示系统10，包括以下模块。

查询队列编排模块101，用于对查询队列按照事先设定的优先级进行动态编排。其中查询队列是指实时的查询任务形成的队列。所述优先级是指按照第一优先级、第二优先级、第三优先级的顺序来进行处理。其中，第一优先级表示已缓存和索引过的查询任务、第二优先级表示是正在缓存和建立索引的查询任务、第三优先级表示未缓存和索引过的查询信息。其中已缓存和索引是指已经输入过的检索信息，并根据检索信息生成了与数据库之间产生关联的ID索引。并将ID索引及其相关的检索信息对应的查询结果进行缓存。例如，检索信息是“北京市30岁以上员工的公积金贷款的数据”，如果之前已经建立了ID索引是“北京市”、“30岁以上”、“公积金贷款”。所以该查询任务为第一优先级，如果该ID索引是正在建立，则该查询任务为第二优先级，如果该ID索引还未有建立，则该查询任务为第三优先级。

数据分配模块102，用于按优先级处理查询任务，根据预置的配置信息连接分布式存储，所述配置信息包括缓存服务IP地址池、数据空间大小以及并行队列上限数。缓存服务IP地址池内包含有多个提供缓存服务的IP地址，提供缓存服务的IP地址可以是现有的数据库硬件设备的IP地址。例如，数据库是建立在集群服务器上的分布式存储方式，缓存服务IP对应着分布式存储的集群服务器中的一台服务器的IP地址。可以是一个IP地址对应一个用于缓存数据的并行队列，也可以是一个IP地址对应多个并行队列。所述并行队列的作用是，可以采用基于mq中间件来实现并行队列管理，具体说，是通过mq中间件服务在缓存中建立多个并行队列，将数据库中的数据分解到动态创建的多个并行队列中去处理，仅以唯一的ID索引来关联，每个并行队列内置对查询语言按ID索引进行分析。ID索引可以是在数据库中先建好的，也可以是根据检索内容自动生成的。

数据清洗模块103，用于将查询信息收集查询信息项进行数据清洗后存入缓存数据库中以供分析和快速汇总、展示。所述数据清洗包括缺失值处理、异常值处理、去重处理。其中，对于缺失值处理可以是删除缺失值或采用均值填补该缺失值，具体说是根据与缺失值的属性(例如年份、地区等)的相关系数最大的那个属性把数据分成几个组，然后分别计算每个组的均值，用这些均值代替缺失的数据。异常值的判断可以采用聚类的方式，并对异常值采用采用均值替换。

进一步地，还包括数据展示模块104，用于按照预设的模型或生成的动态模型生成待展示的查询汇总和展示明细结果。所述模型是指在客户端预先设置好的用于查询、展示查询结果的结构形式，可以包括查询、展示的界面形式。当然也可以是根据查询结果的不同动态生成的模型，所述动态模型会根据不同的查询结果采用不同的展示界面来展示查询数据。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据查询展示方法，其特征在于，包括如下步骤：

步骤S3，按查询任务收集查询信息项，进行数据清洗后存入缓存数据库中以供展示，其中，所述优先级是指按照第一优先级、第二优先级、第三优先级的顺序来进行处理，其中，第一优先级表示已缓存和索引的查询，第二优先级表示是正在缓存和建立索引的查询任务，第三优先级表示未缓存和索引过的查询信息，其中已缓存和索引是指已经输入过的检索信息，并根据检索信息生成了与数据库之间的ID索引，

其中，ID索引是在数据库中先建好的，或是根据检索内容自动生成的。

2.如权利要求1所述的数据查询展示方法，其特征在于，包括步骤S4，提供包括列表、分组、交叉表格、柱形图、条形图、饼图、面积图、组合图、仪表盘和地图中的至少一种或多种展示形式。

3.如权利要求1所述的数据查询展示方法，其特征在于，包括步骤S4，采用BI决策树对查询数据进行分析，生成决策树的算法包括CLS、ID3、C4.5、CART中的一种。

4.如权利要求1所述的数据查询展示方法，其特征在于，步骤S1中，在第一优先级中，还设置有多个第一优先子级，对查询任务被查询达到的频率进行排序，形成顺序排列的第一优先子级，并且，通过设置多个频率阈值，当查询任务被查询达到某一频率阈值，则该查询任务提升至所述某一频率阈值对应的第一优先子级。

5.如权利要求1所述的数据查询展示方法，其特征在于，步骤S4中，还使用交叉分析生成多维数据，并且，交叉分析结果采用本地缓存与分布式缓存的多级缓存存储，ID索引存储于本地缓存，交叉分析结果则存储于分布式缓存中。

6.如权利要求1所述的数据查询展示方法，其特征在于，所述数据清洗包括缺失值处理、异常值处理、去重处理。

7.如权利要求1所述的数据查询展示方法，其特征在于，包括步骤S4，按照预设的模型生成待展示的查询汇总和展示明细结果，并支持使用SQL进行数据查询以及对查询结果的可视化设置。

8.一种数据查询展示系统，其特征在于，包括：

查询队列编排模块，用于对查询队列按照设定的优先级进行动态编排顺序，其中查询队列是指实时的数据查询任务形成的队列，

其中，所述优先级是指按照第一优先级、第二优先级、第三优先级的顺序来进行处理，其中，第一优先级表示已缓存和索引的查询，第二优先级表示是正在缓存和建立索引的查询任务，第三优先级表示未缓存和索引过的查询信息，其中已缓存和索引是指已经输入过的检索信息，并根据检索信息生成了与数据库之间的ID索引，

其中，ID索引是在数据库中先建好的，或是根据检索内容自动生成的；

数据清洗模块，用于将查询任务收集的查询信息项进行数据清洗后存入缓存数据库中以供展示。