CN110457341B

CN110457341B - 数据聚合方法、装置、计算机设备及存储介质

Info

Publication number: CN110457341B
Application number: CN201910610477.4A
Authority: CN
Inventors: 包晓华
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2024-05-07
Anticipated expiration: 2039-07-03
Also published as: WO2021000828A1; CN110457341A

Abstract

本申请揭示了数据聚合方法、装置、计算机设备及存储介质，其中，数据聚合方法适用于cassandra数据库，包括：获取聚合指令中携带的待聚合数据信息，其中，待聚合数据信息包括待聚合数据对应的主键列序号，主键列序号至少包括cassandra数据库中的两个列序号；从cassandra数据库中按照预设提取方式提取指定数据，其中，指定数据包括主键列序号对应的数据；将指定数据依照预设方式注入到预设的临时表格中，使各主键列序号分别对应的数据满足聚合条件，其中，临时表格存储于服务器内存中，临时表格内包括无主键区别的多列；在临时表格中聚合各所述主键列序号分别对应的数据。由于数据的汇入在服务内存中完成，可实现多源数据的融合，达到canssandra数据库可多表联合查询的效果。

Description

数据聚合方法、装置、计算机设备及存储介质

技术领域

本申请涉及到计算机领域，特别是涉及到数据聚合方法、装置、计算机设备及存储介质。

背景技术

非关系数据库canssandra适用于大数据分布式日志系统，其顺序文件存储的特点相对于oracle、mysql等关系数据库，具有读写快速、架构简洁、扩容方便的特征。但却不支持多层数据聚合的查询。cassandra数据库只支持基于主键列(primary key)的单次聚合，而且聚合顺序必须与主键列定义顺序一致，不能实现与主键列定义顺序不一致的聚合以及多次聚合。而且由于非关系型数据库canssandra对关系查询的弱支持特性，使得系统中较为复杂的业务逻辑查询语句很难得到实现。关系型数据库可以支持复杂查询的关系型数据库，如oracle或mysql，但关系型数据库软硬件成本高，且对于海量数据，其读写性能没有优势；或者通过采用数据转换组件，如phoenix组件实现非关系型数据库hbase的sql化，但是新增组件不仅会增加系统的复杂度，增加消息传递的链路长度，还会增加开发成本和运营成本，对于响应速度和稳定性要求较高的平台系统，也无法实现顺畅的聚合查询。

发明内容

本申请的主要目的为提供适用于cassandra数据库的数据聚合方法，旨在解决现有cassandra数据库无法实现实现多表联合查询的技术问题。

本申请提出一种数据聚合方法，适用于cassandra数据库，方法包括：

获取聚合指令中携带的待聚合数据信息，其中，所述待聚合数据信息包括待聚合数据对应的主键列序号，所述主键列序号至少包括所述cassandra数据库中的两个列序号；

从所述cassandra数据库中按照预设提取方式提取指定数据，其中，所述指定数据包括所述主键列序号对应的数据；

将所述指定数据依照预设方式注入到预设的临时表格中，使各所述主键列序号分别对应的数据满足聚合条件，其中，所述临时表格存储于服务器内存中，所述临时表格内包括无主键区别的多列；

在所述临时表格中聚合各所述主键列序号分别对应的数据。

优选地，所述待聚合数据信息包括各所述主键列序号对应的第一聚合次序，所述从所述cassandra数据库中按照预设提取方式提取指定数据的步骤，包括：

判断各所述主键列序号是否均处于同一个第一数据表格中，其中，所述第一数据表格包含于所述cassandra数据库的所有数据表格中；

若各所述主键列序号均处于同一个第一数据表格中，则判断各所述主键列序号在所述第一数据表格中是否连续排布；

若各所述主键列序号在所述第一数据表格中连续排布，则判断各所述主键列序号是否按照所述第一聚合次序，排布于所述第一数据表格包括起始列的连续区域；

若否，则同时选中包括各所述主键列序号分别对应的第一数据，并从所述第一数据表格中通过复制进行提取。

优选地，所述待聚合数据信息包括各所述主键列序号对应的第二聚合次序，所述判断各所述主键列序号是否均处于同一个第一数据表格中的步骤之后，包括：

若各所述主键列序号不处于同一个所述第一数据表格中，则获取各所述主键列序号分别对应的第二数据表格，其中，所述第二数据表格的数量至少包括两个；

分别从各所述第二数据表格中，选中各所述主键列序号一一对应的主键列的第二数据；

将各所述第二数据，按照所述第二聚合次序依次复制进行提取。

优选地，所述将所述指定数据依照预设方式注入到预设的临时表格中，使各所述主键列序号分别对应的数据满足聚合条件的步骤，包括：

按照所述临时表格中列序号的递增方向，将各所述主键列序号对应的数据，以列为整体，依次按照预设聚合次序排布于所述临时表格中的第一指定区域，其中，所述第一指定区域为从所述临时表格的起始列开始连续逐列排布的区域；

将所述指定数据中除各所述主键列序号对应的数据之外的数据，以列为整体，排列于所述临时表格中的第二指定区域，其中，所述第二指定区域为所述临时表格中除所述第一指定区域之外的区域。

优选地，所述待聚合数据信息包括聚合计算方式以及计算参数，所述在所述临时表格中聚合各所述主键列序号分别对应的数据的步骤，包括：

在所述临时表格中确定待聚合的数据项，以及保留的标签项；

根据所述聚合计算方式以及计算参数，对所述待聚合的数据项进行聚合形成聚合项；

将所述聚合项和所述保留的标签项，重新组合形成聚合结果。

优选地，所述在所述临时表格中聚合各所述主键列序号分别对应的数据的步骤之后，包括：

接收所述临时表输出的所述聚合结果；

判断所述聚合结果是否传输完毕；

若是，则清除所述临时表中的所有数据；

按照预设展示结构展示所述聚合结果。

优选地，所述按照预设展示结构展示所述聚合结果的步骤，包括：

调取服务器内存中预设的显示地图；

根据所述聚合结果对应映射于所述显示地图上，形成所述预设展示结构；

根据所述聚合结果与所述显示地图的映射对应关系，计算映射异常率；

将所述映射异常率显示于所述预设展示结构的对应区域。

本申请还提供了一种数据聚合装置，适用于cassandra数据库，装置包括：

获取模块，用于获取聚合指令中携带的待聚合数据信息，其中，所述待聚合数据信息包括待聚合数据对应的主键列序号，所述主键列序号至少包括所述cassandra数据库中的两个列序号；

提取模块，用于从所述cassandra数据库中按照预设提取方式提取指定数据，其中，所述指定数据包括所述主键列序号对应的数据；

注入模块，用于将所述指定数据依照预设方式注入到预设的临时表格中，使各所述主键列序号分别对应的数据满足聚合条件，其中，所述临时表格存储于服务器内存中，所述临时表格内包括无主键区别的多列；

聚合模块，用于在所述临时表格中聚合各所述主键列序号分别对应的数据。

本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

本申请由于数据的汇入在服务内存中完成，所以，可以实现多源数据的融合，即可以在一定程度上解决canssandra数据库无法实现多表联合查询的问题，甚至可以实现多数据库数据的融合，后者在关系型数据库中也很难实现。通过借用服务内存作为临时高速缓存，而不增加新的SQL支持组件，减少系统对端口socket、网络(服务到组件，组件到数据库)、其他组件模块的物理消耗(如cpu、内存、进程资源)；对于多次聚合的数据(包括首次、二次或多次)，其数据源由开发设定，对于系统开发和运维人员是透明的，相对于引用已有转换组件、其开发、升级和运维成本更低；分组实现的核心运算依然采用数据库完成。分组实现包含：索引探测、数据或索引排序，聚合等算法，虽然各个数据库的实现方法略有差异，但都是经过了推敲和反复验证的算法，是智慧的结晶；采用数据库自己的硬件和算法去实现它擅长的功能，还可以节约服务系统的硬件资源(网络带宽、cpu)、减少服务系统的软件复杂度。

附图说明

图1本申请一实施例的数据聚合方法流程示意图；

图2本申请一实施例的数据聚合装置结构示意图；

图3本申请一实施例的计算机设备内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例的数据聚合方法，适用于cassandra数据库，方法包括：

S1：获取聚合指令中携带的待聚合数据信息，其中，所述待聚合数据信息包括待聚合数据对应的主键列序号，所述主键列序号至少包括所述cassandra数据库中的两个列序号。

S2：从所述cassandra数据库中按照预设提取方式提取指定数据，其中，所述指定数据包括所述主键列序号对应的数据。

S3：将所述指定数据依照预设方式注入到预设的临时表格中，使各所述主键列序号分别对应的数据满足聚合条件，其中，所述临时表格存储于服务器内存中，所述临时表格内包括无主键区别的多列。

S4：在所述临时表格中聚合各所述主键列序号分别对应的数据。

本实施例通过服务器内存作为临时高速缓存，以缓存临时表格内的数据，而不增加新的SQL支持组件，减少系统对端口socket、网络(服务到组件，组件到数据库)、其他组件模块的物理消耗(如cpu、内存、进程资源)。上述临时表格为空数据的EXCEL表格，区别于cassandra数据库中的数据表，临时表格无主键列次序约束，数据列排布次序可依据需要调整。本实施例通过从cassandra数据库中的数据表的起始列开始复制到需要聚合的主键列的方式，进行数据提取。比如待聚合数据信息包括待聚合数据对应的主键列序号，为cassandra数据库中的数据表中的第3列和第7列，则从数据表的起始列第0列开始复制，复制到第7列；然后将复制数据进行列重排，将需要聚合的第3列和第7列分别对应临时表格的第0列和第1列，其他列数据从第2列依次排布；然后将重排后的数据依次注入到临时表格中。并根据聚合指令在临时表格中实现数据聚合，得到数据聚合后的聚合结果，并将聚合结果返回至cassandra数据库，并通过cassandra数据库输出聚合结果并展示。

进一步地，所述待聚合数据信息包括各所述主键列序号对应的第一聚合次序，所述从所述cassandra数据库中按照预设提取方式提取指定数据的步骤S2，包括：

S21：判断各所述主键列序号是否均处于同一个第一数据表格中，其中，所述第一数据表格包含于所述cassandra数据库的所有数据表格中。

S22：若各所述主键列序号均处于同一个第一数据表格中，则判断各所述主键列序号在所述第一数据表格中是否连续排布。

S23：若各所述主键列序号在所述第一数据表格中连续排布，则判断各所述主键列序号是否按照所述第一聚合次序，排布于第一数据表格包括起始列的连续区域。

S24：若否，则同时选中包括各所述主键列序号分别对应的第一数据，并从所述第一数据表格中通过复制进行提取。

本实施例中，通过查寻待聚合的数据处于数据表中的表名，确定待聚合的数据是否处于同一个数据表中，表名相同，则表明处于同一第一数据表格中，则通过调取第一数据表格，并根据第一数据表格中的表列头信息和列序号，定位各所述主键列序号对应的列数据，并判断各列数据是否在第一数据表格中连续排布，各列数据对应的序号相邻，则在第一数据表格中连续排布，否则不连续排布。本实施例中若各列数据在第一数据表格中不连续排布，则需要根据cassandra数据库的数据聚合原理，复制包括各所述主键列序号对应数据的第一数据，作为指定数据进行提取。比如各所述主键列序号为第3列至第5列，则第一数据为从第0列开始，至第5列终止的对应区域的数据，并按照第一聚合次序进行列重排。

进一步地，所述待聚合数据信息包括各所述主键列序号对应的第二聚合次序，所述判断各所述主键列序号是否均处于同一个第一数据表格中的步骤S21之后，包括：

S25：若各所述主键列序号不处于同一个第一数据表格中，则获取各所述主键列序号分别对应的第二数据表格，其中，所述第二数据表格的数量至少包括两个。

S26：分别从各所述第二数据表格中，选中各所述主键列序号一一对应的主键列的第二数据。

S27：将各所述第二数据，按照所述第二聚合次序依次复制进行提取。

本实施例通过查寻待聚合的数据处于数据表中的表名，确定待聚合的数据分别对应的各第二数据表格的表名不相同，则表明处于不处于同一数据表格中，上述第一数据表格、第二数据表格均属于cassandra数据库中的任一数据表格，仅用于区别应用，不用于限定。则分别从各第二数据表格中分别复制覆盖待聚合主键列对应的列数据。比如，待聚合数据分别为第二数据表格A中的第2列，第二数据表格B中的第3列以及第二数据表格C中的第5列，则分别复制第二数据表格A中的第0列至第2列，第二数据表格B中的第0列至第3列，以及第二数据表格C中的第0列至第5列，并按照第二聚合次序进行数据重排，将第二数据表格A中的第2列、第二数据表格B中的第3列以及第二数据表格C中的第5列，依次对应临时表格的第0列、第1列和第2列。

本实施例的各第二数据表格可为同一cassandra数据库中的数据表格，也可为不同cassandra数据库中的数据表格，本实施例的数据聚合在服务器内存的临时表格中进行，且进入临时表格前或进入临时表格后会进行列重排，以满足聚合要求。由于数据的汇入在服务内存中完成，所以，可以实现多源数据的融合，解决了现有canssandra数据库无法实现多表联合查询的问题，甚至可实现多个数据库数据的融合查询，且不局限于canssandra数据库，在关系型数据库中也可用上述融合方式实现多个数据库数据的融合查询。本实施例对于聚合数据包括首次聚合、二次聚合或多次聚合，其数据源由开发设定，对于系统开发和运维人员是透明的，相对于引用已有转换组件、其开发、升级和运维成本更低。

进一步地，所述将所述指定数据依照预设方式注入到预设的临时表格中，使各所述主键列序号分别对应的数据满足聚合条件的步骤S3，包括：

S31：按照所述临时表格中列序号的递增方向，将各所述主键列序号对应的数据，以列为整体，依次按照预设聚合次序排布于所述临时表格中的第一指定区域，其中，所述第一指定区域为从所述临时表格的起始列开始连续逐列排布的区域。

S32：将所述指定数据中除各所述主键列序号对应的数据之外的数据，以列为整体，排列于所述临时表格中的第二指定区域，其中，所述第二指定区域为所述临时表格中除所述第一指定区域之外的区域。

本实施例通过将提取的指定数据按照聚合次序重排后，注入到临时表格中，且使待聚合数据依据聚合次序依次从临时表格的第0列依次填充，以方便聚合计算过程中的数据调用和处理。或通过将指定数据注入到临时表格后，再根据聚合次序进行列数据重排，使待聚合数据依据聚合次序依次从临时表格的第0列依次填充。

进一步地，所述待聚合数据信息包括聚合计算方式以及计算参数，所述在所述临时表格中聚合各所述主键列序号分别对应的数据的步骤S4，包括：

S41：在所述临时表格中确定待聚合的数据项，以及保留的标签项。

S42：根据聚合计算方式以及计算参数，对所述待聚合的数据项进行聚合形成聚合项。

S43：将所述聚合项和所述保留的标签项，重新组合形成聚合结果。

本实施例的数据聚合过程中的聚合计算方式以及计算参数包含于待聚合数据信息中，在临时表格中实现聚合计算。通过待聚合数据信息中的主键列序号，对数据表中的各类数据进行标注和分组，分为待聚合项对应的数据列和待保留的标签项对应的数据列，并进行标注，以便服务器进行区分和调用。待聚合项聚合后消失，以一条聚合项代替，标签项不参与聚合，持续保留。上述聚合计算方式以及计算参数依据用户的查寻目的进行调用预存的计算公式，比如求和计算公式、求平均值的计算公式、求方差值的计算公式等，实现数据有针对性的聚合。然后通过将聚合项和标签项按照原排布次序组合后形成聚合结果。举例地，统计各国人均寿命，数据表中从第0列至第7列，依次对应的数据为国籍、省、市、县、性别、出生时间、死亡时间，为得到查询数据，需要将第6列和第7列聚合，得出人均寿命；需要将省、市、县、性别聚合掉，以减少信息量，国籍中选定中国作为标签项。聚合后将中国和人均寿命组合在一起，形成聚合结果。

进一步地，所述在所述临时表格中聚合各所述主键列序号分别对应的数据的步骤S4之后，包括：

S5：接收所述临时表输出的所述聚合结果；

S6：判断所述聚合结果是否传输完毕；

S7：若是，则清除所述临时表中的所有数据；

S8：按照预设展示结构展示所述聚合结果。

聚合的原理为先排序然后聚合计算，聚合实现包含：索引探测、数据或索引排序，聚合计算算法等。有索引的，优先采用索引进行快速寻找数据，并从原数据表格中提出来，再排序。本实施例中聚合的核心运算依然采用数据库完成，采用数据库的硬件和预存算法去实现聚合，以节约服务器系统的硬件资源，包括网络带宽、cpu等，且减少服务器系统的软件复杂度。本实施例获取到聚合结果后，会及时调用数据清除指令，将临时表格内的数据清空，以便临时表格可重复利用，减少重建建立临时表格的过程，且提高响应查询聚合数据的效率。

进一步地，所述按照预设展示结构展示所述聚合结果的步骤S8，包括：

S81：调取服务器内存中预设的显示地图。

S82：根据所述聚合结果对应映射于所述显示地图上，形成所述预设展示结构。

S83：根据所述聚合结果与所述显示地图的映射对应关系，计算映射异常率。

S84：将所述映射异常率显示于所述预设展示结构的对应区域。

本实施例中，得到聚合结果后会依据预设的显示地图，将数据库中的代码符号对应转化为中文文字，并以指定的文字组合结构显示，以便查询者可识别聚合后的查询结果。且在显示过程中同步显示映射异常率，以便用户更可靠地参考聚合后的查询数据。上述映射异常率通过异常映射数据除以正常映射数据得到，比如同一符号映射为平安科技66次，映射为平安数科3次，则异常率为4.54％。

参照图2，本申请一实施例的数据聚合装置，适用于cassandra数据库，装置包括：

获取模块，用于获取聚合指令中携带的待聚合数据信息，其中，所述待聚合数据信息包括待聚合数据对应的主键列序号，所述主键列序号至少包括所述cassandra数据库中的两个列序号。

提取模块，用于从所述cassandra数据库中按照预设提取方式提取指定数据，其中，所述指定数据包括所述主键列序号对应的数据。

注入模块，用于将所述指定数据依照预设方式注入到预设的临时表格中，使各所述主键列序号分别对应的数据满足聚合条件，其中，所述临时表格存储于服务器内存中，所述临时表格内包括无主键区别的多列。

进一步地，所述待聚合数据信息包括各所述主键列序号对应的第一聚合次序，所述提取模块2，包括：

第一判断单元，用于判断各所述主键列序号是否均处于同一个第一数据表格中，其中，所述第一数据表格包含于所述cassandra数据库的所有数据表格中。

第二判断单元，用于若各所述主键列序号均处于同一个第一数据表格中，则判断各所述主键列序号在所述第一数据表格中是否连续排布。

第三判断单元，用于若各所述主键列序号在所述第一数据表格中连续排布，则判断各所述主键列序号是否按照所述第一聚合次序，排布于第一数据表格包括起始列的连续区域。

第一选中单元，用于若否，则同时选中包括各所述主键列序号分别对应的第一数据，并从所述第一数据表格中通过复制进行提取。

进一步地，所述待聚合数据信息包括各所述主键列序号对应的第二聚合次序，所述提取模块2，包括：

获取单元，用于若各所述主键列序号不处于同一个第一数据表格中，则获取各所述主键列序号分别对应的第二数据表格，其中，所述第二数据表格的数量至少包括两个。

第二选中单元，用于分别从各所述第二数据表格中，选中各所述主键列序号一一对应的主键列的第二数据。

提取单元，用于将各所述第二数据，按照所述第二聚合次序依次复制进行提取。

进一步地，所述注入模块3，包括：

排布单元，用于按照所述临时表格中列序号的递增方向，将各所述主键列序号对应的数据，以列为整体，依次按照预设聚合次序排布于所述临时表格中的第一指定区域，其中，所述第一指定区域为从所述临时表格的起始列开始连续逐列排布的区域。

排列单元，用于将所述指定数据中除各所述主键列序号对应的数据之外的数据，以列为整体，排列于所述临时表格中的第二指定区域，其中，所述第二指定区域为所述临时表格中除所述第一指定区域之外的区域。

进一步地，所述待聚合数据信息包括聚合计算方式以及计算参数，所述聚合模块4，包括：

确定单元，用于在所述临时表格中确定待聚合的数据项，以及保留的标签项。

聚合单元，用于根据聚合计算方式以及计算参数，对所述待聚合的数据项进行聚合形成聚合项。

组合单元，用于将所述聚合项和所述保留的标签项，重新组合形成聚合结果。

进一步地，所述数据聚合装置，包括：

接收模块，用于接收所述临时表输出的所述聚合结果；

判断模块，用于判断所述聚合结果是否传输完毕；

清除模块，用于若是，则清除所述临时表中的所有数据；

展示模块，用于按照预设展示结构展示所述聚合结果。

进一步地，所述展示模块，包括：

调取单元，用于调取服务器内存中预设的显示地图。

映射单元，用于根据所述聚合结果对应映射于所述显示地图上，形成所述预设展示结构。

计算单元，用于根据所述聚合结果与所述显示地图的映射对应关系，计算映射异常率。

显示单元，用于将所述映射异常率显示于所述预设展示结构的对应区域。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据聚合过程需要的所有数据。该计算机设备的网络接口用于与外部的端通过网络连接通信。该计算机程序被处理器执行时以实现数据聚合方法。

上述处理器执行上述数据聚合方法，适用于cassandra数据库，方法包括：获取聚合指令中携带的待聚合数据信息，其中，所述待聚合数据信息包括待聚合数据对应的主键列序号，所述主键列序号至少包括所述cassandra数据库中的两个列序号；从所述cassandra数据库中按照预设提取方式提取指定数据，其中，所述指定数据包括所述主键列序号对应的数据；将所述指定数据依照预设方式注入到预设的临时表格中，使各所述主键列序号分别对应的数据满足聚合条件，其中，所述临时表格存储于服务器内存中，所述临时表格内包括无主键区别的多列；在所述临时表格中聚合各所述主键列序号分别对应的数据。

上述计算机设备，由于数据的汇入在服务内存中完成，所以，可以实现多源数据的融合，即可以在一定程度上解决canssandra数据库无法实现多表联合查询的问题，甚至可以实现多数据库数据的融合，后者在关系型数据库中也很难实现。通过借用服务内存作为临时高速缓存，而不增加新的SQL支持组件，减少系统对端口socket、网络(服务到组件，组件到数据库)、其他组件模块的物理消耗(如cpu、内存、进程资源)；对于多次聚合的数据(包括首次、二次或多次)，其数据源由开发设定，对于系统开发和运维人员是透明的，相对于引用已有转换组件、其开发、升级和运维成本更低；分组实现的核心运算依然采用数据库完成。分组实现包含：索引探测、数据或索引排序，聚合等算法，虽然各个数据库的实现方法略有差异，但都是经过了推敲和反复验证的算法，是智慧的结晶；采用数据库自己的硬件和算法去实现它擅长的功能，还可以节约服务系统的硬件资源(网络带宽、cpu)、减少服务系统的软件复杂度。

在一个实施例中，所述待聚合数据信息包括各所述主键列序号对应的第一聚合次序，上述处理器从所述cassandra数据库中按照预设提取方式提取指定数据的步骤，包括：判断各所述主键列序号是否均处于同一个第一数据表格中，其中，所述第一数据表格包含于所述cassandra数据库的所有数据表格中；若各所述主键列序号均处于同一个第一数据表格中，则判断各所述主键列序号在所述第一数据表格中是否连续排布；若各所述主键列序号在所述第一数据表格中连续排布，则判断各所述主键列序号是否按照所述第一聚合次序，排布于所述第一数据表格包括起始列的连续区域；若否，则同时选中包括各所述主键列序号分别对应的第一数据，并从所述第一数据表格中通过复制进行提取。

在一个实施例中，所述待聚合数据信息包括各所述主键列序号对应的第二聚合次序，上述处理器判断各所述主键列序号是否均处于同一个第一数据表格中的步骤之后，包括：若各所述主键列序号不处于同一个所述第一数据表格中，则获取各所述主键列序号分别对应的第二数据表格，其中，所述第二数据表格的数量至少包括两个；分别从各所述第二数据表格中，选中各所述主键列序号一一对应的主键列的第二数据；将各所述第二数据，按照所述第二聚合次序依次复制进行提取。

在一个实施例中，上述处理器将所述指定数据依照预设方式注入到预设的临时表格中，使各所述主键列序号分别对应的数据满足聚合条件的步骤，包括：按照所述临时表格中列序号的递增方向，将各所述主键列序号对应的数据，以列为整体，依次按照预设聚合次序排布于所述临时表格中的第一指定区域，其中，所述第一指定区域为从所述临时表格的起始列开始连续逐列排布的区域；将所述指定数据中除各所述主键列序号对应的数据之外的数据，以列为整体，排列于所述临时表格中的第二指定区域，其中，所述第二指定区域为所述临时表格中除所述第一指定区域之外的区域。

在一个实施例中，所述待聚合数据信息包括聚合计算方式以及计算参数，上述处理器在所述临时表格中聚合各所述主键列序号分别对应的数据的步骤，包括：在所述临时表格中确定待聚合的数据项，以及保留的标签项；根据所述聚合计算方式以及计算参数，对所述待聚合的数据项进行聚合形成聚合项；将所述聚合项和所述保留的标签项，重新组合形成聚合结果。

在一个实施例中，上述处理器在所述临时表格中聚合各所述主键列序号分别对应的数据的步骤之后，包括：接收所述临时表输出的所述聚合结果；判断所述聚合结果是否传输完毕；若是，则清除所述临时表中的所有数据；按照预设展示结构展示所述聚合结果。

在一个实施例中，上述处理器按照预设展示结构展示所述聚合结果的步骤，包括：调取服务器内存中预设的显示地图；根据所述聚合结果对应映射于所述显示地图上，形成所述预设展示结构；根据所述聚合结果与所述显示地图的映射对应关系，计算映射异常率；将所述映射异常率显示于所述预设展示结构的对应区域。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现数据聚合方法，适用于cassandra数据库，方法包括：获取聚合指令中携带的待聚合数据信息，其中，所述待聚合数据信息包括待聚合数据对应的主键列序号，所述主键列序号至少包括所述cassandra数据库中的两个列序号；从所述cassandra数据库中按照预设提取方式提取指定数据，其中，所述指定数据包括所述主键列序号对应的数据；将所述指定数据依照预设方式注入到预设的临时表格中，使各所述主键列序号分别对应的数据满足聚合条件，其中，所述临时表格存储于服务器内存中，所述临时表格内包括无主键区别的多列；在所述临时表格中聚合各所述主键列序号分别对应的数据。

上述计算机可读存储介质，由于数据的汇入在服务内存中完成，所以，可以实现多源数据的融合，即可以在一定程度上解决canssandra数据库无法实现多表联合查询的问题，甚至可以实现多数据库数据的融合，后者在关系型数据库中也很难实现。通过借用服务内存作为临时高速缓存，而不增加新的SQL支持组件，减少系统对端口socket、网络(服务到组件，组件到数据库)、其他组件模块的物理消耗(如cpu、内存、进程资源)；对于多次聚合的数据(包括首次、二次或多次)，其数据源由开发设定，对于系统开发和运维人员是透明的，相对于引用已有转换组件、其开发、升级和运维成本更低；分组实现的核心运算依然采用数据库完成。分组实现包含：索引探测、数据或索引排序，聚合等算法，虽然各个数据库的实现方法略有差异，但都是经过了推敲和反复验证的算法，是智慧的结晶；采用数据库自己的硬件和算法去实现它擅长的功能，还可以节约服务系统的硬件资源(网络带宽、cpu)、减少服务系统的软件复杂度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种数据聚合方法，其特征在于，适用于cassandra数据库，方法包括：

在所述临时表格中聚合各所述主键列序号分别对应的数据；

所述待聚合数据信息包括各所述主键列序号对应的第一聚合次序，所述从所述cassandra数据库中按照预设提取方式提取指定数据的步骤，包括：

若否，则同时选中包括各所述主键列序号分别对应的第一数据，并从所述第一数据表格中通过复制进行提取；

所述待聚合数据信息包括各所述主键列序号对应的第二聚合次序，所述判断各所述主键列序号是否均处于同一个第一数据表格中的步骤之后，包括：

将各所述第二数据，按照所述第二聚合次序依次复制进行提取；

所述将所述指定数据依照预设方式注入到预设的临时表格中，使各所述主键列序号分别对应的数据满足聚合条件的步骤，包括：

2.根据权利要求1所述的数据聚合方法，其特征在于，所述待聚合数据信息包括聚合计算方式以及计算参数，所述在所述临时表格中聚合各所述主键列序号分别对应的数据的步骤，包括：

3.根据权利要求2所述的数据聚合方法，其特征在于，所述在所述临时表格中聚合各所述主键列序号分别对应的数据的步骤之后，包括：

接收所述临时表输出的所述聚合结果；

判断所述聚合结果是否传输完毕；

若是，则清除所述临时表中的所有数据；

按照预设展示结构展示所述聚合结果。

4.根据权利要求3所述的数据聚合方法，其特征在于，所述按照预设展示结构展示所述聚合结果的步骤，包括：

调取服务器内存中预设的显示地图；

将所述映射异常率显示于所述预设展示结构的对应区域。

5.一种数据聚合装置，用于执行权利要求1-4中任意一项所述的方法，其特征在于，适用于cassandra数据库，装置包括：

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。