CN109471889A

CN109471889A - 报表加速方法、系统、计算机设备和存储介质

Info

Publication number: CN109471889A
Application number: CN201811093322.XA
Authority: CN
Inventors: 陈俊峰
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2019-03-15
Anticipated expiration: 2038-09-19
Also published as: CN109471889B

Abstract

本发明涉及数据处理技术领域，尤其涉及一种报表加速方法、系统、计算机设备和存储介质。一种报表加速方法，包括如下步骤：获取日志数据，对所述日志数据进行语义和/或数据的分类后生成报表，所述日志数据由客户端产生；获取需要查询的信息，对其进行语句拆分后生成数个子查询条目；建立所述子查询条目与所述报表中语义和/或数据的映射关系，根据所述映射关系将所述报表进行分割后生成数个子报表；查询所述子报表中的需要查询的信息，汇总所有查询过的子报表中关于所述需要查询的信息的查询结果，聚合成该信息的最终查询结果。本发明通过对数据的分组整合，可以自动化完成异常场景的覆盖，并在回归测试时无需人工介入。

Description

报表加速方法、系统、计算机设备和存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种报表加速方法、系统、计算机设备和存储介质。

背景技术

报表功能是日志处理软件中一个常见的功能。报表功能是指通过预设的查询和时间周期，在指定的时间生成查询结果。通常，报表功能中预设的查询时间范围比较长，可能为数天，数周，乃至数月。通过对报表中数据的分析可以对经济活动进行核算和监督，为经济管理搜集、处理、存储和输送各种会计信息。通过调节、指导、控制等方式，对客观经济活动的合理、合法有效性进行考核与评价。并采取措施施加一定的影响，以实现预期的目标。

目前，在对报表中内容进行查询时采用日期检索、关键词检索、数值检索等方式对整个报表的内容进行全覆盖式的检索。同时，也可以采用分类检索的方式将报表按照预设的规则进行划分成若干个区域，然后对各个区域进行不同信息的检索查询。

但是，在使用全覆盖式检索时存在着查询时间范围比较长，数据量较多，当表报查询执行时，会消耗系统大量的计算和存储资源，影响到软件的正常运行。而在采用分区域进行检索时，会出现由于原始报表中某些参数记录错误导致划分区域后的数据信息不完整，进而无法得到报表中真实的数据信息。

发明内容

有鉴于此，有必要针对现有报表查询过程中不能有效快速查询的问题，提供一种报表加速方法、系统、计算机设备和存储介质。

一种报表加速方法，包括如下步骤：

获取日志数据，对所述日志数据进行语义和/或数据的分类后生成报表，所述日志数据由客户端产生；

获取需要查询的信息，对其进行语句拆分后生成数个子查询条目；

建立所述子查询条目与所述报表中语义和/或数据的映射关系，根据所述映射关系将所述报表进行分割后生成数个子报表；

查询所述子报表中的需要查询的信息，汇总所有查询过的子报表中关于所述需要查询的信息的查询结果，聚合成该信息的最终查询结果。

在其中一个实施例中，所述获取日志数据，对所述日志数据进行语义和/或数据的分类后生成报表，所述日志数据由客户端产生，包括：

向所述客户端发送获取所述日志数据请求，根据应用ID和内容ID对所述日志数据进行内容节点分级，形成数个内容块，所述应用ID和内容ID由客户端系统产生后写入所述日志数据中；

根据所述内容节点分级的分级状况对所述内容块数量进行核验，以确定获取所述日志数据是否符合满足报表查询数据量的要求；

若符合所述报表查询数量的要求则停止获取所述日志数据，并对已经获得的日志数据按照所述基本模板进行语义和/或数据的分类形成报表；

否则继续再次向所述客户端发送获取所述日志数据请求，直到满足所述报表查询的要求。

在其中一个实施例中，所述获取需要查询的信息，对其进行语句拆分后生成数个子查询条目，包括：

获取由数个语句组成的需要查询的信息；

设定所要进行拆分的所述语句的长度，生成由一个或者多个词语构成的初始语句；

根据所述初始语句与预设语句规则进行比较，得到语句权重阈值；

应用所述权重阈值对所述初始语句的长度进行修正，得到符合所述预设语句规则的语句；

对所述符合所述预设语句规则的语句拆分构成数个子查询条目。

在其中一个实施例中，所述建立所述子查询条目与所述报表中语义和/或数据的映射关系，根据所述映射关系将所述报表进行分割后生成数个子报表，包括：

通过结构化查询语言对所述报表中语义和/或数据的识别，识别出标量和矢量；

提取所述标量建立标量矩阵，提取所述矢量后将其与所述标量矩阵进行向量积运算生成识别矩阵；

将所述子查询条目中的数据输入到所述识别矩阵中进行矩阵求逆运算得到识别逆矩阵；

根据所述识别矩阵上各个数据与所述识别逆矩阵上各个数据的对应关系，建立所述子查询条目与所述报表中语义和/或数据的映射关系；

根据所述映射关系将所述报表按照各个语义或各个数据分割，形成数个子报表。

在其中一个实施例中，所述查询所述子报表中的需要查询的信息，汇总所有查询过的子报表中关于所述需要查询的信息的查询结果，聚合成该信息的最终查询结果，包括：

根据所述子报表中信息的生成时间创建数据节点，检索所述子报表，找出其中的数据节点；

根据所述数据节点对所述子报表中信息进行元素分离，建立处于所述数据节点的元素与所述报表中有序排列的元素之间的一级映射关系；

利用所述映射关系进行连续嵌套操作，建立所述子报表中的每一个信息和与其所对应的数据节点之间的二级映射关系；

使用叠加函数对所述一级映射关系和所述二级映射关系进行叠加，得到某个查询的所述子报表中的信息的最终查询结果。

根据所述映射关系，抽取出所有查询过的子报表中关于所述某个信息的查询结果；

对所述查询结果应用哈希算法对进行重复数据删除处理，去除因非一一映射生成的重复数据，得到修正后的查询结果；

再应用累加算法对所述修正后的查询结果进行叠加，得到所述最终查询结果的查询权重；

将所述查询权重带入到深度学习模型中进行训练得到查询权重阈值，根据所述查询权重阈值生成查询模型，通过所述查询模型对查询过程进行判断得到所述最终查询结果。

在其中一个实施例中，所述根据所述子报表中信息的生成时间创建数据节点，检索所述子报表，找出其中的数据节点，包括：

创建上下两层数据节点映射表，上层数据节点映射表保存外部循环变量名称及其绑定的数据节点，下层数据节点映射表保存内部循环变量名称及其绑定的数据节点；

按照指定的所述内部循环变量名称或者所述外部循环变量名称，在任一层数据节点映射表中查找得到所需的数据节点。

一种报表加速系统，包括如下单元：

报表生成单元，设置为获取日志数据，对所述日志数据进行语义和/或数据的分类后生成报表，所述日志数据由客户端产生；

子查询条目生成单元，设置为获取需要查询的信息，对其进行语句拆分后生成数个子查询条目；

子报表生成单元，设置为建立所述子查询条目与所述报表中语义和/或数据的映射关系，根据所述映射关系将所述报表进行分割后生成数个子报表；

结果汇总单元，设置为对所述子报表中的需要查询的信息进行查询，汇总所有查询过的子报表中关于所述需要查询的信息的查询结果，聚合成该信息的最终查询结果。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述报表加速方法的步骤。

一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述报表加速方法的步骤。

上述报表加速方法、装置、计算机设备和存储介质，包括获取日志数据，对所述日志数据进行语义和/或数据的分类后生成报表，所述日志数据由客户端产生；获取需要查询的信息，对其进行语句拆分后生成数个子查询条目；建立所述子查询条目与所述报表中语义和/或数据的映射关系，根据所述映射关系将所述报表进行分割后生成数个子报表；查询所述子报表中的需要查询的信息，汇总所有查询过的子报表中关于所述需要查询的信息的查询结果，聚合成该信息的最终查询结果。本技术方案针对报表查询过程中需要耗费大量时间，通过将整个报表分割成若干个子报表，对所有子报表中的查询结果进行汇总得到最终的查询结果提升了报表查询的速度。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。

图1为本申请的一种报表加速方法的整体流程图；

图2为本申请的一种报表加速方法中的获取客户端产生的日志数据过程示意图；

图3为本申请的一种报表加速方法中的形成子报表过程示意图；

图4为本申请的一种报表加速系统的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

图1为本发明一个实施例中的报表加速方法的流程图，如图所示，一种报表加速方法，包括以下步骤：

S1、获取日志数据，对所述日志数据进行语义和/或数据的分类后生成报表，所述日志数据由客户端产生；

具体的，在获取日志数据时主要采用报表生成器，报表生成器一般包括报表设计器和数据源组成，其中，设计器由设计界面模块、报表解析模块以及报表展示模块共同组成。打开设计界面模块，从多种报表类型中选择一个基本模板，基本模板中有对该报表中项目名称、项目编号、项目预期开始时间、项目完成时间、项目评价等条目。

通过设计报表，绘制表格，进行报表的基本布局、排版等操作，编写与日志数据紧密关联的脚本和公式，将表格与日志数据绑定。另外，还可以自定义并设置参数值，为报表提供动态性并对报表格式进行编辑完善。通过报表解析模块预览已制作好的报表，所述预览包括：报表解析模块对制作的报表及数据脚本进行解析，发送给报表输出模块，然后报表输出模块将报表以一定格式呈现给用户。

S2、获取需要查询的信息，对其进行语句拆分后生成数个子查询条目；

其中，语句的拆分可以按照汉语和英语的语言习惯设置，例如在汉语语境下，选定一个词组包含的单个汉字量为1～5个，对于英语词汇则按照英文单词规则，先拆分出各个单词，然后根据名词。动词、形容词等属性判断结合成一系列词组；如果语句拆分后得到的词组不符合汉语或者英语习惯则需要重新设定拆分规则。

S3、建立所述子查询条目与所述报表中语义和/或数据的映射关系，根据所述映射关系将所述报表进行分割后生成数个子报表；

其中，映射关系可以是一一映射关系，也可以是一对多的映射关系，即每一个汉语词汇对应一个位置，也可以是近义词，相关词对应一个位置。

S4、查询所述子报表中的需要查询的信息，汇总所有查询过的子报表中关于所述需要查询的信息的查询结果，聚合成该信息的最终查询结果。

其中，常用的查询软件主要是应用SQL语言进行查询，SQL即结构化查询语言(Structured Query Language)，是一种特殊目的的编程语言，是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统；同时也是数据库脚本文件的扩展名。SQL语言无论是种类还是数量都是繁多的，很多语言也是经常要用到的，SQL查询语言就是一个典型的例子，无论是高级查询还是低级查询，SQL查询语言的需求是最频繁的。

本申请通过上述方法步骤，将一个报表进行拆分形成多个子报表，然后对各个子报表中的信息进行定向查询，节约了查询整个数据繁杂的报表的时间，同时将报表进行划分查询也能够及时找到报表中错误信息的位置。

图2为本发明在在一个实施例中，获取客户端产生的日志数据过程示意图，如图所示，所述获取日志数据，对所述日志数据进行语义和/或数据的分类后生成报表，所述日志数据由客户端产生，包括：

其中，应用ID是客户端所有使用的应用软件的识别标识，通过获取每个应用软件的识别标识，即可获取相应软件在该日志生成范围内的使用时长、使用次数和其他参数来对应用软件进行使用状况的核对，以确定各个应用软件的日志数据，内容ID是对报表中的所有内容进行关键词识别，通过输入不同的关键词，将应用程序或者数据库中的内容进行识别划分，进而生成管理节点。

其中，将内容管理节点划分成两级，第一级为客户端进行认证，检查内容管理节点是都满足报表查询条件的要求，当第一级认证通过后，服务器还要对内容管理节点进行第二次认证，只有当管理内容节点满足第一级认证和第二级认证后才能进行查询。

具体的，再次对内容管理节点进行重新划分时，首先要更新数据库中的日志数据记录使其满足所要进行抽取的日志数据时间要求，然后对客户端进行数据修改检测，必要时进行数据恢复，以免因数据清洗导致获取的日志数据出现错误。

本实施例中，通过对客户端数据进行分级认证，提升了获取日志数据的准确性和可靠性。

在一个实施例中所述获取需要查询的信息，对其进行语句拆分后生成数个子查询条目，包括：

获取由数个语句组成的需要查询的信息；

具体的，在进行语句拆分时，可以采用名词作为拆分节点进行拆分，例如，“今天下午小明打乒乓球”，就将“小明”作为拆分的节点，这样将这样简单的一句话拆分成“今天下午”“小明”、“打乒乓球”三个词，然后再次识别动词“打”就可以做成一个初始语句“小明打乒乓球”，这个初始语句相对于原语句少了时间状语“今天下午”，当不需要对动作发生时间进行限定时，即可只查询“小明打乒乓球”。

具体的，根据上个例子中“今天下午小明打乒乓球”如果根据“乒乓球”进行划分成“今天下午小明打”、“乒乓球”两个词，这样得到的初始语句中出现错误的“今天下午小明打”不完整句子，因此本句话的权重阈值可以设置为4，即对超过4个字的词语需要进行二次划分，重新组合。

本实施例中，通过生成设定就进行查询的初始语句的权重阈值，可以有效的对查询信息进行拆分，从而能够更加快速的进行查询。

图3为本发明在在一个实施例中，在一个实施例中，形成子报表过程示意图，如图所示，所述建立所述子查询条目与所述报表中语义和/或数据的映射关系，根据所述映射关系将所述报表进行分割后生成数个子报表，包括：

S201、通过结构化查询语言对所述报表中语义和/或数据的识别，识别出标量和矢量；

具体的，所谓标量就是没有方向的数值，而矢量是具有方向性的数值，例如，在一个语句中“7月15日，小明向东行走3公里”，这里面“7月15日”就是一个标量，而“向东行走3公里”则是一个矢量，即通过结构化语言先将标量和矢量进行识别，因为标量一般表示的是一种点状态，而矢量则是表示的是一种变化趋势，二者的属性对查询的内容会造成很大的影响。

S202、提取所述标量建立标量矩阵，提取所述矢量后将其与所述标量矩阵进行向量积运算生成识别矩阵；

具体的，标量矩阵就是把所要查询的标量进行一个列表，然后将任意一个矢量与标量进行乘积计算即可得到在某一标量时，发生的动作状态。还是以上面的例子做说明，标量“7月15日”与矢量“向东行走3公里”进行组合便得到“7月15日向东行走3公里”这一组合事件，然后赋予其行动主体，即构成一个识别矩阵。

S203、将所述子查询条目中的数据输入到所述识别矩阵中进行矩阵求逆运算得到识别逆矩阵；

其中，对识别矩阵求逆可以将先书写矢量状态后书写标量状态的语句进行识别，以防止单一的识别矩阵识别出来的信息不全面。

S204、根据所述识别矩阵上各个数据与所述识别逆矩阵上各个数据的对应关系，建立所述子查询条目与所述报表中语义和/或数据的映射关系；

其中，识别矩阵和识别逆矩阵中存在相同的数据，只是此数据在识别矩阵的位置与识别逆矩阵中的位置不同，根据位置关系计算差值，从而确定该数据在报表中的位置。

S205、根据所述映射关系将所述报表按照各个语义或各个数据分割，形成数个子报表。

本实施例中，通过建立识别矩阵和识别逆矩阵对查询信息进行全覆盖查询，以便将所有包含需要进行查询的条目均检索出来。

在一个实施例中，所述查询所述子报表中的需要查询的信息，汇总所有查询过的子报表中关于所述需要查询的信息的查询结果，聚合成该信息的最终查询结果，包括：

具体的，一般查询软件通过结构化查询语言SQL，生成查询。在数据库中，将SQL查询转换成可在数据库执行的查询执行计划的作业是在查询编译器中执行的。查询执行计划由以查询执行中所必须的多个执行单位构成树状结构，每一个数据节点就在树状结构的一个树枝上，通过识别树枝所在位置来创建时间节点。

具体的，这种映射关系可以是一一映射关系也可以是非一一映射关系，例如，数据节点的元素为“苹果”，在预设元素关系中可以找到“苹果”与之向对应，同样可以先找寻“苹果”的上位概念“水果”然后将“香蕉”、“葡萄”、“西瓜”等水果均与“苹果”建立起映射关系。

例如，在子报表中设置有一些列的角度，而在数据节点中则是通过数值进行表示，这样就可以对子报表中的角度进行三角函数计算得到与数据节点相一致的数值信息，如果经过一次三角函数运算不能得到相关数值信息则可以采用对数、开方的运算连续嵌套得出二级映射关系。

因为，采用连续嵌套的手段后，可能会将本来没有映射关系的两个数据建立起虚假的映射关系，所以要使用叠加函数对重复的数据进行消除，并且把需要进行统计的数据进行累加得出该数据出现的正确数目。

本实施例中，通过创建数据节点，建立子报表中的数据与查询软件中预设元素的映射关系，可以加快查询的速度，同时剔除错误的查询数据。

具体的，抽取的子报表中的数据即可以是一级映射关系得到的数据，也可以是二级映射关系得到的数据，同时也可以是一级映射和二级映射组合得到的数据。

哈希算法一般就是把任意长度的输入通过散列算法变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来确定唯一的输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。

其中，累加算法通常的表示为：定义一个总和、累加的总数和一个每次循环变化的数值，每次循环进行相加，计算总和。

具体的，如果查询权重阈值与实际需求不符，即存在着查询权重阈值大于真正需要的查询值或者小于真正需要的查询值，则需对查询权重阈值进行训练修正。

本实施例中，通过哈希算法和累加算法对查询结果进行修正，并应用深度学习模型对查询阈值进行训练，提升了查询的速度和准度。

在一个实施例中，所述根据所述子报表中信息的生成时间创建数据节点，检索所述子报表，找出其中的数据节点，包括：

其中，通过内部循环和外部循环变量将节点的映射表进行拆分，这样可以对数据节点进行分类。

本实施例中，通过设置不同的数据节点可以保证数据查询的速度，并且在一种数据节点发生错误后，仍然可以使用另一个节点进行查询操作。

在一个实施例中，提供了一种报表加速系统，如图4所示，包括如下单元：

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述各实施例中所述报表加速方法的步骤。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述各实施例中的所述报表加速方法的步骤。所述存储介质可以为非易失性存储介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明一些示例性实施例，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种报表加速方法，其特征在于，包括：

2.根据权利要求1所述的报表加速方法，其特征在于，所述获取日志数据，对所述日志数据进行语义和/或数据的分类后生成报表，所述日志数据由客户端产生，包括：

3.根据权利要求1所述的报表加速方法，其特征在于，所述获取需要查询的信息，对其进行语句拆分后生成数个子查询条目，包括：

获取由数个语句组成的需要查询的信息；

4.根据权利要求1所述的报表加速方法，其特征在于，所述建立所述子查询条目与所述报表中语义和/或数据的映射关系，根据所述映射关系将所述报表进行分割后生成数个子报表，包括：

5.根据权利要求1所述的报表加速方法，其特征在于，所述查询所述子报表中的需要查询的信息，汇总所有查询过的子报表中关于所述需要查询的信息的查询结果，聚合成该信息的最终查询结果，包括：

6.根据权利要求1所述的报表加速方法，其特征在于，所述查询所述子报表中的需要查询的信息，汇总所有查询过的子报表中关于所述需要查询的信息的查询结果，聚合成该信息的最终查询结果，包括：

7.根据权利要求4所述的报表加速方法，其特征在于，所述根据所述子报表中信息的生成时间创建数据节点，检索所述子报表，找出其中的数据节点，包括：

8.一种报表加速系统，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项权利要求所述的报表加速方法的步骤。

10.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述的报表加速方法的步骤。