CN113886425A

CN113886425A - 数据处理方法、装置、设备以及存储介质

Info

Publication number: CN113886425A
Application number: CN202111227363.5A
Authority: CN
Inventors: 邬俊; 万月亮; 火一莽
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2022-01-04

Abstract

本发明公开了一种数据处理方法、装置、设备以及存储介质，属于大数据技术领域。该方法包括：获取待处理数据集的原查询语句；对所述原查询语句中的关键字和/或关联字段进行优化，得到目标查询语句；所述目标查询语句的数量少于所述原查询语句的数量；采用所述目标查询语句，对所述待处理数据集进行查询，以得到查询结果。通过上述技术方案，对原查询语句进行优化，减少了查询开销，提高了查询效率。

Description

数据处理方法、装置、设备以及存储介质

技术领域

本发明实施例涉及大数据技术领域，尤其涉及一种数据处理方法、装置、设备以及存储介质。

背景技术

近几年，Spark作为下一代通用大数据计算平台，因其高效的海量数据处理能力得到了越来越多企业和研究人员的关注。Spark SQL作为Spark上的结构化数据和半结构化数据的查询引擎被越来越多的企业、机构用于分析他们积累的结构化数据和半结构化数据。

一般简单的数据分析，在大数据存储后，根据存储提供的查询服务就可以获取想要的结果。当查询比较复杂，比如涉及到关联查询、批量碰撞、或者查询结果的再次分析等场景，又或者在提供服务的持久化的存储周期较小，而不提供查询的备份数据持久化时间较长的场景，就需要进行模型分析计算。

因此如何快速的进行模型分析计算，对于海量数据查询尤为重要。

发明内容

本发明提供一种数据处理方法、装置、设备以及存储介质，以实现数据的快速查询。

第一方面，本发明实施例提供了一种数据处理方法，该方法包括：

获取待处理数据集的原查询语句；

对所述原查询语句中的关键字和/或关联字段进行优化，得到目标查询语句；所述目标查询语句的数量少于所述原查询语句的数量；

采用所述目标查询语句，对所述待处理数据集进行查询，以得到查询结果。

第二方面，本发明实施例还提供了一种数据处理装置，该装置包括：

原查询语句获取模块，用于获取待处理数据集的原查询语句；

目标查询语句确定模块，用于对所述原查询语句中的关键字和/或关联字段进行优化，得到目标查询语句；所述目标查询语句的数量少于所述原查询语句的数量；

查询结果确定模块，用于采用所述目标查询语句，对所述待处理数据集进行查询，以得到查询结果。

第三方面，本发明实施例还提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任一实施例所提供的数据处理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例所提供的数据处理方法。

本发明实施例的技术方案，通过获取待处理数据集的原查询语句，之后对原查询语句中的关键字和/或关联字段进行优化，得到目标查询语句，目标查询语句的数量少于原查询语句的数量，进而采用目标查询语句，对待处理数据集进行查询，以得到查询结果。上述技术方案，对原查询语句进行优化，减少了查询开销，提高了查询效率。

附图说明

图1是本发明实施例一提供的一种数据处理方法的流程图；

图2是本发明实施例二提供的一种数据处理方法的流程图；

图3是本发明实施例三提供的一种数据处理装置的结构示意图；

图4是本发明实施例四提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种数据处理方法的流程图，本实施例可适用于海量数据处理的情况，尤其适用于基于sparksql的模型进行海量数据处理的情况，该方法可以由数据处理装置来执行，该装置可以由软件和/或硬件的方式实现，并可集成于承载数据处理功能的电子设备中，例如服务器中。可选的，服务器中集成模型分析系统，该模型分析系统包括前台可视化操作模块、任务调度模块和任务执行模块，前台可视化操作模块用于用户选择待处理数据以及原查询语句，任务调度模块用于对原查询语进行逻辑转换，任务执行模块用于调度任务执行引擎去执行任务。

如图1所示，该方法具体可以包括：

S110、获取待处理数据集的原查询语句。

本实施例中，待处理数据集是指需要进行数据查询的数据集，可以是从前端获取到的源数据，进一步的，还可以对源数据进行探测评估，具体的，对从前端加载的数据的数据量进行评估，例如十万级、千万级、亿级等。

可选的，还可以对源数据进行分组和/或排序，得到待处理数据集。示例性的，可以对从源数据进行数据集分组，相同的或者相似的数据集分为一组，以后后续查询时可以按照分组从数据集中查询。示例性的，还可以对源数据进行数据集排序，以便后续查询时可以遵循小表在前大表在后的原则进行查询。

本实施例中，原查询语句是指用户在可视化前台可视化操作模块选择设定的查询逻辑，经后端处理后得到的查询语句，具体的，后端将用户选择的查询逻辑进行转换，转换为json数据或者xml数据，进而将json数据或者xml数据转换为sql语句，即原查询语句。

本实施例中，获取用户选择的待处理数据集的原查询语句。

S120、对原查询语句中的关键字和/或关联字段进行优化，得到目标查询语句。

其中，目标查询语句的数量少于原查询语句的数量。

可选的，可以对原查询语句中的关联字段进行非空处理，得到目标查询语句。其中，关联字段是指在两表进行碰撞时，关联查询的那个字段，比如select*from a,b wherea.id＝b.id，这个id就是关联字段。

具体的，sparksql在进行两表碰撞取交集时，常常会用两表中的某一个或几个字段相等去关联，例如用手机号关联，如果手机号字段可以为空，当空值较多时就出现一对多关联或者多对一或者多对多关联，这时就会出现笛卡尔积。造成某一个分区的数据量膨胀特别多，从而由于数据倾斜导致某一个任务一直无法结束。因此，可以对原查询语句中的关联字段进行非空处理，得到目标查询语句，从而避免笛卡尔积现象。一个具体的例子，原查询语句为Select*from t_tableA as a，t_tableB b where a.phoneNum＝b.phoneNum；对关联字段phoneNum进行非空处理后，得到的目标查询语句为Select*from t tableA as a,t tableB b where a.phoneNum＝b.phoneNum and a.phoneNum！＝null anda.phoneNum！＝null。

可选的，对原查询语句中的关键字进行优化，得到目标查询语句可以是识别原查询语句中的低效关键字是否是设定关键字，若否，则采用设定关键字替换原查询语句中的低效关键字，得到目标查询语句。其中，低效关键字是指在对大数据进行查询时效率比较低的关键字，如or、not in等。设定关键字是指查询逻辑比较优化的关键字，比如union、notexist等。

例如，原查询语句中出现低效关键字or，则采用设定关键字union来替换，以得到目标查询语句。一个具体的例子，sparksql在做范围选择时，通常有时间段的选择，例如获取一个月之前和一周前至今的用户注册信息，一般做法是用注册时间小于90天之前或者注册时间大于一周前当天的时间，由于or查询时会放弃使用索引使用全表扫描，导致性能降低，所以一般用union替换or，如原查询语句为Select*from t tableA a wherea.registtime<20210701 or a.registtime>20210918，进行优化处理后的目标查询语句为Select*from t tableA a where a.registtime<20210701 Union Select*from t tableAa where a.registtime>20210918。

又如，原查询语句中出现低效关键字not in，则采用设定关键字not exist进行替换，以得到目标查询语句。一个具体的例子，如果在sparksql中存在not in关键字时，需要对not in进行替换处理，因为not in如果子查询中返回的任意一条记录含有空值，则查询将不返回任何记录，而且使用了not in，那么对内外表都进行全表扫描，没有用到索引；而not exists的子查询依然能用到表上的索引。如原查询语句为Select*from t_tableA awhere a.phoneNum not in(select phoneNum from t_tableB)；进行优化处理后的目标查询语句为Select*from t tableA a where not exists(select 1 from t tableB bwhere a.phoneNum＝b.phoneNum)。

此外，还可以推荐高性能的sql逻辑，例如以获取两个时间段的交集为例来说明高性能sql逻辑。比如两个时间段(S1，E1)和(S2，E2)，最常见的时间相交的逻辑大概为(S1BETWEEN S2 AND E2)OR(S2 BETWEEN S1 AND E1)。很好理解：一个时间段的开始时间S1在另一个时间中间(S2，E2)，或者开始时间S2在另一个时间中间(S1，E1)。这种方法逻辑可以实现，但由于条件比较繁琐，且用到or这种关联，导致sql性能比较低。高性能的方法为，先考虑这两段时间什么情况下不相交，无非两种情况：(S1，E1)段在(S2，E2)段前面和(S1，E1)段在(S2，E2)段后面。其对应的表达式为：(S2>E1)OR(S1>E2)。于是相交条件就是NOT((S2>E1)OR(S1>E2))该式等价于(S2<＝E1)AND(S1<＝E2)，这就是高性能sql写法。在前端页面直接设置时间段相交逻辑，让用户选择对应的时间段字段，以及对应的数据表就可以生成高性能的sql逻辑。上面仅用一种例子说明了一种高性能写法的sql逻辑。当有其他高性能逻辑时，可以在前端可视化操作页面进行扩展。

S130、采用目标查询语句，对待处理数据集进行查询，以得到查询结果。

本实施例中，采用目标查询语句，对待处理数据集进行查询，得到查询结果，并反馈给用户。

实施例二

图2是本发明实施例二提供的一种数据处理方法的流程图，在上述实施例的基础，进一步优化，提供一种可选实施方案。

如图2所示，该方法具体可以包括：

S210、获取待处理数据集的原查询语句。

S220、对原查询语句中的关键字和/或关联字段进行优化，得到目标查询语句。

S230、对目标查询语句进行去重处理。

可选的，可以根据目标查询语句中的查询字段、查询表和查询条件，对目标查询语句进行去重处理。具体的，将各个目标查询语句进行NTLR4进行解析，分别获取每个目标查询语句(sql)的查询字段、查询表、关联条件，根据查询表相同的sql语句进行去重。

示例性的，当sql中出现查询表相同，查询字段相同时，选取查询条件宽松的进行sql去重合并成一条sql。

示例性的，当sql中出现查询表相同，查询字段不同，查询条件不同时，则先进行字段合并，合并的sql中包含去重sql的所有字段，再选取条件宽松的进行sql去重合并成一条sql。

去重后合并后的sql的结果数据包含所有去重sql的结果数据。这样将一个模型变成少量的几条负责sql进行执行，提升模型运算的性能。

一个具体的例子，以某重点中学需要找出3年级1班的同学两次英语考试，第一次考试分数在90分以上，第二次考试分数在50分以下的人为例，在本次发明中的sql优化对比。首先，需要说明的是，学生表：t_student；学科表:t_course；分数表：t_score。另外每一步完成后的结果数据会注册成临时表，供下一步查询。一般用户常用的模型逻辑手段，即目标查询语句包括五步：

第一步：Select t.*from t_student where t.level＝’0301’；stutent0301；

第二步：cource_en Select t.*from t_course where t.coursename＝’英语’；

第三步：student last above 90 Select a.*from student030l a,t_score b,course_en a where a.studentcode＝b.studentcode and b.coursecode＝c.coursecodeand b.score>90 and b.score year＝’2020；

第四步：student_now_below_50 Select a.*from student030l a,t_score b,course_en a where a.studentcode＝b.studentcode and b.coursecoderc.coursecodeand b.score<50 and b.score_year＝’2021；

第五步：result student Select a.*from student_last_above_90 a,student_now_below_50 b where a.studentcode＝b.studentcode。

去重优化的目标查询语句为：

select m.*from(Select a.*from t student a,t_score b,t course c wherea.studentcode＝b.studentcode and b.coursecode＝c.coursecode and b.score<50and b.score year＝’2021’and a.level＝'0301’and c.coursename＝'英语')m，(Selecta.*from t student a,t_score b,t course c where a.studentcode＝b.studentcodeand b.coursecode＝c.coursecode and b.score>90 and b.score year＝’2020’anda.level＝0301and c.coursename＝英语')n where m.studentcode＝n.studentcode。由此可见，去重优化后的目标查询语句的逻辑，在sparksql中只执行一段sql，减少内存临时表存储，减少不必要的缓存，同时更快的销毁不必要的内存占有使得模型能更快的出现结果。

S240、采用去重后的目标查询语句，对待处理数据集进行查询，以得到查询结果。

本实施例中，采用去重后的目标查询语句，对待处理数据集进行查询，得到查询结果，并反馈给用户。

本发明实施例的技术方案，通过获取待处理数据集的原查询语句，之后对原查询语句中的关键字和/或关联字段进行优化，得到目标查询语句，进而对目标查询语句进行去重处理，并采用去重后的目标查询语句，对待处理数据集进行查询，以得到查询结果。上述技术方案，对目标查询语句进行去重处理，减少了查询时的临时缓存，进一步提高了查询效率。

实施例三

图3是本发明实施例三提供的一种数据处理装置的结构示意图，本实施例可适用于海量数据处理的情况，尤其适用于基于sparksql的模型进行海量数据处理的情况，该装置可以由软件和/或硬件的方式实现，并可集成于承载数据处理功能的电子设备中，例如服务器中。

如图3所示，该装置具体可以包括：

原查询语句获取模块310，用于获取待处理数据集的原查询语句；

目标查询语句确定模块320，用于对原查询语句中的关键字和/或关联字段进行优化，得到目标查询语句；目标查询语句的数量少于原查询语句的数量；

查询结果确定模块330，用于采用目标查询语句，对待处理数据集进行查询，以得到查询结果。

进一步地，目标查询语句确定模块320具体用于：

对原查询语句中的关联字段进行非空处理，得到目标查询语句。

进一步地，目标查询语句确定模块320还具体用于：

识别原查询语句中的低效关键字是否是设定关键字；

若否，则采用设定关键字替换原查询语句中的低效关键字，得到目标查询语句。

进一步地，该装置还包括：

去重模块，用于对目标查询语句进行去重处理；

相应的，查询结果确定模块330具体用于：

采用去重后的目标查询语句，对待处理数据集进行查询，以得到查询结果。

进一步地，去重模块具体用于：

根据目标查询语句中的查询字段、查询表和查询条件，对目标查询语句进行去重处理。

进一步地，该装置还包括：

待处理数据集获取模块，用于对源数据进行分组和/或排序，得到待处理数据集。

上述数据处理装置可执行本发明任意实施例所提供的数据处理方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4是本发明实施例四提供的一种电子设备的结构示意图，图4示出了适于用来实现本发明实施例实施方式的示例性设备的框图。图4显示的设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器(高速缓存32)。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明实施例各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明实施例所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的数据处理方法。

实施例五

本发明实施例五还提供一种计算机可读存储介质，其上存储有计算机程序(或称为计算机可执行指令)，该程序被处理器执行时用于执行本发明实施例所提供的数据处理方法，该方法包括：

获取待处理数据集的原查询语句；

对原查询语句中的关键字和/或关联字段进行优化，得到目标查询语句；目标查询语句的数量少于原查询语句的数量；

采用目标查询语句，对待处理数据集进行查询，以得到查询结果。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明实施例进行了较为详细的说明，但是本发明实施例不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据处理方法，其特征在于，包括：

获取待处理数据集的原查询语句；

2.根据权利要求1所述的方法，其特征在于，所述对所述原查询语句中的关联字段进行优化，得到目标查询语句，包括：

对所述原查询语句中的关联字段进行非空处理，得到目标查询语句。

3.根据权利要求1所述的方法，其特征在于，所述对所述原查询语句中的关键字进行优化，得到目标查询语句，包括：

识别所述原查询语句中的低效关键字是否是设定关键字；

若否，则采用所述设定关键字替换所述原查询语句中的低效关键字，得到目标查询语句。

4.根据权利要求1所述的方法，其特征在于，在对所述原查询语句中的关键字和/或关联字段进行优化，得到目标查询语句之后，还包括：

对所述目标查询语句进行去重处理；

相应的，采用所述目标查询语句，对所述待处理数据集进行查询，以得到查询结果，包括：

采用去重后的目标查询语句，对所述待处理数据集进行查询，以得到查询结果。

5.根据权利要求4所述的方法，其特征在于，所述对所述目标查询语句进行去重处理，包括：

根据所述目标查询语句中的查询字段、查询表和查询条件，对所述目标查询语句进行去重处理。

6.根据权利要求1所述的方法，其特征在于，还包括：

对源数据进行分组和/或排序，得到待处理数据集。

7.一种数据处理装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述目标查询语句确定模块具体用于：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一项所述的数据处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的数据处理方法。