CN111737284A - 一种基于管道的数据库查询分析方法、装置及计算设备 - Google Patents

一种基于管道的数据库查询分析方法、装置及计算设备 Download PDF

Info

Publication number
CN111737284A
CN111737284A CN202010828398.3A CN202010828398A CN111737284A CN 111737284 A CN111737284 A CN 111737284A CN 202010828398 A CN202010828398 A CN 202010828398A CN 111737284 A CN111737284 A CN 111737284A
Authority
CN
China
Prior art keywords
data
instruction
pipeline
source
pipeline process
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010828398.3A
Other languages
English (en)
Inventor
马辉
程度
张福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shengxin Network Technology Co ltd
Original Assignee
Beijing Shengxin Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shengxin Network Technology Co ltd filed Critical Beijing Shengxin Network Technology Co ltd
Priority to CN202010828398.3A priority Critical patent/CN111737284A/zh
Publication of CN111737284A publication Critical patent/CN111737284A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种基于管道的数据库查询分析方法、装置、可读存储介质及计算设备,实现了通过一组语句可以直接完成多源异构数据的查询和分析,提高了查询分析效率。方法包括:接收用户的数据库查询分析指令;从所述数据库查询分析指令中解析出多个第一指令模块、多个第二指令模块和各个指令模块对应的数据输入输出关系;根据所述第一指令模块建立第一管道进程,根据所述第二指令模块建立第二管道进程,以及,根据所述各个指令模块对应的数据输入输出关系,确定所述第一管道进程和所述第二管道进程之间的数据输入输出关系,和不同所述第二管道进程之间的数据输入输出关系;将最后一个所述第二管道进程分析出的数据反馈给所述用户。

Description

一种基于管道的数据库查询分析方法、装置及计算设备
技术领域
本发明涉及数据库技术领域,尤其涉及一种基于管道的数据库查询分析方法、装置、可读存储介质及计算设备。
背景技术
数据根据业务的不同可能会选择不同存储介质。当数据分散到不同的数据库中,就要求学习各种数据库的原生查询语言来支持检索,比如传统数据库的结构化查询语言(Structured Query Language, SQL),非关系型数据库ElasticSearch的领域特定语言(Domain Specific Language, DSL),那么就会大大增加使用人员的学习成本。
一方面,现有的支持多源数据库的查询语言会有数据采集归一化的过程。需要将各类数据经过变形转化,建立和自身查询语言对应的数据结构或索引,这种定制化的入库限制了数据的通用性。
另一方面,如果不进行数据采集归一化的处理,则只能将多源数据库的异构数据采集至中间节点,可能产生中间节点对数据作二次处理的需要,现有技术也没有提供相应的解决方案。
发明内容
为此,本发明提供了一种基于管道的数据库查询分析方法、装置、可读存储介质及计算设备,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供一种基于管道的数据库查询分析方法,包括:
接收用户的数据库查询分析指令;所述数据库包括多源异构数据库;
从所述数据库查询分析指令中解析出多个第一指令模块、多个第二指令模块和各个指令模块对应的数据输入输出关系;
根据所述第一指令模块建立第一管道进程,根据所述第二指令模块建立第二管道进程,以及,根据所述各个指令模块对应的数据输入输出关系,确定所述第一管道进程和所述第二管道进程之间的数据输入输出关系,和不同所述第二管道进程之间的数据输入输出关系;
所述第一管道进程从所述多源异构数据库中查询多源异构数据,以及,所述第二管道进程连续地分析所述第一管道进程查询到的多源异构数据;
将最后一个所述第二管道进程分析出的数据反馈给所述用户。
可选地,从所述数据库查询分析指令中解析出多个第一指令模块、多个第二指令模块和各个指令模块对应的数据输入输出关系,包括:
根据所述数据库查询分析指令包含的预设标识,将所述数据库查询分析指令分解为多个指令模块;
将仅包括select语句和where语句的指令模块确定为第一指令模块,所述第一指令模块用于指示从所述多源异构数据库中的目标数据源提取目标数据;
将不包括from语句的指令模块确定为第二指令模块,所述第二指令模块用于指示从上一个指令模块中提取数据。
可选地,所述第一管道进程从所述多源异构数据库中查询多源异构数据,包括:
所述第一管道进程查询预设的数据源别名配置文件,确定与所述目标数据源对应的真实数据源;
所述第一管道进程将所述第一指令模块包含的动作信息转换成所述真实数据源对应的原生语言;
根据所述原生语言从所述真实数据源中获取目标数据。
可选地,所述数据源别名配置文件,包括:数据源别名、数据源对接地址、数据源类型、默认数据源、数据源是否需要验证、数据源的验证信息和数据源的表的别名映射关系。
可选地,所述第一管道进程将所述第一指令模块包含的动作信息转换成所述真实数据源对应的原生语言,包括:
所述第一管道进程将所述第一指令模块的符号分组为符号类;
根据分组后的符号类,以及预先配置的语法范式,生成语法树;
遍历语法树,对于每一个遍历到的规则节点,提取目标属性并封装为模块;
按照真实数据源的语法重构各个封装模块,得到所述真实数据源对应的原生语言。
可选地,各个管道进程之间采用生产——消费模型和跨进程队列机制调度数据。
可选地,所述第一管道进程包括:es进程对象、mongo进程对象、mysql进程对象;所述第二管道进程包括:filte进程对象、group进程对象、order by进程对象。
可选地,所述第二指令模块包括自定义算子,用于对所述多源异构数据进行任意的自定义处理。
根据本发明的又一方面,提供一种基于管道的数据库查询装置,包括:
指令接收单元,用于接收用户的数据库查询分析指令;所述数据库包括多源异构数据库;
指令解析单元,用于从所述数据库查询分析指令中解析出多个第一指令模块、多个第二指令模块和各个指令模块对应的数据输入输出关系;
进程启动单元,用于根据所述第一指令模块建立第一管道进程,根据所述第二指令模块建立第二管道进程,以及,根据所述各个指令模块对应的数据输入输出关系,确定所述第一管道进程和所述第二管道进程之间的数据输入输出关系,和不同所述第二管道进程之间的数据输入输出关系;
进程处理单元,用于通过所述第一管道进程从所述多源异构数据库中查询多源异构数据,以及,通过所述第二管道进程连续地分析所述第一管道进程查询到的多源异构数据;
反馈单元,用于将最后一个所述第二管道进程分析出的数据反馈给所述用户。
根据本发明的又一方面,提供一种可读存储介质,其上具有可执行指令,当可执行指令被执行时,使得计算机执行上述的基于管道的数据库查询分析方法。
根据本发明的又一方面,提供一种计算设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行上述的基于管道的数据库查询分析方法。
根据本发明实施例,接收用户的数据库查询分析指令;所述数据库包括多源异构数据库,从所述数据库查询分析指令中解析出多个第一指令模块、多个第二指令模块和各个指令模块对应的数据输入输出关系,根据所述第一指令模块建立第一管道进程,根据所述第二指令模块建立第二管道进程,以及,根据所述各个指令模块对应的数据输入输出关系,确定所述第一管道进程和所述第二管道进程之间的数据输入输出关系,和不同所述第二管道进程之间的数据输入输出关系,所述第一管道进程从所述多源异构数据库中查询多源异构数据,以及,所述第二管道进程连续地分析所述第一管道进程查询到的多源异构数据,将最后一个所述第二管道进程分析出的数据反馈给所述用户;本发明实施例提供的基于管道的数据库查询分析方法,实现了通过一套查询分析指令,即可一次完成多源异构数据的查询和分析处理,解决了在不对数据进行采集归一化处理的情况下,即使提取到了多源异构数据也难以进一步处理的问题,大大提高了多源异构数据的查询分析效率。
附图说明
附图示出了本发明的示例性实施方式,并与其说明一起用于解释本发明的原理,其中包括了这些附图以提供对本发明的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是示例性的计算设备的结构框图。
图2是根据本发明实施例的基于管道的数据库查询分析方法的流程图。
图3是根据本发明实施例的基于管道的数据库查询分析方法的又一流程图。
图4是根据本发明具体实施例的数据源别名映射的流程示意图。
图5是根据本发明具体实施例的管道工作流程示意图。
图6是根据本发明具体实施例的基于管道的数据库查询分析方法的流程示意图。
图7是根据本发明实施例的基于管道的数据库查询分析装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是布置为实现根据本发明的基于管道的数据库查询分析方法的示例计算设备100的框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(µP)、微控制器(µC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个程序122以及程序数据124。在一些实施方式中,程序122可以被配置为在操作系统上由一个或者多个处理器104利用程序数据124执行指令。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示终端或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机、服务器、由多台计算机组成的集群。
其中,计算设备100的一个或多个程序122包括用于执行根据本发明的基于管道的数据库查询分析方法的指令。
图2示例性示出根据本发明一个实施例的基于管道的数据库查询分析方法的流程图,基于管道的数据库查询分析方法始于步骤S210。
步骤S210、接收用户的数据库查询分析指令;数据库包括多源异构数据库。
多源异构数据的查询指令的查询对象可以是ElasticSearch、MongoDB、Mysql、Sqlite等不同类型的数据源;其中既包括关系型数据库,又包括非关系型数据库。
多源异构数据的查询指令是一种用于查询的中间语言,符合预先设置的语法规则。可选地,查询指令采用类SQL语句,支持包含SELECT、FROM、WHERE、GROUP、ORDER、LIMIT的查询语句,以降低用户的学习成本。此外,也可以采用任意其它的自定义的语言形式,以实现类似的或扩展的功能。
随后,在步骤S220中,从数据库查询分析指令中解析出多个第一指令模块、多个第二指令模块和各个指令模块对应的数据输入输出关系。
具体的,步骤S220具体包括:根据数据库查询分析指令包含的预设标识,将数据库查询分析指令分解为多个指令模块;将仅包括select语句和where语句的指令模块确定为第一指令模块,第一指令模块用于指示从多源异构数据库中的目标数据源提取目标数据;将不包括from语句的指令模块确定为第二指令模块,第二指令模块用于指示从上一个指令模块中提取数据。其中,指令模块之间通过预设标识分隔,例如,可以使用“|”分隔。
随后,在步骤S230中,根据第一指令模块建立第一管道进程,根据第二指令模块建立第二管道进程,以及,根据各个指令模块对应的数据输入输出关系,确定第一管道进程和第二管道进程之间的数据输入输出关系,和不同第二管道进程之间的数据输入输出关系。
具体地,第一指令模块用于指示从多源异构数据库中的目标数据源提取目标数据,那么第一指令模块对应的第一管道进程的输入输出关系包括将目标数据源作为数据输入;第二指令模块用于指示从上一个指令模块中提取数据,那么第二指令模块对应的第二管道进程的数据输入输出关系包括将上一个指令模块对应的管道进程的输出作为数据输入。按照上述方式,确定出每一个管道进程的数据输入输出。
随后,在步骤S240中,第一管道进程从多源异构数据库中查询多源异构数据,以及,第二管道进程连续地分析第一管道进程查询到的多源异构数据。
在本步骤中,针对每一指令模块创建一个管道进程,其中,第一管道进程并行地处理用户下达的数据库查询分析指令,第二管道进程连续地对查询到的数据进行处理,通过多进程协作的方式,实现了对多源异构数据的二次处理,提高了数据库查询分析效率。
在具体实现中,由查询服务器处理用户的查询分析指令,查询服务器在接收到查询分析指令后,建立第一管道进程访问多源异构数据库,用以获取目标数据,再根据第二管道进程,在查询服务器本地完成分析计算。
由于第二管道不是对数据源直接进行操作,本发明提供的技术方案支持用户在创建第二管道时,使用任意的自定义算子。因此,用户可以使用SELECT、FROM、WHERE、GROUP、ORDER、LIMIT等原生SQL指令查询数据,也可以使用其它自定义的非原生SQL指令进行数据的查询或者分析,从而扩展了查询分析指令的功能范围。
为了实现对多源异构数据的高效访问处理,如图3所示,第一管道进程从多源异构数据库中查询多源异构数据,包括:
步骤S310,第一管道进程查询预设的数据源别名配置文件,确定与目标数据源对应的真实数据源。
第一指令模块主要包括两个部分:数据对象、执行动作。通过解析指令可以提取出这两部分内容。由于本发明中需要对多源异构数据进行查询,无法直接访问到真实数据源;因此,第一指令模块中的目标数据源是数据源别名,通过数据源别名——数据源映射机制,再将数据源别名映射到真实数据源,从而创建真实的数据对象。
可选地,数据源别名配置文件包括:数据源别名、数据源对接地址、数据源类型、默认数据源、数据源是否需要验证、数据源的验证信息和数据源的表的别名映射关系。
随后,在S320中,第一管道进程将第一指令模块包含的动作信息转换成真实数据源对应的原生语言。
解析第一指令模块的过程包括词法分析阶段和解析阶段,在词法分析阶段,将第一指令模块的符号分组为符号类;在解析阶段,根据分组后的符号类,以及预先配置的语法范式,生成语法树,遍历语法树,对于每一个遍历到的规则节点,提取目标属性并封装为模块;最后,在确定第一指令模块包含的封装模块后,按照真实数据源的语法重构各个封装模块,即可得到真实数据源对应的原生语言。
其中,语法范式以及遍历时节点的进入或退出函数都是根据预设的语法规则灵活制定的,可以依照中间语言的功能需求进行修改和扩展。
S330、根据原生语言从真实数据源中获取目标数据。
随后,在步骤S250中,将最后一个第二管道进程分析出的数据反馈给用户。
根据本发明又一实施例,第一管道进程和第二管道进程分别为两类不同的进程,采用不同的进程对象实例;第一管道进程构建第一进程对象,第一管道进程对应的查询指令包括select部分和where部分,第二管道进程构建第二进程对象,第二管道进程对应的查询指令不包含from部分以表示数据来源为上一个管道。第一管道进程和第二管道进程采用跨进程队列存储数据,并基于生产——消费模型进行数据调度,在先的第一管道进程或第二管道进程将数据存入跨进程队列,在后的第二管道进程检测到跨进程队列中有数据后,执行在后的第二管道进程对应的操作。
例如:select * from es.qtevent where cmd startswith "/bin/bash" | grep-v java。首先根据QSL语法解析得到需要启动两个进程,并且这两个进程对象实例不同,进程1通过from es.qtevent解析数据源别名(数据源配置文件中配置es对应的数据源类型为ElasticSearch),那么将会构建一个es对象。并且es对象包含了select部分(列的提取),where部分(条件过滤),其它默认均为默认"空"。进程2则是实现了linix grep -v语法,本质上是一个Filte对象,而且省略的from部分代表数据的来源是上一个管道。两个进程的数据存储介质采用跨进程的队列。本质上是一个生产-消费模型。进程1将得到的有效数据存入队列中,进程2检测到队列中有数据时将进行消费。
尽管上述示例中仅仅创建了两个进程对象,但在实际应用中可以创建任意多个进程对象。其中,第一管道进程可以创建为es进程对象、mongo进程对象、mysql进程对象;第二管道进程可以创建为filte进程对象、group进程对象,order by进程对象,分别用于过滤、分组及排序。
本发明实施例提出了一种用于多源异构数据查询的中间语言,用户只需要掌握这一种查询语言,即可访问不同种类的数据库,并进行连续的查询分析处理。既避免了数据采集归一化的过程,增强了数据的通用性,也增强了多源异构数据的即时分析处理能力。
下面给出本发明的具体实施例。
本发明具体实施例中,多源异构数据的查询引擎被称作青藤结构化查询语言(Qingteng Structured Query Language, QSL),包括语法分析模块、别名映射模块、自定义函数模块、数据连续分析模块四个部分。
一、语法分析模块。
语法分析是将符合QSL规范的语句解析为待执行的各个组成部分。在分析的过程中会将具体模块抽象为对应的实体对象,并且每个实体对象包含各自所要执行的动作以及额外信息(例如: 执行的上下文信息)。QSL语句包含SQL的各个部分(SELECT、FROM、WHERE、GROUP、ORDER、LIMIT)。
QSL借助Antlr(Another Tool for Language Recognition)开源语法分析器来构建书写的范式。Antlr是用Java编写的一种语言识别工具,它用来声明语言的语法,简称为“元语言”。Antlr语法识别一般分为两个阶段: 词法分析阶段和解析阶段。词法分析主要负责将符号分组成符号类。QSL的主要实现是在第二阶段的解析阶段。接下来以一条QSL语句的解析流程为例说明解析部分的实现。
例如:select field1, field2 from es where key = "test" and value = "value" group by key order by datatime desc limit 10。根据编写的QSL语法范式会得到一棵语法树。Antlr本身提供两种方式来遍历语法树,分别是Listener和Visitor。QSL采用Listener(深度优先)方式。Listener方式需要继承父类ParseTreeListener并且覆盖,每次进入和退出规则节点时,触发对应的enterRule/exitRule方法。这里需要重写对应的enterRule/exitRule方法提取特定的属性进行各个模块的封装。
例如,遍历语法树时,select filed语法将会进入qslselect分支,并且在退出(exitColid方法)时可以提取到当前分支的field变量,把它作为属性封装为Property对象。这部分实现的逻辑对应QSL-SELECT对象的提取,SELECT包含多个Property对象。
实现代码如下:
def enterColid(self,ctx);
pass
def exitColid(self,ctx);
obj=Property(ctx.getText(),“var”,None)
ctx.obj=obj
二、别名映射模块。
QSL采用直接对接数据源的方式进行条件下沉操作,根据不同的数据构造对应数据源的原生查询条件。QSL采用别名-数据源映射机制,根据不同别名对应的数据源类型(type)来构建不同的数据源实体对象,将解析得到的执行动作(Action)转化为对应数据源属性。需要注意的是:一个别名唯一对应一个数据源类型,但是一个数据源可以起多个别名。
例如,数据源别名的配置文件如下:
Default:event
Event:
url:127.0.0.1:9200
type:es
authentication:true
username:
password:
default_db:qtevent
wx:
url:127.0.0.1:27017
type:mongo
authentication:true
username:
password:
default_db:wisteria_assets
abbreviate:
host:wx.wisteria_assets.Linux_host
rule:
url:127.0.0.1:3306
type:mysql
authentication:true
username:
password:
……
上述代码中,各个参数解释如表1所示:
字段 解释
default 默认数据源
event、wx、rule 数据源别名
url 数据源对接地址,格式为ip:port
type 数据源类型
authentication 数据源是否需要验证
uername / password authentication为true时填写账号密码
abbreviate 表的别名映射关系
表1
其中,配置文件采用source_alias.databae.table机制。配置文件通过abbreviate项支持简写,比如host:wx.wisteria_assets.linux_host,表示对应mongo(wx别名对应mongo)数据源下wisteria_assets库下的linux_host集合,那么用户每次查询select *from host 就等价于select * from wx.wisteria_assets.linux_host。
通过解析配置文件,即可获取数据源别名与真实数据源的映射关系,进而构建数据源实体对象。如图4所示,通过查询上述配置文件,将名为ws的数据源映射为mongo数据源,进而构建了mongo数据对象。
三、自定义函数模块。
QSL在将数据从原始数据源拉取过来之后,可以对“中间数据”进行各种处理。对数据的处理QSL支持引入用户自定义函数。
用户自定义函数过程示例:
@register
def sha256(context, string):
"""
param: string
|describe: 字符串string的SHA256表示方式
|return
"""
sha_ = hashlib.sha256()
return code(sha_, string)
调用格式示例:select sha256(cmd) from event。
四、数据连续分析模块。
QSL在单条独立检索的查询语句基础上扩展了连续处理数据的管道能力。上游管道处理的数据可以直接传递给下游管道进行再次处理。QSL目前通过“|”和“;”来划分上下游关系。每个管道是一个进程,进程间通过队列作为数据传输的介质,如图5所示。
QSL的系统架构如图6所示,接收到QSL查询语句后,首先进行合法性校验,如果查询语句不符合QSL范式,拒绝查询请求,反之,解析QSL查询语句,提取模块,并构建数据源对象。随后,按照QSL查询语句对应的管道的先后顺序,依次对数据进行处理。例如,在第1个管道,翻译出源数据库的查询语句,并从源数据库提取数据;在第2个管道,对提取的数据作过滤、存储、分组等各种处理。
下面以真实的攻防对抗中QSL能提供的追踪溯查的能力来说明本发明的技术效果:
配置datasource.yml默认数据源为ElasticSearch,查询的数据类型为“进程启动日志”、“系统登录日志”、“网络连接日志”。ElasticSearch的索引格式为qtevent_datatype_YYYY.MM.DD格式,网络连接日志中log_type有两种取值:1(连入)和0(连出)。
1、查询短时间内对大量机器进行网络连接的网络行为。
select src_ip, dst_ip from qtevent_net_connect where log_type = 0 anddatatime > "now-2m" group by src_ip, dst_ip | group by src_ip order by countdesc
其中,src_ip表示源ip地址,dst_ip表示目标ip地址。
2、查询是否有靶机被攻击(在靶机上查看)。
select * from qtevent_net_connect where datatime > "now-2m" andagent_ip in ("10.0.0.1", "10.0.0.2", "10.0.0.3") and log_type = 1
其中,"10.0.0.1", "10.0.0.2", "10.0.0.3"为对应的靶机IP。
3、查询利用已有主机密码,横向碰撞其他主机的网络行为。
select agent_ip,src_ip from qtevent_access_log where datatime > "now-1h" and log_type = 0 group by agent_ip, src_ip | group by src_ip order bycount desc | count > 5
其中,agent_ip表示代理ip地址,src_ip表示源ip地址,默认认为最近一小时(now-1h)登录失败5次为暴力碰撞。
在网络安全领域,通过本发明提供的多源异构数据的查询方法,用户仅需使用一种中间语言QSL,即可快速地对多源异构数据进行连续地处理,符合网络攻防实践需求。
综上所述,本发明提供的技术方案,不仅可以使用一套中间查询语句对接传统关系型数据库(Mysql、Sqlite)和非关系型数据库(Mongo、ElasticSearch),还可以通过管道技术支持数据的连续分析。由于去除了数据采集归一化的步骤,大大提高了数据的使用效率。此外,在数据分析的过程中支持自定义函数,使得分析能力进一步加强。
参见图7,本发明提供了一种基于管道的数据库查询分析装置,包括:
指令接收单元710,用于接收用户的数据库查询分析指令;所述数据库包括多源异构数据库;
指令解析单元720,用于从所述数据库查询分析指令中解析出多个第一指令模块、多个第二指令模块和各个指令模块对应的数据输入输出关系;
进程启动单元730,用于根据所述第一指令模块建立第一管道进程,根据所述第二指令模块建立第二管道进程,以及,根据所述各个指令模块对应的数据输入输出关系,确定所述第一管道进程和所述第二管道进程之间的数据输入输出关系,和不同所述第二管道进程之间的数据输入输出关系;
进程处理单元740,用于通过所述第一管道进程从所述多源异构数据库中查询多源异构数据,以及,通过所述第二管道进程连续地分析所述第一管道进程查询到的多源异构数据;
反馈单元750,用于将最后一个所述第二管道进程分析出的数据反馈给所述用户。
可选地,指令解析单元720具体用于:
根据所述数据库查询分析指令包含的预设标识,将所述数据库查询分析指令分解为多个指令模块;
将仅包括select语句和where语句的指令模块确定为第一指令模块,所述第一指令模块用于指示从所述多源异构数据库中的目标数据源提取目标数据;
将不包括from语句的指令模块确定为第二指令模块,所述第二指令模块用于指示从上一个指令模块中提取数据。
可选地,所述进程处理单元740用于通过所述第一管道进程从所述多源异构数据库中查询多源异构数据时,具体用于:
所述第一管道进程查询预设的数据源别名配置文件,确定与所述目标数据源对应的真实数据源;
所述第一管道进程将所述第一指令模块包含的动作信息转换成所述真实数据源对应的原生语言;
根据所述原生语言从所述真实数据源中获取目标数据。
应当理解,这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被该机器执行时,该机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的该程序代码中的指令,执行本发明的各种方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面发明的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所发明的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中发明的所有特征以及如此发明的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中发明的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的发明是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种基于管道的数据库查询分析方法,其特征在于,包括:
接收用户的数据库查询分析指令;所述数据库包括多源异构数据库;
从所述数据库查询分析指令中解析出多个第一指令模块、多个第二指令模块和各个指令模块对应的数据输入输出关系;
根据所述第一指令模块建立第一管道进程,根据所述第二指令模块建立第二管道进程,以及,根据所述各个指令模块对应的数据输入输出关系,确定所述第一管道进程和所述第二管道进程之间的数据输入输出关系,和不同所述第二管道进程之间的数据输入输出关系;
所述第一管道进程从所述多源异构数据库中查询多源异构数据,以及,所述第二管道进程连续地分析所述第一管道进程查询到的多源异构数据;
将最后一个所述第二管道进程分析出的数据反馈给所述用户。
2.如权利要求1所述的方法,其特征在于,从所述数据库查询分析指令中解析出多个第一指令模块、多个第二指令模块和各个指令模块对应的数据输入输出关系,包括:
根据所述数据库查询分析指令包含的预设标识,将所述数据库查询分析指令分解为多个指令模块;
将仅包括select语句和where语句的指令模块确定为第一指令模块,所述第一指令模块用于指示从所述多源异构数据库中的目标数据源提取目标数据;
将不包括from语句的指令模块确定为第二指令模块,所述第二指令模块用于指示从上一个指令模块中提取数据。
3.如权利要求2所述的方法,其特征在于,所述第一管道进程从所述多源异构数据库中查询多源异构数据,包括:
所述第一管道进程查询预设的数据源别名配置文件,确定与所述目标数据源对应的真实数据源;所述数据源别名配置文件,包括:数据源别名、数据源对接地址、数据源类型、默认数据源、数据源是否需要验证、数据源的验证信息和数据源的表的别名映射关系;
所述第一管道进程将所述第一指令模块包含的动作信息转换成所述真实数据源对应的原生语言;
根据所述原生语言从所述真实数据源中获取目标数据。
4.如权利要求3所述的方法,其特征在于,所述第一管道进程将所述第一指令模块包含的动作信息转换成所述真实数据源对应的原生语言,包括:
所述第一管道进程将所述第一指令模块的符号分组为符号类;
根据分组后的符号类,以及预先配置的语法范式,生成语法树;
遍历语法树,对于每一个遍历到的规则节点,提取目标属性并封装为模块;
按照真实数据源的语法重构各个封装模块,得到所述真实数据源对应的原生语言。
5.如权利要求1所述的方法,其特征在于,各个管道进程之间采用生产——消费模型和跨进程队列机制调度数据。
6.如权利要求1所述的方法,其特征在于,所述第一管道进程包括:es进程对象、mongo进程对象、mysql进程对象;所述第二管道进程包括:filte进程对象、group进程对象、orderby进程对象。
7.如权利要求1所述的方法,其特征在于,所述第二指令模块包括自定义算子,用于对所述多源异构数据进行任意的自定义处理。
8.一种基于管道的数据库查询装置,其特征在于,包括:
指令接收单元,用于接收用户的数据库查询分析指令;所述数据库包括多源异构数据库;
指令解析单元,用于从所述数据库查询分析指令中解析出多个第一指令模块、多个第二指令模块和各个指令模块对应的数据输入输出关系;
进程启动单元,用于根据所述第一指令模块建立第一管道进程,根据所述第二指令模块建立第二管道进程,以及,根据所述各个指令模块对应的数据输入输出关系,确定所述第一管道进程和所述第二管道进程之间的数据输入输出关系,和不同所述第二管道进程之间的数据输入输出关系;
进程处理单元,用于通过所述第一管道进程从所述多源异构数据库中查询多源异构数据,以及,通过所述第二管道进程连续地分析所述第一管道进程查询到的多源异构数据;
反馈单元,用于将最后一个所述第二管道进程分析出的数据反馈给所述用户。
9.一种可读存储介质,其特征在于,其上具有可执行指令,当可执行指令被执行时,使得计算机执行如权利要求1-7中的任一项所述的方法。
10.一种计算设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行如权利要求1-7中的任一项所述的方法。
CN202010828398.3A 2020-08-18 2020-08-18 一种基于管道的数据库查询分析方法、装置及计算设备 Pending CN111737284A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010828398.3A CN111737284A (zh) 2020-08-18 2020-08-18 一种基于管道的数据库查询分析方法、装置及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010828398.3A CN111737284A (zh) 2020-08-18 2020-08-18 一种基于管道的数据库查询分析方法、装置及计算设备

Publications (1)

Publication Number Publication Date
CN111737284A true CN111737284A (zh) 2020-10-02

Family

ID=72658552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010828398.3A Pending CN111737284A (zh) 2020-08-18 2020-08-18 一种基于管道的数据库查询分析方法、装置及计算设备

Country Status (1)

Country Link
CN (1) CN111737284A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446289A (zh) * 2017-09-26 2018-08-24 北京中安智达科技有限公司 一种支持异构数据库的数据检索方法
CN110633292A (zh) * 2019-09-19 2019-12-31 上海依图网络科技有限公司 一种异构数据库的查询方法、装置、介质、设备及系统
CN110659327A (zh) * 2019-08-16 2020-01-07 平安科技(深圳)有限公司 实现异构数据库之间数据交互式查询的方法和相关装置
US20200175016A1 (en) * 2018-11-29 2020-06-04 Teradata Us, Inc. Optimization of database queries with multiple heterogeneous database systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446289A (zh) * 2017-09-26 2018-08-24 北京中安智达科技有限公司 一种支持异构数据库的数据检索方法
US20200175016A1 (en) * 2018-11-29 2020-06-04 Teradata Us, Inc. Optimization of database queries with multiple heterogeneous database systems
CN110659327A (zh) * 2019-08-16 2020-01-07 平安科技(深圳)有限公司 实现异构数据库之间数据交互式查询的方法和相关装置
CN110633292A (zh) * 2019-09-19 2019-12-31 上海依图网络科技有限公司 一种异构数据库的查询方法、装置、介质、设备及系统

Similar Documents

Publication Publication Date Title
US9122540B2 (en) Transformation of computer programs and eliminating errors
CN107688538B (zh) 一种脚本执行方法、装置及计算设备
CN110427188B (zh) 单测断言程序的配置方法、装置、设备及存储介质
US9384236B2 (en) Method and system for operating on database queries
CN105550206B (zh) 结构化查询语句的版本控制方法及装置
CN108694108B (zh) 一种iOS崩溃数据分类与统计的方法和装置
CN111309751A (zh) 大数据处理方法及装置
CN110659287A (zh) 一种表格的字段名处理方法及计算设备
CN111626028A (zh) 基于函数解析的报表生成方法、装置、设备及计算机介质
CN111221852A (zh) 基于大数据的混合查询处理方法及装置
CN111427784B (zh) 一种数据获取方法、装置、设备及存储介质
CN111047434B (zh) 一种操作记录生成方法、装置、计算机设备和存储介质
CN110825745B (zh) 页面的生成方法及装置
CN111221888A (zh) 大数据分析系统及方法
CN111741010B (zh) 一种基于代理的Docker操作请求处理方法、装置及计算设备
CN112732468A (zh) 数据处理方法、数据交互系统及计算设备
CN108173716B (zh) 一种识别网络设备厂商的方法和计算设备
CN111737284A (zh) 一种基于管道的数据库查询分析方法、装置及计算设备
CN111221841A (zh) 基于大数据的实时处理方法及装置
CN114186958A (zh) 将列表数据导出为电子表格的方法、计算设备及存储介质
CN113934430A (zh) 数据检索分析方法、装置、电子设备及存储介质
CN114879978A (zh) 软件包依赖关系的处理方法、计算设备及可读存储介质
CN114358596A (zh) 指标计算方法及装置
CN111159228A (zh) 一种数据查询方法和装置
CN116010438B (zh) 一种数据库操作延迟计算的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201002