CN110489445B

CN110489445B - 一种基于多形态复合的海量数据快速查询方法

Info

Publication number: CN110489445B
Application number: CN201910710467.8A
Authority: CN
Inventors: 宋亚峰; 盛文; 施甘图
Original assignee: Hongtu Intelligent Logistics Co ltd; Sichuan Hongli Information Technology Co ltd
Current assignee: Hongtu Intelligent Logistics Co ltd; Sichuan Hongli Information Technology Co ltd
Priority date: 2019-08-02
Filing date: 2019-08-02
Publication date: 2023-03-21
Anticipated expiration: 2039-08-02
Also published as: CN110489445A

Abstract

本发明公开了一种基于多形态复合的海量数据快速查询方法，包括如下步骤：首先，对需要处理的数据进行识别，判断数据的类型，对数据进行相应处理后存储于MYSQL数据库并同步至Elastic search搜索引擎，重写拦截器并设置查询拦截规则，设计一个查询中间件并对查询中间件进行配置；其次，采用拦截器对查询语句进行拦截并封装，查询中间件解析查询语句和参数，根据查询特征的不同，分别向MYSQL数据库或Elastic search搜索引擎发起请求，进行数据查询；最后，利用查询中间件对查询结果进行格式化和数据集封装，进一步解析查询结果，将最终结果返回呈现给用户前端。这样的设计，提高了数据查询的效率和准确性，减少了数据查询的系统开销，增强了系统查询的综合性能。

Description

一种基于多形态复合的海量数据快速查询方法

技术领域

本发明属于大数据处理领域，特别是涉及一种基于多形态复合的海量数据快速查询方法。

背景技术

随着大数据时代的到来，互联网数据呈现爆发式增长。即使是对于传统的企业级应用来说其产生的数据量也在迅猛增长，单张表的数据量达到千万级、后台系统日志达到亿级是非常常见的事情。通常企业对于这些数据有着强烈的查询分析需求，因为海量数据的“知识”存储量是非常大的，若能在这些查询出来的数据上进行数据挖掘分析出其蕴含的“知识”特征，这对于企业的战略、战术是非常有帮助的。所以如何在数据特征复杂、查询条件繁多的情况下对海量数据进行高效的查询是一个值得探讨的话题。

在数据查询处理中，通常使用MySQL、ORACLE、DBASE等结构化数据库，对于简单数据及数据量不大的数据库进行查询时，查询速度快、准确性高，但是在大数据量或数据结构复杂的情况下进行查询，查询性能会变得较差。目前，很多系统采用Elastic Search分布式搜索引擎的方式，对于大数据量及数据结构复杂的数据进行查询时速度非常快。但是，如果对简单线性数据的查询也采用Elastic Search搜索引擎方式，则系统开销巨大，存在浪费Elastic Search搜索引擎性能的问题。为进一步提高大数据搜索的综合性能，有的系统将结构化数据库与Elastic Search搜索引擎的非结构化数据存储的各自优势结合起来进行查询，但是也存在这样的问题：如何根据Elastic Search搜索引擎特点将结构化数据库的数据同步至Elastic Search搜索引擎，如何对用户前端的查询请求进行解析，为其选择最优的查询方式。

发明内容

本发明的目的在于；针对现有技术的缺点和不足，提出一种基于多形态复合的海量数据快速查询方法，通过设置查询中间件、拦截器及索引表等，解决了结构化与非结构化数据存储的同步以及优化选择查询方式的问题，提高了大数据量和结构复杂数据的查询效率和准确性，增强了系统数据查询的综合性能。

为实现上述目的，本发明采用的技术方案为：

一种基于多形态复合的海量数据快速查询方法，包括如下步骤：

S1：数据特性识别与预处理，即后台程序对需要处理的数据进行识别，判断数据的类型，对数据进行相应处理后存储于MYSQL数据库并同步至Elastic search搜索引擎；在后台程序的数据持久化存储层重写拦截器并设置查询拦截规则，在后台程序与MYSQL数据库、Elastic search搜索引擎之间设计一个查询中间件并对查询中间件进行配置；

S2：数据查询处理，即拦截器对查询语句进行拦截并封装，查询中间件解析查询语句和参数，根据查询特征的不同，分别向MYSQL数据库或Elastic search搜索引擎发起请求，进行数据查询；

S3：查询数据后处理，即查询中间件对查询结果进行格式化和数据集封装，进一步解析查询结果，将最终结果返回呈现给用户前端。

进一步地，步骤S1中所述数据特性识别与预处理的实施流程如下：

S1.1：通过自动EXCEL解析、数据源导入或/和系统业务自动产生的方式获得需要处理的数据；

S1.2：对待处理的数据进行整体及抽样扫描，根据数据总量和字段的复杂度判断数据的类型；

S1.3：如果数据类型为普通数据，则直接将普通数据存储于MYSQL数据库并同步至Elastic search搜索引擎；如果数据类型为复合数据，则将复合数据存储于MYSQL数据库并同步至Elastic search搜索引擎，同时在Elastic search搜索引擎中对复合数据进行预处理；

S1.4：对数据进行更新或删除操作时，后台程序的事务控制层判断数据在MYSQL数据库和Elastic search搜索引擎中同时更新或删除成功，才能提交本次数据更新或删除操作，否则进行回滚；

S1.5：根据数据及查询的复杂度，重写拦截器，设置查询拦截规则；

S1.6：在初始化后台程序时，对查询中间件进行整合配置，将查询中间件的服务器地址、端口及其它相关配置信息写入查询中间件配置文件中，同时，在查询中间件配置文件中也写入MYSQL数据库和Elastic Search搜索引擎的服务器地址、用户名、密码及其它相关配置信息，使得查询中间件可以访问到MYSQL数据库和Elastic Search搜索引擎。

进一步地，步骤S1.3中所述对复合数据进行预处理的实施流程如下：

S1.3.1：创建复合数据对象的索引表，在索引表所有字段末尾增加一个名称为es_index的字段，用于存储一条记录复合数据预处理后的数据；

S1.3.2：将es_index前所有字段的字段名和字段值进行逐一拼接起来，生成一条包含所述复合数据全部记录信息的文本，再将所述文本存储在es_index字段中；

S1.3.3：对索引表中可以模糊查询的特殊字段，对其字段值添加一些模糊查询不同形式的字段分词。

进一步地，步骤S2中所述数据查询处理的实施流程如下：

S2.1：后台程序接收到用户前端查询请求后，在数据持久化存储层构建SQL查询语句；

S2.2：拦截器对数据更新或删除的SQL语句不予拦截，直接放行进行相应的操作；拦截器按照拦截规则对SQL查询语句进行拦截，并以查询中间件所能接受的参数格式对拦截到的SQL查询语句和参数进行格式化封装，将封装好的查询请求发送给查询中间件；

S2.3：采用编译技术构造一张关键词表，将具有深度分页、模糊查询的关键字添加到所述关键词表中；

S2.4：查询中间件获取SQL查询语句和参数后，首先对SQL查询语句进行扫描解析，在关键词表查找是否包含关键词，然后对SQL查询参数进行扫描解析，判断该SQL查询的特征，最后根据扫描解析的结果和数据及查询的复杂度，构建一个SQL查询请求或ES查询请求；

S2.5：如果无法判断数据及查询的复杂度，则对MYSQL数据库或Elastic Search搜索引擎都发起查询请求，并记录两者的查询时间；如果两者的查询时间差异较大，只需记录一次查询时间并将查询时间最短的查询请求构建成相应的SQL查询请求或ES查询请求，否则需要记录若干次两者的查询时间，取若干次查询时间的平均值，将平均查询时间最短的查询请求构建成相应的SQL查询请求或ES查询请求；

S2.6：查询中间件根据构建好的SQL查询请求或ES查询请求，分别向MYSQL数据库或Elastic Search搜索引擎发起查询。

进一步地，步骤S3中所述查询数据后处理的实施流程如下：

S3.1：查询中间件从MYSQL数据库或Elastic Search搜索引擎获得查询数据；

S3.2：查询中间件采用JSON格式对查询数据进行格式化打包，将打包后的查询数据集封装成网络请求，返回给发出查询请求的后台程序；

S3.3：等待查询结果的拦截器获得查询数据集，取出查询数据并进行解析，转化成业务实体类型数据，返回给业务逻辑控制层；

S3.4：业务逻辑控制层进一步解析业务实体类型的查询数据，将最终查询结果数据返回给用户前端。

进一步地，所述后台程序包括业务逻辑控制层、数据持久化存储层、事务控制层，其中：所述业务逻辑控制层位于用户前端与数据持久化存储层之间，用于对用户具体的操作进行业务逻辑处理，将原始数据抽象出逻辑数据，形成一种业务规则；所述数据持久化存储层，用于将后台程序产生的数据及数据库相关的各种操作数据适时进行持久存储；事务控制层位于数据持久化存储层与MYSQL数据库或Elastic Search搜索引擎之间，用于对MYSQL数据库或Elastic Search搜索引擎的操作事务进行控制。

进一步地，所述查询中间件用于对用户前端的查询请求进行分析处理，为其选择最优的查询方式，再对查询结果数据进行解析，向用户前端返回最终的查询结果。

进一步地，所述MYSQL数据库与Elastic search搜索引擎进行数据同步的方式为采用Logstash同步工具实现结构化和非结构化数据存储的同步。

本发明与现有技术相比，具有如下优点与有益效果：

1.在后台程序与MYSQL数据库、Elastic search搜索引擎之间设计一个查询中间件，对SQL查询语句进行扫描解析，根据数据及查询的复杂度不同分别生成SQL查询请求或ES查询请求，为每一次查询请求选择最优的查询方式，大大提高了查询效率，减少了数据查询的系统开销，增强了系统查询的综合性能；

2.通过构建复合数据的索引表及关键词表，进一步标引全文数据文本以及能产生深度分页、模糊查询的关键字，同时设置拦截器，配置拦截规则，对用户前端的查询请求进行分类处理、精确拦截，进一步提高了数据查询的速度和准确性；

3.采用Logstash同步工具，结合复合数据索引表的构建，有效实现了结构化数据到非结构化数据的同步存储。

附图说明

图1为一种基于多形态复合的海量数据快速查询方法流程图；

图2为本发明中复合数据查询处理方案的整体架构示意图；

图3为本发明中数据同步架构的示意图；

图4为本发明在数据对象中增加字段的示意图；

图5为本发明对数据对象进行预处理的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

如图1至5所示，一种基于多形态复合的海量数据快速查询方法，包括如下步骤：

上述实现中，数据查询主要是考虑数据量和结构差异。对不同的数据结构进行特性识别，采用最高效率的算法设计，对于简单线性的数据通常采用最基本的SQL+普通索引查询，而对复合数据受到其自身设计的限制，结构化数据库在千万级数据上进行查询时可能会存在性能问题，因此引入Elastic Search(简写为ES)搜索引擎来弥补在某些查询条件下结构化数据库的性能缺陷，并且设计一个查询中间件来分析和转发SQL语句的查询。

将MySQL中存储的数据完全同步到Elastic Search中，当用户前端有查询请求到达时，后台程序通过数据持久化存储框架构建SQL查询。当SQL查询构建好后，不直接向数据库发起查询，而是将查询发送到查询中间件，由中间件对查询进行分析。对于简单的查询则直接向MySQL数据库发起查询，对于较为复杂的查询(如同时包含左右模糊的查询)则向Elastic Search发起查询请求，最后将得到的查询结果格式化处理后返回给后台程序。

由于Elastic Search采取的非结构化的数据存储，所以针对结构化MySQL数据库的数据同步要根据Elastic Search引擎的特点进行设计，以便能更好的发挥其快速搜索的优势。其次，整个方案另一个核心步骤在于如何对前端的查询请求进行分析，为其选择最优的查询方式。虽然Elastic Search搜索引擎查询速度相当迅速，但其开销巨大，对于查询结果只有1、2条的简单查询请求来说使用Elastic Search存在资源的浪费。所以不能单纯地将所有查询请求都发给Elastic Search来查询。

上述步骤中，对待处理的数据进行整体及抽样扫描后输出到STREAM管道流中，将普通数据同步至Elastic search搜索引擎时，无需为其在Elastic search搜索引擎建立索引表。

由于Logstash数据同步工具只能进行全量同步和增量同步操作，无法进行更新和删除的同步，因此，采用步骤S1.4的方法实现数据的更新和删除。

上述步骤中，当es_index字段存储了复合数据全部记录信息的文本后，当对复合数据进行简单的查询时，就可以在这个新的字段内进行。对字段进行拼接的具体方式如表1所示。

表1对字段进行拼接的示例表

上述步骤S1.3.3中对特殊字段，如手机号、银行卡号、邮箱等类型可以标识用户信息的字段，由于可以在上面做模糊查询，所以还要对这些字段做进一步的分词处理。如手机号码可以分出前三位、尾号等。经过处理后的最终数据格式如表2所示。

表2模糊查询字段进行分词处理的示例表

进一步地，步骤S2中所述数据查询处理的实施流程如下：

上述步骤中，常用的数据持久化存储层框架，如hibernate、Mybatis都提供了拦截器接口，可以在这些拦截方法中得到生成的SQL语句、对SQL语句进行修改。因此，考虑在持久化存储层重写生成拦截器，拦截下SQL查询语句，将其发送到查询中间件。

查询中间件对传来的SQL查询语句进行分析，判断语句的复杂程度，对于简单的、少量数据的查询直接对数据库发起查询请求，对于复杂的、大量数据的查询则向ES发起查询请求。对于一些无法判断复杂度和速度的查询，则向数据库和ES都发起查询。如果两者查询时间差距较大则下次查询时就直接调用查询时间最短的方法；若两者查询时间差距并不大，应该将两者多次(如20次，排除偶然因素的影响)调用的平均时间记录下来(如表3所示)，之后调用平均查询时间最短的方法进行查询。

表3查询时间表

上述步骤S2.2中，对SQL查询语句和参数进行格式化封装可以选择构建成RESTful风格的请求。

上述步骤S2.3中，可根据编译技术的相关知识，构造出一张关键词表将“LIMIT”、“LIKE”、“MATCH”等这些可能产生深度分页、模糊查询的关键字加入进去。

查询中间件获取到SQL查询语句和参数后，对SQL语句进行扫描，查找其中是否包含关键词表中包含的关键词。之后再对SQL参数进行扫描，进一步判断该查询的特征，以应用的分页来说，当分页深度过深时，SQL查询可能会存在性能问题。如在MYSQL的查询中加上“LIMIT 200000,20”表示取查询结果从第20万条开始的20条记录，对于这种程度的分页就可能存在性能问题(延迟可能在秒级)。当在扫描SQL语句时扫描到“LIMIT”关键词后，又在查询参数中扫描到分页深度为200000，那么就考虑构建一个ES查询请求。

进一步地，步骤S3中所述查询数据后处理的实施流程如下：

以上所述仅为本发明的较佳实施例而已，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，皆应属于本发明的保护范围。

Claims

1.一种基于多形态复合的海量数据快速查询方法，其特征在于，包括如下步骤：

步骤S2中所述数据查询处理的实施流程如下：

S2.3：构造一张关键词表，将具有深度分页、模糊查询的关键字添加到所述关键词表中；

S2.5：如果无法判断数据及查询的复杂度，则对MYSQL数据库或Elastic Search搜索引擎都发起查询请求，并记录两者的查询时间；如果两者的查询时间差异大，只需记录一次查询时间并将查询时间最短的查询请求构建成相应的SQL查询请求或ES查询请求，否则需要记录若干次两者的查询时间，取若干次查询时间的平均值，将平均查询时间最短的查询请求构建成相应的SQL查询请求或ES查询请求；

S2.6：查询中间件根据构建好的SQL查询请求或ES查询请求，分别向MYSQL数据库或Elastic Search搜索引擎发起查询；

2.如权利要求1所述的一种基于多形态复合的海量数据快速查询方法，其特征在于，步骤S1中所述数据特性识别与预处理的实施流程如下：

3.如权利要求2所述的一种基于多形态复合的海量数据快速查询方法，其特征在于，步骤S1.3中所述对复合数据进行预处理的实施流程如下：

S1.3.1：在搜索引擎中创建复合数据对象的索引表，在索引表所有字段末尾增加一个名称为es_index的字段，用于存储一条记录复合数据预处理后的数据；

S1.3.3：对索引表中可以模糊查询的字段，对其字段值添加一些模糊查询不同形式的字段分词。

4.如权利要求1所述的一种基于多形态复合的海量数据快速查询方法，其特征在于，步骤S3中所述查询数据后处理的实施流程如下：

5.如权利要求1至4中任一项所述的一种基于多形态复合的海量数据快速查询方法，其特征在于，所述后台程序包括业务逻辑控制层、数据持久化存储层、事务控制层，其中：所述业务逻辑控制层位于用户前端与数据持久化存储层之间，用于对用户具体的操作进行业务逻辑处理，将原始数据抽象出逻辑数据，形成一种业务规则；所述数据持久化存储层，用于将后台程序产生的数据及数据库相关的各种操作数据适时进行持久存储；事务控制层位于数据持久化存储层与MYSQL数据库或Elastic Search搜索引擎之间，用于对MYSQL数据库或Elastic Search搜索引擎的操作事务进行控制。

6.如权利要求1至4中任一项所述的一种基于多形态复合的海量数据快速查询方法，其特征在于，所述查询中间件用于对用户前端的查询请求进行分析处理，为其选择最优的查询方式，再对查询结果数据进行解析，向用户前端返回最终的查询结果。

7.如权利要求1或2所述的一种基于多形态复合的海量数据快速查询方法，其特征在于，所述MYSQL数据库与Elastic search搜索引擎进行数据同步的方式为采用Logstash同步工具实现结构化和非结构化数据存储的同步。