CN111914066B

CN111914066B - 多源数据库全局搜索方法及系统

Info

Publication number: CN111914066B
Application number: CN202010826534.5A
Authority: CN
Inventors: 田立娜; 高军; 王可鑫; 段文良
Original assignee: Shandong Heetian Information Technology Co ltd
Current assignee: Shandong Heetian Information Technology Co ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2024-02-02
Anticipated expiration: 2040-08-17
Also published as: CN111914066A

Abstract

本发明属于数据搜索领域，提供了一种多源数据库全局搜索方法及系统。其中，多源数据库全局搜索方法包括将多源数据库中的表字段汇总写入一张数据库字典表进行字段管理；根据自定义全局搜索自动化规则自动化处理多源数据库中的表字段，生成一张全局搜索数据库字典表；将全局搜索数据库字典表中全局搜索字段和全局展示字段取并集，作为基准动态生成全文检索数据存储结构，并以原始库表名为成索引及类型；将全部可进行全局搜索的原始库表数据全部同步到业务数据库内；根据数据库字典表及全文检索数据存储结构对业务数据库进行引擎解析并将解析结果发送至前端页面展示。

Description

多源数据库全局搜索方法及系统

技术领域

本发明属于数据搜索领域，尤其涉及一种多源数据库全局搜索方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着网络和信息技术的迅猛发展促进了社会的透明度，从而各行各业的数据也逐步开放。目前各机构单位及各系统的持续进行建设，沉淀的数据量越来越多，种类也越来越丰富。由于数据种类繁多，若从这些数据进行全局搜索需要耗费大量的人力来了解具体的业务数据，往往某系统建设的前端工程师是不需要关注具体业务，从而导致前端开发工程师与数据分析工程师之间存在紧耦合关系，无法独立的建设各自的功能模块。将前端开发与数据分析进行松耦合，各自之间的工作开发将互不影响成为了必要一种手段。

针对多源数据库进行全局搜索主要存在以下问题：

(1)数据来源途径多样化，无论是从互联网采集还是从其他厂商获取，或个机构单位部门提供内部数据，每种数据源提供可能是几十张或几百张表数据，但它们的数据结构是截然不同的及业务字段含义也是各自为主，针对上百张分类表进行人工比对不仅耗时耗力而且对业务字段的理解也存一定差异。

(2)在多源数据来源的情况下要保证原始数据结构及数据不被破坏，进一步对全局搜索字段进行规范标准化，使用传统的方式需要人工对每一张表中的字段进行规范化，并将规范化的字段输入到指定位置的字典配置表，人工录入过程中容易出现手误、错表配置等问题。

(3)多源数据的格式错乱复杂、形式不统一及各类数据总量大的情况下，在处理数据同步时候会出现各种各样的问题，导致全局搜索更加困难。

发明内容

为了解决上述问题，本发明提供一种多源数据库全局搜索方法及系统，其通过对多源数据库原始库表结构的分离及对分离后的数据字段进行规则处理，即保障了原始库原始结构的完整性与分离后的数据字段的一致性，又实现了对全局搜索字典表的自动化配置。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种多源数据库全局搜索方法。

在一个或多个实施例中，一种多源数据库全局搜索方法，包括：

将多源数据库中的表字段汇总写入一张数据库字典表进行字段管理；

根据自定义全局搜索自动化规则自动化处理多源数据库中的表字段，生成一张全局搜索数据库字典表；

将全局搜索数据库字典表中全局搜索字段和全局展示字段取并集，作为基准动态生成全文检索数据存储结构，并以原始库表名为成索引及类型；

将全部可进行全局搜索的原始库表数据全部同步到业务数据库内；

根据数据库字典表及全文检索数据存储结构对业务数据库进行引擎解析并将解析结果发送至前端页面展示。

本发明的第二个方面提供一种多源数据库全局搜索系统。

在一个或多个实施例中，一种多源数据库全局搜索系统，包括：

表结构汇总模块，其用于将多源数据库中的表字段汇总写入一张数据库字典表进行字段管理；

字典表生成模块，其用于根据自定义全局搜索自动化规则自动化处理多源数据库中的表字段，生成一张全局搜索数据库字典表；

存储结构生成模块，其用于将全局搜索数据库字典表中全局搜索字段和全局展示字段取并集，作为基准动态生成全文检索数据存储结构，并以原始库表名为成索引及类型；

数据同步模块，其用于将全部可进行全局搜索的原始库表数据全部同步到业务数据库内；

数据解析模块，其用于根据数据库字典表及全文检索数据存储结构对业务数据库进行引擎解析并将解析结果发送至前端页面展示。

本发明的第三个方面提供一种计算机可读存储介质。

在一个或多个实施例中，一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的多源数据库全局搜索方法中的步骤。

本发明的第四个方面提供一种计算机设备。

在一个或多个实施例中，一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的多源数据库全局搜索方法中的步骤。

与现有技术相比，本发明的有益效果是：

通过多源数据库全局搜索自动化配置及解析引擎的方法达到了全局检索需要查询的字段与原始库字段配置过程为自动化配置，尽可能的减少人工配置，从而提高工作效率及准确度。

通过对多源数据库原始库表结构的分离及对分离后的数据字段进行规则处理，即保障了原始库原始结构的完整性与分离后的数据字段的一致性，又实现了对全局搜索字典表的自动化配置，根据上述规则可以更加快捷对原始库数据结构进行梳理。前端开发工程根据规范后的全局搜索字典配置表(queryall_dic)进行规则解析，并根据此规则实现具体的全局搜索的业务逻辑，从而达到前端开发者与原始数据业务进行分离，与数据分析工程师的松耦合。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的一种多源数据库全局搜索方法流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

术语解释：

easticsearch：是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。easticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。easticsearch用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。官方客户端在Java、.NET(C#)、PHP、Python、Apache Groovy、Ruby和许多其他语言中都是可用的。根据DB-Engines的排名显示，easticsearch是最受欢迎的企业搜索引擎，其次是Apache Solr，也是基于Lucene。

实施例一

参照图1，本实施例的一种多源数据库全局搜索方法，其包括：

S101：将多源数据库中的表字段汇总写入一张数据库字典表进行字段管理。

具体地，为了保证原始库中的原始表结构不会受破坏，将多源数据库中的表字段写入到一张数据库字典表field_dic进行字段管理；此表涵盖了所涉及到所有表的结构及非结构化数据存储结构，字典表(field_dic)包含原始库表名、字段名称、字段含义、字段类型、字段标识(是否为主键)、数据表来源等主要关键业务字段。

在具体实施中，将多源数据库中的表字段写入到一张数据库字典表field_dic的方式为：通过对文本语言的解析及语义识别，主要通过人工智能样本数据的培训进行模型算法处理。例如，将“身份证号”，“证件号码”，“公民身份证号”等同义词识别为同一含义进行处理。

S102：根据自定义全局搜索自动化规则自动化处理多源数据库中的表字段，生成一张全局搜索数据库字典表。

在具体实施中，将数据库字典表field_dic中的字段含义进行去重并分组，找到相同字段含义在不同表中的字段名称集合(sameContent_fieldList)；例如在A表中字段含义为“姓名”，字段名称为“xm”，在B表中字段含义为“姓名”，字段名称为“旅客姓名”。并将此方式定义为全局搜索自动化规则R1。

将数据库字典表field_dic中的字段名称进行去重并分组，找到相同的字段在不同表中的字段含义集合(sameFeildList)；例如，在A表中字段名称为“xm”，字段含义为”姓名”，在B表中字段名称为“xm”，字段含义为“公民姓名”。并将此方式定义为全局搜索自动化规则R2。

将数据库字典表field_dic中字段含义进行同义词分析，将同含义的词进行分组，并找出通含义词分别对应的字段名称；例如在A表中字段名称为zjhm，字段含义为证件号码，在B表中字段名称lkzjhm，字段含义为旅客证件号码，将此类字段进行分组定义为全局搜索自动化规则R3。

将会根据以上规则R1、R2、R3对多源数据库的字段进行自动化处理，根据此结果将所有字段名称在每个表中出现的次数进行分组统计，取排名靠前T组数据(T>0)作为全局搜索中搜索字段进行字典库配置；将每个表中的全部字段Q(Q>0)作为全局搜索展示字段进行字典库配置。

直到全部数据源数据库中表字段处理完毕，最终自动化生成一张全局搜索字典配置表(queryall_dic)。

本实施例通过对原始库中表中字段进行规则设置，规则定义出了通过哪些字段是支持全局搜索，哪些字段是支持搜索结果进行解析页面展示，同时支持字段自定义排序功能，从而通过此规则使多种数据表自动化进行字典配置，这样可以更加快捷对原始库数据结构进行梳理，尽可能的减少人工配置，从而提高工作效率及准确度。

S103：将全局搜索数据库字典表中全局搜索字段和全局展示字段取并集，作为基准动态生成全文检索数据存储结构，并以原始库表名为成索引及类型。

在具体实施中，根据全局搜索字典配置表(queryall_dic)中可进行全局搜索字段及展示字段取并集得到一个全新的字段集合(searchList),依此集合为基准动态生成elasticsearch全文检索数据存储结构，并以原始表名作为easticsearch的索引及类型。以此规则逐行进行数据处理，直到全部可进行全局搜索的数据表在elasticsearch创建一一对应的数据结构处理完毕。

S104：将全部可进行全局搜索的原始库表数据全部同步到业务数据库内。

具体地，数据同步ETL工具使用kettle，编写kettle算子将多方原始库作为数据源，elasticsearch作为数据全局搜索的目的存储仓库；在此过程中将原始库字段与elasticsearch仓库字段进行匹配设置。对此步骤进行测试无误后，开启自动同步服务。直到全部可进行全局搜索的数据表数据全部同步到elasticsearch仓库。

本实施例的数据同步是指将多源数据中的数据同步到需要建设的系统平台中，这样做的好处是：保障原始库中的原始数据的完整性及不受破坏；同步数据将建设系统实际相关的业务数据进行同步，而非全部数据进行同步，以便于发挥数据的更真实重要的意义。

S105：根据数据库字典表及全文检索数据存储结构对业务数据库进行引擎解析并将解析结果发送至前端页面展示。

建设此系统的前端开发者，只需要关心上述步骤中产生的全局搜索字典配置表(queryall_dic)，根据字典配置表中配置进行规则解析。主要解析字典表中定义了哪些字段是可以进行全局搜索的字段，以此为全文搜索字段进行组装elasticsearch的查询脚本；再次解析定义的全局搜索列表展示字段组装接口返回数据进行前端页面展示。以此方式减少了前端开发者对原始库原始结构的依赖。

实施例二

本实施例提供了一种多源数据库全局搜索系统，其包括：

(1)表结构汇总模块，其用于将多源数据库中的表字段汇总写入一张数据库字典表进行字段管理。

在具体实施中，将多源数据库中的表字段写入到一张数据库字典表field_dic的方式为：通过对文本语言的解析及语义识别，主要通过人工智能样本数据的培训进行模型算法处理。例如，将”身份证号”，“证件号码”，“公民身份证号”等同义词识别为同一含义进行处理。

(2)字典表生成模块，其用于根据自定义全局搜索自动化规则自动化处理多源数据库中的表字段，生成一张全局搜索数据库字典表。

(3)存储结构生成模块，其用于将全局搜索数据库字典表中全局搜索字段和全局展示字段取并集，作为基准动态生成全文检索数据存储结构，并以原始库表名为成索引及类型。

(4)数据同步模块，其用于将全部可进行全局搜索的原始库表数据全部同步到业务数据库内。

(5)数据解析模块，其用于根据数据库字典表及全文检索数据存储结构对业务数据库进行引擎解析并将解析结果发送至前端页面展示。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如实施例一所述的多源数据库全局搜索方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其所述处理器执行所述程序时实现如实施例一所述的多源数据库全局搜索方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多源数据库全局搜索方法，其特征在于，包括：

根据数据库字典表及全文检索数据存储结构对业务数据库进行引擎解析并将解析结果发送至前端页面展示；

所述根据自定义全局搜索自动化规则自动化处理多源数据库中的表字段的过程为：

将数据库字典表中的字段含义进行去重并分组，找到相同字段含义在不同原始库表中的字段名称集合；

将数据库字典表中的字段名称进行去重并分组，找到相同的字段在不同原始库表中的字段含义集合；

将数据库字典表中的字段含义进行同义词分析，将同含义的词进行分组，并找出通含义词分别对应的字段名称；

所述全局搜索字段为所有字段名称在每个原始库表中出现的次数靠前预设组的数据；所述全局展示字段为所有原始库表中的全部字段。

2.如权利要求1所述的多源数据库全局搜索方法，其特征在于，全文检索数据存储结构为elasticsearch全文检索数据存储结构；以原始库表名作为easticsearch的索引及类型，以此规则逐行进行数据处理，直到全部可进行全局搜索的原始库表在elasticsearch创建一一对应的数据结构处理完毕。

3.如权利要求1所述的多源数据库全局搜索方法，其特征在于，将全部可进行全局搜索的原始库表数据全部同步到业务数据库内的过程为：

编写kettle算子将多方原始库作为数据源，elasticsearch作为数据全局搜索的目的存储仓库，在此过程中将原始库字段与elasticsearch仓库字段进行匹配设置，测试无误后，开启自动同步服务，直到全部可进行全局搜索的原始库表数据全部同步到elasticsearch仓库。

4.一种多源数据库全局搜索系统，其特征在于，包括：

字典表生成模块，其用于根据自定义全局搜索自动化规则自动化处理多源数据库中的表字段，生成一张全局搜索数据库字典表；所述根据自定义全局搜索自动化规则自动化处理多源数据库中的表字段的过程为：将数据库字典表中的字段含义进行去重并分组，找到相同字段含义在不同原始库表中的字段名称集合；将数据库字典表中的字段名称进行去重并分组，找到相同的字段在不同原始库表中的字段含义集合；将数据库字典表中的字段含义进行同义词分析，将同含义的词进行分组，并找出通含义词分别对应的字段名称；

存储结构生成模块，其用于将全局搜索数据库字典表中全局搜索字段和全局展示字段取并集，作为基准动态生成全文检索数据存储结构，并以原始库表名为成索引及类型；所述全局搜索字段为所有字段名称在每个原始库表中出现的次数靠前预设组的数据；所述全局展示字段为所有原始库表中的全部字段；

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-3中任一项所述的多源数据库全局搜索方法中的步骤。

6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-3中任一项所述的多源数据库全局搜索方法中的步骤。