CN116881391A

CN116881391A - 一种全文检索方法及系统

Info

Publication number: CN116881391A
Application number: CN202311139398.2A
Authority: CN
Inventors: 许建兵; 费维进; 瞿平飞; 袁千伍; 邵江风
Original assignee: Anhui Suncn Pap Information Technology Co ltd
Current assignee: Anhui Suncn Pap Information Technology Co ltd
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2023-10-13
Anticipated expiration: 2043-09-06
Also published as: CN116881391B

Abstract

本发明涉及数据查询技术领域，特别涉及一种全文检索方法及系统。针对全文检索的定位，采用依据数据内容，制定权限规则，而后给用户添加规则限制，实现权限配置。本发明通过规则模板快速生成索引对应的数据规则；利用NLP技术对于字段属性进行分析，再去匹配对应模板；利用数据规则挂载在查询语句中实现全文检索的数据权限限制。

Description

一种全文检索方法及系统

技术领域

本发明涉及数据查询技术领域，特别涉及一种全文检索方法及系统。

背景技术

全文检索的授权方案，一直少有项目关注于这块。因为全文检索，相当于一个大的知识库，虽然全文检索也可以更新、删除数据，但是其主要应用还是检索层面，而检索的安全性远高于更新，数据也更偏向于公开。但是，随着全文检索应用的进一步发展，全文检索开始融入业务之中，而业务数据往往对权限的敏感度还是很高的，因此迫切需要一个简便易用的授权方案。

当前市面上的授权方案往往都比较复杂，最关键的是授权方向与实际应用逆向冲突。

现有技术中，业务数据，由实际业务用户通过页面表单创建数据，数据的字段和内容都是可控的，因此他的授权方案往往是数据还不存在的时候就可以开始进行授权。

Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。Elasticsearch（简称ES）的数据，往往是通过各种采集方案，从各类渠道汇聚而来的，因此往往是先有数据，而后应用，根据应用的实际业务场景去制定权限。

如果我们还是用业务数据那一套去做全文检索数据库的数据级授权，是不符合实际逻辑的，是片面的，生硬的。

综上所述，现有技术中用业务数据做全文检索数据库的数据级授权，不满足实际应用的需求，不符合实际逻辑的，难以让使用人员熟练使用，不利于推广应用。

发明内容

针对上述问题，本发明提供一种全文检索方法及系统，用于解决现有技术中用业务数据做全文检索数据库的数据级授权，不满足实际应用的需求，不符合实际逻辑的，难以让使用人员熟练使用的问题。

第一方面，本发明提供了一种全文检索方法，所述方法包括：

采集数据得到索引字段；

对索引字段进行分析，将索引字段归结于统一模板中的一项；

根据统一模板生成索引字段的查询规则；

根据用户信息和索引字段的查询规则，创建最终查询规则；

依据最终查询规则进行全文检索。

进一步的，采集数据，包括：

日志采集，用户网站埋点信息抓取，以及业务数据的同步。

进一步的，采集数据得到索引字段，包括：

采集到的数据格式化后的数据进行索引，得到索引字段，并将索引字段进行存储。

进一步的，统一模板，包括：

基于用户的模板、基于用户角色的模板和基于用户部门的模板。

进一步的，对索引字段进行分析，将索引字段归结于统一模板中的一项，包括：

通过NLP技术对索引字段进行分析，将索引字段归结于统一模板中的一项。

进一步的，通过NLP技术对索引字段进行分析，将索引字段归结于统一模板中的一项，包括：

计算索引字段与统一模板的关键字的词语相似度，选择与索引字段词语相似度最小的统一模板作为对应的统一模板。

进一步的，计算索引字段与统一模板的关键字的词语相似度，包括：

式中，sim(w1,w2)表示词语相似度，dis(w1,w2)表示词语距离，α为可调节的参数，表示相似度为0.5时的词语距离值；

w1,w2表示词向量，词向量基于深度学习word2vec获取;

dis表示两个向量的余弦距离，具体计算如下：

。

进一步的，根据统一模板生成索引字段的查询规则，包括：

根据索引字段对应的统一模板，生成下列查询规则中的一种或多种：

基于用户的查询规则、基于用户角色的查询规则或基于用户部门的查询规则。

进一步的，根据用户信息和索引字段的查询规则，创建最终查询规则，包括：

根据用户信息和索引字段的查询规则，将基于用户的查询规则、基于用户角色的查询规则和基于用户部门的查询规则融合，并去除重复的规则，得到最终查询规则。

第二方面，本发明提供了一种全文检索系统，包括：采集单元、归类单元、查询规则单元和查询单元，

采集单元，用于采集数据得到索引字段；

归类单元，用于对索引字段进行分析，将索引字段归结于统一模板中的一项；

查询规则单元，用于根据统一模板生成索引字段的查询规则；

查询规则单元，还用于根据用户信息和索引字段的查询规则，创建最终查询规则；

查询单元，用于依据最终查询规则进行全文检索。

第三方面，本发明提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，存储有计算机程序；

处理器，用于执行存储器上所存储的计算机程序时，实现上述的全文检索方法。

第四方面，本发明提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的全文检索方法。

本发明至少具备以下有益效果：

针对全文检索的定位，采用依据数据内容，制定权限规则，而后给用户添加规则限制，实现权限配置。

本发明通过规则模板快速生成索引对应的数据规则；利用NLP技术对于字段属性进行分析,再去匹配对应模板；利用数据规则挂载在查询语句中实现全文检索的数据权限限制。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例检索方法流程图；

图2为本发明实施例检索系统结构示意图；

图3为电子设备结构示意图；

图4为本发明实施例结构组成及每部分的功能和连接关系示意图；

图5为实施例日志采集ELK的流程示意图；

图6为数据规则的生成策略流程示意图；

图7为实施例授权规则示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

全文检索领域中，Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTfulweb接口。Lucene是最早成功的一款开源搜索引擎，后续推出的solr和Elasticsearch都是基于Lucene开发的。其中Elasticsearch在当前所有全文检索引擎中最为流行。

ELK为ES+logstash+kibana的缩写，主要用于用户各个系统业务日志的收集。

Kafka为消息中心用于数据的传递。

自然语言处理技术（简称NLP）为神经语言程序学；通过对自然语言的分析，解析字段内容数据，匹配预定的模板。生成一系列规则。

现有技术中，创建角色-->角色赋权-->指定用户角色--->创建数据表-->业务数据积累->根据用户角色所有权限拼装查询条件->获取数据。整套流程基于角色进行分组，写好固定的条件字段，来控制整体的权限。用业务数据做全文检索数据库的数据级授权，不满足实际应用的需求，不符合实际逻辑的，难以让使用人员熟练使用，不利于推广应用。

为此，本发明提出了一种全文检索数据级授权方法和系统，包括一种一种全文检索数据级授权方法和一种全文检索数据级授权系统。

S101，采集数据得到索引字段；

S102，对索引字段进行分析，将索引字段归结于统一模板中的一项；

S103，根据统一模板生成索引字段的查询规则；

S104，根据用户信息和索引字段的查询规则，创建最终查询规则；

S105，依据最终查询规则进行全文检索。

具体实施例中，在拥有一个庞大的全文检索库的时候，由于数据内容及其的丰富，当有一个系统想要使用数据时，只需要将查询规则给他，让他们把查询规则赋予他们系统的用户，就可以实现授权。本发明具有更强的复用性和扩展性。

一实施例中，采集数据，包括：

日志采集，用户网站埋点信息抓取，以及业务数据的同步。

具体实施例中，数据可以来源于日志、新闻或业务等，可以来源于埋点信息抓取也可以来源于业务数据同步等渠道。

一实施例中，采集数据得到索引字段，包括：

具体实施例中，数据格式化之后可以更方便的统一处理，通过规则模板可以快速生成索引对应的数据规则。

一实施例中，统一模板，包括：

一实施例中，对索引字段进行分析，将索引字段归结于统一模板中的一项，包括：

一实施例中，通过NLP技术对索引字段进行分析，将索引字段归结于统一模板中的一项，包括：

一实施例中，计算索引字段与统一模板的关键字的词语相似度，包括：

w1,w2表示词向量，词向量基于深度学习word2vec获取;

dis表示两个向量的余弦距离，具体计算如下：

。

一实施例中，根据统一模板生成索引字段的查询规则，包括：

一实施例中，根据用户信息和索引字段的查询规则，创建最终查询规则，包括：

具体实施时，维护用户、角色和部门信息并指定授权规则包括，用户的创建、用户的角色、用户所属部门、角色所属的查询规则、部门所属的查询规则、用户所属的查询规则以及角色和部门的信息。

基于规则授权的设计，本发明使用更灵活，扩展性更优秀。本发明面对新的数据来源时，只需要对该渠道过来的数据进行规则智能化生成，再去指定给用户即可。不需要重新开发或复杂的改动，极大的提高了效率。

数据采集前会针对数据类型进行索引创建，再通过自然语言处理技术对索引字段进行分析，将字段归结于统一模板中的一项，从而生成该索引的查询规则；

自然语言处理技术对索引字段进行分析具体介绍如下:

词语距离是度量两个词语关系的另一个重要指标，用一个[0,∞)之间的实数表示。两个词语的相似度越低，二者之间的距离越小；

w1,w2表示词向量，词向量基于深度学习word2vec获取;

di表示两个向量的余弦距离，具体计算如下：

。

通过上述距离的计算，去匹配对应模板的关键字，再依据模板内容，生成查询规则。

利用NLP技术对于字段属性进行分析,再去匹配对应模板，利用数据规则挂载在查询语句中实现全文检索的数据权限限制。

第二方面，本发明提供了一种全文检索系统，

包括：采集单元201、归类单元202、查询规则单元203和查询单元204，

采集单元201，用于采集数据得到索引字段；

归类单元202，用于对索引字段进行分析，将索引字段归结于统一模板中的一项；

查询规则单元203，用于根据统一模板生成索引字段的查询规则；

查询规则单元203，还用于根据用户信息和索引字段的查询规则，创建最终查询规则；

查询单元204，用于依据最终查询规则进行全文检索。

具体实施时，所述数据采集的数据来源于日志采集，用户网站埋点信息抓取，以及业务数据的同步。

采集到的数据格式化后的数据进行索引和存储。

用户管理，用于维护用户的所有属性信息和授权规则，包括用户的创建、用户的角色、用户所属部门、角色所属的查询规则、部门所属的查询规则、用户所属的查询规则以及角色和部门的信息。

自然语言处理技术对索引字段进行分析具体介绍如下:

w1,w2表示词向量，词向量基于深度学习word2vec获取;

dis表示两个向量的余弦距离，具体计算如下：

。

如图3所示，本发明提供了一种电子设备，包括处理器301、通信接口302、存储器303和通信总线304，其中，处理器301、通信接口302和存储器303通过通信总线304完成相互间的通信；

存储器303，存储有计算机程序；

处理器301，用于执行存储器303上所存储的计算机程序时，实现上述的全文检索方法。

本发明提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的全文检索方法。

该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的；也可以是单独存在，而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

为使本领域的技术人员能更好的理解本发明，结合附图对本发明的原理阐述如下：

本发明提供了一种全文检索数据级授权方法和系统，更贴近于全文检索的使用场景。全文检索的数据来源并不是传统的业务数据，它来源丰富，数据庞大。当我们拥有这些数据的时候，我们再去考虑如何快速有效的检索他。检索的时候，我们发现，有些数据是私密的，并不方便被任何人搜索出来，因此我们要加权限。通过上述流程，我们想要做权限，最优路径就是对数据进行分析，通过对数据的分析，来生成权限认证内容和查询规则。

如图4所示，图4展示了本发明的结构组成及每部分的功能和连接关系。本发明包括，数据采集、查询规则生成、用户管理和数据查询四部分。数据采集来源于日志、新闻或业务埋点。查询规则生成包括NLP、自定义模板、定时任务和消息通知等部分。用户管理包括角色管理、部门管理、用户管理和规则指定。数据查询依次包括查询条件配置、查询规则拼装和数据查询执行。

数据采集模块：ES的数据来源可以是多样的，例如日志采集，用户网站埋点信息抓取，以及业务数据的同步。

规则生成模块：ELP字段分析，根据生成查询规则。例如，字段名称是部门（组织，机构等），可自动生成：只能查询本部门、查询包含本部门等数据规则具体DSL片段。

用户管理模块：用户、角色、部门等信息维护,以及用户的规则指定(授权)模块

数据查询模块：组装用户所需查询条件,追加查询规则,获取查询数据；

通过数据采集渠道获取全文检索所需数据，并存放在ES库中。

如图5所示以日志采集ELK为例，进行讲解数据采集的过程：

图5展示了日志生产者模块、发布订阅模块、消费者模块和输入过程模块四部分。

日志生产者模块包含多个服务，通过AOP技术采集日志信息，对系统应用进行日志记录，并将日志信息（即msglog）发送到发布订阅模块的kafka消息中心；

消费者模块的logstash通过消费kafka订阅的消息进行日志收集，logstash获取日志文件后，以json格式输出到输入过程模块的es服务器中进行存放，即将日志格式化并输出到Elasticsearch群集中。

Elasticsearch对格式化后的数据进行索引和存储。

如图6所示为数据规则的生成策略，步骤执行：ES索引mapping创建，针对部门角色用户等的数据规则模板搭建，NLP语义分析对字段属性与数据规则模板进行匹配，以及绑定当前索引生成具体模板。

ES数据采集前会针对数据类型进行索引创建，但是创建的字段根据业务场景不同，并不可能是统一字段。因此我们需要事先需要准备一些模板，例如查询自己的、查询部门的等等。再通过NLP技术对索引字段进行分析，将字段归结于统一模板中的一项，从而自动生成该索引的查询规则。

NLP技术对索引字段进行分析具体介绍如下:

词语距离是度量两个词语关系的另一个重要指标，用一个[0,∞)之间的实数表示。两个词语的相似度越低，二者之间的距离越小。

w1,w2表示词向量，词向量基于深度学习word2vec获取;

dis表示两个向量的余弦距离，具体计算如下：

。

通过上述距离的计算，去匹配对应模板的关键字，再依据模板内容，生成查询规则（DSL块）。

如图7所示，用户管理及授权规则，展示了两个举例，

例一中，部门A拥有规则1，角色A拥有规则3和4，用户A拥有规则6和7，那么用户A的最终查询规则为1、3、4、6和7，即部门、角色和用户的规则叠加。

例二中，部门B拥有规则1和3，角色B拥有规则5和6，用户B拥有规则3和8，那么用户B的最终查询规则为1、3、5、6和8。

用户的所有属性信息在用户管理中维护，用户的创建，用户的角色，用户所属部门，以及角色所属的查询规则，部门所属的查询规则，以及用户所属的查询规则，角色和部门之类的信息均在此维护。

数据查询的流程举例，输入业务查询语句，查询“title”和“code”两个关键字；规则A给出了“userId”关键字，规则B给出了“unit”关键字；通过组合原始查询、规则A和规则B，得到最终查询语句DSL查询“title”、“code”、“unitId”和“userId”，即把多个规则合并以限定查询结果。

用户需要查询的索引以及查询的条件确定后,我们需要自动在其将要执行的查询语句后面拼接上数据规则信息。

本发明更贴近于全文检索的使用场景。全文检索的数据来源并不是传统的业务数据，它来源丰富，数据庞大。当我们拥有这些数据的时候，我们再去考虑如何快速有效的检索他。检索的时候，我们发现，有些数据是私密的，并不方便被任何人搜索出来，因此我们要加权限。通过上述流程，我们想要做权限，最优路径就是对数据进行分析，通过对数据的分析，来生成权限认证内容和查询规则。

本发明具有更强的复用性和扩展性。在拥有一个庞大的全文检索库的时候，由于数据内容及其的丰富，当有一个系统想要使用数据时，只需要将查询规则给他，让他们把查询规则赋予他们系统的用户，就可以实现授权。

当数据来源有了新的渠道，本发明只需要对该渠道过来的数据进行规则智能化生成，再去指定给用户即可。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种全文检索方法，其特征在于，所述方法包括：

采集数据得到索引字段；

根据统一模板生成索引字段的查询规则；

根据用户信息和索引字段的查询规则，创建最终查询规则；

依据最终查询规则进行全文检索。

2.根据权利要求1所述的全文检索方法，其特征在于，

采集数据，包括：

日志采集，用户网站埋点信息抓取，以及业务数据的同步。

3.根据权利要求1所述的全文检索方法，其特征在于，

采集数据得到索引字段，包括：

4.根据权利要求1所述的全文检索方法，其特征在于，

统一模板，包括：

5.根据权利要求1所述的全文检索方法，其特征在于，

对索引字段进行分析，将索引字段归结于统一模板中的一项，包括：

6.根据权利要求5所述的全文检索方法，其特征在于，

通过NLP技术对索引字段进行分析，将索引字段归结于统一模板中的一项，包括：

7.根据权利要求6所述的全文检索方法，其特征在于，

计算索引字段与统一模板的关键字的词语相似度，包括：

；式中，sim(w1,w2)表示词语相似度，dis(w1,w2)表示词语距离，α为可调节的参数，表示相似度为0.5时的词语距离值；

w1,w2表示词向量，词向量基于深度学习word2vec获取;

dis表示两个向量的余弦距离，具体计算如下：

。

8.根据权利要求1所述的全文检索方法，其特征在于，

根据统一模板生成索引字段的查询规则，包括：

9.根据权利要求1所述的全文检索方法，其特征在于，

根据用户信息和索引字段的查询规则，创建最终查询规则，包括：

10.一种全文检索系统，其特征在于，包括：采集单元、归类单元、查询规则单元和查询单元，

采集单元，用于采集数据得到索引字段；

查询单元，用于依据最终查询规则进行全文检索。

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，存储有计算机程序；

处理器，用于执行存储器上所存储的计算机程序时，实现权利要求1-9中任一项所述的全文检索方法。

12.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-9中任一项所述的全文检索方法。