CN115510071A

CN115510071A - 一种大数据快速组合查询的动态索引方法

Info

Publication number: CN115510071A
Application number: CN202211321740.6A
Authority: CN
Inventors: 程烨; 叶薇薇; 洪波
Original assignee: Hangzhou Fuchen Shuzhi Technology Co ltd
Current assignee: Hangzhou Fuchen Shuzhi Technology Co ltd
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2022-12-23
Anticipated expiration: 2042-10-27
Also published as: CN115510071B

Abstract

本发明提供了一种大数据快速组合查询的动态索引方法，包括：验证用户身份，获得用户验证结果；根据用户验证结果获取用户的结构化查询语言；分析结构化查询语言，并建立查询索引；根据查询索引在数据库中采用差分隐私系统查询获取查询文件，得到查询结果；将查询结果传输至用户进行查询反馈。本发明提出一种大数据快速组合查询的动态索引方法，在进行查询时通过验证用户身份，只针对验证通过的用户进行SQL语句查询，而且采用差分隐私系统不仅能够避免用户攻击数据库，还能够避免隐私泄漏。

Description

一种大数据快速组合查询的动态索引方法

技术领域

本发明涉及大数据信息技术领域，特别涉及一种大数据快速组合查询的动态索引方法。

背景技术

随着大数据时代的发展，各个方面的数据、信息、文件等都有很多，而且存在各种数据库进行数据、信息、文件的存储，往往根据各行各业的需求在数据库中进行查询获取，但是在现有技术方案中往往会出现一些非正常用户对数据库进行查询，非法获取文件信息，或者是直接针对数据库进行非正常入侵与破坏，因此，本发明提出一种大数据快速组合查询的动态索引方法，在进行查询时通过验证用户身份，只针对验证通过的用户进行SQL语句查询，而且采用差分隐私系统不仅能够避免用户攻击数据库，还能够避免隐私泄漏。

发明内容

本发明的目的在于提供一种大数据快速组合查询的动态索引方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种大数据快速组合查询的动态索引方法，包括：

验证用户身份，获得用户验证结果；

根据用户验证结果获取所述用户的结构化查询语言；

分析所述结构化查询语言，并建立查询索引；

根据所述查询索引在数据库中采用差分隐私系统查询获取查询文件，得到查询结果；

将所述查询结果传输至所述用户进行查询反馈。

进一步地，所述用户的数量为一个或多个，当验证用户身份时，所述用户分别针对验证消息采用零知识证明自己的身份，得到用户证明信息，并针对所述用户证明信息进行核验，当所述用户证明信息为真时，用户验证结果为通过，当所述用户验证信息为假时，用户验证结果为不通过。

进一步地，分析所述结构化查询语言时通过JDBC连接，在所述JDBC中分析所述结构化查询语言，并建立查询索引，包括：

在所述结构化查询语言中获得查询关键信息；

将所述查询关键信息按照从属关系进行分析，得到等级分布信息；

针对所述等级分布信息构建查询信息图谱；

按照所述查询信息图谱生成查询索引。

进一步地，所述数据库是一个开源数据库，在所述数据库中针对被查询信息进行动态查询加密，包括：

针对所述数据库中存储的文件进行关键词分析，并根据文件关键词形成文件令牌，对所述文件进行加密处理，得到所述数据库的加密索引；

通过差分隐私模糊技术对所述文件关键词进行模糊处理，得到第一模糊信息和第二模糊信息，并根据所述第一模糊信息、第二模糊信息以及所述文件关键词得到数据库文件查询信息；

对所述数据库文件查询信息进行标记，并将标记后数据库文件查询信息进行压缩处理，得到所述数据库的索引信息。

进一步地，根据所述查询索引在数据库中采用差分隐私系统查询获取查询文件，包括：

根据所述查询索引在所述数据库的索引信息中按照递进关系逐级筛选匹配，直至所述查询索引中的全部信息匹配完成，得到匹配的数据库文件查询信息；

根据匹配的数据库文件查询信息结合所述数据库的加密索引追踪获取，得到与所述查询索引匹配的加密处理后的文件，根据与所述查询索引匹配的加密处理后的文件和匹配的数据库文件查询信息得到所述用户的查询结果。

进一步地，所述数据库采用分布式文件管理系统进行文件管理，所述分布式文件管理系统在针对所述数据库中存储的文件进行文件管理时包括：

针对所述数据库中存储的文件进行加密处理，获得加密处理后的文件；

对加密处理后的文件进行分割处理，使得每个加密处理后的文件得到多个文件碎片；

将每个加密处理后的文件得到的多个文件碎片按照节点存储规则分发到存储节点进行存储；

针对所述存储节点分别进行管理，根据所述存储节点的存储情况建立节点存储表。

进一步地，获取所述用户的结构化查询语言时采用不经意传输的方式针对所述结构化查询语言进行传输；

将所述查询结果传输至所述用户进行查询反馈时按照不经意传输协议将所述查询结果传输至所述用户。

进一步地，所述数据库与所述用户之间还存在秘密共享机制，针对多个用户构成秘密共享方案，当秘密共享机制中的用户存在可疑身份时，将身份可疑的用户剔除，针对剩余用户形成新的秘密共享方案。

进一步地，将所述查询结果传输至所述用户进行查询反馈时，所述用户接收查询结果，然后针对所述查询结果分别利用自己的密钥针对所述查询结果进行信息解密，得到多个部分查询结果数据信息，将所述秘密共享方案中所有用户中得到的部分查询结果数据信息结合在一起，根据所述多个部分查询结果数据信息得到完整的查询结果数据信息。

进一步地，针对所述等级分布信息构建查询信息图谱时，获取初始等级中的查询关键信息，在同一等级中针对查询关键信息进行聚类关联分析，将存在关联关系的查询关键信息归属为同一类，并按照聚类关联分析的结果分别建立独立的图谱，在针对同一类中的查询关键信息建立图谱时，将所述类中的查询关键信息作为并列分支，针对其它等级的查询关键信息按照从属关系在对应的上一等级的查询关键信息图谱节点下面进行延伸。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明所述的一种大数据快速组合查询的动态索引方法的流程示意图；

图2为本发明所述的一种大数据快速组合查询的动态索引方法中步骤三的示意图；

图3为本发明所述的一种大数据快速组合查询的动态索引方法中步骤四的示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提供了一种大数据快速组合查询的动态索引方法，包括：

步骤一、验证用户身份，获得用户验证结果；

步骤二、根据用户验证结果获取所述用户的结构化查询语言；

步骤三、分析所述结构化查询语言，并建立查询索引；

步骤四、根据所述查询索引在数据库中采用差分隐私系统查询获取查询文件，得到查询结果；

步骤五、将所述查询结果传输至所述用户进行查询反馈。

上述技术方案提供了一种大数据快速组合查询的动态索引方法，在用户针对数据库进行查询时，首先要验证用户身份，确认用户身份，得到用户验证结果，然后根据用户验证结果，在用户身份验证通过时，获取用户进行查询的信息，得到用户的结构化查询语言，接着针对结构化查询语言进行分析，执行获取用户的SQL语句，并根据SQL语句的分析信息中的字段或者关键信息建立查询索引，然后再根据查询索引在数据库中进行查询信息获取，在数据库中进行查询信息获取时，在数据库中利用差分隐私系统进行查询，检索出所有与用户的结构化查询语言相关的查询文件，进而得到查询结果，最后将查询结果传输给用户，从而实现查询反馈。上述技术方案通过验证用户身份后根据用户验证结果获取用户的结构化查询语言，从而使得只能够针对验证通过的用户进行SQL语句查询，从而避免数据库中的数据信息外泄，提高了数据库的安全性，而且根据查询索引在数据库中采用差分隐私系统查询获取查询文件，通过采用差分隐私系统不仅能够避免用户攻击数据库，还能够避免隐私泄漏。

本发明提供的一个实施例中，所述用户的数量为一个或多个，当验证用户身份时，所述用户分别针对验证消息采用零知识证明自己的身份，得到用户证明信息，并针对所述用户证明信息进行核验，当所述用户证明信息为真时，用户验证结果为通过，当所述用户验证信息为假时，用户验证结果为不通过。

上述技术方案在验证用户身份时可以针对一个用户进行身份验证，也可以同时针对多个用户进行身份验证，并且在验证用户身份时，采用零知识证明的方法验证用户的身份，用户在接收到身份验证消息时分别针对验证消息利用零知识协议进行自证明，得到用户证明信息，然后核验用户证明信息，如果用户证明信息为真，则用户验证结果为通过，如果用户验证信息为假，则用户验证结果为不通过。上述技术方案不仅能够只针对一个用户进行身份验证，还能够针对多个用户同时进行身份验证，从而使得多个用户能够同时进行查询，进而提高查询效率，而且通过用户分别针对验证消息采用零知识证明自己的身份，不仅能够使得用户能够自证，使得产生信任关系，还能够证不泄露任何关于数据库的信息，提高安全性能。

如图2所示，本发明提供的一个实施例中，分析所述结构化查询语言时通过JDBC连接，在所述JDBC中分析所述结构化查询语言，并建立查询索引，包括：

S301、在所述结构化查询语言中获得查询关键信息；

S302、将所述查询关键信息按照从属关系进行分析，得到等级分布信息；

S303、针对所述等级分布信息构建查询信息图谱；

S304、按照所述查询信息图谱生成查询索引。

上述技术方案在分析结构化查询语言时，通过JDBC连接（java数据库连接, Javadata base connectivity，JDBC）连接用户与数据库，利用JDBC执行SQL语句的Java API，可以为多种关系数据库提供统一访问，在JDBC分析结构化查询语言，并建立查询索引时，首先识别SQL语句，并在识别信息中获取查询关键信息，然后将查询关键信息按照从属关系进行分析，将查询关键信息按照第一等级、第二等级、第三等级等进行区分，从而得到等级分布信息；接着再针对等级分布信息按照等级进行图谱构建，得到查询信息图谱；然后再根据查询信息图谱按照查询图谱中的信息生成查询索引。上述技术方案通过JDBC连接实现了用户与数据库之间连接，使得能够直接针对从用户中获取的SQL语句进行处理，而且还能够规范用户中传输的结构化查询语言如何来访问数据库的应用程序接口，而且结构化查询语言（SQL）是访问关系数据库的标准语言，能够提高分析结构化查询语言的效率，而且通过在结构化查询语言中获得查询关键信息使得能够根据查询关键信息获取查询结果，并且通过得到等级分布信息使得各个查询关键信息中联合查询，避免查询结果只符合单一的查询关键信息，此外，通过构建查询信息图谱以及按照查询信息图谱生成查询索引能够将查询关键信息之间的关系明了话，方便在数据库中进行查询。

本发明提供的一个实施例中，所述数据库是一个开源数据库，在所述数据库中针对被查询信息进行动态查询加密，包括：

上述技术方案中的数据库是一个开源数据库，在数据库中针对被查询信息进行动态查询加密，首先针对数据库中存储的文件进行关键词分析，并根据文件关键词形成文件令牌，对文件进行加密处理，得到数据库的加密索引；然后通过差分隐私模糊技术对文件关键词进行模糊处理，得到第一模糊信息和第二模糊信息，并根据第一模糊信息、第二模糊信息以及文件关键词得到数据库文件查询信息；接着对数据库文件查询信息进行标记，并将标记后数据库文件查询信息进行压缩处理，得到数据库的索引信息。上述技术方案通过在数据库中针对被查询信息进行动态查询加密避免数据库中的文件直接暴露，增加数据库中文件的安全性，而且通过得到数据库的索引信息为查询提供便捷，加快查询效率，使得能够在较短时间内得到查询结果。

如图3所示，本发明提供的一个实施例中，根据所述查询索引在数据库中采用差分隐私系统查询获取查询文件，包括：

S401、根据所述查询索引在所述数据库的索引信息中按照递进关系逐级筛选匹配，直至所述查询索引中的全部信息匹配完成，得到匹配的数据库文件查询信息；

S402、根据匹配的数据库文件查询信息结合所述数据库的加密索引追踪获取，得到与所述查询索引匹配的加密处理后的文件，根据与所述查询索引匹配的加密处理后的文件和匹配的数据库文件查询信息得到所述用户的查询结果。

上述技术方案在根据查询索引在数据库中采用差分隐私系统查询获取查询文件时，根据查询索引在数据库的索引信息中按照递进关系逐级筛选匹配，在查询索引中，从第一个信息开始查询，然后再在第一查询结果中对第二个信息进行查询，直至查询索引中的全部信息匹配完成，得到匹配的数据库文件查询信息；接着，根据匹配的数据库文件查询信息结合数据库的加密索引追踪获取，得到与查询索引匹配的加密处理后的文件，接着再根据与查询索引匹配的加密处理后的文件和匹配的数据库文件查询信息得到用户的查询结果。上述技术方案通过根据查询索引在数据库的索引信息中按照递进关系逐级筛选匹配，不仅能够快速准确的获得筛选匹配的结果，而且还能够避免查询结果缺失某个查询关键因素，此外，在得到的查询结果中未将目标文件明文传输，避免目标文件被破坏或者泄露，实现数据可用不可见。

本发明提供的一个实施例中，所述数据库采用分布式文件管理系统进行文件管理，所述分布式文件管理系统在针对所述数据库中存储的文件进行文件管理时包括：

上述技术方案所述数据库采用分布式文件管理系统进行文件管理，所述分布式文件管理系统在针对所述数据库中存储的文件进行文件管理时，首先针对所述数据库中存储的文件进行加密处理，获得加密处理后的文件；然后对加密处理后的文件进行分割处理，使得每个加密处理后的文件得到多个文件碎片，在每个加密处理后的文件得到多个文件碎片中按照节点存储规则分发到存储节点进行存储，根据存储节点的数目将文件碎片分成多份，将每一份分别存储到存储节点中；而且针对每个存储节点分别进行管理，根据存储节点的存储情况建立节点存储表。上述技术方案通过针对数据库中存储的文件进行加密处理提高数据库中文件安全性，而且将加密处理后的文件分割成文件碎片后分散到各个存储节点中，使得无法一次性的对文件进行全部破解，提升了文件的安全性，并且针对每个存储节点分别进行管理不仅能够增加系统的可用性，还能够实现局部管理，提高数据库的灵活性。

本发明提供的一个实施例中，获取所述用户的结构化查询语言时采用不经意传输的方式针对所述结构化查询语言进行传输；

上述技术方案在获取用户的结构化查询语言时采用不经意传输的方式针对结构化查询语言进行传输；而且在将查询结果传输至用户进行查询反馈时也按照不经意传输协议将查询结果传输至用户。上述技术方案通过采用不经意传输实现了双方隐私保护，使得数据库以及用户都能够以模糊化的方式进行传送，避免信息暴露，实现信息可用但不可见，而且接受者的隐私不被发送者所知道，确保了双方的隐私，提高安全性能。

本发明提供的一个实施例中，所述数据库与所述用户之间还存在秘密共享机制，针对多个用户构成秘密共享方案，当秘密共享机制中的用户存在可疑身份时，将身份可疑的用户剔除，针对剩余用户形成新的秘密共享方案。

上述技术方案在数据库与用户之间还存在秘密共享机制，针对多个用户构成秘密共享方案，当秘密共享机制中的用户存在可疑身份时，将身份可疑的用户剔除，针对剩余用户形成新的秘密共享方案。上述技术方案通过秘密共享机制使得单个参与者无法恢复秘密信息，只有若干个参与者一同协作才能恢复秘密消息，从而提高了信息的安全性，而且通过将身份可疑的用户剔除避免身份可疑的用户进行破坏。

本发明提供的一个实施例中，将所述查询结果传输至所述用户进行查询反馈时，所述用户接收查询结果，然后针对所述查询结果分别利用自己的密钥针对所述查询结果进行信息解密，得到多个部分查询结果数据信息，将所述秘密共享方案中所有用户中得到的部分查询结果数据信息结合在一起，根据所述多个部分查询结果数据信息得到完整的查询结果数据信息。

上述技术方案在将查询结果传输至用户进行查询反馈时，秘密共享方案中的用户接收查询结果，然后针对查询结果分别利用自己的密钥针对查询结果进行信息解密，将查询结果中的部分数据信息通过密钥解出明文信息，得到多个部分查询结果数据信息，接着再将秘密共享方案中所有用户中得到的部分查询结果数据信息结合在一起，根据多个部分查询结果数据信息得到完整的查询结果数据信息。上述技术方案通过针对查询结果分别利用自己的密钥针对查询结果进行信息解密，秘密共享方案中的用户只能够掌握部分密钥，获取部分查询结果，使得秘密共享方案中的用户单独都不能对查询结果造成大的危害，确保了查询结果的安全性。

本发明提供的一个实施例中，针对所述等级分布信息构建查询信息图谱时，获取初始等级中的查询关键信息，在同一等级中针对查询关键信息进行聚类关联分析，将存在关联关系的查询关键信息归属为同一类，并按照聚类关联分析的结果分别建立独立的图谱，在针对同一类中的查询关键信息建立图谱时，将所述类中的查询关键信息作为并列分支，针对其它等级的查询关键信息按照从属关系在对应的上一等级的查询关键信息图谱节点下面进行延伸。

上述技术方案在针对等级分布信息构建查询信息图谱时，首先要确定第一等级、第二等级、第三等级等中的查询关键信息，明确初始等级，并将初始等级中的查询关键信息在同一等级之间进行聚类关联分析，将存在关联关系的查询关键信息归属为同一类，从而得到聚类关联分析的结果，然后按照聚类关联分析的结果针对每一类分别建立一个独立的图谱，而且在针对同一类中的查询关键信息建立图谱时，将该类中的查询关键信息作为并列分支，针对除初始等级以外的其它等级的查询关键信息按照从属关系对并列分支进行拓展，在对应的上一等级的查询关键信息图谱节点下面进行延伸，从而在所有等级中的查询关键信息构建后得到查询信息图谱。上述技术方案通过在同一等级中针对查询关键信息进行聚类关联分析使得用户不仅能够只查询一种信息，还能够同时查询多种信息，方便在大量数据中快速查询多种信息，从而提高查询效率，而且通过按照聚类关联分析的结果针对每一类分别建立一个独立的图谱避免查询关键信息出现交错，降低查询混乱程度，同时也能够确定查询的准确性。

本领域技术人员应当理解的是，本发明中的第一、第二仅仅指的是不同应用阶段而已。

本领域技术客户员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种大数据快速组合查询的动态索引方法，其特征在于，包括：

验证用户身份，获得用户验证结果；

根据用户验证结果获取所述用户的结构化查询语言；

分析所述结构化查询语言，并建立查询索引；

将所述查询结果传输至所述用户进行查询反馈。

2.根据权利要求1所述的一种大数据快速组合查询的动态索引方法，其特征在于，所述用户的数量为一个或多个，当验证用户身份时，所述用户分别针对验证消息采用零知识证明自己的身份，得到用户证明信息，并针对所述用户证明信息进行核验，当所述用户证明信息为真时，用户验证结果为通过，当所述用户验证信息为假时，用户验证结果为不通过。

3.根据权利要求1所述的一种大数据快速组合查询的动态索引方法，其特征在于，分析所述结构化查询语言时通过JDBC连接，在所述JDBC中分析所述结构化查询语言，并建立查询索引，包括：

在所述结构化查询语言中获得查询关键信息；

针对所述等级分布信息构建查询信息图谱；

按照所述查询信息图谱生成查询索引。

4.根据权利要求1所述的一种大数据快速组合查询的动态索引方法，其特征在于，所述数据库是一个开源数据库，在所述数据库中针对被查询信息进行动态查询加密，包括：

5.根据权利要求4所述的一种大数据快速组合查询的动态索引方法，其特征在于，根据所述查询索引在数据库中采用差分隐私系统查询获取查询文件，包括：

6.根据权利要求4所述的一种大数据快速组合查询的动态索引方法，其特征在于，所述数据库采用分布式文件管理系统进行文件管理，所述分布式文件管理系统在针对所述数据库中存储的文件进行文件管理时包括：

7.根据权利要求1所述的一种大数据快速组合查询的动态索引方法，其特征在于，获取所述用户的结构化查询语言时采用不经意传输的方式针对所述结构化查询语言进行传输；

8.根据权利要求2所述的一种大数据快速组合查询的动态索引方法，其特征在于，所述数据库与所述用户之间还存在秘密共享机制，针对多个用户构成秘密共享方案，当秘密共享机制中的用户存在可疑身份时，将身份可疑的用户剔除，针对剩余用户形成新的秘密共享方案。

9.根据权利要求8所述的一种大数据快速组合查询的动态索引方法，其特征在于，将所述查询结果传输至所述用户进行查询反馈时，所述用户接收查询结果，然后针对所述查询结果分别利用自己的密钥针对所述查询结果进行信息解密，得到多个部分查询结果数据信息，将所述秘密共享方案中所有用户中得到的部分查询结果数据信息结合在一起，根据所述多个部分查询结果数据信息得到完整的查询结果数据信息。

10.根据权利要求3所述的一种大数据快速组合查询的动态索引方法，其特征在于，针对所述等级分布信息构建查询信息图谱时，获取初始等级中的查询关键信息，在同一等级中针对查询关键信息进行聚类关联分析，将存在关联关系的查询关键信息归属为同一类，并按照聚类关联分析的结果分别建立独立的图谱，在针对同一类中的查询关键信息建立图谱时，将所述类中的查询关键信息作为并列分支，针对其它等级的查询关键信息按照从属关系在对应的上一等级的查询关键信息图谱节点下面进行延伸。