CN115858636B

CN115858636B - 面向大数据流的分布式索引搜索方法、装置

Info

Publication number: CN115858636B
Application number: CN202310182926.6A
Authority: CN
Inventors: 邢家辉; 李宫怀; 谢浩龙; 刘文斐
Original assignee: Shenzhen Hongbo Information Technology Co ltd
Current assignee: Shenzhen Hongbo Information Technology Co ltd
Priority date: 2023-03-01
Filing date: 2023-03-01
Publication date: 2023-06-27
Anticipated expiration: 2043-03-01
Also published as: CN115858636A

Abstract

本发明涉及人工智能技术，揭露了一种面向大数据流的分布式索引搜索方法，包括：获取预设的数据内容以及数据内容对应的数据生成时间，并形成流元组；利用数据分析模型提取数据内容的数据标签，将数据标签以及数据内容构建下层标签索引；将流元组内的数据内容用数据标签进行替换，得到时间信息集合，根据时间信息集合构建上层时间索引；获取时间节点，在上层时间索引中查询时间信息集合，将时间信息集合内的数据标签确定为待查询标签；在下层标签索引中计算所述待查询标签与所述数据标签的匹配度，将最大匹配度的数据标签对应的数据内容确定为查询内容。本发明还提出一种面向大数据流的分布式索引搜索装置。本发明可以提高大数据流的数据搜索效率。

Description

面向大数据流的分布式索引搜索方法、装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种面向大数据流的分布式索引搜索方法、装置。

背景技术

随着大数据时代的到来，海量数据如何进行搜索查询是人们必须要解决的难题。为了提升面对大数据流搜索引擎的准确性以及效率性，需要一种上下分布式索引的搜索方法，将搜索步骤由繁化简，从而提升搜索的效率。

现有的大数据流搜索方法将数据存储在传统的单机数据库中，在计算方面，传统的数据库计算效率低，容易产生数据流失，在查询方面，传统的数据库无法适应大数据流索引的实时更新性，容易造成数据库出现故障从而无法查询数据或者数据查询不准确的情况。

发明内容

本发明提供一种面向大数据流的分布式索引搜索方法、装置，其主要目的在于解决面对大数据流搜索效率较低的问题。

为实现上述目的，本发明提供的一种面向大数据流的分布式索引搜索方法，包括：

获取预设的数据内容以及所述数据内容对应的数据生成时间，将所述数据内容与所述数据生成时间结合形成数据流的流元组；

利用预设的数据分析模型提取所述数据内容的数据标签，将所述数据标签以及数据内容按照B+树的形式构建下层标签索引；

将所述流元组内的数据内容用数据标签进行替换，得到时间信息集合，根据所述时间信息集合按照B+树的形式构建上层时间索引；

获取预设的需要搜索的时间节点，在上层时间索引中查询与所述时间节点相对应的时间信息集合，将所述时间信息集合内的数据标签确定为待查询标签；

在下层标签索引中计算所述待查询标签与所述数据标签的匹配度，将最大匹配度的数据标签对应的数据内容确定为查询内容。

可选地，所述利用预设的数据分析模型提取所述数据内容的数据标签，包括：

将所述数据内容进行编码，得到数据编码；

对所述数据编码进行卷积、池化处理，得到低维数据编码；

将所述低维数据编码映射至预设的高维空间，得到高维数据编码；

利用所述数据分析模型激活函数对所述高维数据编码进行筛选，得到所述数据内容对应的数据标签。

可选地，所述将所述数据标签以及数据内容按照B+树的形式构建下层标签索引，包括：

计算所述数据内容的权重，得到内容权重；

将所述内容权重与所述数据标签进行一一对应，得到一组权重标签；

将所述权重标签按照权重大小用B+数的模型构建B+树，得到下层标签索引。

可选地，所述将所述权重标签按照权重大小用B+数的模型构建B+树，包括：

将所述权重标签按照权重大小进行排序，得到排序权重；

获取所述B+树的预设阶数以及在所述排序权重中挑选预设的排序权重作为父节点；

将所有排序权重都视为叶子节点；

利用预设的遍历算法遍历所述排序权重，并判断所述排序权重为父节点、子节点或是叶子节点，并按照所述阶数构建B+树模型。

可选地，所述在上层时间索引中查询与所述时间节点相对应的时间信息集合，包括：

将所述时间节点进行编码，得到时间编码；

利用预设的决策树函数计算所述时间编码对应的时间信息集合。

可选地，所述利用预设的决策树函数计算所述时间编码对应的时间信息集合，包括：

利用如下决策树函数计算所述时间编码对应的时间信息集合：

其中，/>

为所述决策树函数的输出值，/>

为所述决策树函数的参数，

为所述决策树函数的输入值；将所述时间编码作为决策树函数输入值，通过所述决策树函数计算输出所述时间编码对应的时间信息集合；

当输出的时间信息集合为

，即当输入值小于决策树函数的参数时，说明所述时间节点对应的时间信息集合为/>

；

当输出的时间信息集合为

，即当输入值大于决策树函数的参数时，说明所述时间节点对应的时间信息集合为/>

；

当输出的时间信息集合为

，即当输入值等于决策树函数的参数时，说明所述时间节点对应的时间信息集合为/>

。可选地，所述所述在上层时间索引中查询与所述时间节点相对应的时间信息集合，还包括：

将所述时间节点进行编码，得到时间编码；

计算所述上层时间索引中的数据生成时间与所述时间编码的相似度；

取相似度中的最大值对应数据生成时间作为所述时间节点对应的时间信息集合。

可选地，所述计算所述上层时间索引中的数据生成时间与所述时间编码的相似度，包括：

利用如下相似度公式计算所述上层时间索引中的数据生成时间与所述时间编码的相似度：

其中，/>

为相似度，/>

为数据生成时间的计数单位，/>

为数据生成时间与时间编码的最大个数，/>

为所述数据生成时间，/>

为所述时间编码。可选地，所述在下层标签索引中计算所述待查询标签与所述数据标签的匹配度，包括：

利用如下匹配度公式计算所述待查询标签与所述数据标签的匹配度，包括：

其中，/>

为所述匹配度，/>

为所述待查询标签，/>

为所述数据标签。为了解决上述问题，本发明还提供一种面向大数据流的分布式索引搜索装置，所述装置包括：

流元组模块：获取预设的数据内容以及所述数据内容对应的数据生成时间，将所述数据内容与所述数据生成时间结合形成数据流的流元组；

下层标签索引模块：利用预设的数据分析模型提取所述数据内容的数据标签，将所述数据标签以及数据内容按照B+树的形式构建下层标签索引；

上层时间索引模块：将所述流元组内的数据内容用数据标签进行替换，得到时间信息集合，根据所述时间信息集合按照B+树的形式构建上层时间索引；

计算标签模块：获取预设的需要搜索的时间节点，在上层时间索引中查询与所述时间节点相对应的时间信息集合，将所述时间信息集合内的数据标签确定为待查询标签；

确定内容模块：在下层标签索引中计算所述待查询标签与所述数据标签的匹配度，将最大匹配度的数据标签对应的数据内容确定为查询内容。

本发明实施例通过获取预设的数据内容以及所述数据内容对应的数据生成时间，将所述数据内容与所述数据生成时间结合形成数据流的流元组，将数据流按照时间维度切割成流元组能够便于后续利用时间为线索搜索需要查询的数据内容，能够节约搜索成本，减少搜索时间，提升搜索效率；利用预设的数据分析模型提取所述数据内容的数据标签，将所述数据标签以及数据内容按照B+树的形式构建下层标签索引，构建B+树能够提升遍历效率，查询效率高，能够存储更多的数据内容，用最小的成本存储最大容量的数据，同时保证了数据存储的效率以及数据调用的效率；将所述流元组内的数据内容用数据标签进行替换，得到时间信息集合，根据所述时间信息集合按照B+树的形式构建上层时间索引，将上层时间索引与下层标签索引搭建完成以后，可以通过在上层时间索引中通过时间为线索搜索预设的时间节点对应的数据标签，再根据所述数据标签以及时间节点再下层标签索引中确定具体的数据内容。因此本发明提出的面向大数据流的分布式索引搜索方法、装置，可以解决面向大数据流搜索精确度较低的问题。

附图说明

图1为本发明一实施例提供的面向大数据流的分布式索引搜索方法的流程示意图；

图2为本发明一实施例提供的3阶的B+树的流程示意图；

图3为本发明一实施例提供的提取数据标签的流程示意图；

图4为本发明一实施例提供的构建下层标签索引的流程示意图；

图5为本发明一实施例提供的面向大数据流的分布式索引搜索装置的功能模块图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例提供一种面向大数据流的分布式索引搜索方法。所述面向大数据流的分布式索引搜索方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之，所述面向大数据流的分布式索引搜索方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

参照图1所示，为本发明一实施例提供的面向大数据流的分布式索引搜索方法的流程示意图。在本实施例中，所述面向大数据流的分布式索引搜索方法包括：

S1、获取预设的数据内容以及所述数据内容对应的数据生成时间，将所述数据内容与所述数据生成时间结合形成数据流的流元组；

由于面对大数据流的数据存储搜索方式繁杂，且容易出错，因此本发明实施例中采取分布式索引方法，首先需要获取预设的内容，将所述内容进行整理便于后续根据分布式索引搜索方式进行查找，提升搜索效率。

本发明实施例中，所述流元组为带时间属性的数据流，其中所述流元组通常包括具体的内容以及内容生成的时间，还可以包括具体的内容以及流元组的码值。本发明实施例中依据时间维度切分数据流，因此所述流元组由数据内容以及数据生成时间组成。

本发明实施例中，所述将所述数据内容与所述数据生成时间结合形成数据流的流元组，包括：

通过如下模板公式将所述所述数据内容与所述数据生成时间结合形成数据流的流元组：

其中，/>

为所述流元组，/>

为所述数据生成时间，/>

为所述数据内容。详细地，使用模板公式能够准确快速生成大量流元组，同时使流元组的定义更加一目了然。还可以将所述公式模板写入代码，利用代码生成大量流元组，能够节省人力成本，同时降低人力划分流元组可能划分错误的概率。

具体地，将数据流按照时间维度切割成流元组能够便于后续利用时间为线索搜索需要查询的数据内容，能够节约搜索成本，减少搜索时间，提升搜索效率。

S2、利用预设的数据分析模型提取所述数据内容的数据标签，将所述数据标签以及数据内容按照B+树的形式构建下层标签索引；

本发明实施例中，树跟数组、链表、堆栈一样，是一种数据结构，由有限个节点组成具有层次关系的集合，因为形状像一棵树，因此得名。所述B+树是一种B树的变体，也是一颗多路搜索树，其中B+树与B树的区别主要在于父节点上子节点的最大个数不同，当面对需要加快SQL执行效率的情况，通常需要添加索引，索引的底层结构由B+树组成。

详细地，参照图2所示，为能够查询1、2、3、5、6、8、9、11、13、15数值的3阶的B+树索引。其中， F11为F21、F22、F23的父节点，即F21、F22、F23为F11的子节点，而F30、F31为F21的子节点，且F30、F31下面没有子节点，即称F30、F31为所述3阶的B+树索引叶子节点。本发明实施例中B+树索引就是为了在叶子节点中查找到具体的内容，因此叶子节点包含所述父节点与所述子节点的所有具体数值。也就是说F30-F39都为所述3阶B+树的叶子节点，也就是索引最终指向的节点，每个叶子节点都有指向下一个叶子节点的指针。本发明实施例中，用数据标签以及数据内容替代所述3阶的B+树索引中的具体数值以及各个节点的编号，搭建对应的下层标签索引。

本发明实施例中，参照图3所示，所述利用预设的数据分析模型提取所述数据内容的数据标签，包括：

S21、将所述数据内容进行编码，得到数据编码；

S22、对所述数据编码进行卷积、池化处理，得到低维数据编码；

S23、将所述低维数据编码映射至预设的高维空间，得到高维数据编码；

S24、利用所述数据分析模型激活函数对所述高维数据编码进行筛选，得到所述数据内容对应的数据标签。

详细地，通过对所述数据编码进行卷积、池化处理，以降低所述数据编码的维度，进而减少对所述数据编码进行分析时计算机资源的占用，提高获取数据标签的效率。

具体地，所述将所述低维数据编码映射至预设的高维空间可以利用所述数据分析模型自带的映射函数，将所述所述低维数据编码映射到预设的高维空间，其中，所述映射函数包括但不限于MATLAB库中的Gaussian、Radial、Basis、Function函数、高斯函数等。

另外地，所述利用所述噪声神经网络模型内的激活函数对所述高维CT数据进行筛选，其中，所述激活函数包括但不限于sigmoid激活函数、tanh激活函数、relu激活函数。

本发明实施例中，参照图4所示，所述将所述数据标签以及数据内容按照B+树的形式构建下层标签索引，包括：

S31、计算所述数据内容的权重，得到内容权重；

S32、将所述内容权重与所述数据标签进行一一对应，得到一组权重标签；

S33、将所述权重标签按照权重大小用B+数的模型构建B+树，得到下层标签索引。

详细地，所述将所述权重标签按照权重大小用B+数的模型构建B+树，包括：

将所述权重标签按照权重大小进行排序，得到排序权重；

将所有排序权重都视为叶子节点；

具体地，所述预设的遍历算法包含但不限于深度优先遍历、广度优先遍历等等。可以利用预设的编程语言例如C++、Java等构建优先遍历算法，将所述排序权重用二叉树的形式进行遍历，能够保证每个排序权重都能够进行遍历，尽可能减少误差产生的可能。

进一步地，所述B+树模型参照图2所示模板进行构造，具体地父节点以及叶子节点的内容由具体实施例决定。

详细地，构建B+树能够提升遍历效率，查询效率高，能够存储更多的数据内容，用最小的成本存储最大容量的数据，同时保证了数据存储的效率以及数据调用的效率。

S3、将所述流元组内的数据内容用数据标签进行替换，得到时间信息集合，根据所述时间信息集合按照B+树的形式构建上层时间索引；

本发明实施例中，所述流元组中包含数据内容以及数据生成时间，将所述流元组内的数据内容用标签内容进行替换，则此时流元组内包含数据标签以及数据生成时间，将替换完成后的流元组称为时间信息集合。

由于数据内容通常比肩庞大，搜索起来较为困难，且容易产生搜索错误的可能，因此将数据内容用相对应的数据标签进行替换，能够减少查询的步骤，还能够提升查询的精确程度，一举两得。

本发明实施例中，所述根据所述时间信息集合按照B+树的形式构建上层时间索引，与将所述数据标签以及数据内容按照B+树的形式构建下层标签索引步骤相同，在此不做赘述。

详细地，由于仅仅构建下层标签索引不足以实现整个搜索过程，还需要以时间为线索搭建上层时间索引，将繁琐的搜索步骤逐一分解，实现分布式索引的搜索方法。

进一步地，将上层时间索引与下层标签索引搭建完成以后，可以通过在上层时间索引中通过时间为线索搜索预设的时间节点对应的数据标签，再根据所述数据标签以及时间节点再下层标签索引中确定具体的数据内容。

S4、获取预设的需要搜索的时间节点，在上层时间索引中查询与所述时间节点相对应的时间信息集合，将所述时间信息集合内的数据标签确定为待查询标签；

由于所述上层时间索引与所述下层标签索引是互相独立且存储在不同节点上的，因此在上层时间索引与下层标签索引中分别查找，首先在上层时间索引中根据时间为线索搜索对应的数据标签，完成上层时间索引的操作步骤，再根据所述数据标签与时间在下层标签索引中确定对应的数据内容，完成一整个上下分布式的搜索过程。

本发明实施例中，所述在上层时间索引中查询与所述时间节点相对应的时间信息集合，包括：

将所述时间节点进行编码，得到时间编码；

具体地，所述分类决策树是一种常用的分类方法，本发明实施例中可以看成将所述时间编码分到对应的事件信息集合中，是一个分类过程，因此可以使用决策树函数来进行分类计算。

详细地，所述利用预设的决策树函数计算所述时间编码对应的时间信息集合，包括：

其中，/>

为所述决策树函数的输出值，/>

为所述决策树函数的参数，

当输出的时间信息集合为

；

当输出的时间信息集合为

；

当输出的时间信息集合为

。具体地，使用决策树函数进行分类能够节省分类时间，且分类原理便于操作理解，方法容易实现。

本发明实施例中，所述所述在上层时间索引中查询与所述时间节点相对应的时间信息集合，还包括：

将所述时间节点进行编码，得到时间编码；

详细地，所述计算所述上层时间索引中的数据生成时间与所述时间编码的相似度，包括：

其中，/>

为相似度，/>

为数据生成时间的计数单位，/>

为数据生成时间与时间编码的最大个数，/>

为所述数据生成时间，/>

为所述时间编码。具体地，利用所述相似度公式进行计算能够提升准确度，不容易发生错误，便于处理大量数据，只需要将公式写入算法，就能够实现高效率、低成本的计算。

进一步地，确定待查询标签之后能够根据标签直接查找对应的具体内容，减少直接查询具体内容带来的复杂计算，标签能够更准确更精准的表现要搜索的具体内容，提升搜索效率。

S5、在下层标签索引中计算所述待查询标签与所述数据标签的匹配度，将最大匹配度的数据标签对应的数据内容确定为查询内容。

由于下层标签索引中包含数据标签以及数据内容，因此根据所述数据标签能够确定对应的数据内容。则需要计算所述待查询标签与下层标签索引中的数据标签的匹配度，根据所述匹配度确定所述数据标签对应的数据内容是否是查询内容。

本发明实施例中，所述在下层标签索引中计算所述待查询标签与所述数据标签的匹配度，包括：

其中，/>

为所述匹配度，/>

为所述待查询标签，/>

为所述数据标签。详细地，根据匹配度公式能够将不同数据标签与所述待查询标签之间的匹配度用数值的形式直观表现出来，也就能根据所述匹配度的大小确定真正的查询内容。

进一步地，分布式索引搜索方法的可拓展性更高，搜索效率也更高，同时搜索结果的准确性也会更高。且分布式索引搜索方法易于实现，能够真实快速投入实际应用中，分布式平台的搭建方法丰富多样，能够根据需要查询的内容进行调整，是极佳的索引搜索方法。

如图5所示，是本发明一实施例提供的面向大数据流的分布式索引搜索装置的功能模块图。

本发明所述面向大数据流的分布式索引搜索装置100可以安装于电子设备中。根据实现的功能，所述面向大数据流的分布式索引搜索装置100可以包括流元组模块101、下层标签索引模块102、上层时间索引模块103、计算标签模块104及确定内容模块105。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

所述流元组模块101：获取预设的数据内容以及所述数据内容对应的数据生成时间，将所述数据内容与所述数据生成时间结合形成数据流的流元组；

所述下层标签索引模块102：利用预设的数据分析模型提取所述数据内容的数据标签，将所述数据标签以及数据内容按照B+树的形式构建下层标签索引；

所述上层时间索引模块103：将所述流元组内的数据内容用数据标签进行替换，得到时间信息集合，根据所述时间信息集合按照B+树的形式构建上层时间索引；

所述计算标签模块104：获取预设的需要搜索的时间节点，在上层时间索引中查询与所述时间节点相对应的时间信息集合，将所述时间信息集合内的数据标签确定为待查询标签；

所述确定内容模块：在下层标签索引中计算所述待查询标签与所述数据标签的匹配度，将最大匹配度的数据标签对应的数据内容确定为查询内容。

详细地，本发明实施例中所述面向大数据流的分布式索引搜索装置100中所述的各模块在使用时采用与上述图1至图4中所述的面向大数据流的分布式索引搜索方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能（Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。