CN109063222A

CN109063222A - 一种基于大数据的自适应数据搜索方法

Info

Publication number: CN109063222A
Application number: CN201811304421.8A
Authority: CN
Inventors: 吉铁磊
Original assignee: 吉铁磊
Current assignee: Longwei Huanqiu (Beijing) Technology Group Co., Ltd
Priority date: 2018-11-04
Filing date: 2018-11-04
Publication date: 2018-12-21
Anticipated expiration: 2038-11-04
Also published as: CN109063222B

Abstract

本发明公开了一种基于大数据的自适应数据搜索方法，包括以下步骤：A、将待搜索数据集进行分类，形成若干个数据子集；B、对各数据子集分别建立索引表；C、计算不同数据子集间的关联度，按照关联度进行将序排列，从关联度最高的数据子集间开始，依次建立映射函数，直至所有数据子集有且只有一个映射函数；D、对每个映射函数所关联的任意一个数据子集根据其索引表进行第一次搜索，然后根据搜索结果通过映射函数对映射函数所关联的另一个数据子集的索引表进行更新；E、对索引表更新后的数据子集进行第二次搜索。本发明能够解决现有技术的不足，提高了数据搜索的效率。

Description

一种基于大数据的自适应数据搜索方法

技术领域

本发明涉及信息技术领域，尤其是一种基于大数据的自适应数据搜索方法。

背景技术

随着信息技术的发展，各行各业所依赖的数据信息量越来越庞大。如果在海量的数据信息中获取有价值的关键数据成为了数据搜索技术领域中的重要研究方向。

发明内容

本发明要解决的技术问题是提供一种基于大数据的自适应数据搜索方法，能够解决现有技术的不足，提高了数据搜索的效率。

为解决上述技术问题，本发明所采取的技术方案如下。

一种基于大数据的自适应数据搜索方法，包括以下步骤：

A、将待搜索数据集进行分类，形成若干个数据子集；

B、对各数据子集分别建立索引表；

C、计算不同数据子集间的关联度，按照关联度进行将序排列，从关联度最高的数据子集间开始，依次建立映射函数，直至所有数据子集有且只有一个映射函数；

D、对每个映射函数所关联的任意一个数据子集根据其索引表进行第一次搜索，然后根据搜索结果通过映射函数对映射函数所关联的另一个数据子集的索引表进行更新；

E、对索引表更新后的数据子集进行第二次搜索。

作为优选，步骤D中，进行第一次搜索包括以下步骤，

D11、选择搜索约束条件最少的索引路径进行预搜索；

D12、根据预搜索的结果，添加搜索约束条件；

D13、对搜索约束条件进行合并简化，根据合并简化之后的搜索约束条件进行搜索。

作为优选，步骤D13中，对搜索约束条件进行合并简化包括以下步骤，

D131、建立各搜索约束条件之间的关系集合；

D132、将不同搜索约束条件上的冲突特征进行标记，；

D133、将搜索约束条件中的非标记特征进行加权合并；

D134、根据搜索使用频率对搜索约束条件中的标记特征进行删减，对于相互冲突的标记特征，保留使用频率最高的标记特征，将其与标记特征删除；

D135、将保留的标记特征与非标记特征重新组合为搜索约束条件。

作为优选，步骤D中，对索引表进行更新包括以下步骤，

D21、将步骤D11中的预搜索结果与步骤D13中的搜索结果进行比对；

D22、根据对比结果中不同组别数据的量的变化趋势建立更新目标函数，所述目标函数为使对比结果中不同组别数据的量的变化趋势保持平滑状态的最优解；

D23、在索引表建立若干分级节点，高级节点与其对应的低级节点之间保持线性相关性；

D24、建立迭代函数，对各节点按照级别由高至低逐一进行循环迭代，使其符合目标函数所给出的变化趋势。

作为优选，步骤D24中，迭代函数的类型为，

其中，x为数据元素，y为与x相关的索引节点，F为非线性可导函数，n为迭代次数。

作为优选，步骤E中，进行第二次搜索时，删除与第一次搜索时合并简化之后的搜索约束条件相冲突的搜索约束条件，然后直接进行搜索。

采用上述技术方案所带来的有益效果在于：本发明利用两级搜索的方法，实现搜索过程的实时修正。第一次搜索过程中，通过对索引路径进行优化，实现搜索过程的精简。在第二次搜索时，利用第一次搜索的优化结果，直接对第二次搜索进行优化，然后直接进行搜索，从而大大降低了优化过程的时间。本发明对于数据成分复杂、数据量大的搜索过程，可以明显提高搜索速度，实现快速、准确地得到搜索结果。

具体实施方式

本发明的一个具体实施方式包括以下步骤：

A、将待搜索数据集进行分类，形成若干个数据子集；

B、对各数据子集分别建立索引表；

E、对索引表更新后的数据子集进行第二次搜索。

步骤D中，进行第一次搜索包括以下步骤，

D11、选择搜索约束条件最少的索引路径进行预搜索；

D12、根据预搜索的结果，添加搜索约束条件；

步骤D13中，对搜索约束条件进行合并简化包括以下步骤，

D131、建立各搜索约束条件之间的关系集合；

D132、将不同搜索约束条件上的冲突特征进行标记，；

D133、将搜索约束条件中的非标记特征进行加权合并；

步骤D中，对索引表进行更新包括以下步骤，

步骤D24中，迭代函数的类型为，

步骤E中，进行第二次搜索时，删除与第一次搜索时合并简化之后的搜索约束条件相冲突的搜索约束条件，然后直接进行搜索。

在步骤E进行第二次搜索之后，返回步骤C，根据两次搜索结果对不同数据子集间的关联度进行重新计算，并对映射函数进行更新。

对关联度进行重新计算的过程中，首先查找两次搜索结果的相似特征数据，使用相似特征数据在不同数据子集间检索，得出相似特征数据分布状态，利用相似特征数据分布状态对不同数据子集间的关联度进行调整，使映射函数与不同数据子集间相似特征数据分布状态线性相关。

本发明改变了传统的搜索方式，提高了搜索命中率，可在不改变硬件设备的前提下，将搜索效率提高20％～30％，大大缩短了搜索用时。

上述描述仅作为本发明可实施的技术方案提出，不作为对其技术方案本身的单一限制条件。

Claims

1.一种基于大数据的自适应数据搜索方法，其特征在于包括以下步骤：

A、将待搜索数据集进行分类，形成若干个数据子集；

B、对各数据子集分别建立索引表；

E、对索引表更新后的数据子集进行第二次搜索。

2.根据权利要求1所述的基于大数据的自适应数据搜索方法，其特征在于：步骤D中，进行第一次搜索包括以下步骤，

D11、选择搜索约束条件最少的索引路径进行预搜索；

D12、根据预搜索的结果，添加搜索约束条件；

3.根据权利要求2所述的基于大数据的自适应数据搜索方法，其特征在于：步骤D13中，对搜索约束条件进行合并简化包括以下步骤，

D131、建立各搜索约束条件之间的关系集合；

D132、将不同搜索约束条件上的冲突特征进行标记，；

D133、将搜索约束条件中的非标记特征进行加权合并；

4.根据权利要求2所述的基于大数据的自适应数据搜索方法，其特征在于：步骤D中，对索引表进行更新包括以下步骤，

5.根据权利要求4所述的基于大数据的自适应数据搜索方法，其特征在于：步骤D24中，迭代函数的类型为，

6.根据权利要求2所述的基于大数据的自适应数据搜索方法，其特征在于：步骤E中，进行第二次搜索时，删除与第一次搜索时合并简化之后的搜索约束条件相冲突的搜索约束条件，然后直接进行搜索。