CN109063222A - 一种基于大数据的自适应数据搜索方法 - Google Patents

一种基于大数据的自适应数据搜索方法 Download PDF

Info

Publication number
CN109063222A
CN109063222A CN201811304421.8A CN201811304421A CN109063222A CN 109063222 A CN109063222 A CN 109063222A CN 201811304421 A CN201811304421 A CN 201811304421A CN 109063222 A CN109063222 A CN 109063222A
Authority
CN
China
Prior art keywords
data
search
concordance list
constraints condition
mapping function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811304421.8A
Other languages
English (en)
Other versions
CN109063222B (zh
Inventor
吉铁磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Longwei Huanqiu (Beijing) Technology Group Co., Ltd
Original Assignee
吉铁磊
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 吉铁磊 filed Critical 吉铁磊
Priority to CN201811304421.8A priority Critical patent/CN109063222B/zh
Publication of CN109063222A publication Critical patent/CN109063222A/zh
Application granted granted Critical
Publication of CN109063222B publication Critical patent/CN109063222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的自适应数据搜索方法,包括以下步骤:A、将待搜索数据集进行分类,形成若干个数据子集;B、对各数据子集分别建立索引表;C、计算不同数据子集间的关联度,按照关联度进行将序排列,从关联度最高的数据子集间开始,依次建立映射函数,直至所有数据子集有且只有一个映射函数;D、对每个映射函数所关联的任意一个数据子集根据其索引表进行第一次搜索,然后根据搜索结果通过映射函数对映射函数所关联的另一个数据子集的索引表进行更新;E、对索引表更新后的数据子集进行第二次搜索。本发明能够解决现有技术的不足,提高了数据搜索的效率。

Description

一种基于大数据的自适应数据搜索方法
技术领域
本发明涉及信息技术领域,尤其是一种基于大数据的自适应数据搜索方法。
背景技术
随着信息技术的发展,各行各业所依赖的数据信息量越来越庞大。如果在海量的数据信息中获取有价值的关键数据成为了数据搜索技术领域中的重要研究方向。
发明内容
本发明要解决的技术问题是提供一种基于大数据的自适应数据搜索方法,能够解决现有技术的不足,提高了数据搜索的效率。
为解决上述技术问题,本发明所采取的技术方案如下。
一种基于大数据的自适应数据搜索方法,包括以下步骤:
A、将待搜索数据集进行分类,形成若干个数据子集;
B、对各数据子集分别建立索引表;
C、计算不同数据子集间的关联度,按照关联度进行将序排列,从关联度最高的数据子集间开始,依次建立映射函数,直至所有数据子集有且只有一个映射函数;
D、对每个映射函数所关联的任意一个数据子集根据其索引表进行第一次搜索,然后根据搜索结果通过映射函数对映射函数所关联的另一个数据子集的索引表进行更新;
E、对索引表更新后的数据子集进行第二次搜索。
作为优选,步骤D中,进行第一次搜索包括以下步骤,
D11、选择搜索约束条件最少的索引路径进行预搜索;
D12、根据预搜索的结果,添加搜索约束条件;
D13、对搜索约束条件进行合并简化,根据合并简化之后的搜索约束条件进行搜索。
作为优选,步骤D13中,对搜索约束条件进行合并简化包括以下步骤,
D131、建立各搜索约束条件之间的关系集合;
D132、将不同搜索约束条件上的冲突特征进行标记,;
D133、将搜索约束条件中的非标记特征进行加权合并;
D134、根据搜索使用频率对搜索约束条件中的标记特征进行删减,对于相互冲突的标记特征,保留使用频率最高的标记特征,将其与标记特征删除;
D135、将保留的标记特征与非标记特征重新组合为搜索约束条件。
作为优选,步骤D中,对索引表进行更新包括以下步骤,
D21、将步骤D11中的预搜索结果与步骤D13中的搜索结果进行比对;
D22、根据对比结果中不同组别数据的量的变化趋势建立更新目标函数,所述目标函数为使对比结果中不同组别数据的量的变化趋势保持平滑状态的最优解;
D23、在索引表建立若干分级节点,高级节点与其对应的低级节点之间保持线性相关性;
D24、建立迭代函数,对各节点按照级别由高至低逐一进行循环迭代,使其符合目标函数所给出的变化趋势。
作为优选,步骤D24中,迭代函数的类型为,
其中,x为数据元素,y为与x相关的索引节点,F为非线性可导函数,n为迭代次数。
作为优选,步骤E中,进行第二次搜索时,删除与第一次搜索时合并简化之后的搜索约束条件相冲突的搜索约束条件,然后直接进行搜索。
采用上述技术方案所带来的有益效果在于:本发明利用两级搜索的方法,实现搜索过程的实时修正。第一次搜索过程中,通过对索引路径进行优化,实现搜索过程的精简。在第二次搜索时,利用第一次搜索的优化结果,直接对第二次搜索进行优化,然后直接进行搜索,从而大大降低了优化过程的时间。本发明对于数据成分复杂、数据量大的搜索过程,可以明显提高搜索速度,实现快速、准确地得到搜索结果。
具体实施方式
本发明的一个具体实施方式包括以下步骤:
A、将待搜索数据集进行分类,形成若干个数据子集;
B、对各数据子集分别建立索引表;
C、计算不同数据子集间的关联度,按照关联度进行将序排列,从关联度最高的数据子集间开始,依次建立映射函数,直至所有数据子集有且只有一个映射函数;
D、对每个映射函数所关联的任意一个数据子集根据其索引表进行第一次搜索,然后根据搜索结果通过映射函数对映射函数所关联的另一个数据子集的索引表进行更新;
E、对索引表更新后的数据子集进行第二次搜索。
步骤D中,进行第一次搜索包括以下步骤,
D11、选择搜索约束条件最少的索引路径进行预搜索;
D12、根据预搜索的结果,添加搜索约束条件;
D13、对搜索约束条件进行合并简化,根据合并简化之后的搜索约束条件进行搜索。
步骤D13中,对搜索约束条件进行合并简化包括以下步骤,
D131、建立各搜索约束条件之间的关系集合;
D132、将不同搜索约束条件上的冲突特征进行标记,;
D133、将搜索约束条件中的非标记特征进行加权合并;
D134、根据搜索使用频率对搜索约束条件中的标记特征进行删减,对于相互冲突的标记特征,保留使用频率最高的标记特征,将其与标记特征删除;
D135、将保留的标记特征与非标记特征重新组合为搜索约束条件。
步骤D中,对索引表进行更新包括以下步骤,
D21、将步骤D11中的预搜索结果与步骤D13中的搜索结果进行比对;
D22、根据对比结果中不同组别数据的量的变化趋势建立更新目标函数,所述目标函数为使对比结果中不同组别数据的量的变化趋势保持平滑状态的最优解;
D23、在索引表建立若干分级节点,高级节点与其对应的低级节点之间保持线性相关性;
D24、建立迭代函数,对各节点按照级别由高至低逐一进行循环迭代,使其符合目标函数所给出的变化趋势。
步骤D24中,迭代函数的类型为,
其中,x为数据元素,y为与x相关的索引节点,F为非线性可导函数,n为迭代次数。
步骤E中,进行第二次搜索时,删除与第一次搜索时合并简化之后的搜索约束条件相冲突的搜索约束条件,然后直接进行搜索。
在步骤E进行第二次搜索之后,返回步骤C,根据两次搜索结果对不同数据子集间的关联度进行重新计算,并对映射函数进行更新。
对关联度进行重新计算的过程中,首先查找两次搜索结果的相似特征数据,使用相似特征数据在不同数据子集间检索,得出相似特征数据分布状态,利用相似特征数据分布状态对不同数据子集间的关联度进行调整,使映射函数与不同数据子集间相似特征数据分布状态线性相关。
本发明改变了传统的搜索方式,提高了搜索命中率,可在不改变硬件设备的前提下,将搜索效率提高20%~30%,大大缩短了搜索用时。
上述描述仅作为本发明可实施的技术方案提出,不作为对其技术方案本身的单一限制条件。

Claims (6)

1.一种基于大数据的自适应数据搜索方法,其特征在于包括以下步骤:
A、将待搜索数据集进行分类,形成若干个数据子集;
B、对各数据子集分别建立索引表;
C、计算不同数据子集间的关联度,按照关联度进行将序排列,从关联度最高的数据子集间开始,依次建立映射函数,直至所有数据子集有且只有一个映射函数;
D、对每个映射函数所关联的任意一个数据子集根据其索引表进行第一次搜索,然后根据搜索结果通过映射函数对映射函数所关联的另一个数据子集的索引表进行更新;
E、对索引表更新后的数据子集进行第二次搜索。
2.根据权利要求1所述的基于大数据的自适应数据搜索方法,其特征在于:步骤D中,进行第一次搜索包括以下步骤,
D11、选择搜索约束条件最少的索引路径进行预搜索;
D12、根据预搜索的结果,添加搜索约束条件;
D13、对搜索约束条件进行合并简化,根据合并简化之后的搜索约束条件进行搜索。
3.根据权利要求2所述的基于大数据的自适应数据搜索方法,其特征在于:步骤D13中,对搜索约束条件进行合并简化包括以下步骤,
D131、建立各搜索约束条件之间的关系集合;
D132、将不同搜索约束条件上的冲突特征进行标记,;
D133、将搜索约束条件中的非标记特征进行加权合并;
D134、根据搜索使用频率对搜索约束条件中的标记特征进行删减,对于相互冲突的标记特征,保留使用频率最高的标记特征,将其与标记特征删除;
D135、将保留的标记特征与非标记特征重新组合为搜索约束条件。
4.根据权利要求2所述的基于大数据的自适应数据搜索方法,其特征在于:步骤D中,对索引表进行更新包括以下步骤,
D21、将步骤D11中的预搜索结果与步骤D13中的搜索结果进行比对;
D22、根据对比结果中不同组别数据的量的变化趋势建立更新目标函数,所述目标函数为使对比结果中不同组别数据的量的变化趋势保持平滑状态的最优解;
D23、在索引表建立若干分级节点,高级节点与其对应的低级节点之间保持线性相关性;
D24、建立迭代函数,对各节点按照级别由高至低逐一进行循环迭代,使其符合目标函数所给出的变化趋势。
5.根据权利要求4所述的基于大数据的自适应数据搜索方法,其特征在于:步骤D24中,迭代函数的类型为,
其中,x为数据元素,y为与x相关的索引节点,F为非线性可导函数,n为迭代次数。
6.根据权利要求2所述的基于大数据的自适应数据搜索方法,其特征在于:步骤E中,进行第二次搜索时,删除与第一次搜索时合并简化之后的搜索约束条件相冲突的搜索约束条件,然后直接进行搜索。
CN201811304421.8A 2018-11-04 2018-11-04 一种基于大数据的自适应数据搜索方法 Active CN109063222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811304421.8A CN109063222B (zh) 2018-11-04 2018-11-04 一种基于大数据的自适应数据搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811304421.8A CN109063222B (zh) 2018-11-04 2018-11-04 一种基于大数据的自适应数据搜索方法

Publications (2)

Publication Number Publication Date
CN109063222A true CN109063222A (zh) 2018-12-21
CN109063222B CN109063222B (zh) 2021-11-30

Family

ID=64789044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811304421.8A Active CN109063222B (zh) 2018-11-04 2018-11-04 一种基于大数据的自适应数据搜索方法

Country Status (1)

Country Link
CN (1) CN109063222B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084376A (zh) * 2019-04-30 2019-08-02 成都四方伟业软件股份有限公司 对数据自动分箱的方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271454A (zh) * 2007-03-23 2008-09-24 百视通网络电视技术发展有限责任公司 可用于iptv的多媒体内容联合搜索与关联引擎系统
US20090327282A1 (en) * 2008-06-27 2009-12-31 Servo Software, Inc. Social mobile search
CN102073692A (zh) * 2010-12-16 2011-05-25 北京农业信息技术研究中心 基于农业领域本体库的语义检索系统和方法
CN102360372A (zh) * 2011-10-09 2012-02-22 北京航空航天大学 一种跨语种的文档相似性检测方法
CN104166651A (zh) * 2013-05-16 2014-11-26 阿里巴巴集团控股有限公司 基于对同类数据对象整合的数据搜索的方法和装置
CN104794237A (zh) * 2015-05-07 2015-07-22 中国人民大学 网页信息处理方法及装置
CN105005619A (zh) * 2015-07-22 2015-10-28 国家计算机网络与信息安全管理中心 一种海量网站基础信息的快速检索方法和系统
CN106202552A (zh) * 2016-07-27 2016-12-07 成都四象联创科技有限公司 基于云计算的数据搜索方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271454A (zh) * 2007-03-23 2008-09-24 百视通网络电视技术发展有限责任公司 可用于iptv的多媒体内容联合搜索与关联引擎系统
US20090327282A1 (en) * 2008-06-27 2009-12-31 Servo Software, Inc. Social mobile search
CN102073692A (zh) * 2010-12-16 2011-05-25 北京农业信息技术研究中心 基于农业领域本体库的语义检索系统和方法
CN102360372A (zh) * 2011-10-09 2012-02-22 北京航空航天大学 一种跨语种的文档相似性检测方法
CN104166651A (zh) * 2013-05-16 2014-11-26 阿里巴巴集团控股有限公司 基于对同类数据对象整合的数据搜索的方法和装置
CN104794237A (zh) * 2015-05-07 2015-07-22 中国人民大学 网页信息处理方法及装置
CN105005619A (zh) * 2015-07-22 2015-10-28 国家计算机网络与信息安全管理中心 一种海量网站基础信息的快速检索方法和系统
CN106202552A (zh) * 2016-07-27 2016-12-07 成都四象联创科技有限公司 基于云计算的数据搜索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084376A (zh) * 2019-04-30 2019-08-02 成都四方伟业软件股份有限公司 对数据自动分箱的方法及装置
CN110084376B (zh) * 2019-04-30 2021-05-14 成都四方伟业软件股份有限公司 对数据自动分箱的方法及装置

Also Published As

Publication number Publication date
CN109063222B (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
Zhang et al. Scalable skyline computation using object-based space partitioning
Zheng et al. Background learnable cascade for zero-shot object detection
CN103473248B (zh) 一种路网环境下的连续移动k近邻查询方法
CN110070121A (zh) 一种基于树策略与平衡k均值聚类的快速近似k近邻方法
CN108280472A (zh) 一种基于局部密度和聚类中心优化的密度峰聚类方法
CN110176280A (zh) 一种描述材料晶体结构的方法及其应用
CN112597345B (zh) 一种实验室数据自动采集与匹配方法
CN109271427A (zh) 一种基于近邻密度和流形距离的聚类方法
CN104615734B (zh) 一种社区管理服务大数据处理系统及其处理方法
CN109063222A (zh) 一种基于大数据的自适应数据搜索方法
KR20220070482A (ko) 이미지 증분 클러스터링 방법, 장치, 전자 기기, 저장 매체 및 프로그램 제품
CN108764307A (zh) 自然最近邻优化的密度峰值聚类方法
CN108564116A (zh) 一种摄像头场景图像的成分智能分析方法
CN107066328A (zh) 大规模数据处理平台的构建方法
CN103778196B (zh) 一种基于双色反最近邻查询的最优选址方法
CN109254962A (zh) 一种基于t-树的索引优化方法及装置
CN106055674B (zh) 一种分布式环境下基于度量空间的top-k支配查询方法
CN116720090A (zh) 一种基于层次的自适应聚类方法
CN112214488A (zh) 一种欧式空间数据索引树及构建和检索方法
CN112162986A (zh) 一种并行top-k范围skyline查询方法和系统
Jánošová et al. Organizing Similarity Spaces Using Metric Hulls
CN105404892B (zh) 基于有序模糊c均值聚类的青霉素发酵过程阶段划分方法
CN105956113B (zh) 基于粒子群优化的视频数据挖掘高维聚类方法
CN115116616A (zh) 基于组内组间优化的多重插补的乳腺癌缺失数据插补模型
CN112434035B (zh) 基于机器学习的并发哈希索引数据结构的索引方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211110

Address after: 100020 122, 1f, building 20, Yacheng Erli, Chaoyang District, Beijing

Applicant after: Longwei Huanqiu (Beijing) Technology Group Co., Ltd

Address before: 125001 shangpozi village, shaheying Township, Lianshan District, Huludao City, Liaoning Province

Applicant before: Ji tielei

GR01 Patent grant
GR01 Patent grant