CN106156271A - 基于分布式存储的关联信息索引系统及其建立与使用方法 - Google Patents

基于分布式存储的关联信息索引系统及其建立与使用方法 Download PDF

Info

Publication number
CN106156271A
CN106156271A CN201610442493.3A CN201610442493A CN106156271A CN 106156271 A CN106156271 A CN 106156271A CN 201610442493 A CN201610442493 A CN 201610442493A CN 106156271 A CN106156271 A CN 106156271A
Authority
CN
China
Prior art keywords
index
group
level
tuple
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610442493.3A
Other languages
English (en)
Inventor
夏正友
鹿迅
马天任
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201610442493.3A priority Critical patent/CN106156271A/zh
Publication of CN106156271A publication Critical patent/CN106156271A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于分布式存储的关联信息索引系统,使用了二级索引来提高检索的效率。使用二级索引,可以大大加快对数据的找查与定位。二级索引存放一组具有关联的元组信息,二级索引组里面存放了一组有关联的元组索引信息。一级索引存放所有二级索引索的索引信息。查询时首先定位到一级索引的位置,在一级索引中筛选出符合条件的二级索引,再在筛选出的二级索引下继续查找符合条件的关联索引信息。本发明提高了在分布式数据库中查询关联信息的效率;它基于现有的数据库索引技术,提供一种策略,当在量的分布式海数据库中进行关联信息查询时,会大幅提高查询效率。

Description

基于分布式存储的关联信息索引系统及其建立与使用方法
技术领域
本发明属于计算机分布式数据库技术领域,具体涉及一种基于分布式存储的关联信息索引方法,为一种用于提高方法分布式数据库中关联信息查询效率的方法。
背景技术
随着互联网的发展和应用,人类社会产生了越来越多的数据信息。为了存储这些海量数据,分布式数据库应运而生。一般数据库为了提高查询效率,往往对数据库中的元组部分属性创建索引。这种方法,对于费海量的数据查询十分高效。由于分布式数据库中存有海量数据,因此当数据增长到一定规模时,使用索引查询数据也十分缓慢,难以达到预期效果。对于一些特定应用,在数据库中查询关联元组信息,这种情况将将更加耗时和低效。如果存在一种基于分布式存储的关联信息索引方法,那么在处理这种问题时,将会大大提高查询效率。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于分布式存储的关联信息索引系统及其建立与使用方法,提高在分布式数据库中查询关联信息的效率;它基于现有的数据库索引技术,提供一种策略,当在量的分布式海数据库中进行关联信息查询时,会大幅提高查询效率。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于分布式存储的关联信息索引系统,分布式数据库中所有元组按照关联性划分成若干分类组,设置二级索引系统进行查找定位,其中,
一级索引为:每一个分类组设置一个索引,即为分类组索引;
二级索引为:一个分类组中的一个元祖的索引,即为分类组元组索引。
进一步的,二级索引存放一个分类组中的一组具有关联的元组信息,表示为A1(a11,a12,...,a1k),A2(a21,a22,...,a2m),...An(an1,an2,...,anl),其中,Ai是一个二级索引组,存放所述二级索引;
一级索引存放所述二级索引组的索引信息,表示为I(f(A1),f(A2),...,f(An)),其中,I是一个一级索引组,存放所述一级索引。
一种基于分布式存储的关联信息索引的建立方法,具体包括如下步骤:
步骤一、遍历分布式数据库中所有元组;
步骤二、使用算法处理所述元组,将具有关联的元组划分到一个分类组中,形成若干分类组;
步骤三、为一个分类组中的具有关联的一个元组根据其属性创建一组索引,即为二级索引;建立一个二级索引组,存放此分类组中的所有二级索引;
步骤四、为所述每一个二级索引组创建一个索引,即为一级索引;建立一个一级索引组,存放所有一级索引。
进一步的,所述步骤二中使用关联规则算法模型处理所述元组,对所有元组的数据进行关联、分类。
进一步的,所述关联规则算法模型的方法中进行阈值设定,包括关联规则中的置信度和支持度。
一种基于分布式存储的关联信息索引的使用方法,采用关键词查询关联元组信息,具体步骤包括:
1.查询所述关键词所在的一级索引,再从一级索引中去查找所有满足条件的二级索引;
2.确定了二级索引之后,直接到所述分布式数据库中去查找所有关联的元组信息;
3.输出结果。
有益效果:本发明提供的基于分布式存储的关联信息索引系统及其建立与使用方法,优点主要有:
1.使用高效的关联规则算法。高效的关联规则算法可以很好地将有强关联的元组信息关联到一起,方便之后为具有关联的元组创建索引;
2.通过创建二级索引提高查询效率。将具有强关联的元组关联到一起,然后为他们创建索引。并对每个组创建一个唯一标识的索引。相当于创建一个二级索引,这就大大提高了分布式数据库的查询效率。
3.实现了关联规则和创建索引的实时更新。系统会在不受外界干扰的条件下,根据关联规则设定的阈值,实时更新关联后的元组信息和索引信息。这样用户在查询分布式数据库关联元组信息时,就能根据实时信息,提高查询的效率。
附图说明
图1为创建索引整体流程图;
图2为分类结果图;
图3为建立索引流程图;
图4为查询流程图;
图5为一级索引和二级索引之间的逻辑关系;
图6为本发明实施例检索时效对比示意图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
一种基于分布式存储的关联信息索引系统,分布式数据库中所有元组按照关联性划分成若干分类组,设置二级索引系统进行查找定位,其中,
一级索引为:每一个分类组设置一个索引,即为分类组索引;
二级索引为:一个分类组中的一个元祖的索引,即为分类组元组索引。
一级索引就是分类组的索引,我们称之为分类组索引;二级索引就是这个分类组中的一个元祖的索引,我们称之为分类组元组索引。
二级索引存放一个分类组中的一组具有关联的元组信息,表示为A1(a11,a12,...,a1k),A2(a21,a22,...,a2m),...An(an1,an2,...,anl),其中,Ai是一个二级索引组,存放二级索引,即为存放一组有关联的分类组元组索引信息;
一级索引存放二级索引组的索引信息,表示为I(f(A1),f(A2),...,f(An)),其中,I是一个一级索引组,存放一级索引。
上述的一种基于分布式存储的关联信息索引的建立方法,具体包括如下步骤:
步骤一、遍历分布式数据库中所有元组;
步骤二、使用关联规则算法模型处理元组,将具有关联的元组划分到一个分类中,形成若干分类组;关联规则算法模型的方法中进行阈值设定,包括关联规则中的置信度和支持度;
步骤三、为一个分类组中的具有关联的一个元组属性创建一组索引,这些索引就是即为二级索引;讲这些二级索引存放在一个数组中,也就是二级索引组,存放此分类组中的所有二级索引;
为同一个分类组中具有关联的元组属性建立一个二级索引组,所有同一分类的元组属性的索引都包含在这个组内,这样形成若干个二级索引组,假设有N个分类,那么就形成N个二级索引组,这些索引被称之二级索引。
步骤四、为这N个二级索引组中的每一个二级索引组再各自创建一个索引,即为一级索引;这些一级索引被存放在一个新的数组内,即为一级索引组,存放所有一级索引。
上述的一种基于分布式存储的关联信息索引的使用方法,采用关键词查询关联元组信息,具体步骤包括:
1.查询关键词所在的一级索引,再从一级索引中去查找所有满足条件的二级索引;
2.确定了二级索引之后,直接到分布式数据库中去查找所有关联的元组信息;
3.输出结果。
查询时,首先查询一级索引,在一级索引中确定要继续查找的二级索引。一级索引和二级索引之间的关系如图5所示。
本发明中,使用了二级索引来提高检索的效率。使用二级索引,可以大大加快对数据的找查与定位。二级索引中的一级索引存放具有关联的元组的索引入口的索引信息,二级索引存放一组具有关联的元组信息。查询时,会首先定位到一级索引的位置,一级索引相当于提供入口信息,然后再在该索引下继续查找符合条件的关联索引信息。
本发明中,为了提高关联程度,专门使用了关联规则算法,并通过实验设定阈值以期达到比较好的效果。阈值主要是指关联规则中的置信度和支持度。由于分布式数据库中的数据规模在不断增加,为了取得很好的效果,我们需要不断通过实验,更改阈值,使得关联效果最好。置信度和支持度往往根据经验设定,具体说来就是在数据量不同时,进行试验,通过实验得到一组比较理想的置信度和支持度,由于数据库中的数据一直在变化,因此这两个值理论上也是在不断发生变化的,因此,需要经常做实验,动态地设置置信度和支持度。
如图1所示是本发明中的整体流程图。首先从数据库中读取所有数据,然后,对这些数据使用关联规则算法,将具有强关联的所有元组放划分到一个类别中,之后为同一个类别中的所有元组的属性创建索引,这些索引就是二级索引。将这些二级索引都存放在一个数组中,称之为二级索引组。这样,有几个类别理论上就应该有几个二级索引组。之后,在为每一个二级索引组各自创建一个索引,称之为一级索引,把这些一级索引存放在一个新的数组中,称之为一级索引组。
如图2所示,是使用关联规则之后的结果图。对数据库中的所有元组使用关联规则算法,将具有强关联的元组信息进行关联。有关联的元组信息存放到一个类别中,图2就是将部分结果以图的形式体现。
如图3所示是建立索引流程图。它详细描述了在关联之后如何建立索引的过程。首先获得所有关联的元组信息,对每一组具有关联的元组创建一组索引,以供查询关联元组。然后为每一个索引组创建一个索引,可以唯一标识这个索引组。这样就可以减少在分布式数据库中检索的时间,大大提高效率。
图4是查询流程图。首先由用户输入关键词,然后系统会去查找该关键词对应的索引组,从索引组中找到所有与之关联的元组信息的索引。再通过索引去查询数据,将结果输出。
实施例
我们的数据库中目前有190435条用户注册信息数据,这些注册信息数据包含了他们的个人描述和自己定义的标签,我们有一个需求,输入一个情感类的字符串,比如勇敢,得到所有倾向勇敢的用户的信息。我们一共做了10组实验,分别输入不同情感类的词汇,对比使用本发明前后程序检索的效率。结果如图6所示。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于分布式存储的关联信息索引系统,其特征在于:分布式数据库中所有元组按照关联性划分成若干分类组,设置二级索引系统进行查找定位,其中,
一级索引为:每一个分类组设置一个索引,即为分类组索引;
二级索引为:一个分类组中的一个元祖的索引,即为分类组元组索引。
2.根据权利要求1所述的基于分布式存储的关联信息索引,其特征在于:二级索引存放一个分类组中的一组具有关联的元组信息,表示为A1(a11,a12,...,a1k),A2(a21,a22,...,a2m),...An(an1,an2,...,anl),其中,Ai是一个二级索引组,存放所述二级索引;
一级索引存放所述二级索引组的索引信息,表示为I(f(A1),f(A2),...,f(An)),其中,I是一个一级索引组,存放所述一级索引。
3.根据权利要求1或2所述的基于分布式存储的关联信息索引的建立方法,其特征在于:具体包括如下步骤:
步骤一、遍历分布式数据库中所有元组;
步骤二、使用算法处理所述元组,将具有关联的元组划分到一个分类组中,形成若干分类组;
步骤三、为一个分类组中的具有关联的一个元组根据其属性创建一组索引,即为二级索引;建立一个二级索引组,存放此分类组中的所有二级索引;
步骤四、为所述每一个二级索引组创建一个索引,即为一级索引;建立一个一级索引组,存放所有一级索引。
4.根据权利要求2所述的基于分布式存储的关联信息索引的建立方法,其特征在于:所述步骤二中使用关联规则算法模型处理所述元组,对所有元组的数据进行关联、分类。
5.根据权利要求3所述的基于分布式存储的关联信息索引的建立方法,其特征在于:所述关联规则算法模型的方法中进行阈值设定,包括关联规则中的置信度和支持度。
6.根据权利要求1或2所述的基于分布式存储的关联信息索引的使用方法,其特征在于:采用关键词查询关联元组信息,具体步骤包括:
1.查询所述关键词所在的一级索引,从一级索引中去查找所有满足条件的二级索引;
2.确定了二级索引之后,直接到所述分布式数据库中去查找所有关联的元组信息;
3.输出结果。
CN201610442493.3A 2016-06-20 2016-06-20 基于分布式存储的关联信息索引系统及其建立与使用方法 Pending CN106156271A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610442493.3A CN106156271A (zh) 2016-06-20 2016-06-20 基于分布式存储的关联信息索引系统及其建立与使用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610442493.3A CN106156271A (zh) 2016-06-20 2016-06-20 基于分布式存储的关联信息索引系统及其建立与使用方法

Publications (1)

Publication Number Publication Date
CN106156271A true CN106156271A (zh) 2016-11-23

Family

ID=57352914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610442493.3A Pending CN106156271A (zh) 2016-06-20 2016-06-20 基于分布式存储的关联信息索引系统及其建立与使用方法

Country Status (1)

Country Link
CN (1) CN106156271A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203603A (zh) * 2017-05-15 2017-09-26 福建中金在线信息科技有限公司 一种信息缓存、读取方法及装置和电子设备
CN107273556A (zh) * 2017-08-23 2017-10-20 上海点融信息科技有限责任公司 区块链数据索引方法和设备
CN109104447A (zh) * 2017-06-20 2018-12-28 杭州海康威视数字技术股份有限公司 一种车载数据读写方法及装置
CN110633379A (zh) * 2019-08-29 2019-12-31 北京睿企信息科技有限公司 一种基于gpu并行运算的以图搜图系统及方法
CN112800179A (zh) * 2021-02-02 2021-05-14 浙江公共安全技术研究院有限公司 关联数据库查询方法、装置、存储介质及电子设备
CN113377764A (zh) * 2021-05-07 2021-09-10 北京锐服信科技有限公司 一种pcap数据包高速索引方法及系统
CN114722074A (zh) * 2022-04-22 2022-07-08 深圳微言科技有限责任公司 一种数据表的生成方法、系统及装置
WO2023197904A1 (zh) * 2022-04-13 2023-10-19 北京字节跳动网络技术有限公司 一种数据处理方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102724488A (zh) * 2011-03-31 2012-10-10 新奥特(北京)视频技术有限公司 一种支持flv文件直接帧精确定位的索引方法
CN102982807A (zh) * 2012-07-17 2013-03-20 深圳广晟信源技术有限公司 用于对语音信号lpc系数进行多级矢量量化的方法和系统
CN104252528A (zh) * 2014-09-04 2014-12-31 国家电网公司 基于标识符空间映射的大数据二级索引构建方法
CN104834688A (zh) * 2015-04-20 2015-08-12 北京奇艺世纪科技有限公司 一种二级索引建立方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102724488A (zh) * 2011-03-31 2012-10-10 新奥特(北京)视频技术有限公司 一种支持flv文件直接帧精确定位的索引方法
CN102982807A (zh) * 2012-07-17 2013-03-20 深圳广晟信源技术有限公司 用于对语音信号lpc系数进行多级矢量量化的方法和系统
CN104252528A (zh) * 2014-09-04 2014-12-31 国家电网公司 基于标识符空间映射的大数据二级索引构建方法
CN104834688A (zh) * 2015-04-20 2015-08-12 北京奇艺世纪科技有限公司 一种二级索引建立方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马友忠 等: "云数据管理索引技术研究", 《软件学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203603A (zh) * 2017-05-15 2017-09-26 福建中金在线信息科技有限公司 一种信息缓存、读取方法及装置和电子设备
CN109104447A (zh) * 2017-06-20 2018-12-28 杭州海康威视数字技术股份有限公司 一种车载数据读写方法及装置
CN107273556A (zh) * 2017-08-23 2017-10-20 上海点融信息科技有限责任公司 区块链数据索引方法和设备
CN110633379A (zh) * 2019-08-29 2019-12-31 北京睿企信息科技有限公司 一种基于gpu并行运算的以图搜图系统及方法
CN110633379B (zh) * 2019-08-29 2023-04-28 北京睿企信息科技有限公司 一种基于gpu并行运算的以图搜图系统及方法
CN112800179A (zh) * 2021-02-02 2021-05-14 浙江公共安全技术研究院有限公司 关联数据库查询方法、装置、存储介质及电子设备
CN112800179B (zh) * 2021-02-02 2022-02-15 浙江公共安全技术研究院有限公司 关联数据库查询方法、装置、存储介质及电子设备
CN113377764A (zh) * 2021-05-07 2021-09-10 北京锐服信科技有限公司 一种pcap数据包高速索引方法及系统
CN113377764B (zh) * 2021-05-07 2024-04-12 北京锐服信科技有限公司 一种pcap数据包高速索引方法及系统
WO2023197904A1 (zh) * 2022-04-13 2023-10-19 北京字节跳动网络技术有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN114722074A (zh) * 2022-04-22 2022-07-08 深圳微言科技有限责任公司 一种数据表的生成方法、系统及装置

Similar Documents

Publication Publication Date Title
CN106156271A (zh) 基于分布式存储的关联信息索引系统及其建立与使用方法
CN104239513B (zh) 一种面向领域数据的语义检索方法
WO2021083239A1 (zh) 一种进行图数据查询的方法、装置、设备及存储介质
CN108846029B (zh) 基于知识图谱的情报关联分析方法
CN110727839B (zh) 自然语言查询的语义解析
CN103218436B (zh) 一种融合用户类别标签的相似问题检索方法及装置
CN110516047A (zh) 基于包装领域的知识图谱的检索方法及检索系统
CN114218400A (zh) 基于语义的数据湖查询系统及方法
CN108664599A (zh) 智能问答方法、装置、智能问答服务器及存储介质
CN107885786A (zh) 面向大数据的自然语言查询接口实现方法
CN104391908B (zh) 一种图上基于局部敏感哈希的多关键字索引方法
CN104699786A (zh) 一种语义智能搜索的通信网络投诉系统
CN113297395B (zh) 时空多模态混合数据处理方法、关联方法与索引方法
CN108509543A (zh) 一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法
CN109408578A (zh) 一种针对异构环境监测数据融合方法
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN104809210B (zh) 一种基于分布式计算框架下海量数据加权top‑k查询方法
CN104317853B (zh) 一种基于语义Web的服务簇构建方法
CN107229704A (zh) 一种基于ksp算法的资源描述框架查询方法和系统
Wang et al. gst-Store: An Engine for Large RDF Graph Integrating Spatiotemporal Information.
Abdallah et al. Towards a gml-enabled knowledge graph platform
Wang et al. Ontology-assisted deep Web source selection
CN109460415A (zh) 一种基于n维向量夹角余弦的相似夹具检索方法
CN103761285A (zh) 一种面向用户需求的服务资源检索方法
Pandey et al. Merging data mining techniques for web page access prediction: Integrating Markov model with clustering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161123