CN107203554A - 一种分布式检索方法及装置 - Google Patents

一种分布式检索方法及装置 Download PDF

Info

Publication number
CN107203554A
CN107203554A CN201610154548.0A CN201610154548A CN107203554A CN 107203554 A CN107203554 A CN 107203554A CN 201610154548 A CN201610154548 A CN 201610154548A CN 107203554 A CN107203554 A CN 107203554A
Authority
CN
China
Prior art keywords
retrieval
data
module
memory module
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610154548.0A
Other languages
English (en)
Inventor
万意琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201610154548.0A priority Critical patent/CN107203554A/zh
Publication of CN107203554A publication Critical patent/CN107203554A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式检索方法及装置,所述方法包括:根据数据主题对原始数据进行分类,每类原始数据存储在若干个存储模块中;根据第一预设规则对存储模块进行分布式存储;根据预设关键字对每个存储模块进行检索,得到每个存储模块对应的检索结果,并将所有存储模块对应的检索结果合并为最终检索结果。所述装置包括:数据分类模块、分布式存储模块和检索模块。本发明通过对原始数据分类,并进行分布式存储和检索,检索时间短,命中率高,无需通过纵向扩展和横向扩展来提高检索效率,大大节省了软硬件资源消耗。

Description

一种分布式检索方法及装置
技术领域
本发明涉及计算机技术领域,具体涉及一种分布式检索方法及装置。
背景技术
随着传统互联网和移动互联网的持续发展,网络带给我们的是不断增长的各种不同价值信息,然而如何在信息海洋中快速检索到有价值信息,对于我们来讲至关重要。
随着企业和政府信息化建设的持续推进,相关系统平台会产生海量的日志数据,而这些日志数据的整合分析对于企业和政府相关单位具有非常重要的价值,既有关系型数据库能够存储如此海量的大数据,然而对于分析如此海量的大数据进而提供准确的信息查询服务则速度往往不能令人满意,检索时间长,命中率过低,效率低下等一系列问题暴露出来,所以对于新技术的需求就应运而生。
现有技术一般采用两种方式:横向扩展或者纵向扩展。纵向扩展是升级服务器的硬件资源。但是随着机器的性能配置越高,价格越高,这个代价对于一般的小公司是承担不起的。横向扩展是采用多个廉价的机器提供服务。这样一个机器只能处理200个数据、3个机器就可以处理600个数据了,如果以后业务量增加还可以快速配置增加,但横向扩展同时对数据管理和服务器管理提出了要求,需要同时维护多个服务器,且需要对数据进行有效管理。
发明内容
为了提高检索效率,当前采用服务器纵向扩展时对服务器的性能配置要求很高,且服务器价格过高,而采用横向扩展时需要同时维护多个服务器,且需要对数据进行有效管理的问题,本发明提出一种分布式检索方法及装置。
第一方面,本发明提出一种分布式检索方法,包括:
根据数据主题对原始数据进行分类,每类原始数据存储在若干个存储模块中;
根据第一预设规则对存储模块进行分布式存储;
根据预设关键字对每个存储模块进行检索,得到每个存储模块对应的检索结果,并将所有存储模块对应的检索结果合并为最终检索结果。
优选地,所述根据预设关键字对每个存储模块进行检索,进一步包括:
预设检索节点数,将所有存储模块按照第二预设规则分配给检索节点;
每个检索节点根据预设关键字对分配给当前检索节点的存储模块进行检索。
优选地,所述预设检索节点数之后,还包括:
增加检索节点。
优选地,所述原始数据包括关系型数据和文件数据。
优选地,所述关系型数据和所述文件数据存储在不同的存储模块中。
第二方面,本发明还提出一种分布式检索装置,包括:
数据分类模块,用于根据数据主题对原始数据进行分类,每类原始数据存储在若干个存储模块中;
分布式存储模块,用于根据第一预设规则对存储模块进行分布式存储;
检索模块,用于根据预设关键字对每个存储模块进行检索,得到每个存储模块对应的检索结果,并将所有存储模块对应的检索结果合并为最终检索结果。
优选地,所述检索模块还用于预设检索节点数,将所有存储模块按照第二预设规则分配给检索节点,以使每个检索节点根据预设关键字对分配给当前检索节点的存储模块进行检索。
优选地,所述检索模块还用于增加检索节点。
优选地,所述数据分类模块中的原始数据包括关系型数据和文件数据。
优选地,所述数据分类模块中关系型数据和所述文件数据存储在不同的存储模块中。
由上述技术方案可知,本发明通过对原始数据分类,并进行分布式存储和检索,检索时间短,命中率高,无需通过纵向扩展和横向扩展来提高检索效率,大大节省了软硬件资源消耗。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本发明一实施例提供的一种分布式检索方法的流程示意图;
图2为本发明一实施例提供的一种分布式检索方法的数据流示意图;
图3为本发明一实施例提供的一种分布式检索装置的结构示意图。
具体实施方式
下面结合附图,对发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
图1示出了本发明一实施例提供的一种分布式检索方法的流程示意图,包括:
S101、根据数据主题对原始数据进行分类,每类原始数据存储在若干个存储模块中;
S102、根据第一预设规则对存储模块进行分布式存储;
S103、根据预设关键字对每个存储模块进行检索,得到每个存储模块对应的检索结果,并将所有存储模块对应的检索结果合并为最终检索结果。
其中,数据主题可以为原始数据所属的技术领域或学科,也可以为原始数据描述内容的关键字,或者其它数据标识;存储模块是指逻辑上不连续的用于存储数据的单元;所述第一预设规则可以为存储模块的编号、大小或存储数据的类型,例如:按照存储数据的类型,将存储不同数据类型的存储模块存储在不同物理位置,如有相邻物理位置,则将存有相同数据类型的存储模块存储在一起,以便于在检索同一物理区域的数据时,无需切换检索策略,耗费多余资源。
如果某一类原始数据较少,则存储该类原始数据的存储模块可存储另一类原始数据。
本实施例通过对原始数据分类,并进行分布式存储和检索,检索时间短,命中率高,能够准确挖掘出用户关心及相关的数据,无需通过纵向扩展和横向扩展来提高检索效率,大大节省了软硬件资源消耗。
作为本实施例的可选方案,步骤S103进一步包括:
S1031、预设检索节点数,将所有存储模块按照第二预设规则分配给检索节点;
S1032、每个检索节点根据预设关键字对分配给当前检索节点的存储模块进行检索。
举例来说,当预设检索节点数为5时,表示所有的存储模块将分为5组,每个检索节点分配一组存储模块,即表示同时对5个存储模块进行检索,可大大提高检索速度。其中,所述第二预设规则可以为存储模块的编号、大小或存储数据的类型。
通过设置多个检索节点,能够同时对多个存储模块进行检索,大大提高了检索速度。
进一步地,步骤S1031中所述预设检索节点数之后,还包括:
增加检索节点。
如果当前检索效率不满足要求,可以拓展当前检索环境,增加检索节点,同时检索的存储模块数增加,从而提高检索效率。由此可见,本实施例提供的分布式检索方法易扩展。
具体地,所述原始数据包括关系型数据和文件数据。
更进一步地,所述关系型数据和所述文件数据存储在不同的存储模块中。
通过将不同类型的原始数据存储在不同的存储模块中,能够避免在检索同一个存储模块时切换检索策略,耗费多余资源。
为了更详细地说明本实施例提供的分布式检索方法,以图2所示为例,描述分布式检索方法中的数据流:将关系型数据存储在第一存储模块至第三存储模块,将文件数据存储在第四存储模块。设置2个检索节点(图2中未示出),第一检索节点检索第一存储模块至第三存储模块,第二检索节点检索第四检索节点。通过对每个存储模块进行检索,得到对应的第一检索结果至第四检索结果,将第一检索结果至第四检索结果合并为最终检索结果。
进一步地,由于上述最终检索结果效率太低,不符合要求,因此增加三个存储模块,将原来第四存储模块中的文件数据分布存储在第四存储模块至第七存储模块中;同时增加1个检索节点(图2中未示出):第三检索节点,用于检索第五存储模块至第七存储模块,第一检索节点和第二检索节点的检索范围不变。得到对应的第一检索结果至第七检索结果,将第一检索结果至第七检索结果合并为最终检索结果。
图3示出了本发明一实施例提供的一种分布式检索装置的结构示意图,包括:
数据分类模块31,用于根据数据主题对原始数据进行分类,每类原始数据存储在若干个存储模块中;
分布式存储模块32,用于根据第一预设规则对存储模块进行分布式存储;
检索模块33,用于根据预设关键字对每个存储模块进行检索,得到每个存储模块对应的检索结果,并将所有存储模块对应的检索结果合并为最终检索结果。
本实施例通过对原始数据分类,并进行分布式存储和检索,检索时间短,命中率高,能够准确挖掘出用户关心及相关的数据,无需通过纵向扩展和横向扩展来提高检索效率,大大节省了软硬件资源消耗。
作为本实施例的可选方案,所述检索模块33还用于预设检索节点数,将所有存储模块按照第二预设规则分配给检索节点,以使每个检索节点根据预设关键字对分配给当前检索节点的存储模块进行检索。
进一步地,所述检索模块33还用于增加检索节点。
具体地,所述数据分类模块31中的原始数据包括关系型数据和文件数据。
更进一步地,所述数据分类模块31中关系型数据和所述文件数据存储在不同的存储模块中。
本发明的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

Claims (10)

1.一种分布式检索方法,其特征在于,包括:
根据数据主题对原始数据进行分类,每类原始数据存储在若干个存储模块中;
根据第一预设规则对存储模块进行分布式存储;
根据预设关键字对每个存储模块进行检索,得到每个存储模块对应的检索结果,并将所有存储模块对应的检索结果合并为最终检索结果。
2.根据权利要求1所述的方法,其特征在于,所述根据预设关键字对每个存储模块进行检索,进一步包括:
预设检索节点数,将所有存储模块按照第二预设规则分配给检索节点;
每个检索节点根据预设关键字对分配给当前检索节点的存储模块进行检索。
3.根据权利要求2所述的方法,其特征在于,所述预设检索节点数之后,还包括:
增加检索节点。
4.根据权利要求3所述的方法,其特征在于,所述原始数据包括关系型数据和文件数据。
5.根据权利要求4所述的方法,其特征在于,所述关系型数据和所述文件数据存储在不同的存储模块中。
6.一种分布式检索装置,其特征在于,包括:
数据分类模块,用于根据数据主题对原始数据进行分类,每类原始数据存储在若干个存储模块中;
分布式存储模块,用于根据第一预设规则对存储模块进行分布式存储;
检索模块,用于根据预设关键字对每个存储模块进行检索,得到每个存储模块对应的检索结果,并将所有存储模块对应的检索结果合并为最终检索结果。
7.根据权利要求6所述的装置,其特征在于,所述检索模块还用于预设检索节点数,将所有存储模块按照第二预设规则分配给检索节点,以使每个检索节点根据预设关键字对分配给当前检索节点的存储模块进行检索。
8.根据权利要求7所述的装置,其特征在于,所述检索模块还用于增加检索节点。
9.根据权利要求8所述的装置,其特征在于,所述数据分类模块中的原始数据包括关系型数据和文件数据。
10.根据权利要求9所述的装置,其特征在于,所述数据分类模块中关系型数据和所述文件数据存储在不同的存储模块中。
CN201610154548.0A 2016-03-17 2016-03-17 一种分布式检索方法及装置 Pending CN107203554A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610154548.0A CN107203554A (zh) 2016-03-17 2016-03-17 一种分布式检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610154548.0A CN107203554A (zh) 2016-03-17 2016-03-17 一种分布式检索方法及装置

Publications (1)

Publication Number Publication Date
CN107203554A true CN107203554A (zh) 2017-09-26

Family

ID=59904095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610154548.0A Pending CN107203554A (zh) 2016-03-17 2016-03-17 一种分布式检索方法及装置

Country Status (1)

Country Link
CN (1) CN107203554A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874417A (zh) * 2018-09-04 2020-03-10 华为技术有限公司 数据检索的方法和装置
CN112883016A (zh) * 2021-04-28 2021-06-01 睿至科技集团有限公司 一种数据存储的优化方法及其系统
CN113392304A (zh) * 2020-03-11 2021-09-14 淄博职业学院 一种大数据存储服务方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436513A (zh) * 2012-01-18 2012-05-02 中国电子科技集团公司第十五研究所 分布式检索方法和系统
CN104123300A (zh) * 2013-04-26 2014-10-29 上海云人信息科技有限公司 数据分布式存储系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436513A (zh) * 2012-01-18 2012-05-02 中国电子科技集团公司第十五研究所 分布式检索方法和系统
CN104123300A (zh) * 2013-04-26 2014-10-29 上海云人信息科技有限公司 数据分布式存储系统及方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874417A (zh) * 2018-09-04 2020-03-10 华为技术有限公司 数据检索的方法和装置
US11816117B2 (en) 2018-09-04 2023-11-14 Huawei Technologies Co., Ltd. Data retrieval method and apparatus
CN110874417B (zh) * 2018-09-04 2024-04-16 华为技术有限公司 数据检索的方法和装置
CN113392304A (zh) * 2020-03-11 2021-09-14 淄博职业学院 一种大数据存储服务方法
CN113392304B (zh) * 2020-03-11 2023-05-12 淄博职业学院 一种大数据存储服务方法
CN112883016A (zh) * 2021-04-28 2021-06-01 睿至科技集团有限公司 一种数据存储的优化方法及其系统
CN112883016B (zh) * 2021-04-28 2021-07-20 睿至科技集团有限公司 一种数据存储的优化方法及其系统

Similar Documents

Publication Publication Date Title
CN106484875B (zh) 基于molap的数据处理方法及装置
US9417774B2 (en) Proactive monitoring tree with node pinning for concurrent node comparisons
CN104794177B (zh) 一种数据存储方法及装置
CN103631922B (zh) 基于Hadoop集群的大规模Web信息提取方法及系统
US20160330090A1 (en) User interface that provides a proactive monitoring tree with severity state sorting
US20160330093A1 (en) User interface that provides a proactive monitoring tree with state distribution ring
CN106897361B (zh) 基于树状结构的标签页分组管理系统及方法
CN104408163B (zh) 一种数据分级存储方法和装置
CN107491487A (zh) 一种全文数据库架构及位图索引创建、数据查询方法、服务器及介质
CN103324763B (zh) 一种手机端树形数据结构的展现方法
CN105843841A (zh) 一种小文件存储方法和系统
CN107291539B (zh) 基于资源重要程度的集群程序调度方法
CN106528787A (zh) 一种基于海量数据多维分析的查询方法及装置
CN106407244A (zh) 基于多数据库的数据查询方法、系统和装置
CN1975772B (zh) 整合多个系统中的信息的方法和装置
CN104239377A (zh) 跨平台的数据检索方法及装置
CN108509437A (zh) 一种ElasticSearch查询加速方法
CN106033428B (zh) 统一资源定位符的选择方法和统一资源定位符的选择装置
CN104077415A (zh) 搜索方法及装置
CN106815254A (zh) 一种数据处理方法和装置
CN104021125A (zh) 一种搜索引擎排序的方法、系统以及一种搜索引擎
US20110179013A1 (en) Search Log Online Analytic Processing
CN106570145B (zh) 一种基于分层映射的分布式数据库结果缓存方法
CN102214183A (zh) 按页面反馈内容与固定排名相结合的搜索引擎查询方法
CN102158533B (zh) 基于QoS的分布式web服务选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170926