CN110968762A - 一种用于检索的调整方法及装置 - Google Patents

一种用于检索的调整方法及装置 Download PDF

Info

Publication number
CN110968762A
CN110968762A CN201911233481.XA CN201911233481A CN110968762A CN 110968762 A CN110968762 A CN 110968762A CN 201911233481 A CN201911233481 A CN 201911233481A CN 110968762 A CN110968762 A CN 110968762A
Authority
CN
China
Prior art keywords
data
adjusted
node
target
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911233481.XA
Other languages
English (en)
Other versions
CN110968762B (zh
Inventor
刘海忠
牛亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN201911233481.XA priority Critical patent/CN110968762B/zh
Publication of CN110968762A publication Critical patent/CN110968762A/zh
Application granted granted Critical
Publication of CN110968762B publication Critical patent/CN110968762B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种用于检索的调整方法及装置,方法包括:以主节点、数据节点、协调节点、资源、索引、待存储数据、用于存储数据的存储分片中至少一种类型,确定检索系统中的待调整对象;针对不同类型的待调整对象配置调整策略,以通过调整该待调整对象启动检索系统的海量数据存储和查询。采用本申请提供的方案,能够针对不同类型的待调整对象配置调整策略,以通过调整该待调整对象启动检索系统的海量数据存储和查询,从而实现对检索系统的调整。

Description

一种用于检索的调整方法及装置
技术领域
本申请涉及检索领域,特别涉及一种用于检索的调整方法及装置。
背景技术
随着互联网技术的不断发展和信息化程度的不断提高,数据量迅速增长,支持海量数据存储及应用也随之蓬勃发展。
由于互联网中的数据量越来越庞大,人们想要从从海量的数据中,寻找到自己想要的信息,如果逐条寻找,显然是不太现实的,基于这样的情况,检索成为用户获取信息的最重要途径。
目前的检索方式主要分为目录浏览和使用检索系统。目前的检索系统,在最初架构设计时,已经设计了一套相对完善的运行机制,随着时代进步,检索系统架构和算法也在不断完善和成熟,检索系统需要进行不断调整,目前,还没有一种对已有的检索系统中资源分配机制、节点、存储分片划分等各类机制进行调整的方案,因此,提出一种用于检索的调整方法,来实现对检索系统的调整,是一亟待解决的技术问题。
发明内容
本申请实施例的目的在于提供一种用于检索的调整方法及装置,用以实现对检索系统的调整。
本申请实施例提供一种用于检索的调整方法,包括:
以主节点、数据节点、协调节点、资源、索引、待存储数据、用于存储数据的存储分片中至少一种类型,确定检索系统中的待调整对象;
针对不同类型的待调整对象配置调整策略,以通过调整该待调整对象启动检索系统的海量数据存储和查询。
本发明的有益效果在于:以主节点、数据节点、协调节点、资源、索引、待存储数据、用于存储数据的存储分片中至少一种类型,确定检索系统中的待调整对象;可以针对不同类型的待调整对象配置调整策略,以通过调整该待调整对象启动检索系统的海量数据存储和查询,从而实现对检索系统的调整。
在一个实施例中,当所述待调整对象为主节点、数据节点和资源时,针对不同类型的待调整对象配置调整策略,包括:
向所述主节点分配小于第一预设比例的资源,其中,所述资源包括以下至少一种资源:系统运行时所需的CPU资源、内存资源、硬盘资源以及网络资源;
向所述数据节点分配大于第二预设比例的资源,其中,所述第一预设值小于或等于第二预设值。
本实施例的有益效果在于:能够根据各类节点功能的不同来分配相应比例的资源,从而均衡各个节点的负载。
在一个实施例中,当所述待调整对象为协调节点、索引和资源时,针对不同类型的待调整对象配置调整策略,包括:
确定本地的索引数量和各索引的量级;
根据索引数量和各索引的量级,向所述索引对应配置对应的协调节点,其中,各协调节点所分配的资源大小与其对应索引的量级正相关。
本实施例的有益效果在于:根据索引数量和各索引的量级向索引一一对应配置预先确定的协调节点,其中,各协调节点所分配的资源大小与其对应索引的量级正相关,从而使得各个协调节点的协调能力与索引量级相匹配,进一步均衡了各个节点的负载。
在一个实施例证,当所述待调整对象为待存储数据和用于存储待存储数据的存储分片时,针对不同类型的待调整对象配置调整策略,包括:
确定待存储数据对应的存储分片编号;
将所述待存储数据存储到所述存储分片编号对应的存储分片中。
在一个实施例中,当所述待调整对象为索引时,针对不同类型的待调整对象配置调整策略,包括:
获取预定义的索引模板;
根据预定义的索引模板生成相应的索引,其中,同一索引模板生成相同类型的索引;
根据生成的索引中文档的创建日期对所述索引进行切割,以形成多个切割后的索引。
在一个实施例中,当所述待调整对象为数据节点时,针对不同类型的待调整对象配置调整策略,包括:
获取各数据节点对应的访问频次;
根据各数据节点对应的访问频次确定热门数据节点和非热门数据节点;
将所述热门数据节点的资源上调至大于第三预设值;
将所述非热门数据节点的资源下调至小于第四预设值,并禁止所述非热门数据节点的读写操作,其中,所述第三预设值大于第四预设值。
本实施例的有益效果在于:将所述热门数据节点的资源上调至大于第三预设值;将所述非热门数据节点的资源下调至小于第四预设值,并禁止所述非热门数据节点的读写操作,从而使访问频次高热门数据节点获取比访问频次低的冷门数据节点更多的资源,进一步均衡了各数据节点的负载。
在一个实施例中,当所述待调整对象为数据节点时,针对不同类型的待调整对象配置调整策略,还包括:
根据第一预设频率获取所述热门数据节点中存储的目标数据的创建时间和访问频次;
根据所述目标数据的创建时间和访问频次确定所述目标数据中的热门数据和非热门数据;
将所述目标数据中的非热门数据从所述热门节点中迁移至非热门节点中;
根据创建时间和访问频次将所述目标数据中的热门数据进行排序;
确定排名最靠前的预设数目条热门数据为目标热门数据;
根据第二预设频率对所述目标热门数据进行查询,以使所述目标热门数据存放至缓存中;其中,所述第二预设时间间隔小于或等于缓存自动清理的时间间隔。
本实施例的有益效果在于:根据创建时间和访问频次将目标数据中最靠前的预设数目条热门数据存放到缓存中,并且根据一定的频率对热门数据进行查询,使得目标热门数据一直存放在缓存中,增加了用户对目标热门数据的访问速度。
在一个实施例中,当所述待调整对象为存储分片时,针对不同类型的待调整对象配置调整策略,包括:
获取目标索引对应的数据;
判断存储所述目标索引对应的数据的存储分片的数目;
当所述存储分片的数目大于预设数目时,调用合并方法将所述存储分片进行合并,以使所述存储分片的数目变为目标数目,其中,所述预设数目大于所述目标数目。
在一个实施例中,所述目标数目通过如下方式计算:
获取所述目标索引所在节点的资源分配比例和所述目标索引存储的数据量;
根据所述目标索引所在节点的资源分配比例和所述目标索引存储的数据量计算分片数量区间;
判断所述分片数量区间内是否存在所述预设数目的因数;
当所述分片数量区间内存在所述目标数目的一个因数时,确定所述因数为所述目标数目;
当所述分片数量区间内存在所述目标数目的多个因数时,随机选取其中一个因数作为所述目标数目。
本申请实施例还提供一种用于检索的调整装置,包括:
确定模块,用于以主节点、数据节点、协调节点、资源、索引、待存储数据、用于存储数据的存储分片中至少一种类型,确定检索系统中的待调整对象;
启动模块,用于针对不同类型的待调整对象配置调整策略,以通过调整该待调整对象启动检索系统的海量数据存储和查询。
附图说明
图1为本申请实施例的一种用于检索的调整方法的流程图;
图2为本申请实施例的一种用于检索的调整方法的流程图;
图3为本申请实施例的一种用于检索的调整方法的流程图;
图4A为本申请实施例的一种用于检索的调整方法的流程图;
图4B为本申请实施例中查询预热数据和未进行预热的数据的示意图;
图5为本申请实施例的一种用于检索的调整装置的框图。
具体实施方式
此处参考附图描述本申请的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本申请的具体实施例;然而,应当理解,所申请的实施例仅仅是本申请的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本申请的相同或不同实施例中的一个或多个。
图1为本申请实施例的一种用于检索的调整方法,该调整方法可用于各类具有提供检索服务的系统,该方法包括以下步骤S11-S12:
在步骤S11中,以主节点、数据节点、协调节点、资源、索引、待存储数据、用于存储数据的存储分片中至少一种类型,确定检索系统中的待调整对象;
在步骤S12中,针对不同类型的待调整对象配置调整策略,以通过调整该待调整对象启动检索系统的海量数据存储和查询。
本实施例中,从检索系统中的节点、资源、索引、待存储数据、用于存储数据的存储分片等多个维度作为待调整对象对检索系统进行调整,针对不同的待调整对象,配置不同的调整策略,然后根据调整策略调整待调整对象,通过调整待调整对象启动检索系统的海量数据存储和查询。
本发明的有益效果在于:以主节点、数据节点、协调节点、资源、索引、待存储数据、用于存储数据的存储分片中至少一种类型,确定检索系统中的待调整对象;可以针对不同类型的待调整对象配置调整策略,以通过调整该待调整对象启动检索系统的海量数据存储和查询,从而实现对检索系统的调整。
在一个实施例中,当待调整对象为主节点、数据节点和资源时,上述步骤S12可被实施为如下步骤A1-A2:
在步骤A1中,向主节点分配第一预设比例的资源,其中,资源包括以下至少一种资源:系统运行时所需的CPU资源、内存资源、硬盘资源以及网络资源;
在步骤A2中,向数据节点分配第二预设比例的资源,其中,预设比例为所分配的资源与系统总资源的比例,第一预设比例小于或等于第二预设比例。
本实施例对主节点和数据节点的调整,数据节点通常分为主节点和数据节点,而主节点的作用通常是用来管理数据节点的,不参与数据的输入输出,而数据的输入输出由数据节点来负责,检索系统中的输入和输出占很大比重,所以,不参与输入输出操作的主节点所需的资源很少,而参与输入输出的数据节点所需的资源较多,因此,为主节点分配第一预设比例的资源,为数据节点分配第二预设比例的资源,其中,上述第一预设比例和第二预设比例都是所分配的资源与总资源的比例。
本实施例的有益效果在于:能够根据各类节点功能的不同来分配相应比例的资源,从而均衡各个节点的负载。
在一个实施例中,当待调整对象为协调节点、索引和资源时,上述步骤S12可被实施为如下步骤B1-B2:
在步骤B1中,确定本地的索引数量和各索引的量级;
在步骤B2中,根据索引数量和各索引的量级,向索引对应配置对应的协调节点,其中,各协调节点所分配的资源大小与其对应索引的量级正相关。
本实施例的有益效果在于:根据索引数量和各索引的量级向索引一一对应配置预先确定的协调节点,其中,各协调节点所分配的资源大小与其对应索引的量级正相关,从而使得各个协调节点的协调能力与索引量级相匹配,进一步均衡了各个节点的负载。
在一个实施例证,当待调整对象为待存储数据和用于存储待存储数据的存储分片时,上述步骤S12可被实施为如下步骤C1-C2:
在步骤C1中,确定待存储数据对应的存储分片编号;
在步骤C2中,将待存储数据存储到存储分片编号对应的存储分片中。
该待存储数据对应的存储分片编号可以采用如下方式计算:
每获得一批待存储数据之后,确定该待存储数据的批次号,当获得下一批待存储数据之后,批次号加1,以此类推,将待存储数据批次号除以存储分片的数目,得到一个余数,该余数就是待存储数据对应的存储分片编号,从而可以将各批次数据依次存储到各不同的分片中,使得待存储数据在各分片的存储量更加均匀。
在一个实施例中,当待调整对象为索引时,如图2所示,上述步骤S12可被实施为如下步骤S21-S23:
在步骤S21中,获取预定义的索引模板;
在步骤S22中,根据预定义的索引模板生成相应的索引,其中,同一索引模板生成相同类型的索引;
在步骤S23中,根据生成的索引中文档的创建日期对索引进行切割,以形成多个切割后的索引。
在一个实施例中,当待调整对象为数据节点时,如图3所示,上述步骤S12可被实施为如下步骤S31-S34:
在步骤S31中,获取各数据节点对应的访问频次;
在步骤S32中,根据各数据节点对应的访问频次确定热门数据节点和非热门数据节点;
在步骤S33中,将热门数据节点的资源上调至第三预设比例;
在步骤S34中,将非热门数据节点的资源下调至第四预设比例,并禁止非热门数据节点的读写操作,其中,第三预设比例大于第二预设比例,第四预设比例小于第二预设比例。
本实施例中,获取各数据节点对应的访问频次,根据各数据节点对应的访问频次确定热门数据节点和非热门数据节点,其中,访问频次高于某一特定值的数据节点为热门数据节点,访问频次低于某一特定值的数据节点为非热门数据节点;由于访问频次高的节点吞吐量较大,需要更多的资源,而访问频次低的节点吞吐量较小,需要的资源较少,因此,将热门数据节点的资源从第二预设比例上调至第三预设比例;将非热门数据节点的资源从第二预设比例下调至第四预设比例,不难理解,第三预设比例是大于第四预设比例的,在调整资源之后,禁止非热门数据节点的读写操作,使其数据吞吐量进一步减小。从而使得资源倾斜至热门节点。
本申请所说的第一预设比例、第二预设比例、第三预设比例以及第四预设比例都是指所分配的资源与系统总资源的比例。
本实施例的有益效果在于:将热门数据节点的资源上调至大于第三预设值;将非热门数据节点的资源下调至小于第四预设值,并禁止非热门数据节点的读写操作,从而使访问频次高热门数据节点获取比访问频次低的冷门数据节点更多的资源,进一步均衡了各数据节点的负载。
在一个实施例中,当待调整对象为数据节点时,如图4A所示,上述步骤S12可被实施为如下步骤S41-S46:
在步骤S41中,根据第一预设频率获取热门数据节点中存储的目标数据的创建时间和访问频次;
在步骤S42中,根据目标数据的创建时间和访问频次确定目标数据中的热门数据和非热门数据;
在步骤S43中,将目标数据中的非热门数据从热门节点中迁移至非热门节点中;
在步骤S44中,根据创建时间和访问频次将目标数据中的热门数据进行排序;
在步骤S45中,确定排名最靠前的预设数目条热门数据为目标热门数据;
在步骤S46中,根据第二预设频率对目标热门数据进行查询,以使目标热门数据存放至缓存中;其中,第二预设时间间隔小于或等于缓存自动清理的时间间隔。
本实施例中,根据第一预设频率获取热门数据节点中存储的目标数据的创建时间和访问频次;根据目标数据的创建时间和访问频次确定目标数据中的热门数据和非热门数据;不难理解的是,创建时间距当前时间短,访问频次高的数据为热门数据,而创建时间越长,且访问频次低的数据为非热门数据。
将目标数据中的非热门数据从热门节点中迁移至非热门节点中。
根据创建时间和访问频次将目标数据中的热门数据进行排序;确定排名最靠前的预设数目条热门数据为目标热门数据;也就是说,目标热门数据为最热门的几条数据。因此,根据第二预设频率对目标热门数据进行查询,以使目标热门数据始终存放在缓存中;其中,第二预设时间间隔小于或等于缓存自动清理的时间间隔。
举例而言,由于系统缓存作为纯内存,虽然查询速度快,但是存储空间相对有限,作为稀缺资源,一定要将热度最高的数据预热到该空间内。r根据时序性数据的特点,可以得到数据的创建时间,因此,可以按照日期查询近2天的数据以及这些数据的访问频次综合筛选出热词前5名作为目标热门数据。如图4B所示,由于系统会自动清理缓存的数据,假设缓存的的自动清理的时间为一分钟,则可以生成一个定时任务,该定时任务用于每间隔1分钟查询一次目标热门数据,或者更高频率地对目标热门数据进行查询,查询过的数据会进入到系统文件缓存中,而通过查询将目标热门数据存放至缓存中的过程称之为预热过程,存放至缓存中的数据为预热数据。当用户访问未进行预热的数据时,需要从磁盘中读取,然后将查询进程对应的数据从磁盘中挪到缓存中,然后再从缓存中反馈给查询进程,当用户访问的是预热数据时,可以直接从缓存中将预热数据反馈给查询进程。因此,当用户的查询进程用于访问预热数据时,能够保证目标热门数据在缓存中获取到,无需再访问磁盘,而由于目标热门数据的访问频次最高,因此,保持目标热门数据保持在缓存中,能够提升整体访问速度,进而提升了检索系统的整体性能。
当然,需要说明的是,由于热门数据是基于第一预设频率进行更新的,因此,目标热门数据也可以根据该第一预设频率进行更新,当目标热门数据更新后,则需要重新确定排名最靠前的预设数目条热门数据为目标热门数据,以及将重新确定的目标热门数据存放至缓存中。
本实施例的有益效果在于:根据创建时间和访问频次将目标数据中最靠前的预设数目条热门数据存放到缓存中,并且根据一定的频率对热门数据进行查询,使得目标热门数据一直存放在缓存中,增加了用户对目标热门数据的访问速度。
在一个实施例中,当待调整对象为存储分片时,上述步骤S12可被实施为如下步骤D1-D3:
在步骤D1中,获取目标索引对应的数据;
在步骤D2中,判断存储目标索引对应的数据的存储分片的数目;
在步骤D3中,当存储分片的数目大于预设数目时,调用合并方法将存储分片进行合并,以使存储分片的数目变为目标数目,其中,预设数目大于目标数目。
在本检索系统中,存储分片的数目是不断增加的,所以,需要根据目标索引对应的数据判断存储分片的数目。
在文件读写过程中,要从一个文件读取数据,应用程序首先要调用操作系统函数并传送文件名,并选一个到该文件的路径来打开文件。该函数取回一个顺序号,即文件句柄,该文件句柄对于打开的文件是唯一的识别依据,因此,当存储分片数目太多时,虽然存储分片中存储的数据不变,但是,每一个存储分片都会额外占用一定的空间,如分片对应的文件名称,分片的文件句柄,并且,在读取数据时,系统需要遍历所有的存储分片,因此,当存储分片的数目增加时,检索速度也必然会降低,因此,当存储分片的数目大于预设的数目时,调用合并方法将存储分片进行合并,以使存储分片的数目变为目标数目,其中,预设数目大于目标数目。
在一个实施例中,目标数目通过如下方式计算:
获取各存储分片的资源分配比例和存储分片存储的数据量;
根据各存储分片的资源分配比例和存储分片存储的数据量计算分片数量区间;
判断分片数量区间内是否存在存储分片数目的因数;
当分片数量区间内存在存储分片数目的一个因数时,确定因数为目标数目;
当分片数量区间内存在存储分片数目的多个因数时,随机选取其中一个因数作为目标数目。
本实施例中,获取各存储分片的资源分配比例和存储分片存储的数据量;根据各存储分片的资源分配比例和存储分片存储的数据量计算分片数量区间。
例如,根据存储分片存储的数据量和资源分配比例确定该存储分片的资源利用率达到预设百分比时,确定该存储分片需要与其他分片进行合并,假设有15个存储分片,其中,如果有11个存储分片的资源利用率达到预设百分比,那么这11个存储分片需要与其余4个进行合并;又假设有10个存储分片的资源利用率已经达到预设百分比,那么,计算出合并后的分片数量区间应当为0-4个。那么,这10个存储分片需要与其余5个进行合并,从而将资源利用率降低,那么,计算出合并后的分片数量区间应当为0-5个。
判断分片数量区间内是否存在存储分片数目的因数;当分片数量区间内存在存储分片数目的一个因数时,确定因数为目标数目;当分片数量区间内存在存储分片数目的多个因数时,随机选取其中一个因数作为目标数目。
根据判断,当分片数量区间为0-4个时,分片数量区间内3为分片数目15的因数,则3为目标数目,即将存储分片合并为3个存储分片。
当分片数量区间为0-5个时,分片数量区间内3和5为分片数目15的因数,则随机选取3或5为目标数目,即将存储分片合并为3个存储分片或5个存储分片。
可以理解的是,当分片数量为素数时,或者计算出的分片区间内不存在存储分片数目的因数时,目标数目为1,即将存储分片合并为一个存储分片。
图5为本申请实施例的一种用于检索的调整装置,该调整装置可用于各类具有提供检索服务的系统,该装置包括以下模块:
确定模块51,用于以主节点、数据节点、协调节点、资源、索引、待存储数据、用于存储数据的存储分片中至少一种类型,确定检索系统中的待调整对象;
启动模块52,用于针对不同类型的待调整对象配置调整策略,以通过调整该待调整对象启动检索系统的海量数据存储和查询。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。

Claims (10)

1.一种用于检索的调整方法,包括:
以主节点、数据节点、协调节点、资源、索引、待存储数据、用于存储数据的存储分片中至少一种类型,确定检索系统中的待调整对象;
针对不同类型的待调整对象配置调整策略,以通过调整该待调整对象启动检索系统的海量数据存储和查询。
2.如权利要求1所述的方法,其特征在于,当所述待调整对象为主节点、数据节点和资源时,针对不同类型的待调整对象配置调整策略,包括:
向所述主节点分配第一预设比例的资源,其中,所述资源包括以下至少一种资源:系统运行时所需的CPU资源、内存资源、硬盘资源以及网络资源;
向所述数据节点分配第二预设比例的资源,其中,所述第一预设值小于或等于第二预设值;其中,所述预设比例为所分配的资源与系统总资源的比例,所述第一预设比例小于或等于第二预设比例。
3.如权利要求1所述的方法,其特征在于,当所述待调整对象为协调节点、索引和资源时,针对不同类型的待调整对象配置调整策略,包括:
确定本地的索引数量和各索引的量级;
根据索引数量和各索引的量级,向所述索引配置对应的协调节点,其中,各协调节点所分配的资源大小与其对应索引的量级正相关。
4.如权利要求1所述的方法,其特征在于,当所述待调整对象为待存储数据和用于存储待存储数据的存储分片时,针对不同类型的待调整对象配置调整策略,包括:
确定待存储数据对应的存储分片编号;
将所述待存储数据存储到所述存储分片编号对应的存储分片中。
5.如权利要求1所述的方法,其特征在于,当所述待调整对象为索引时,针对不同类型的待调整对象配置调整策略,包括:
获取预定义的索引模板;
根据预定义的索引模板生成相应的索引,其中,同一索引模板生成相同类型的索引;
根据生成的索引中文档的创建日期对所述索引进行切割,以形成多个切割后的索引。
6.如权利要求2所述的方法,其特征在于,当所述待调整对象为数据节点时,针对不同类型的待调整对象配置调整策略,包括:
获取各数据节点对应的访问频次;
根据各数据节点对应的访问频次确定热门数据节点和非热门数据节点;
将所述热门数据节点的资源上调至第三预设比例;
将所述非热门数据节点的资源下调至第四预设比例,并禁止所述非热门数据节点的读写操作,其中,所述第三预设比例大于第二预设比例,所述第四预设比例小于第二预设比例。
7.如权利要求6所述的方法,其特征在于,当所述待调整对象为数据节点时,针对不同类型的待调整对象配置调整策略,还包括:
根据第一预设频率获取所述热门数据节点中存储的目标数据的创建时间和访问频次;
根据所述目标数据的创建时间和访问频次确定所述目标数据中的热门数据和非热门数据;
将所述目标数据中的非热门数据从所述热门节点中迁移至非热门节点中;
根据创建时间和访问频次将所述目标数据中的热门数据进行排序;
确定排名最靠前的预设数目条热门数据为目标热门数据;
根据第二预设频率对所述目标热门数据进行查询,以使所述目标热门数据存放至缓存中;其中,所述第二预设时间间隔小于或等于缓存自动清理的时间间隔。
8.如权利要求1所述的方法,其特征在于,当所述待调整对象为存储分片时,针对不同类型的待调整对象配置调整策略,包括:
获取目标索引对应的数据;
判断存储所述目标索引对应的数据的存储分片的数目;
当所述存储分片的数目大于预设数目时,调用合并方法将所述存储分片进行合并,以使所述存储分片的数目变为目标数目,其中,所述预设数目大于所述目标数目。
9.如权利要求8所述的方法,其特征在于,所述目标数目通过如下方式计算:
获取各存储分片的资源分配比例和所述存储分片存储的数据量;
根据各存储分片的资源分配比例和所述存储分片存储的数据量计算分片数量区间;
判断所述分片数量区间内是否存在所述存储分片数目的因数;
当所述分片数量区间内存在所述存储分片数目的一个因数时,确定所述因数为所述目标数目;
当所述分片数量区间内存在所述存储分片数目的多个因数时,随机选取其中一个因数作为所述目标数目。
10.一种用于检索的调整装置,包括:
确定模块,用于以主节点、数据节点、协调节点、资源、索引、待存储数据、用于存储数据的存储分片中至少一种类型,确定检索系统中的待调整对象;
启动模块,用于针对不同类型的待调整对象配置调整策略,以通过调整该待调整对象启动检索系统的海量数据存储和查询。
CN201911233481.XA 2019-12-05 2019-12-05 一种用于检索的调整方法及装置 Active CN110968762B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911233481.XA CN110968762B (zh) 2019-12-05 2019-12-05 一种用于检索的调整方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911233481.XA CN110968762B (zh) 2019-12-05 2019-12-05 一种用于检索的调整方法及装置

Publications (2)

Publication Number Publication Date
CN110968762A true CN110968762A (zh) 2020-04-07
CN110968762B CN110968762B (zh) 2023-07-18

Family

ID=70033035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911233481.XA Active CN110968762B (zh) 2019-12-05 2019-12-05 一种用于检索的调整方法及装置

Country Status (1)

Country Link
CN (1) CN110968762B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417350A (zh) * 2020-09-17 2021-02-26 上海哔哩哔哩科技有限公司 数据存储调整方法、装置及计算机设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722531A (zh) * 2012-05-17 2012-10-10 北京大学 一种云环境中基于分片位图索引的查询方法
US20130332484A1 (en) * 2012-06-06 2013-12-12 Rackspace Us, Inc. Data Management and Indexing Across a Distributed Database
CN105824810A (zh) * 2015-01-04 2016-08-03 中国移动通信集团河北有限公司 一种Hadoop集群系统及数据处理方法
US20170286518A1 (en) * 2010-12-23 2017-10-05 Eliot Horowitz Systems and methods for managing distributed database deployments
CN107623711A (zh) * 2016-07-15 2018-01-23 北京金山云网络技术有限公司 一种集群中主节点及从节点的分配方法及装置
CN108460072A (zh) * 2017-12-26 2018-08-28 北京国电通网络技术有限公司 配用电数据检索方法和系统
CN110213352A (zh) * 2019-05-17 2019-09-06 北京航空航天大学 名字空间统一的分散自治存储资源聚合方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170286518A1 (en) * 2010-12-23 2017-10-05 Eliot Horowitz Systems and methods for managing distributed database deployments
CN102722531A (zh) * 2012-05-17 2012-10-10 北京大学 一种云环境中基于分片位图索引的查询方法
US20130332484A1 (en) * 2012-06-06 2013-12-12 Rackspace Us, Inc. Data Management and Indexing Across a Distributed Database
CN105824810A (zh) * 2015-01-04 2016-08-03 中国移动通信集团河北有限公司 一种Hadoop集群系统及数据处理方法
CN107623711A (zh) * 2016-07-15 2018-01-23 北京金山云网络技术有限公司 一种集群中主节点及从节点的分配方法及装置
CN108460072A (zh) * 2017-12-26 2018-08-28 北京国电通网络技术有限公司 配用电数据检索方法和系统
CN110213352A (zh) * 2019-05-17 2019-09-06 北京航空航天大学 名字空间统一的分散自治存储资源聚合方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BERNARDETTA ADDIS等: "a hierarchical approach for resource management of very large cloud platform", 《IEEE TRANSACTIONS ON DEPENDABLE AND SECURE COMPUTING》 *
周墨颂等: "基于计算资源运行时剩余能力评估优化云平台", 《计算机研究与发展》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417350A (zh) * 2020-09-17 2021-02-26 上海哔哩哔哩科技有限公司 数据存储调整方法、装置及计算机设备
CN112417350B (zh) * 2020-09-17 2023-03-24 上海哔哩哔哩科技有限公司 数据存储调整方法、装置及计算机设备

Also Published As

Publication number Publication date
CN110968762B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
JP5661104B2 (ja) 検索エンジンインデクシング及びインデックスを使用する検索のための方法とシステム
US9479508B2 (en) Efficient indexing and searching of access control listed documents
US8566788B2 (en) Predictive prefetching to improve parallelization of data retrieval subtasks
US8631026B1 (en) Methods and systems for efficient query rewriting
CN112437916A (zh) 数据库表的增量群集
US10769126B1 (en) Data entropy reduction across stream shard
US10430448B2 (en) Computer-implemented method of and system for searching an inverted index having a plurality of posting lists
JP5147947B2 (ja) クエリ別検索コレクション生成方法およびシステム
CN102640125A (zh) 分布式内容存储和取回
KR100954624B1 (ko) 개인 선호도에 따라서 콘텐츠를 제공하기 위한 방법 및시스템
US8768932B1 (en) Method and apparatus for ranking search results
Drosou et al. Diverse set selection over dynamic data
CN1979469A (zh) 索引及其扩展和查询方法
US20060265428A1 (en) Method and apparatus for processing user's files
CN105808773A (zh) 一种新闻推送方法及装置
CN114398371A (zh) 数据库集群系统多副本分片方法、装置、设备及存储介质
CN110858210A (zh) 数据查询方法及装置
CN110968762A (zh) 一种用于检索的调整方法及装置
CN113392089B (zh) 一种数据库索引优化方法及可读存储介质
Ge et al. Preferential diversity
Shmueli-Scheuer et al. Best-effort top-k query processing under budgetary constraints
CN111221814B (zh) 二级索引的构建方法、装置及设备
Hung et al. Scheduling dependent items in data broadcasting environments
Podnar et al. Beyond term indexing: A P2P framework for web information retrieval
CN111488370B (zh) 列表分页快速响应系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant