CN114020779B - 自适应优化检索性能数据库及数据查询方法 - Google Patents

自适应优化检索性能数据库及数据查询方法 Download PDF

Info

Publication number
CN114020779B
CN114020779B CN202111291885.1A CN202111291885A CN114020779B CN 114020779 B CN114020779 B CN 114020779B CN 202111291885 A CN202111291885 A CN 202111291885A CN 114020779 B CN114020779 B CN 114020779B
Authority
CN
China
Prior art keywords
query
data
module
block
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111291885.1A
Other languages
English (en)
Other versions
CN114020779A (zh
Inventor
叶杨
陈伟
王维军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhuochen Info Tech Co ltd
Original Assignee
Shanghai Zhuochen Info Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhuochen Info Tech Co ltd filed Critical Shanghai Zhuochen Info Tech Co ltd
Priority to CN202210751435.4A priority Critical patent/CN115145953A/zh
Publication of CN114020779A publication Critical patent/CN114020779A/zh
Application granted granted Critical
Publication of CN114020779B publication Critical patent/CN114020779B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种自适应优化检索性能数据库及数据查询方法,应用于大数据存储领域。该数据库包括用于多线程或多进程将待存储数据进行分块处理的数据分块模块、用于储存分块后的数据的存储模块、用于记录分块索引信息的索引模块、用于查询数据的查询模块、用于缓存数据的缓存模块以及通过奖惩函数实时调整查询模块分配的查询资源使查询效率提升的优化模块。本发明通过优化模块使用奖惩函数对查询模块进行优化更新,实时调整查询模块进行查询时对每一个分块分配的查询资源,改变每个分块的查询时间复杂度,使得查询效率提升,自适应的优化检索查询过程,解决了现有数据存储系统无法根据海量数据的实时查询情况对查询效率进行改进的问题。

Description

自适应优化检索性能数据库及数据查询方法
技术领域
本发明涉及一种自适应优化检索性能数据库及数据查询方法,属于大数据存储领域。
背景技术
数据处理大致可以分成两大类:联机事务处理OLTP(on-line transactionprocessing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持(故也被称为也叫DSS决策支持系统),并且提供直观易懂的查询结果。
OLAP场景下,数据存储最基础而有效的优化是改行存储为列存储。数据压缩是存储领域常用的优化手段,以可控的CPU开销来大幅缩小数据在磁盘上的存储空间,一来可以节省成本,二来可以减小I/O和数据在内存中跨线程和跨节点网络传输的开销。压缩算法并不是压缩比越高越好,压缩率越高的算法压缩和解压缩速度往往就越慢,需要根据硬件配置和使用场景在CPU和I/O之间进行权衡。数据编码可以理解为轻量级压缩,包括RLE和数据字典编码等。在列存储模式下,数据压缩和编码的效率均远高于行存储模式。
当OLAP系统进行大量的数据访问时,受限于数据的存储方式,对于常用的查询数据和非常用数据无法区分,不同的查询操作占用资源的不同未统一优化,无法根据海量数据的实时查询状态进行查询效率的改进。
有鉴于此,确有必要提出一种新的自适应优化检索性能数据库及方法,以解决上述问题。
发明内容
本发明的目的在于提供一种自适应优化检索性能数据库及数据查询方法,以解决现有数据存储系统无法根据海量数据的实时查询情况对查询效率进行改进的问题。
为实现上述目的,本发明提供了一种自适应优化检索性能数据库,应用于大数据存储,包括以下模块:
数据分块模块,用于多线程或多进程将待存储数据进行分块处理,得到分块数据;
存储模块,用于储存所述数据分块模块处理后的所述分块数据;
索引模块,用于在所述待存储数据进行分块时记录每一个所述分块数据的分块信息,并形成数据索引表;
查询模块,用于对存储的所述分块数据进行查询;
缓存模块,用于缓存预设时间内的查询条件和查询结果;
优化模块,用于通过奖惩函数评估查询过程及查询结果,对所述查询模块进行优化更新,并实时调整所述查询模块进行查询时对每一个所述分块数据分配的查询资源,所述奖惩函数具体为:
Figure BDA0003335121150000021
其中n表示共有n个分块数据,E(d)表示分块数据查询时的时间复杂度均值,di表示查询分块数据i的时间复杂度,λ为惩罚系数,α为分块数据i的权重。
作为本发明的进一步改进,所述数据分块模块用于对所述待存储数据进行扫描并判断所述待存储数据的数据类型,以根据数据类型进行分块。
作为本发明的进一步改进,所述数据类型包括:结构化数据和非结构化数据,当所述数据类型为结构化数据时,所述数据分块模块对所述待存储数据进行逻辑分块,识别所述待存储数据中的字段内容,并将识别到的字段内容按数值特征或编码格式进行分块;当所述数据类型为非结构化数据时,所述数据分块模块对所述待存储数据进行维度分块,根据数据的不同维度进行数据立方的切割,以形成多个分块数据,每个分块数据上包括预设维数的至少一个非结构化数据,所述预设维数至少为一维。
作为本发明的进一步改进,所述缓存模块的缓存预设时间为七天,所述缓存模块中存储至少一次查询的查询条件及查询结果,所述查询模块进行查询时,当所述缓存模块中存储的查询条件与实际查询条件相同时,可直接从所述缓存模块中获得查询结果,无需对所述存储模块进行扫描查询。
作为本发明的进一步改进,所述缓存模块在所述待存储数据的大小为8~256GB时,同时起到存储的作用,将所述待存储数据直接存储在所述缓存模块中,在所述待存储数据的大小大于256GB时,所述缓存模块则仅缓存预设时间内的查询条件和查询结果。
本发明还提供了一种数据查询方法,应用于前述自适应优化检索性能数据库,主要包括以下步骤:
步骤1:输入查询请求,所述查询模块接受并解析查询请求,得到查询条件;
步骤2:判断所述缓存模块中是否存在相同的查询条件,如果有,直接从所述缓存模块中获取查询结果,如果没有,则进入步骤3;
步骤3:根据所述优化模块的奖惩函数调整所述查询模块对所述存储模块中每一个所述分块数据分配的查询资源并进行查询,得到查询结果;
步骤4:记录查询过程中每个查询到的分块数据的信息,包括所述查询条件、查询时间及查询结果,合并为查询结果集;
步骤5:将所述查询条件和所述查询结果缓存到所述缓存模块中。
作为本发明的进一步改进,步骤3具体包括:
步骤31:向所述索引模块并发执行对所述查询条件中分块特征信息的过滤,并汇总过滤得到的待查询特征分块数据;
步骤32:向所述存储模块多线程并发执行对所述待查询特征分块数据的筛选,获取筛选后的筛选分块的行索引;
步骤33:返回查询结果。
作为本发明的进一步改进,步骤3中,当奖惩函数中的分块数据的权重α>1时,则所述查询资源的正向分配权重公式为:
Figure BDA0003335121150000041
其中,wmn为第m个查询指令在查询资源rn的权重。
作为本发明的进一步改进,步骤3中,当奖惩函数中的分块数据的权重α=1时,则不改变对所述分块数据分配的查询资源。
作为本发明的进一步改进,步骤3中,当奖惩函数中的分块数据的权重α<1时,则所述查询资源的反向分配权重公式为:
Figure BDA0003335121150000042
其中,wmn为第m个查询指令在查询资源rn的权重。
本发明的有益效果是:本发明的自适应优化检索性能数据库通过优化模块使用奖惩函数对查询模块进行优化更新,实时调整查询模块进行查询时对每一个分块分配的查询资源,改变每个分块的查询时间复杂度,使得查询效率提升,自适应的优化检索查询过程,解决现有数据存储系统中无法根据海量数据的实时查询情况对查询效率进行改进的问题。
附图说明
图1是本发明的自适应优化检索性能数据库的结构框图。
图2是本发明的数据查询方法的流程图。
图3是本发明查询模块执行查询时的具体流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,本发明揭示了一种自适应优化检索性能数据库100,应用于大数据存储,具体包括以下模块:
数据分块模块1,用于多线程或多进程将待存储数据进行分块处理,得到分块数据;
存储模块2,用于储存数据分块模块1中的分块数据;
索引模块3,用于在待存储数据进行分块时记录每一块分块数据的分块信息,并形成数据索引表;
查询模块4,用于对存储的分块数据进行查询;
缓存模块5,用于缓存预设时间内的查询条件和查询结果;
优化模块6,通过奖惩函数评估查询过程及查询结果,对查询模块4进行优化更新,实时调整查询模块4进行查询时对每一个分块数据分配的查询资源,奖惩函数具体为:
Figure BDA0003335121150000051
其中n表示共有n个分块数据,E(d)表示分块数据查询时的时间复杂度均值,di表示查询分块数据i的时间复杂度,λ为惩罚系数,α为分块数据i的权重。
对于一份待存储数据,数据分块模块1用于多线程或多进程的对待存储数据中的数据进行扫描并判断待存储数据的数据类型,再根据数据类型选择相应的分块方法,将待存储数据分块。
待存储数据的数据类型具体包括:结构化数据和非结构化数据。
当待存储数据的数据类型为结构化数据,即表格数据时,对待存储数据进行逻辑分块,首先识别待存储数据中的字段内容,然后将识别到的字段内容按数值特征或编码格式进行分块处理。
数值特征包括但不限于:时间、地点、证件号、交易帐号、金额、联系方式、ip等预设的基本数据属性。编码格式包括但不限于:数值型、字符串型、时间型(日期型)、acsii码、utf-8等预设的数据类型。
按数值特征进行分块处理时,以数值特征对应的主要数据属性进行数据块分割。主要数据属性指待存储数据中占比最大的数据属性。如主要数据属性为时间数值,可按天将数据字段进行分块处理;如主要数据属性是地理坐标,则可按地理分区将数据字段进行分块处理。数据分块时所选取的分块细粒度根据数据属性自身特点而改变。如按预设细粒度进行分块后的分块数据内的数据量仍较大,可进一步缩小分块细粒度,将这个较大数据量的分块数据进一步划分为多个较小数据量的分块数据。
举例的,在一个企业员工资料数据库中,将全部员工按照部门、性别、入职年份、身份信息等具体属性作为员工数据按行处理,可依据员工身份信息(身份证号等数值特征)或部门编码(编码格式)对结构化数据进行分块后按块存储。
当待存储数据的数据类型为非结构化数据,即文本信息时,对待存储数据进行维度分块,根据待存储数据的不同维度进行数据立方的切割,得到多个分块数据,每个分块数据上包括预设维数的至少一个非结构化数据,预设维数至少为一维。
对于经过数据分块模块1分块的分块数据,存储到存储模块2中,存储模块2包括多个分布式存储节点,每个分布式存储节点中存储至少一个分块数据。
索引模块3用于在待存储数据进行分块时记录每一块分块数据的分块信息,并形成数据索引表。
具体地,在对待存储数据进行分块的时候,会对每一个分块数据的分块信息进行记录,分块信息包括但不限于分块名称、分块编号、分块特性,这些分块信息被记录到与分块数据关联的分块索引表中,每个录入的数据会同时新增索引记录。
如果分块数据的数据类型为结构化数据,则建立索引时会建立树形索引。
如果分块数据的数据类型为非结构化数据,则建立索引时建立倒排索引,建立索引的过程为:索引模块3--缓存模块5--存储模块2。
已建立的各个分块索引表汇总后得到当前总的索引集合,即数据索引表。
查询模块4用于对存储的数据进行查询。
缓存模块5用于缓存预设时间内的查询条件和查询结果,缓存模块5中存储至少一次查询的查询条件及查询结果,缓存预设时间由客户自行决定,在此并无限制。具体的,在本实施例中,缓存预设时间优选为七天,缓存模块5会缓存七天内进行查询的查询条件和查询结果。当查询模块4进行查询时,会将解析得到的实际查询条件与缓存模块5中存储的查询条件进行对比,当查询条件相同时,可直接从缓存模块5中获得存储的相应的查询结果,无需对存储模块2进行扫描查询,可以有效提高查询的速度和效率。
缓存模块5在待存储数据的大小为8~256GB时,同时起到存储的作用,将待存储数据直接存储在缓存模块5中,在待存储数据的大小大于256GB时,则仅缓存预设时间内的查询条件和查询结果。当然,“8~256GB”这一范围只是作为一个优选实施例进行的举例说明,在其他实施例中,也可以根据实际情况对这一范围做出调整,此处不作限制。
请参阅图2所示,本发明还提供了一种数据查询方法,应用于前述的自适应优化检索性能数据库100,主要包括以下步骤:
步骤1:输入查询请求,查询模块4接受并解析查询请求,得到查询条件;
步骤2:判断缓存模块5中是否存在相同的查询条件,如果有,直接从缓存模块5中获取查询结果,如果没有,则进入步骤3;
步骤3:根据优化模块6的奖惩函数调整查询模块4对存储模块2中每一个分块数据分配的查询资源并进行查询,得到查询结果;
步骤4:记录查询过程中每个查询到的分块数据的信息,包括查询条件、查询时间及查询结果,合并为查询结果集;
步骤5:将查询条件和查询结果缓存到缓存模块5中。
请参阅图3所示,步骤3中进行查询的具体步骤包括:
步骤31:向索引模块3并发执行对查询条件中分块特征信息的过滤,并汇总过滤得到的待查询特征分块数据;
步骤32:向存储模块2多线程并发执行对待查询特征分块数据的筛选,获取筛选后的筛选分块的行索引;
步骤33:返回查询结果。
优化模块6通过奖惩函数评估查询过程及查询结果,对查询模块4进行优化更新,实时调整查询模块4进行查询时对每一个分块数据分配的查询资源,使得查询效率提升。
优化模块6通过获取步骤4中包括查询条件、查询时间及查询结果的查询结果集,进而建立对应分块数据的查询奖惩函数;再根据奖惩函数优化各分块数据执行查询操作时分配的资源,奖惩函数的目标是使得各分块数据的查询时间复杂度接近,从而得到总查询效率的最优解。
查询优化的成本函数如下,该函数值越小表示查询效率最优:
Figure BDA0003335121150000081
其中n表示共有n个分块数据,E(d)表示分块数据查询时的时间复杂度均值,di表示查询分块数据i的时间复杂度,λ为惩罚系数,α为分块数据i的权重。
奖惩函数的优化目标是最小化成本函数。奖惩函数公式为:
Figure BDA0003335121150000082
通过奖惩函数计算得到每个分块数据的权重值α,决定是否进行资源分配优化,若α>1,则进行正向资源优化,降低分块数据查询的时间复杂度,若α=1,则不做资源优化操作,若α<1,则进行反向资源优化,提高分块数据查询的时间复杂度。
查询模块4对存储模块2中每一个分块数据分配的查询资源的资源分配优化主要依据是计算各个查询资源对查询指令的增益,查询资源集合R={r1,r2,…,rn}表示有n个查询资源,查询资源包括但不限于线程数、CPU核数、内存及/或硬盘缓存,查询指令集合A={a1,a2,…,am}表示有m个查询指令,查询指令包括但不限于扫描行数、执行时间、返回结果数量等指令。
首先,计算查询指令的信息熵:
Figure BDA0003335121150000091
其中,pi为查询指令am在第i类的信息熵,j表示am共有j个类别,在本实施例中,以查询指令中的扫描行数为例,将扫描行数按小于5000行,5000-1000行,大于10000行进行分类,则在本实施例中j=3。
然后计算每个查询资源的条件信息熵:
Figure BDA0003335121150000092
其中,对于查询资源rn共有k个不同属性值,因此查询资源rn={rn1,rn2,…rnk},E(am|rn)为在查询资源rn下am的条件信息熵。
查询资源rn对应的信息增益可以表示为:
Gm(rn)=I(am)-E(am|rn)
通过计算n个查询资源对于m个查询指令的信息增益Gm(rn),可得到每个查询资源对于m个查询指令的影响程度。
通过归一化得到第m个查询指令在查询资源rn的权重:
Figure BDA0003335121150000093
当奖惩函数中的分块数据的权重α>1时,则查询资源的正向分配权重公式为:
Figure BDA0003335121150000094
查询资源分配优化后的正向分配权重会降低分块的查询时间复杂度di,若奖惩函数中分块的权重α大于1,则对查询资源进行正向资源分配优化,即增加向该分块数据分配的查询资源,查询资源分配数量的提高可以使得在查询过程中花费更低的时间,降低分块的查询时间复杂度,提高分块数据的查询速度。
当奖惩函数中的分块数据的权重α=1时,则不改变对每个分块数据分配的查询资源。
当奖惩函数中的分块数据的权重α<1时,则查询资源的反向分配权重公式为:
Figure BDA0003335121150000101
查询资源分配优化后的反向分配权重会提升分块的查询时间复杂度di,若奖惩函数中分块数据的权重α小于1,则对查询资源进行反向资源分配优化,即减小向该分块数据分配的查询资源,查询资源分配数量的降低可以使得在查询过程中花费更多的时间,提高分块数据的查询时间复杂度,降低分块数据的查询速度。
通过改变对分块数据的查询资源分配的权重,提高或降低分块数据的查询时间,使得各个分块数据之间的查询时间动态平衡,始终保持较小时间差,提高了查询效率。
本发明的自适应优化检索性能数据库100作为一种OLAP型数据库,在对数据库内的数据进行检索的时候,由于采用了对数据分块的处理方法,所以可以采用多线程或多进程同时执行检索任务,可以每个线程执行一条查询指令,并分别记录结果集。线程数量越多,系统可分配的查询任务越多。例如,为获取每一天的数据,线程足够多的情况下,可以每个线程对应小时的数据,最后将查询的结果拼起来返回。
单条查询指令的查询速度快,总体返回时间并非最快,需要对查询过程进行最优的规划,不同线程执行不同的查询指令时对其分配不同的CPU核数、内存及/或硬盘缓存等查询资源,通过动态优化各分块执行查询时所分配的查询资源,使得对多个分块数据的查询可以根据系统负荷大小动态分配,改变每个线程执行完各自所需要执行的查询指令所需要花费的时间,使得各个线程最后完成的时间彼此接近,以此达到总查询效率的最优化,充分利用查询资源的同时降低整体花费时间。
综上所述,本发明的自适应优化检索性能数据库100通过优化模块6使用奖惩函数对查询模块4进行优化更新,实时调整查询模块4进行查询时对每一个分块数据分配的查询资源,改变每个分块数据的查询时间复杂度,使得查询效率提升,自适应的优化检索查询过程,解决现有数据存储系统中无法根据海量数据的实时查询情况对查询效率进行改进的问题;通过数据分块模块1对数据进行分块,将大型数据分块,使得可以多线程或多进程的对分块数据进行处理和查询;通过索引模块3对每个分块数据建立索引,并汇总形成数据索引表,在查询时可以简化查询过程,加快查询速度,且可针对多个分块数据的索引信息并行执行查询,提高了查询效率。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种自适应优化检索性能数据库,应用于大数据存储,其特征在于,包括以下模块:
数据分块模块,用于多线程或多进程将待存储数据进行分块处理,得到分块数据;
存储模块,用于储存所述数据分块模块处理后的所述分块数据;
索引模块,用于在所述待存储数据进行分块时记录每一个所述分块数据的分块信息,并形成数据索引表;
查询模块,用于对存储的所述分块数据进行查询;
缓存模块,用于缓存预设时间内的查询条件和查询结果;
优化模块,用于通过奖惩函数评估查询过程中分块数据i的权重α,并通过计算查询指令的信息熵
Figure FDA0003676122210000011
其中pi为查询指令am在第i类的信息熵,j表示am共有j个类别,然后计算每个查询资源的条件信息熵
Figure FDA0003676122210000012
其中查询资源rn共有k个不同属性值,查询资源rn={rn1,rn2,…rnk},E(am|rn)为在查询资源rn下am的条件信息熵,再通过计算n个查询资源对于m个查询指令的信息增益Gm(rn)=I(am)-E(am|rn),最后通过归一化得到第m个查询指令在查询资源rn的权重
Figure FDA0003676122210000013
根据分块数据i的权重α实时调整所述查询模块进行查询时对每一个所述分块数据分配的查询资源,所述奖惩函数具体为:
Figure FDA0003676122210000014
其中n表示共有n个分块数据,E(d)表示分块数据查询时的时间复杂度均值,di表示查询分块数据i的时间复杂度,λ为惩罚系数,α为分块数据i的权重,当α>1时,则查询资源的正向分配权重公式为
Figure FDA0003676122210000021
当α=1时,则不改变对每个分块数据分配的查询资源;当α<1时,则查询资源的反向分配权重公式为
Figure FDA0003676122210000022
2.根据权利要求1所述的自适应优化检索性能数据库,其特征在于:所述数据分块模块用于对所述待存储数据进行扫描并判断所述待存储数据的数据类型,以根据数据类型进行分块。
3.根据权利要求2所述的自适应优化检索性能数据库,其特征在于:所述数据类型包括:结构化数据和非结构化数据,当所述数据类型为结构化数据时,所述数据分块模块对所述待存储数据进行逻辑分块,识别所述待存储数据中的字段内容,并将识别到的字段内容按数值特征或编码格式进行分块;当所述数据类型为非结构化数据时,所述数据分块模块对所述待存储数据进行维度分块,根据数据的不同维度进行数据立方的切割,以形成多个分块数据,每个分块数据上包括预设维数的至少一个非结构化数据,所述预设维数至少为一维。
4.根据权利要求1所述的自适应优化检索性能数据库,其特征在于:所述缓存模块的缓存预设时间为七天,所述缓存模块中存储至少一次查询的查询条件及查询结果,所述查询模块进行查询时,当所述缓存模块中存储的查询条件与实际查询条件相同时,可直接从所述缓存模块中获得查询结果,无需对所述存储模块进行扫描查询。
5.根据权利要求1所述的自适应优化检索性能数据库,其特征在于:所述缓存模块在所述待存储数据的大小为8~256GB时,同时起到存储的作用,将所述待存储数据直接存储在所述缓存模块中,在所述待存储数据的大小大于256GB时,所述缓存模块则仅缓存预设时间内的查询条件和查询结果。
6.一种数据查询方法,应用于权利要求1~5中任意一项所述的自适应优化检索性能数据库,其特征在于,主要包括以下步骤:
步骤1:输入查询请求,所述查询模块接受并解析查询请求,得到查询条件;
步骤2:判断所述缓存模块中是否存在相同的查询条件,如果有,直接从所述缓存模块中获取查询结果,如果没有,则进入步骤3;
步骤3:根据所述优化模块的奖惩函数调整所述查询模块对所述存储模块中每一个所述分块数据分配的查询资源并进行查询,得到查询结果;
步骤4:记录查询过程中每个查询到的分块数据的信息,包括所述查询条件、查询时间及查询结果,合并为查询结果集;
步骤5:将所述查询条件和所述查询结果缓存到所述缓存模块中。
7.根据权利要求6所述的数据查询方法,其特征在于,步骤3具体包括:
步骤31:向所述索引模块并发执行对所述查询条件中分块特征信息的过滤,并汇总过滤得到的待查询特征分块数据;
步骤32:向所述存储模块多线程并发执行对所述待查询特征分块数据的筛选,获取筛选后的筛选分块的行索引;
步骤33:返回查询结果。
8.根据权利要求6所述的数据查询方法,其特征在于:步骤3中,当奖惩函数中的分块数据的权重α>1时,则所述查询资源的正向分配权重公式为:
Figure FDA0003676122210000031
其中,wmn为第m个查询指令在查询资源rn的权重。
9.根据权利要求6所述的数据查询方法,其特征在于:步骤3中,当奖惩函数中的分块数据的权重α=1时,则不改变对所述分块数据分配的查询资源。
10.根据权利要求6所述的数据查询方法,其特征在于:步骤3中,当奖惩函数中的分块数据的权重α<1时,则所述查询资源的反向分配权重公式为:
Figure FDA0003676122210000041
其中,wmn为第m个查询指令在查询资源rn的权重。
CN202111291885.1A 2021-10-22 2021-11-03 自适应优化检索性能数据库及数据查询方法 Active CN114020779B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210751435.4A CN115145953A (zh) 2021-10-22 2021-11-03 数据查询方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021112350951 2021-10-22
CN202111235095 2021-10-22

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202210751435.4A Division CN115145953A (zh) 2021-10-22 2021-11-03 数据查询方法

Publications (2)

Publication Number Publication Date
CN114020779A CN114020779A (zh) 2022-02-08
CN114020779B true CN114020779B (zh) 2022-07-22

Family

ID=80060181

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210751435.4A Pending CN115145953A (zh) 2021-10-22 2021-11-03 数据查询方法
CN202111291885.1A Active CN114020779B (zh) 2021-10-22 2021-11-03 自适应优化检索性能数据库及数据查询方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202210751435.4A Pending CN115145953A (zh) 2021-10-22 2021-11-03 数据查询方法

Country Status (1)

Country Link
CN (2) CN115145953A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076466B (zh) * 2023-10-18 2023-12-29 河北因朵科技有限公司 一种针对大型档案数据库的快速数据索引方法
CN117688106A (zh) * 2024-02-04 2024-03-12 广东东华发思特软件有限公司 一种高效分布式数据存储与检索系统、方法及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999563A (zh) * 2012-11-01 2013-03-27 无锡成电科大科技发展有限公司 基于资源描述框架的网络资源语义检索方法及系统
CN106372114A (zh) * 2016-08-23 2017-02-01 电子科技大学 一种基于大数据的联机分析处理系统和方法
CN106503084A (zh) * 2016-10-10 2017-03-15 中国科学院软件研究所 一种面向云数据库的非结构化数据的存储与管理方法
CN106897375A (zh) * 2017-01-19 2017-06-27 浙江大学 一种面向不确定数据的概率查询质量优化方法
CN107918676A (zh) * 2017-12-15 2018-04-17 联想(北京)有限公司 结构化查询的资源优化方法及数据库查询系统
CN110166282A (zh) * 2019-04-16 2019-08-23 苏宁易购集团股份有限公司 资源分配方法、装置、计算机设备和存储介质
CN112256904A (zh) * 2020-09-21 2021-01-22 天津大学 一种基于视觉描述语句的图像检索方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020194251A1 (en) * 2000-03-03 2002-12-19 Richter Roger K. Systems and methods for resource usage accounting in information management environments
US8423534B2 (en) * 2008-11-18 2013-04-16 Teradata Us, Inc. Actively managing resource bottlenecks in a database system
US8995996B2 (en) * 2009-08-12 2015-03-31 Harry V. Bims Methods and apparatus for performance optimization of heterogeneous wireless system communities
US20170109340A1 (en) * 2015-10-19 2017-04-20 International Business Machines Corporation Personalizing text based upon a target audience
US20210272664A1 (en) * 2018-02-20 2021-09-02 Calvin S. Carter Closed-loop ai-optimized emf treatment and digital delivery of data
CN108804592A (zh) * 2018-05-28 2018-11-13 山东浪潮商用系统有限公司 知识库检索实现方法
CN111552788B (zh) * 2020-04-24 2021-08-20 上海卓辰信息科技有限公司 基于实体属性关系的数据库检索方法、系统与设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999563A (zh) * 2012-11-01 2013-03-27 无锡成电科大科技发展有限公司 基于资源描述框架的网络资源语义检索方法及系统
CN106372114A (zh) * 2016-08-23 2017-02-01 电子科技大学 一种基于大数据的联机分析处理系统和方法
CN106503084A (zh) * 2016-10-10 2017-03-15 中国科学院软件研究所 一种面向云数据库的非结构化数据的存储与管理方法
CN106897375A (zh) * 2017-01-19 2017-06-27 浙江大学 一种面向不确定数据的概率查询质量优化方法
CN107918676A (zh) * 2017-12-15 2018-04-17 联想(北京)有限公司 结构化查询的资源优化方法及数据库查询系统
CN110166282A (zh) * 2019-04-16 2019-08-23 苏宁易购集团股份有限公司 资源分配方法、装置、计算机设备和存储介质
CN112256904A (zh) * 2020-09-21 2021-01-22 天津大学 一种基于视觉描述语句的图像检索方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"an efficient query optimization technique in big dara using -ANTIS load balance and CaM-BW optimizer";deepak kumaer、 vijay kumar jha;《The journal of supercomputing》;20210819;第77卷;第13108-13045页 *
"分布式数据库分片关系变换自适应查询技术研究";胡文海;《自动化与仪器仪表》;20190225(第02期);第8-11页 *
"基于多蚁群遗传算法的分布式数据库查询优化";周莹、陈军华;《上海师范大学学报(自然科学版)》;20180215;第47卷(第01期);第37-42页 *
"基于奖励机制的成员搜索引擎调度策略";黄伟建、祝月红、杜巍;《图书馆学研究》;20120215(第03期);第66-71页 *

Also Published As

Publication number Publication date
CN115145953A (zh) 2022-10-04
CN114020779A (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
US11238039B2 (en) Materializing internal computations in-memory to improve query performance
US11403275B2 (en) Incremental reclustering of database tables using reclustering-count levels
US9805077B2 (en) Method and system for optimizing data access in a database using multi-class objects
US7680784B2 (en) Query processing system of a database using multi-operation processing utilizing a synthetic relational operation in consideration of improvement in a processing capability of a join operation
US10204135B2 (en) Materializing expressions within in-memory virtual column units to accelerate analytic queries
US9558258B2 (en) Hybrid database table stored as both row and column store
EP3014488B1 (en) Incremental maintenance of range-partitioned statistics for query optimization
US10387411B2 (en) Determining a density of a key value referenced in a database query over a range of rows
CN114020779B (zh) 自适应优化检索性能数据库及数据查询方法
US8108355B2 (en) Providing a partially sorted index
US8055666B2 (en) Method and system for optimizing database performance
US20140244628A1 (en) Hybrid Database Table Stored as Both Row and Column Store
US20090106210A1 (en) Methods and systems for database organization
Schaffner et al. A hybrid row-column OLTP database architecture for operational reporting
US20200081903A1 (en) Splitting transaction and analysis queries
US11294816B2 (en) Evaluating SQL expressions on dictionary encoded vectors
WO2019234039A1 (en) Data processing
US8140520B2 (en) Embedding densities in a data structure
Lin et al. Dealing with query contention issue in real-time data warehouses by dynamic multi-level caches
CN115374155A (zh) 数据查询方法、装置、电子设备及存储介质
CN117931859A (zh) 一种缓存管理方法及相关设备
Mittra Query Tuning and Optimization Under Oracle 8i
Olma Adaptive partitioning and indexing for raw data querying

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant