CN110516123A - 数据查询耗时评估方法、装置、计算机设备和存储介质 - Google Patents

数据查询耗时评估方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110516123A
CN110516123A CN201910666596.1A CN201910666596A CN110516123A CN 110516123 A CN110516123 A CN 110516123A CN 201910666596 A CN201910666596 A CN 201910666596A CN 110516123 A CN110516123 A CN 110516123A
Authority
CN
China
Prior art keywords
data
table information
full table
consuming
data query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910666596.1A
Other languages
English (en)
Inventor
王富平
翟小青
杨升
陈乃帅
孙迁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Cloud Computing Co Ltd
Original Assignee
Suning Cloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Cloud Computing Co Ltd filed Critical Suning Cloud Computing Co Ltd
Priority to CN201910666596.1A priority Critical patent/CN110516123A/zh
Publication of CN110516123A publication Critical patent/CN110516123A/zh
Priority to PCT/CN2020/097850 priority patent/WO2021012861A1/zh
Priority to CA3148489A priority patent/CA3148489C/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种数据查询耗时评估方法、装置、计算机设备和存储介质。所述方法包括:接收数据查询请求,并将所述数据查询请求解析为执行计划;对所述执行计划进行数据特征转换,得到第一查询数据特征;获取第一全表信息,对所述第一全表信息进行数据特征转换,得到第一全表信息数据特征,所述第一全表信息为在当前数据库中查询到的全表信息;根据所述第一查询数据特征、所述第一全表信息数据特征和预设的数据查询耗时评估模型,得到数据查询耗时评估结果。采用本方法能够提高数据查询耗时评估的准确性。

Description

数据查询耗时评估方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据处理技术领域,特别是涉及数据查询耗时评估方法、装置、计算机设备和存储介质。
背景技术
随着互联网及相关技术领域的发展,大规模数据库技术被广泛应用于各个领域,而数据查询运行效率的高低决定着服务请求的反应速度,因此对数据查询的耗时评估显得很有必要。目前基于大数据的OLAP(联机分析处理,Online Analytical Processing)查询引擎,都是使用基于预设规则的方式来进行耗时评估,这种方式由于受限于预设的评估规则,评估准确性较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高数据查询耗时评估准确性的方法、装置、计算机设备和存储介质。
一种数据查询耗时评估方法,所述方法包括:
接收数据查询请求,并将所述数据查询请求解析为执行计划;
对所述执行计划进行数据特征转换,得到第一查询数据特征;
获取第一全表信息,对所述第一全表信息进行数据特征转换,得到第一全表信息数据特征,所述第一全表信息为在当前数据库中查询到的全表信息;
根据所述第一查询数据特征、所述第一全表信息数据特征和预设的数据查询耗时评估模型,得到数据查询耗时评估结果。
在其中一个实施例中,上述的数据查询耗时评估结果可以包括多个执行计划的耗时评估结果,所述多个执行计划的耗时评估结果可以用于选择最优执行计划。
在其中一个实施例中,上述的方法还包括:
从数据库日志中获取数据查询历史记录,得到数据查询历史记录和所述数据查询历史记录对应的数据查询耗时;
对所述数据查询耗时进行时间离散处理,得到分类标签数据;
对所述数据查询历史记录进行数据特征转换,得到第二查询数据特征;
获取第二全表信息,对所述第二全表信息进行数据特征转换,得到第二全表信息数据特征,所述第二全表信息为各数据查询历史记录对应的全表信息;
利用所述分类标签数据、所述第二查询数据特征、所述第二全表信息数据特征进行模型训练,得到所述数据查询耗时评估模型。
在其中一个实施例中,上述的对所述数据查询历史记录进行数据特征转换,得到第二查询数据特征,包括:
采用预设的编码方式将数据查询历史纪录转换成预设格式的数据特征,得到第二查询数据特征,所述第二查询数据特征包括表信息数据特征、过滤字段数据特征、分析字段数据特征、时间分区数据特征。
在其中一个实施例中,上述的方法还包括:
根据所述第二全表信息数据计算所述第二全表信息数据的平均值和所述第二全表信息数据的标准方差,去除所述第二全表信息数据中距离所述平均值大于设定倍数的标准方差的数据。
在其中一个实施例中,上述方法还包括:
在本次数据查询完成后,将本次数据查询耗时、所述第一查询数据特征、所述第一全表信息数据特征输入所述数据查询评估模型进行训练,获得新的数据查询耗时评估模型。
一种数据查询耗时评估装置,所述装置包括:
数据采集模块,用于接收数据查询请求,并将所述数据查询请求解析为执行计划;
第一数据处理模块,用于对所述执行计划进行数据特征转换,得到第一查询数据特征;
第二数据处理模块,用于获取第一全表信息,对所述第一全表信息进行数据特征转换,得到第一全表信息数据特征,所述第一全表信息为在当前数据库中查询到的全表信息;
评估模块,用于根据所述第一查询数据特征、所述第一全表信息数据特征和预设的数据查询耗时评估模型,得到数据查询耗时评估结果。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
接收数据查询请求,并将所述数据查询请求解析为执行计划;
对所述执行计划进行数据特征转换,得到第一查询数据特征;
获取第一全表信息,对所述第一全表信息进行数据特征转换,得到第一全表信息数据特征,所述第一全表信息为在当前数据库中查询到的全表信息;
根据所述第一查询数据特征、所述第一全表信息数据特征和预设的数据查询耗时评估模型,得到数据查询耗时评估结果。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
接收数据查询请求,并将所述数据查询请求解析为执行计划;
对所述执行计划进行数据特征转换,得到第一查询数据特征;
获取第一全表信息,对所述第一全表信息进行数据特征转换,得到第一全表信息数据特征,所述第一全表信息为在当前数据库中查询到的全表信息;
根据所述第一查询数据特征、所述第一全表信息数据特征和预设的数据查询耗时评估模型,得到数据查询耗时评估结果。
上述数据查询耗时评估方法、装置、计算机设备和存储介质,通过数据查询耗时评估模型来预估数据查询耗时,由于数据查询涉及的表的数据量、字段数量对数据查询性能影响较大,本申请在数据查询耗时评估时引入了包含表的数据量和字段数量的第一全表信息,并且根据对该第一全表信息进行数据特征转换得到的第一全表信息数据特征、以及第一查询数据特征和预设的数据查询耗时评估模型获得数据查询耗时评估结果,因此提高了数据查询耗时评估的准确性。
附图说明
图1为一个实施例中数据查询耗时评估方法的应用环境图;
图2为一个实施例中数据查询耗时评估方法的流程示意图;
图3为一个实施例中的数据查询耗时评估模型训练步骤的流程示意图;
图4为一个实施例中数据查询耗时评估装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的数据查询耗时评估方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。终端102向服务器104发送数据查询请求,服务器104接收数据查询请求,并进行数据处理,利用数据查询耗时评估模型来评估本次数据查询请求的耗时,最后根据评估结果优选执行计划。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种数据查询耗时评估方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤201,接收数据查询请求,并将所述数据查询请求解析为执行计划。
其中,步骤201中的执行计划是数据库针对查询请求解析后生成的执行计划,该执行计划可以包括:查询请求涉及的数据表信息、过滤条件信息、分组统计条件信息等。
具体地,当终端需要进行数据查询时,便可以向服务器发送相应的查询请求。数据查询请求中包含了所需要查询的待查数据的属性信息,以及所要查询的数据表信息,服务器接收到查询请求后,针对查询请求解析生成执行计划。
步骤202,对所述执行计划进行数据特征提取和转换,得到第一查询数据特征。
其中,步骤202中的第一查询数据特征是服务器用于输入数据查询耗时评估模型进行耗时评估的数据特征。
服务器首先对上述执行计划进行数据特征提取,提取的数据特征包含数据查询请求涉及的数据表相关信息,该数据表相关信息包括查询涉及的相关数据表数量、查询所用的过滤条件、统计分析方法。服务器对这些数据特征进行特征转换,得到可以用于本次数据查询耗时评估的第一查询数据特征。
步骤203,获取第一全表信息,对所述第一全表信息进行数据特征转换,得到第一全表信息数据特征,所述第一全表信息为在当前数据库中查询到的全表信息;
其中,步骤203中的第一全表信息包含数据库表和数据表字段的全局相关信息数据。
服务器查询当前数据库,获取本次查询涉及的数据库表和数据表字段的全局相关信息数据(例如本次查询涉及的所有数据表分别在当前数据库一共有多少数据量),服务器将这些全局相关信息数据进行特征转换,得到可以用于耗时评估的第一全表信息数据特征。
步骤204,根据所述第一查询数据特征、所述第一全表信息数据特征和预设的数据查询耗时评估模型,得到数据查询耗时评估结果。
其中,步骤204中的数据查询耗时评估模型是本申请构建并采用的一个具备动态学习能力的机器学习模型,在本申请中完成对数据查询请求的耗时评估功能。
服务器将步骤202和步骤203得到的第一查询数据特征、第一全表信息数据特征输入到预设的数据查询耗时评估模型,得到本次数据查询耗时数据。
上述数据查询耗时评估方法中,由于评估时引入了对数据查询性能影响较大的第一全表信息,其中包含了能体现全局数据库表数量和字段数量的数据信息,因此提高了数据查询耗时评估的准确性。
在其中一个实施例中,上述的数据查询耗时评估结果可以包括多个执行计划的耗时评估结果,该多个执行计划的耗时评估结果可以用于选择最优执行计划。
服务器根据评估结果优选出耗时最少的最优执行计划,执行数据查询任务,从而为服务器节约了系统资源,提高了系统效率。
在另一个实施例中,如图3所示,上述方法还包括数据查询耗时评估模型训练步骤,该数据查询耗时评估模型训练包括如下步骤:
步骤301,从数据库日志中获取数据查询历史记录,得到数据查询历史记录和所述数据查询历史记录对应的数据查询耗时。
具体地,每次数据查询执行完成后,数据查询请求及其耗时信息会保存在数据库日志中,服务器可以从数据库日志中获取多个历史数据查询请求及其耗时信息。
步骤302,对所述数据查询耗时进行时间离散处理,得到分类标签数据;
具体地,步骤302中的离散处理是指将历史数据查询请求的耗时数据的值按规则划分为相应的时间段,每个时间段对应一个耗时标签,这些耗时标签作为所述模型的分类标签数据。
步骤303,对所述数据查询历史记录进行数据特征转换,得到第二查询数据特征;
具体地,数据查询历史记录包括表信息字段、过滤字段、分析字段、时间分区字段信息。其中,表信息字段是指数据查询请求涉及多少个数据表;过滤字段是指查询中涉及的过滤条件信息;分析字段是指查询中涉及的按字段分组信息,可以按分组进行统计分析;时间分区是指数据查询请求要求查询的时间段。
服务器对上述表信息字段数据、过滤字段数据、分析字段数据、时间分区字段数据分别进行数据特征转换,得到第二查询数据特征。第二查询数据特征包括表信息数据特征、过滤字段数据特征、分析字段数据特征、时间分区数据特征。
步骤304,获取第二全表信息,对所述第二全表信息进行数据特征转换,得到第二全表信息数据特征,所述第二全表信息为各数据查询历史记录对应的全表信息;
其中,步骤304中第二全表信息包括数据库表数据量和分析字段基数的全局相关信息数据,分别从各数据查询历史记录中提取。服务器对数据库表数据量和分析字段基数进行数据特征转换,得到第二全表信息数据特征,所述第二全表信息数据特征包括表数据量数据特征和分析字段基数数据特征。
步骤305,利用所述分类标签数据、所述第二查询数据特征、所述第二全表信息数据特征进行模型训练,得到所述数据查询耗时评估模型。
具体地,服务器将分类标签数据、第二查询数据特征、第二全表信息数据特征作为样本数据,输入所述机器学习模型,使用XGBoost(极端梯度提升,eXtreme GradientBoosting)分类算法进行训练,得到数据查询耗时评估模型。XGBoost分类算法可以将许多弱分类器集成在一起形成一个强分类器,所用到的树模型则是CART(分类与回归树,Classification And Regression Tree)模型。
在本实施例中,由于数据查询耗时评估模型训练数据来源于数据查询历史记录及数据库全局表信息,其数据特征符合数据查询耗时评估模型的需要,因此保证了该模型的准确性;另外,模型训练数据包含了对数据查询性能影响较大的数据库表数据量数据特征和分析字段基数数据特征,因此也提高了数据查询耗时评估的准确性。
在其中一个实施例中,上述方法还包括以下步骤:
采用预设的编码方式将数据查询历史纪录转换成预设格式的数据特征,得到第二查询数据特征,所述第二查询数据特征包括表信息数据特征、过滤字段数据特征、分析字段数据特征、时间分区数据特征。
具体地,本实施例可以采用one-hot编码方式分别将表信息字段、过滤字段、分析字段、时间分区字段转换成模型训练可用的第二查询数据特征。
one-hot编码:又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。
在其中一个实施例中,上述方法还包括以下步骤:
根据所述第二全表信息数据计算所述第二全表信息数据的标准方差和所述第二全表信息数据的平均值,去除所述第二全表信息数据中距离所述平均值大于设定倍数的标准方差的数据。
具体地,本实施例可以采用3倍标准方差作为参考数值,去除第二全表信息数据中平均值大于3倍标准方差的数据,获得准确的表数据量数据特征和分析字段基数数据特征,用于机器学习模型训练。
在其中一个实施例中,上述方法还包括以下步骤:
在本次数据查询完成后,将本次数据查询耗时、所述第一查询数据特征、所述第一全表信息数据特征输入所述数据查询评估模型进行训练,获得新的数据查询耗时评估模型。
具体地,本次数据查询完成后,服务器将数据查询及耗时信息记录到数据库日志中,数据查询评估模型使用本次数据查询及耗时、本次数据查询对应的第一查询数据特征和第一全表信息数据特征作为新样本,进行模型训练,实时更新数据查询评估模型。
在本实施例中,数据查询耗时评估模型在每次数据查询完成后,实时学习查询记录,更新评估模型,随着时间推移、学习样本越来越丰富,准确率会不断提升。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种数据查询耗时评估装置,包括:数据采集模块401、第一数据处理模块402、第二数据处理模块403和评估模块404,其中:
数据采集模块401,用于接收数据查询请求,并将所述数据查询请求解析为执行计划;
第一数据处理模块402,用于对所述执行计划进行数据特征转换,得到第一查询数据特征;
第二数据处理模块403,用于获取第一全表信息,对所述第一全表信息进行数据特征转换,得到第一全表信息数据特征,所述第一全表信息为在当前数据库中查询到的全表信息;
评估模块404,用于根据所述第一查询数据特征、所述第一全表信息数据特征和预设的数据查询耗时评估模型,得到数据查询耗时评估结果。
在其中一个实施例中,上述的数据查询耗时评估结果可以包括多个执行计划的耗时评估结果,该多个执行计划的耗时评估结果可以用于选择最优执行计划。
在其中一个实施例中,数据采集模块401,还可以用于从数据库日志中获取数据查询历史记录,得到数据查询历史记录和所述数据查询历史记录对应的数据查询耗时;
第一数据处理模块402,还可以用于对所述数据查询耗时进行时间离散处理,得到分类标签数据,对所述数据查询历史记录进行数据特征转换,得到第二查询数据特征;
第二数据处理模块403,还可以获取第二全表信息,对所述第二全表信息进行数据特征转换,得到第二全表信息数据特征,所述第二全表信息为各数据查询历史记录对应的全表信息;
评估模块404,还可以用于利用所述分类标签数据、所述第二查询数据特征、所述第二全表信息数据特征进行模型训练,得到所述数据查询耗时评估模型。
在其中一个实施例中,第一数据处理模块402可以采用预设的编码方式将数据查询历史纪录转换成预设格式的数据特征,得到第二查询数据特征,所述第二查询数据特征包括表信息数据特征、过滤字段数据特征、分析字段数据特征、时间分区数据特征。
在其中一个实施例中,第二数据处理模块403可以根据所述第二全表信息数据计算所述第二全表信息数据的标准方差和所述第二全表信息数据的平均值,去除所述第二全表信息数据中距离所述平均值大于设定倍数的标准方差的数据。
在其中一个实施例中,评估模块404还可以在本次数据查询完成后,将本次数据查询耗时、所述第一查询数据特征、所述第一全表信息数据特征输入所述数据查询评估模型进行训练,获得新的数据查询耗时评估模型。
关于数据查询耗时评估装置的具体限定可以参见上文中对于数据查询耗时评估方法的限定,在此不再赘述。上述数据查询耗时评估装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据查询耗时评估方法中涉及的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据查询耗时评估方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体地计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
接收数据查询请求,并将所述数据查询请求解析为执行计划;
对所述执行计划进行数据特征转换,得到第一查询数据特征;
获取第一全表信息,对所述第一全表信息进行数据特征转换,得到第一全表信息数据特征,所述第一全表信息为在当前数据库中查询到的全表信息;
根据所述第一查询数据特征、所述第一全表信息数据特征和预设的数据查询耗时评估模型,得到数据查询耗时评估结果。
在一个实施例中,上述的数据查询耗时评估结果可以包括多个执行计划的耗时评估结果,该多个执行计划的耗时评估结果可以用于选择最优执行计划。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
从数据库日志中获取数据查询历史记录,得到数据查询历史记录和所述数据查询历史记录对应的数据查询耗时;对所述数据查询耗时进行时间离散处理,得到分类标签数据;对所述数据查询历史记录进行数据特征转换,得到第二查询数据特征;获取第二全表信息,对所述第二全表信息进行数据特征转换,得到第二全表信息数据特征,所述第二全表信息为各数据查询历史记录对应的全表信息;利用所述分类标签数据、所述第二查询数据特征、所述第二全表信息数据特征进行模型训练,得到所述数据查询耗时评估模型。
在一个实施例中,处理器执行计算机程序实现上述的对所述数据查询历史记录进行数据特征转换,得到第二查询数据特征的步骤时,具体地实现以下步骤:
采用预设的编码方式将数据查询历史纪录转换成预设格式的数据特征,得到第二查询数据特征,所述第二查询数据特征包括表信息数据特征、过滤字段数据特征、分析字段数据特征、时间分区数据特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据所述第二全表信息数据计算所述第二全表信息数据的平均值和所述第二全表信息数据的标准方差,去除所述第二全表信息数据中距离所述平均值大于设定倍数的标准方差的数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
在本次数据查询完成后,将本次数据查询耗时、所述第一查询数据特征、所述第一全表信息数据特征输入所述数据查询评估模型进行训练,获得新的数据查询耗时评估模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
接收数据查询请求,并将所述数据查询请求解析为执行计划;
对所述执行计划进行数据特征转换,得到第一查询数据特征;
获取第一全表信息,对所述第一全表信息进行数据特征转换,得到第一全表信息数据特征,所述第一全表信息为在当前数据库中查询到的全表信息;
根据所述第一查询数据特征、所述第一全表信息数据特征和预设的数据查询耗时评估模型,得到数据查询耗时评估结果。
在一个实施例中,上述的数据查询耗时评估结果可以包括多个执行计划的耗时评估结果,该多个执行计划的耗时评估结果可以用于选择最优执行计划。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
从数据库日志中获取数据查询历史记录,得到数据查询历史记录和所述数据查询历史记录对应的数据查询耗时;对所述数据查询耗时进行时间离散处理,得到分类标签数据;对所述数据查询历史记录进行数据特征转换,得到第二查询数据特征;获取第二全表信息,对所述第二全表信息进行数据特征转换,得到第二全表信息数据特征,所述第二全表信息为各数据查询历史记录对应的全表信息;利用所述分类标签数据、所述第二查询数据特征、所述第二全表信息数据特征进行模型训练,得到所述数据查询耗时评估模型。
在一个实施例中,上述的对所述数据查询历史记录进行数据特征转换,得到第二查询数据特征的计算机程序被处理器执行时还实现以下步骤:
采用预设的编码方式将数据查询历史纪录转换成预设格式的数据特征,得到第二查询数据特征,所述第二查询数据特征包括表信息数据特征、过滤字段数据特征、分析字段数据特征、时间分区数据特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据所述第二全表信息数据计算所述第二全表信息数据的平均值和所述第二全表信息数据的标准方差,去除所述第二全表信息数据中距离所述平均值大于设定倍数的标准方差的数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
在本次数据查询完成后,将本次数据查询耗时、所述第一查询数据特征、所述第一全表信息数据特征输入所述数据查询评估模型进行训练,获得新的数据查询耗时评估模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据查询耗时评估方法,所述方法包括:
接收数据查询请求,并将所述数据查询请求解析为执行计划;
对所述执行计划进行数据特征转换,得到第一查询数据特征;
获取第一全表信息,对所述第一全表信息进行数据特征转换,得到第一全表信息数据特征,所述第一全表信息为在当前数据库中查询到的全表信息;
根据所述第一查询数据特征、所述第一全表信息数据特征和预设的数据查询耗时评估模型,得到数据查询耗时评估结果。
2.根据权利要求1所述的方法,其特征在于,所述数据查询耗时评估结果包括多个执行计划的耗时评估结果,所述多个执行计划的耗时评估结果用于选择最优执行计划。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从数据库日志中获取数据查询历史记录,得到数据查询历史记录和所述数据查询历史记录对应的数据查询耗时;
对所述数据查询耗时进行时间离散处理,得到分类标签数据;
对所述数据查询历史记录进行数据特征转换,得到第二查询数据特征;
获取第二全表信息,对所述第二全表信息进行数据特征转换,得到第二全表信息数据特征,所述第二全表信息为各数据查询历史记录对应的全表信息;
利用所述分类标签数据、所述第二查询数据特征、所述第二全表信息数据特征进行模型训练,得到所述数据查询耗时评估模型。
4.根据权利要求3所述的方法,其特征在于,所述对所述数据查询历史记录进行数据特征转换,得到第二查询数据特征,包括:
采用预设的编码方式将数据查询历史纪录转换成预设格式的数据特征,得到第二查询数据特征,所述第二查询数据特征包括表信息数据特征、过滤字段数据特征、分析字段数据特征、时间分区数据特征。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据所述第二全表信息数据计算所述第二全表信息数据的平均值和所述第二全表信息数据的标准方差,去除所述第二全表信息数据中距离所述平均值大于设定倍数的标准方差的数据。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在本次数据查询完成后,将本次数据查询耗时、所述第一查询数据特征、所述第一全表信息数据特征输入所述数据查询评估模型进行模型训练,获得新的数据查询耗时评估模型。
7.一种数据查询耗时评估装置,其特征在于,所述装置包括:
数据采集模块,用于接收数据查询请求,并将所述数据查询请求解析为执行计划;
第一数据处理模块,用于对所述执行计划进行数据特征转换,得到第一查询数据特征;
第二数据处理模块,用于获取第一全表信息,对所述第一全表信息进行数据特征转换,得到第一全表信息数据特征,所述第一全表信息为在当前数据库中查询到的全表信息;
评估模块,用于根据所述第一查询数据特征、所述第一全表信息数据特征和预设的数据查询耗时评估模型,得到数据查询耗时评估结果。
8.根据权利要求7所述的装置,其特征在于:
所述数据采集模块还用于从数据库日志中获取数据查询历史记录,得到数据查询历史记录和所述数据查询历史记录对应的数据查询耗时;
所述第一数据处理模块还用于对所述数据查询耗时进行时间离散处理,得到分类标签数据,对所述数据查询历史记录进行数据特征转换,得到第二查询数据特征;
所述第二数据处理模块还用于获取第二全表信息,对所述第二全表信息进行数据特征转换,得到第二全表信息数据特征,所述第二全表信息为各数据查询历史记录对应的全表信息;
所述评估模块还用于利用所述分类标签数据、所述第二查询数据特征、所述第二全表信息数据特征进行模型训练,得到所述数据查询耗时评估模型。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201910666596.1A 2019-07-23 2019-07-23 数据查询耗时评估方法、装置、计算机设备和存储介质 Pending CN110516123A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910666596.1A CN110516123A (zh) 2019-07-23 2019-07-23 数据查询耗时评估方法、装置、计算机设备和存储介质
PCT/CN2020/097850 WO2021012861A1 (zh) 2019-07-23 2020-06-24 数据查询耗时评估方法、装置、计算机设备和存储介质
CA3148489A CA3148489C (en) 2019-07-23 2020-06-24 Method of and device for assessing data query time consumption, computer equipment and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910666596.1A CN110516123A (zh) 2019-07-23 2019-07-23 数据查询耗时评估方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN110516123A true CN110516123A (zh) 2019-11-29

Family

ID=68623422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910666596.1A Pending CN110516123A (zh) 2019-07-23 2019-07-23 数据查询耗时评估方法、装置、计算机设备和存储介质

Country Status (3)

Country Link
CN (1) CN110516123A (zh)
CA (1) CA3148489C (zh)
WO (1) WO2021012861A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021012861A1 (zh) * 2019-07-23 2021-01-28 苏宁云计算有限公司 数据查询耗时评估方法、装置、计算机设备和存储介质
CN112749191A (zh) * 2021-01-19 2021-05-04 成都信息工程大学 一种应用于数据库的智能代价估计方法、系统及电子设备
CN113505276A (zh) * 2021-06-21 2021-10-15 跬云(上海)信息科技有限公司 预计算模型的评分方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090024572A1 (en) * 2007-07-19 2009-01-22 Abhay Mehta Estimating the loaded execution runtime of a database query
US20130151504A1 (en) * 2011-12-09 2013-06-13 Microsoft Corporation Query progress estimation
US20130195358A1 (en) * 2012-01-31 2013-08-01 Board Of Trustees Of The Leland Stanford Junior University Method and apparatus for enhancing visual search
CN107133332A (zh) * 2017-05-11 2017-09-05 广州视源电子科技股份有限公司 一种查询任务的分配方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11010362B2 (en) * 2017-08-25 2021-05-18 Vmware, Inc. Method and system for caching a generated query plan for time series data
CN109241101B (zh) * 2018-08-31 2020-06-30 阿里巴巴集团控股有限公司 一种数据库查询优化方法、装置、及计算机设备
CN109635100A (zh) * 2018-12-24 2019-04-16 上海仁静信息技术有限公司 一种相似题目的推荐方法、装置、电子设备及存储介质
CN110516123A (zh) * 2019-07-23 2019-11-29 苏宁云计算有限公司 数据查询耗时评估方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090024572A1 (en) * 2007-07-19 2009-01-22 Abhay Mehta Estimating the loaded execution runtime of a database query
US20130151504A1 (en) * 2011-12-09 2013-06-13 Microsoft Corporation Query progress estimation
US20130195358A1 (en) * 2012-01-31 2013-08-01 Board Of Trustees Of The Leland Stanford Junior University Method and apparatus for enhancing visual search
CN107133332A (zh) * 2017-05-11 2017-09-05 广州视源电子科技股份有限公司 一种查询任务的分配方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021012861A1 (zh) * 2019-07-23 2021-01-28 苏宁云计算有限公司 数据查询耗时评估方法、装置、计算机设备和存储介质
CN112749191A (zh) * 2021-01-19 2021-05-04 成都信息工程大学 一种应用于数据库的智能代价估计方法、系统及电子设备
CN113505276A (zh) * 2021-06-21 2021-10-15 跬云(上海)信息科技有限公司 预计算模型的评分方法、装置、设备和存储介质
WO2022267183A1 (zh) * 2021-06-21 2022-12-29 跬云(上海)信息科技有限公司 预计算模型的评分方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CA3148489A1 (en) 2021-01-28
WO2021012861A1 (zh) 2021-01-28
CA3148489C (en) 2024-01-02

Similar Documents

Publication Publication Date Title
CN110489520B (zh) 基于知识图谱的事件处理方法、装置、设备和存储介质
CN110399293B (zh) 系统测试方法、装置、计算机设备和存储介质
CN109543925B (zh) 基于机器学习的风险预测方法、装置、计算机设备和存储介质
CN109992601B (zh) 待办事项信息的推送方法、装置和计算机设备
CN110516123A (zh) 数据查询耗时评估方法、装置、计算机设备和存储介质
CN109614231A (zh) 空闲服务器资源发现方法、装置、计算机设备和存储介质
CA3157818A1 (en) Method, apparatus, computer device, and storage medium for fusing multi-system multi-store orders
CN109657803B (zh) 机器学习模型的构建
CN115062016A (zh) 关联关系提取方法、装置和计算机设备
CN110134589B (zh) 接口测试用例的生成方法、装置、计算机设备和存储介质
CN113110961B (zh) 设备异常检测方法、装置、计算机设备及可读存储介质
CN112948504B (zh) 数据采集方法、装置、计算机设备和存储介质
CN114661792A (zh) 金融数据处理方法、装置、电子设备、介质及产品
CN114661994A (zh) 基于人工智能的用户兴趣数据处理方法、系统及云平台
CN110515844A (zh) 一种从JIRA提取bug信息生成多维分析报表的方法
CN110084476B (zh) 案件调整方法、装置、计算机设备和存储介质
CN112069269B (zh) 基于大数据和多维特征的数据溯源方法及大数据云服务器
CN111460268B (zh) 数据库查询请求的确定方法、装置和计算机设备
CN114493279A (zh) 一种工作流任务预测方法、装置、存储介质及电子设备
CN110991473A (zh) 图像样本的特征选择方法、装置、计算机设备及存储介质
CN111752984B (zh) 一种信息处理方法、装置和存储介质
CN113361981A (zh) 一种业务请求的处理方法、装置、设备及介质
CN115906794A (zh) 冷链物流业务报表生成方法、装置、电子设备及存储介质
CN113129139A (zh) 基于人工智能的贷款利率参数信息确定方法及装置
CN116541272A (zh) 基于流量特征分析的应用软件测试方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191129