CN110737679B - 数据资源的查询方法、装置、设备及存储介质 - Google Patents

数据资源的查询方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110737679B
CN110737679B CN201810719556.4A CN201810719556A CN110737679B CN 110737679 B CN110737679 B CN 110737679B CN 201810719556 A CN201810719556 A CN 201810719556A CN 110737679 B CN110737679 B CN 110737679B
Authority
CN
China
Prior art keywords
query
data volume
data
time
query time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810719556.4A
Other languages
English (en)
Other versions
CN110737679A (zh
Inventor
余韬
叶峻
马宇峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN201810719556.4A priority Critical patent/CN110737679B/zh
Publication of CN110737679A publication Critical patent/CN110737679A/zh
Application granted granted Critical
Publication of CN110737679B publication Critical patent/CN110737679B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种数据资源的查询方法、装置、设备及存储介质。本申请的数据资源的查询方法,包括:接收查询指令,所述查询指令携带查询条件;根据所述查询条件确定所述查询指令的请求特征信息,所述请求特征信息包括至少一个第一类型特征和至少一个第二类型特征;根据所述至少一个第一类型特征、所述至少一个第二类型特征和预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量;根据所述最大查询数据量确定所述查询指令对应的采样率;以所述采样率对数据资源进行查询,并反馈查询结果。本申请实施例可以实现根据查询指令动态确定采样率,以保证集群系统查询性能的稳定高效。

Description

数据资源的查询方法、装置、设备及存储介质
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种数据资源的查询方法、装置、设备及存储介质。
背景技术
随着数据采集技术的进步和数据存储介质的成本下降,企业对行为数据的积累愈发迅速,其数据规模每天可高达拍字节(petabyte,PB)级别。行为数据是关于机体的行为和行为发生时环境的观察报告,一条行为数据的记录通常由主体、客体、时间、环境、程度等多个要素构成。对行为数据进行收集、清洗、计算和格式转换后,大部分以表格数据记录的形式存储到一张或多张事实数据表中。该事实数据表通常包含数十到上百个维度和指标列,在多个维度和指标上进行筛选、分组、聚合、连接等计算并结合其他维度表是进行数据分析的常用方法。数据分析是一项探索性很强的工作,往往需要通过不断地试错,渐进地得到分析结果,对查询(query)的响应速度有一定的要求。
大规模数据查询系统如Hive、Spark SQL或Impala在性能方面已经做了大量的优化,然而在现实计算资源有限的情况下,其在规定时间内所能处理的数据量仍然是受限的。而数据分析往往需要选择时间跨度长短不一的历史数据进行分析,当选择的时间跨度很大时,响应的速度往往跟不上需求。此外有些复杂的分析方法,如漏斗分析、同期群分析、访问流分析,在同等数据量下会耗费数倍至数十倍的查询时间,难以满足交互式查询需求。对此,可以使用调整采样率的方式来加快查询速度,以在分析速度和精度间寻找平衡,使用户能轻松地交互式探索和快读地进行数据分析迭代。
然而,该调整采样率的方式通常由用户确定采用率,以减少数据分析系统的响应时间。然而,用户对于数据分布、分析算法不同的情况下,很难选取到合适的采样率,以同时满足分析速度和精度需求。
发明内容
本申请实施例提供一种数据资源的查询方法、装置、设备及存储介质,实现根据查询指令动态确定采样率,以保证集群系统查询性能的稳定高效。
第一方面,本申请实施例提供一种数据资源的查询方法,包括:
接收查询指令,所述查询指令携带查询条件。根据所述查询条件确定所述查询指令的请求特征信息,所述请求特征信息包括至少一个第一类型特征和至少一个第二类型特征。根据所述至少一个第一类型特征、所述至少一个第二类型特征和预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量。根据所述最大查询数据量确定所述查询指令对应的采样率。以所述采样率对数据资源进行查询,并反馈查询结果。其中,所述至少一个第一类型特征包括数据分布信息、过滤条件和查询时间跨度中至少一项,所述至少一个第二类型特征包括分析方法信息、子查询数量、数据网络交换次数、是否分群和集群负载中至少一项。
结合第一方面,在第一方面的一种可能的实现方式中,所述根据所述至少一个第一类型特征、所述至少一个第二类型特征和预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量,包括:将所述至少一个第一类型特征输入至数据量预估模型,得到预估查询数据量。根据所述预估查询数据量、所述至少一个第二类型特征和预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量。
结合第一方面或第一方面的一种可能的实现方式,在第一方面的另一种可能的实现方式中,所述根据所述预估查询数据量、所述至少一个第二类型特征和预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量,包括:将所述预估查询数据量和所述至少一个第二类型特征输入至查询耗时预测模型,得到预估查询耗时。根据所述预估查询耗时、所述预设查询耗时阈值和所述查询耗时预测模型确定所述预设查询耗时阈值内的最大查询数据量。
结合第一方面或第一方面的任一种可能的实现方式,在第一方面的另一种可能的实现方式中,所述根据所述预估查询耗时、所述预设查询耗时阈值和所述查询耗时预测模型确定所述预设查询耗时阈值内的最大查询数据量,包括:当所述预估查询耗时大于所述预设查询耗时阈值时,通过二分法查找算法确定调整数据量,将所述调整数据量和所述至少一个第二类型特征输入至所述查询耗时预测模型,得到调整查询耗时。根据所述调整查询耗时和所述预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量。
结合第一方面或第一方面的任一种可能的实现方式,在第一方面的另一种可能的实现方式中,所述方法还包括:根据所述查询结果确定第一实际查询数据量和实际查询耗时。将所述第一实际查询数据量和实际查询耗时反馈至所述数据量预估模型和所述查询耗时预测模型。使用所述第一实际查询数据量、所述实际查询耗时、所述至少一个第一类型特征和所述至少一个第二类型特征对所述数据量预估模型和所述查询耗时预测模型进行训练。
结合第一方面或第一方面的任一种可能的实现方式,在第一方面的另一种可能的实现方式中,所述使用所述实际查询数据量、所述实际查询耗时、所述至少一个第一类型特征和所述至少一个第二类型特征对所述数据量预估模型和所述查询耗时预测模型进行训练,包括:根据所述第一实际查询数据量和所述采样率确定第二实际查询数据量。将所述至少一个第一类型特征和所述第二实际查询数据量作为所述数据量预估模型的训练数据,对所述数据量预估模型进行训练。将所述第一实际查询数据量、所述至少一个第二类型特征和所述实际查询耗时作为所述查询耗时预测模型的训练数据,对所述查询耗时预测模型进行训练。
结合第一方面或第一方面的任一种可能的实现方式,在第一方面的另一种可能的实现方式中,所述根据所述最大查询数据量确定所述查询指令对应的采样率,包括:将所述最大查询数据量除以所述预估查询数据量,得到所述查询指令对应的采样率。
第二方面,本申请实施例提供一种数据资源的查询装置,包括:接收模块,用于接收查询指令,所述查询指令携带查询条件。特征确定模块,用于根据所述查询条件确定所述查询指令的请求特征信息,所述请求特征信息包括至少一个第一类型特征和至少一个第二类型特征。数据量确定模块,用于根据所述至少一个第一类型特征、所述至少一个第二类型特征和预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量。采样率确定模块,用于根据所述最大查询数据量确定所述查询指令对应的采样率。查询模块,用于以所述采样率对数据资源进行查询,并反馈查询结果。其中,所述至少一个第一类型特征包括数据分布信息、过滤条件和查询时间跨度中至少一项,所述至少一个第二类型特征包括分析方法信息、子查询数量、数据网络交换次数、是否分群和集群负载中至少一项。
结合第二方面,在第二方面的一种可能的实现方式中,所述数据量确定模块用于:将所述至少一个第一类型特征输入至数据量预估模型,得到预估查询数据量。根据所述预估查询数据量、所述至少一个第二类型特征和预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量。
结合第二方面或第二方面的一种可能的实现方式,在第二方面的另一种可能的实现方式中,所述数据量确定模块用于:将所述预估查询数据量和所述至少一个第二类型特征输入至查询耗时预测模型,得到预估查询耗时。根据所述预估查询耗时、所述预设查询耗时阈值和所述查询耗时预测模型确定所述预设查询耗时阈值内的最大查询数据量。
结合第二方面或第二方面的任一种可能的实现方式,在第二方面的另一种可能的实现方式中,所述数据量确定模块用于:当所述预估查询耗时大于所述预设查询耗时阈值时,通过二分法查找算法确定调整数据量,将所述调整数据量和所述至少一个第二类型特征输入至所述查询耗时预测模型,得到调整查询耗时。根据所述调整查询耗时和所述预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量。
结合第二方面或第二方面的任一种可能的实现方式,在第二方面的另一种可能的实现方式中,所述装置还包括训练模块,用于:根据所述查询结果确定第一实际查询数据量和实际查询耗时。将所述第一实际查询数据量和实际查询耗时反馈至所述数据量预估模型和所述查询耗时预测模型。使用所述第一实际查询数据量、所述实际查询耗时、所述至少一个第一类型特征和所述至少一个第二类型特征对所述数据量预估模型和所述查询耗时预测模型进行训练。
结合第二方面或第二方面的任一种可能的实现方式,在第二方面的另一种可能的实现方式中,所述训练模块用于:根据所述第一实际查询数据量和所述采样率确定第二实际查询数据量。将所述至少一个第一类型特征和所述第二实际查询数据量作为所述数据量预估模型的训练数据,对所述数据量预估模型进行训练。将所述第一实际查询数据量、所述至少一个第二类型特征和所述实际查询耗时作为所述查询耗时预测模型的训练数据,对所述查询耗时预测模型进行训练。
结合第二方面或第二方面的任一种可能的实现方式,在第二方面的另一种可能的实现方式中,所述采样率确定模块,用于:将所述最大查询数据量除以所述预估查询数据量,得到所述查询指令对应的采样率。
第三方面,本申请实施例提供一种数据资源的查询设备,包括:存储器和处理器。所述存储器用于指令,以使所述处理器执行所述指令,以实现如第一方面或第一方面任一种可能的实现方式的数据资源的查询方法。
第四方面,本申请实施例提供一种存储介质,包括:所述存储介质包括:指令,所述指令用于实现如如第一方面或第一方面任一种可能的实现方式的数据资源的查询方法。
本申请实施例的数据资源的查询方法、装置、设备及存储介质,通过根据查询条件确定所述查询指令的请求特征信息,所述请求特征信息包括至少一个第一类型特征和至少一个第二类型特征,根据所述至少一个第一类型特征、所述至少一个第二类型特征和预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量,根据所述最大查询数据量确定所述查询指令对应的采样率,以所述采样率对数据资源进行查询,并反馈查询结果,从而实现根据查询指令动态确定采样率,以保证集群系统查询性能的稳定高效。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的本申请技术方案的应用场景图;
图2为本申请一实施例提供的数据资源的查询方法的交互流程图;
图3为本申请一实施例提供的最大查询数据量的确定方法的流程图;
图4A为本申请一实施例提供的数据资源的查询方法的流程图;
图4B为本申请一实施例提供的采样率自适应回路的示意图;
图5为本申请一实施例提供的一种数据资源的查询装置500的示意图;
图6为本申请一实施例提供的一种数据资源的查询设备600的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
图1为本申请一实施例提供的本申请技术方案的应用场景图,如图1所示,客户端向集群系统发送查询指令,该集群系统是由多个服务器组成的系统,每个服务器可以作为一个查询节点,其中,接收到该查询指令的查询节点可以通过执行本申请的数据资源的查询方法,反馈查询结果,从而实现根据查询指令动态确定采样率,以保证集群系统查询性能的稳定高效。
图2为本申请一实施例提供的数据资源的查询方法的交互流程图,如图2所示,本实施例的方法可以包括:
步骤101、客户端向服务器发送查询指令,所述查询指令携带查询条件。
其中,服务器接收客户端发送的查询(query)指令。
步骤102、服务器根据所述查询条件确定所述查询指令的请求特征信息,所述请求特征信息包括至少一个第一类型特征和至少一个第二类型特征。
其中,所述至少一个第一类型特征包括数据分布信息、过滤条件和查询时间跨度中至少一项,所述至少一个第二类型特征包括分析方法信息、子查询数量、数据网络交换次数、是否分群和集群负载中至少一项。
该数据分布信息是用于表征数据库属性的特征,可以包括数据库数据总条数、每一列不同取值的占比等。该过滤条件可以包括一个或多个维度或指标列的过滤条件。该分析方法信息用于标识不同的分析方法,例如,漏斗分析、同期群分析、访问流分析等。该数据网络交互次数为集群系统中个服务器之间的交互次数。该集群负载具体可以集群系统中各个查询节点的CPU使用率、磁盘IO使用率等。
步骤103、服务器根据所述至少一个第一类型特征、所述至少一个第二类型特征和预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量。
其中,该预设查询耗时阈值可以是一个预设值,例如3小时等时间长度,也可以是一个数值集合,该集合中的每一个时间长度对应查询指令的一个或多个类型特征,其中可以根据需求进行灵活设置。
步骤104、服务器根据所述最大查询数据量确定所述查询指令对应的采样率。
步骤105、服务器以所述采样率对数据资源进行查询,并向客户端反馈查询结果。
具体的,集群系统中承担该查询指令的查询任务的各个服务器均以该采样率对集群系统的数据库的数据资源进行查询,并反馈查询结果。
本实施例,通过根据查询条件确定所述查询指令的请求特征信息,所述请求特征信息包括至少一个第一类型特征和至少一个第二类型特征,根据所述至少一个第一类型特征、所述至少一个第二类型特征和预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量,根据所述最大查询数据量确定所述查询指令对应的采样率,以所述采样率对数据资源进行查询,并反馈查询结果,从而实现根据查询指令动态确定采样率,以保证集群系统查询性能的稳定高效。
下面采用几个具体的实施例,对图2所示方法实施例的技术方案进行详细说明。
图3为本申请一实施例提供的最大查询数据量的确定方法的流程图,本实施例具体对上述步骤103的实施方式进行解释说明,如图3所示,本实施例的方法可以包括:
步骤201、将所述至少一个第一类型特征输入至数据量预估模型,得到预估查询数据量。
具体的,将查询指令的数据分布信息、过滤条件和查询时间跨度中至少一项输入至数据量预估模型,该数据预估模型可以是任意机器学习模型,其可以根据需求进行灵活设置。该数据量预估模型可以输出预估查询数据量,即查询指令对应的预估查询数据量。该预估查询数据量为采样率等于1的情况下的数据量。
步骤202、根据所述预估查询数据量、所述至少一个第二类型特征和预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量。
具体的,根据数据量预估模型输出的预估查询数据量、查询指令的分析方法信息、子查询数量、数据网络交换次数、是否分群和集群负载中至少一项、以及预设查询耗时阈值确定该预设查询耗时阈值内的最大查询数据量。
本实施例,通过将所述至少一个第一类型特征输入至数据量预估模型,得到预估查询数据量,根据所述预估查询数据量、所述至少一个第二类型特征和预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量,实现通过数据量预估模型确定最大查询数据量,以提升采样率确定的准确率。
图4A为本申请一实施例提供的数据资源的查询方法的流程图,本实施例的执行主体为接收该查询指令的服务器,如图4A所示,本实施例的方法可以包括:
步骤301、根据查询指令携带的查询条件确定所述查询指令的请求特征信息,所述请求特征信息包括至少一个第一类型特征和至少一个第二类型特征。
其中,步骤301的解释说明可以参见图2所示实施例的步骤101,此处不再赘述。
步骤302、将所述至少一个第一类型特征输入至数据量预估模型,得到预估查询数据量。
其中,步骤302的解释说明可以参见图3所示实施例的步骤201,此处不再赘述。
步骤303、将所述预估查询数据量和所述至少一个第二类型特征输入至查询耗时预测模型,得到预估查询耗时。
具体的,将数据量预估模型输出的预估查询数据量和该至少一个第二类型特征输入至查询耗时预测模型,该查询耗时预测模型可以是任意机器学习模型,其可以根据需求进行灵活设置。该查询耗时预测模型可以输出预估查询耗时,即从接收到查询指令到反馈查询结果所需时间长度。该预估查询耗时为采样率等于1时该查询指令对应的查询耗时。
步骤304、当所述预估查询耗时大于所述预设查询耗时阈值时,通过二分法查找算法确定调整数据量,将所述调整数据量和所述至少一个第二类型特征输入至所述查询耗时预测模型,得到调整查询耗时。
步骤305、根据所述调整查询耗时和所述预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量。
举例而言,该预估查询数据量为P,当预估查询耗时大于所述预设查询耗时阈值时,通过二分法查找算法确定调整数据量,例如,该调整数据量为P/2,则将该P/2和所述至少一个第二类型特征输入至所述查询耗时预测模型,得到调整查询耗时,该调整查询耗时为P/2对应的查询耗时。再判断P/2对应的查询耗时是否大于预设查询耗时阈值,当P/2对应的查询耗时小于预设查询耗时阈值时,则在区间(P/2,P)内,采样如上述相同的方式查找调整数据量,并输入至查询耗时预测模型,得到该调整数据量对应的调整查询耗时,直至确定该预设查询耗时阈值内的最大查询数据量。
步骤306、将所述最大查询数据量除以所述预估查询数据量,得到所述查询指令对应的采样率。
以上述举例做进一步举例说明,该最大查询数据量为3/4P,则通过步骤306得到该查询指令对应的采样率为3/4。
步骤307、以所述采样率对数据资源进行查询,并向客户端反馈查询结果。
步骤308、根据所述查询结果确定第一实际查询数据量和实际查询耗时。
具体的,在该查询指令对应的查询任务完成后,根据实际查询情况,确定实际查询数据量和实际查询耗时。
步骤309、将所述第一实际查询数据量和实际查询耗时反馈至所述数据量预估模型和所述查询耗时预测模型。
将第一实际查询数据量、实际查询耗时以及该查询指令的请求特征反馈至所述数据量预估模型和所述查询耗时预测模型,供两个模型进行训练学习,以提升后续操作的准确性。
步骤310、使用所述第一实际查询数据量、所述实际查询耗时、所述至少一个第一类型特征和所述至少一个第二类型特征对所述数据量预估模型和所述查询耗时预测模型进行训练。
针对步骤310的具体解释说明:可以根据所述第一实际查询数据量和所述采样率确定第二实际查询数据量。将所述至少一个第一类型特征和所述第二实际查询数据量作为所述数据量预估模型的训练数据,对所述数据量预估模型进行训练。将所述第一实际查询数据量、所述至少一个第二类型特征和所述实际查询耗时作为所述查询耗时预测模型的训练数据,对所述查询耗时预测模型进行训练。
以上述举例做进一步解释说明,该采样率为3/4,那么将第一实际查询数据量乘以4/3,得到该第二实际查询数据量,将该至少一个第一类型特征作为模型特征,将该第二实际查询数据量作为标注,构成训练数据,对数据量预估模型进行训练。将该第一实际查询数据量和所述至少一个第二类型特征作为模型特征,将实际查询耗时作为标注,构成训练数据,对查询耗时预测模型进行训练。
在之后接收到新的查询指令时,采用训练后的数据量预估模型和查询耗时预测模型进行相应处理,反馈查询结果,并反馈查询结果至数据量预估模型和查询耗时预测模型进行训练。
其中,本申请实施例的采样率自适应回路如图4B所示,其中各个功能模型为服务器内部的功能模型,其作为一种划分方式,也可以有其他划分方式,本实施例以如图4B所示为例,对本申请的数据资源的查询方法中的采样率的确定进行解释说明,如图4B所示,查询引擎接收查询指令,该查询引擎将该查询指令发送给查询分析模块,该查询分析模型包括上述数据量预估模型和查询耗时预测模型,查询分析模块可以根据该查询指令确定请求特征信息,例如,如图4B所示的从数据库中获取数据分布信息。查询分析模块通过数据量预估模型和查询耗时预测模型确定预设查询耗时阈值内的最大查询数据量,从而确定采样率,向查询引擎反馈该采样率,查询引擎以该采样率对数据库进行扫描,反馈查询结果,并记录本次查询指令的请求特征信息和实际查询耗时,并反馈至查询分析模块,对数据量预估模型和查询耗时预测模型进行训练。
本实施例,通过根据查询条件确定所述查询指令的请求特征信息,所述请求特征信息包括至少一个第一类型特征和至少一个第二类型特征,将所述至少一个第一类型特征输入至数据量预估模型,得到预估查询数据量,将所述预估查询数据量和所述至少一个第二类型特征输入至查询耗时预测模型,得到预估查询耗时,当所述预估查询耗时大于所述预设查询耗时阈值时,通过二分法查找算法确定调整数据量,将所述调整数据量和所述至少一个第二类型特征输入至所述查询耗时预测模型,得到调整查询耗时,根据所述调整查询耗时和所述预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量,将所述最大查询数据量除以所述预估查询数据量,得到所述查询指令对应的采样率,以所述采样率对数据资源进行查询,并向客户端反馈查询结果,从而实现自适应地进行数据查询的采用率的调整,以保证集群系统查询性能的稳定高效。
并且通过使用所述查询结果对数据量预估模型和查询耗时预测模型进行反馈训练,实现对数据量预估模型和查询耗时预测模型优化调整,提升查询耗时判断的准确性,从而确定合理的采样率,以保证集群系统查询性能的稳定高效。
图5为本申请一实施例提供的一种数据资源的查询装置500的示意图,如图5所示,该装置包括:
接收模块501,用于接收查询指令,所述查询指令携带查询条件。
特征确定模块502,用于根据所述查询条件确定所述查询指令的请求特征信息,所述请求特征信息包括至少一个第一类型特征和至少一个第二类型特征。
数据量确定模块503,用于根据所述至少一个第一类型特征、所述至少一个第二类型特征和预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量。
采样率确定模块504,用于根据所述最大查询数据量确定所述查询指令对应的采样率。
查询模块505,用于以所述采样率对数据资源进行查询,并反馈查询结果。
其中,所述至少一个第一类型特征包括数据分布信息、过滤条件和查询时间跨度中至少一项,所述至少一个第二类型特征包括分析方法信息、子查询数量、数据网络交换次数、是否分群和集群负载中至少一项。
可选的,所述数据量确定模块503用于:将所述至少一个第一类型特征输入至数据量预估模型,得到预估查询数据量;根据所述预估查询数据量、所述至少一个第二类型特征和预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量。
可选的,所述数据量确定模块503用于:将所述预估查询数据量和所述至少一个第二类型特征输入至查询耗时预测模型,得到预估查询耗时;根据所述预估查询耗时、所述预设查询耗时阈值和所述查询耗时预测模型确定所述预设查询耗时阈值内的最大查询数据量。
可选的,所述数据量确定模块503用于:当所述预估查询耗时大于所述预设查询耗时阈值时,通过二分法查找算法确定调整数据量,将所述调整数据量和所述至少一个第二类型特征输入至所述查询耗时预测模型,得到调整查询耗时;根据所述调整查询耗时和所述预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量。
可选的,所述装置还包括训练模块506,用于:根据所述查询结果确定第一实际查询数据量和实际查询耗时;将所述第一实际查询数据量和实际查询耗时反馈至所述数据量预估模型和所述查询耗时预测模型;使用所述第一实际查询数据量、所述实际查询耗时、所述至少一个第一类型特征和所述至少一个第二类型特征对所述数据量预估模型和所述查询耗时预测模型进行训练。
可选的,所述训练模块506用于:根据所述第一实际查询数据量和所述采样率确定第二实际查询数据量;将所述至少一个第一类型特征和所述第二实际查询数据量作为所述数据量预估模型的训练数据,对所述数据量预估模型进行训练;将所述第一实际查询数据量、所述至少一个第二类型特征和所述实际查询耗时作为所述查询耗时预测模型的训练数据,对所述查询耗时预测模型进行训练。
可选的,所述采样率确定模块504,用于:将所述最大查询数据量除以所述预估查询数据量,得到所述查询指令对应的采样率。
本申请提供的数据资源的查询装置可以用于执行上述的数据资源的查询方法,其内容和效果在此不再赘述。
图6为本申请一实施例提供的一种数据资源的查询设备600的示意图,如图6所示,该设备包括:存储器601、处理器602和收发器603。
存储器601用于指令,以使处理器602执行指令,以实现上述的数据同步方法。
收发器603用于与其他设备之间实现通信。
处理器602可以被一个或多个应用专用集成电路(Application SpecificIntegrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理设备(Digital Signal Processing Device,DSPD)、可编程逻辑器件(ProgrammableLogic Device,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、控制器、微控制器、微处理器或其他电子元件实现。
存储器601可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM),可编程只读存储器(Programmable read-only memory,PROM),只读存储器(Read-Only Memory,ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请提供的数据资源的查询设备可以用于执行上述的数据资源的查询方法,其内容和效果在此不再赘述。
本申请还提供一种存储介质,包括:存储介质包括:指令,指令用于实现上述的数据资源的查询方法。其内容和效果在此不再赘述。
本申请提供一种计算机程序产品,该计算机程序产品包括指令,该指令用于实现上述的数据资源的查询方法。其内容和效果在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (14)

1.一种数据资源的查询方法,其特征在于,包括:
接收查询指令,所述查询指令携带查询条件;
根据所述查询条件确定所述查询指令的请求特征信息,所述请求特征信息包括至少一个第一类型特征和至少一个第二类型特征;
根据所述至少一个第一类型特征、所述至少一个第二类型特征和预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量;
将所述最大查询数据量除以预估查询数据量,得到所述查询指令对应的采样率,所述预估查询数据量是将所述至少一个第一类型特征输入至数据量预估模型得到的;
以所述采样率对数据资源进行查询,并反馈查询结果;
其中,所述至少一个第一类型特征包括数据分布信息、过滤条件和查询时间跨度中至少一项,所述至少一个第二类型特征包括分析方法信息、子查询数量、数据网络交换次数、是否分群和集群负载中至少一项。
2.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个第一类型特征、所述至少一个第二类型特征和预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量,包括:
将所述至少一个第一类型特征输入至数据量预估模型,得到预估查询数据量;
根据所述预估查询数据量、所述至少一个第二类型特征和预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述预估查询数据量、所述至少一个第二类型特征和预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量,包括:
将所述预估查询数据量和所述至少一个第二类型特征输入至查询耗时预测模型,得到预估查询耗时;
根据所述预估查询耗时、所述预设查询耗时阈值和所述查询耗时预测模型确定所述预设查询耗时阈值内的最大查询数据量。
4.根据权利要求3所述的方法,其特征在于,所述根据所述预估查询耗时、所述预设查询耗时阈值和所述查询耗时预测模型确定所述预设查询耗时阈值内的最大查询数据量,包括:
当所述预估查询耗时大于所述预设查询耗时阈值时,通过二分法查找算法确定调整数据量,将所述调整数据量和所述至少一个第二类型特征输入至所述查询耗时预测模型,得到调整查询耗时;
根据所述调整查询耗时和所述预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量。
5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:
根据所述查询结果确定第一实际查询数据量和实际查询耗时;
将所述第一实际查询数据量和实际查询耗时反馈至所述数据量预估模型和所述查询耗时预测模型;
使用所述第一实际查询数据量、所述实际查询耗时、所述至少一个第一类型特征和所述至少一个第二类型特征对所述数据量预估模型和所述查询耗时预测模型进行训练。
6.根据权利要求5所述的方法,其特征在于,所述使用所述实际查询数据量、所述实际查询耗时、所述至少一个第一类型特征和所述至少一个第二类型特征对所述数据量预估模型和所述查询耗时预测模型进行训练,包括:
根据所述第一实际查询数据量和所述采样率确定第二实际查询数据量;
将所述至少一个第一类型特征和所述第二实际查询数据量作为所述数据量预估模型的训练数据,对所述数据量预估模型进行训练;
将所述第一实际查询数据量、所述至少一个第二类型特征和所述实际查询耗时作为所述查询耗时预测模型的训练数据,对所述查询耗时预测模型进行训练。
7.一种数据资源的查询装置,其特征在于,包括:
接收模块,用于接收查询指令,所述查询指令携带查询条件;
特征确定模块,用于根据所述查询条件确定所述查询指令的请求特征信息,所述请求特征信息包括至少一个第一类型特征和至少一个第二类型特征;
数据量确定模块,用于根据所述至少一个第一类型特征、所述至少一个第二类型特征和预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量;
采样率确定模块,用于将所述最大查询数据量除以预估查询数据量,得到所述查询指令对应的采样率,所述预估查询数据量是将所述至少一个第一类型特征输入至数据量预估模型得到的;
查询模块,用于以所述采样率对数据资源进行查询,并反馈查询结果;
其中,所述至少一个第一类型特征包括数据分布信息、过滤条件和查询时间跨度中至少一项,所述至少一个第二类型特征包括分析方法信息、子查询数量、数据网络交换次数、是否分群和集群负载中至少一项。
8.根据权利要求7所述的装置,其特征在于,所述数据量确定模块用于:
将所述至少一个第一类型特征输入至数据量预估模型,得到预估查询数据量;
根据所述预估查询数据量、所述至少一个第二类型特征和预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量。
9.根据权利要求8所述的装置,其特征在于,所述数据量确定模块用于:
将所述预估查询数据量和所述至少一个第二类型特征输入至查询耗时预测模型,得到预估查询耗时;
根据所述预估查询耗时、所述预设查询耗时阈值和所述查询耗时预测模型确定所述预设查询耗时阈值内的最大查询数据量。
10.根据权利要求9所述的装置,其特征在于,所述数据量确定模块用于:
当所述预估查询耗时大于所述预设查询耗时阈值时,通过二分法查找算法确定调整数据量,将所述调整数据量和所述至少一个第二类型特征输入至所述查询耗时预测模型,得到调整查询耗时;
根据所述调整查询耗时和所述预设查询耗时阈值确定所述预设查询耗时阈值内的最大查询数据量。
11.根据权利要求9或10所述的装置,其特征在于,所述装置还包括训练模块,用于:
根据所述查询结果确定第一实际查询数据量和实际查询耗时;
将所述第一实际查询数据量和实际查询耗时反馈至所述数据量预估模型和所述查询耗时预测模型;
使用所述第一实际查询数据量、所述实际查询耗时、所述至少一个第一类型特征和所述至少一个第二类型特征对所述数据量预估模型和所述查询耗时预测模型进行训练。
12.根据权利要求11所述的装置,其特征在于,所述训练模块用于:
根据所述第一实际查询数据量和所述采样率确定第二实际查询数据量;
将所述至少一个第一类型特征和所述第二实际查询数据量作为所述数据量预估模型的训练数据,对所述数据量预估模型进行训练;
将所述第一实际查询数据量、所述至少一个第二类型特征和所述实际查询耗时作为所述查询耗时预测模型的训练数据,对所述查询耗时预测模型进行训练。
13.一种数据资源的查询设备,其特征在于,包括:
存储器和处理器;
所述存储器用于指令,以使所述处理器执行所述指令,以实现如权利要求1-6任一项所述的数据资源的查询方法。
14.一种存储介质,其特征在于,包括:所述存储介质包括:指令,所述指令用于实现如权利要求1-6任一项所述的数据资源的查询方法。
CN201810719556.4A 2018-07-03 2018-07-03 数据资源的查询方法、装置、设备及存储介质 Active CN110737679B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810719556.4A CN110737679B (zh) 2018-07-03 2018-07-03 数据资源的查询方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810719556.4A CN110737679B (zh) 2018-07-03 2018-07-03 数据资源的查询方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110737679A CN110737679A (zh) 2020-01-31
CN110737679B true CN110737679B (zh) 2022-06-14

Family

ID=69234266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810719556.4A Active CN110737679B (zh) 2018-07-03 2018-07-03 数据资源的查询方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110737679B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054000A (zh) * 2009-10-28 2011-05-11 中国移动通信集团公司 数据查询方法、装置及系统
CN104199956A (zh) * 2014-09-16 2014-12-10 成都博智维讯信息技术有限公司 一种erp数据语音搜索方法
US8977640B2 (en) * 2011-02-28 2015-03-10 Yahoo! Inc. System for processing complex queries
CN105844107A (zh) * 2016-03-31 2016-08-10 百度在线网络技术(北京)有限公司 数据处理方法和装置
CN106776733A (zh) * 2016-11-22 2017-05-31 北京航天自动控制研究所 数据处理系统中的数据分级抽样方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054000A (zh) * 2009-10-28 2011-05-11 中国移动通信集团公司 数据查询方法、装置及系统
US8977640B2 (en) * 2011-02-28 2015-03-10 Yahoo! Inc. System for processing complex queries
CN104199956A (zh) * 2014-09-16 2014-12-10 成都博智维讯信息技术有限公司 一种erp数据语音搜索方法
CN105844107A (zh) * 2016-03-31 2016-08-10 百度在线网络技术(北京)有限公司 数据处理方法和装置
CN106776733A (zh) * 2016-11-22 2017-05-31 北京航天自动控制研究所 数据处理系统中的数据分级抽样方法

Also Published As

Publication number Publication date
CN110737679A (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
US10210221B2 (en) System and method for distributed database query engines
US20170083573A1 (en) Multi-query optimization
US10223437B2 (en) Adaptive data repartitioning and adaptive data replication
US8682875B2 (en) Database statistics for optimization of database queries containing user-defined functions
CN109815283B (zh) 一种异构数据源可视化查询方法
US10706077B2 (en) Performance of distributed databases and database-dependent software applications
WO2017096892A1 (zh) 索引构建方法、查询方法及对应装置、设备、计算机存储介质
JP2010524060A (ja) 分散コンピューティングにおけるデータマージング
EP3251030B1 (en) Workload aware data placement for join-based query processing in a cluster
US9870394B2 (en) Query routing method, query routing server performing the same and storage medium storing the same
WO2019120093A1 (en) Cardinality estimation in databases
US11803521B2 (en) Implementation of data access metrics for automated physical database design
US11709831B2 (en) Cost-based query optimization for array fields in database systems
CN101916281B (zh) 并行计算系统及去重计数方法
CN113918605A (zh) 数据查询方法、装置、设备以及计算机存储介质
CN110737679B (zh) 数据资源的查询方法、装置、设备及存储介质
US11762831B2 (en) Adaptive sparse indexing in cloud-based data warehouses
US10762084B2 (en) Distribute execution of user-defined function
CN113190577B (zh) 一种表连接查询方法、装置及存储介质
US20240311356A1 (en) Workload-Driven Index Selections
JP2016130929A (ja) 集約装置、集約システム、集約方法、および、プログラム
CN118035278A (zh) 一种数据库查询方法、装置、电子设备及存储介质
CN118195379A (zh) 指标模型构建方法、装置、设备、存储介质和程序产品
CN117235071A (zh) 数据库的数据行数统计方法及装置、设备、存储介质
CN114780570A (zh) 一种数据查询方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant