CN112860736A - 大数据查询优化方法、设备及可读存储介质 - Google Patents

大数据查询优化方法、设备及可读存储介质 Download PDF

Info

Publication number
CN112860736A
CN112860736A CN202110255512.2A CN202110255512A CN112860736A CN 112860736 A CN112860736 A CN 112860736A CN 202110255512 A CN202110255512 A CN 202110255512A CN 112860736 A CN112860736 A CN 112860736A
Authority
CN
China
Prior art keywords
task
big data
data query
execution engine
engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110255512.2A
Other languages
English (en)
Inventor
蔡凯
廖海波
陈婷
吴三平
王宗泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202110255512.2A priority Critical patent/CN112860736A/zh
Publication of CN112860736A publication Critical patent/CN112860736A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种大数据查询优化方法、设备及可读存储介质,所述大数据查询优化方法包括:获取大数据查询任务对应的任务数据,并对所述任务数据进行解析,获得任务特征表示数据;基于所述任务特征表示数据与预设任务执行引擎判别模型,判别所述大数据查询任务所需的任务执行引擎,获得执行引擎判别结果;依据所述执行引擎判别结果,执行大数据查询任务。本申请解决了大数据查询效率低的技术问题。

Description

大数据查询优化方法、设备及可读存储介质
技术领域
本申请涉及金融科技(Fintech)的机器学习技术领域,尤其涉及一种大数据查询优化方法、设备及可读存储介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
随着计算机技术的不断发展,机器学习的应用领域也越来越广泛,目前,在进行大数据查询时,通常由业务人员手动选择任务执行引擎,但是由于大数据知识涉及较深,业务人员无法全面了解,进而业务人员只能基于业务经验选择任务执行引擎,进而容易导致任务执行出错或者执行过慢,进而只能由业务人员重新基于业务经验选择任务执行引擎,所以,将导致进行大数据查询的效率较低。
发明内容
本申请的主要目的在于提供一种大数据查询优化方法、设备及可读存储介质,旨在解决现有技术中大数据查询效率低的技术问题。
为实现上述目的,本申请提供一种大数据查询优化方法,所述大数据查询优化方法应用于大数据查询优化设备,所述大数据查询优化方法包括:
获取大数据查询任务对应的任务数据,并对所述任务数据进行解析,获得任务特征表示数据;
基于所述任务特征表示数据与预设任务执行引擎判别模型,判别所述大数据查询任务所需的任务执行引擎,获得执行引擎判别结果;
依据所述执行引擎判别结果,执行大数据查询任务。
本申请还提供一种大数据查询优化装置,所述大数据查询优化装置为虚拟装置,且所述大数据查询优化装置应用于大数据查询优化设备,所述大数据查询优化装置包括:
解析模块,用于获取大数据查询任务对应的任务数据,并对所述任务数据进行解析,获得任务特征表示数据;
判别模块,用于基于所述任务特征表示数据与预设任务执行引擎判别模型,判别所述大数据查询任务所需的任务执行引擎,获得执行引擎判别结果;
执行模块,用于依据所述执行引擎判别结果,执行大数据查询任务。
本申请还提供一种大数据查询优化设备,所述大数据查询优化设备为实体设备,所述大数据查询优化设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述大数据查询优化方法的程序,所述大数据查询优化方法的程序被处理器执行时可实现如上述的大数据查询优化方法的步骤。
本申请还提供一种可读存储介质,所述可读存储介质上存储有实现大数据查询优化方法的程序,所述大数据查询优化方法的程序被处理器执行时实现如上述的大数据查询优化方法的步骤。
本申请提供了一种大数据查询优化方法、设备及可读存储介质,相比于现有技术采用的基于业务经验手动选择任务执行引擎的技术手段,本申请在获取获取大数据查询任务对应的任务数据之后,实现对所述任务数据进行解析,获得任务特征表示数据,进而基于所述任务特征表示数据与预设任务执行引擎判别模型,判别所述大数据查询任务所需的任务执行引擎,获得执行引擎判别结果,进而实现了基于大数据查询任务本身的任务数据,自动进行大数据查询任务所需的任务执行引擎的判别的目的,而不是仅基于业务经验选择任务执行引擎,进而提高了任务执行引擎的准确性,进而依据所述执行引擎判别结果,执行大数据查询任务,即可克服现有技术中业务人员只能基于业务经验选择大数据查询任务的任务执行引擎,进而容易导致任务执行出错或者执行过慢,进而只能由业务人员重新基于业务经验选择任务执行引擎,而导致大数据查询的效率低的技术缺陷,所以,提高了大数据查询的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请大数据查询优化方法第一实施例的流程示意图;
图2为本申请大数据查询优化方法第二实施例的流程示意图;
图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种大数据查询优化方法,在本申请大数据查询优化方法的第一实施例中,参照图1,所述大数据查询优化方法包括:
步骤S10,获取大数据查询任务对应的任务数据,并对所述任务数据进行解析,获得任务特征表示数据;
在本实施例中,需要说明的是,所述大数据查询任务为基于大数据进行数据定位搜索的任务,例如,SQL(Structured Query Language,结构化查询语言)任务等,所述任务数据为大数据任务对应的索引数据,例如,SQL数据等,其中,所述SQL数据可以为一段文本片段,所述任务数据至少包括数据量信息、关键词信息与关联数据信息中的一种,其中,所述数据量信息包括数据总大小和数据总行数等,所述关键词信息包括查询方式关键词和操作方式关键词等,所述关联数据信息包括关联数据的大小和关联数据的行数等,其中,需要说明的是,由于任务数据通常较大,进而通常会将任务数据分割为预设数量的关联数据执行大数据查询任务,所述任务数据还包括步骤数,其中,所述步骤数为任务数据中执行步骤的数量,其中,所述执行步骤包括建表步骤和执行关联数据相关的大数据查询步骤等。
获取大数据查询任务对应的任务数据,并对所述任务数据进行解析,获得任务特征表示数据,具体地,获取大数据查询任务对应的任务数据,并通过对所述任务数据进行解析,提取所述任务数据中的任务数据特征值,其中,所述任务特征值为任务数据特征的表示值,其中,所述任务数据特征包括数据量大小、文本关键词和文本文件大小等,进而将各所述任务特征值拼接为任务特征表示向量,并将所述任务特征表示向量作为所述任务特征表示数据。
步骤S20,基于所述任务特征表示数据与预设任务执行引擎判别模型,判别所述大数据查询任务所需的任务执行引擎,获得执行引擎判别结果;
在本实施例中,需要说明的是,所述预设任务执行引擎判别模型为用于判别所述大数据查询任务所需的任务执行引擎的机器学习模型,其中,所述任务执行引擎包括spark和hive等,所述预设任务执行引擎判别模型至少包括神经网络模型、决策树模型以及专家规则模型中的一种。
另外地,需要说明的是,由于大数据查询任务对应的任务数据的任务数据特征不同,进而大数据查询任务所需的任务执行引擎也不同,若无法大数据查询任务匹配适宜的任务执行引擎,将导致大数据查询任务执行出错或者过慢,进而降低了大数据查询任务的执行效率。
基于所述任务特征表示数据与预设任务执行引擎判别模型,判别所述大数据查询任务所需的任务执行引擎,获得执行引擎判别结果,具体地,将所述任务特征表示数据输入所述预设任务执行引擎判别模型,对所述任务特征表示数据进行分类,获得分类结果,进而依据所述分类结果,判别与所述大数据查询任务相匹配的任务执行引擎,获得所述执行引擎判别结果,例如,假设若所述分类结果表示任务特征表示数据对应的分类类别为A,则对应的相匹配的任务执行引擎为spark,若所述分类结果表示任务特征表示数据对应的分类类别为B,则对应的相匹配的任务执行引擎为hive。
在另一种实施方式中,基于所述任务特征表示数据与预设任务执行引擎判别模型,判别所述大数据查询任务所需的任务执行引擎,获得执行引擎判别结果,具体地,将所述任务特征表示数据输入所述预设任务执行引擎判别模型,对所述任务特征表示数据进行分类,获得分类结果,进而依据所述分类结果,确定所述大数据查询任务所需的任务执行引擎以及所述任务执行引擎对应的引擎资源,其中,所述引擎资源为所述任务执行引擎所需的系统资源,用于支持所述任务执行引擎执行大数据查询任务,例如执行器实例个数、执行器内存大小、驱动器内存大小以及执行器CPU大小等。
其中,所述预设任务执行引擎判别模型包括神经网络模型,所述任务特征表示数据包括任务特征表示数据包括任务特征表示向量,
所述基于所述任务特征表示数据与预设任务执行引擎判别模型,判别所述大数据查询任务所需的任务执行引擎,获得执行引擎判别结果的步骤包括:
步骤S21,基于所述神经网络模型,将所述任务特征表示向量映射为分类标签值;
在本实施例中,需要说明的是,所述任务特征表示向量为向量形式的任务特征表示数据,例如,假设所述所述任务特征表示向量为(a,b,c),其中,a表示数据量信息,b表示关键词信息,c表示关联数据信息。
基于所述神经网络模型,将所述任务特征表示向量映射为分类标签值,具体地,将所述任务特征表示向量输入所述神经网络模型,通过对所述任务特征表示向量进行数据处理,其中,所述数据处理包括卷积、池化和全连接等,将所述任务特征表示向量映射为分类标签值。
步骤S22,基于所述分类标签值,生成所述执行引擎判别结果。
在本实施例中,基于所述分类标签值,生成所述执行引擎判别结果,具体地,基于所述分类标签值,查询大数据查询任务所需的任务执行引擎类别标签与引擎资源标签,其中,所述任务执行引擎类别标签为表示任务执行引擎类别的标识,所述引擎资源标签为表示引擎资源的类型和大小的标识,进而将所述任务执行引擎类别标签和所述引擎资源标签共同作为所述执行引擎判别结果。
步骤S30,依据所述执行引擎判别结果,执行大数据查询任务。
在本实施例中,依据所述执行引擎判别结果,执行大数据查询任务,具体地,依据所述执行引擎判别结果对应的目标任务执行引擎,执行所述大数据查询任务对应的计算任务,完成所述大数据查询任务。
其中,所述依据所述执行引擎判别结果,执行大数据查询任务的步骤包括:
步骤S31,基于所述执行引擎判别结果,确定目标任务引擎类别和引擎资源;
在本实施例中,需要说明的是,所述执行引擎判别结果包括任务执行引擎类别信息和引擎资源信息,其中,所述任务执行引擎类别信息为表示任务执行引擎类别的信息,所述任务执行引擎信息可以为图像、文本以及向量等,所述引擎资源信息为表示引擎资源的信息,所述引擎资源信息可以为图像、文本以及向量等。
基于所述执行引擎判别结果,确定目标任务引擎类别和引擎资源,具体地,基于所述执行引擎判别结果中的任务执行引擎类别信息,确定目标任务引擎类别,并基于所述执行引擎判别结果中的引擎资源信息,确定所述引擎资源。
其中,所述执行引擎判别结果包括执行引擎判别向量,
所述基于所述执行引擎判别结果,确定目标任务引擎类别和引擎资源的步骤包括:
步骤S311,依据所述执行引擎判别向量中的第一位编码值,确定所述目标任务引擎类别;
在本实施例中,需要说明的是,所述执行引擎判别向量为表示任务执行引擎判别结果的编码向量,所述执行引擎判别向量至少包括第一编码值和第二编码值,其中,所述第一编码值为目标任务引擎类别的标识,所述第二编码值为引擎资源的标识,用于表示引擎资源的类型与大小,且所述第一编码值和第二编码值的位数均至少为1,例如,假设所述执行引擎判别向量为(a,b,c,1,5,8),则所述第一编码值为(a,b,c),所述第二编码值为(1,5,8)。
依据所述执行引擎判别向量中的第一位编码值,确定所述目标任务引擎类别,具体地,以所述执行引擎判别向量中的第一位编码值为索引,在预设引擎类别库中查询目标任务引擎类别。
步骤S312,依据所述执行引擎判别向量中的第二位编码值,确定所述引擎资源。
在本实施例中,依据所述执行引擎判别向量中的第二位编码值,确定所述引擎资源,具体地,以所述执行引擎判别向量中的第二位编码值为索引,在预设引擎资源库中选取所述引擎资源。
步骤S32,依据所述目标任务引擎类别和所述引擎资源,执行所述大数据查询任务。
在本实施例中,依据所述目标任务引擎类别和所述引擎资源,执行所述大数据查询任务,具体地,选取属于所述目标任务引擎类别的目标任务执行引擎,并为所述目标任务执行引擎匹配所述引擎资源,进而依据所述目标任务执行引擎和所述引擎资源,执行所述大数据查询任务。
其中,在所述依据所述目标任务引擎类别和所述引擎资源,执行所述大数据查询任务的步骤之后所述大数据查询优化方法还包括:
步骤S40,判断所述大数据查询任务是否执行成功;
步骤S50,若执行失败,则调整所述目标任务执行引擎类别,以重新执行所述大数据查询任务。
在本实施例中,判断所述大数据查询任务是否执行成功,若执行成功,则显示所述大数据查询任务的查询任务结果,若未执行成功,则选取第二目标任务执行引擎类别替换当前的目标任务执行引擎类别,并依据第二目标任务执行引擎类别与引擎资源,重新执行所述大数据查询任务。
其中,在所述依据所述执行引擎判别结果,执行大数据查询任务的步骤之后,所述大数据查询优化方法还包括:
步骤D10,获取任务查询失败次数,并判断所述任务查询失败次数是否满足预设模型调整条件;
在本实施例中,需要说明的是,所述任务查询失败次数包括任务执行连续失败次数和任务执行失败累计次数,其中,所述任务执行连续失败次数为执行大数据任务查询连续失败的次数,所述任务执行失败累计次数。
获取任务查询失败次数,并判断所述任务查询失败次数是否满足预设模型调整条件,具体地,获取任务执行连续失败次数和任务执行失败累计次数,进而判断所述任务执行连续失败次数是否大于第一预设次数,若是,则判定所述任务查询失败次数满足预设模型调整条件,若否,则判定所述任务查询失败次数不满足预设模型调整条件,或者判断所述任务执行失败累计次数是否大于第二预设次数,若是,则判定所述任务查询失败次数满足预设模型调整条件,若否,则判定所述任务查询失败次数不满足预设模型调整条件,其中,所述预设第二次数大于所述预设第一次数。
步骤D20,若满足,则对所述预设任务执行引擎判别模型进行基于强化学习的更新,获得目标任务执行引擎判别模型。
在本实施例中,若满足,则对所述预设任务执行引擎判别模型进行基于强化学习的更新,获得目标任务执行引擎判别模型,具体地,若满足,则基于大数据查询任务执行失败时的任务数据,对所述预设任务执行引擎判别模型进行基于强化学习的更新,获得目标任务执行引擎判别模型,其中,当预设任务执行引擎判别模型为决策树模型时,则更新决策树模型的各树节点的特征分裂值,以改变树节点对应的特征值取值范围;当预设任务执行引擎判别模型为神经网络模型时,则更新神经网络模型的权重参数,以增大或者减小执行失败时的主要特征对神经网络的决策影响,其中,所述主要特征为多次大数据查询失败时任务数据具备的共同特征,其中,强化学习过程为已知技术,在此不再赘述。
本申请实施例提供了一种大数据查询优化方法,相比于现有技术采用的基于业务经验手动选择任务执行引擎的技术手段,本申请实施例在获取获取大数据查询任务对应的任务数据之后,实现对所述任务数据进行解析,获得任务特征表示数据,进而基于所述任务特征表示数据与预设任务执行引擎判别模型,判别所述大数据查询任务所需的任务执行引擎,获得执行引擎判别结果,进而实现了基于大数据查询任务本身的任务数据,自动进行大数据查询任务所需的任务执行引擎的判别的目的,而不是仅基于业务经验选择任务执行引擎,进而提高了任务执行引擎的准确性,进而依据所述执行引擎判别结果,执行大数据查询任务,即可克服现有技术中业务人员只能基于业务经验选择大数据查询任务的任务执行引擎,进而容易导致任务执行出错或者执行过慢,进而只能由业务人员重新基于业务经验选择任务执行引擎,而导致大数据查询的效率低的技术缺陷,所以,提高了大数据查询的效率。
进一步地,参照图2,基于本申请中第一实施例,在本申请的另一实施例中,其中,所述预设任务执行引擎判别模型包括决策树模型,
所述基于所述任务特征表示数据与预设任务执行引擎判别模型,判别所述大数据查询任务所需的任务执行引擎,获得执行引擎判别结果的步骤包括:
步骤A10,遍历所述决策树模型中各目标决策树,获得所述任务特征表示数据对应的树输出结果;
在本实施例中,需要说明的是,所述决策树模型为由决策树构成的模型,用于分析决策所述任务特征表示数据的数据类别,例如GBDT模型以及随机森林等。
遍历所述决策树模型中各目标决策树,获得所述任务特征表示数据对应的树输出结果,具体地,将所述任务特征表示数据分别输入所述决策树模型中各目标决策树,并通过遍历各目标决策树,生成所述任务特征表示数据在各所述决策树中的树输出值,其中,所述树输出值为记录在所述决策树的叶子节点中的样本权重,进而将各所述树输出值作为所述树输出结果。
步骤A20,基于所述树输出结果,确定所述任务特征表示数据对应的分类类别;
在本实施例中,基于所述树输出结果,确定所述任务特征表示数据对应的分类类别,具体地,将所述树输出结果中各树输出值进行累加,获得输出累加值,并将所述树输出累加值作为分类概率,其中,所述分类概率为所述任务特征表示数据属于预设第一分类类别的概率,进而基于所述分类概率,确定所述任务特征表示数据对应的分类类别,也即,确定所述任务特征表示数据是属于预设第一分类类别还是预设第二分类类别。
其中,在一种实施方式中,所述基于所述分类概率,确定所述任务特征表示数据对应的分类类别的步骤包括:
进而将所述分类概率与预设分类概率阈值进行比对,若所述分类概率大于预设分类概率阈值,则判定所述任务特征表示数据属于预设第一分类类别,否则,判定所述任务特征表示数据属于预设第二分类类别。
步骤A30,基于所述分类类别,生成所述执行引擎判别结果。
在本实施例中,基于所述分类类别,生成所述执行引擎判别结果,具体地,基于预设的分类类别与任务执行引擎类别之间的映射关系,为所述大数据查询任务匹配对应的分类类别对应的任务执行引擎类别标签以及对应的引擎资源标签,并将所述任务执行引擎类别标签和所述引擎资源标签共同作为所述执行引擎判别结果。
本申请实施例提供了一种基于决策树生成执行引擎判别结果的方法,也即首先遍历所述决策树模型中各目标决策树,获得所述任务特征表示数据对应的树输出结果,进而基于所述树输出结果,确定所述任务特征表示数据对应的分类标签值,进而基于所述分类标签值,生成所述执行引擎判别结果。进而实现了基于大数据查询任务本身的任务数据,自动进行大数据查询任务所需的任务执行引擎的判别的目的,而不是仅基于业务经验选择任务执行引擎,进而提高了任务执行引擎的准确性,进而依据所述执行引擎判别结果,即可执行大数据查询任务,为克服现有技术中业务人员只能基于业务经验选择大数据查询任务的任务执行引擎,进而容易导致任务执行出错或者执行过慢,进而只能由业务人员重新基于业务经验选择任务执行引擎,而导致大数据查询的效率低的技术缺陷奠定了基础。
参照图3,图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图3所示,该大数据查询优化设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该大数据查询优化设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图3中示出的大数据查询优化设备结构并不构成对大数据查询优化设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图3所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及大数据查询优化程序。操作系统是管理和控制大数据查询优化设备硬件和软件资源的程序,支持大数据查询优化程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与大数据查询优化系统中其它硬件和软件之间通信。
在图3所示的大数据查询优化设备中,处理器1001用于执行存储器1005中存储的大数据查询优化程序,实现上述任一项所述的大数据查询优化方法的步骤。
本申请大数据查询优化设备具体实施方式与上述大数据查询优化方法各实施例基本相同,在此不再赘述。
本申请实施例还提供一种大数据查询优化装置,所述大数据查询优化装置应用于大数据查询优化设备,所述大数据查询优化装置包括:
解析模块,用于获取大数据查询任务对应的任务数据,并对所述任务数据进行解析,获得任务特征表示数据;
判别模块,用于基于所述任务特征表示数据与预设任务执行引擎判别模型,判别所述大数据查询任务所需的任务执行引擎,获得执行引擎判别结果;
执行模块,用于依据所述执行引擎判别结果,执行大数据查询任务。
可选地,所述执行模块还用于:
基于所述执行引擎判别结果,确定目标任务引擎类别和引擎资源;
依据所述目标任务引擎类别和所述引擎资源,执行所述大数据查询任务。
可选地,所述执行模块还用于:
依据所述执行引擎判别向量中的第一位编码值,确定所述目标任务引擎类别;
依据所述执行引擎判别向量中的第二位编码值,确定所述引擎资源。
可选地,所述大数据查询优化装置还用于:
判断所述大数据查询任务是否执行成功;
若执行失败,则调整所述目标任务执行引擎类别,以重新执行所述大数据查询任务。
可选地,所述所述任务数据至少包括数据量信息、关键词信息和关联数据信息中的一种。
可选地,所述判别模块还用于:
遍历所述决策树模型中各目标决策树,获得所述任务特征表示数据对应的树输出结果;
基于所述树输出结果,确定所述任务特征表示数据对应的分类标签值;
基于所述分类标签值,生成所述执行引擎判别结果。
可选地,所述判别模块还用于:
基于所述神经网络模型,将所述任务特征表示向量映射为分类标签值;
基于所述分类标签值,生成所述执行引擎判别结果。
本申请大数据查询优化装置的具体实施方式与上述大数据查询优化方法各实施例基本相同,在此不再赘述。
本申请实施例提供了一种可读存储介质,且所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的大数据查询优化方法的步骤。
本申请可读存储介质具体实施方式与上述大数据查询优化方法各实施例基本相同,在此不再赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

Claims (10)

1.一种大数据查询优化方法,其特征在于,所述大数据查询优化方法包括:
获取大数据查询任务对应的任务数据,并对所述任务数据进行解析,获得任务特征表示数据;
基于所述任务特征表示数据与预设任务执行引擎判别模型,判别所述大数据查询任务所需的任务执行引擎,获得执行引擎判别结果;
依据所述执行引擎判别结果,执行大数据查询任务。
2.如权利要求1所述大数据查询优化方法,其特征在于,所述依据所述执行引擎判别结果,执行大数据查询任务的步骤包括:
基于所述执行引擎判别结果,确定目标任务引擎类别和引擎资源;
依据所述目标任务引擎类别和所述引擎资源,执行所述大数据查询任务。
3.如权利要求2所述大数据查询优化方法,其特征在于,所述执行引擎判别结果包括执行引擎判别向量,
所述基于所述执行引擎判别结果,确定目标任务引擎类别和引擎资源的步骤包括:
依据所述执行引擎判别向量中的第一位编码值,确定所述目标任务引擎类别;
依据所述执行引擎判别向量中的第二位编码值,确定所述引擎资源。
4.如权利要求2所述大数据查询优化方法,其特征在于,在所述依据所述目标任务引擎类别和所述引擎资源,执行所述大数据查询任务的步骤之后所述大数据查询优化方法还包括:
判断所述大数据查询任务是否执行成功;
若执行失败,则调整所述目标任务执行引擎类别,以重新执行所述大数据查询任务。
5.如权利要求1所述大数据查询优化方法,其特征在于,所述任务数据至少包括数据量信息、关键词信息和关联数据信息中的一种。
6.如权利要求1所述大数据查询优化方法,其特征在于,所述预设任务执行引擎判别模型包括决策树模型,
所述基于所述任务特征表示数据与预设任务执行引擎判别模型,判别所述大数据查询任务所需的任务执行引擎,获得执行引擎判别结果的步骤包括:
遍历所述决策树模型中各目标决策树,获得所述任务特征表示数据对应的树输出结果;
基于所述树输出结果,确定所述任务特征表示数据对应的分类标签值;
基于所述分类标签值,生成所述执行引擎判别结果。
7.如权利要求1所述大数据查询优化方法,其特征在于,所述预设任务执行引擎判别模型包括神经网络模型,所述任务特征表示数据包括任务特征表示数据包括任务特征表示向量,
所述基于所述任务特征表示数据与预设任务执行引擎判别模型,判别所述大数据查询任务所需的任务执行引擎,获得执行引擎判别结果的步骤包括:
基于所述神经网络模型,将所述任务特征表示向量映射为分类标签值;
基于所述分类标签值,生成所述执行引擎判别结果。
8.如权利要求1所述大数据查询优化方法,其特征在于,在所述依据所述执行引擎判别结果,执行大数据查询任务的步骤之后,所述大数据查询优化方法还包括:
获取任务查询失败次数,并判断所述任务查询失败次数是否满足预设模型调整条件;
若满足,则对所述预设任务执行引擎判别模型进行基于强化学习的更新,获得目标任务执行引擎判别模型。
9.一种大数据查询优化设备,其特征在于,所述大数据查询优化设备包括:存储器、处理器以及存储在存储器上的用于实现所述大数据查询优化方法的程序,
所述存储器用于存储实现大数据查询优化方法的程序;
所述处理器用于执行实现所述大数据查询优化方法的程序,以实现如权利要求1至8中任一项所述大数据查询优化方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有实现大数据查询优化方法的程序,所述实现大数据查询优化方法的程序被处理器执行以实现如权利要求1至8中任一项所述大数据查询优化方法的步骤。
CN202110255512.2A 2021-03-09 2021-03-09 大数据查询优化方法、设备及可读存储介质 Pending CN112860736A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110255512.2A CN112860736A (zh) 2021-03-09 2021-03-09 大数据查询优化方法、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110255512.2A CN112860736A (zh) 2021-03-09 2021-03-09 大数据查询优化方法、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN112860736A true CN112860736A (zh) 2021-05-28

Family

ID=75995085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110255512.2A Pending CN112860736A (zh) 2021-03-09 2021-03-09 大数据查询优化方法、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112860736A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672651A (zh) * 2021-08-24 2021-11-19 杭州海康威视数字技术股份有限公司 一种任务执行方法、装置及电子设备
CN116048817A (zh) * 2023-03-29 2023-05-02 腾讯科技(深圳)有限公司 数据处理控制方法、装置、计算机设备和存储介质
US12117980B1 (en) 2023-09-11 2024-10-15 Oracle International Corporation Auto recognition of big data computation engine for optimized query runs on cloud platforms

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180089242A1 (en) * 2016-09-26 2018-03-29 Twiggle Ltd. Hierarchic model and natural language analyzer
CN108549683A (zh) * 2018-04-03 2018-09-18 联想(北京)有限公司 数据查询方法以及系统
US20190026335A1 (en) * 2017-07-23 2019-01-24 AtScale, Inc. Query engine selection
CN111104419A (zh) * 2019-12-24 2020-05-05 上海众源网络有限公司 一种数据查询方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180089242A1 (en) * 2016-09-26 2018-03-29 Twiggle Ltd. Hierarchic model and natural language analyzer
US20190026335A1 (en) * 2017-07-23 2019-01-24 AtScale, Inc. Query engine selection
CN108549683A (zh) * 2018-04-03 2018-09-18 联想(北京)有限公司 数据查询方法以及系统
CN111104419A (zh) * 2019-12-24 2020-05-05 上海众源网络有限公司 一种数据查询方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张保威 等: "《SQL Server从入门到精通》", 31 March 2018, 北京希望电子出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672651A (zh) * 2021-08-24 2021-11-19 杭州海康威视数字技术股份有限公司 一种任务执行方法、装置及电子设备
CN113672651B (zh) * 2021-08-24 2024-06-04 杭州海康威视数字技术股份有限公司 一种任务执行方法、装置及电子设备
CN116048817A (zh) * 2023-03-29 2023-05-02 腾讯科技(深圳)有限公司 数据处理控制方法、装置、计算机设备和存储介质
US12117980B1 (en) 2023-09-11 2024-10-15 Oracle International Corporation Auto recognition of big data computation engine for optimized query runs on cloud platforms

Similar Documents

Publication Publication Date Title
CN109992601B (zh) 待办事项信息的推送方法、装置和计算机设备
CN112860736A (zh) 大数据查询优化方法、设备及可读存储介质
US9390142B2 (en) Guided predictive analysis with the use of templates
US11144817B2 (en) Device and method for determining convolutional neural network model for database
CN110688393B (zh) 查询语句优化方法、装置、计算机设备及存储介质
CN111160469B (zh) 一种目标检测系统的主动学习方法
US20240161474A1 (en) Neural Network Inference Acceleration Method, Target Detection Method, Device, and Storage Medium
CN110956269B (zh) 数据模型的生成方法、装置、设备以及计算机存储介质
WO2019100635A1 (zh) 自动化测试脚本的编辑方法、装置、终端设备及存储介质
CN110322143B (zh) 模型实体化管理方法、装置、设备及计算机存储介质
CN114676279B (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN111768247A (zh) 下单率预测方法、设备及可读存储介质
CN114356712B (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
CN110222046B (zh) 列表数据的处理方法、装置、服务器和存储介质
CN111311105A (zh) 组合产品评分方法、装置、设备及可读存储介质
US20090094174A1 (en) Method, system and program product for on demand data mining server with dynamic mining models
CN111858366B (zh) 一种测试用例生成方法、装置、设备及存储介质
CN112070162A (zh) 多类别处理任务训练样本构建方法、设备及介质
CN111324344A (zh) 代码语句的生成方法、装置、设备及可读存储介质
US20230195742A1 (en) Time series prediction method for graph structure data
CN113591979A (zh) 行业类目识别方法、设备、介质及计算机程序产品
CN112948251B (zh) 软件自动测试方法及装置
CN111309821B (zh) 基于图数据库的任务调度方法、装置及电子设备
US20120192011A1 (en) Data processing apparatus that performs test validation and computer-readable storage medium
CN112052903A (zh) 多标签处理任务训练样本构建方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210528

RJ01 Rejection of invention patent application after publication