CN113779029A

CN113779029A - 一种数据查询的方法及装置

Info

Publication number: CN113779029A
Application number: CN202111039329.5A
Authority: CN
Inventors: 赵雁榕; 尚军杰; 毛雨萌; 李嘉荣; 任梅
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2021-12-10

Abstract

本申请提供一种数据查询的方法及装置，涉及人工智能领域，用于提高数据查询的查询效率。该方法包括：接收查询请求，查询请求包括源字段、源字段的值和目标字段；将源字段和目标字段输入基于强化学习的路径查询模型，获取最优查询路径，最优查询路径是源字段和目标字段之间存在的查询路径中奖励分数最高的查询路径；根据最优查询路径以及源字段的值，从数据库中查询到目标字段的值。

Description

一种数据查询的方法及装置

技术领域

本申请涉及人工智能领域，尤其涉及一种数据查询的方法及装置。

背景技术

在日常工作中，数据库是存储数据不可或缺的工具。人们可以利用数据库实现对重要数据的存储，并可以从数据库中查询自身所需的数据。

而现有的数据查询方法，往往需要用户自己编写具体的查询语句进行查询操作，但编写查询语句的前提是需要用户非常了解表结构，熟悉数据库的查询规则和相关的语法；在进行具体的查询操作时，还需要利用上述查询语句，对大量源表都进行检索、查询操作，才能最终找到需要查询的数据。

然而这种方式在面对保密性和安全性要求较高的数据库来说并不安全，且在编写过程中容易出现查询语句编写错误、运行效率低的情况。

发明内容

本申请实施例提供一种数据查询的方法及装置，能够提高数据查询的查询效率。

第一方面，提供一种数据查询的方法，包括：接收查询请求，查询请求包括源字段、源字段的值和目标字段；将输入基于强化学习的路径查询模型，获取最优查询路径，最优查询路径是源字段和目标字段之间存在的查询路径中奖励分数最高的查询路径；根据最优查询路径以及源字段的值，从数据库中查询到目标字段的值。

本申请通过训练一种基于强化学习的路径查询模型，将查询请求中包含的源字段和目标字段输入到路径查询模型中，就可以自动获取最优查询路径，从而数据库可以直接根据最优查询路径输出目标字段的值，节约了数据查询的时间，大大提高了查询效率。同时，由于路径查询模型的存在，避免了用户编写查询语句，提高了数据的保密性和安全性。

第二方面，提供一种数据查询的装置，包括：接收模块，用于接收查询请求，查询请求包括源字段、源字段的值和目标字段；处理模块，用于将源字段和目标字段输入基于强化学习的路径查询模型，获取最优查询路径，最优查询路径是所述源字段和目标字段之间存在的查询路径中奖励分数最高的查询路径；查询模块，用于根据最优查询路径以及源字段的值，从数据库中查询到目标字段的值。

第三方面，提供一种数据查询的装置，包括一个或多个处理器和一个或多个存储器；一个或多个存储器与一个或多个处理器耦合，一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当一个或多个处理器执行计算机指令时，使得该装置执行上述第一方面提供的方法。

第四方面，提供一种计算机可读存储介质，包括计算机指令，当计算机指令在计算机上运行时实现如上述第一方面所述的方法。

第五方面，提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述第一方面所述的方法。

附图说明

图1为本申请实施例提供的一种数据查询系统的示意图；

图2为本申请实施例提供的一种路径查询模型的训练流程图；

图3为本申请实施例提供的一种无向图的示意图；

图4为本申请实施例提供的另一种路径查询模型的训练流程图；

图5为本申请实施例提供的另一种无向图的示意图；

图6为本申请实施例提供的一种数据查询的方法的流程图；

图7为本申请实施例提供的一种数据查询的装置的组成示意图；

图8为本申请实施例提供的一种数据查询的装置的硬件结构示意图。

具体实施方式

为了便于本领域技术人员的理解，本申请实施例在此对本申请实施例中涉及到的术语进行说明。

字段：表中的每一行叫做一个“记录”，每一个记录包含这行中的所有信息。字段是比记录更小的单位，字段集合组成记录，相当于表中的每一列，每个字段描述表的某一特征，即数据项，并有唯一的供计算机识别的字段标识符。

无向图：边没有方向，两个相连的顶点可以相互到达的图表。

索引：在关系数据库中，索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构，它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录，可以根据目录中的页码快速找到所需的内容。

结构化查询语言(Structured Query Language，SQL)：用于管理关系数据库管理系统，可以从数据库取数据、更新数据，在数据库中创建新表、创建视图、设置表和视图权限等功能。

强化学习：又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一。强化学习是智能体以“试错”的方式进行学习，用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，除非另有说明，“/”表示“或”的意思，例如， A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。此外，“至少一个”是指一个或多个，“多个”是指两个或两个以上。“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

如背景技术所述，现有的数据查询方法，往往需要用户自己编写具体的查询语句，在面对保密性和安全性要求较高的数据库来说并不安全，且在编写过程中容易出现查询语句编写错误、运行效率很低的情况。

基于此，本申请提供一种数据查询的方法，通过训练一种基于强化学习的路径查询模型，将查询请求中包含的源字段和目标字段输入到路径查询模型中，就可以自动获取最优查询路径，从而数据库可以直接根据最优查询路径输出目标字段的值，节约了数据查询的时间，大大提高了查询效率。同时，由于路径查询模型的存在，避免了用户编写查询语句，提高了数据的保密性和安全性。

图1示出了本申请实施例所适用的数据查询系统100。该系统100包括客户端101和数据库服务器102。客户端101与数据库服务器102之间通过有线或无线的方式连接，以进行具体的数据交互。

客户端101是应用于用户一侧，能够实现数据采集、传输等功能的前端电子设备。具体的，客户端101可以为台式电脑、平板电脑、笔记本电脑、智能手机等。或者，客户端101也可以为能够运行于上述电子设备中的软件应用。例如，可以是在台式电脑上运行的某应用程序等。

数据库服务器102中存储有数据库，并设置有预先训练好的路径查询模型。数据库服务器102可以是一种应用于数据处理平台一侧，能够实现数据传输、处理等功能的后台服务器。具体的，数据库服务器102可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者，数据库服务器102也可以为运行于该电子设备中，为数据处理、存储和网络交互提供支持的软件程序。在本实施例中，并不具体限定服务器的数量。数据库服务器102可以为一个服务器，也可以为几个服务器，或者，由若干服务器形成的服务器集群。

在本申请实施例中，客户端101向数据库服务器102发送查询请求，数据库服务器102中的路径查询模型根据查询请求确定最优查询路径，数据库服务器102通过最优查询路径输出查询结果发送给客户端101。

下面结合说明书附图，对本申请的实施例进行具体说明。

在进行数据查询之前，首先对数据库中的所有源字段和目标字段进行路径查询模型的训练，如图2所示，路径查询模型的训练过程包括以下步骤：

S101、确定源字段和目标字段之间存在的N个查询路径，N为正整数。

可选的，根据数据库的配置信息，建立源字段和目标字段之间的无向图模型，无向图模型中的节点代表字段。

其中，数据库的配置信息包括数据库中所有的字段以及表格结构。

示例性的，数据库中的所有字段包括A、B、C、D、E、F，根据上述字段可以建立如图3所示的无向图。

作为一种可选的实现方式，根据无向图模型以及预设的路径选择规则，确定源字段和目标字段之间存在的N个查询路径。

示例性的，参考图3所示的无向图，若源字段为A，目标字段为F。A 到F之间存在的查询路径包括ABF、ABCEF、ACBF、ACEF、ADEF、ADECBF 等。

可选的，路径选择规则用于指示若查询路径中的目标节点的下一跳的候选节点中包括特定节点，则仅以特定节点作为目标节点的下一跳。

示例性的，特定节点所对应的字段可以为索引字段。

例如，当目标节点为C时，下一跳的候选节点包括B和E，由于字段 E为索引字段，则下一跳直接选择E，不考虑B。也即是说，若源字段为A，目标字段为F，A到F之间存在的查询路径包括ABF、ABCEF、ACEF、 ADEF。

本申请实施例通过制定路径选择规则，实现了强化学习与规则学习的结合使用，可以去除一些效率不高的查询路径，节约了路径查询的时间，提高了路径查询的效率。

S102、确定N个查询路径中每个查询路径的奖励分数。

其中，每个查询路径包括n个字段，n个字段包括源字段和目标字段。应理解，对于不同查询路径来说，n的取值可以是不同的。n为正整数。

可选的，如图4所示，步骤S102可以具体实现为以下步骤： S1021-S1023。

S1021、获取前n-1个字段中每一个字段对应的查询时间，查询时间为从一个字段查询到下一个字段所需的时间。

在一些实施例中，为了保证查询时间的准确性，对第一字段查询到第二字段的时间进行多次采样，第一字段为前n-1个字段中的任意一个字段，第二字段为查询路径中第一字段的下一个字段，根据多次采样的结果，计算第一字段对应的查询时间。

示例性的，参考图3所示的无向图，若源字段为A，目标字段为F，以其中一个查询路径ACEF为例进行说明。对A字段查询到C字段、C字段查询到E字段、E字段查询到F字段的时间进行多次采样，采样的结果为A字段对应的查询时间为1/4s，C字段对应的查询时间为1/7s，E字段对应的查询时间为1/2s。

S1022、根据前n-1个字段中每一个字段的查询时间，确定前n-1个字段中每一个字段的奖励分数。

在一些实施例中，查询时间与奖励分数之间满足负相关的关系。

示例性的，查询时间与奖励分数呈倒数关系。

具体的，根据

计算奖励分数，其中，r表示奖励分数，t表示当前字段查询到下一字段需要的时间。

例如，若某一字段查询时间为0.2s，则该字段对应的奖励分数为1/0.2，也即5。

可选的，遍历每个查询路径中每一个字段的查询时间，可以生成如图 5所示的带奖励分数的无向图。

S1023、根据前n-1个字段中每一个字段的奖励分数，确定查询路径的奖励分数。

具体的，根据前n-1个字段中每一个字段的奖励分数之和，确定查询路径的奖励分数。

示例性的，参考图5所示的无向图，假设查询路径为ACEF，则查询路径ACEF对应的奖励分数为4+7+17，也即28。

S103、根据N个查询路径中每个查询路径的奖励分数，选择奖励分数最高的查询路径作为最优查询路径。

示例性的，参考图5所示的无向图，若源字段为A，目标字段为F，E 为索引字段，N个查询路径包括：ABF、ABCEF、ACEF、ADEF、ADECBF 等。其中路径ABF的奖励分数为6，路径ABCEF的奖励分数为31，路径 ACEF的奖励分数为28，路径ADEF的奖励分数为41，路径ADECBF的奖励分数为37。则将路径ADEF作为最优查询路径。

由于奖励分数与查询时间呈负相关，查询时间越短，奖励分数越高，那么奖励分数最高的查询路径也就是查询时间最短的路径，将查询时间最短的路径作为最优查询路径，可以减少实际数据查询场景下的查询时间，提高了查询效率。

S104、根据源字段、目标字段以及最优查询路径，建立路径查询模型。

本申请实施例在进行数据查询之前基于数据库的配置信息预先训练基于强化学习和规则学习的路径查询模型，通过强化学习和规则学习，模型将运行时间最短奖励分数最大的路径作为最优查询路径输出，从而节约了路径查询的时间，提高了数据查询的效率。

如图6所示，本申请实施例提供一种数据查询的方法，该方法包括以下步骤：

S201、客户端接收查询请求。

其中，查询请求包括源字段、源字段的值和目标字段。

在一些实施例中，客户端的界面上显示有文本输入界面，客户端接收到用户在文本输入界面输入与查询请求相关的文本数据的操作，响应于该操作，对文本数据进行分词处理，得到源字段、源字段的值和目标字段。

示例性的，查询请求为查询高三二班小明同学期中考试的总分，通过分词处理，源字段为高三二班，源字段的值为小明，目标字段为期中考试的总分。从而，可以支持用户根据具体情况，以自定义文本数据的方式描述出查询需求。

S202、客户端向服务器发送查询请求。

具体的，客户端向服务器发送源字段、源字段的值和目标字段。

S203、服务器根据查询请求将源字段和目标字段输入基于强化学习的路径查询模型，获取最优查询路径。

其中，最优查询路径是源字段和目标字段之间存在的查询路径中奖励分数最高的查询路径。

可选的，根据源字段和目标字段通过路径查询模型获取到的最优查询路径并不固定。在实际应用过程中，每次最优查询路径的查询时间也作为一次训练路径查询模型的样本，不断更新路径查询模型中的奖励分数，以便下一次查询时确定的最优查询路径更为准确。

S204、服务器根据最优查询路径以及源字段的值，从数据库中查询到目标字段的值。

可选的，在路径查询模型中确定出最优查询路径后，路径查询模型会根据最优查询路径输出对应的SQL语句，根据SQL语句和源字段的值从数据库中查询到目标字段的值。

S205、服务器将目标字段的值发送给客户端。

S206、客户端显示目标字段的值。

在一些实施例中，客户端的界面上显示有结果界面，当客户端接收到目标字段的值，将目标字段的值显示在结果界面。

本申请通过预先训练一种基于强化学习的路径查询模型，将查询请求中包含的源字段和目标字段输入到路径查询模型中，就可以自动获取最优查询路径，从而数据库可以直接根据最优查询路径输出目标字段的值，节约了数据查询的时间，大大提高了查询效率。同时，由于路径查询模型的存在，避免了用户编写查询语句，提高了数据的保密性和安全性。

可以看出，上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本申请实施例可以根据上述方法示例对控制装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。可选的，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

如图7所示，本申请实施例提供一种数据查询的装置，该装置包括：接收模块701、处理模块702、查询模块703。

接收模块701，用于接收查询请求，查询请求包括源字段、源字段的值和目标字段；

处理模块702，用于将源字段和目标字段输入基于强化学习的路径查询模型，获取最优查询路径，最优查询路径是源字段和目标字段之间存在的查询路径中奖励分数最高的查询路径；

查询模块703，用于根据最优查询路径以及源字段的值，从数据库中查询到目标字段的值。

在一些实施例中，处理模块702，还用于确定源字段和目标字段之间存在的N个查询路径，N为正整数；确定N个查询路径中每个查询路径的奖励分数；根据N个查询路径中每个查询路径的奖励分数，选择奖励分数最高的查询路径作为最优查询路径。

在一些实施例中，处理模块702，还用于根据数据库的配置信息，建立源字段和目标字段之间的无向图模型，无向图模型中的节点代表字段；根据无向图模型以及预设的路径选择规则，确定源字段和目标字段之间存在的N个查询路径，路径选择规则用于指示若查询路径中的目标节点的下一跳的候选节点中包括特定节点，则仅以特定节点作为目标节点的下一跳，特定节点所对应的字段包括索引字段。

在一些实施例中，处理模块702，具体用于在查询路径包括n个字段，所述n个字段包括所述源字段和所述目标字段时获取前n-1个字段中每一个字段对应的查询时间，查询时间为从一个字段查询到下一个字段所需的时间；根据前n-1个字段中每一个字段的查询时间，确定前n-1个字段中每一个字段的奖励分数，查询时间与奖励分数之间满足负相关的关系；根据前n-1个字段中每一个字段的奖励分数，确定查询路径的奖励分数。

在一些实施例中，处理模块702，具体用于对第一字段查询到第二字段的时间进行多次采样，第一字段为前n-1个字段中的任意一个字段，第二字段为查询路径中第一字段的下一个字段；根据多次采样的结果，计算第一字段对应的查询时间。

图7中的各个模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。存储计算机软件产品的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例还提供一种数据查询装置的硬件结构示意图，如图8所示，该通信装置800包括处理器801，可选的，还包括与处理器801连接的存储器802和通信接口803。处理器801、存储器802和通信接口803 通过总线804连接。

处理器801可以是中央处理器(central processing unit，CPU)，通用处理器网络处理器(network processor，NP)、数字信号处理器(digital signal processing，DSP)、微处理器、微控制器、可编程逻辑器件(programmable logic device，PLD)或它们的任意组合。处理器还可以是其它任意具有处理功能的装置，例如电路、器件或软件模块。处理器801也可以包括多个 CPU，并且处理器801可以是一个单核(single-CPU)处理器，也可以是多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路或用于处理数据(例如计算机程序指令)的处理核。

存储器802可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory， CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，本申请实施例对此不作任何限制。存储器802 可以是独立存在，也可以和处理器801集成在一起。其中，存储器802中可以包含计算机程序代码。处理器801用于执行存储器802中存储的计算机程序代码，从而实现本申请实施例提供的方法。

通信接口803可以用于与其他设备或通信网络通信(如以太网，无线接入网(radioaccess network，RAN)，无线局域网(wireless local area networks，WLAN)等)。

总线804可以是外设部件互连标准(peripheral component interconnect， PCI)总线或扩展工业标准结构(extended industry standard architecture， EISA)总线等。所述总线804可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质包括计算机执行指令，当计算机执行指令在计算机上运行时，使得计算机执行如上述实施例提供的数据查询的方法。

本申请实施例还提供一种计算机程序产品，该计算机程序产品可直接加载到存储器中，并含有软件代码，该计算机程序产品经由计算机载入并执行后能够实现上述实施例提供的数据查询的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机执行指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本申请实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机执行指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机执行指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘 (solid state disk，SSD))等。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看附图、公开内容、以及所附权利要求书，可理解并实现公开实施例的其他变化。在权利要求中，“包括” (comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

尽管结合具体特征及其实施例对本申请进行了描述，显而易见的，在不脱离本申请的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种数据查询的方法，其特征在于，所述方法包括：

接收查询请求，所述查询请求包括源字段、所述源字段的值和目标字段；

将所述源字段和所述目标字段输入基于强化学习的路径查询模型，获取最优查询路径，所述最优查询路径是所述源字段和所述目标字段之间存在的查询路径中奖励分数最高的查询路径；

根据所述最优查询路径以及所述源字段的值，从数据库中查询到所述目标字段的值。

2.根据权利要求1所述的数据查询的方法，其特征在于，所述方法还包：

确定所述源字段和所述目标字段之间存在的N个查询路径，N为正整数；

确定所述N个查询路径中每个查询路径的奖励分数；

根据所述N个查询路径中每个查询路径的奖励分数，选择奖励分数最高的查询路径作为最优查询路径；

根据所述源字段、所述目标字段以及所述最优查询路径，建立所述路径查询模型。

3.根据权利要求2所述的数据查询的方法，其特征在于，所述确定所述源字段和所述目标字段之间存在的N个查询路径，包括：

根据所述数据库的配置信息，建立所述源字段和所述目标字段之间的无向图模型，所述无向图模型中的节点代表字段；

根据所述无向图模型以及预设的路径选择规则，确定所述源字段和所述目标字段之间存在的N个查询路径，所述路径选择规则用于指示若所述查询路径中的目标节点的下一跳的候选节点中包括特定节点，则仅以所述特定节点作为所述目标节点的下一跳，所述特定节点所对应的字段包括索引字段。

4.根据权利要求1至3任一项所述的方法，其特征在于，若查询路径包括n个字段，所述n个字段包括所述源字段和所述目标字段，所述查询路径的奖励分数根据以下方式确定：

获取前n-1个字段中每一个字段对应的查询时间，所述查询时间为从一个字段查询到下一个字段所需的时间；

根据所述前n-1个字段中每一个字段的查询时间，确定所述前n-1个字段中每一个字段的奖励分数，所述查询时间与所述奖励分数之间满足负相关的关系；

根据所述前n-1个字段中每一个字段的奖励分数，确定所述查询路径的奖励分数。

5.根据权利要求4所述的方法，其特征在于，所述获取所述n个字段中每一个字段对应的查询时间，包括：

对第一字段查询到第二字段的时间进行多次采样，所述第一字段为所述前n-1个字段中的任意一个字段，所述第二字段为所述查询路径中所述第一字段的下一个字段；

根据多次采样的结果，计算所述第一字段对应的查询时间。

6.一种数据查询的装置，其特征在于，所述装置包括：

接收模块，用于接收查询请求，所述查询请求包括源字段、所述源字段的值和目标字段；

处理模块，用于将所述源字段和所述目标字段输入基于强化学习的路径查询模型，获取最优查询路径，所述最优查询路径是所述源字段和所述目标字段之间存在的查询路径中奖励分数最高的查询路径；

查询模块，用于根据所述最优查询路径以及所述源字段的值，从数据库中查询到所述目标字段的值。

7.根据权利要求6所述的装置，其特征在于，

所述处理模块，还用于确定所述源字段和所述目标字段之间存在的N个查询路径，N为正整数；确定所述N个查询路径中每个查询路径的奖励分数；根据所述N个查询路径中每个查询路径的奖励分数，选择奖励分数最高的查询路径作为最优查询路径。

8.根据权利要求7所述的装置，其特征在于，

所述处理模块，还用于根据所述数据库的配置信息，建立所述源字段和所述目标字段之间的无向图模型，所述无向图模型中的节点代表字段；根据所述无向图模型以及预设的路径选择规则，确定所述源字段和所述目标字段之间存在的N个查询路径，所述路径选择规则用于指示若所述查询路径中的目标节点的下一跳的候选节点中包括特定节点，则仅以所述特定节点作为所述目标节点的下一跳，所述特定节点所对应的字段包括索引字段。

9.根据权利要求6-8任一项所述的装置，其特征在于，

所述处理模块，具体用于在查询路径包括n个字段，所述n个字段包括所述源字段和所述目标字段时获取前n-1个字段中每一个字段对应的查询时间，所述查询时间为从一个字段查询到下一个字段所需的时间；根据所述前n-1个字段中每一个字段的查询时间，确定所述前n-1个字段中每一个字段的奖励分数，所述查询时间与所述奖励分数之间满足负相关的关系；根据所述前n-1个字段中每一个字段的奖励分数，确定所述查询路径的奖励分数。

10.根据权利要求9所述的装置，其特征在于，

所述处理模块，具体用于对第一字段查询到第二字段的时间进行多次采样，所述第一字段为所述前n-1个字段中的任意一个字段，所述第二字段为所述查询路径中所述第一字段的下一个字段；根据多次采样的结果，计算所述第一字段对应的查询时间。

11.一种计算机可读存储介质，其特征在于包括计算机指令，当所述计算机指令在计算机上运行时实现如权利要求1-5中任一项所述的方法。