CN110825927A

CN110825927A - 数据查询方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN110825927A
Application number: CN201911185757.1A
Authority: CN
Inventors: 康林; 段效晨; 赵艳杰; 秦占明; 易帆
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-02-21

Abstract

本发明提供数据查询方法、装置、电子设备及计算机可读存储介质，涉及数据处理领域。德鲁伊数据库的一行中存储有一条待查询数据；所述一条待查询数据包括：至少一个字段值，以及所述一条待查询数据中各个所述字段值对应的各个整型数据的各个位图数组；相同的字段值对应的整型数据相同；不同的字段值对应的整型数据不同；接收查询指令；所述查询指令包括：查询字段；基于所述查询字段对应的各个位图数组的异或运算结果，从所述查询字段对应的各个整型数据中，获取去重后的目标整型数据；将所述目标整型数据所在行中，所述目标整型数据对应的字段值，确定为所述查询指令对应的查询结果。本发明在德鲁伊数据库中去重查询耗费资源少、查询效率高。

Description

数据查询方法、装置、电子设备及计算机可读存储介质

技术领域

本发明涉及数据处理领域，特别是涉及一种数据查询方法、装置、电子设备及计算机可读存储介质。

背景技术

德鲁伊数据库(Druid)能够提供超大数据规模、毫秒级时延的数据查询服务，在实时性要求较高的数据查询方面性能优良。

去重查询具体是将多条重复的数据在查询结果中只保留一条，进而能够提供少量且准确的查询结果。但是，目前德鲁伊数据库不支持去重查询功能，需要借助数据分组等途径，实现去重查询。

但是，现有技术中针对德鲁伊数据库借助数据分组等途径，去重查询，耗费资源较多且查询效率低。

发明内容

本发明实施例的目的在于提供一种数据查询方法、装置、电子设备及计算机可读存储介质，以解决在德鲁伊数据库中去重查询耗费资源且查询效率低的问题。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种数据查询方法，应用于德鲁伊数据库，所述德鲁伊数据库的每一行中对应存储有一条待查询数据；所述一条待查询数据包括：至少一个字段值，以及所述一条待查询数据中各个所述字段值对应的各个整型数据的各个位图数组；相同的字段值对应的整型数据相同；不同的字段值对应的整型数据不同；所述方法包括：

接收查询指令；所述查询指令包括：查询字段；

基于所述查询字段对应的各个位图数组的异或运算结果，从所述查询字段对应的各个整型数据中，获取去重后的目标整型数据；所述查询字段对应的各个位图数组为：各条所述待查询数据中，与所述查询字段匹配的字段值对应的整型数据的位图数组；

将所述目标整型数据所在行中，所述目标整型数据对应的字段值，确定为所述查询指令对应的查询结果。

可选的，所述接收查询指令之前，还包括：

获取各条所述待查询数据的各个所述字段值，并将每条所述待查询数据中各个所述字段值，分别转换为各个整型数据。

可选的，所述将每条所述待查询数据中各个所述字段值，分别转换为各个整型数据，包括：

将每条所述待查询数据中各个字段对应的各个字段值分别转换为各个字符串类型数据；

构建所有所述字符串类型数据对应的字典树；

为所述字典树中各个节点设置不同的整型编号；

将所述字符串类型数据最后一个字符对应节点的整型编号，确定为所述字符串类型数据对应的字段值的整型数据。

可选的，在所述字典树的节点的数量大于预设数量的情况下，所述为所述字典树中各个节点设置不同的整型编号之前，还包括：

将所述字典树以第一级子节点为分裂点，分裂为多个子字典树；

所述为所述字典树中各个节点设置不同的整型编号，包括：

为各个所述子字典树分别设置不同的整型编号区间；

在所述字典树对应的整型编号区间中，为所述子字典树中的各个节点设置不同的整型编号；

所述将所述字符串类型数据最后一个字符对应节点的整型编号，确定为所述字符串类型数据对应的字段值的整型数据，包括：

在所述多个字典树中，将第一级子节点与所述字符串的首字符匹配，且第二级子节点与所述字符串中首字符相邻的字符匹配的子字典树，确定为所述字符串对应的目标子字典树；

在所述目标子字典树中，将所述字符串类型数据最后一个字符对应节点的整型编号，确定为所述字符串类型数据对应的字段值的整型数据。

可选的，所述接收查询指令之前，还包括：

将所述各条待查询数据中各个所述字段值对应的各个整型数据的各个位图数组压缩；

所述德鲁伊数据库的每一行中对应存储有一条位图数组压缩后的待查询数据；

所述基于所述查询字段对应的各个位图数组的异或运算结果，从所述查询字段对应的各个整型数据中，获取去重后的目标整型数据之前，还包括：

将所述位图数组压缩后的待查询数据解压缩。

在本发明实施的第二方面，还提供了一种数据查询装置，应用于德鲁伊数据库，所述德鲁伊数据库的每一行中对应存储有一条待查询数据；所述一条待查询数据包括：至少一个字段值，以及所述一条待查询数据中各个所述字段值对应的各个整型数据的各个位图数组；相同的字段值对应的整型数据相同；不同的字段值对应的整型数据不同；所述装置包括：

接收模块，用于接收查询指令；所述查询指令包括：查询字段；

去重模块，用于基于所述查询字段对应的各个位图数组的异或运算结果，从所述查询字段对应的各个整型数据中，获取去重后的目标整型数据；所述查询字段对应的各个位图数组为：各条所述待查询数据中，与所述查询字段匹配的字段值对应的整型数据的位图数组；

查询结果返回模块，用于将所述目标整型数据所在行中，所述目标整型数据对应的字段值，确定为所述查询指令对应的查询结果。

可选的，所述装置还包括：

转换模块，用于获取各条所述待查询数据的各个所述字段值，并将每条所述待查询数据中各个所述字段值，分别转换为各个整型数据。

可选的，所述转换模块，包括：

第一转换子模块，用于将每条所述待查询数据中各个所述字段值分别转换为各个字符串类型数据；

字典树构建子模块，用于构建所有所述字符串类型数据对应的字典树；

编号设置子模块，用于为所述字典树中各个节点设置不同的整型编号；

整型数据确定子模块，用于将所述字符串类型数据最后一个字符对应节点的整型编号，确定为所述字符串类型数据对应的字段值的整型数据。

可选的，在所述字典树的节点的数量大于预设数量的情况下，所述装置还包括：

分裂模块，用于将所述字典树以第一级子节点为分裂点，分裂为多个子字典树；

所述编号设置子模块，包括：

编号区间设置单元，用于为各个所述子字典树分别设置不同的整型编号区间；

编号设置单元，用于在所述字典树对应的整型编号区间中，为所述子字典树中的各个节点设置不同的整型编号；

所述整型数据确定子模块，包括：

目标子字典树确定单元，用于在所述多个字典树中，将第一级子节点与所述字符串的首字符匹配，且第二级子节点与所述字符串中首字符相邻的字符匹配的子字典树，确定为所述字符串对应的目标子字典树；

整型数据确定单元，用于在所述目标子字典树中，将所述字符串类型数据最后一个字符对应节点的整型编号，确定为所述字符串类型数据对应的字段值的整型数据。

可选的，所述装置还包括：

压缩模块，用于将所述各条待查询数据中各个所述字段值对应的各个整型数据的各个位图数组压缩；

所述装置还包括：

解压缩模块，用于将所述位图数组压缩后的待查询数据解压缩。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的数据查询方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的数据查询方法。

本发明实施例提供的数据查询方法和装置，应用于德鲁伊数据库，所述德鲁伊数据库的每一行中对应存储有一条待查询数据；所述一条待查询数据包括：至少一个字段值，以及所述一条待查询数据中各个所述字段值对应的各个整型数据的各个位图数组；相同的字段值对应的整型数据相同；不同的字段值对应的整型数据不同；通过接收查询指令；所述查询指令包括：查询字段；基于所述查询字段对应的各个位图数组的异或运算结果，从所述查询字段对应的各个整型数据中，获取去重后的目标整型数据；所述查询字段对应的各个位图数组为：各条所述待查询数据中，与所述查询字段匹配的字段值对应的整型数据的位图数组；将所述目标整型数据所在行中，所述目标整型数据对应的字段值，确定为所述查询指令对应的查询结果。本发明实施例可以解决在德鲁伊数据库中去重查询，耗费资源较多且查询效率低的问题。

本发明实施例将待查询数据中的各个字段值转换为整型数据，德鲁伊数据库的每一行中对应存储有一条待查询数据中各个字段值的整型数据的位图数组，整型数据和位图数组均占用的存储空间少。对查询字段对应的各个整型数据的各个位图数组作异或运算速度较快，进而可以快速对该查询字段对应的各个整型数据去重，获取去重后的目标整型数据。由于相同的字段值对应的整型数据相同，不同的字段值对应的整型数据不同。获取了去重后的目标整型数据，相当于获取了各条待查询数据中，查询字段对应的多个字段值的去重结果。由于整型数据和对应的字段值存储在同一行，目标整型数据所在行即为各条待查询数据中，查询字段对应的多个字段值的去重结果所在的行，将目标整型数据对应的字段值，确定为查询指令对应的查询结果。一方面无需分组，耗费资源少；另一方面通过该查询字段对应的各个整型数据的各个位图数组的异或运算，快速准确获取去重后的目标整型数据，进而快速且准确地获取查询结果，提升了查询效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中一种数据查询方法的步骤流程图；

图2是本发明实施例中一种德鲁伊数据库的工作流程示意图；

图3是本发明实施例中另一种数据查询方法的步骤流程图；

图4是本发明实施例中一种将字段值转换为整型数据的步骤流程图；

图5是本发明实施例中一种将构建字典树的示意图；

图6是本发明实施例中一种字典树分裂的示意图；

图7是本发明实施例中一种数据查询装置；

图8是本发明实施例中另一种数据查询装置；

图9是本发明实施例中一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

参照图1，图1是本发明实施例中一种数据查询方法的步骤流程图，该方法可以应用于德鲁伊数据库中，参照图2所示，图2是本发明实施例中一种德鲁伊数据库的工作流程示意图。德鲁伊数据库(Druid)主要包括：实时节点服务器(Realtime Node)11、历史节点服务器(Historical Node)12、协调节点服务器(Coordinator Node)13、代理节点服务器(Broker Node)14、索引节点服务器(Indexer Node)15等。

德鲁伊数据库的工作流程可以为：实时节点服务器11即时摄入实时数据，对实时数据进行融合等，生成多个时间段的分片，将各个分片上传至深度存储HDFS。各个分片的相关元数据信息被保存到索引节点服务器15中。协调节点服务器13收到通知从索引节点服务器15获取分片数据文件的相关元数据，将其根据相关规则分配给符合条件的历史节点服务器12，历史节点服务器12得到命令，主动从深度存储HDFS中拉取分片数据文件，并通过协调节点服务器13的Zookeeper向集群声明其负责该分片的查询服务。实时节点服务器11丢弃该分片文件，并向集群声明不再提供该分片的查询服务。代理节点服务器14接收来自外部客户端的查询指令，并将查询指令转发到实时节点服务器11和历史节点服务器12，实时节点服务器11和历史节点服务器12向代理节点服务器14返回查询指令对应的查询结果。

在本发明实施例中，所述德鲁伊数据库的每一行中对应存储有一条待查询数据；所述一条待查询数据包括：至少一个字段值，以及所述一条待查询数据中各个所述字段值对应的各个整型数据的各个位图数组；相同的字段值对应的整型数据相同；不同的字段值对应的整型数据不同。

在本发明实施例中，德鲁伊数据库中存储有多条待查询数据，德鲁伊数据库的每一行中对应存储有一条待查询数据。每条待查询数据均包括多个字段值以及该条待查询数据的各个字段值相应的多个整型数据的各个位图数组。每条待查询数据中，各个字段值均对应一个整型数据。每个整型数据均对应一个位图数组。相同的整型数据对应的位图数组相同。该位图数组可以为整型数据对应的二进制表示等。在本发明实施例中，对此不作具体限定。字段值和与其对应的整型数据的位图数组存储在德鲁伊数据库的同一行中。相同的字段值对应的整型数据相同。不同的字段值对应的整型数据不同。则，相同字段值对应的整型数据的位图数组也相同，不同字段值对应的整型数据的位图数组也不同。

在本发明实施例中，德鲁伊数据库的一行中可以存储有一条待查询数据中每个字段值对应的整型数据等。或者，德鲁伊数据库的一行中仅存储有一条待查询数据中部分字段值对应的整型数据等。同样的，德鲁伊数据库的一行中可以存储有一条待查询数据中每个字段值对应的整型数据的位图数组等。或者，德鲁伊数据库的一行中仅存储有一条待查询数据中部分字段值对应的整型数据的位图数组等。在本发明实施例中，对此不作具体限定。

例如，参照下表1所示，下表1可以为德鲁伊数据库中存储的部分数据示意。

表1：德鲁伊数据库中存储的部分数据示意

city	整型数据	位图数组	district	Population(万)
					北京	28	11100	海淀区	348.0
北京	28	11100	东城区	82.2
					北京	28	11100	朝阳区	360.5
上海	31	11111	徐汇区	108.8
					上海	31	11111	闵行区	253.4
上海	31	11111	浦东新区	550.1
					成都	29	11101	武侯区	64.7
成都	29	11101	锦江区	56.6
					西安	19	10011	雁塔区	125.5
西安	19	10011	碑林区	65.2
					包头	24	11000	青山区	49.5

在该表中，city可以为字段，city列的北京、上海等可以为该字段对应的字段值。北京/28/11100/东城区/82.2可以为一条待查询数据。“28”可以为字段值“北京”对应的整型数据，“11100”可以为整型数据“28”的位图数组。成都/29/11101/锦江区/56.6可以为一条待查询数据。“29”可以为字段值“成都”对应的整型数据，“11101”可以为整型数据“29”的位图数组。德鲁伊数据库中一行存储一条待查询数据。如，德鲁伊数据库的第二行存储“北京/28/11100/海淀区/348.0”一条待查询数据。德鲁伊数据库的第三行存储“北京/28/11100/东城区/82.2”一条待查询数据。

各条待查询数据中，字段city对应的各个字段值：北京、北京、北京、上海、上海、上海、成都、成都、西安、西安、包头所在的行可以分别为：2、3、4、5、6、7、8、9、10、11、12。即，德鲁伊数据库中一行存储一条待查询数据，各条待查询数据中，字段city对应的各个字段值所在的行分别不同。相同的字段值北京对应的整型数据均为28。相同的字段值上海对应的整型数据均为31。相同的字段值成都对应的整型数据均为29。不同的字段值北京和上海对应的整型数据分别为28和31，并不相同。相同的字段值北京对应的整型数据28的位图数组均为11100，不同的字段值北京和上海对应的整型数据的位图数组分别为：11100和11111分别不同。

在本发明实施例中，该方法主要包括如下步骤：

步骤101：接收查询指令；所述查询指令包括：查询字段。

本发明实施例中，德鲁伊数据库的代理节点服务器可以接收查询指令。德鲁伊数据库中存储的每条待查询数据包括各个字段的字段值。该查询指令可以包括查询字段，该查询字段用于在各条待查询数据中定位字段值。

在本发明实施例中，可选的，在上述步骤101之前，该方法还可以包括：将所述各条待查询数据中各个所述字段值对应的各个整型数据的各个位图数组压缩。该德鲁伊数据库的一行中存储有一条位图数组压缩后的待查询数据。

具体的，可以采用位图压缩算法(Roaring Bitmap Compression)对上述位图数组压缩后，再在德鲁伊数据库的一行中存储一条位图数组压缩后的待查询数据，可以更进一步减少位图数组所占用的存储空间，可以占用更少的存储资源。

在本发明实施例中，可选的，如果在上述步骤101之前，德鲁伊数据库的一行中存储有一条位图数组压缩后的待查询数据，则，执行步骤102之前，还需要执行如下步骤：将所述位图数组压缩后的待查询数据解压缩。

具体的，可以采用与位图压缩算法对应的位图解压缩算法，对待查询数据中压缩后的位图数组进行解压缩，得到位图数据未压缩的待查询数据。

步骤102：基于所述查询字段对应的各个位图数组的异或运算结果，从所述查询字段对应的各个整型数据中，获取去重后的目标整型数据；所述查询字段对应的各个位图数组为：各条所述待查询数据中，与所述查询字段匹配的字段值对应的整型数据的位图数组。

在本发明实施例中，查询字段对应的各个位图数组为：各条待查询数据中，与该查询字段匹配的字段值对应的整型数据的位图数组。即，查询字段对应的各个位图数据为：每一条待查询数据中，与查询字段匹配的字段值对应的整型数据的位图数组的组合。

例如，针对上述例子，若查询字段为city，则，各条待查询数据中，与查询字段匹配的字段值分别为：“北京、北京、北京、上海、上海、上海、成都、成都、西安、西安、包头”。各条所述待查询数据中，与查询字段city匹配的字段值对应的各个整型数据可以为：28、28、28、31、31、31、29、29、19、19、24。各条待查询数据中，与查询字段city匹配的字段值对应的各个整型数据的各个位图数组可以为：11100、11100、11100、11111、11111、11111、11101、11101、10011、10011、11000。第一个整型数据28与第一条待查询数据北京/28/11100/海淀区/348.0中，查询字段city对应的字段值北京对应。第二个整型数据28与第二条待查询数据北京/28/11100东城区/82.2中，查询字段city对应的字段值北京对应。

在本发明实施例中，可以用各条待查询数据中，查询字段对应的各个整型数据的各个位图数组中任意一个位图数组，分别与其他的位图数组进行异或运算。当某一个或某几个位图数组与该位图数组异或运算的结果为0时，说明这几条待查询数据中，查询字段匹配的字段值对应的整型数据相同。由于相同的字段值对应的整型数据相同，不同的字段值对应的整型数据不同，相同整型数据对应的位图数组相同，不同整型数据对应的位图数组不同。也说明这几条待查询数据中，查询字段匹配的字段值相同。则，在后续返回该查询字段匹配的字段值的过程中，由于这几条待查询数据中，查询字段匹配的字段值相同，可以只保留任意一条待查询数据中查询字段匹配的字段值即可。则，这几条待查询数据中，任意保留该查询字段对应的一个整型数据即可，该整型数据即可以为去重后的一个目标整型数据。

采用与上述相似的操作，从第一轮异或运算后，结果非0的剩余位图数组中，再选择一个位图数组，用该位图数组与上述剩余位图数组中，其余的位图数组分别做异或运算。在出现异或运算结果为0的多条待查询数据中，只保留该查询字段对应的一个整型数据即可，该整型数据即可以为去重后的另一个目标整型数据。依次类推，进行多轮异或运算，直至所有的待查询数据均与其他条待查询数据进行完异或运算。

例如，针对上述例子，各条待查询数据中，查询字段对应的各个整型数据分别为：28、28、28、31、31、31、29、29、19、19、24。各条待查询数据中，查询字段对应的各个整型数据的各个位图数组分别为：11100、11100、11100、11111、11111、11111、11101、11101、10011、10011、11000。若用第一个位图数组11100与其他的10个位图数组作异或运算，结果分别为：0、0、00011、00011、00011、00001、00001、01111、01111、00100。则，第一个位图数组分别和第二个位图数组、第三个位图数组的异或运算结果均为0，说明第一个位图数组和第二个位图数组、第三个位图数组都相同。也说明第一条待查询数据中，查询字段city匹配的字段值与第二条待查询数据、第三条待查询数据，查询字段city匹配的字段值重复。则，第一条待查询数据、第二条待查询数据、第三条待查询数据，任意保留该查询字段city对应的一个整型数据28即可，该整型数据28即可以为去重后的一个目标整型数据。相当于将三个整型数据28通过异或运算只保留1个整型数据28，例如，只保留第一条待查询数据中查询字段city匹配的字段值北京的整型数据28，对三个整型数据28进行了去重。则，第一条待查询数据中查询字段city匹配的字段值北京的整型数据28可以为一个目标整型数据。

从第一轮异或运算后，结果非0的剩余位图数组11111、11111、11111、11101、11101、10011、10011、11000中，再选择一个位图数组，用该位图数组与上述剩余位图数组中，其余的位图数组分别做异或运算。在出现异或运算结果为0的几条待查询数据中，只保留该查询字段对应的一个整型数据即可。如，11条待查询数据中，只保留第4条待查询数据中查询字段city匹配的字段值上海的整型数据31，对三个整型数据31进行了去重。则，第4条待查询数据中查询字段city匹配的字段值上海的整型数据31可以为一个目标整型数据。

采用与上述相似的操作，进行多轮异或运算，直至所有的待查询数据均与其他多条待查询数据进行完异或运算，得到全部的目标整型数据可以为：第一条待查询数据中查询字段city匹配的字段值北京的整型数据28、第4条待查询数据中查询字段city匹配的字段值上海的整型数据31、第7条待查询数据中查询字段city匹配的字段值成都的整型数据29、第9条待查询数据中查询字段city匹配的字段值西安的整型数据19、第11条待查询数据中查询字段city匹配的字段值包头的整型数据24。

步骤103：将所述目标整型数据所在行中，所述目标整型数据对应的字段值，确定为所述查询指令对应的查询结果。

在本发明实施例中，目标整型数据所在的行即为对多条待查询数据中，对查询字段匹配的字段值进行去重后的待查询数据。则，将上述目标整型数据所在行中，该目标整型数据对应的字段值，确定为上述查询指令对应的查询结果。

例如，针对上述例子，得到全部的目标整型数据为：第一条待查询数据中查询字段city匹配的字段值北京的整型数据28、第4条待查询数据中查询字段city匹配的字段值上海的整型数据31、第7条待查询数据中查询字段city匹配的字段值成都的整型数据29、第9条待查询数据中查询字段city对应的字段值西安的整型数据19、第11条待查询数据中查询字段city匹配的字段值包头的整型数据24。第一条待查询数据中查询字段city匹配的字段值北京、第4条待查询数据中查询字段city匹配的字段值上海、第7条待查询数据中查询字段city匹配的字段值成都、第9条待查询数据中查询字段city匹配的字段值西安、第11条待查询数据中查询字段city匹配的字段值包头，即：查询字段city的查询结果可以为：北京、上海、成都、西安、包头。

在本发明实施例中，将待查询数据中的各个字段值转换为整型数据，德鲁伊数据库的每一行中对应存储有一条待查询数据中各个字段值的整型数据的位图数组，整型数据和位图数组均占用的存储空间少。对查询字段对应的各个整型数据的各个位图数组作异或运算速度较快，进而可以快速对该查询字段对应的各个整型数据去重，获取去重后的目标整型数据。由于相同的字段值对应的整型数据相同，不同的字段值对应的整型数据不同。获取了去重后的目标整型数据，相当于获取了各条待查询数据中，查询字段对应的多个字段值的去重结果。由于整型数据和对应的字段值存储在同一行，目标整型数据所在行即为各条待查询数据中，查询字段对应的多个字段值的去重结果所在的行，将目标整型数据对应的字段值，确定为查询指令对应的查询结果。一方面无需分组，耗费资源少；另一方面通过该查询字段对应的各个整型数据的各个位图数组的异或运算，快速准确获取去重后的目标整型数据，进而快速且准确地获取查询结果，提升了查询效率。

参照图3，图3是本发明实施例中另一种数据查询方法的步骤流程图，该方法可以应用于德鲁伊数据库中，该德鲁伊数据库的每一行中对应存储有一条待查询数据；所述一条待查询数据包括：至少一个字段值，以及所述一条待查询数据中各个所述字段值对应的各个整型数据的各个位图数组；相同的字段值对应的整型数据相同；不同的字段值对应的整型数据不同。该德鲁伊数据库的架构和一行中存储的待查询数据等参照前述记载。该方法可以包括：

步骤201：获取各条所述待查询数据的各个所述字段值，并将每条所述待查询数据中各个所述字段值，分别转换为各个整型数据；相同的字段值对应的整型数据相同；不同的字段值对应的整型数据不同。

本发明实施例中，德鲁伊数据库的实时节点服务器可以获取各条待查询数据，并将每条待查询数据中各个字段对应的各个字段值，分别转换为各个整型数据。将字段值转换为整型数据的方式可以为：若该字段值本身就为整型数据，则可以将其本本身作为转换后的整型数据。若该字段值本身不是整型数据，可以通过数据类型转换等，将字段值转换为整型数据等。在本发明实施例中，对此不作具体限定。需要注意的是，字段值向整型数据转换的过程中，相同的字段值对应的整型数据相同，不同的字段值对应的整型数据不同。

在本发明实施例中，参照图4，图4是本发明实施例中一种将字段值转换为整型数据的步骤流程图。可选的，该步骤201可以包括：步骤S1：将每条所述待查询数据中各个所述字段值分别转换为各个字符串类型数据；步骤S2：构建所有所述字符串类型数据对应的字典树；步骤S3：为所述字典树中各个节点设置不同的整型编号；步骤S4：将所述字符串类型数据对应节点的整型编号，确定为所述字符串类型数据对应的字段值的整型数据。

具体的，可以将每条待查询数据中各个字段值分别转换为各个字符串类型数据。然后构建包括同一字段的所有上述字符串类型数据对应的字典树。字段值转换为字符串类型数据可以为：获取字段值的汉语拼音或英语翻译等。进而将汉语拼音或英语翻译等作为该字段值转换后的字符串类型数据。在本发明实施例中，对此不作具体限定。

字典树的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率高。字典树的根节点不包含字符，除根节点外每一个节点都只包含一个字符，从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串。每个节点的所有子节点包含的字符都不相同。

例如，同一字段city所有的字段值为：北京、北京、北京、上海、上海、上海、成都、成都、西安、西安、包头。可以获取各个字段值的拼音，将各个字段值的拼音确定为各个字段值的字符串类型数据。则，city中字段值：北京、北京、北京、上海、上海、上海、成都、成都、西安、西安、包头的字符串类型数据可以分别为：beijing、beijing、beijing、shanghai、shanghai、shanghai、chengdu、chengdu、xian、xian、baotou。针对该十一个字段值构建的字典树可以如图5所示。图5是本发明实施例中一种将构建字典树的示意图。

在本发明实施例中，可以为上述字典树中各个节点设置不同的整型编号。进而能够保证各个整型数据的唯一性。同时，相同字段值对应的整型编号相同。将上述字符串类型数据最后一个字符对应节点的整型编号，确定为上述字符串类型数据对应的字段值的整型数据。

如图5所示。则，上述city中所有字段值：北京、北京、北京、上海、上海、上海、成都、成都、西安、西安、包头中，各个字段值北京对应节点的整型编号均为28，各个字段值上海对应的节点的整型编号均为31、各个字段值成都对应的节点的整型编号均为29、各个字段值西安对应的整型编号均为19、字段值包头的对应的整型数据为24。

在本发明实施例中，可选的，在上述字典树的节点的数量大于预设数量的情况下，在上述步骤S3之前，该方法还可以包括：将上述字典树以第一级子节点为分裂点，分裂为多个子字典树。上述步骤S3可以包括：为各个所述子字典树分别设置不同的整型编号区间；在所述字典树对应的整型编号区间中，为所述子字典树中的各个节点设置不同的整型编号。上述步骤S4可以包括：在所述多个字典树中，将第一级子节点与所述字符串的首字符匹配，且第二级子节点与所述字符串中首字符相邻的字符匹配的子字典树，确定为所述字符串对应的目标子字典树；在所述目标子字典树中，将所述字符串类型数据最后一个字符对应节点的整型编号，确定为所述字符串类型数据对应的字段值的整型数据。

具体的，该预设数量可以根据需要进行设定。在本发明实施例中，对此不作具体限定。在字典树的节点的数量大于该预设数量的情况下，说明该字典树占用的内存可能较大，可以将该字典树以第一级子节点为分裂点，分裂为多个子字典树。如，可以将具有至少两个下级子节点的第一级子节点作为分裂点，将上述至少两个下级子节点分裂在多个子字典树中。给各个子字典树分别设置不同的整型编号区间，在每个字典树对应的整型编号区间中，为该字典树中的各个节点设置不同的整型编号，进而使得不同子字典树中的各个节点的整型编号均不相同。可以在多个子字典树中，将第一级子节点与该字符串的首字符匹配，且第二级子节点与该字符串中首字符相邻的字符匹配的子字典树，确定为该字符串对应的目标子字典树。在该目标子字典树中，将该字符串类型数据最后一个字符对应节点的整型编号，确定为该字符串类型数据对应的字段值的整型数据。在字典树的节点的数量较大的情况下，对字典树分裂为多个子字典树，避免了字典树在内存中无限扩张。每颗子字典树只负责一部分整型编号区间，在确定字符串类型数据对应的整型数据的过程中，也只需通过比对首字符以及与首字符相邻的字符，即可以快速确定目标子字典树。只在目标子字典树中字符串类型数据最后一个字符对应节点的整型编号，不用在其他的子字典树中查找。

例如，参照图6，图6是本发明实施例中一种字典树分裂的示意图。图6中，未分裂字典树中第一级子节点如虚线框所示，第一级子节点字符“b”具有两个下级子节点分别为字符“a”和“e”，将上述的第一级子节点字符“b”作为分裂点，将两个下级子节点字符“a”和“e”分裂在两个子字典树中。

在本发明实施例中，可选的，德鲁伊数据库中存储一条待查询数据的行中，可以存储该条待查询数据中各个字段值对应的各个整型数据。

本发明实施例中，可以由实时节点服务器等，在德鲁伊数据库中存储一条待查询数据的行中，存储该条待查询数据中各个字段值对应的多个整型数据。也就是说，一条待查询数据中的各个字段值，和该条待查询数据中各个字段值对应的各个整型数据，存储在德鲁伊数据库的同一行中。每个整型数据与每条待查询数据中，该整型数据对应的字段值对应。同一条待查询数据通常具有多个字段值，可以将该条待查询数据的多个字段值和多个字段值分别相应的整型数据对应存储。可以将该条待查询数据的多个字段值和多个字段值分别相应的整型数据均存储在同一行。不同条的待查询数据所在的行不同。或者说，一行只存储一条待查询数据的多个字段值和多个字段值分别相应的整型数据以及各个整型数据的位图数组。

步骤202：接收查询指令；所述查询指令包括：查询字段。

步骤203：基于所述查询字段对应的各个位图数组的异或运算结果，从所述查询字段对应的各个整型数据中，获取去重后的目标整型数据；所述查询字段对应的各个位图数组为：各条所述待查询数据中，与所述查询字段匹配的字段值对应的整型数据的位图数组。

步骤204：将所述目标整型数据所在行中，所述目标整型数据对应的字段值，确定为所述查询指令对应的查询结果。

在本发明实施例中，该步骤202至步骤204可以分别参照前述步骤101至步骤103，为了避免重复，此处不再赘述。

在本发明实施例中，将待查询数据中各个的字段值转换为整型数据，德鲁伊数据库的每一行中对应存储有一条待查询数据中各个字段值的整型数据的位图数组，整型数据和位图数组均占用的存储空间少。对查询字段对应的各个整型数据的各个位图数组作异或运算速度较快，进而可以快速对该查询字段对应的各个整型数据去重，获取去重后的目标整型数据。由于相同的字段值对应的整型数据相同，不同的字段值对应的整型数据不同。获取了去重后的目标整型数据，相当于获取了各条待查询数据中，查询字段对应的多个字段值的去重结果。由于整型数据和对应的字段值存储在同一行，目标整型数据所在行即为各条待查询数据中，查询字段对应的多个字段值的去重结果所在的行，将目标整型数据对应的字段值，确定为查询指令对应的查询结果。一方面无需分组，耗费资源少；另一方面通过该查询字段对应的各个整型数据的各个位图数组的异或运算，快速准确获取去重后的目标整型数据，进而快速且准确地获取查询结果，提升了查询效率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定都是本申请实施例所必须的。

图7是本发明实施例中一种数据查询装置，应用于德鲁伊数据库。所述德鲁伊数据库的每一行中对应存储有一条待查询数据；所述一条待查询数据包括：至少一个字段值，以及所述一条待查询数据中各个所述字段值对应的各个整型数据的各个位图数组；相同的字段值对应的整型数据相同；不同的字段值对应的整型数据不同。关于该德鲁伊数据库的结构和一行中存储的待查询数据等可以参照前述的记载，为了避免重复，此处不再赘述。参照图7所示，所述装置500可以包括：

接收模块501，用于接收查询指令；所述查询指令包括：查询字段；

去重模块502，用于基于所述查询字段对应的各个位图数组的异或运算结果，从所述查询字段对应的各个整型数据中，获取去重后的目标整型数据；所述查询字段对应的各个位图数组为：各条所述待查询数据中，与所述查询字段匹配的字段值对应的整型数据的位图数组；

查询结果返回模块503，用于将所述目标整型数据所在行中，所述目标整型数据对应的字段值，确定为所述查询指令对应的查询结果。

可选的，在上述图7的基础上，参照图8所示，上述装置500还可以包括：

转换模块504，用于获取各条所述待查询数据的各个所述字段值，并将每条所述待查询数据中各个所述字段值，分别转换为各个整型数据。

可选的，所述德鲁伊数据库所述一条待查询数据所在的行中，存储有所述一条所述待查询数据的各个所述字段值对应的各个所述整型数据。

可选的，所述转换模块504，可以包括：

第一转换子模块5041，用于将每条所述待查询数据中各个所述字段值分别转换为各个字符串类型数据；

字典树构建子模块5042，用于构建所有所述字符串类型数据对应的字典树；

编号设置子模块5043，用于为所述字典树中各个节点设置不同的整型编号；

整型数据确定子模块5044，用于将所述字符串类型数据最后一个字符对应节点的整型编号，确定为所述字符串类型数据对应的字段值的整型数据。

可选的，在所述字典树的节点的数量大于预设数量的情况下，所述装置还可以包括：

所述编号设置子模块5043，可以包括：

所述整型数据确定子模块5044，可以包括：

可选的，所述装置500还可以包括：

所述德鲁伊数据库的一行中存储有一条位图数组压缩后的待查询数据。

所述装置还包括：

综上所述，在本发明实施例中，将待查询数据中的各个字段值转换为整型数据，德鲁伊数据库的每一行中对应存储有一条待查询数据中各个字段值的整型数据的位图数组，整型数据和位图数组均占用的存储空间少。对查询字段对应的各个整型数据的各个位图数组作异或运算速度较快，进而可以快速对该查询字段对应的各个整型数据去重，获取去重后的目标整型数据。由于相同的字段值对应的整型数据相同，不同的字段值对应的整型数据不同。获取了去重后的目标整型数据，相当于获取了各条待查询数据中，查询字段对应的多个字段值的去重结果。由于整型数据和对应的字段值存储在同一行，目标整型数据所在行即为各条待查询数据中，查询字段对应的多个字段值的去重结果所在的行，将目标整型数据对应的字段值，确定为查询指令对应的查询结果。一方面无需分组，耗费资源少；另一方面通过该查询字段对应的各个整型数据的各个位图数组的异或运算，快速准确获取去重后的目标整型数据，进而快速且准确地获取查询结果，提升了查询效率。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例还提供了一种电子设备，如图9所示，包括处理器71、通信接口72、存储器73和通信总线74，其中，处理器71，通信接口72，存储器73通过通信总线74完成相互间的通信，

存储器73，用于存放计算机程序；

处理器71，用于执行存储器73上所存放的程序时，实现如下步骤：

接收查询指令；所述查询指令包括：查询字段；

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的数据查询方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的数据查询方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种数据查询方法，其特征在于，应用于德鲁伊数据库，所述德鲁伊数据库的每一行中对应存储有一条待查询数据；所述一条待查询数据包括：至少一个字段值，以及所述一条待查询数据中各个所述字段值对应的各个整型数据的各个位图数组；相同的字段值对应的整型数据相同；不同的字段值对应的整型数据不同；所述方法包括：

接收查询指令；所述查询指令包括：查询字段；

2.根据权利要求1所述的方法，其特征在于，所述接收查询指令之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述将每条所述待查询数据中各个所述字段值，分别转换为各个整型数据，包括：

将每条所述待查询数据中各个所述字段值分别转换为各个字符串类型数据；

构建所有所述字符串类型数据对应的字典树；

为所述字典树中各个节点设置不同的整型编号；

4.根据权利要求3所述的方法，其特征在于，在所述字典树的节点的数量大于预设数量的情况下，所述为所述字典树中各个节点设置不同的整型编号之前，还包括：

所述为所述字典树中各个节点设置不同的整型编号，包括：

为各个所述子字典树分别设置不同的整型编号区间；

5.根据权利要求1所述的方法，其特征在于，所述接收查询指令之前，还包括：

将所述位图数组压缩后的待查询数据解压缩。

6.一种数据查询装置，其特征在于，应用于德鲁伊数据库，所述德鲁伊数据库的每一行中对应存储有一条待查询数据；所述一条待查询数据包括：至少一个字段值，以及所述一条待查询数据中各个所述字段值对应的各个整型数据的各个位图数组；相同的字段值对应的整型数据相同；不同的字段值对应的整型数据不同；所述装置包括：

7.根据权利要求6所述的装置，其特征在于，还包括：

8.根据权利要求7所述的装置，其特征在于，所述转换模块，包括：

9.根据权利要求8所述的装置，其特征在于，在所述字典树的节点的数量大于预设数量的情况下，还包括：

所述编号设置子模块，包括：

所述整型数据确定子模块，包括：

10.根据权利要求6所述的装置，其特征在于，还包括：

所述装置还包括：

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。