CN115795547B

CN115795547B - 用于查询数据的方法、装置、终端及计算机存储介质

Info

Publication number: CN115795547B
Application number: CN202211586151.0A
Authority: CN
Inventors: 王济平; 黎刚; 汤克云; 高俊杰; 周健雄; 刘继华
Original assignee: Jingxin Data Technology Co ltd
Current assignee: Jingxin Technology Co.,Ltd.
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-07-21
Anticipated expiration: 2042-12-09
Also published as: CN115795547A

Abstract

本申请涉及数据查询技术领域，提供一种用于查询数据的方法、装置、终端及计算机存储介质。该方法包括：获取至少两个目标数据源分别对应的目标信息，目标信息包括目标数据源的数据结构信息、过滤信息和聚合信息中的至少一种；根据目标信息，确定至少两个第一查询语句和每个第一查询语句对应的隐私集合求交条件，其中，每个第一查询语句和第一查询语句对应的隐私集合求交条件与一个目标数据源对应；根据每个目标数据源对应的第一查询语句和第一查询语句相对应的隐私集合求交条件，从每个目标数据源中确定符合预设条件的第一数据集；根据每个目标数据源对应的第一数据集，得到联合查询结果集。通过本申请提供的方案，能够避免数据的泄露。

Description

用于查询数据的方法、装置、终端及计算机存储介质

技术领域

本申请涉及数据查询技术领域，尤其是涉及一种用于查询数据的方法、装置、终端及计算机存储介质。

背景技术

随着互联网的高速发展，使得数据量爆发式增长的同时，数据结构化存储的形式也开始呈现出多样性，数据库选择有Mysql，Oracle，SQLServer等，随之而产生的多种数据源联合查询需求也越来越多。

然而，在多种数据源联合查询的过程中，时常会造成数据的泄露，例如通过数据汇总的方式进行数据联合查询时，该方法前提是需要不定时的或者一次性的把各方数据汇总至一起才能进行操作，同时由于各方存在隐私敏感数据且数据查询中心方不受监管，时常会造成严重的数据泄露。

申请内容

本申请的目的在于提供一种用于查询数据的方法、装置、终端及计算机存储介质，旨在解决目前数据查询过程中，会造成隐私敏感数据泄露的技术问题。

第一方面，本申请提供了一种用于查询数据的方法，其特征在于，包括：

获取至少两个目标数据源分别对应的目标信息，所述目标信息包括所述目标数据源的数据结构信息、过滤信息和聚合信息中的至少一种；

根据所述目标信息，确定至少两个第一查询语句和每个所述第一查询语句对应的隐私集合求交条件，其中，每个第一查询语句和所述第一查询语句对应的隐私集合求交条件与一个所述目标数据源对应；

根据每个所述目标数据源对应的所述第一查询语句和所述第一查询语句相对应的隐私集合求交条件，从每个所述目标数据源中确定符合预设条件的第一数据集；

根据每个所述目标数据源对应的第一数据集，得到联合查询结果集。

本申请实施例提供的用于查询数据的方法，通过获取至少两个目标数据源分别对应的数据结构信息、过滤信息和聚合信息等非敏感数据的目标信息，以便于基于目标信息得到至少两个第一查询语句和每个第一查询语句对应的隐私集合求交条件，以便于后续能够根据每个目标数据源对应的第一查询语句和第一查询语句相对应的隐私集合求交条件，从每个目标数据源中确定符合预设条件的第一数据集，并最终得到联合查询结果集，且由于在查询的过程中避免传输敏感信息，能够有效地避免隐私数据的泄露。

第二方面，本申请提供了一种，用于查询数据的装置，其特征在于，包括：

获取模块，用于获取至少两个目标数据源分别对应的目标信息，所述目标信息包括所述目标数据源的数据结构信息、过滤信息和聚合信息中的至少一种；

第一确定模块，用于根据所述目标信息，确定至少两个第一查询语句和每个所述第一查询语句对应的隐私集合求交条件，其中，每个第一查询语句和所述第一查询语句对应的隐私集合求交条件与一个所述目标数据源对应；

第二确定模块，用于根据每个所述目标数据源对应的所述第一查询语句和所述第一查询语句相对应的隐私集合求交条件，从每个所述目标数据源中确定符合预设条件的第一数据集；

查询模块，用于根据每个所述目标数据源对应的第一数据集，得到联合查询结果集。

第三方面，本申请提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的查询数据的方法。

第四方面，本申请提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述的查询数据的方法。

可以理解的是，上述第二方面至第四方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的查询数据的方法的实现流程示意图。

图2是本申请一实施例提供的查询数据的方法步骤S12的具体实现流程示意图。

图3是本申请另一实施例提供的查询数据的方法的实现流程示意图。

图4是本申请另一实施例提供的查询数据的方法的实现流程示意图。

图5是是本申请一实施例提供的查询数据的方法步骤S13的具体实现流程示意图。

图6是本申请一实施例提供的查询数据的方法步骤S31的具体实现流程示意图。

图7是本申请另一实施例提供的查询数据的方法的实现流程示意图。

图8是本申请一实施例提供的查询数据的装置的结构示意图。

图9是本申请一实施例提供的终端设备的方法的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定装置结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。

在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

在多种数据源联合查询的过程中，为了能够查询到合适的数据，时常需要将所有数据进行汇总或将某些隐私数据传输至其他主体处，以便于进行数据查询活动的开展。然而，由于将包含隐私数据的数据传输出去后，各方的数据中存在隐私敏感数据且数据查询中心方不受监管，时常会造成严重的数据泄露。

为此，本申请提供了一种用于查询数据的方法，能够较好地降低在数据查询过程中，隐私数据泄露的风险。

本申请实施例提供的查询数据方法可以应用于手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备或服务器上，本申请实施例对终端设备或服务器的具体类型不作任何限制。

请参阅图1，图1是本申请实施例提供的一种用于查询数据的方法的实现流程图，包括以下步骤：

S11：获取至少两个目标数据源分别对应的目标信息，目标信息包括目标数据源的数据结构信息、过滤信息和聚合信息中的至少一种。

作为本申请的一个示例，目标数据源指的是提供某种所需要数据的器件或原始媒体。

可以理解的是，每个目标数据源中记录的数据可能全部相同，也可能部分相同。例如，数据源A、B、C和D，数据源A有两个数据a1和a2，数据源B中包括数据a1和b，数据源C包括a2和c，数据源D包括c。其中，数据源A中包括的数据与数据源B中包括的数据部分相同。数据源A中包括的数据与数据源C中包括的数据部分相同。数据源C中包括的数据和数据源D中包括的的数据完全相同。

数据结构信息指的是数据存储是对应的特征信息。

过滤信息指的是用于过滤部分数据时对应的过滤条件。例如，数据A包括字段a1、a2、a3、a4和分别对应的数据内容，过滤信息为过滤字段a1和a2分别对应的数据，保留字段a3、a4分别对应的数据。

聚合信息指的是用于对有关的数据进行内容挑选、分析或归类时所参考的信息。

在本实施例中，为了能够更好地获取得到合适地数据，在存在多个数据源时，先从该多个数据源中确定至少两个目标数据源，接着通过对各个目标数据源中包括的元数据以及数据结构进行分析，得到每个目标数据源对应的目标信息，即得到数据结构信息、过滤信息和/或聚合信息。

其中，元数据为用于描述数据源中记载的数据的数据。

在一些实施例中，目标信息还可以包括目标数据源中记载的数据的特征信息。

S12：根据目标信息，确定至少两个第一查询语句和每个第一查询语句对应的隐私集合求交条件，其中，每个第一查询语句和第一查询语句对应的隐私集合求交条件与一个目标数据源对应。

在本实施例中，为了能够从每个目标数据源中得到符合查询期望的数据，根据目标信息，确定用于从每个目标数据源中查询数据的第一查询语句，以及用于进行隐私集合求交时参考的隐私集合求交条件。

S13：根据每个目标数据源对应的第一查询语句和第一查询语句相对应的隐私集合求交条件，从每个目标数据源中确定符合预设条件的第一数据集。

在本实施例中，由于是多个目标数据源进行联合查询，所以，需要根据每个目标数据源对应的隐私集合求交条件和第一查询语句，得到每个目标数据源对应得符合预设条件的第一数据集。

示例的，目标数据源分别为数据源A和数据源B，先根据数据源A和数据源B分别对应的隐私集合求交条件，从数据源A中查询得到数据a和数据b，和从数据源B分别查询得到数据a和数据c，并将数据源A和数据源B分别对应的查询结果进行求交，得到均存在于数据源A和数据源B中的数据a，并根据数据a得到一个数据集，并将该数据集分别作为数据源A和数据源B的第一数据集。

S14：根据每个目标数据源对应的第一数据集，得到联合查询结果集。

在本实施例中，由于在进行隐私集合求交后，两两目标数据源进行隐私求交得到的分别对应的隐私数据可能会有所不同，所以，还需要根据每个目标数据源对应的第一数据集，得到联合查询结果集。

可以理解的是，在根据每个目标数据源对应的第一数据集，得到联合查询结果集时，若存在两个目标数据源对应的第一数据集中包含的数据相同，则在联合查询结果集中，保留一份或两份数据；若存在两个目标数据源对应的第一数据集中包含的数据部分相同或均不相同，则在联合查询结果集中，保留相同部分的数据以及不相同部分的数据。

在一实施例中，根据每个目标数据源对应的第一数据集，得到联合查询结果集时，即是将每个目标数据源对应的第一数据集中包含的数据根据数据的字段项进行合并处理，进而将合并后的数据，作为联合查询结果集。

结合图2，作为本申请的一种可能实现方式，根据目标信息，确定至少两个第一查询语句和每个第一查询语句对应的隐私集合求交条件，包括：

根据目标信息，确定第二查询语句。

通过预设的分析算法对第二查询语句进行分析处理，得到至少两个第一查询语句和每个第一查询语句对应的隐私集合求交条件。

作为本申请的一个示例，第二查询语句为通过结构化查询语言编写得到的语句。例如，第二查询语句为Sql语句。隐私集合求交条件指的是参与双方在不泄露任何额外信息的情况下，得到双方持有数据的交集时所对应的求交条件。

在本实施例中，由于目标信息是为了描述目标数据源的数据，所以，为了能够更好地从目标数据源中查询得到合适的数据，根据预设的分析算法对第二查询语句进行解析处理，得到每个目标数据源分别对应的子物理逻辑计划树。接着，根据每个目标数据源对应的子物理逻辑计划树，得到每个数据数据源对应的第一查询语句和对应的隐私集合求交条件。

作为本申请的一个示例，通过预设的分析算法对第二查询语句进行分析处理，得到至少两个第一查询语句和每个第一查询语句对应的隐私集合求交条件，包括：

通过预设的分析算法对第二查询语句进行分析处理，得到总物理逻辑计划树；

对总物理逻辑计划树进行第一预设处理，得到每个目标数据源对应的子物理逻辑计划树；

对每个目标数据源对应的子物理逻辑计划树进行第二预设处理，得到每个目标数据源对应的第一查询语句和第一查询语句对应的隐私集合求交条件。

在本实施例中，为了能够更好地从目标数据源中查询得到合适的数据，通过预设的分析算法对第二查询语句进行解析处理，得到总物理逻辑计划树，接着对该总物理逻辑计划树执行横向切割、纵向切割和多方归属条件判断等第一预设处理，得到每个目标数据源对应的子物理逻辑计划树。最后，根据每个目标数据源对应的子物理逻辑计划树，生成每个目标数据源对应的第二查询语句，和对每个目标数据源对应的子物理逻辑计划树进行数据抽离处理等第二预设处理。

示例的，结合图3和图4，第一查询语句和第二查询语句均为SQL语句，其中第二查询语句为总SQL语句，第一查询语句为子SQL语句，预设的分析算法可以为利用ApacheCalcite技术协助的Clipping SQL Tree算法。在确定总SQL语句后，由于该总SQL语句所牵涉到的所有数据集(A1、A2、B和C)的元数据和特征分析信息，利用Calcite对各数据集元数据信息生成各自的metadata结构A1_METADATA、A2_METADATA、B_METADATA、C_METADATA，通过Apache Calcite对总SQL进行解析得到未经校验的抽象语法树SqlNode。

Apache Calcite校验SqlNode，通过利用A1_METADATA、A2_METADATA、B_METADATA、C_METADATA校验SqlNode是否有不存在的字段信息、表名信息、函数信息等，如若总SQL中有一个A1数据不存在的字段，则这里校验SqlNode时会报错，程序告知发起方sql校验失败。

校验SqlNode通过后的RelNode将会经过Apache Calcite的语句优化，因为总SQL的编写可能会存在各种复杂的情况，包括嵌套子查询、多重过滤条件等，Apache Calcite可以设置策略对RelNode进行优化，将嵌套子查询和各种过滤条件进行下推，全部转换成leftjoin、right join的形式，得到总物理逻辑计划树RelNodeOptimize，此时的RelNodeOptimize将不会存在复杂的嵌套子查询和多重过滤条件等，是多项left join、right join的形式。

CST3：RelNodeOptimize的结构是一种dag形式的体现，每一层级都对应总SQL语句的每一层，如LogicalProject代表select，LogicalTableScan代表from，LogicalFilter代表where，LogicalJoin代表left join、right join，LogicalAggregate代表group by，LogicalSort代表order by和limit，dag图为：

LogicalSort＝>LogicalProject＝>LogicalAggregate＝>LogicalJoin＝>LogicalFilter＝>LogicalTableScan。

针对本申请要体现的隐私计算场景，A、B、C方都有自己的隐私敏感数据A1、A2、B和C，而RelNodeOptimize中就会包含有A1、A2、B和C的字段和表信息，因此需要对该RelNodeOptimize进行横纵向切割，最终达到RelNodeOptimize切割成四份对应A1、A2、B和C三方四个数据源。

CST4-CST5：横向切割与纵向切割，切割算法，本申请实现了ClippingLogicalTreeShuttle类，该类继承Apache Calcite的RelShuttleImpl类，用于实现对RelNodeOptimize整个dag的自定义层层剖析算法。

横向切割：根据sql语法，在本申请中将各方表名当作是横向结构，意味着需要对RelNodeOptimize的LogicalTableScan和LogicalJoin进行横向切割。根据上方Q1-S1得到A1、A2、B和C元数据信息，可以得到每一数据的表名信息A1_NAME、A2_NAME、B_NAME和C_NAME。ClippingLogicalTreeShuttle类开始对RelNodeOptimize进行剖析，根据上图的dag顺序，此时会在LogicalTableScan和LogicalJoin层进行停留，其他层级为纵向切割逻辑，利用A1_NAME、A2_NAME、B_NAME和C_NAME与LogicalTableScan和LogicalJoin层级得到的TableQualifiedName(该值为这两个层级代表的数据表名)根据字符串匹配命中的规则，匹配得出四份的LogicalTableScan和LogicalJoin即A1LogicalTableScan和A1LogicalJoin、A2LogicalTableScan和A2LogicalJoin、BLogicalTableScan和BLogicalJoin、CLogicalTableScan和CLogicalJoin，其中A1LogicalJoin、A2LogicalJoin、BLogicalJoin和CLogicalJoin除了包含数据方本方的数据表名和字段名，还包含有连接其他方的表名和字段名，因此这将成为数据方本方的隐私集合(Private Set Intersection，PSI)求交条件。

纵向切割：根据sql语法，在本申请中将各方表内的字段当作是纵向结构，意味着需要对RelNodeOptimize的LogicalProject、LogicalFilter、LogicalAggregate和LogicalSort进行纵向切割。根据上方Q1-S1得到A1、A2、B和C元数据信息，可以得到每一数据的数据结构，即字段信息包括字段名、字段类型等。ClippingLogicalTreeShuttle类开始对RelNodeOptimize进行剖析，根据上图的dag顺序，此时将会在LogicalProject、LogicalFilter、LogicalAggregate和LogicalSort层停留，其他层级为横向切割逻辑。LogicalSort层，遍历其本身的FieldCollations和FieldList，可以得到需要order by的字段名，随后与A1、A2、B和C元数据字段名进行一一匹配，得到此时的LogicalSort层分别属于那几个数据方，如果存在多方，则可将LogicalSort进行对象拷贝同时修改FieldList，最终根据多方匹配将会得到多个LogicalSort如：A1LogicalSort、BLogicalSort等；LogicalProject层，因为该层对应sql语句的select，而select可能还会包含有一些sql函数的引入，所以不能像LogicalSort可直接遍历其本身的FieldCollations和FieldList获取字段名，此时通过遍历其ChildExps，里面每一个元素RexNode(该类也是一个dag类，是Apache Calcite用于描述各字段项、函数、操作符、条件值等)接受一个ClippingOperator操作算法(该操作算法继承RexVisitorImpl，用于对RexNode整个dag的层层剖析，与ClippingLogicalTreeShuttle类似)，并传入FieldList，ClippingOperator得到强转RexNode为RexInputRef，此时RexInputRef会利用该index值与FieldList进行索引值匹配即可得到最终的字段名，随后跟上述LogicalSort一致对象拷贝修改FieldList根据多方生成多个LogicalProject；LogicalAggregate层，该层属于sql中的groupby，与orderby类似并且逻辑略简单，所以它与LogicalSort基本一致，这里不再阐述；LogicalFilter层，该层属于sql中的where，所以此时这里也会存在各种字段项、函数、操作符、条件值等，因此与LogicalProject层同理，但在ClippingOperator内不但要获取字段项名同时还要获取该字段项对应的条件值，ClippingOperator通过对RexNode的dag某一阶段层级进行强转成RexLiteral类，该类获取Value属性值即可得到字段项对应的条件值，最终与LogicalSort一致对象拷贝修改FieldList根据多方生成多个LogicalFilter。

上述的逻辑CST5最终会得到A、B、C三方的多份Logical类，按照RelNodeOptimize的dag顺序，本申请将多份Logical类进行前后拼接，得到A、B、C三方最终各自数据的物理逻辑计划树。CST6：抽离与生成。CST5中对A、B、C各自物理逻辑计划树进行抽离得到各自的PSI条件即A1LogicalJoin、A2LogicalJoin、BLogicalJoin和CLogicalJoin，记为PSI A1、PSIA2、PSI B、PSI C，随后使用Apache Calcite生成sql的功能对A、B、C各自物理逻辑计划树生成各自的子SQL：SQL A1、SQL A2、SQLB、SQLC。最终A、B、C各自的SQL A1、SQL A2、SQLB、SQLC和PSI A1、PSI A2、PSI B、PSI C分别传至对应的每个数据源。

在一实施例中，根据每个目标数据源对应的元数据，生成每个目标数据源对应的元数据结构。

结合图4，作为本申请的一种可能实现方式，隐私集合求交条件包括：求交数据属性信息；

根据每个目标数据源对应的第一查询语句和第一查询语句相对应的隐私集合求交条件，从每个目标数据源中确定符合预设条件的第一数据集，包括：

对于每个目标数据源，根据目标数据源对应的求交数据属性信息，从目标数据源中确定第二数据集；

对每个目标数据源对应的第二数据集进行求交处理，得到每个第二数据集对应的第三数据集；

根据每个目标数据源对应的第一查询语句对目标数据源对应的第三数据集进行第三预设处理，得到每个目标数据源对应的第四数据集；

对每个目标数据源对应的第四数据集中的数据进行数据字段项授权处理，得到每个目标数据源对应的第一数据集。

作为本申请的一个示例，求交数据属性信息用于描述隐私集合求交时的字段、数据、求交相对方和/或求交方式。

在本实施例中，由于每个目标数据源中包含的可用于进行隐私集合求交的数据可能会有所不同，所以，针对对于每个目标数据源，根据目标数据源对应的求交数据属性信息，从目标数据源中确定第二数据集，接着将每个目标数据源对应的第二数据集与其他目标数据源的第二数据进行求交处理，得到每个第二数据集对应的第三数据集。进一步地，根据每个目标数据源对应的第一查询语句对目标数据源对应的第三数据集进行第三预设处理，得到每个目标数据源对应的第四数据集。

可以理解的是，第三预设处理可以包括过滤、聚合中的一种或多种。

示例的，目标数据源A、B、C三方利用各自的隐私集合求交条件得出要进行求交的字段名，假设都叫ID，则得到A1_ID、A2_ID、B_ID、C_ID。各方根据这些求交字段进行本地查询数据得到该求交列的第二数据集：A1_ID_DATA、A2_ID_DATA、B_ID_DATA、C_ID_DATA。接着各方根据各自的隐私集合求交条件，进行分析得出各自数据需要跟哪一方进行求交，如A1需要与B求交，B需要与C求交，则各方将其A1_ID_DATA_HASH、B_ID_DATA_HASH、C_ID_DATA_HASH传至给求交方。求交方(即各方)，得到求交列密文数据集，同时对本地数据的隐私集合求交条件列进行HASH得到本地求交列密文数据集，如B方的B_LOCAL_ID_DATA_HASH，将该B_LOCAL_ID_DATA_HASH与A1_ID_DATA_HASH进行HASH碰撞，碰撞得出相同的HASH值，即可得到本地求交后的数据集如：A1_PSI_DATA、A2_PSI_DATA、B_PSI_DATA、C_PSI_DATA。安全求交得到本地结果的第三数据集之后，即可基于第一查询语句根据每个目标数据源对应的第一查询语句对目标数据源对应的第三数据集进行过滤和聚合等第三预设处理，目标数据源A、B、C三方根据上方得出的A1_PSI_DATA、A2_PSI_DATA、B_PSI_DATA、C_PSI_DATA进行SQL A1、SQL A2、SQL B、SQL C等第一查询语句的执行。执行这些子sql后得到最终本地结果的第四数据集A1_RES_DATA、A2_RES_DATA、B_RES_DATA、C_RES_DATA。最后，由数据源A、B、C三方对各自的A1_RES_DATA、A2_RES_DATA、B_RES_DATA、C_RES_DATA进行字段项授权，得到每个目标数据源对应的第一数据集。

在一实施例中，对于每个目标数据源，根据目标数据源对应的求交数据属性信息，从目标数据源中确定第二数据集，其中，第二数据集为通过哈希算法进行加密得到的数据集。

具体的，对于每个目标数据源，根据目标数据源对应的求交数据属性信息，从目标数据源中查询得到求交列的数据集，接着利用哈希算法对该求交列的数据集进行加密，得到求交列的密文数据，并将该求交列的密文数据作为第二数据集。

在一实施例中，对每个目标数据源对应的第二数据集进行求交处理，得到每个第二数据集对应的第三数据集，包括：将每个目标数据源对应的第二数据集和与该目标数据源进行求交的目标数据源对应的第二数据集进行求交处理，确定哈希值相同的数据内容，并根据哈希值相同的数据得到本地求交后的数据集，并将该本地求交后的数据集作为第三数据集。

结合图5，作为本申请的一种可能实现方式，求交数据属性信息包括求交字段信息；

对于每个目标数据源，根据目标数据源对应的求交数据属性信息，从目标数据源中确定第二数据集，包括：

对于每个目标数据源，根据求交字段信息，从目标数据源中查询得到第五数据集；

对第五数据集进行加密处理，得到第二数据集。

在本实施例中，由于每个目标数据源中包括的数据可能会很多，且需要查询的数据只是其中的一部分，所以，为了提高数据查询的效果，对于每个目标数据源，根据求交字段信息，从目标数据源中查询得到第五数据集；对第五数据集进行加密处理，得到第二数据集。

示例的，目标数据源A、B、C三方利用各自的隐私集合求交条件得出要进行求交的字段名，假设都叫ID，则得到A1_ID、A2_ID、B_ID、C_ID。各方根据这些求交字段进行本地查询数据得到该求交列的第二数据集：A1_ID_DATA、A2_ID_DATA、B_ID_DATA、C_ID_DATA。

作为本申请的一种可能实现方式，隐私集合求交条件还包括：求交数据源信息，求交数据源信息用于描述进行数据求交时的相对双方目标数据源；

对每个目标数据源对应的第二数据集进行求交处理，得到每个第二数据集对应的第三数据集，包括：

根据每个目标数据源对应的求交数据源信息，将每个目标数据源对应的第二数据集与求交相对的目标数据源对应的第二数据集进行求交，得到每个目标数据源对应的第三数据集。

在本实施例中，由于每个目标数据源中包括的数据可能会很多，且需要查询的数据只是其中的一部分，所以，为了提高数据查询的效果，根据每个目标数据源对应的求交数据源信息，将每个目标数据源对应的第二数据集与求交相对的目标数据源对应的第二数据集进行求交，得到每个目标数据源对应的第三数据集。

示例的，根据每个目标数据源各自的隐私集合求交条件，进行分析得出各自数据需要跟哪一方进行求交，如A需要与B求交，B需要与C求交，则各方将其A_ID_DATA_HASH、B_ID_DATA_HASH、C_ID_DATA_HASH传至给求交方，以便于完成各个目标数据源分别对应的第二数据集之间进行求交，并得到求交后每个目标数据源对应的第三数据集。

结合图6，作为本申请的一种可能实现方式，根据每个目标数据源对应的求交数据源信息，将每个目标数据源对应的第二数据集与求交相对的目标数据源对应的第二数据集进行求交，得到每个目标数据源对应的第三数据集，包括：

对于每个目标数据源，根据每个目标数据源对应的求交数据源信息，确定求交双方分别对应的第二数据集中哈希值相同的数据；

根据求交双方分别对应的第二数据集中哈希值相同的数据，得到目标数据源对应的第三数据集。

作为本申请的一个示例，求交数据源信息用于描述进行求交的双方数据源。例如，A需要与B求交，即对应的求交数据源信息包括数据源A和数据源B。

在本实施例中，由于哈希值相同时，即表示数据内容相同，即相同部分的数据为可能符合预设条件的数据，所以，对于每个目标数据源，根据每个目标数据源对应的求交数据源信息，确定求交双方分别对应的第二数据集中哈希值相同的数据，根据求交双方分别对应的第二数据集中哈希值相同的数据，得到目标数据源对应的第三数据集。

示例的，根据每个目标数据源各自的求交数据源信息，进行分析得出各自数据需要跟哪一方进行求交，如A需要与B求交，B需要与C求交，则各方将其A_ID_DATA_HASH、B_ID_DATA_HASH、C_ID_DATA_HASH传至给求交方，以便于完成各个目标数据源分别对应的第二数据集之间进行求交，并得到求交后每个目标数据源对应的第三数据集。

作为本申请的一种可能实现方式，至少两个目标数据源中包括数据查询发起者和至少一个数据联合查询配合者。

方法包括：

通过数据查询发起者生成用于加密的公私密钥对，并将公钥发送至每个数据联合查询配合者，公私密钥对包括公钥和私钥；

获取由数据联合查询配合者利用公钥加密后的第一数据集；

根据每个目标数据源对应的第一数据集，得到联合查询结果集，包括：

将数据查询发起者对应的第一数据集和每个数据联合查询配合者对应的第一数据集按预设数据合并方式进行合并处理，得到联合查询结果集。

在本实施例中，为了避免数据信息的泄露，在根据每个目标数据源对应的第一查询语句和第一查询语句相对应的隐私集合求交条件，从每个目标数据源中确定符合预设条件的第一数据集之后，已得到每个数据源对应的第一数据集，但该第一数据集仍存储在每个目标数据源处，所以，为了将各个查询得到的第一数据集进行整合，且还避免数据信息的泄露，通过数据查询发起者生成用于加密的公私密钥对，并将公钥发送至每个数据联合查询配合者，公私密钥对包括公钥和私钥；获取由数据联合查询配合者利用公钥加密后的第一数据集，接着由数据查询发起者利用私钥进行解密，得到每个数据联合查询配合者对应的第一数据集，并进一步地由数据查询发起者将数据查询发起者对应的第一数据集和每个数据联合查询配合者对应的第一数据集按预设数据合并方式进行合并处理，得到联合查询结果集。

示例的，数据查询发起者为A，数据联合查询配合者为B和C。发起者A方生成RSA公私密钥对，将公钥传输至B和C方，B和C方利用该公钥加密本地经过授权的数据集B_RES_AUTH_DATA、C_RES_AUTH_DATA，得到B_RES_AUTH_ENCRYPT_DATA、C_RES_AUTH_ENCRYPT_DATA，B和C方各自将其发送至A方，A方利用私钥进行解密，并与A方本地的两份数据集进行横向合并，最终A方得出隐私联合查询结果集RES_DATA。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的查询数据方法，图7示出了本申请实施例提供的用于查询数据的装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图7，该装置100包括：

获取模块101，用于获取至少两个目标数据源分别对应的目标信息，目标信息包括目标数据源的数据结构信息、过滤信息和聚合信息中的至少一种；

第一确定模块102，用于根据目标信息，确定至少两个第一查询语句和每个第一查询语句对应的隐私集合求交条件，其中，每个第一查询语句和第一查询语句对应的隐私集合求交条件与一个目标数据源对应；

第二确定模块103，用于根据每个目标数据源对应的第一查询语句和第一查询语句相对应的隐私集合求交条件，从每个目标数据源中确定符合预设条件的第一数据集；

查询模块104，用于根据每个目标数据源对应的第一数据集，得到联合查询结果集。

在一实施例中，第一确定模块102，还用于根据目标信息，确定第二查询语句；通过预设的分析算法对第二查询语句进行分析处理，得到至少两个第一查询语句和每个第一查询语句对应的隐私集合求交条件。

在一实施例中，隐私集合求交条件包括：求交数据属性信息。

第二确定模块103，还用于对于每个目标数据源，根据目标数据源对应的求交数据属性信息，从目标数据源中确定第二数据集；对每个目标数据源对应的第二数据集进行求交处理，得到每个第二数据集对应的第三数据集；根据每个目标数据源对应的第一查询语句对目标数据源对应的第三数据集进行第三预设处理，得到每个目标数据源对应的第四数据集；对每个目标数据源对应的第四数据集中的数据进行数据字段项授权处理，得到每个目标数据源对应的第一数据集。

在一实施例中，求交数据属性信息包括求交字段信息。

第二确定模块103，还用于对于每个目标数据源，根据求交字段信息，从目标数据源中查询得到第五数据集；对第五数据集进行加密处理，得到第二数据集。

在一实施例中，隐私集合求交条件还包括：求交数据源信息，求交数据源信息用于描述进行数据求交时的相对双方目标数据源。

第二确定模块103，还用于根据每个目标数据源对应的求交数据源信息，将每个目标数据源对应的第二数据集与求交相对的目标数据源对应的第二数据集进行求交，得到每个目标数据源对应的第三数据集。

在一实施例中，第二确定模块103，还用于对于每个目标数据源，根据每个目标数据源对应的求交数据源信息，确定求交双方分别对应的第二数据集中哈希值相同的数据；根据求交双方分别对应的第二数据集中哈希值相同的数据，得到目标数据源对应的第三数据集。

在一实施例中，至少两个目标数据源中包括数据查询发起者和至少一个数据联合查询配合者。

获取模块101，还用于通过数据查询发起者生成用于加密的公私密钥对，并将公钥发送至每个数据联合查询配合者，公私密钥对包括公钥和私钥；获取由数据联合查询配合者利用公钥加密后的第一数据集；

查询模块104，还用于将数据查询发起者对应的第一数据集和每个数据联合查询配合者对应的第一数据集按预设数据合并方式进行合并处理，得到联合查询结果集。

本申请实施例提供的用于查询数据的装置，通过获取至少两个目标数据源分别对应的数据结构信息、过滤信息和聚合信息等非敏感数据的目标信息，以便于基于目标信息得到至少两个第一查询语句和每个第一查询语句对应的隐私集合求交条件，以便于后续能够根据每个目标数据源对应的第一查询语句和第一查询语句相对应的隐私集合求交条件，从每个目标数据源中确定符合预设条件的第一数据集，并最终得到联合查询结果集，且由于在查询的过程中避免传输敏感信息，能够有效地避免隐私数据的泄露。

图8为本申请一实施例提供的终端设备的结构示意图。如图8所示，该实施例的终端设备6包括：至少一个处理器60(图8中仅示出一个处理器)、存储器61以及存储在存储器61中并可在至少一个处理器60上运行的计算机程序62，处理器60执行计算机程序62时实现上述任意各个用于查询数据的方法实施例中的步骤。

终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器60、存储器61。本领域技术人员可以理解，图7仅仅是终端设备6的举例，并不构成对终端设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

处理器60可以是中央处理单元(Central Processing Unit，CPU)，该处理器60还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器61在一些实施例中可以是终端设备6的内部存储单元，例如终端设备6的硬盘或内存。存储器61在另一些实施例中也可以是终端设备6的外部存储设备，例如终端设备6上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器61还可以既包括终端设备6的内部存储单元也包括外部存储设备。存储器61用于存储操作装置、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如计算机程序的程序代码等。存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种终端设备，该终端设备包括：至少一个处理器、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序，处理器执行计算机程序时实现上述任意各个方法实施例中的步骤。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时可实现上述各个方法实施例中的步骤。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括：能够将计算机程序代码携带到装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种用于查询数据的方法，其特征在于，包括：

根据每个所述目标数据源对应的第一数据集，得到联合查询结果集；

所述隐私集合求交条件包括：求交数据属性信息；

所述根据每个所述目标数据源对应的所述第一查询语句和所述第一查询语句相对应的隐私集合求交条件，从每个所述目标数据源中确定符合预设条件的第一数据集，包括：

对于每个所述目标数据源，根据所述目标数据源对应的所述求交数据属性信息，从所述目标数据源中确定第二数据集；

对每个所述目标数据源对应的第二数据集进行求交处理，得到每个第二数据集对应的第三数据集；

根据每个所述目标数据源对应的第一查询语句对所述目标数据源对应的第三数据集进行第三预设处理，得到每个所述目标数据源对应的第四数据集；

对每个所述目标数据源对应的第四数据集中的数据进行数据字段项授权处理，得到每个所述目标数据源对应的第一数据集。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标信息，确定至少两个第一查询语句和每个所述第一查询语句对应的隐私集合求交条件，包括：

根据所述目标信息，确定第二查询语句；

通过预设的分析算法对所述第二查询语句进行分析处理，得到至少两个第一查询语句和每个所述第一查询语句对应的隐私集合求交条件。

3.根据权利要求2所述的方法，所述通过预设的分析算法对所述第二查询语句进行分析处理，得到至少两个第一查询语句和每个所述第一查询语句对应的隐私集合求交条件，包括：

通过所述预设的分析算法对所述第二查询语句进行分析处理，得到总物理逻辑计划树；

对所述总物理逻辑计划树进行第一预设处理，得到每个目标数据源对应的子物理逻辑计划树；

对每个所述目标数据源对应的子物理逻辑计划树进行第二预设处理，得到每个目标数据源对应的第一查询语句和第一查询语句对应的隐私集合求交条件。

4.根据权利要求1所述的方法，其特征在于，所述求交数据属性信息包括求交字段信息；

所述对于每个所述目标数据源，根据所述目标数据源对应的所述求交数据属性信息，从所述目标数据源中确定第二数据集，包括：

对于每个所述目标数据源，根据所述求交字段信息，从所述目标数据源中查询得到第五数据集；

对所述第五数据集进行加密处理，得到所述第二数据集。

5.根据权利要求1所述的方法，其特征在于，所述隐私集合求交条件还包括：求交数据源信息，所述求交数据源信息用于描述进行数据求交时的相对双方目标数据源；

所述对每个所述目标数据源对应的第二数据集进行求交处理，得到每个第二数据集对应的第三数据集，包括：

根据每个所述目标数据源对应的求交数据源信息，将每个所述目标数据源对应的第二数据集与求交相对的目标数据源对应的第二数据集进行求交，得到每个所述目标数据源对应的第三数据集。

6.根据权利要求5所述的方法，其特征在于，所述根据每个所述目标数据源对应的求交数据源信息，将每个所述目标数据源对应的第二数据集与求交相对的目标数据源对应的第二数据集进行求交，得到每个所述目标数据源对应的第三数据集，包括：

对于每个所述目标数据源，根据每个所述目标数据源对应的求交数据源信息，确定求交双方分别对应的第二数据集中哈希值相同的数据；

根据求交双方分别对应的第二数据集中哈希值相同的数据，得到所述目标数据源对应的第三数据集。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述至少两个目标数据源中包括数据查询发起者和至少一个数据联合查询配合者；

所述方法包括：

通过所述数据查询发起者生成用于加密的公私密钥对，并将公钥发送至每个数据联合查询配合者，所述公私密钥对包括公钥和私钥；

获取由所述数据联合查询配合者利用所述公钥加密后的第一数据集；

所述根据每个所述目标数据源对应的第一数据集，得到联合查询结果集，包括：

将所述数据查询发起者对应的第一数据集和每个数据联合查询配合者对应的第一数据集按预设数据合并方式进行合并处理，得到所述联合查询结果集。

8.一种用于查询数据的装置，其特征在于，包括：

查询模块，用于根据每个所述目标数据源对应的第一数据集，得到联合查询结果集；

所述隐私集合求交条件包括：求交数据属性信息；

所述第二确定模块，还用于对于每个所述目标数据源，根据所述目标数据源对应的所述求交数据属性信息，从所述目标数据源中确定第二数据集；对每个所述目标数据源对应的第二数据集进行求交处理，得到每个第二数据集对应的第三数据集；根据每个所述目标数据源对应的第一查询语句对所述目标数据源对应的第三数据集进行第三预设处理，得到每个所述目标数据源对应的第四数据集；对每个所述目标数据源对应的第四数据集中的数据进行数据字段项授权处理，得到每个所述目标数据源对应的第一数据集。

9.一种终端设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的查询数据的方法。