CN112732761A - 一种数据碰撞方法及装置 - Google Patents
一种数据碰撞方法及装置 Download PDFInfo
- Publication number
- CN112732761A CN112732761A CN202110040425.5A CN202110040425A CN112732761A CN 112732761 A CN112732761 A CN 112732761A CN 202110040425 A CN202110040425 A CN 202110040425A CN 112732761 A CN112732761 A CN 112732761A
- Authority
- CN
- China
- Prior art keywords
- data
- data set
- condition
- query
- record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
- G06F16/244—Grouping and aggregation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
Abstract
本发明公开了一种数据碰撞方法及装置,其中方法为:获取多个第一数据集和第二数据集;所述多个第一数据集中任意第一数据集为满足第一查询条件的数据集;所述第一查询条件为多个第一查询条件中任一第一查询条件;所述第二数据集为满足第二查询条件的数据集;所述第二查询条件为所述多个第一查询条件的并集;针对所述第二数据集中任一条数据记录,确定所述数据记录与所述多个第一数据集的多个数据碰撞结果;根据所述多个数据碰撞结果,确定所述数据记录的条件组合指示信息;所述条件组合指示信息用于指示所述多个第一查询条件中第一查询条件的组合情形。
Description
技术领域
本发明涉及数据碰撞技术领域,尤其涉及一种数据碰撞方法及装置。
背景技术
在一些应用场景下,需要进行数据碰撞,即从不同查询条件下的海量数据 中找到相互匹配的数据。如在追踪目标人员时,推测目标人员a2时间段在a1 地出现且有可能在b2时间段流窜到b1地。那么便需要找到A条件(a1地a2 时间段)下的人员流动信息数据与B条件(b1地b2时间段)下的人员流动信 息数据中相匹配的人员流动信息,以便缩小目标人员的追踪范围。
目前的匹配方式中,可能要在多个条件组合寻找,解决方案是先对各种组 合条件下的数据进行对比,得到各种组合条件下的数据的交集。如有A、B、C 和D四个条件,那么需要匹配的条件组合包括AB、AC、…C D、ABC、…、 BCD和ABCD等条件组合。显然,这样多种组合下每种都需要数据表连接操 作,会导致计算量大且复杂。因此,目前数据碰撞的计算量较大是一个亟待解 决的问题。
发明内容
本发明提供一种数据碰撞方法及装置,解决了现有技术中数据碰撞的计算 量较大的问题。
第一方面,本发明提供一种数据碰撞方法,包括:
获取多个第一数据集和第二数据集;所述多个第一数据集中任意第一数据 集为满足第一查询条件的数据集;所述第一查询条件为多个第一查询条件中任 一第一查询条件;所述第二数据集为满足第二查询条件的数据集;所述第二查 询条件为所述多个第一查询条件的并集;
针对所述第二数据集中任一条数据记录,确定所述数据记录与所述多个第 一数据集的多个数据碰撞结果;根据所述多个数据碰撞结果,确定所述数据记 录的条件组合指示信息;所述条件组合指示信息用于指示所述多个第一查询条 件中第一查询条件的组合情形。
上述方式下,由于所述第二数据集为满足第二查询条件的数据集,所述第 二查询条件为所述多个第一查询条件的并集,任意第一数据集为满足第一查询 条件的数据集,那么所述第二数据集中每个数据记录与所述多个第一数据集中 每个第一数据集的数据碰撞结果都会记录在所述数据记录的条件组合指示信 息中,因此,只需要每个数据记录分别与所述多个第一数据集确定数据碰撞结 果,便可以直接根据所述多个数据碰撞结果,确定所述数据记录的条件组合指 示信息,从而指示出具体的查询条件的组合情形,不需要再不同条件组合下的 数据集都对比,从而降低了目前数据碰撞的计算量。
可选的,所述根据所述多个数据碰撞结果,确定所述数据记录的条件组合 指示信息之后,还包括:
根据所述第二数据集中各数据记录的条件组合指示信息,按照不同的条件 组合对所述第二数据集中各数据记录进行分组。
上述方法中,按照不同的条件组合对所述第二数据集中各数据记录进行分 组,可以更直观地展示出每种条件组合的情况。
可选的,所述第二数据集中任一数据记录的条件组合指示信息具体包括多 个第一字段和\或第二字段;所述多个第一字段用于指示所述数据记录是否满足 所述多个第一查询条件中的各第一查询条件;所述第二字段用于指示所述数据 记录满足所述多个第一查询条件的程度,所述第二字段的取值是根据所述数据 记录满足所述多个第一查询条件的个数得到的。
上述方法中,通过多个第一字段和\或第二字段可以表征所述数据记录的查 询条件组合的情形,从而能够直接指示出数据记录相应的条件查询组合。
可选的,所述根据所述多个数据碰撞结果,确定所述数据记录的条件组合 指示信息之后,还包括:
根据所述第二数据集中的数据记录的多个第一字段的取值和\或第二字段 的取值,对所述第二数据集中的数据记录排序。
上述方式下,通过对所述第二数据集中的数据记录排序,可以按照具体场 景需求,依次罗列所述第二数据集的数据记录。
可选的,所述第二字段的取值与所述数据记录满足所述多个第一查询条件 的个数呈正相关;所述根据所述第二数据集中的数据记录的多个第一字段的取 值和\或第二字段的取值,对所述第二数据集中的数据记录排序,包括:
按照所述第二数据集中的数据记录的第二字段的取值从大到小的顺序,对 所述第二数据集中的数据记录进行排列。
上述方式下,通过按照所述第二数据集中的数据记录的第二字段的取值从 大到小的顺序的排列,较多条件组合下的数据记录排在前列,可以更迅速地定 位较多条件组合下的数据记录。
可选的,所述多个第一数据集任一第一数据集在大数据存储工具中以相应 第一数据表的形式存储;所述第二数据集在所述大数据存储工具中以对应第二 数据表的形式存储;所述确定所述数据记录与所述多个第一数据集的多个数据 碰撞结果,包括:
针对所述多个第一数据表的任一数据表,对所述第一数据表和所述第二数 据表进行数据表连接操作,若所述数据记录为所述第二数据表中与所述第一数 据表连接成功的数据记录,则确定与所述第一数据表存在碰撞。
上述方式下,第二数据集每次需要判断第一数据集是否存在碰撞时,仅需 要一次数据表连接操作,即可批量地确定出数据记录是否存在碰撞,从而提供 了一种高效地确定多个数据碰撞结果的方法。
可选的,所述获取第二数据集,包括:
获取所述多个第一数据集;
将所述多个第一数据集中预设字段相同的多条数据记录合并为一条数据 记录,根据所述多个第一数据集合并了数据记录后的数据集确定所述第二数据 集。
上述方式下,通过合并相同的预设字段,可以去除重复的数据记录,减少 了第二数据集的数据记录数量,从而进一步降低数据碰撞的时间。
第二方面,本发明提供一种数据碰撞装置,包括:
获取模块,用于获取多个第一数据集和第二数据集;所述多个第一数据集 中任意第一数据集为满足第一查询条件的数据集;所述第一查询条件为多个第 一查询条件中任一第一查询条件;所述第二数据集为满足第二查询条件的数据 集;所述第二查询条件为所述多个第一查询条件的并集;
处理模块,用于针对所述第二数据集中任一条数据记录,确定所述数据记 录与所述多个第一数据集的多个数据碰撞结果;根据所述多个数据碰撞结果, 确定所述数据记录的条件组合指示信息;所述条件组合指示信息用于指示所述 多个第一查询条件中第一查询条件的组合情形。
可选的,所述处理模块还用于:根据所述第二数据集中各数据记录的条件 组合指示信息,按照不同的条件组合对所述第二数据集中各数据记录进行分组。
可选的,所述第二数据集中任一数据记录的条件组合指示信息具体包括多 个第一字段和\或第二字段;所述多个第一字段用于指示所述数据记录是否满足 所述多个第一查询条件中的各第一查询条件;所述第二字段用于指示所述数据 记录满足所述多个第一查询条件的程度,所述第二字段的取值是根据所述数据 记录满足所述多个第一查询条件的个数得到的。
可选的,所述处理模块还用于:根据所述第二数据集中的数据记录的多个 第一字段的取值和\或第二字段的取值,对所述第二数据集中的数据记录排序。
可选的,所述第二字段的取值与所述数据记录满足所述多个第一查询条件 的个数呈正相关;所述处理模块具体用于:按照所述第二数据集中的数据记录 的第二字段的取值从大到小的顺序,对所述第二数据集中的数据记录进行排列。
可选的,所述多个第一数据集任一第一数据集在大数据存储工具中以相应 第一数据表的形式存储;所述第二数据集在所述大数据存储工具中以对应第二 数据表的形式存储;所述处理模块具体用于:
针对所述多个第一数据表的任一数据表,对所述第一数据表和所述第二数 据表进行数据表连接操作,若所述数据记录为所述第二数据表中与所述第一数 据表连接成功的数据记录,则确定与所述第一数据表存在碰撞。
可选的,所述处理模块具体用于:将所述多个第一数据集中预设字段相同 的多条数据记录合并为一条数据记录,根据所述多个第一数据集合并了数据记 录后的数据集确定所述第二数据集。
上述第二方面及第二方面各个可选装置的有益效果,可以参考上述第一方 面及第一方面各个可选方法的有益效果,这里不再赘述。
第三方面,本发明提供一种计算机设备,包括程序或指令,当所述程序或 指令被执行时,用以执行上述第一方面及第一方面各个可选的方法。
第四方面,本发明提供一种存储介质,包括程序或指令,当所述程序或指 令被执行时,用以执行上述第一方面及第一方面各个可选的方法。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的 一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提 下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据碰撞方法对应的流程示意图;
图2为本发明实施例提供的一种数据碰撞方法对应的具体流程示意图;
图3为本发明实施例提供的一种数据碰撞方法中对应的查询条件组合示意 图;
图4为本发明实施例提供的一种数据碰撞装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发 明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供一种数据碰撞方法。
步骤101:获取多个第一数据集和第二数据集。
所述多个第一数据集中任意第一数据集为满足第一查询条件的数据集;所 述第一查询条件为多个第一查询条件中任一第一查询条件;所述第二数据集为 满足第二查询条件的数据集;所述第二查询条件为所述多个第一查询条件的并 集。
步骤102:针对所述第二数据集中任一条数据记录,确定所述数据记录与 所述多个第一数据集的多个数据碰撞结果;根据所述多个数据碰撞结果,确定 所述数据记录的条件组合指示信息。
所述条件组合指示信息用于指示所述多个第一查询条件中第一查询条件 的组合情形。
步骤101~步骤102的方法中,举例来说,多个第一数据集具体为:数据集 1、数据集2、数据集3和数据集4;第二数据集为数据集0。
数据集1为满足第一查询条件A的数据集;数据集2为满足第一查询条件 B的数据集;数据集3为满足第一查询条件C的数据集;数据集4为满足第一 查询条件D的数据集;数据集0为满足第二查询条件(T=A∪B∪C∪D)的数 据集。
需要说明的是,第二数据集(数据集0)在步骤101之前,所述第二数据 集中数据记录的条件组合指示信息可以为空,在确定所述数据记录与所述多个 第一数据集的多个数据碰撞结果的过程中或者在该过程之后,对数据记录的条 件组合指示信息进行更新。
数据记录的条件组合指示信息具体形式可以有多种,只要能指示所述多个 第一查询条件中第一查询条件的组合情形均可。如数据记录的条件组合指示信 息可以为:ABC,数据记录的条件组合指示信息表示该条数据记录对应的查询 条件有A、B和C,还可以用其他字符与A、B、C和D建立映射关系。
如A对应s1,B对应s2,C对应s3,D对应s4。
那么数据记录的条件组合指示信息可以为:s1 s2 s3,数据记录的条件组合 指示信息同样表示该条数据记录对应的查询条件有A、B和C。
一种可选实施方式中,步骤101具体可以为:
将所述多个第一数据集中预设字段相同的多条数据记录合并为一条数据 记录,根据所述多个第一数据集合并了数据记录后的数据集确定所述第二数据 集。
需要说明的是,多个第一数据集中既可以提前设置好条件组合指示信息, 以及设置好条件组合指示信息的取值为空,也对所述多个第一数据集合并了数 据记录后的数据集中的每条数据记录添加条件组合指示信息字段,用于描述该 条数据记录指示的所述多个第一查询条件中第一查询条件的组合情形。预设字 段相同的多条数据的其它字段可能不同。
举例来说,数据集1包括:数据记录1-1;数据记录1-2;数据记录1-3。
数据集2包括:数据记录2-1;数据记录2-2。
数据集3包括:数据记录3-1;数据记录3-2;数据记录3-3。
数据集4包括:数据记录4-1;数据记录4-2。
其中,预设字段设置为车牌号等,数据记录1-1和数据记录2-1的预设字 段相同(数据记录1-1和数据记录2-1的其它字段,如时间戳流水号等可能不 同),数据记录2-2和数据记录3-2的预设字段相同,那么最终的数据集0的数 据记录包括:数据记录1-1,数据记录1-2,数据记录1-3,数据记录3-1,数 据记录3-2,数据记录3-3,数据记录4-1;数据记录4-2。
一种可选实施方式中,所述多个第一数据集任一第一数据集在大数据存储 工具中以相应第一数据表的形式存储;所述第二数据集在所述大数据存储工具 中以对应第二数据表的形式存储;步骤102中确定所述数据记录与所述多个第 一数据集的多个数据碰撞结果的具体过程可以为:
针对所述多个第一数据表的任一数据表,对所述第一数据表和所述第二数 据表进行数据表连接操作,若所述数据记录为所述第二数据表中与所述第一数 据表连接成功的数据记录,则确定与所述第一数据表存在碰撞。
进一步,通过采用大数据存储架构,可以使得查询与分析数据分离。大数 据存储架构的查询数据存储在NoSQL数据库hbase中,分析类数据存储在MPP 数据库中,经数据清洗、数据转换、数据标签化等预处理后,将分析类数据存 储到MPP中,数据存储时按时空规则进行分表分区,用于提高数据分析检索 的效率。碰撞分析会采用spark或impala计算引擎处理。其中,MPP存储方法 为:所有待分析的字段(如:车牌号、车牌颜色、抓拍时间、抓拍地点等)和 唯一标识一起存储,另外,由于抓拍的图片地址占字节大,在MPP中可以不 存储图片地址,需要用到图片时,通过唯一标识作为桥接,去HBase中查询。
通过上述数据表连接操作,可以批量化地迅速确定出每条数据记录是否与 正在进行数据库连接操作的第一数据表存在碰撞,从而可以得到针对第一数据 表的碰撞结果。
步骤102之后,一种可选实施方式还可以如下:
根据所述第二数据集中各数据记录的条件组合指示信息,按照不同的条件 组合对所述第二数据集中各数据记录进行分组。
举例来说,对于多个第一查询条件A、B、C和D,可以将ABC、ABCD 和AB等各条件组合的数据记录分别作为一组数据记录。
可选的,所述第二数据集中任一数据记录的条件组合指示信息具体包括多 个第一字段和\或第二字段;所述多个第一字段用于指示所述数据记录是否满足 所述多个第一查询条件中的各第一查询条件;所述第二字段用于指示所述数据 记录满足所述多个第一查询条件的程度,所述第二字段的取值是根据所述数据 记录满足所述多个第一查询条件的个数得到的。
举例来说,多个第一字段为tagA(表征该数据记录是否满足第一查询条件 A)、tagB(表征该数据记录是否满足第一查询条件B)、tagC(表征该数据记 录是否满足第一查询条件C)和tagD(表征该数据记录是否满足第一查询条件 D)。tagA、tagB、tagC和tagD中每个第一字段可以取值为0或1,如0表示 未连接成功,1表示已连接成功。第二字段为s_tag可以为tagA、tagB、tagC 和tagD之和,第二字段还可以根据具体情况设置,如设置为tagA、tagB、tagC 和tagD取值的加权平均值。
步骤102之后,一种可选实施方式还可以如下:
根据所述第二数据集中的数据记录的多个第一字段的取值和\或第二字段 的取值,对所述第二数据集中的数据记录排序。
举例来说,可以只按照多个第一字段的取值排序,如依次按照tagA、tagB、 tagC和tagD取值的优先级排列。如数据记录1-1的tagA、tagB、tagC和tagD 取值依次为1、1、0、1,将tagA、tagB、tagC和tagD取值与二进制数对应起 来,即对应于二进制数1101,那么数据记录1-2的也能以此类推得到对应的二 进制数1100,那么若按照对应的二进制数从大到小的原则排列,数据记录1-1 就排在数据记录1-2的前面。
也可以只按照第二字段的取值排序,如第二字段为所述数据记录满足所述 多个第一查询条件的个数。
当然,也可以先按照第二字段的取值排序,将第二字段为4的排在最前面, 随后排列第二字段为3的,在排列第二字段为2、1和0的。进一步地,第二 字段相同的数据记录,也可以根据第一字段的取值继续排序。
具体来说,所述第二字段的取值与所述数据记录满足所述多个第一查询条 件的个数呈正相关,上述实施方式可以为:
按照所述第二数据集中的数据记录的第二字段的取值从大到小的顺序,对 所述第二数据集中的数据记录进行排列。
需要说明的是,在步骤101~步骤102的方法中,数据记录可以包括多种信 息(如抓拍时间、地点、抓拍图片、车辆详情、人脸结构化属性等信息)。可 以将第一数据集先按照预设字段(如车牌号)去重,或者在第二数据集中按照 预设字段(如车牌号)去重。需要说明的是,可以通过UUID和时间戳对连接 后的第二数据集进行排序,以便能够得到时间最近的UUID(唯一标识)相应 的数据记录。
更具体地,下面结合图2所示,详细描述本发明实施例提供一种数据碰撞 方法。
首先,本方法面向的具体场景时,选中多个时空条件(多个第一查询条件), 找到多个第一查询条件下同时出现的车辆、人脸、手机,对于选中的4个第一 查询条件A、B、C、D,由于存在目标在某个第一查询条件下没有被抓拍到的 可能性,所以需要找出满足其中三个条件、两个条件或只有一个条件的情况, 同时按照符合的条件数和最后出现的时间排序。
4个第一查询条件A、B、C、D所构成的情况有多种,如图3所示,选择 4个不同的时空条件(4个第一查询条件)A、B、C、D,每个圆表示满足单个 条件的第一数据集,中间部分(A∩B∩C∩D)为同时满足4个时空条件的数 据记录的集合,A∩B∩D、A∩B∩C、A∩C∩D、B∩C∩D为同时满足3个 时空条件的数据记录的集合,还有同时满足2个时空条件的数据记录的集合, 在此不再赘述。
进一步地,获取4个不同的时空条件的并集,即第二查询条件记为T=A∪ B∪C∪D,同时为减少计算量,对T中的数据按照预设字段(如:车牌号、 mac地址)去重,并保留最新一条数据记录。
每组时空条件的数据记录按照预设字段去重,并可以在第一数据集中先各 设置一个唯一的第一字段,如tagA、tagB、tagC、tagD,初始值默认为0。
用T同时与A、B、C、D通过预设字段进行数据库连接操作(如左外连 接left outerjoin),如果第二数据集与A连接成功,则设置tagA=1,连接失败 的tagA=0,类似的设置tagB、tagC、tagD的值。
待每组时空条件A、B、C、D的第一数据集都和第二数据集执行了数据库 连接操作后,并将tagA、tagB、tagC、tagD取和记为s_tag。
将第二数据集按照s_tag逆序排列。
需要说明的是,再进行数据库连接时,还可以设置排除条件。如取并集的 时候,去掉排除条件的集合,只对非排除条件的集合取并集,或者中进行连接 时,对所有的集合进行左外连接,与排除条件连接上的话,设置tag=0,连接 失败设置tag=1。
需要说明的是,在实际应用中,步骤101~步骤102的方法可以支撑视频监 控数据、车辆卡口数据、人脸卡口数据、车内人脸数据(驾驶员和副驾驶人脸), WIFI采集数据、RFID、电子围栏等数据的时空碰撞分析,当多地发生相似案 件时,选择多个案发的时间地点信息,可以通过多个时空条件的数据碰撞的方 式找出同时在多个案件下同时出现的目标人员、车辆、手机等,提供多维度全 方位的数据支撑。通过设定多组时空条件,分析出在这多组时空条件下出现的 目标,按匹配的条件组数排序分析。
如图4所示,本发明实施例提供一种数据碰撞装置,包括:
获取模块401,用于获取多个第一数据集和第二数据集;所述多个第一数 据集中任意第一数据集为满足第一查询条件的数据集;所述第一查询条件为多 个第一查询条件中任一第一查询条件;所述第二数据集为满足第二查询条件的 数据集;所述第二查询条件为所述多个第一查询条件的并集;
处理模块402,用于针对所述第二数据集中任一条数据记录,确定所述数 据记录与所述多个第一数据集的多个数据碰撞结果;根据所述多个数据碰撞结 果,确定所述数据记录的条件组合指示信息;所述条件组合指示信息用于指示 所述多个第一查询条件中第一查询条件的组合情形。
可选的,所述处理模块402还用于:根据所述第二数据集中各数据记录的 条件组合指示信息,按照不同的条件组合对所述第二数据集中各数据记录进行 分组。
可选的,所述第二数据集中任一数据记录的条件组合指示信息具体包括多 个第一字段和\或第二字段;所述多个第一字段用于指示所述数据记录是否满足 所述多个第一查询条件中的各第一查询条件;所述第二字段用于指示所述数据 记录满足所述多个第一查询条件的程度,所述第二字段的取值是根据所述数据 记录满足所述多个第一查询条件的个数得到的。
可选的,所述处理模块402还用于:根据所述第二数据集中的数据记录的 多个第一字段的取值和\或第二字段的取值,对所述第二数据集中的数据记录排 序。
可选的,所述第二字段的取值与所述数据记录满足所述多个第一查询条件 的个数呈正相关;所述处理模块402具体用于:按照所述第二数据集中的数据 记录的第二字段的取值从大到小的顺序,对所述第二数据集中的数据记录进行 排列。
可选的,所述多个第一数据集任一第一数据集在大数据存储工具中以相应 第一数据表的形式存储;所述第二数据集在所述大数据存储工具中以对应第二 数据表的形式存储;所述处理模块402具体用于:
针对所述多个第一数据表的任一数据表,对所述第一数据表和所述第二数 据表进行数据表连接操作,若所述数据记录为所述第二数据表中与所述第一数 据表连接成功的数据记录,则确定与所述第一数据表存在碰撞。
可选的,所述处理模块402具体用于:将所述多个第一数据集中预设字段 相同的多条数据记录合并为一条数据记录,根据所述多个第一数据集合并了数 据记录后的数据集确定所述第二数据集。
基于同一发明构思,本发明实施例还提供了一种计算机设备,包括程序或 指令,当所述程序或指令被执行时,如本发明实施例提供的数据碰撞方法及任 一可选方法被执行。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,包 括程序或指令,当所述程序或指令被执行时,如本发明实施例提供的数据碰撞 方法及任一可选方法被执行。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基 本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要 求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发 明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及 其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种数据碰撞方法,其特征在于,包括:
获取多个第一数据集和第二数据集;所述多个第一数据集中任意第一数据集为满足第一查询条件的数据集;所述第一查询条件为多个第一查询条件中任一第一查询条件;所述第二数据集为满足第二查询条件的数据集;所述第二查询条件为所述多个第一查询条件的并集;
针对所述第二数据集中任一条数据记录,确定所述数据记录与所述多个第一数据集的多个数据碰撞结果;根据所述多个数据碰撞结果,确定所述数据记录的条件组合指示信息;所述条件组合指示信息用于指示所述多个第一查询条件中第一查询条件的组合情形。
2.如权利要求1所述的方法,其特征在于,所述根据所述多个数据碰撞结果,确定所述数据记录的条件组合指示信息之后,还包括:
根据所述第二数据集中各数据记录的条件组合指示信息,按照不同的条件组合对所述第二数据集中各数据记录进行分组。
3.如权利要求1所述的方法,其特征在于,所述第二数据集中任一数据记录的条件组合指示信息具体包括多个第一字段和\或第二字段;所述多个第一字段用于指示所述数据记录是否满足所述多个第一查询条件中的各第一查询条件;所述第二字段用于指示所述数据记录满足所述多个第一查询条件的程度,所述第二字段的取值是根据所述数据记录满足所述多个第一查询条件的个数得到的。
4.如权利要求3所述的方法,其特征在于,所述根据所述多个数据碰撞结果,确定所述数据记录的条件组合指示信息之后,还包括:
根据所述第二数据集中的数据记录的多个第一字段的取值和\或第二字段的取值,对所述第二数据集中的数据记录排序。
5.如权利要求4所述的方法,其特征在于,所述第二字段的取值与所述数据记录满足所述多个第一查询条件的个数呈正相关;所述根据所述第二数据集中的数据记录的多个第一字段的取值和\或第二字段的取值,对所述第二数据集中的数据记录排序,包括:
按照所述第二数据集中的数据记录的第二字段的取值从大到小的顺序,对所述第二数据集中的数据记录进行排列。
6.如权利要求1至5任一项所述的方法,其特征在于,所述多个第一数据集任一第一数据集在大数据存储工具中以相应第一数据表的形式存储;所述第二数据集在所述大数据存储工具中以对应第二数据表的形式存储;所述确定所述数据记录与所述多个第一数据集的多个数据碰撞结果,包括:
针对所述多个第一数据表的任一数据表,对所述第一数据表和所述第二数据表进行数据表连接操作,若所述数据记录为所述第二数据表中与所述第一数据表连接成功的数据记录,则确定与所述第一数据表存在碰撞。
7.如权利要求1至5任一项所述的方法,其特征在于,所述获取第二数据集,包括:
将所述多个第一数据集中预设字段相同的多条数据记录合并为一条数据记录,根据所述多个第一数据集合并了数据记录后的数据集确定所述第二数据集。
8.一种数据碰撞装置,其特征在于,包括:
获取模块,用于获取多个第一数据集和第二数据集;所述多个第一数据集中任意第一数据集为满足第一查询条件的数据集;所述第一查询条件为多个第一查询条件中任一第一查询条件;所述第二数据集为满足第二查询条件的数据集;所述第二查询条件为所述多个第一查询条件的并集;
处理模块,用于针对所述第二数据集中任一条数据记录,确定所述数据记录与所述多个第一数据集的多个数据碰撞结果;根据所述多个数据碰撞结果,确定所述数据记录的条件组合指示信息;所述条件组合指示信息用于指示所述多个第一查询条件中第一查询条件的组合情形。
9.一种计算机设备,其特征在于,包括程序或指令,当所述程序或指令被执行时,如权利要求1至7中任意一项所述的方法被执行。
10.一种计算机可读存储介质,其特征在于,包括程序或指令,当所述程序或指令被执行时,如权利要求1至7中任意一项所述的方法被执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110040425.5A CN112732761B (zh) | 2021-01-13 | 2021-01-13 | 一种数据碰撞方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110040425.5A CN112732761B (zh) | 2021-01-13 | 2021-01-13 | 一种数据碰撞方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112732761A true CN112732761A (zh) | 2021-04-30 |
CN112732761B CN112732761B (zh) | 2022-08-23 |
Family
ID=75592832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110040425.5A Active CN112732761B (zh) | 2021-01-13 | 2021-01-13 | 一种数据碰撞方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112732761B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016004813A1 (zh) * | 2014-07-07 | 2016-01-14 | 阿里巴巴集团控股有限公司 | 数据存储方法、查询方法及设备 |
CN105788264A (zh) * | 2016-04-28 | 2016-07-20 | 泰华智慧产业集团股份有限公司 | 基于Hbase的卡口数据区域碰撞分析的方法及系统 |
CN109947804A (zh) * | 2019-03-20 | 2019-06-28 | 上海达梦数据库有限公司 | 数据集合查询的优化方法、装置、服务器和存储介质 |
CN110032837A (zh) * | 2019-04-17 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 一种数据处理的方法、装置、设备及存储介质 |
CN110928900A (zh) * | 2018-09-17 | 2020-03-27 | 马上消费金融股份有限公司 | 多表数据的查询方法、装置、终端以及计算机存储介质 |
CN111090669A (zh) * | 2019-12-16 | 2020-05-01 | 北京明略软件系统有限公司 | 一种基于时空碰撞的数据查询方法及装置 |
CN111382189A (zh) * | 2019-12-20 | 2020-07-07 | 厦门市美亚柏科信息股份有限公司 | 一种异源异构数据碰撞分析方法、终端设备及存储介质 |
-
2021
- 2021-01-13 CN CN202110040425.5A patent/CN112732761B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016004813A1 (zh) * | 2014-07-07 | 2016-01-14 | 阿里巴巴集团控股有限公司 | 数据存储方法、查询方法及设备 |
CN105788264A (zh) * | 2016-04-28 | 2016-07-20 | 泰华智慧产业集团股份有限公司 | 基于Hbase的卡口数据区域碰撞分析的方法及系统 |
CN110928900A (zh) * | 2018-09-17 | 2020-03-27 | 马上消费金融股份有限公司 | 多表数据的查询方法、装置、终端以及计算机存储介质 |
CN109947804A (zh) * | 2019-03-20 | 2019-06-28 | 上海达梦数据库有限公司 | 数据集合查询的优化方法、装置、服务器和存储介质 |
CN110032837A (zh) * | 2019-04-17 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 一种数据处理的方法、装置、设备及存储介质 |
CN111090669A (zh) * | 2019-12-16 | 2020-05-01 | 北京明略软件系统有限公司 | 一种基于时空碰撞的数据查询方法及装置 |
CN111382189A (zh) * | 2019-12-20 | 2020-07-07 | 厦门市美亚柏科信息股份有限公司 | 一种异源异构数据碰撞分析方法、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112732761B (zh) | 2022-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10409853B2 (en) | Image filtering method and image filtering system | |
CN111274283A (zh) | 一种轨迹显示方法及装置 | |
CN110263830B (zh) | 图像处理方法、装置和系统及存储介质 | |
CN107066522B (zh) | 数据库的访问方法和装置 | |
CN104794130A (zh) | 一种表间关联查询方法和装置 | |
CN112732761B (zh) | 一种数据碰撞方法及装置 | |
CN112445833A (zh) | 一种分布式数据库的数据分页查询方法、装置和系统 | |
CN109101595B (zh) | 一种信息查询方法、装置、设备及计算机可读存储介质 | |
CN111104915A (zh) | 一种同行分析方法、装置、设备和介质 | |
CN114743384A (zh) | 报警方法及装置 | |
CN114416786A (zh) | 流数据的处理方法、装置、存储介质及计算机设备 | |
CN111126340B (zh) | 对象识别方法、装置、电子设备及计算机可读存储介质 | |
CN108737522B (zh) | 一种消息的处理方法、装置和系统 | |
CN111368618B (zh) | 一种隐匿车辆的确定方法、装置及电子设备 | |
CN112527813A (zh) | 业务系统的数据处理方法及装置、电子设备、存储介质 | |
CN113572628A (zh) | 数据关联方法、装置、计算设备及计算机存储介质 | |
CN112330143A (zh) | 一种资源分配方法和装置 | |
EP2857989A1 (en) | Image search system and image search method | |
CN112241672B (zh) | 一种身份数据的关联方法、装置、电子设备及存储介质 | |
CN116028481B (zh) | 一种数据质量检测方法、装置、设备和存储介质 | |
CN113781068B (zh) | 线上问题解决方法、装置、电子设备和存储介质 | |
CN117874084A (zh) | 一种基于大数据的信息共享方法及装置 | |
CN110390332B (zh) | 一种类别确定方法、装置及设备 | |
CN114756721A (zh) | 流式数据的布控方法、装置、电子设备和存储介质 | |
CN113127659A (zh) | 图像数据录入方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |