CN110908995B

CN110908995B - 数据处理方法、装置以及设备

Info

Publication number: CN110908995B
Application number: CN201811082751.7A
Authority: CN
Inventors: 程鹤群
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2023-04-11
Anticipated expiration: 2038-09-17
Also published as: CN110908995A

Abstract

本申请实施例提供一种数据处理方法、装置以及设备，包括：确定第一存储表以及与所述第一存储表关联的第二存储表；接收第一流数据；利用所述第一流数据更新所述第一存储表；基于所述第二存储表，确定与所述第一流数据关联的第一关联数据。本申请实施例提高查询数据的实时性以及准确度。

Description

数据处理方法、装置以及设备

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种数据处理方法、装置及设备。

背景技术

分布式流处理是指基于分布式技术对流数据进行动态处理，具有较好的伸缩性、实时性和开放性。Flink是一种针对流数据的分布式处理引擎。对于Flink而言，其主要处理对象即为数据流，也即需要使用Flink对不同数据流进行处理操作。

目前，利用Flink对不同数据流进行处理操作之前，需要将数据流中的数据进行静态化处理，例如，Flink通常将每一个数据流进行切分处理，获得多个静态数据段，进而针对每一个静态数据段进行查询操作，例如，通过SQL(Structured Query Language，结构化查询语句)等查询语句中的outer join语句查询两个数据流在任一查询时刻分别对应的数据段中存储的数据进行查询。

但是，由于数据流在不断接收数据并更新，对于两个数据流中被切分的数据段也被不断更新，但是由于同一个数据流中对应不同数据段之间没有相互关联，不能被同时查询，进而针对不同数据流进行查询时，仅能针对当前查询的数据段进行查询，并不能查询其他数据段中的内容，导致查询获得的关联数据不够准确。

发明内容

本申请实施例提供一种数据处理方法、装置以及设备，用以解决现有技术中针对不同数据流中的关联数据查询结果不够准确的技术问题。

第一方面，本申请实施例中提供了一种数据处理方法，包括：

确定第一存储表以及与所述第一存储表关联的第二存储表；

接收第一流数据；

利用所述第一流数据更新所述第一存储表；

基于所述第二存储表，确定与所述第一流数据关联的第一关联数据。

第二方面，本申请实施例提供了一种数据处理装置，包括：

第一确定模块，用于确定第一存储表以及与所述第一存储表关联的第二存储表；

第一接收模块，用于接收第一流数据；

第一更新模块，用于利用所述第一流数据更新所述第一存储表；

第二确定模块，用于基于所述第二存储表，确定与所述第一流数据关联的第一关联数据。

第三方面本申请实施例提供了一种数据处理设备，包括：存储组件以及处理组件；所述存储组件用于存储一条或多条计算机指令，所述一条或多条计算机指令用于被所述处理组件调用并执行；

所述处理组件用于：

确定第一存储表以及与所述第一存储表关联的第二存储表；接收第一流数据；利用所述第一流数据更新所述第一存储表；基于所述第二存储表，确定与所述第一流数据关联的第一关联数据。

本申请实施例中，存在第一存储表时，确定与该第一存储表关联的第二存储表。在第一存储表接收到第一流数据时，可以将第一存储表中的数据进行更新，也即将第一数据存储至所述第一存储表中。还可以基于与第一存储表关联的第二存储表，与第一流数据关联的第一关联数据。以通过第一存储表查询获得与其关联的第一关联数据。在接收到第一流数据时，即可以针对第二存储表查询与其关联的第一关联数据，可以确保第一流数据可以查询获得当前第二存储表中所有存储的数据，以避免查询数据不够准确，提高查询的实时性以及准确度。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请提供的一种数据处理方法的一个实施例的流程图；

图2示出了本申请提供的一种数据处理方法的又一个实施例的流程图；

图3示出了本申请提供的一种数据处理方法的又一个实施例的流程图；

图4示出了本申请提供的一种数据处理装置的一个实施例的结构示意图；

图5示出了本申请提供的一种数据处理设备的一个实施例的接收示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在本申请的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

本申请实施例的技术方案可以应用于数据库查询场景中，特别是对于两个数据表的关联查询场景中。通过在接收数据时进行实时查询，可以提高查询到的关联数据的准确度以及实时性。

本申请实施例中，为了对数据库中的数据进行查询，可以使用Flink、Kafka等数据库引擎进行数据查询。通常，为了获得两个数据表中的关联关系，通常可以通过join语句对数据库中的数据进行查询。通过Flink等引擎查询时，多使用窗口框起数据库中的数据等方式实现对数据流的切分，将动态的数据流转换为数据窗口中的静态数据，这时即可以对两个窗口中的静态数据进行outer join，也即关联。由于数据库通常可以由数据流构成，将数据流中的数据加窗后，如果数据更新时，窗口中的数据也会更新。目前，任两个数据表中的数据更新不同步，导致两个串口中的数据更新不同步，就会出现第一数据表中的一数据被更新时，而第二数据表中的第二数据在该条数据被更新后再增加到第二数据表中，导致第二数据表中的第二数据不能获得与其关联的第一数据表中的第一数据，而第一数据这时不能再被执行关联操作，导致第一数据与第二数据关联失败，出现关联数据的缺失情况，关联准确度降低。

因此，发明人想到在获取到任一条数据时，即对该数据进行关联操作，以提高关联的实时性。据此，发明人提出了本申请的技术方案。本申请实施例中，通过确定第一存储表以及与第一存储表关联的第二存储表，可以将待第一存储表与第二存储表进行关联查询。第一流数据被接收时，可以利用该第一流数据更新第一存储表，使得第一存储表能够保存该第一流数据以便于后续查询，还可以基于第二存储表，确定与该第一流数据关联的第一关联数据。该第一关联数据即为获得第一存储表以及第二存储表中关联的数据，而基于第二存储表的查询工作是在接收到第一流数据时即执行的，体现了查询的实时性，获得的第一关联数据为查询当前第二存储表中所有流数据获得，使得关联数据的全面，准确度更高。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种数据处理方法的一个实施例的流程图，该方法可以包括以下几个步骤：

101：确定第一存储表以及与所述第一存储表关联的第二存储表。

本申请的数据处理方法可以实现于Flink引擎中，为Flink引擎提供数据查询。

其中，第一存储表以及第二存储表可以为MySQL数据表，第一数据表以及第二数据表中均存储至少一个流数据。

其中，第一存储表以及第二存储表可以为state状态表，第一数据表以及第二数据表各自的至少一个流数据可以以state状态形式进行存储，使得数据表中的流数据可以查询处理，提高处理效率。

第一存储表以及第二存储表均为独立的数据表，所述关联的含义主要指将第一存储表以及第二存储表关联查询。

可选地，第一存储表以及第二存储表可以位于分布式存储系统中，本申请中并不限定第一存储表以及第二存储表的存储路径，仅限定在需要使用第一存储表以及使用第二存储表时，能读取到所述第一存储表以及第二存储表中的流数据即可。

可以由智能终端，例如，计算机、笔记本等具有处理功能的终端执行本申请实施例的数据处理方法。

102：接收第一流数据。

可选地，第一流数据可以在第一时间接收。第一流数据即为即将被存储到第一存储表中的数据。

当所述第一流数据为state类型的数据时，智能终端可以先通过调用Flink等数据查询引擎上的状态接口，设置状态对象，进而通过状态对象接收该第一流数据。

任一存储表如以state形式存在，可以将任一流数据以Keyed State或者OperatorState等状态形式而存在，进而将数据流以一定排列方式进行存储，进而提供按序查询，避免出现重复查询，以提高查询效率。

所述第一流数据可以包括数据标识，通过该数据标识可以在第一存储表中查找到该第一流数据。

103：利用所述第一流数据更新所述第一存储表。

可选地，利用第一流数据更新所述第一存储表可以指将第一流数据在第一存储表中存储。例如，可以将该第一流数据添加到第一存储表对应的state中，以方便后续使用。在实际应用中可以指利用state对象存储该第一流数据。

104：基于所述第二存储表，确定与所述第一流数据关联的第一关联数据。

第二存储表中包括至少一个流数据，基于第二存储表可以获得与第一流数据关联的第一关联数据。

获得第一关联数据之后，还可以输出第一关联数据，例如，通过显示器为用户展示该第一关联数据。在实际应用中，可以将所有的第一关联数据以第三存储表形式为用户展示，以方便查阅。

本申请实施例中的步骤103以及步骤104仅仅是为了区分在不同步骤执行不同的内容，也即实现数据更新以及关联数据确定的内容，并不对上述两步骤执行的先后顺序进行过多限定。

本申请实施例中，接收到第一流数据时，即针对与第一存储表关联的第二存储表进行关联查询，确定与第一流数据关联的第一关联数据。提高了查询的实时性，而针对第二存储表中所有数据直接进行查询，可以获得更全面的查询结果，提高查询的准确度。

需要说明的是本申请实施例中的“第一”、“第二”仅仅是为了限定不同的数据、存储表等内容，实现名称上的区分，并不具有步骤上的限定作用。

作为一个实施例，所述基于所述第二存储表，确定与所述第一流数据关联的第一关联数据包括：

从所述第二存储表中查询与所述第一流数据匹配的第一目标数据；

关联所述第一流数据以及所述第一目标数据，获得第一关联数据。

可选地，从第二存储表中查询与所述第一流数据匹配的第一目标数据可以包括：基于所述第一流数据，依次查询第二存储表中满足查询条件的第一目标数据。也即，匹配的实际含义为满足查询条件。可选地，关联第一流数据以及第一目标数据可以指，将第一流数据以及第一目标数据中除查询条件之外的其他内容进行关联，获得第一关联数据。也即第一关联数据中包含第一流数据以及第一目标数据。第一关联数据为第一目标数据以及第二流数据的“并”数据，集合两个数据的所有内容。

可选地，如果未从第二存储表中查询与所述第一流数据匹配的第一目标数据，可以将第一目标数据设置为空。关联第一流数据以及第一目标数据的第一关联内容中，除第一流数据的部分内容之外，还包含与所述第一目标数据存储位置相对应的空NULL数据。

在某些实施例中，所述从所述第二存储表中查询与所述第一流数据匹配的第一目标数据包括：

根据所述第一流数据的第一查询内容，从所述第二存储表中查询与所述第一查询内容相匹配的第一目标数据。

从第二存储表中查询与第一查询内容匹配的第一目标数据可以指查询第二存储表中包含第一查询内容的第一目标数据。也即第一目标数据以及第一流数据之间具有交叉信息，可以基于二者之间的交叉信息进行关联查询。该交叉信息也即指两个流数据中存在相同的内容。

在实际应用中，该第一查询内容可以为第一数据标识，所述从所述第二存储表中查询与所述第一流数据匹配的第一目标数据包括：可以根据第一流数据的数据标识，从第二存储表中查询具有与该第一数据标识相同标识的第一目标数据。

根据第一查询内容查找到与第一流数据匹配的第一目标数据之后，可以将第一流数据以及第二流数据中除该第一查询内容之外的内容进行并集处理，使得两个数据之间实现数据交叉集合，实现数据的关联处理。

当从第二存储表中未查询到与第一查询内容相匹配的第一目标内容时，可以基于关联数据的存储格式，将第一目标数据中除所述第一流数据之外的其他数据位置设置为空数据，以确保能够获得相应的返回值，不产生空查，进而实现方便后续的查询处理。

基于第一查询内容，可以将第一存储表以及第二存储表中具有交叉的数据捆绑在一起，实现数据之间的交叉处理，提高关联的准确度。

除针对接收的第一流数据进行与第一存储表关联的第二存储的查询之外，还可以针对接收的第二流数据进行与第二存储表关联的第一存储表的查询，以实现双向查询，进一步提高查询的准确度以及实时性。

如图2所示，为本发明实施例提供的一种数据处理方法的又一个实施例的流程图，该方法可以包括以下几个步骤：

201：确定第一存储表以及与所述第一存储表关联的第二存储表。

202：接收第一流数据。

203：利用所述第一流数据更新所述第一存储表。

204：基于所述第二存储表，确定与所述第一流数据关联的第一关联数据。

205：接收第二流数据。

206：利用所述第二流数据更新所述第二存储表。

207：基于所述第一存储表，确定与所述第二流数据关联的第二关联数据。

本申请实施例中的部分内容与图1所示的实施例的步骤部分相同，在此不再赘述。

可选地，第二流数据可以在第二时间接收。第二流数据即为即将被存储到第二存储表中的数据。

当所述第二流数据为state类型的数据时，智能终端可以先通过调用Flink等数据查询引擎上的状态接口，设置状态对象，进而通过状态对象接收该第二流数据。

所述第二流数据可以包括数据标识，通过该数据标识可以在第二存储表中查找到该第二流数据。

可选地，利用第二流数据更新所述第二存储表可以指将第二流数据在第二存储表中存储。例如，可以将该第二流数据添加到第二存储表对应的state中，以方便后续使用。在实际应用中可以指利用state对象存储该第二流数据。

第一存储表中包括至少一个流数据，基于第一存储表可以获得与第二流数据关联的第二关联数据。

获得第二关联数据之后，还可以输出第二关联数据，例如，通过显示器为用户展示该第二关联数据。在实际应用中，可以将所有的第一关联数据以及第二关联数据以第三存储表形式为用户展示，以方便查阅。

基于第一存储表在第一时间接收的第一流数据，查询第二存储表中与第一流数据关联的第一目标数据，进而可以在第一存储表更新第一流数据时，实时查询第二存储表中与第一数据关联的第一目标数据，进而获得第一关联数据，实现第一存储表对应第一流数据的实时查询。基于第二存储表在第二时间接收的第二流数据，查询第一存储表中与第二流数据关联的第二目标数据，进而可以在第二存储表更新第二流数据时，即可以查询第一存储表中与第二流数据关联的第二目标数据，进而获得第二关联数据，实现第二存储表对应第二流数据的实时查询。通过针对第一存储模块与第二存储模块分别进行实时查询，避免任一接收到的数据被丢失查询，获得的查询结果较为准确。

本申请实施例中，接收到第二流数据时，即针对与第二存储表关联的第一存储表进行关联查询，确定与第二流数据关联的第二关联数据。进而针对两个存储表中的数据均进行关联查询，以分别针对两个存储表进行相同的处理操作，以在任一方接收到新数据时均进行查询，进而避免出现漏查，以获得更全面的查询结果，提高查询的准确度。

作为一个实施例，所述基于所述第一存储表，确定与所述第二流数据关联的第二关联数据包括：

从所述第一存储表中查询与所述第二流数据匹配的第二目标数据；

关联所述第二流数据以及所述第二目标数据，获得第二关联数据。

可选地，从第一存储表中查询与所述第二流数据匹配的第二目标数据可以包括：基于所述第二流数据，依次查询第一存储表中满足查询条件的第二目标数据。也即，匹配的实际含义为满足查询条件。

可选地，关联第二流数据以及第二目标数据可以指，将第二流数据以及第二目标数据中除查询条件之外的其他内容进行关联，获得第二关联数据。也即第二关联数据中包含第二目标数据以及第二流数据。第二关联数据为第二目标数据以及第二流数据的“并”数据，集合两个数据的所有内容。

可选地，如果未从第一存储表中查询与所述第二流数据匹配的第二目标数据，可以将第二目标数据设置为空。此时，关联第二目标数据以及第二流数据的第二关联内容中，除第二流数据的部分内容之外，还包含与所述第二目标数据存储位置相对应的空NULL数据。

在某些实施例中，所述从所述第一存储表中查询与所述第二流数据匹配的第二目标数据包括：

根据所述第二流数据的第二查询内容，从所述第一存储表中查询与所述第二查询内容相匹配的第二目标数据。

从第一存储表中查询与第二查询内容匹配的第二目标数据可以指查询第一存储表中包含第二查询内容的第二目标数据。也即第二目标数据以及第二流数据之间具有交叉信息，可以基于二者之间的交叉信息进行关联查询。该交叉信息也即可以指两个流数据中存在相同的内容。

在实际应用中，该第二查询内容可以为第二数据标识，所述从所述第一存储表中查询与所述第二流数据匹配的第二目标数据包括：可以根据第二流数据的数据标识，从第一存储表中查询具有与该第二数据标识相同标识的第二目标数据。

根据第二查询内容查找到与第二流数据匹配的第二目标数据之后，可以将第一流数据以及第二流数据中除该第二查询内容之外的内容进行并集处理，使得两个数据之间实现数据交叉集合，实现数据的关联处理。

当从第一存储表中未查询到与第二查询内容相匹配的第二目标内容时，可以基于关联数据的存储格式，将第二目标数据中除所述第二流数据之外的其他数据位置设置为空数据，以确保能够获得相应的返回值，不产生空查，进而实现方便后续的查询处理。

基于第二查询内容，可以将第一存储表以及第二存储表中具有交叉的数据捆绑在一起，实现数据之间的交叉处理，提高关联的准确度。

为了避免针对先后接收到的第一流数据以及第二流数据分别进行查询时，获得的第一关联数据以及第二关联数据出现第一关联数据与第二关联数据查询条件一致，但查询结果不一致的情况，可以针对第一关联数据以及第二关联数据中的空数据进行删除。

如图3所示，为本发明实施例提供的一种数据处理方法的又一个实施例的结构示意图，该方法可以包括以下几个步骤：

301：确定第一存储表以及与所述第一存储表关联的第二存储表。

本申请实施例的部分步骤与图1以及图2所示的实施例的部分步骤相同，在此不再赘述。

302：接收第一流数据。

303：利用所述第一流数据更新所述第一存储表。

304：基于所述第二存储表，确定与所述第一流数据关联的第一关联数据。

305：接收第二流数据。

306：利用所述第二流数据更新所述第二存储表。

307：基于所述第一存储表，确定与所述第二流数据关联的第二关联数据。

308：判断所述第一关联数据与所述第二关联数据是否相关，如果是，则执行步骤309，如果否，则执行步骤310。

其中，第一关联数据与第二关联数据相关可以指在查询时，第一关联数据对应第一查询内容与第二关联数据对应第二查询内容相同。

309：在确认所述第一关联数据中的关联子数据包括空(NULL)时，删除所述第一关联数据，并保存所述第二关联数据；或者，在确认所述第二关联数据中的关联子数据包括空(NULL)时，删除所述第二关联数据，并保存所述第一关联数据。

假定第一流数据与第二流数据关联，第一流数据以及第二流数据存在接收时间上的差异时，存在两种不同的情况。

若第一流数据的接收时间大于第二流数据，第二存储表中此时未存储第二流数据，而之前存储的数据不存在与第一流数据关联的第一目标数据，此时第一目标数据即为空，获得的第一关联数据中即包括空数据。之后，接收到第二流数据时，此时，查询第一存储表中与第二流数据相匹配的第一流数据，即为第二目标数据；此时，即可以获得不为空的第二关联数据。但是由于之前已经存在第一流数据关联的第一关联数据，两种关联数据同时存在时，需要删除之前关联获得的第一关联数据，以提高关联数据的准确度。

或者，若第一流数据的接收时间小于第二流数据，先基于第一存储表，查找与第二流数据匹配的第二关联数据，但是此时第一存储表中未存储第一流数据，而之前存储的数据不存在与第二流数据关联的第二目标数据，此时第二目标数据即为空，获得的第二关联数据中即包括空数据。之后，接收到第一流数据时，此时，查询第二存储表中与第一流数据相匹配的第二流数据，即为第一目标数据；此时，即可以获得不为空的第一关联数据。但是由于之前已经存在第二流数据关联的第二关联数据，两种关联数据同时存在时，需要删除之前关联获得的第二关联数据，以提高关联数据的准确度。

310：保存所述第一关联数据以及所述第二关联数据。

本申请实施例中，在查询到新的关联数据之后，通过判断第一关联数据以及第二关联数据是否相关，以确认两个数据是否重复，进而删除其中的空数据，以避免查询结果出现重复且不同的数据，为使用者带来不便，提高关联数据的准确度以及有效性。

在一种可能的设计中，所述基于所述第二存储表，确定与所述第一流数据关联的第一关联数据包括：

利用结构化查询语句中的join语句，从所述第二存储表中查询与所述第一流数据关联的第一关联数据。

其中，join语句可以指outer join语句。

传统的outer join语句只能针对静态数据进行批处理操作，对于数据流的处理操作并并容易，通过将第一流数据保存至state中可以实现数据的随时存储以及读取，可以方便outer join语句查询数据流中的内容。使得outer join语句能够无边界、不限流查询相应的第一存储表以及第二存储表。

在又一种可能的设计中，所述基于所述第一存储表，确定与所述第二流数据关联的第二关联数据包括：

利用结构化查询语句中的join语句，从所述第二存储表中查询与所述第二流数据关联的第二关联数据。

其中，join语句可以指outer join语句。

通过结构化查询语句查询可以提高查询效率。

为了及时清理第一数据表以及第二数据表中的数据，以减少查询内容，提高查询效率，所述第一流数据可以包括：时间生存值；还包括：

检测所述第一流数据在所述第一存储表中存在时间满足所述时间生存值时，删除所述第一存储表中的第一流数据。

该时间生存值可以在利用第一流数据更新第一存储表时，对应存储到该第一存储表中的，将时间生存值作为一个键值存储至该第一存储表中。

所述第二流数据还可以包括：时间生存值，所述方法还包括：

检测所述第二流数据在所述第二存储表中存在时间满足所述时间生存值时，删除所述第二存储表中的第二流数据。

该时间生存值可以在利用第二流数据更新第二存储表时，对应存储到该第二存储表中的，将时间生存值作为一个键值存储至该第二存储表中。

通过将生存时间超过时间生存值的流数据进行删除处理，可以减少存储表中的总数据量，提高查询速度以及查询效率。

如图4所示，为本发明实施例提供的一种数据处理装置的一个实施例的结构示意图，该装置可以包括以下模块：

第一确定模块401，用于确定第一存储表以及与所述第一存储表关联的第二存储表；

第一接收模块402，用于接收第一流数据；

第一更新模块403，用于利用所述第一流数据更新所述第一存储表；

第二确定模块404，用于基于所述第二存储表，确定与所述第一流数据关联的第一关联数据。

本申请实施例所述的装置可以配置于智能终端中，例如，计算机、笔记本等具有处理功能的终端。还可以配置于Flink引擎对应的处理器中，为Flink引擎提供数据查询基础。

第一存储表以及第二存储表均为独立的数据表，所述关联的含义主要指将第一存储表以及第二存储表均属于查询基础而被查询，可以同时查询这两个表中的存储的流数据。

所述第一流数据可以包括数据标识，通过该数据标识可以在第一存储表中查找到该第一流数据。利用第一流数据更新所述第一存储表可以指将第一流数据在第一存储表中存储。

作为一个实施例，所述第二确定模块包括：

第一查询单元，用于从所述第二存储表中查询与所述第一流数据匹配的第一目标数据；

第一关联单元，用于关联所述第一流数据以及所述第一目标数据，获得第一关联数据。

可选地，第一查询单元具体可以用于：基于所述第一流数据，依次查询第二存储表中满足查询条件的第一目标数据。匹配的实际含义为满足查询条件。可选地，关联第一流数据以及第一目标数据可以指，将第一流数据以及第一目标数据中除查询条件之外的其他内容进行关联，获得第一关联数据。也即第一关联数据中包含第一流数据以及第一目标数据。第一关联数据为第一目标数据以及第二流数据的“并”数据，集合两个数据的所有内容。

在某些实施例中，所述第一查询单元包括：

第一匹配子单元，用于根据所述第一流数据的第一查询内容，从所述第二存储表中查询与所述第一查询内容相匹配的第一目标数据。

其中，第一匹配子单元可以用于查询第二存储表中包含第一查询内容的第一目标数据。也即第一目标数据以及第一流数据之间具有交叉信息，可以基于二者之间的交叉信息进行关联查询。该交叉信息也即指两个流数据中存在相同的内容。

在实际应用中，该第一查询内容可以为第一数据标识，所述第一匹配单元用于：可以根据第一流数据的数据标识，从第二存储表中查询具有与该第一数据标识相同标识的第一目标数据。

所述第一匹配单元还可以用于：当从第二存储表中未查询到与第一查询内容相匹配的第一目标内容时，可以基于关联数据的存储格式，将第一目标数据中除所述第一流数据之外的其他数据位置设置为空数据，以确保能够获得相应的返回值，不产生空查，进而实现方便后续的查询处理。

所述装置还可以包括：

第二接收模块，用于接收第二流数据；

第二更新模块，用于利用所述第二流数据更新所述第二存储表；

第三确定模块，用于基于所述第一存储表，确定与所述第二流数据关联的第二关联数据。

所述第二流数据可以包括数据标识，通过该数据标识可以在第二存储表中查找到该第二流数据。第二更新模块可以用于将第二流数据在第二存储表中存储。

获得第二关联数据之后，所述装置还可以输出第二关联数据，例如，通过显示器为用户展示该第二关联数据。在实际应用中，可以将所有的第一关联数据以及第二关联数据以第三存储表形式为用户展示，以方便查阅。

所述第三确定模块包括：

第二查询单元，用于从所述第一存储表中查询与所述第二流数据匹配的第二目标数据；

第二关联单元，用于关联所述第二流数据以及所述第二目标数据，获得第二关联数据。

可选地，第二查询单元用于基于所述第二流数据，依次查询第一存储表中满足查询条件的第二目标数据。也即，匹配的实际含义为满足查询条件。

可选地，第二关联单元可以用于将第二流数据以及第二目标数据中除查询条件之外的其他内容进行关联，获得第二关联数据。也即第二关联数据中包含第二目标数据以及第二流数据。第二关联数据为第二目标数据以及第二流数据的“并”数据，集合两个数据的所有内容。

可选地，第二查询单元还用于如果未从第一存储表中查询与所述第二流数据匹配的第二目标数据，可以将第二目标数据设置为空。此时，关联第二目标数据以及第二流数据的第二关联内容中，除第二流数据的部分内容之外，还包含与所述第二目标数据存储位置相对应的空NULL数据。

在某些实施例中，所述第二查询单元包括：

第二匹配子单元，用于根据所述第二流数据的第二查询内容，从所述第一存储表中查询与所述第二查询内容相匹配的第二目标数据。

可选地，第二查询单元可以用于：查询第一存储表中包含第二查询内容的第二目标数据。也即第二目标数据以及第二流数据之间具有交叉信息，可以基于二者之间的交叉信息进行关联查询。该交叉信息也即可以指两个流数据中存在相同的内容。

在实际应用中，该第二查询内容可以为第二数据标识，所述第二查询单元可以用于根据第二流数据的数据标识，从第一存储表中查询具有与该第二数据标识相同标识的第二目标数据。

所述装置还包括：

判断模块，用于判断所述第一关联数据与所述第二关联数据是否相关；

第一结果模块，用于如果是，在确认所述第一关联数据中的关联子数据包括空(NULL)时，删除所述第一关联数据，并保存所述第二关联数据；或者，在确认所述第二关联数据中的关联子数据包括空(NULL)时，删除所述第二关联数据，并保存所述第一关联数据；

第二结果模块，用于如果否，保存所述第一关联数据以及所述第二关联数据。

所述第二确定模块包括：

所述第三确定模块包括：

第三查询单元，用于利用结构化查询语句中的join语句，从所述第二存储表中查询与所述第二流数据关联的第二关联数据。

其中，join语句可以指outer join语句。

通过结构化查询语句查询可以提高查询效率。

所述第一流数据包括：时间生存值；所述装置还包括：

时间检测模块，用于检测所述第一流数据在所述第一存储表中存在时间满足所述时间生存值时，删除所述第一存储表中的第一流数据。

所述第二流数据还可以包括：时间生存值，所述装置还用于：

上述所述的数据处理装置可以执行上述实施例所述数据处理步骤中的步骤，其执行内容和技术效果不再赘述，对于上述实施例中的数据处理方法其中各个步骤执行的操作的具体方式已经在有关该装置的实施例中进行了详细描述，此处将不做详细阐述说明。

在实际应用中，上述图4所示的实施例可以实现为如图5所示的一数据处理设备，其中，该设备可以包括：存储组件501以及处理组件502；所述存储组件501用于存储一条或多条计算机指令，所述一条或多条计算机指令用于被所述处理组件502调用并执行；

所述处理组件502用于：

所述处理组件可以配置于Flink引擎对应的智能设备中，为Flink引擎提供数据查询基础。该智能设备可以是计算机、笔记本等。

所述处理组件还用于：

接收第二流数据；利用所述第二流数据更新所述第二存储表；基于所述第一存储表，确定与所述第二流数据关联的第二关联数据。

所述处理组件基于所述第二存储表，确定与所述第一流数据关联的第一关联数据具体是：

所述处理组件基于所述第一存储表，确定与所述第二流数据关联的第二关联数据具体是：

所述处理组件从所述第二存储表中查询与所述第一流数据匹配的第一目标数据具体是：

所述处理组件从所述第一存储表中查询与所述第二流数据匹配的第二目标数据具体是：

所述处理组件还用于：

判断所述第一关联数据与所述第二关联数据是否相关；

如果是，在确认所述第一关联数据中的关联子数据包括空(NULL)时，删除所述第一关联数据，并保存所述第二关联数据；或者，在确认所述第二关联数据中的关联子数据包括空(NULL)时，删除所述第二关联数据，并保存所述第一关联数据；

如果否，保存所述第一关联数据以及所述第二关联数据。

其中，join语句可以指outer join语句。

所述第一流数据包括：时间生存值；所述处理组件还用于：

上述所述的数据处理设备可以配置如上述实施例所述数据处理装置，其执行内容和技术效果不再赘述，对于实施例中的数据处理设备其中各个模块执行的操作的具体方式已经在有关该装置的实施例中进行了详细描述，此处将不做详细阐述说明。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，包括：

确定第一存储表以及与所述第一存储表关联的第二存储表；

接收第一流数据；

利用所述第一流数据更新所述第一存储表；

基于所述第二存储表，确定与所述第一流数据关联的第一关联数据；

其中，所述基于所述第二存储表，确定与所述第一流数据关联的第一关联数据包括：从所述第二存储表中查询与所述第一流数据匹配的第一目标数据；关联所述第一流数据以及所述第一目标数据，获得第一关联数据；

所述从所述第二存储表中查询与所述第一流数据匹配的第一目标数据包括：根据所述第一流数据的第一查询内容，从所述第二存储表中查询与所述第一查询内容相匹配的第一目标数据；

所述从所述第二存储表中查询与所述第一流数据匹配的第一目标数据是在所述第二存储表接收到第一流数据时即进行；

所述关联所述第一流数据以及所述第一目标数据，获得第一关联数据包括：将所述第一流数据以及所述第一目标数据中除查询条件之外的其他内容进行关联，获得第一关联数据；

所述方法还包括：

若未从所述第二存储表中查询到与所述第一流数据匹配的第一目标数据，将第一目标数据设置为空(NULL)；所述关联所述第一流数据以及所述第一目标数据获得的第一关联数据包括所述第一流数据的部分内容以及与所述第一目标数据存储位置相对应的空(NULL)数据。

2.根据权利要求1所述的方法，其特征在于，还包括：

接收第二流数据；

利用所述第二流数据更新所述第二存储表；

基于所述第一存储表，确定与所述第二流数据关联的第二关联数据。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一存储表，确定与所述第二流数据关联的第二关联数据包括：

4.根据权利要求3所述的方法，其特征在于，所述从所述第一存储表中查询与所述第二流数据匹配的第二目标数据包括：

5.根据权利要求2所述的方法，其特征在于，还包括：

判断所述第一关联数据与所述第二关联数据是否相关；

如果否，保存所述第一关联数据以及所述第二关联数据。

6.根据权利要求1所述的方法，其特征在于，所述基于所述第二存储表，确定与所述第一流数据关联的第一关联数据包括：

7.根据权利要求2所述的方法，其特征在于，所述基于所述第一存储表，确定与所述第二流数据关联的第二关联数据包括：

8.根据权利要求1所述的方法，其特征在于，所述第一流数据包括：时间生存值；还包括：

9.一种数据处理装置，其特征在于，包括：

第一接收模块，用于接收第一流数据；

第二确定模块，用于基于所述第二存储表，确定与所述第一流数据关联的第一关联数据；

其中，第二确定模块基于所述第二存储表，确定与所述第一流数据关联的第一关联数据具体是从所述第二存储表中查询与所述第一流数据匹配的第一目标数据；关联所述第一流数据以及所述第一目标数据，获得第一关联数据；

所述装置还包括：

10.一种数据处理设备，其特征在于，包括：存储组件以及处理组件；所述存储组件用于存储一条或多条计算机指令，所述一条或多条计算机指令用于被所述处理组件调用并执行；

所述处理组件用于：

确定第一存储表以及与所述第一存储表关联的第二存储表；接收第一流数据；利用所述第一流数据更新所述第一存储表；基于所述第二存储表，确定与所述第一流数据关联的第一关联数据；

还包括：