CN111984738A

CN111984738A - 数据关联方法、装置、设备及存储介质

Info

Publication number: CN111984738A
Application number: CN201910436545.XA
Authority: CN
Inventors: 李彬; 李林森
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2020-11-24

Abstract

本申请公开了一种数据关联方法、装置及存储介质，属于数据处理技术领域。所述方法包括：获取采集的多个数据集、以及多个数据集中每个数据集包括的每条数据的采集时间，多个数据集来自不同的数据源；确定多个数据集中的目标数据集包括的每条数据与其他数据集包括的每条数据之间的相似度；基于目标数据集和其他数据集中的每条数据的采集时间，确定目标数据集中的每条数据与其他数据集中的每条数据之间的置信度。相似度表示数据之间的语义上下文关联程度，置信度表示数据之间在时间维度上的关联程度，因此基于相似度和置信度能够准确将多源数据进行关联。

Description

数据关联方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域，特别涉及一种数据关联方法、装置、设备及存储介质。

背景技术

物联网场景中一般存在大量的多源数据，其中，该多源数据是指来自不同数据源，且具有时间和空间属性的多个数据集，譬如，可以在某场景中设置多源数据采集设备，以通过该多源数据采集设备采集多个不同数据源的数据，得到多个数据集，如该多个数据集可以包括人脸标识数据集和终端标识数据集等。基于一些业务场景的需求，可能需要根据多源数据来确定某个目标或某个目标的特征等，比如，根据人脸标识数据集和终端标识数据集来确定某个目标人物。为了能够基于多源数据来确定某个目标，如何准确地将属于同一目标的不同源的数据进行关联成为研究的重点。

发明内容

本申请实施例提供了一种数据关联方法、装置、设备及存储介质，可以解决如何准确地将属于同一目标的不同源的数据进行关联的问题。所述技术方案如下：

第一方面，提供了一种数据关联方法，所述方法包括：

获取采集的多个数据集、以及所述多个数据集中每个数据集包括的每条数据的采集时间，所述多个数据集来自不同的数据源；

确定所述多个数据集中的目标数据集包括的每条数据与其他数据集包括的每条数据之间的相似度，所述目标数据集为所述多个数据集中的任一数据集，所述其他数据集为所述多个数据集中除所述目标数据集之外的数据集；

基于所述目标数据集和所述其他数据集中的每条数据的采集时间，确定所述目标数据集中的每条数据与所述其他数据集中的每条数据之间的置信度；

基于确定的相似度和置信度，将所述目标数据集中的数据与所述其他数据集中的数据进行关联。

可选地，所述确定所述多个数据集中的目标数据集包括的每条数据与其他数据集包括的每条数据之间的相似度，包括：

对于所述其他数据集中的任一数据集，按照所述目标数据集和所述任一数据集中的每条数据的采集时间的先后顺序，对所述目标数据集和所述任一数据集中的数据进行排序，得到第一数据向量；

基于参考时间阈值对所述第一数据向量进行时间段划分，得到第二数据向量，所述第二数据向量包括多个时间段，每个时间段包括多条数据；

基于所述第二数据向量，确定所述目标数据集包括的每条数据与所述任一数据集包括的每条数据之间的相似度。

可选地，所述基于所述第二数据向量，确定所述目标数据集包括的每条数据与所述任一数据集包括的每条数据之间的相似度，包括：

将所述第二数据向量作为语料输入至目标自然语言模型中，由所述目标自然语言模型进行处理，输出所述多个时间段内所述目标数据集中的数据与所述任一数据集中的数据之间的子相似度；

获取所述目标数据集中的每条数据与所述任一数据集中的每条数据在每个时间段内的子相似度；

将获取的子相似度进行求和运算，得到所述目标数据集中的每条数据与所述任一数据集中的每条数据之间的相似度。

可选地，所述基于所述目标数据集和所述其他数据集中的每条数据的采集时间，确定所述目标数据集中的每条数据与所述其他数据集中的每条数据之间的置信度，包括：

对于所述其他数据集中的任一数据集，基于参考时间阈值分别对所述目标数据集中的数据和所述任一数据集中的数据进行时间段划分；

在每个相同的时间段内，遍历所述目标数据集中的每条数据的采集时间和所述任一数据集中的每条数据的采集时间，基于遍历的采集时间，确定所述目标数据集中的每条数据与所述任一数据集中的每条数据之间的置信度。

可选地，所述基于遍历的采集时间，确定所述目标数据集中的每条数据与所述任一数据集中的每条数据之间的置信度，包括：

基于遍历的采集时间，确定每个时间段内的所述目标数据集中的数据与所述任一数据集中的数据之间的子置信度；

获取所述目标数据集中的每条数据与所述任一数据集中的每条数据在每个时间段内的子置信度；

将获取的子置信度进行求和运算，得到所述目标数据集中的每条数据与所述任一数据集中的每条数据之间的置信度。

可选地，所述基于确定的相似度和置信度，将所述目标数据集中的数据与所述其他数据集中的数据进行关联，包括：

当所述目标数据集中的任一数据与所述其他数据集中的任一数据之间的相似度大于或等于第一阈值，且置信度大于或等于第二阈值时，将所述目标数据集中的任一数据与所述其他数据集中的任一数据进行关联；

当所述目标数据集中的任一数据与所述其他数据集中的任一数据之间的相似度小于第一阈值，和/或，置信度小于第二阈值时，不对所述目标数据集中的任一数据与所述其他数据集中的任一数据进行关联。

第二方面，提供了一种数据关联装置，所述装置包括：

采集模块，用于获取采集的多个数据集、以及所述多个数据集中每个数据集包括的每条数据的采集时间，所述多个数据集来自不同的数据源；

数据预处理模块，用于确定所述多个数据集中的目标数据集包括的每条数据与其他数据集包括的每条数据之间的相似度，所述目标数据集为所述多个数据集中的任一数据集，所述其他数据集为所述多个数据集中除所述目标数据集之外的数据集；

所述数据预处理模块，用于基于所述目标数据集和所述其他数据集中的每条数据的采集时间，确定所述目标数据集中的每条数据与所述其他数据集中的每条数据之间的置信度；

关联计算模块，用于基于确定的相似度和置信度，将所述目标数据集中的数据与所述其他数据集中的数据进行关联。

可选地，所述数据预处理模块用于：

可选地，所述关联计算模块用于：

第三方面，提供了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为实现上述第一方面任一项所述的方法。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述第一方面任一项所述的方法。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面任一项所述的方法。

本申请实施例提供的技术方案带来的有益效果是：

获取来自不同数据源的多个数据集、以及该多个数据集中每个数据集包括的每条数据的采集时间。将该多个数据集中的目标数据集作为关联对象，确定该目标数据集中的每条数据与其他数据集中的每条数据之间的相似度和置信度。其中，该相似度表示了数据之间的语义上下文关联程度，该置信度表示了数据之间在时间维度上的关联程度，因此基于确定的相似度和置信度，能够准确地将目标数据集中的数据与其他数据集中的数据进行关联。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种数据关联方法的流程图；

图2是根据一示例性实施例示出的一种实施场景的示意图；

图3是根据一示例性实施例示出的一种数据关联装置的结构示意图。

图4是根据另一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例提供的数据关联方法进行详细介绍之前，先对本申请实施例涉及的实施环境进行简单介绍。本申请实施例提供的数据关联方法可以由电子设备来执行，作为一种示例，该电子设备可以是集成有摄像头、WiFi(Wireless Fidelity，无线保真)探针等多个数据采集装置的一体化设备。该电子设备可以通过所集成的多个数据采集装置采集不同数据源的数据，比如，可以通过摄像头采集人脸图像等数据，以及通过WiFi探针采集终端的MAC(Media Access Control Address，媒体访问控制地址)等设备信息。值得一提的是，采用一体化设备可以便于部署和数据采集。

进一步地，可以由技术人员对该WiFi探针进行去天线定制处理，以便于缩小其探测范围，从而更有利于提高多源数据关联的准确性。

在介绍完本申请实施例涉及的实施环境后，接下来将结合附图对本申请实施例提供的数据关联方法进行详细介绍。

请参考图1，图1是根据一示例性实施例示出的一种数据关联方法的流程图，该数据关联方法可以应用于上述电子设备中，该方法可以包括如下几个实现步骤：

步骤101：获取采集的多个数据集、以及该多个数据集中每个数据集包括的每条数据的采集时间，该多个数据集来自不同的数据源。

作为一种示例，该电子设备可以通过封装的多个数据采集装置采集多个数据源的数据，得到该多个数据集，其中，该多个数据集具有时间属性和空间属性，另外，该多个数据集中的每个数据集一般都包括多条数据。并且，在采集过程中，可以记录该每个数据集中的每条数据的采集时间，示例性的，可以采用时间戳来记录每条数据的采集时间。

譬如，请参考图2，假设该电子设备为图2中的C，该电子设备C封装有两个数据采集装置，通过该两个数据采集装置能够采集到的范围分别包括图中的A区域和B区域，采集到的两个数据集包括数据集X和数据集Y，示例性的，该数据集X至少包括多个人脸图像x₁、x₂...x_n，该数据集Y至少包括多个MAC地址y₁、y₂...y_n。其中，该每个人脸图x₁、x₂...x_n均对应有采集时间，以及该每个MAC地址y₁、y₂...y_n也均对应有采集时间。

作为一种示例，该每个数据集中可能包括多条相同的数据，该多条相同的数据的采集时间不同。比如，该数据集X中可能包括20个人脸图像x₁、15个人脸图像x₂等。再如，该数据集Y中可能包括5个MAC地址y₁，12个MAC地址y₂等。

另外，由于WiFi探针在执行数据采集时一般是以时间段为基础进行采集，比如一般是每次探测一定时长，得到某条数据。因此，作为一种示例，在记录该每个MAC地址对应的采集时间时，可以将每个MAC地址对应的采集时间段的中间时间值记录为采集时间，比如，某MAC地址对应的采集时间段为6:00至6:10，则可以将6:05记录为该MAC地址的采集时间。

作为一种示例，该多个数据集中可以包括至少一个数据集与用于指示目标的标签关联。其中，该标签可以用于指示该目标的身份，比如，当该目标为用户时，该标签可以为用户的姓名等数据。也就是说，为了便于后续可以获知根据多个数据集确定出的目标是谁，一般要求该多个数据集中的至少一个数据集已经具有目标的标签，或者，通过将该至少一个数据集中的数据与数据库中的匹配数据进行比对能够为该至少一个数据集打上标签，其中，该数据库中的匹配数据具有目标的标签。

举例来说，假设该多个数据集中的数据集X与用于指示目标的标签关联，则可能存在两种情况，一种情况是，该数据集X本身可能具有目标的标签，其中，该数据集X具有目标的标签是指该数据集X中的每条数据都具有对应目标的标签，比如，该人脸图像x₁的标签为用户1，人脸图像x₂的标签用户1...，等等。另一种情况是，可以将该数据集X中的每个人脸图像与数据库中的人脸匹配图像进行比对，以从数据库中确定与该每个人脸图像匹配度最高的人脸匹配图像，并将数据库中与该每个人脸图像匹配度最高的人脸匹配图像的标签设置为该数据集X中的每个人脸图像的标签，从而使得该数据集X与用于指示目标的标签关联。

因此，作为一种示例，在执行下述步骤之前，当该多个数据集中的每个数据集都不具有标签时，可以对该多个数据集进行数据预处理，从而为该多个数据集中的至少一个数据集打上标签。其中，为数据集打标签的具体实现即为上述将至少一个数据集与数据库中的数据进行比对从而设置标签的实现过程。

进一步地，该数据预处理还可以包括对该多个数据集中的某个或某些数据集进行数据过滤处理，以去除数据集中的一些干扰数据。比如，对于数据集Y中的MAC地址，一些可能不是手机设备的MAC地址，此时为了减少干扰数据，可以根据WiFi探针探测的SSID(Service Set Identifier，服务集标识)等字段过滤掉非手机设备的MAC地址。再如，对于车辆数据而言，可能需要根据车型、颜色、车牌等数据过滤掉不符合要求的车辆。

作为一种示例，在对该多个数据集进行数据预处理后，可以再按照下述步骤实现数据关联。

步骤102：确定该多个数据集中的目标数据集包括的每条数据与其他数据集包括的每条数据之间的相似度，该目标数据集为该多个数据集中的任一数据集，该其他数据集为该多个数据集中除该目标数据集之外的数据集。

作为一种示例，该目标数据集可以为该多个数据集中与用于指示目标的标签关联的数据集，由于该目标数据集与目标的标签关联，或者说，该目标数据集具有目标的标签，因此可以以该目标数据集中的数据为关联目标，确定该目标数据集包括的每条数据与其他数据集中的每条数据之间的关联度。

在本申请实施例中，将该目标数据集中的每条数据与其他数据集中的每条数据之间的相似度作为确定关联度的一个指标，也即是，在确定关联度时考虑每个数据集中的每条数据与其他数据集中的每条数据之间的语义上下文关系。作为一种示例，确定该多个数据集中的目标数据集包括的每条数据与其他数据集包括的每条数据之间的相似度的具体实现可以包括如下1021至1024几个实现过程：

1021：对于该其他数据集中的任一数据集，按照该目标数据集和该任一数据集中的每条数据的采集时间的先后顺序，对该目标数据集和该任一数据集中的数据进行排序，得到第一数据向量。

对于该其他数据集中的任一数据集，确定其中的每条数据与该目标数据集中的每条数据之间的相似度的实现方式相同，因此，可以以任一数据集为例对确定相似度的实现过程进行介绍。

由于该多个数据集中的每条数据均记录有采集时间，因此可以根据该目标数据集和该任一数据集中的每条数据的采集时间的先后顺序，将该目标数据集和该任一数据集中的数据进行排序，得到一条总的数据集，这里称为第一数据向量。譬如，假设该目标数据集为数据集X，该任一数据集为数据集Y，则按照每条数据的采集时间的先后顺序，将数据集X中的数据与该数据集Y中的数据进行排序，假设排序后得到的第一数据向量为[x₁、x₂、x₂、y₂、x₂、y₃...x_n、x_n-1、...y₂]。

1022：基于参考时间阈值对该第一数据向量进行时间段划分，得到第二数据向量，该第二数据向量包括多个时间段，每个时间段包括多条数据。

其中，该参考时间阈值可以根据实际需求进行设置。根据该参考时间阈值将该第一数据向量中的数据划分成多个部分，每个部分对应一个时间段，即该第一数据向量被该参考时间阈值划分成多个时间段的数据，为例便于描述，这里将经过划分后的第一数据向量称为第二数据向量。

作为一种示例，考虑到一些数据集中的数据是以时间段为基础进行采集的，该种情况下，如果该参考时间阈值的单位较小，则可能会对一些数据源的数据产生影响。因此，为了避免参考时间阈值对数据产生影响，可以将该参考时间阈值设定为以天为单位，譬如，该参考时间阈值可以设置为1天，使得该第一数据向量中的每个时间段的数据处于同一天内。

1023：基于该第二数据向量，确定该目标数据集包括的每条数据与该任一数据集包括的每条数据之间的相似度。

作为一种示例，基于该第二数据向量，确定该目标数据集包括的每条数据与该任一数据集包括的每条数据之间的相似度的具体实现可以包括：将该第二数据向量作为语料输入至目标自然语言模型中，由该目标自然语言模型进行处理，输出该多个时间段内该目标数据集中的数据与该任一数据集中的数据之间的子相似度；获取该目标数据集中的每条数据与该任一数据集中的每条数据在每个时间段内的子相似度；将获取的子相似度进行求和运算，得到该目标数据集中的每条数据与该任一数据集中的每条数据之间的相似度。

其中，该目标自然语言模型是一种能够用于确定数据之间相似度的模型，在实施中，该自然语言模型可以基于任一语料，确定该任一语料中各个数据之间的相似度。也即是，当需要确定多个数据之间的相似度时，可以按照一定的规则将该多个数据组成一个语料，然后将该语料输入至该目标自然语言模型中，由该目标自然语言模型进行预测处理，从而确定该多个数据之间的相似度。示例性的，该目标自然语言模型可以为已训练的word2vec模型，该word2vec模型可以基于任一语料预测该语料中各个数据之间的相似度，即可以确定该任一语料中各个数据之间的关联程度，从而能够克服仅仅依赖时间差值计算置信度时影响最终关联排名的缺点。

因此，将该第二数据向量作为语料输入至目标自然语言模型中后，通过该目标自然语言模型的处理可以确定该第二数据向量中每个时间段内各个数据之间的子相似度。在实施中，该第二数据向量的每个时间段内可能均包括该目标关联数据的每条数据和任一数据集中的每条数据，因此，在每个时间段内均存在该目标关联数据的每条数据和任一数据集中的每条数据之间的子相似度，此时，电子设备可以获取该目标关联数据的每条数据和任一数据集中的每条数据在每个时间段内的子相似度，并对获取的子相似度进行求和运算，从而可以得到该目标关联数据中的每条数据和任一数据集中的每条数据之间的相似度。这里可以即为<X_i,Y_j,P_ij>，其中，该X_i为数据集X的第i条数据，该Y_j为数据集Y的第j条数据，该P_ij为X_i与Y_j之间的相似度。

譬如，假设该第二数据向量包括三个时间段，通过目标自然语言模型确定该目标关联数据中的某条数据x_i和任一数据集中的某条数据y_j在该三个时间段内的子相似度分别为P₁、P₂和P₃，则该电子设备可以确定该目标关联数据中的某条数据x_i和任一数据集中的某条数据y_j之间的相似度为P₁、P₂和P₃的总和。

作为一种示例，由于某个时间段内目标关联数据中的某条数据和/或任一数据集中的某条数据可能出现多次，此时，该目标自然语言模型确定的该某个时间段内目标数据集中的该某条数据与任一数据集中的该某条数据之间的子相似度存在多个。在该种情况下，可以将该多个子相似度进行求和运算，将得到的结果作为该目标数据集中的该某条数据与该任一数据集中的该某条数据在该某个时间段内的子相似度。

譬如，假设在某个时间段内，该目标关联数据中的某条数据x_i以及任一数据集中的某条数据y_j均出现两次，通过该目标自然语言模型可以确定在该时间段内，该目标关联数据中的某条数据x_i以及任一数据集中的某条数据y_j之间的子相似度包括四个，分别为P₁、P₂、P₃和P₄，则可以确定该目标关联数据中的某条数据x_i以及任一数据集中的某条数据y_j在该时间段内的子相似度为P₁、P₂、P₃和P₄之和。

步骤103：基于该目标数据集和该其他数据集中的每条数据的采集时间，确定该目标数据集中的每条数据与该其他数据集中的每条数据之间的置信度。

在本申请实施例中，将该目标数据集中的每条数据与该其他数据集中的每条数据之间的置信度作为确定关联度的另一个指标，也即是，不仅考虑每个数据集中的每条数据与其他数据集中的每条数据之间的语义上下文关系，还考虑时间维度上的关联关系。作为一种示例，基于该目标数据集和该其他数据集中的每条数据的采集时间，确定该目标数据集中的每条数据与该其他数据集中的每条数据之间的置信度的具体实现可以包括如下1031至1032几个步骤：

1031：对于该其他数据集中的任一数据集，基于参考时间阈值分别对该目标数据集中的数据和该任一数据集中的数据进行时间段划分；

对于该其他数据集中的任一数据集，确定其中的每条数据与目标数据集中的每条数据之间的置信度的实现方式相同，因此，可以以任一数据集为例对确定置信度的实现过程进行介绍。

电子设备根据该参考时间阈值，分别对该目标数据集中的数据和该任一数据集中的数据进行时间段划分，如此，该目标数据集包括多个时间段的数据，该任一数据集也包括多个时间段的数据。

1032：在每个相同的时间段内，遍历该目标数据集中的数据的采集时间和该任一数据集中的数据的采集时间，基于遍历的采集时间，确定该目标数据集中的每条数据与该任一数据集中的每条数据之间的置信度。

作为一种示例，基于遍历的采集时间，确定该目标数据集中的每条数据与该任一数据集中的每条数据之间的置信度的具体实现可以包括：基于遍历的采集时间，确定每个时间段内的该目标数据集中的数据与该任一数据集中的数据之间的子置信度；获取该目标数据集中的每条数据与该任一数据集中的每条数据在每个时间段内的子置信度；将获取的子置信度进行求和运算，得到该目标数据集中的每条数据与该任一数据集中的每条数据之间的置信度。

譬如，假设数据集X包括两个时间段，分别为第一时间段和第二时间段，数据集Y也包括两个时间段，分别为第一时间段和第二时间段，该电子设备遍历第一时间段内的每个人脸图像的采集时间和每个MAC地址的采集时间，根据遍历的采集时间，确定数据集X中的每个人脸图像与数据集Y中的每个MAC地址在该第一时间段内的子置信度。并且，电子设备遍历第二时间段内的每个人脸图像的采集时间和每个MAC地址的采集时间，根据遍历的采集时间，确定数据集X中的每个人脸图像与数据集Y中的每个MAC地址在该第二时间段内的子置信度。然后，电子设备将数据集X中的每个人脸图像与数据集Y中的每个MAC地址在该第一时间段内和第二时间段内的子置信度进行求和，得到数据集X中的每个人脸图像与数据集Y中的每个MAC地址之间的置信度。

作为一种示例，该电子设备可以通过如下公式(1)确定该目标数据集中的每条数据与该任一数据集中的每条数据之间的子置信度，该公式(1)为：

其中，该

为X_i的采集时间，该

为Y_j的采集时间，该V_ij为

和

之间的子置信度。

步骤104：基于确定的相似度和置信度，将该目标数据集中的数据与该其他数据集中的数据进行关联。

也就是说，基于语义上下文的关联程度和时间维度的关联程度，将该目标数据集中的数据与该其他数据集中的数据进行关联，以保证关联的准确性。作为一种示例，基于确定的相似度和置信度，将该目标数据集中的数据与该其他数据集中的数据进行关联的具体实现可以包括如下两种情况：

第一种情况：当该目标数据集中的任一数据与该其他数据集中的任一数据之间的相似度大于或等于第一阈值，且置信度大于或等于第二阈值时，将该目标数据集中的任一数据与该其他数据集中的任一数据进行关联。

其中，该第一阈值可以由用户根据实际需求进行设置，或者，也可以由该电子设备默认设置，本申请实施例对此不作限定。

另外，该第二阈值也可以由用户根据实际需求进行设置，或者，也可以由该电子设备默认设置，本申请实施例对此不作限定。

也就是说，对于该目标数据集中的任一数据，当该任一数据与其他数据集中的任一数据之间的相似度大于或等于第一阈值，并且该任一数据与其他数据集中的任一数据之间的置信度大于或等于第二阈值时，说明该任一数据与其他数据集中的任一数据之间的关联程度较大，此时将该任一数据与其他数据集中的任一数据进行关联。作为一种示例，该目标数据集中的数据与其他数据集中的数据的关联结果可以如表1所示。

表1

从表1可以看出，只有相似度大于第一阈值，且置信度大于第二阈值时，才将两个数据关联起来，即记录该两个数据的关联结果。

进一步地，将该目标数据集中的数据与其他数据集中的数据进行关联后，可以按照相似度和/或置信度的大小关系对关联数据进行排序，比如，以按照相似度的大小关系对关联数据进行排序为例，可以将相似度按照从大到小的顺序，将对应的关联数据进行排序，比如，表1中的第一行的相似度最大。

第二种情况：当该目标数据集中的任一数据与该其他数据集中的任一数据之间的相似度小于第一阈值，和/或，置信度小于第二阈值时，不对该目标数据集中的任一数据与该其他数据集中的任一数据进行关联。

也就是说，对于该目标数据集中的任一数据，如果该任一数据与其他数据集中的任一数据之间的相似度和置信度不同时满足阈值条件，就认为该任一数据与其他数据集中的任一数据之间不具有关联关系，即不将该任一数据与其他数据集中的任一数据进行关联。

需要说明的是，上述第一阈值和第二阈值可以相同，也可以不相同，本申请实施例对此不做限定。

进一步地，将该目标数据集中的数据与其他数据集中的数据进行关联之后，用户可以根据需求来查询关联后的多源数据，比如，该用户可以根据相似度进行查询，或者，也可以根据置信度进行查询，进一步地，用户可以根据相似度或置信度，通过终端中的用户模块来进行查询，本申请实施例对此不作限定。

在本申请实施例中，获取来自不同数据源的多个数据集、以及该多个数据集中每个数据集包括的每条数据的采集时间。将该多个数据集中的目标数据集作为关联对象，确定该目标数据集中的每条数据与其他数据集中的每条数据之间的相似度和置信度。其中，该相似度表示了数据之间的语义上下文关联程度，该置信度表示了数据之间在时间维度上的关联程度，因此基于确定的相似度和置信度，能够准确地将目标数据集中的数据与其他数据集中的数据进行关联。

图3是根据一示例性实施例示出的一种数据关联装置的结构示意图，该数据关联装置可以由软件、硬件或者两者的结合实现。该数据关联装置可以包括：

采集模块310，用于获取采集的多个数据集、以及所述多个数据集中每个数据集包括的每条数据的采集时间，所述多个数据集来自不同的数据源；

数据预处理模块320，用于确定所述多个数据集中的目标数据集包括的每条数据与其他数据集包括的每条数据之间的相似度，所述目标数据集为所述多个数据集中的任一数据集，所述其他数据集为所述多个数据集中除所述目标数据集之外的数据集；

所述数据预处理模块320，用于基于所述目标数据集和所述其他数据集中的每条数据的采集时间，确定所述目标数据集中的每条数据与所述其他数据集中的每条数据之间的置信度；

关联计算模块330，用于基于确定的相似度和置信度，将所述目标数据集中的数据与所述其他数据集中的数据进行关联。

可选地，所述数据预处理模块320用于：

可选地，所述关联计算模块330用于：

需要说明的是：上述实施例提供的数据关联装置在数据关联时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的数据关联装置与数据关联方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4示出了本申请一个示例性实施例提供的电子设备400的结构框图。该电子设备400可以是：智能手机、平板电脑、笔记本电脑或台式电脑。电子设备400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，电子设备400包括有：处理器401和存储器402。进一步地，该电子设备400可以集成有多个数据采集装置，用于采集多个数据源的数据。

处理器401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器401所执行以实现本申请中方法实施例提供的数据关联方法。

在一些实施例中，电子设备400还可选包括有：外围设备接口403和至少一个外围设备。处理器401、存储器402和外围设备接口403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口403相连。具体地，外围设备包括：射频电路404、触摸显示屏405、摄像头406、音频电路407、定位组件408和电源409中的至少一种。

外围设备接口403可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器401和存储器402。在一些实施例中，处理器401、存储器402和外围设备接口403被集成在同一芯片或电路板上；在一些其他实施例中，处理器401、存储器402和外围设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路404包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路404可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路404还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏405是触摸显示屏时，显示屏405还具有采集在显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。此时，显示屏405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏405可以为一个，设置电子设备400的前面板；在另一些实施例中，显示屏405可以为至少两个，分别设置在电子设备400的不同表面或呈折叠设计；在再一些实施例中，显示屏405可以是柔性显示屏，设置在电子设备400的弯曲表面上或折叠面上。甚至，显示屏405还可以设置成非矩形的不规则图形，也即异形屏。显示屏405可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件406用于采集图像或视频。可选地，摄像头组件406包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备的前面板，后置摄像头设置在电子设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器401进行处理，或者输入至射频电路404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路407还可以包括耳机插孔。

定位组件408用于定位电子设备400的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件408可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源409用于为电子设备400中的各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于：加速度传感器411、陀螺仪传感器412、压力传感器413、指纹传感器414、光学传感器415以及接近传感器416。

加速度传感器411可以检测以电子设备400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器411可以用于检测重力加速度在三个坐标轴上的分量。处理器401可以根据加速度传感器411采集的重力加速度信号，控制触摸显示屏405以横向视图或纵向视图进行用户界面的显示。加速度传感器411还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器412可以检测电子设备400的机体方向及转动角度，陀螺仪传感器412可以与加速度传感器411协同采集用户对电子设备400的3D动作。处理器401根据陀螺仪传感器412采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器413可以设置在电子设备400的侧边框和/或触摸显示屏405的下层。当压力传感器413设置在电子设备400的侧边框时，可以检测用户对电子设备400的握持信号，由处理器401根据压力传感器413采集的握持信号进行左右手识别或快捷操作。当压力传感器413设置在触摸显示屏405的下层时，由处理器401根据用户对触摸显示屏405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器414用于采集用户的指纹，由处理器401根据指纹传感器414采集到的指纹识别用户的身份，或者，由指纹传感器414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器401授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器414可以被设置电子设备400的正面、背面或侧面。当电子设备400上设置有物理按键或厂商Logo时，指纹传感器414可以与物理按键或厂商Logo集成在一起。

光学传感器415用于采集环境光强度。在一个实施例中，处理器401可以根据光学传感器415采集的环境光强度，控制触摸显示屏405的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏405的显示亮度；当环境光强度较低时，调低触摸显示屏405的显示亮度。在另一个实施例中，处理器401还可以根据光学传感器415采集的环境光强度，动态调整摄像头组件406的拍摄参数。

接近传感器416，也称距离传感器，通常设置在电子设备400的前面板。接近传感器416用于采集用户与电子设备400的正面之间的距离。在一个实施例中，当接近传感器416检测到用户与电子设备400的正面之间的距离逐渐变小时，由处理器401控制触摸显示屏405从亮屏状态切换为息屏状态；当接近传感器416检测到用户与电子设备400的正面之间的距离逐渐变大时，由处理器401控制触摸显示屏405从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图4中示出的结构并不构成对电子设备400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述图1所示实施例提供的数据关联方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个实施例提供的数据关联方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据关联方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述确定所述多个数据集中的目标数据集包括的每条数据与其他数据集包括的每条数据之间的相似度，包括：

3.如权利要求2所述的方法，其特征在于，所述基于所述第二数据向量，确定所述目标数据集包括的每条数据与所述任一数据集包括的每条数据之间的相似度，包括：

4.如权利要求1所述的方法，其特征在于，所述基于所述目标数据集和所述其他数据集中的每条数据的采集时间，确定所述目标数据集中的每条数据与所述其他数据集中的每条数据之间的置信度，包括：

5.如权利要求4所述的方法，其特征在于，所述基于遍历的采集时间，确定所述目标数据集中的每条数据与所述任一数据集中的每条数据之间的置信度，包括：

6.如权利要求1-5任一项所述的方法，其特征在于，所述基于确定的相似度和置信度，将所述目标数据集中的数据与所述其他数据集中的数据进行关联，包括：

7.一种数据关联装置，其特征在于，所述装置包括：

8.如权利要求7所述的装置，其特征在于，所述数据预处理模块用于：

9.如权利要求8所述的装置，其特征在于，所述数据预处理模块用于：

10.如权利要求7所述的装置，其特征在于，所述数据预处理模块用于：

11.如权利要求10所述的装置，其特征在于，所述数据预处理模块用于：

12.如权利要求7-11任一项所述的装置，其特征在于，所述关联计算模块用于：

13.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为实现权利要求1-6所述的任一项方法的步骤。

14.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现权利要求1-6所述的任一项方法的步骤。