CN110222141A

CN110222141A - 数据关联方法及装置、电子设备

Info

Publication number: CN110222141A
Application number: CN201910363224.1A
Authority: CN
Inventors: 王晓鹏
Original assignee: Beijing Friends Of Interactive Information Technology Co Ltd
Current assignee: Beijing Friends Of Interactive Information Technology Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-09-10

Abstract

本发明公开了一种数据关联方法及装置、电子设备。其中，该方法包括：获取多个字段集，其中，每个字段集包含有语义相同的多个字段数据；确定每两个字段数据在对应的字段集中的字段值，并确定每两个字段数据是否属于同一用户的权重值；根据字段值和权重值，确定每个用户的连通集合，其中，连通集合中包含的各个字段数据相互关联且都属于同一用户。本发明解决了相关技术中各个字段数据关联性较低的技术问题。

Description

数据关联方法及装置、电子设备

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种数据关联方法及装置、电子设备。

背景技术

在相关技术中，很多数据公司会从多个数据源获取到字段数据(或用户数据)，包括获取用户持有的终端物理地址、通信地址、所处地理位置、登录的应用APP等，对这些数据，各个公司都会进行相应的处理，然后根据处理结果，向用户推荐用户喜爱的内容，但是当前，在处理数据时，往往是针对具体的应用和所持有的设备来确定字段数据所属的目标用户，无法打通各个字段数据所属的用户，各个字段数据之间的关联性较低，导致对于同一用户或者其它自然个体，可能推送相同的内容，且数据统计上很不方便。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据关联方法及装置、电子设备，以至少解决相关技术中各个字段数据关联性较低的技术问题。

根据本发明实施例的一个方面，提供了一种数据关联方法，包括：获取多个字段集，其中，每个所述字段集包含有语义相同的多个字段数据；确定每两个所述字段数据在对应的所述字段集中的字段值，并确定每两个所述字段数据是否属于同一用户的权重值；根据所述字段值和所述权重值，确定每个用户的连通集合，其中，所述连通集合中包含的各个字段数据相互关联且都属于同一用户。

进一步地，获取多个字段集的步骤，包括：提取多个数据源的字段数据，得到字段总集合；利用预设的语义数据库和/或预设的语义分辨规则，确定所述字段总集合中每个所述字段数据所属的字段集，得到所述多个字段集。

进一步地，确定每两个所述字段数据是否属于同一用户的权重值的步骤，包括：获取每个所述字段数据所在的字段集以及每个所述字段集所属的目标领域；根据每个所述字段数据所在的字段集和每个所述字段集所属的目标领域，构建语义学习模型；利用所述语义学习模型，确定每两个所述字段数据是否属于同一用户的权重值。

进一步地，所述权重值为正权重值或负权重值，其中，所述正权重值用于指示两个不同数据源的所述字段数据在同一个同义字段集的字段值相同，且该两个所述字段数据属于同一用户；所述负权重值用于指示两个不同数据源的所述字段数据在同一个同义字段集的字段值不相同，且该两个所述字段数据不属于同一用户。

进一步地，根据所述字段值和所述权重值，确定每个用户的连通集合的步骤，包括：对所述字段值和所述权重值进行排序，得到排序结果；根据所述排序结果，确定每个用户的连通集合。

进一步地，根据所述排序结果，确定每个用户的连通集合的步骤，包括：确定所述排序结果中字段值高于预设阈值的字段数据；将所述字段值高于预设阈值的字段数据确定为同一用户的连通集合。

根据本发明实施例的另一方面，还提供了一种数据关联装置，包括：获取单元，用于获取多个字段集，其中，每个所述字段集包含有语义相同的多个字段数据；第一确定单元，用于确定每两个所述字段数据在对应的所述字段集中的字段值，并确定每两个所述字段数据是否属于同一用户的权重值；第二确定单元，用于根据所述字段值和所述权重值，确定每个用户的连通集合，其中，所述连通集合中包含的各个字段数据相互关联且都属于同一用户。

进一步地，所述获取单元包括：第一提取模块，用于提取多个数据源的字段数据，得到字段总集合；第一确定模块，用于利用预设的语义数据库和/或预设的语义分辨规则，确定所述字段总集合中每个所述字段数据所属的字段集，得到所述多个字段集。

进一步地，第一确定单元包括：第一获取模块，用于获取每个所述字段数据所在的字段集以及每个所述字段集所属的目标领域；构建模块，用于根据每个所述字段数据所在的字段集和每个所述字段集所属的目标领域，构建语义学习模型；第二确定模块，用于利用所述语义学习模型，确定每两个所述字段数据是否属于同一用户的权重值。

进一步地，第二确定单元包括：排序模块，用于对所述字段值和所述权重值进行排序，得到排序结果；第三确定模块，用于根据所述排序结果，确定每个用户的连通集合。

进一步地，所述第三确定模块包括：第一确定子模块，确定所述排序结果中字段值高于预设阈值的字段数据；第二确定子模块，确定将所述字段值高于预设阈值的字段数据确定为同一用户的连通集合。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的数据关联方法。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质用于存储程序，其中，所述程序在被处理器执行时控制所述存储介质所在设备执行上述任意一项所述的数据关联方法。

根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一项所述的数据关联方法。

在本发明实施例中，采用获取多个字段集，其中，每个字段集包含有语义相同的多个字段数据，确定每两个字段数据在对应的字段集中的字段值，并确定每两个字段数据是否属于同一用户的权重值，根据字段值和权重值，确定每个用户的连通集合，其中，连通集合中包含的各个字段数据相互关联且都属于同一用户。在该实施例中，可以将不同数据源中同一个用户或自然个体的数据连通，各个字段数据之间的关联性提高，从多个不同数据领域的角度来识别确定各个用户或自然个体，为后续识别用户属性和/或用户行为做铺垫，从而解决相关技术中各个字段数据关联性较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种数据关联方法的流程图；

图2是根据本发明实施例的一种数据关联装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于用户理解本发明，下面对本发明各实施例中涉及的部分术语或名词做出解释：

LR，Logistic Regression，是一种逻辑回归模型，预测出的数值为连续数值。

SVM，Support Vector Machine，是一种支持向量机的监督学习模型。

NLP，Neuro-Linguistic Programming，神经语言程序学。

根据本发明实施例，提供了一种数据关联方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种数据关联方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取多个字段集，其中，每个字段集包含有语义相同的多个字段数据；

步骤S104，确定每两个字段数据在对应的字段集中的字段值，并确定每两个字段数据是否属于同一用户的权重值；

步骤S106，根据字段值和权重值，确定每个用户的连通集合，其中，连通集合中包含的各个字段数据相互关联且都属于同一用户。

通过上述步骤，可以采用获取多个字段集，其中，每个字段集包含有语义相同的多个字段数据，确定每两个字段数据在对应的字段集中的字段值，并确定每两个字段数据是否属于同一用户的权重值，根据字段值和权重值，确定每个用户的连通集合，其中，连通集合中包含的各个字段数据相互关联且都属于同一用户。在该实施例中，可以将不同数据源中同一个用户或自然个体的数据连通，且各个字段数据之间的关联性明显提高，从多个不同数据领域的角度来识别确定各个用户或自然个体，为后续识别用户属性和/或用户行为做铺垫，从而解决相关技术中各个字段数据关联性较低的技术问题。

本发明实施例针对各个自然个体的数据进行打通处理，该自然个体可以简单理解为用户。

下面对上述各步骤进行详细说明。

步骤S102，获取多个字段集，其中，每个字段集包含有语义相同的多个字段数据。

可选地，获取多个字段集的步骤，包括：提取多个数据源的字段数据，得到字段总集合；利用预设的语义数据库和/或预设的语义分辨规则，确定字段总集合中每个字段数据所属的字段集，得到多个字段集。

即可以将不同数据源中语义相同的字段定义成同义字段集，每个字段集中的各个字段是相同的。比如，在某一企业的A数据源有“Mobile”字段，B数据源中“Phone”字段，他们都属于“移动电话”这一字段集，具有相同的语义，可以进行打通处理，即确定A.Mobile的语义等于B.Phone的语义，在打通后，这两个数据源的字段确定属于同一个字段集，此时，这两个字段所代表的用户可能是同一用户。也可以理解为这两个字段所对应的自然个体是同一个自然个体的候选。

可选的，本发明实施例中对于字段集的数量和具体命名方式不做限定，例如，可生成多个字段集S1，S2，S3…Sn。

步骤S104，确定每两个字段数据在对应的字段集中的字段值，并确定每两个字段数据是否属于同一用户的权重值。

本发明实施例可以根据同义字段集在现实社会中的含义，以及各个字段所属的具体领域，通过机器学习构建模型，分别赋予不同的正权重和负权重。

在一种可选实施例中，确定每两个字段数据是否属于同一用户的权重值的步骤，包括：获取每个字段数据所在的字段集以及每个字段集所属的目标领域；根据每个字段数据所在的字段集和每个字段集所属的目标领域，构建语义学习模型；利用语义学习模型，确定每两个字段数据是否属于同一用户的权重值。

在不同领域，对每个字段是否代表一个用户(或其它自然个体)会不一样。对于多个属于不同同义字段集的字段数据，可以先抽取数据源中的字段样本，然后进行人工标注或者机器标注，之后可以通过LR，SVM等机器学习算法来构建语义学习模型，并训练该语义学习模型，以通过该语义学习模型获得不同字段的权重值。

而对于不规范的字段数据(如描述性字段或者地址字段等，在格式上无法识别)，可以通过NLP等方式进行比较匹配，通过对这些字段数据进行拆分、解析，然后进行字段匹配，以确定这些不规范的字段数据之间的权重值和字段值。

另一种可选的，权重值为正权重值或负权重值，其中，正权重值用于指示两个不同数据源的字段数据在同一个同义字段集的字段值相同，且该两个字段数据属于同一用户；负权重值用于指示两个不同数据源的字段数据在同一个同义字段集的字段值不相同，且该两个字段数据不属于同一用户。即正权重是指当两个不同数据源的两条数据记录，如果在同一个同义语义集的字段值相同，则这两条记录属于同一个用户的权重；而负权重是指当两个不同数据源的两条数据记录，如果在同一个同义语义集的字段值不同，则这两条记录不属于同一个用户的权重。

在本发明实施例中，根据字段值和权重值，确定每个用户的连通集合的步骤，包括：对字段值和权重值进行排序，得到排序结果；根据排序结果，确定每个用户的连通集合。

另一种可选的，根据排序结果，确定每个用户的连通集合的步骤，包括：确定排序结果中字段值高于预设阈值的字段数据；将字段值高于预设阈值的字段数据确定为同一用户的连通集合。

即可以通过计算多个匹配结果得分并排序，根据是否满足阙值条件(也可以通过确定是否满足是否最高分值)，判断字段之间是否属于同一个用户。

通过上述实施例，可以确定各个字段数据所属的连通集合，这样就可以通过连通集合来确定各个字段数据是否属于同一个用户(或自然个体)，打通了各个字段之间联系，提交了字段之间的关联性，有效的将不同数据源中同一个用户的数据源连通，从而可以从多个不同数据领域的角度来认识用户的属性和行为，有利于企业或组织的进一步运营。

下面通过另一个实施例来说明本发明。

图2是根据本发明实施例的一种数据关联装置的示意图，如图2所示，该装置可以包括：获取单元21，第一确定单元23，第二确定单元25，其中，

获取单元21，用于获取多个字段集，其中，每个字段集包含有语义相同的多个字段数据；

第一确定单元23，用于确定每两个字段数据在对应的字段集中的字段值，并确定每两个字段数据是否属于同一用户的权重值；

第二确定单元25，用于根据字段值和权重值，确定每个用户的连通集合，其中，连通集合中包含的各个字段数据相互关联且都属于同一用户。

上述数据关联装置，可以通过获取单元21获取多个字段集，其中，每个字段集包含有语义相同的多个字段数据，通过第一确定单元23确定每两个字段数据在对应的字段集中的字段值，并确定每两个字段数据是否属于同一用户的权重值，通过第二确定单元25根据字段值和权重值，确定每个用户的连通集合，其中，连通集合中包含的各个字段数据相互关联且都属于同一用户。在该实施例中，可以将不同数据源中同一个用户或自然个体的数据连通，从多个不同数据领域的角度来识别确定各个用户或自然个体，为后续识别用户属性和/或用户行为做铺垫，从而解决相关技术中各个字段数据关联性较低的技术问题。

进一步地，获取单元包括：第一提取模块，用于提取多个数据源的字段数据，得到字段总集合；第一确定模块，用于利用预设的语义数据库和/或预设的语义分辨规则，确定字段总集合中每个字段数据所属的字段集，得到多个字段集。

进一步地，第一确定单元包括：第一获取模块，用于获取每个字段数据所在的字段集以及每个字段集所属的目标领域；构建模块，用于根据每个字段数据所在的字段集和每个字段集所属的目标领域，构建语义学习模型；第二确定模块，用于利用语义学习模型，确定每两个字段数据是否属于同一用户的权重值。

进一步地，权重值为正权重值或负权重值，其中，正权重值用于指示两个不同数据源的字段数据在同一个同义字段集的字段值相同，且该两个字段数据属于同一用户；负权重值用于指示两个不同数据源的字段数据在同一个同义字段集的字段值不相同，且该两个字段数据不属于同一用户。

进一步地，第二确定单元包括：排序模块，用于对字段值和权重值进行排序，得到排序结果；第三确定模块，用于根据排序结果，确定每个用户的连通集合。

进一步地，第三确定模块包括：第一确定子模块，确定排序结果中字段值高于预设阈值的字段数据；第二确定子模块，确定将字段值高于预设阈值的字段数据确定为同一用户的连通集合。

上述的数据关联装置还可以包括处理器和存储器，上述获取单元21，第一确定单元23，第二确定单元25等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

上述处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数得到各个连通集合，每个连通集合各个字段数据相互关联且都属于同一用户。

上述存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述任意一项的数据关联方法。

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质用于存储程序，其中，程序在被处理器执行时控制存储介质所在设备执行上述任意一项的数据关联方法。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述任意一项的数据关联方法。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取多个字段集，其中，每个字段集包含有语义相同的多个字段数据；确定每两个字段数据在对应的字段集中的字段值，并确定每两个字段数据是否属于同一用户的权重值；根据字段值和权重值，确定每个用户的连通集合，其中，连通集合中包含的各个字段数据相互关联且都属于同一用户。

可选的，在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：提取多个数据源的字段数据，得到字段总集合；利用预设的语义数据库和/或预设的语义分辨规则，确定字段总集合中每个字段数据所属的字段集，得到多个字段集。

可选的，在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：获取每个字段数据所在的字段集以及每个字段集所属的目标领域；根据每个字段数据所在的字段集和每个字段集所属的目标领域，构建语义学习模型；利用语义学习模型，确定每两个字段数据是否属于同一用户的权重值。

可选的，权重值为正权重值或负权重值，其中，正权重值用于指示两个不同数据源的字段数据在同一个同义字段集的字段值相同，且该两个字段数据属于同一用户；负权重值用于指示两个不同数据源的字段数据在同一个同义字段集的字段值不相同，且该两个字段数据不属于同一用户。

可选的，在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：对字段值和权重值进行排序，得到排序结果；根据排序结果，确定每个用户的连通集合。

可选的，在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：确定排序结果中字段值高于预设阈值的字段数据；将字段值高于预设阈值的字段数据确定为同一用户的连通集合。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据关联方法，其特征在于，包括：

获取多个字段集，其中，每个所述字段集包含有语义相同的多个字段数据；

确定每两个所述字段数据在对应的所述字段集中的字段值，并确定每两个所述字段数据是否属于同一用户的权重值；

根据所述字段值和所述权重值，确定每个用户的连通集合，其中，所述连通集合中包含的各个字段数据相互关联且都属于同一用户。

2.根据权利要求1所述的方法，其特征在于，获取多个字段集的步骤，包括：

提取多个数据源的字段数据，得到字段总集合；

利用预设的语义数据库和/或预设的语义分辨规则，确定所述字段总集合中每个所述字段数据所属的字段集，得到所述多个字段集。

3.根据权利要求1所述的方法，其特征在于，确定每两个所述字段数据是否属于同一用户的权重值的步骤，包括：

获取每个所述字段数据所在的字段集以及每个所述字段集所属的目标领域；

根据每个所述字段数据所在的字段集和每个所述字段集所属的目标领域，构建语义学习模型；

利用所述语义学习模型，确定每两个所述字段数据是否属于同一用户的权重值。

4.根据权利要求3所述的方法，其特征在于，所述权重值为正权重值或负权重值，其中，所述正权重值用于指示两个不同数据源的所述字段数据在同一个同义字段集的字段值相同，且该两个所述字段数据属于同一用户；所述负权重值用于指示两个不同数据源的所述字段数据在同一个同义字段集的字段值不相同，且该两个所述字段数据不属于同一用户。

5.根据权利要求1所述的方法，其特征在于，根据所述字段值和所述权重值，确定每个用户的连通集合的步骤，包括：

对所述字段值和所述权重值进行排序，得到排序结果；

根据所述排序结果，确定每个用户的连通集合。

6.根据权利要求5所述的方法，其特征在于，根据所述排序结果，确定每个用户的连通集合的步骤，包括：

确定所述排序结果中字段值高于预设阈值的字段数据；

将所述字段值高于预设阈值的字段数据确定为同一用户的连通集合。

7.一种数据关联装置，其特征在于，包括：

获取单元，用于获取多个字段集，其中，每个所述字段集包含有语义相同的多个字段数据；

第一确定单元，用于确定每两个所述字段数据在对应的所述字段集中的字段值，并确定每两个所述字段数据是否属于同一用户的权重值；

第二确定单元，用于根据所述字段值和所述权重值，确定每个用户的连通集合，其中，所述连通集合中包含的各个字段数据相互关联且都属于同一用户。

8.根据权利要求7所述的装置，其特征在于，所述获取单元包括：

第一提取模块，用于提取多个数据源的字段数据，得到字段总集合；

第一确定模块，用于利用预设的语义数据库和/或预设的语义分辨规则，确定所述字段总集合中每个所述字段数据所属的字段集，得到所述多个字段集。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至6中任意一项所述的数据关联方法。

10.一种存储介质，其特征在于，所述存储介质用于存储程序，其中，所述程序在被处理器执行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述的数据关联方法。

11.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至6中任意一项所述的数据关联方法。