CN108304476A

CN108304476A - 一种基于不确定数据表的用户画像数据整合方法及系统

Info

Publication number: CN108304476A
Application number: CN201711465664.5A
Authority: CN
Inventors: 梁俊杰; 王明锋
Original assignee: Wuhan Yingfengjuzhi Technology Co ltd
Current assignee: Wuhan Yingfengjuzhi Technology Co ltd
Priority date: 2017-01-23
Filing date: 2017-12-28
Publication date: 2018-07-20
Also published as: CN106897385A

Abstract

本发明公开了一种基于不确定数据表的用户画像数据整合方法及系统，通过研究数据表的属性重要度，以及数据表间属性的相似度，建立不确定数据表的关联矩阵，然后根据关联矩阵选择关联度大的数据表在关联属性上进行连接合并得到相似记录数据集，经过多轮连接合并操作直至将所有的原始不确定数据表进行充分连接合并，从而实现对不确定数据对象进行全面准确描述的目标。解决了数据项含义不明确、数据对象不明确的不确定数据难以连接合并，从而无法得到数据描述对象的全息影像，造成数据难以理解和使用的问题。

Description

一种基于不确定数据表的用户画像数据整合方法及系统

技术领域

本发明涉及大数据技术领域，尤其是涉及一种基于不确定数据表的用户画像数据整合方法及系统。

背景技术

随着互联网技术的蓬勃发展，我们已经进入了大数据时代，要从海量的数据中提取出有价值的信息变得更加复杂。在网络中存在许多看似相互独立的数据，实际上他们都是对同一类对象从不同方面的描述，例如同一个人或同一件商品在不同的网站，由于网站关注的角度不同，其存储的关于人或商品对象的属性信息也不完全相同。如果能够找到一种方法，整合多个不同来源且数据项含义不明确、数据对象不明确的数据，得到数据描述对象的详细信息，则对人们了解对象全貌有很大的帮助。

其中，不确定数据连接合并算法本质是在数据项含义不明确的数据表间找出关联记录，并将关联记录进行连接合并。对于多个不同来源且数据项含义不明确、数据对象不明确的数据表，要将各表中表示同一对象的记录合并在一起得到对象的全息影像，需要解决两个主要问题，首先如何确定数据表的连接合并顺序，避免可以进行合并的记录被遗漏；其次如何降低大数据应用场景下，表关联操作的计算复杂性问题，对于两个不确定数据表如果直接进行连接匹配计算量非常大，如两个维度分别为m维和n维的数据表，进行连接合并时需要进行m*n次属性值相似匹配。

发明内容

本发明的目的在于克服上述技术不足，提出一种基于不确定数据表的用户画像数据整合方法及系统，解决现有技术中的上述技术问题。

为达到上述技术目的，本发明的技术方案提供一种基于不确定数据表的用户画像数据整合方法，包括：

S1、获取数据对象不明确、数据项含义不明确的若干数据表；

S2、定义属性重要度，属性重要度用以标识数据表中的属性对该数据表中的数据对象的区分度，计算各数据表的所有属性的属性重要度；

S3、计算各数据表之间的属性的属性相似度，当两个属性的属性相似度大于预设阈值，两个属性互为关联属性；

S4、根据各数据表之间的关联属性的属性重要度，计算各数据表之间的数据表关联度；

S5、将各数据表的数据表关联度从大到小排列，根据数据表关联度大小将数据表进行多轮合并直到所有数据表合并形成一张合并表，合并表包含多个数据对象的用户画像数据，用户画像数据包含S1获取的若干数据表中同一数据对象的所有数据。

本发明还提供一种基于不确定数据表的用户画像数据整合系统，包括：

数据表获取模块：获取数据对象不明确、数据项含义不明确的若干数据表；

属性重要度计算模块：定义属性重要度，属性重要度用以标识数据表中的属性对该数据表中的数据对象的区分度，计算各数据表的所有属性的属性重要度；

属性相似度计算模块：计算各数据表之间的属性的属性相似度，当两个属性的属性相似度大于预设阈值，两个属性互为关联属性；

数据表关联度计算模块：根据各数据表之间的关联属性的属性重要度，计算各数据表之间的数据表关联度；

数据表合并模块：将各数据表的数据表关联度从大到小排列，根据数据表关联度大小将数据表进行多轮合并直到所有数据表合并形成一张合并表，合并表包含多个数据对象的用户画像数据，用户画像数据包含数据表获取模块获取的若干数据表中同一数据对象的所有数据。

与现有技术相比，本发明的有益效果包括：本发明通过研究数据表的属性重要度，以及数据表间属性的相似度，建立不确定数据表的关联矩阵，然后根据关联矩阵选择关联度大的数据表在关联属性上进行连接合并得到相似记录数据集，经过多轮连接合并操作直至将所有的原始不确定数据表进行充分连接合并，从而实现对不确定数据对象进行全面准确描述的目标。解决了数据项含义不明确、数据对象不明确的不确定数据难以连接合并，从而无法得到数据描述对象的全息影像，造成数据难以理解和使用的问题。

附图说明

图1是本发明提供的一种基于不确定数据表的用户画像数据整合方法流程图；

图2是本发明提供的一种基于不确定数据表的用户画像数据整合系统结构框图；

图3为实施例中五个数据表示意图；

图4为数据表T₂₄、T₁₃的示意图；

图5为数据表T₁₃₂₄的示意图；

图6为数据表T₁₃₂₄₅的示意图。

附图中：1、基于不确定数据表的用户画像数据整合系统，11、数据表获取模块，12、属性重要度计算模块，13、属性相似度计算模块，14、数据表关联度计算模块，15、数据表合并模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供了一种基于不确定数据表的用户画像数据整合方法，包括：

上述技术方案中，步骤S5之后还可以进行步骤S6：训练分类器，利用分类器自动识别并标识合并表的各数据项含义。识别并标识合并表的各数据项含义，有利于形成合并表后对合并表数据的进一步分析、利用、处理，例如进行数据清洗、数据校验、数据分析、数据图形化展示。

本发明所述的基于不确定数据表的用户画像数据整合方法，步骤S1中：可通过爬虫获取数据表。

本发明所述的基于不确定数据表的用户画像数据整合方法，步骤S2中属性重要度的计算方法：

数据表中的不同数据项对区分对象的重要度不同，计算不确定数据表的属性重要度，在进行连接合并时判断记录相似度考虑记录中各个属性的重要度，可以提高连接合并的准确性；

对于数据表T＝{P₁,P₂,...,P_n}，P_i的取值为统计P_i中每个不同属性值的出现次数为如表1所示，

表1属性P_i的取值分布

由于同一数据表中存在同一数据对象的概率很小，因此在大数据表中可以认为每一条记录代表一个不同的数据对象，基于该假设，和相等的概率为由于可得则属性P_i的初步属性重要度为对初步属性重要度进行平滑处理和归一化处理后得到属性重要度W_pmax表示数据表T所有初步属性重要度的最大值；

对所有的n个数据表进行同样的处理，得到n个表的属性重要度统计结果如表2所示：

表2属性重要度统计

本发明所述的基于不确定数据表的用户画像数据整合方法，步骤S3中计算属性相似度的方法：

对于不同来源且数据项含义不明确、数据对象不明确的数据表，要连接合并表中表示同一对象的记录。如果直接在两个表之间进行连接匹配，计算量非常大。若两表维度分别为m维和n维，两表记录之间需要进行m*n次属性值相似匹配。因此为减少计算量，采用的策略是先在数据表之间找出关联属性，然后只需在关联属性上去判断各记录是否为同一对象，这样记录之间的连接匹配计算将大大减少，可以极大提高数据表的连接合并效率；是否是关联属性根据属性相似度来判断，当两个属性的属性相似度大于预设阈值，两个属性互为关联属性；

表T_i在A属性上取值集合为PV_ia，表T_j在B属性上取值集合为PV_jb，则A、B属性的属性相似度为取值集合PV_ia、PV_jb的杰卡德相似系数，取值集合PV_ia、PV_jb的杰卡德相似系数为PV_ia、PV_jb的交集元素在PV_ia、PV_jb的并集中所占的比例，属性相似度SP(PV_ia,PV_jb)＝|PV_ia∩PV_jb|/|PV_ia∪PV_jb|；SP(PV_ia,PV_jb)取值范围为[0,1]，当两个属性越相似，该值越接近1；反之，接近0。因此可以认为当SP(PV_ia,PV_jb)＞CP时，CP为相似度阈值，P_ia和P_jb即为关联属性，记为J(P_jb,P_jb)。

本发明所述的基于不确定数据表的用户画像数据整合方法，步骤S4中数据表关联度的计算方法为：

表T_i与表T_j的关联度为其中t为表T_j和表T_j关联属性对数,P_ia、P_jb为表T_i与表T_j之间的关联属性，为属性P_ia在表T_i的属性重要度，为属性P_jb在表T_j的属性重要度，表示关联属性P_ia、P_jb在T_i和T_j的属性重要度的平均值。

本发明的技术方案中，在得到n个不确定数据表的两两之间的关联属性以及数据表的关联度后，建立如下数据表的关联矩阵T_nn：

其中：C_ij(i,j∈{1,...,n}且i＜j)表示集合。J(P_ia,P_jb)表示关联属性P_ia和P_jb，

本发明所述的基于不确定数据表的用户画像数据整合方法，步骤S5中多轮合并数据表：

根据关联矩阵M_nn，连接合并数据表，按表之间的关联度S_ij从大到小进行排序，依次选择关联度大且未进行连接合并的两个数据表进行连接合并，直到强关联度的数据表都进行连接合并，更新合并后各数据表表的关联矩阵，根据新的关联矩阵，再次进行连接合并，直到最终所有表连接合并为一张表；

数据表连接合并过程具体如下：

(一)按数据表之间的关联度S_ij从大到小排序，依次取关联度最大且未进行连接合并的两个表T_i和T_j进行连接合并，合并两表中的关联记录过程如步骤(二)；

(二)对于记录r_i{p_i1,p_i2,...,p_ia,...,p_im}∈T_i和记录r_j{p_j1,p_j2,...,p_jb,...,p_jn}∈T_j，计算r_i和r_j的记录相似度其中t为T_i和T_j之间关联属性的对数量，SP(p_ia,p_jb)＝1-d(p_ia,p_jb)/n为关联属性值p_1i和p_2j的属性值相似度，d(p_ia,p_jb)为关联属性值p_1i和p_2j的编辑距离，n为p_1i和p_2j中较长字符串的长度，为关联属性值p_1i和p_2j在T_i和T_j的属性重要度的平均值，若SR(r_i,r_j)＞CR，CR为预设的阈值，则r_i和r_j为关联记录。将所有的关联记录进行合并。

(三)若所有表均参与连接合并，或者剩余一张表，则第一轮连接合并结束。若第一轮有m对数据表参与连接合并，则一轮合并之后还有(n-m)个表。根据之前的关联矩阵T_nn，重新构建这(n-m)个表的关联矩阵T_(n-m)(n-m)；

(四)根据重构的关联矩阵，重复以上三步操作，直到最终所有数据表合并为一张表，则整个连接合并完成得到最终的连接合并结果集。

本发明提供的基于不确定数据表的用户画像数据整合方法的具体实施例如下：

要将如附图3中的五个数据表中为同一对象的记录合并在一起，得到对象的详细信息(用户画像数据)，具体步骤如下：

步骤一：计算五个表的属性重要度，得到各个表属性重要度计算结果如下表3所示：

表3属性重要度计算示例

步骤二：确定关联矩阵

(一)计算五个表之间属性相似度，T₁与T₂属性相似度计算结果如下表4所示(行代表T₁，列代表T₂)，实际应用中为减少计算量，属性重要度差距较大的属性可以认为它们不可能具有相同的含义(如T₁中的属性P₁₁和T₂中的属性P₂₃)，因此不考虑它们的相似度。若两属性的属性重要度差距较小，则计算这两个属性值集合的相似度。

表4属性相似度计算示例

SP(PV_i,PV_j)	(P₁₁,1)	(P₁₂,1)	(P₁₃,0.38)	(P₁₄,0.53)
					(P₂₁,1)	0	0.25	不考虑	不考虑
(P₂₂,1)	0	0	不考虑	不考虑
					(P₂₃,0.38)	不考虑	不考虑	0	0
(P₂₄,0.53)	不考虑	不考虑	0	0
					(P₂₅,0.67)	0	0	0	0

通过计算结果，可以看出表T₁和T₂的关联属性为J(P₁₁,P₂₂)。同理可得五个表的关联属性如下表5所示：

表5关联属性计算示例

表	T₁	T₂	T₃	T₄	T₅
						T₁	J(P₁₁,P₂₂)	J(P₁₁,P₃₂)J(P₁₂,P₃₁)	J(P₁₂,P₄₂)J(P₁₄,P₄₁)	J(P₁₂,P₅₁)
T₂			J(P₂₁,P₃₁)J(P₂₅,P₃₃)	J(P₂₁,P₄₂)J(P₂₂,P₄₃)J(P₂₃,P₄₄)	J(P₂₁,P₅₂)J(P₂₅,P₅₃)
						T₃			J(P₃₁,P₄₂)	J(P₃₁,P₅₂)J(P₃₃,P₅₃)
T₄					J(P₄₂,P₅₂)
						T₅

(二)计算五个表之间的关联度，并构建五个表的关联矩阵，表T₁、T₂、T₃、T₄、T₅的关联矩阵为：

步骤三：进行连接合并操作

(一)第一轮连接合并

根据五个表的关联矩阵M₅₅，将表关联度从大到小进行排序：

(S₂₄＝2.38)＞(S₁₃＝2)＞(S₂₃＝1.67)＝(S₂₅＝1.67)＝(S₃₅＝1.67)＞(S₁₄＝1.53)＞(S₁₂＝1)＝(S₃₄＝1)＝(S₄₅＝1)＞(S₁₅＝0.53)

1.根据排序结果，对T₂和T₄、表T₁和T₃中所有关联记录进行合并，得到连接合并结果集分别为T₂₄、T₁₃。如附图4所示。

2.根据关联矩阵M₅₅，重新构建T₁₃、T₂₄、T₅三个数据表的关联矩阵M₃₃。

(二)第二轮连接合并

根据关联矩阵M₃₃，按照表关联度进行排序(S_13,24＝2.20)＞(S_13,5＝1.67)＝(S_24,5＝1.67)。再次将表T₁₃和T₂₄进行连接合并。得到连合并结果表T₁₃₂₄如附图5所示。

第二次连接完成后，剩下表T₁₃₂₄和T₅，根据关联矩阵M₃₃，生成新的关联矩阵M₂₂。

T₃₃＝[({(P₁₃₂₄,₂,P_5,2,1),(P_1324,5,P_5,3,0.67)},1.67)]

(三)第三轮连接合并

根据关联矩阵M₂₂，再次将表T₁₃₂₄和T₅进行连接合并，得到最终的结果表T₁₃₂₄₅如附图6所示。

根据以上过程，原始的5张表合并为一张表。在这一张表中，对象数据得到全面性和准确性展示。

本发明还提供一种基于不确定数据表的用户画像数据整合系统1，包括：

数据表获取模块11：获取数据对象不明确、数据项含义不明确的若干数据表；

属性重要度计算模块12：定义属性重要度，属性重要度用以标识数据表中的属性对该数据表中的数据对象的区分度，计算各数据表的所有属性的属性重要度；

属性相似度计算模块13：计算各数据表之间的属性的属性相似度，当两个属性的属性相似度大于预设阈值，两个属性互为关联属性；

数据表关联度计算模块14：根据各数据表之间的关联属性的属性重要度，计算各数据表之间的数据表关联度；

数据表合并模块15：将各数据表的数据表关联度从大到小排列，根据数据表关联度大小将数据表进行多轮合并直到所有数据表合并形成一张合并表，合并表包含多个数据对象的用户画像数据，用户画像数据包含数据表获取模块获取的若干数据表中同一数据对象的所有数据。

本发明所述的基于不确定数据表的用户画像数据整合系统1，属性重要度计算模块12中：

对于数据表T＝{P₁,P₂,...,P_n}，P_i的取值为统计P_i中每个不同属性值的出现次数为假设数据表中每一条记录代表一个不同的数据对象，基于该假设，和相等的概率为由于可得则属性P_i的初步属性重要度为对初步属性重要度进行平滑处理和归一化处理后得到属性重要度W_pmax表示数据表T所有初步属性重要度的最大值。

本发明所述的基于不确定数据表的用户画像数据整合系统1，属性相似度计算模块13中：

表T_i在A属性上取值集合为PV_ia，表T_j在B属性上取值集合为PV_jb，则A、B属性的属性相似度为取值集合PV_ia、PV_jb的杰卡德相似系数，取值集合PV_ia、PV_jb的杰卡德相似系数为PV_ia、PV_jb的交集元素在PV_ia、PV_jb的并集中所占的比例，属性相似度SP(PV_ia,PV_jb)＝|PV_ia∩PV_jb|/|PV_ia∪PV_jb|。

本发明所述的基于不确定数据表的用户画像数据整合系统1，数据表关联度计算模块14中：

本发明所述的基于不确定数据表的用户画像数据整合系统1，数据表合并模块15中：

确定数据表T_i和数据表T_j之间所有的关联记录，并将所有的关联记录进行合并；

对于记录r_i{p_i1,p_i2,...,p_ia,...,p_im}∈T_i和记录r_j{p_j1,p_j2,...,p_jb,...,p_jn}∈T_j，计算r_i和r_j的记录相似度其中t为T_i和T_j之间关联属性的对数量，SP(p_ia,p_jb)＝1-d(p_ia,p_jb)/n为关联属性值p_1i和p_2j的属性值相似度，d(p_ia,p_jb)为关联属性值p_1i和p_2j的编辑距离，n为p_1i和p_2j中较长字符串的长度，为关联属性值p_1i和p_2j在T_i和T_j的属性重要度的平均值，若SR(r_i,r_j)＞CR，CR为预设的阈值，则r_i和r_j为关联记录。

以上所述本发明的具体实施方式，并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形，均应包含在本发明权利要求的保护范围内。

Claims

1.一种基于不确定数据表的用户画像数据整合方法，其特征在于，包括：

S2、定义属性重要度，所述属性重要度用以标识数据表中的属性对该数据表中的数据对象的区分度，计算各数据表的所有属性的所述属性重要度；

S3、计算各数据表之间的属性的属性相似度，当两个属性的所述属性相似度大于预设阈值，两个属性互为关联属性；

S4、根据各数据表之间的关联属性的属性重要度，计算各数据表之间的所述数据表关联度；

S5、将各数据表的所述数据表关联度从大到小排列，根据数据表关联度大小将数据表进行多轮合并直到所有数据表合并形成一张合并表，合并表包含多个数据对象的用户画像数据，用户画像数据包含S1获取的若干数据表中同一数据对象的所有数据。

2.如权利要求1所述的基于不确定数据表的用户画像数据整合方法，其特征在于，步骤S2中属性重要度的计算方法为：

3.如权利要求1所述的基于不确定数据表的用户画像数据整合方法，其特征在于，步骤S3中计算所述属性相似度的方法为：

4.如权利要求1所述的基于不确定数据表的用户画像数据整合方法，其特征在于，步骤S4中所述数据表关联度的计算方法为：

5.如权利要求1所述的基于不确定数据表的用户画像数据整合方法，其特征在于，步骤S5中合并数据表T_i和数据表T_j的步骤为：

确定数据表T_i和数据表T_j之间所有的关联记录，并将所有的所述关联记录进行合并；对于记录r_i{p_i1,p_i2,...,p_ia,...,p_im}∈T_i和记录r_j{p_j1,p_j2,...,p_jb,...,p_jn}∈T_j，计算r_i和r_j的记录相似度其中t为T_i和T_j之间关联属性的对数量，SP(p_ia,p_jb)＝1-d(p_ia,p_jb)/n为关联属性值p_1i和p_2j的属性值相似度，d(p_ia,p_jb)为关联属性值p_1i和p_2j的编辑距离，n为p_1i和p_2j中较长字符串的长度，为关联属性值p_1i和p_2j在T_i和T_j的属性重要度的平均值，若SR(r_i,r_j)＞CR，CR为预设的阈值，则r_i和r_j为关联记录。

6.一种基于不确定数据表的用户画像数据整合系统，其特征在于，包括：

属性重要度计算模块：定义属性重要度，所述属性重要度用以标识数据表中的属性对该数据表中的数据对象的区分度，计算各数据表的所有属性的所述属性重要度；

属性相似度计算模块：计算各数据表之间的属性的属性相似度，当两个属性的所述属性相似度大于预设阈值，两个属性互为关联属性；

数据表合并模块：将各数据表的所述数据表关联度从大到小排列，根据数据表关联度大小将数据表进行多轮合并直到所有数据表合并形成一张合并表，合并表包含多个数据对象的用户画像数据，用户画像数据包含数据表获取模块获取的若干数据表中同一数据对象的所有数据。

7.如权利要求6所述的基于不确定数据表的用户画像数据整合系统，其特征在于，属性重要度计算模块中：

8.如权利要求6所述的基于不确定数据表的用户画像数据整合系统，其特征在于，属性相似度计算模块中：

9.如权利要求6所述的基于不确定数据表的用户画像数据整合系统，其特征在于，数据表关联度计算模块中：

10.如权利要求6所述的基于不确定数据表的用户画像数据整合系统，其特征在于，数据表合并模块中：