CN108304476A - 一种基于不确定数据表的用户画像数据整合方法及系统 - Google Patents
一种基于不确定数据表的用户画像数据整合方法及系统 Download PDFInfo
- Publication number
- CN108304476A CN108304476A CN201711465664.5A CN201711465664A CN108304476A CN 108304476 A CN108304476 A CN 108304476A CN 201711465664 A CN201711465664 A CN 201711465664A CN 108304476 A CN108304476 A CN 108304476A
- Authority
- CN
- China
- Prior art keywords
- data
- attribute
- tables
- value
- significance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24558—Binary matching operations
- G06F16/2456—Join operations
Abstract
本发明公开了一种基于不确定数据表的用户画像数据整合方法及系统,通过研究数据表的属性重要度,以及数据表间属性的相似度,建立不确定数据表的关联矩阵,然后根据关联矩阵选择关联度大的数据表在关联属性上进行连接合并得到相似记录数据集,经过多轮连接合并操作直至将所有的原始不确定数据表进行充分连接合并,从而实现对不确定数据对象进行全面准确描述的目标。解决了数据项含义不明确、数据对象不明确的不确定数据难以连接合并,从而无法得到数据描述对象的全息影像,造成数据难以理解和使用的问题。
Description
技术领域
本发明涉及大数据技术领域,尤其是涉及一种基于不确定数据表的用户画像数据整合方法及系统。
背景技术
随着互联网技术的蓬勃发展,我们已经进入了大数据时代,要从海量的数据中提取出有价值的信息变得更加复杂。在网络中存在许多看似相互独立的数据,实际上他们都是对同一类对象从不同方面的描述,例如同一个人或同一件商品在不同的网站,由于网站关注的角度不同,其存储的关于人或商品对象的属性信息也不完全相同。如果能够找到一种方法,整合多个不同来源且数据项含义不明确、数据对象不明确的数据,得到数据描述对象的详细信息,则对人们了解对象全貌有很大的帮助。
其中,不确定数据连接合并算法本质是在数据项含义不明确的数据表间找出关联记录,并将关联记录进行连接合并。对于多个不同来源且数据项含义不明确、数据对象不明确的数据表,要将各表中表示同一对象的记录合并在一起得到对象的全息影像,需要解决两个主要问题,首先如何确定数据表的连接合并顺序,避免可以进行合并的记录被遗漏;其次如何降低大数据应用场景下,表关联操作的计算复杂性问题,对于两个不确定数据表如果直接进行连接匹配计算量非常大,如两个维度分别为m维和n维的数据表,进行连接合并时需要进行m*n次属性值相似匹配。
发明内容
本发明的目的在于克服上述技术不足,提出一种基于不确定数据表的用户画像数据整合方法及系统,解决现有技术中的上述技术问题。
为达到上述技术目的,本发明的技术方案提供一种基于不确定数据表的用户画像数据整合方法,包括:
S1、获取数据对象不明确、数据项含义不明确的若干数据表;
S2、定义属性重要度,属性重要度用以标识数据表中的属性对该数据表中的数据对象的区分度,计算各数据表的所有属性的属性重要度;
S3、计算各数据表之间的属性的属性相似度,当两个属性的属性相似度大于预设阈值,两个属性互为关联属性;
S4、根据各数据表之间的关联属性的属性重要度,计算各数据表之间的数据表关联度;
S5、将各数据表的数据表关联度从大到小排列,根据数据表关联度大小将数据表进行多轮合并直到所有数据表合并形成一张合并表,合并表包含多个数据对象的用户画像数据,用户画像数据包含S1获取的若干数据表中同一数据对象的所有数据。
本发明还提供一种基于不确定数据表的用户画像数据整合系统,包括:
数据表获取模块:获取数据对象不明确、数据项含义不明确的若干数据表;
属性重要度计算模块:定义属性重要度,属性重要度用以标识数据表中的属性对该数据表中的数据对象的区分度,计算各数据表的所有属性的属性重要度;
属性相似度计算模块:计算各数据表之间的属性的属性相似度,当两个属性的属性相似度大于预设阈值,两个属性互为关联属性;
数据表关联度计算模块:根据各数据表之间的关联属性的属性重要度,计算各数据表之间的数据表关联度;
数据表合并模块:将各数据表的数据表关联度从大到小排列,根据数据表关联度大小将数据表进行多轮合并直到所有数据表合并形成一张合并表,合并表包含多个数据对象的用户画像数据,用户画像数据包含数据表获取模块获取的若干数据表中同一数据对象的所有数据。
与现有技术相比,本发明的有益效果包括:本发明通过研究数据表的属性重要度,以及数据表间属性的相似度,建立不确定数据表的关联矩阵,然后根据关联矩阵选择关联度大的数据表在关联属性上进行连接合并得到相似记录数据集,经过多轮连接合并操作直至将所有的原始不确定数据表进行充分连接合并,从而实现对不确定数据对象进行全面准确描述的目标。解决了数据项含义不明确、数据对象不明确的不确定数据难以连接合并,从而无法得到数据描述对象的全息影像,造成数据难以理解和使用的问题。
附图说明
图1是本发明提供的一种基于不确定数据表的用户画像数据整合方法流程图;
图2是本发明提供的一种基于不确定数据表的用户画像数据整合系统结构框图;
图3为实施例中五个数据表示意图;
图4为数据表T24、T13的示意图;
图5为数据表T1324的示意图;
图6为数据表T13245的示意图。
附图中:1、基于不确定数据表的用户画像数据整合系统,11、数据表获取模块,12、属性重要度计算模块,13、属性相似度计算模块,14、数据表关联度计算模块,15、数据表合并模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供了一种基于不确定数据表的用户画像数据整合方法,包括:
S1、获取数据对象不明确、数据项含义不明确的若干数据表;
S2、定义属性重要度,属性重要度用以标识数据表中的属性对该数据表中的数据对象的区分度,计算各数据表的所有属性的属性重要度;
S3、计算各数据表之间的属性的属性相似度,当两个属性的属性相似度大于预设阈值,两个属性互为关联属性;
S4、根据各数据表之间的关联属性的属性重要度,计算各数据表之间的数据表关联度;
S5、将各数据表的数据表关联度从大到小排列,根据数据表关联度大小将数据表进行多轮合并直到所有数据表合并形成一张合并表,合并表包含多个数据对象的用户画像数据,用户画像数据包含S1获取的若干数据表中同一数据对象的所有数据。
上述技术方案中,步骤S5之后还可以进行步骤S6:训练分类器,利用分类器自动识别并标识合并表的各数据项含义。识别并标识合并表的各数据项含义,有利于形成合并表后对合并表数据的进一步分析、利用、处理,例如进行数据清洗、数据校验、数据分析、数据图形化展示。
本发明所述的基于不确定数据表的用户画像数据整合方法,步骤S1中:可通过爬虫获取数据表。
本发明所述的基于不确定数据表的用户画像数据整合方法,步骤S2中属性重要度的计算方法:
数据表中的不同数据项对区分对象的重要度不同,计算不确定数据表的属性重要度,在进行连接合并时判断记录相似度考虑记录中各个属性的重要度,可以提高连接合并的准确性;
对于数据表T={P1,P2,...,Pn},Pi的取值为统计Pi中每个不同属性值的出现次数为如表1所示,
表1属性Pi的取值分布
由于同一数据表中存在同一数据对象的概率很小,因此在大数据表中可以认为每一条记录代表一个不同的数据对象,基于该假设,和相等的概率为由于可得则属性Pi的初步属性重要度为对初步属性重要度进行平滑处理和归一化处理后得到属性重要度Wpmax表示数据表T所有初步属性重要度的最大值;
对所有的n个数据表进行同样的处理,得到n个表的属性重要度统计结果如表2所示:
表2属性重要度统计
本发明所述的基于不确定数据表的用户画像数据整合方法,步骤S3中计算属性相似度的方法:
对于不同来源且数据项含义不明确、数据对象不明确的数据表,要连接合并表中表示同一对象的记录。如果直接在两个表之间进行连接匹配,计算量非常大。若两表维度分别为m维和n维,两表记录之间需要进行m*n次属性值相似匹配。因此为减少计算量,采用的策略是先在数据表之间找出关联属性,然后只需在关联属性上去判断各记录是否为同一对象,这样记录之间的连接匹配计算将大大减少,可以极大提高数据表的连接合并效率;是否是关联属性根据属性相似度来判断,当两个属性的属性相似度大于预设阈值,两个属性互为关联属性;
表Ti在A属性上取值集合为PVia,表Tj在B属性上取值集合为PVjb,则A、B属性的属性相似度为取值集合PVia、PVjb的杰卡德相似系数,取值集合PVia、PVjb的杰卡德相似系数为PVia、PVjb的交集元素在PVia、PVjb的并集中所占的比例,属性相似度SP(PVia,PVjb)=|PVia∩PVjb|/|PVia∪PVjb|;SP(PVia,PVjb)取值范围为[0,1],当两个属性越相似,该值越接近1;反之,接近0。因此可以认为当SP(PVia,PVjb)>CP时,CP为相似度阈值,Pia和Pjb即为关联属性,记为J(Pjb,Pjb)。
本发明所述的基于不确定数据表的用户画像数据整合方法,步骤S4中数据表关联度的计算方法为:
表Ti与表Tj的关联度为其中t为表Tj和表Tj关联属性对数,Pia、Pjb为表Ti与表Tj之间的关联属性, 为属性Pia在表Ti的属性重要度,为属性Pjb在表Tj的属性重要度,表示关联属性Pia、Pjb在Ti和Tj的属性重要度的平均值。
本发明的技术方案中,在得到n个不确定数据表的两两之间的关联属性以及数据表的关联度后,建立如下数据表的关联矩阵Tnn:
其中:Cij(i,j∈{1,...,n}且i<j)表示集合。J(Pia,Pjb)表示关联属性Pia和Pjb,
本发明所述的基于不确定数据表的用户画像数据整合方法,步骤S5中多轮合并数据表:
根据关联矩阵Mnn,连接合并数据表,按表之间的关联度Sij从大到小进行排序,依次选择关联度大且未进行连接合并的两个数据表进行连接合并,直到强关联度的数据表都进行连接合并,更新合并后各数据表表的关联矩阵,根据新的关联矩阵,再次进行连接合并,直到最终所有表连接合并为一张表;
数据表连接合并过程具体如下:
(一)按数据表之间的关联度Sij从大到小排序,依次取关联度最大且未进行连接合并的两个表Ti和Tj进行连接合并,合并两表中的关联记录过程如步骤(二);
(二)对于记录ri{pi1,pi2,...,pia,...,pim}∈Ti和记录rj{pj1,pj2,...,pjb,...,pjn}∈Tj,计算ri和rj的记录相似度其中t为Ti和Tj之间关联属性的对数量,SP(pia,pjb)=1-d(pia,pjb)/n为关联属性值p1i和p2j的属性值相似度,d(pia,pjb)为关联属性值p1i和p2j的编辑距离,n为p1i和p2j中较长字符串的长度,为关联属性值p1i和p2j在Ti和Tj的属性重要度的平均值,若SR(ri,rj)>CR,CR为预设的阈值,则ri和rj为关联记录。将所有的关联记录进行合并。
(三)若所有表均参与连接合并,或者剩余一张表,则第一轮连接合并结束。若第一轮有m对数据表参与连接合并,则一轮合并之后还有(n-m)个表。根据之前的关联矩阵Tnn,重新构建这(n-m)个表的关联矩阵T(n-m)(n-m);
(四)根据重构的关联矩阵,重复以上三步操作,直到最终所有数据表合并为一张表,则整个连接合并完成得到最终的连接合并结果集。
本发明提供的基于不确定数据表的用户画像数据整合方法的具体实施例如下:
要将如附图3中的五个数据表中为同一对象的记录合并在一起,得到对象的详细信息(用户画像数据),具体步骤如下:
步骤一:计算五个表的属性重要度,得到各个表属性重要度计算结果如下表3所示:
表3属性重要度计算示例
步骤二:确定关联矩阵
(一)计算五个表之间属性相似度,T1与T2属性相似度计算结果如下表4所示(行代表T1,列代表T2),实际应用中为减少计算量,属性重要度差距较大的属性可以认为它们不可能具有相同的含义(如T1中的属性P11和T2中的属性P23),因此不考虑它们的相似度。若两属性的属性重要度差距较小,则计算这两个属性值集合的相似度。
表4属性相似度计算示例
SP(PVi,PVj) | (P11,1) | (P12,1) | (P13,0.38) | (P14,0.53) |
(P21,1) | 0 | 0.25 | 不考虑 | 不考虑 |
(P22,1) | 0 | 0 | 不考虑 | 不考虑 |
(P23,0.38) | 不考虑 | 不考虑 | 0 | 0 |
(P24,0.53) | 不考虑 | 不考虑 | 0 | 0 |
(P25,0.67) | 0 | 0 | 0 | 0 |
通过计算结果,可以看出表T1和T2的关联属性为J(P11,P22)。同理可得五个表的关联属性如下表5所示:
表5关联属性计算示例
表 | T1 | T2 | T3 | T4 | T5 |
T1 | J(P11,P22) | J(P11,P32)J(P12,P31) | J(P12,P42)J(P14,P41) | J(P12,P51) | |
T2 | J(P21,P31)J(P25,P33) | J(P21,P42)J(P22,P43)J(P23,P44) | J(P21,P52)J(P25,P53) | ||
T3 | J(P31,P42) | J(P31,P52)J(P33,P53) | |||
T4 | J(P42,P52) | ||||
T5 |
(二)计算五个表之间的关联度,并构建五个表的关联矩阵,表T1、T2、T3、T4、T5的关联矩阵为:
步骤三:进行连接合并操作
(一)第一轮连接合并
根据五个表的关联矩阵M55,将表关联度从大到小进行排序:
(S24=2.38)>(S13=2)>(S23=1.67)=(S25=1.67)=(S35=1.67)>(S14=1.53)>(S12=1)=(S34=1)=(S45=1)>(S15=0.53)
1.根据排序结果,对T2和T4、表T1和T3中所有关联记录进行合并,得到连接合并结果集分别为T24、T13。如附图4所示。
2.根据关联矩阵M55,重新构建T13、T24、T5三个数据表的关联矩阵M33。
(二)第二轮连接合并
根据关联矩阵M33,按照表关联度进行排序(S13,24=2.20)>(S13,5=1.67)=(S24,5=1.67)。再次将表T13和T24进行连接合并。得到连合并结果表T1324如附图5所示。
第二次连接完成后,剩下表T1324和T5,根据关联矩阵M33,生成新的关联矩阵M22。
T33=[({(P1324,2,P5,2,1),(P1324,5,P5,3,0.67)},1.67)]
(三)第三轮连接合并
根据关联矩阵M22,再次将表T1324和T5进行连接合并,得到最终的结果表T13245如附图6所示。
根据以上过程,原始的5张表合并为一张表。在这一张表中,对象数据得到全面性和准确性展示。
本发明还提供一种基于不确定数据表的用户画像数据整合系统1,包括:
数据表获取模块11:获取数据对象不明确、数据项含义不明确的若干数据表;
属性重要度计算模块12:定义属性重要度,属性重要度用以标识数据表中的属性对该数据表中的数据对象的区分度,计算各数据表的所有属性的属性重要度;
属性相似度计算模块13:计算各数据表之间的属性的属性相似度,当两个属性的属性相似度大于预设阈值,两个属性互为关联属性;
数据表关联度计算模块14:根据各数据表之间的关联属性的属性重要度,计算各数据表之间的数据表关联度;
数据表合并模块15:将各数据表的数据表关联度从大到小排列,根据数据表关联度大小将数据表进行多轮合并直到所有数据表合并形成一张合并表,合并表包含多个数据对象的用户画像数据,用户画像数据包含数据表获取模块获取的若干数据表中同一数据对象的所有数据。
本发明所述的基于不确定数据表的用户画像数据整合系统1,属性重要度计算模块12中:
对于数据表T={P1,P2,...,Pn},Pi的取值为统计Pi中每个不同属性值的出现次数为假设数据表中每一条记录代表一个不同的数据对象,基于该假设, 和相等的概率为由于可得则属性Pi的初步属性重要度为对初步属性重要度进行平滑处理和归一化处理后得到属性重要度Wpmax表示数据表T所有初步属性重要度的最大值。
本发明所述的基于不确定数据表的用户画像数据整合系统1,属性相似度计算模块13中:
表Ti在A属性上取值集合为PVia,表Tj在B属性上取值集合为PVjb,则A、B属性的属性相似度为取值集合PVia、PVjb的杰卡德相似系数,取值集合PVia、PVjb的杰卡德相似系数为PVia、PVjb的交集元素在PVia、PVjb的并集中所占的比例,属性相似度SP(PVia,PVjb)=|PVia∩PVjb|/|PVia∪PVjb|。
本发明所述的基于不确定数据表的用户画像数据整合系统1,数据表关联度计算模块14中:
表Ti与表Tj的关联度为其中t为表Tj和表Tj关联属性对数,Pia、Pjb为表Ti与表Tj之间的关联属性, 为属性Pia在表Ti的属性重要度,为属性Pjb在表Tj的属性重要度,表示关联属性Pia、Pjb在Ti和Tj的属性重要度的平均值。
本发明所述的基于不确定数据表的用户画像数据整合系统1,数据表合并模块15中:
确定数据表Ti和数据表Tj之间所有的关联记录,并将所有的关联记录进行合并;
对于记录ri{pi1,pi2,...,pia,...,pim}∈Ti和记录rj{pj1,pj2,...,pjb,...,pjn}∈Tj,计算ri和rj的记录相似度其中t为Ti和Tj之间关联属性的对数量,SP(pia,pjb)=1-d(pia,pjb)/n为关联属性值p1i和p2j的属性值相似度,d(pia,pjb)为关联属性值p1i和p2j的编辑距离,n为p1i和p2j中较长字符串的长度,为关联属性值p1i和p2j在Ti和Tj的属性重要度的平均值,若SR(ri,rj)>CR,CR为预设的阈值,则ri和rj为关联记录。
与现有技术相比,本发明的有益效果包括:本发明通过研究数据表的属性重要度,以及数据表间属性的相似度,建立不确定数据表的关联矩阵,然后根据关联矩阵选择关联度大的数据表在关联属性上进行连接合并得到相似记录数据集,经过多轮连接合并操作直至将所有的原始不确定数据表进行充分连接合并,从而实现对不确定数据对象进行全面准确描述的目标。解决了数据项含义不明确、数据对象不明确的不确定数据难以连接合并,从而无法得到数据描述对象的全息影像,造成数据难以理解和使用的问题。
以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。
Claims (10)
1.一种基于不确定数据表的用户画像数据整合方法,其特征在于,包括:
S1、获取数据对象不明确、数据项含义不明确的若干数据表;
S2、定义属性重要度,所述属性重要度用以标识数据表中的属性对该数据表中的数据对象的区分度,计算各数据表的所有属性的所述属性重要度;
S3、计算各数据表之间的属性的属性相似度,当两个属性的所述属性相似度大于预设阈值,两个属性互为关联属性;
S4、根据各数据表之间的关联属性的属性重要度,计算各数据表之间的所述数据表关联度;
S5、将各数据表的所述数据表关联度从大到小排列,根据数据表关联度大小将数据表进行多轮合并直到所有数据表合并形成一张合并表,合并表包含多个数据对象的用户画像数据,用户画像数据包含S1获取的若干数据表中同一数据对象的所有数据。
2.如权利要求1所述的基于不确定数据表的用户画像数据整合方法,其特征在于,步骤S2中属性重要度的计算方法为:
对于数据表T={P1,P2,...,Pn},Pi的取值为统计Pi中每个不同属性值的出现次数为假设数据表中每一条记录代表一个不同的数据对象,基于该假设, 和相等的概率为由于可得则属性Pi的初步属性重要度为对初步属性重要度进行平滑处理和归一化处理后得到属性重要度Wpmax表示数据表T所有初步属性重要度的最大值。
3.如权利要求1所述的基于不确定数据表的用户画像数据整合方法,其特征在于,步骤S3中计算所述属性相似度的方法为:
表Ti在A属性上取值集合为PVia,表Tj在B属性上取值集合为PVjb,则A、B属性的属性相似度为取值集合PVia、PVjb的杰卡德相似系数,取值集合PVia、PVjb的杰卡德相似系数为PVia、PVjb的交集元素在PVia、PVjb的并集中所占的比例,属性相似度SP(PVia,PVjb)=|PVia∩PVjb|/|PVia∪PVjb|。
4.如权利要求1所述的基于不确定数据表的用户画像数据整合方法,其特征在于,步骤S4中所述数据表关联度的计算方法为:
表Ti与表Tj的关联度为其中t为表Tj和表Tj关联属性对数,Pia、Pjb为表Ti与表Tj之间的关联属性, 为属性Pia在表Ti的属性重要度,为属性Pjb在表Tj的属性重要度,表示关联属性Pia、Pjb在Ti和Tj的属性重要度的平均值。
5.如权利要求1所述的基于不确定数据表的用户画像数据整合方法,其特征在于,步骤S5中合并数据表Ti和数据表Tj的步骤为:
确定数据表Ti和数据表Tj之间所有的关联记录,并将所有的所述关联记录进行合并;对于记录ri{pi1,pi2,...,pia,...,pim}∈Ti和记录rj{pj1,pj2,...,pjb,...,pjn}∈Tj,计算ri和rj的记录相似度其中t为Ti和Tj之间关联属性的对数量,SP(pia,pjb)=1-d(pia,pjb)/n为关联属性值p1i和p2j的属性值相似度,d(pia,pjb)为关联属性值p1i和p2j的编辑距离,n为p1i和p2j中较长字符串的长度,为关联属性值p1i和p2j在Ti和Tj的属性重要度的平均值,若SR(ri,rj)>CR,CR为预设的阈值,则ri和rj为关联记录。
6.一种基于不确定数据表的用户画像数据整合系统,其特征在于,包括:
数据表获取模块:获取数据对象不明确、数据项含义不明确的若干数据表;
属性重要度计算模块:定义属性重要度,所述属性重要度用以标识数据表中的属性对该数据表中的数据对象的区分度,计算各数据表的所有属性的所述属性重要度;
属性相似度计算模块:计算各数据表之间的属性的属性相似度,当两个属性的所述属性相似度大于预设阈值,两个属性互为关联属性;
数据表关联度计算模块:根据各数据表之间的关联属性的属性重要度,计算各数据表之间的数据表关联度;
数据表合并模块:将各数据表的所述数据表关联度从大到小排列,根据数据表关联度大小将数据表进行多轮合并直到所有数据表合并形成一张合并表,合并表包含多个数据对象的用户画像数据,用户画像数据包含数据表获取模块获取的若干数据表中同一数据对象的所有数据。
7.如权利要求6所述的基于不确定数据表的用户画像数据整合系统,其特征在于,属性重要度计算模块中:
对于数据表T={P1,P2,...,Pn},Pi的取值为统计Pi中每个不同属性值的出现次数为假设数据表中每一条记录代表一个不同的数据对象,基于该假设, 和相等的概率为由于可得则属性Pi的初步属性重要度为对初步属性重要度进行平滑处理和归一化处理后得到属性重要度Wpmax表示数据表T所有初步属性重要度的最大值。
8.如权利要求6所述的基于不确定数据表的用户画像数据整合系统,其特征在于,属性相似度计算模块中:
表Ti在A属性上取值集合为PVia,表Tj在B属性上取值集合为PVjb,则A、B属性的属性相似度为取值集合PVia、PVjb的杰卡德相似系数,取值集合PVia、PVjb的杰卡德相似系数为PVia、PVjb的交集元素在PVia、PVjb的并集中所占的比例,属性相似度SP(PVia,PVjb)=|PVia∩PVjb|/|PVia∪PVjb|。
9.如权利要求6所述的基于不确定数据表的用户画像数据整合系统,其特征在于,数据表关联度计算模块中:
表Ti与表Tj的关联度为其中t为表Tj和表Tj关联属性对数,Pia、Pjb为表Ti与表Tj之间的关联属性, 为属性Pia在表Ti的属性重要度,为属性Pjb在表Tj的属性重要度,表示关联属性Pia、Pjb在Ti和Tj的属性重要度的平均值。
10.如权利要求6所述的基于不确定数据表的用户画像数据整合系统,其特征在于,数据表合并模块中:
确定数据表Ti和数据表Tj之间所有的关联记录,并将所有的关联记录进行合并;
对于记录ri{pi1,pi2,...,pia,...,pim}∈Ti和记录rj{pj1,pj2,...,pjb,...,pjn}∈Tj,计算ri和rj的记录相似度其中t为Ti和Tj之间关联属性的对数量,SP(pia,pjb)=1-d(pia,pjb)/n为关联属性值p1i和p2j的属性值相似度,d(pia,pjb)为关联属性值p1i和p2j的编辑距离,n为p1i和p2j中较长字符串的长度,为关联属性值p1i和p2j在Ti和Tj的属性重要度的平均值,若SR(ri,rj)>CR,CR为预设的阈值,则ri和rj为关联记录。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710050489.7A CN106897385A (zh) | 2017-01-23 | 2017-01-23 | 一种基于关联矩阵的不确定数据连接合并算法 |
CN2017100504897 | 2017-01-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108304476A true CN108304476A (zh) | 2018-07-20 |
Family
ID=59198263
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710050489.7A Pending CN106897385A (zh) | 2017-01-23 | 2017-01-23 | 一种基于关联矩阵的不确定数据连接合并算法 |
CN201711465664.5A Pending CN108304476A (zh) | 2017-01-23 | 2017-12-28 | 一种基于不确定数据表的用户画像数据整合方法及系统 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710050489.7A Pending CN106897385A (zh) | 2017-01-23 | 2017-01-23 | 一种基于关联矩阵的不确定数据连接合并算法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN106897385A (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897385A (zh) * | 2017-01-23 | 2017-06-27 | 武汉迎风聚智科技有限公司 | 一种基于关联矩阵的不确定数据连接合并算法 |
CN108052601B (zh) * | 2017-12-12 | 2021-07-23 | 福建中金在线信息科技有限公司 | 数据库建立方法、装置及终端 |
CN111800181B (zh) * | 2020-05-29 | 2022-03-04 | 西安空间无线电技术研究所 | 一种确定卫星异质信息网络节点重要度的方法及装置 |
CN111721360B (zh) * | 2020-06-19 | 2022-04-05 | 东北农业大学 | 一种湿地生态环境监测系统及方法 |
CN112597154A (zh) * | 2020-12-11 | 2021-04-02 | 广州橙行智动汽车科技有限公司 | 一种数据的存储方法、装置、电子设备、可读介质 |
CN114372097B (zh) * | 2021-12-30 | 2022-11-22 | 北京达梦数据库技术有限公司 | 一种数据集列序列化的高效连接比对实现方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897385A (zh) * | 2017-01-23 | 2017-06-27 | 武汉迎风聚智科技有限公司 | 一种基于关联矩阵的不确定数据连接合并算法 |
-
2017
- 2017-01-23 CN CN201710050489.7A patent/CN106897385A/zh active Pending
- 2017-12-28 CN CN201711465664.5A patent/CN108304476A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897385A (zh) * | 2017-01-23 | 2017-06-27 | 武汉迎风聚智科技有限公司 | 一种基于关联矩阵的不确定数据连接合并算法 |
Also Published As
Publication number | Publication date |
---|---|
CN106897385A (zh) | 2017-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304476A (zh) | 一种基于不确定数据表的用户画像数据整合方法及系统 | |
TWI712981B (zh) | 風險辨識模型訓練方法、裝置及伺服器 | |
WO2020253358A1 (zh) | 业务数据的风控分析处理方法、装置和计算机设备 | |
Wang et al. | Sketch-based 3d shape retrieval using convolutional neural networks | |
WO2019154262A1 (zh) | 一种图像分类方法及服务器、用户终端、存储介质 | |
CN108665159A (zh) | 一种风险评估方法、装置、终端设备及存储介质 | |
CN104573130B (zh) | 基于群体计算的实体解析方法及装置 | |
CN106407349A (zh) | 一种产品推荐方法及装置 | |
CN102629275A (zh) | 面向跨媒体新闻检索的人脸-人名对齐方法及系统 | |
CN110706152A (zh) | 基于生成对抗网络的人脸光照迁移方法 | |
CN111651678B (zh) | 一种基于知识图谱的个性化推荐方法 | |
Feng et al. | Computational social indicators: a case study of chinese university ranking | |
CN104077723A (zh) | 一种社交网络推荐系统及方法 | |
CN112420187A (zh) | 一种基于迁移联邦学习的医疗疾病分析方法 | |
CN109920050B (zh) | 一种基于深度学习和薄板样条的单视图三维火焰重建方法 | |
CN110990683A (zh) | 一种基于地域与情感特征的微博谣言集成识别方法及装置 | |
CN103353880A (zh) | 一种利用相异度聚类和关联的数据挖掘方法 | |
CN111078916A (zh) | 一种基于多层次特征对齐网络的跨域三维模型检索方法 | |
Xu et al. | Domain disentangled generative adversarial network for zero-shot sketch-based 3d shape retrieval | |
CN114529581A (zh) | 基于深度学习及多任务联合训练的多目标跟踪方法 | |
CN110083724A (zh) | 一种相似图像检索方法、装置及系统 | |
Lin et al. | Image set-based face recognition using pose estimation with facial landmarks | |
CN106971107B (zh) | 一种数据交易的安全定级方法 | |
CN108268478A (zh) | 一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置 | |
CN104462480B (zh) | 基于典型性的评论大数据挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180720 |