CN111625545B - 数据融合方法、数据融合装置及存储介质 - Google Patents
数据融合方法、数据融合装置及存储介质 Download PDFInfo
- Publication number
- CN111625545B CN111625545B CN202010512990.2A CN202010512990A CN111625545B CN 111625545 B CN111625545 B CN 111625545B CN 202010512990 A CN202010512990 A CN 202010512990A CN 111625545 B CN111625545 B CN 111625545B
- Authority
- CN
- China
- Prior art keywords
- dimension
- data
- relation record
- dimension relation
- established
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 89
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims description 28
- 230000004044 response Effects 0.000 claims description 25
- 238000013507 mapping Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 60
- 230000008569 process Effects 0.000 description 18
- 238000006243 chemical reaction Methods 0.000 description 16
- 238000004140 cleaning Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 8
- 238000012216 screening Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000007499 fusion processing Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000014759 maintenance of location Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000007651 self-proliferation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2264—Multidimensional index structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Abstract
本公开是关于一种数据融合方法、数据融合装置及存储介质。数据融合方法包括:确定待融合的多源数据,所述待融合的多源数据中每一数据绑定有维度关系记录标识,所述维度关系记录标识用于标识维度关系记录,每一维度关系记录中包括有一个或多个维度值;基于待融合的每一数据的维度关系记录标识在预先建立的维度关系记录表中提取维度关系记录,所述维度关系记录表中包括有一个或多个维度、所述一个或多个维度各自对应的维度值组成的维度关系记录、以及用于标识所述维度关系记录的维度关系记录标识;基于提取到的维度关系记录中包括的维度值,对所述待融合的多源数据进行数据融合。通过本公开可以有效实现数据融合。
Description
技术领域
本公开涉及数据处理技术领域,尤其涉及数据融合方法、数据融合装置及存储介质。
背景技术
相关技术中,随着大数据、云计算技术越来越成熟,数据融合应用也越来越普遍。数据融合是指将多个来源的数据(以下简称为多源数据)进行分析、综合、组合,以完成所需的决策和评估任务而进行的信息处理技术,其目的就是将原来分散的、独立的多个数据融合在一起,从而发现数据规律、趋势,提升数据价值。
传统的数据融合方案中,针对需要融合的数据,采用相等字段值关联的方式进行融合。通常,进行数据融合的数据数量多并且复杂,数据融合时需要进行多次相等字段值关联关系的处理,处理过程中需要对多源数据的原数据表中的融合字段进行清洗,导致处理程序庞大,处理数据量大。并且清洗后还需将进行相等字段值关联关系处理后的数据另存一张数据表,增加了存储的占用。因而相关数据融合方案,存在流程繁琐、数据处理成本高等缺陷。
发明内容
为克服相关技术中存在的问题,本公开提供一种数据融合方法、数据融合装置及存储介质。
根据本公开实施例的第一方面,提供一种数据融合方法,包括:确定待融合的多源数据,所述待融合的多源数据中每一数据绑定有维度关系记录标识,所述维度关系记录标识用于标识维度关系记录,每一维度关系记录中包括有一个或多个维度值;基于待融合的每一数据的维度关系记录标识在预先建立的维度关系记录表中提取维度关系记录,所述维度关系记录表中包括有一个或多个维度、所述一个或多个维度各自对应的维度值组成的维度关系记录、以及用于标识所述维度关系记录的维度关系记录标识;基于提取到的维度关系记录中包括的维度值,对所述待融合的多源数据进行数据融合。
一实施例中,维度关系记录表是基于多源数据的维度预先建立的维度关系映射表。
一实施例中,维度关系记录表采用如下方式基于多源数据的维度预先建立:确定多源数据中每一数据的维度,并将确定的维度去重后取并集映射为维度关系记录表中的维度;基于所述维度关系记录表中的维度以及多源数据中每一数据的维度值生成维度关系记录,所述维度关系记录的维度值是根据多源数据中每一数据的维度值规范化并去重后得到的;针对每一维度关系记录分别生成对应的维度关系记录标识。
一实施例中,响应于在已建立维度关系记录表中新增维度关系记录;将新增的维度关系记录与所述已建立的维度关系记录中的维度关系记录逐一进行匹配;响应于所述已建立的维度关系记录中存在与新增的维度关系记录匹配的维度关系记录,复用已有的维度关系记录以及维度关系记录标识;响应于所述已建立的维度关系记录中不存在与新增的维度关系记录匹配的维度关系记录,将所述新增的维度关系记录添加至所述已建立的维度关系记录中,并生成与所述新增的维度关系记录对应的维度关系记录标识。
又一实施例中,新增的维度关系记录包括基于新数据的维度以及已建立维度关系记录表中的维度构建的临时维度关系记录,所述新数据为与已建立维度关系记录表待进行关联的数据。
又一实施例中,临时维度关系记录采用如下方式基于已建立维度关系记录表中的维度以及所述新数据的维度构建:响应于在已建立维度关系记录表中关联新数据,确定所述新数据的维度,并将所述新数据的维度与已建立维度关系记录表中的维度进行一一匹配;针对所述新数据的维度中与已建立维度关系记录表中维度匹配的维度,复用所述已建立维度关系记录表中的维度,并构建包括所述新数据的维度以及已建立维度关系记录表中的维度的临时维度关系记录;针对所述新数据的维度中与已建立维度关系记录表中维度不匹配的维度,在所述已建立维度关系记录表中的维度基础上新增所述不匹配的维度,构建包括所述新数据的维度以及已建立维度关系记录表中的维度的临时维度关系记录。
另一实施例中,将每一维度关系记录对应的维度关系记录标识,反向绑定到数据中,并与每一数据的维度值对应。
另一实施例中,基于提取到的维度关系记录中包括的维度值,对所述待融合的多源数据进行数据融合,包括:确定待融合的维度值和指标数据,所述待融合的维度值归属于所述维度关系记录中包括的维度值;基于所述待融合的维度值和指标数据,分别从所述多源数据中提取各数据的维度值以及指标数据;响应于提取到的维度值中存在相同的维度值,针对相同的维度值,聚合所述多源数据中与所述相同的维度值对应的指标数据,并响应于在提取到的维度关系记录中包括的维度值中不存在相同的维度值,记录不相同的维度值对应的指标数据。
根据本公开实施例的第二方面,提供一种数据融合装置,包括:确定单元,用于确定待融合的多源数据,所述待融合的多源数据中每一数据绑定有维度关系记录标识,所述维度关系记录标识用于标识维度关系记录,每一维度关系记录中包括有一个或多个维度值;提取单元,用于基于待融合的每一数据的维度关系记录标识在预先建立的维度关系记录表中提取维度关系记录,所述维度关系记录表中包括有一个或多个维度、所述一个或多个维度各自对应的维度值组成的维度关系记录、以及用于标识所述维度关系记录的维度关系记录标识;融合单元,用于基于提取到的维度关系记录中包括的维度值,对所述待融合的多源数据进行数据融合。
一实施例中,维度关系记录表是基于多源数据的维度预先建立的维度关系映射表。
一实施例中,维度关系记录表采用如下方式基于多源数据的维度预先建立:确定多源数据中每一数据的维度,并将确定的维度去重后取并集映射为维度关系记录表中的维度;基于维度关系记录表中的维度以及多源数据中每一数据的维度值生成维度关系记录,所述维度关系记录的维度值是根据多源数据中每一数据的维度值规范化并去重后得到的;针对每一维度关系记录分别生成对应的维度关系记录标识。
一实施例中,响应于在已建立维度关系记录表中新增维度关系记录;将新增的维度关系记录与已建立的维度关系记录中的维度关系记录逐一进行匹配;响应于已建立的维度关系记录中存在与新增的维度关系记录匹配的维度关系记录,复用已有的维度关系记录以及维度关系记录标识;响应于已建立的维度关系记录中不存在与新增的维度关系记录匹配的维度关系记录,将新增的维度关系记录添加至已建立的维度关系记录中,并生成与新增的维度关系记录对应的维度关系记录标识。
又一实施例中,新增的维度关系记录包括基于新数据的维度以及已建立维度关系记录表中的维度构建的临时维度关系记录,新数据为与已建立维度关系记录表待进行关联的数据。
又一实施例中,临时维度关系记录采用如下方式基于已建立维度关系记录表中的维度以及新数据的维度构建:响应于在已建立维度关系记录表中关联新数据,确定新数据的维度,并将新数据的维度与已建立维度关系记录表中的维度进行一一匹配;针对新数据的维度中与已建立维度关系记录表中维度匹配的维度,复用已建立维度关系记录表中的维度,并构建包括新数据的维度以及已建立维度关系记录表中的维度的临时维度关系记录;针对新数据的维度中与已建立维度关系记录表中维度不匹配的维度,在已建立维度关系记录表中的维度基础上新增不匹配的维度,构建包括新数据的维度以及已建立维度关系记录表中的维度的临时维度关系记录。
另一实施例中,将每一维度关系记录对应的维度关系记录标识,反向绑定到数据中,并与每一数据的维度值对应。
另一实施例中,融合单元采用如下方式基于提取到的维度关系记录中包括的维度值,对待融合的多源数据进行数据融合:确定待融合的维度值和指标数据,待融合的维度值归属于维度关系记录中包括的维度值;基于待融合的维度值和指标数据,分别从多源数据中提取各数据的维度值以及指标数据;响应于提取到的维度值中存在相同的维度值,针对相同的维度值,聚合多源数据中与相同的维度值对应的指标数据,并响应于在提取到的维度关系记录中包括的维度值中不存在相同的维度值,记录不相同的维度值对应的指标数据。
根据本公开实施例的第三方面,提供一种电子设备,包括:存储器,用于存储指令;以及处理器,用于调用存储器存储的指令执行如本公开的第一方面中的数据融合方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其中存储有指令,指令被处理器执行时,执行如本公开第一方面中的数据融合方法。
本公开的实施例提供的技术方案可以包括以下有益效果:基于待融合的多源数据中每一数据包括的维度关系记录标识,在维度关系记录表中提取维度关系记录,每一维度关系记录中包括有一个或多个维度值。基于提取到的维度关系记录中包括的维度值,对待融合的多源数据进行数据融合,数据融合处理过程快速简洁,并且无需针对每一待融合的数据存储相等字段值关联关系的数据表,减少了存储的占用。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
通过参考附图阅读下文的详细描述,本发明实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1是根据本公开一示例性实施例示出的一种数据融合方法的流程图。
图2是根据本公开一示例性实施例示出的一种基于多源数据的维度预先建立维度关系记录表的流程图。
图3所示是根据本公开一示例性实施例示出的一种在已建立的维度关系记录表中新增维度关系记录的方法流程图。
图4所示是根据本公开一示例性实施例示出的一种进行数据融合的方法流程图。
图5是根据一示例性实施例示出的一种数据融合装置的结构示意图。
图6是根据本公开一示例性实施例示出的一种电子设备的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。
需要注意,虽然本文中使用“第一”、“第二”等表述来描述本发明的实施方式的不同模块、步骤和数据等,但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分,而并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。
本公开提供的数据融合方法应用于多源数据的融合场景。在多源数据进行融合过程中,基于数据的维度进行数据融合。其中,维度用于表征基于数据进行分析的方向或时剖析问题的方法。例如,在一个广告投放效果分析的数据模型中,为了获取广告投放效果,可以从广告投放的渠道商、代理商、广告位置这三个维度进行分析。当一个数据的某一维度存在于其他数据时,该维度可以理解为是共有维度。即共有维度可以理解为是多个数据之间共有的维度。
图1是根据本公开一示例性实施例示出的一种数据融合方法的流程图,如图1所示,数据融合方法包括以下步骤。
在步骤S11中,确定待融合的多源数据。
本公开实施例中多源数据可以理解为是多个数据源的数据。其中,待融合的多源数据可以是由用户根据数据融合需求进行选择并设置的。
本公开实施例中待融合的多源数据中每一数据中均包括有维度关系记录标识。本公开实施例中,维度关系记录标识用于标识维度关系记录,每一维度关系记录中包括有一个或多个维度值。一示例中,待融合的数据以数据表形式展现。其中,数据表中各行对应的维度值不完全相同,则数据表中每一行会对应有一个维度关系记录标识。
本公开实施例中确定了待融合的多源数据后,可以针对待融合的每一数据分别提取该数据中包括的维度关系记录标识。
在步骤S12中,基于待融合的每一数据的维度关系记录标识在预先建立的维度关系记录表中提取维度关系记录。
本公开实施例中,维度关系记录表用于表征维度、维度关系记录以及维度关系记录标识之间的映射关系。维度关系记录表中包括有一个或多个维度。一个或多个维度中每一维度各自对应的维度值组成维度关系记录。每一维度关系记录对应有标识该维度关系记录的维度关系记录标识。
可以理解的是,本公开实施例中,维度关系记录表中包括的维度可以是多源数据中一个或多个多源数据之间的共有维度,也可以是一个或多个多源数据的维度取并集后的维度,方便后续重复利用,并提高灵活性。
本公开实施例中,针对待融合的每一数据分别提取该数据中包括的维度关系记录标识后,可以基于该维度关系记录标识在维度关系记录表中关联到对应的维度关系记录,进而可确定维度关系记录中包括的维度值。
在步骤S13中,基于提取到的维度关系记录中包括的维度值,对待融合的多源数据进行数据融合。
本公开实施例中,基于待融合的多源数据中每一数据包括的维度关系记录标识,在维度关系记录表中提取维度关系记录,每一维度关系记录中包括有一个或多个维度值。基于提取到的维度关系记录中包括的维度值,对待融合的多源数据进行数据融合,数据融合处理过程快速简洁,并且无需针对每一待融合的数据存储相等字段值关联关系的数据表,减少了存储的占用。
本公开实施例以下结合实际应用对上述实施例涉及的数据融合方法进行说明。
一种实施方式中,本公开实施例维度关系记录表是预先建立的。一示例中,本公开实施例维度关系记录表是基于多源数据的维度预先建立的维度关系映射表。
图2是根据本公开一示例性实施例示出的一种基于多源数据的维度预先建立维度关系记录表的流程图,如图2所示,基于多源数据的维度预先建立维度关系记录表的过程包括以下步骤。
在步骤S21中,确定多源数据中每一数据的维度,并将确定的维度去重后取并集映射为维度关系记录表中的维度。
本公开实施例中维度关系记录表中记录的维度可以用于后续进行数据融合时各多源数据之间基于共有维度的融合。故,本公开实施例中将确定的维度去重后取并集的过程中,可先进行多源数据中各数据的共有维度筛选。
其中,一个数据的已有维度往往是已知的,因此只需要从一个数据开始,将一个数据(第一数据)的所有维度作为基础,再将另一个数据(第二数据)的维度取出,两个维度取交集,即可得到这两个数据源的共有维度。在进行共有维度筛选时,可以基于多源数据中任意两个数据进行共有维度的筛选。其中,本公开实施例中将进行共有维度筛选时涉及的任意两个数据中的一个数据称为第一数据,另一个数据称为第二数据。
对第一数据的维度和第二数据的维度进行取交集处理,将交集中的维度作为第一数据和第二数据之间的共有维度。将第一数据的维度和第二数据的维度并集中的维度与第三数据提取的维度进行取交并集处理,将交集中的维度作为第一数据、第二数据和第三数据之间各数据之间的共有维度。将第一数据、第二数据和第三数据的维度并集中的维度继续与第四数据提取的维度进行取交并集处理,依此类推,直至完成所有数据的维度的筛选。
本公开实施例中,基于两个数据进行维度提取并取交集处理后将这两个数据的维度取并集处理,可以理解为是对已进行共有维度筛选的数据进行维度提取的过程。将已进行共有维度筛选的数据的维度的并集与第三数据的维度(未进行维度筛选的新的数据)取交集,可以得到新的数据与已处理过的数据的共有维度。
本公开实施例中,按照上述方式,重复执行共有维度筛选的过程,可以完成多源数据中共有维度的筛选。
可以理解的是,本公开实施例中维度关系记录表中记录的维度除包括各数据之间的共有维度以外,还包括其他非共有维度,即维度关系记录表中的维度是基于多源数据确定的各维度去重后取并集得到的维度。
本公开实施例中,进行数据的维度筛选过程中,可以为数据创建共有维度。一示例中,为数据创建的共有维度可以是不同源数据之间的上层维度和/或虚拟维度。
其中,虚拟维度可以理解为是能够包括多源数据中某一维度上的所有维度字段的抽象维度。例如,当多源数据包括广告收入数据和电商收入数据。广告收入数据和电商收入数据没有直接关联的维度,创建的虚拟维度可以包括年度维度、所属公司等维度。上层维度可以理解为是能够包括多源数据中某一维度上部分维度字段的维度。例如,在信息流广告推广当中,A数据为站外某渠道的广告展现、点击数据,B数据为用户通过查看广告后下载的目标应用的新增、留存数据。其中,A数据和B数据都有广告投放渠道、广告投放位置等维度,故可以将广告投放渠道、广告投放位置作为A数据和B数据的上层维度。
可以理解的是,无论是虚拟维度还是上层维度,都是为了方便数据统计、应用的一种手段。通过增加上层、虚拟维度,可以将相关度不高的多源数据进行关联。
进一步的,本公开中在维度关系记录表创建时对数据进行规范化清洗,将不同数据源的规范化表述记录在关系表中,减少数据清洗的工作量,进而无需对原始数据进行更改,也无需引入新的数据作为中间变量进行数据关联,相对相关技术中进行相等字段值进行融合的方案引入新数据作为中间变量的方式,实现更为简单。本申请将规范化后的数据存储在维度关系记录表中,并将生成的维度关系记录绑定到原数据记录上。当规范化的清洗标准改变时,则只需要更改维度关系记录表中的维度值,无需清洗原始数据表,可灵活改变清洗的规则,清洗的数据量大大减少。解决了现有技术中存在的多次融合的字段清洗标准不一致时,需要重新修改之前的清洗结果,导致重复清洗,数据的复用性和可扩展性差的技术问题。
在步骤S22中,基于维度关系记录表中的维度以及多源数据中每一数据的维度值生成维度关系记录。其中,维度关系记录的维度值是根据多源数据中每一数据的维度值规范化并去重后得到的。
本公开实施例中,不同数据之间、甚至相同数据之间都可能会存在不规范的共有字段。在筛选多源数据的共有维度时,可以在数据清洗阶段对不规范的共有字段进行统一的规范化处理。
以表1中所示的A数据表和表2中所示的B数据表为例进行说明本公开实施例对不规范字段进行统一规范化处理的过程。
广告商 | 代理商 | 广告展现 | 广告点击 |
XXXX有限公司 | 代理商A | 1000 | 100 |
表1
渠道 | 代理商 | 新增数 | 留存数 |
XXXX | 代理商A | 1000 | 100 |
表2
表1中所示出的A数据包括站外某渠道的广告展现数据和广告点击数据。表2所示出的B数据包括用户通过查看广告后下载的目标应用的新增数据和留存数据。其中,A数据和B数据都有广告投放渠道(广告商/渠道)、广告投放位置(代理商)等维度,故A数据和B数据映射到维度关系记录表中的维度可以是渠道和代理商。
其中,A数据中的广告商“XXXX有限公司”和B数据中的渠道“XXXX”对应着相同的维度“渠道”,但是维度值不同。故,为了实现准确的数据融合,根据固有规则将A数据中的“XXXX有限公司”与B数据中的“XXXX”进行规范化,以使规范化后的维度值都对应至数据清洗完成后的维度“渠道”中的维度值“XXXX”。即,将A数据中的广告商“XXXX有限公司”规范为“XXXX”。本公开实施例中对维度值的规范化是按照固有规则进行的。例如,固有规则可以根据公司规范、业界规范、产品需求、业务需求的统用做法或者要求对不规范的字段值进行规范。
本公开实施例中,基于规范化后的每一维度值生成维度关系记录。例如,表1和表2中针对“渠道”和“代理商”维度,生成的维度关系记录可以是“XXXX+代理商A”。
本公开实施例中基于维度关系记录表中的维度以及多源数据中每一数据的维度值生成维度关系记录。其中,维度关系记录的维度值是根据多源数据中每一数据的维度值规范化并去重后得到的,可保证在不更改原有数据也无需将清洗后的数据写入临时的数据表的情况下对多源数据进行有效的清洗,并且关联多源数据时无需再次清洗关联字段,减少了梳理的数据量和流程,降低处理复杂度。
在步骤S23中,针对每一维度关系记录分别生成对应的维度关系记录标识。
本公开实施例中,针对每一维度关系记录需生成用于标识该维度关系记录的维度关系记录标识并保存到维度关系记录表中。例如,针对上述表1和表2,针对维度关系记录生成的维度关系记录标识为1,生成的维度关系记录表可如表3所示。
维度关系记录标识 | 渠道 | 代理商 |
1 | XXXX | 代理商A |
表3
本公开实施例中,建立完成维度关系记录表后,可以将每一维度关系记录对应的维度关系记录标识,反向绑定到数据中,并与每一数据的维度值对应,以便后续进行数据融合时,可以利用维度关系记录标识在维度关系记录表中提取维度关系记录以及对应的维度值,就那些数据融合。
本公开实施例中,在已建立的维度关系记录表中可以新增维度关系记录。例如,当有新数据需要与已建立维度关系记录表进行关联时,可以在维度关系记录表中新增该新数据对应的维度关系记录。当然也可以是单纯的新增维度关系记录的场景。
本公开实施例中,响应于在已建立维度关系记录表中关联新数据,确定新数据的维度,并将新数据的维度与已建立维度关系记录表中的维度进行一一匹配。针对新数据的维度中与已建立维度关系记录表中维度匹配的维度,复用已建立维度关系记录表中的维度,并构建包括新数据的维度以及已建立维度关系记录表中的维度的临时维度关系记录。针对新数据的维度中与已建立维度关系记录表中维度不匹配的维度,在已建立维度关系记录表中的维度基础上新增该不匹配的维度,构建包括新数据的维度以及已建立维度关系记录表中的维度的临时维度关系记录。
针对在已建立的维度关系记录表中新增维度关系记录的场景,可以采用图3所示的新增维度关系记录的方法。图3所示是根据本公开一示例性实施例示出的一种在已建立的维度关系记录表中新增维度关系记录的方法流程图。参阅图3所示,包括:
在步骤S31中,确定在已建立维度关系记录表中新增维度关系记录。
本公开实施例中,在已建立维度关系记录表中新增的维度关系记录包括基于与已建立维度关系记录表待进行关联的新数据的维度以及已建立维度关系记录表中的维度构建的临时维度关系记录。
在步骤S32中,响应于在已建立维度关系记录表中新增维度关系记录,将新增的维度关系记录与已建立的维度关系记录中的维度关系记录逐一进行匹配。
在步骤S33中,响应于已建立的维度关系记录中存在与新增的维度关系记录匹配的维度关系记录,复用已有的维度关系记录以及维度关系记录标识。
本公开实施例中,已建立的维度关系记录中存在与新增的维度关系记录匹配的维度关系记录,则将已有的维度关系记录标识反向绑定到该新增的维度关系记录对应的数据中。
在步骤S34中,响应于已建立的维度关系记录中不存在与新增的维度关系记录匹配的维度关系记录,将新增的维度关系记录添加至已建立的维度关系记录中,并生成与新增的维度关系记录对应的维度关系记录标识。
本公开实施例中,已建立的维度关系记录中不存在与新增的维度关系记录匹配的维度关系记录,则将新生成的维度关系记录标识反向绑定到该新增的维度关系记录对应的数据中。
本公开实施例中,当新增数据(一个或多个不同数据源的数据)时,利用本公开中的方法,构建包括新数据的维度以及已建立维度关系记录表中的维度的临时维度关系记录,并将构建的临时维度关系记录添加到已建立的维度关系记录表中,无需对多源数据中的每一数据再次进行清洗。
本公开实施例以下结合示例对上述建立维度关系记录表的过程进行说明。
一示例中,本公开实施例中以多源数据以数据表形式存储为例进行说明。其中,表4和表5所示为涉及的多源数据。
广告商 | 代理商 | 广告展现 | 广告点击 |
广告商A有限公司 | 代理商A | 20000 | 10000 |
广告商A有限公司 | 代理商B | 20000 | 10000 |
广告商B有限公司 | 代理商C | 20000 | 10000 |
广告商B | 代理商C | 20000 | 10000 |
表4
渠道 | 广告代理商 | 新增数 | 留存数 |
广告商A | 代理商A | 1000 | 100 |
广告商A有限公司 | 代理商B | 1000 | 100 |
广告商B有限公司 | 代理商B | 1000 | 100 |
广告商A | 代理商D | 1000 | 100 |
广告商B | 代理商C | 1000 | 100 |
表5
表4中所示出的包括站外某渠道的广告展现数据和广告点击数据。表5所示出的包括用户通过查看广告后下载的目标应用的新增数据和留存数据。其中,表4和表5示出的数据中都有广告投放渠道(广告商/渠道)、广告投放位置(代理商)等维度,故表4和表5示出的数据映射到维度关系记录表中的维度可以是渠道和代理商。进而,本公开实施例中可以把表4和表5中的广告商和渠道统一映射为维度关系记录表中的渠道,将表4和表5中的代理商和广告代理商统一映射为维度关系记录表中的代理商。
其中,进行维度确定时,可以基于数据融合分析的方向来确定。比如,为实现对广告效果的漏斗转化分析,即通过分析广告的展现->点击->激活->留存过程中各步骤的数据,获取广告投放效果和改进方案,对表4和表5示出的数据进行融合分析。
本公开实施例中的维度的筛选可以理解为是一种提前预处理的过程,不需要像传统方法中一样在数据关联时才进行数据处理,而是提前为下一步的数据融合引入了通用的解决方案。
本公开实施例中确定了维度后,可以将多源数据中的维度对应的维度值进行规范化。例如,将表4和表5中的广告商A有限公司、广告商A规范化为广告商A。将表4和表5中的广告商B有限公司、广告商B规范化为广告商B。
本公开实施例中维度关系记录表可以采用任何的数据结构和存储方式,只要满足数据融合的需求都是可行的。一示例中,维度关系记录表以列式存储表进行维度字段和维度关系记录标识之间映射关系的存储。在实际建立维度映射关系时,将维度作为这个维度属性存储关系的数据列,将数据中这些维度的值(维度字段)作为这些列的行值插入到该映射表中,行值插入映射关系表中自增生成的主键标识(id)作为这个维度属性存储关系的唯一id。例如,表6中的渠道、代理商就是维度,广告商A、代理商A是这两个维度下的具体行值插入维度属性关系的维度关系记录表。
表6维度关系记录表
当维度关系记录表建立完成后,就可形成对多源数据维度的统一存储并进行管理,这种维度的统一存储和管理模式,可以根据实际需求随时更改维度值,从而改变融合数据的展示方式,并且通过建立维度,可以减少传统的多源数据融合时需进行的字段处理。传统的字段处理方式包括内容归一化、截取字段中的部分、引入中间变量进行相等关联等。这些字段处理方式手段多样、过程复杂,不利于多源数据有效快速的融合。而通过维度聚合方式关联多源数据,替代了通过字段值相等进行数据关联的传统手段,简便、高效。通过建立维度并关联维度的方式进行数据融合,可以使多源数据仅通过一次遍历即能实现永久关联。因此,多源数据仅关联一次,就可以实现在多个不同需求下的数据融合。
本公开实施例中,在完成维度关系记录表的建立后,可基于维度关系记录表中每一维度关系记录标识,反向绑定到数据中。其中每一维度关系记录都具有一个唯一的维度关系记录标识。维度关系记录标识可以是在建立维度关系记录表的同时自增生成的,也可以由用户指定的。维度关系记录标识通常是一个int类型的值。在本公开实施例中,当生成维度关系记录表时,各个维度值会以列的形式存储在表中,并在此表中具有区别于它的唯一的行值。因此,可将这些行值作为维度关系记录标识,并将该维度关系记录标识绑定到与之对应的原始数据表中的相应数据上。
一示例中,维度关系记录标识为整数。将维度关系记录标识反向绑定到数据中后,分别如表7、8所示。
表7
表8
本公开实施例中,上述建立维度关系记录表的过程也可以理解为是数据融合过程中预先实现的过程。
本公开实施例中的共有维度的筛选可以理解为是一种提前预处理的过程,不需要像传统方法中一样在数据关联时才进行数据处理,而是提前为下一步的数据融合引入了通用的解决方案。
在建立维度关系记录表以后,在进行多源数据的融合时,可以提取待融合的多源数据中每一数据中的维度关系记录标识。基于待融合的每一数据的维度关系记录标识在预先建立的维度关系记录表中提取维度关系记录。基于提取到的维度关系记录中包括的维度值,对待融合的多源数据进行数据融合。
基于提取到的维度关系记录中包括的维度值,对待融合的多源数据进行数据融合时,可以根据用户的需求在维度关系记录表中记录的维度值中选择需要融合的维度值。即,进行数据融合时,确定的待融合的维度值和指标数据归属于维度关系记录中包括的维度值。
图4所示是根据本公开一示例性实施例示出的一种进行数据融合的方法流程图。参阅图4所示,包括:
在步骤S41中,确定待融合的维度值和指标数据。
在步骤S42中,基于待融合的维度值和指标数据,分别从多源数据中提取各数据的维度值以及指标数据。
在步骤S43中,响应于提取到的维度值中存在相同的维度值,针对相同的维度值,聚合所述多源数据中与所述相同的维度值对应的指标数据。
在步骤S44中,响应于在提取到的维度关系记录中包括的维度值中不存在相同的维度值,记录不相同的维度值对应的指标数据。
本公开实施例中,在待融合的多源数据中确定与维度关系记录表中对应的维度值,并基于维度值对应的指标数据,确定待融合的维度和指标数据。将维度值以及待融合的指标值进行融合。例如,待融合的维度对应的维度值是“广告商A”和“代理商A”,维度值对应的指标数据是“广告商A+代理商A”所对应的广告展现、广告点击、新增数、留存数等数据。例如上述示例中按单一/多个维度查看数据漏斗的转化效果,可以按渠道和/或代理商维度聚合广告的展现、点击数据、新增、留存数据,即将数据融合后的维度值对应的一个或多个指标数据,确定为待融合的指标数据。并且可以计算这些维度下的二次计算指标,如转化率(新增数除以点击数),即对数据融合后的维度值对应的一个或多个指标数据进行运算,并将运算后得到的指标数据,作为待融合的指标数据。
根据多源数据的维度标识关联并查找维度关系记录表中的维度,按表中的维度对多源数据进行融合,并根据需求对指标进行二次运算从而实现数据的融合。
数据融合后的维度值对应的指标数据,指标数据是用来衡量某个具体维度的,如可以通过广告转化率cvr、广告点击率ctr指标等来衡量不同维度的广告投放效果。其中广告转化率cvr、广告点击率ctr是指标数据,可以用来衡量不同广告投放的渠道商、代理商、广告位置这些不同维度上的广告投放效果。
一示例中,用户需要查看广告商和代理商维度下从广告点击到设备新增的数据。基于表7和表8中的维度关系记录标识可以关联到表6所示的维度关系记录表,以及表6中记录的维度值。基于表6、表7和表8,进行维度值和指标数据的提取。其中,针对同一维度关系记录对应的指标数据可以进行取和运算,可以得到如表9所示的数据融合结果。
渠道 | 代理商 | 广告展现 | 广告点击 | 新增数 | 留存数 |
广告商A | 代理商A | 20000 | 10000 | 1000 | 100 |
广告商A | 代理商B | 20000 | 10000 | 1000 | 100 |
广告商A | 代理商C | 40000 | 20000 | - | - |
广告商B | 代理商B | - | - | 1000 | 100 |
广告商A | 代理商D | - | - | 1000 | 100 |
广告商B | 代理商C | - | - | 1000 | 100 |
表9
另一示例中,用户需要查看代理商维度下从广告点击到设备新增的数据。基于表7和表8中的维度关系记录标识可以关联到表6所示的维度关系记录表,以及表6中记录的维度值。基于表6、表7和表8,进行维度值和指标数据的提取。其中,针对同一维度关系记录对应的指标数据可以进行取和运算,可以得到如表10所示的数据融合结果。
代理商 | 广告展现 | 广告点击 | 新增数 | 留存数 |
代理商A | 20000 | 10000 | 1000 | 100 |
代理商B | 20000 | 10000 | 2000 | 200 |
代理商C | 40000 | 20000 | 1000 | 100 |
代理商D | - | - | 1000 | 100 |
表10
本公开实施例中,在进行数据融合时,若融合后的维度或指标数据中无对应的数据,则可以在对应位置处以空表示。例如,表9中“广告商A”+“代理商C”对应的新增数和留存数为空。再例如,表10中“代理商D”对应广告展现和广告点击为空。
可以理解的是,本公开实施例中进行数据融合过程中涉及的指标数据可以是多源数据中直接获取到的指标数据,也可以是多源数据中的一个或多个指标数据进行运算后得到的指标数据。例如,按照渠道或/和代理商维度查看广告展现数据、广告点击数据、新增数、留存数时,对于“广告商A+代理商A”可以直接获取到广告展现、广告点击、新增数、留存数的一次指标,无需进行二次计算。而若要获得不同维度具体值所对应的转化率数据,则需要对获取到的原始指标数据进行数学运算。
一示例中,针对表1、表2和表3,维度关系记录对应的维度值是“XXXX”和“代理商A”,对应的指标数据是“XXXX+代理商A”所对应的广告展现、广告点击、新增数、留存数等数据。例如上述示例中按单一/多个维度关系记录查看数据漏斗的转化效果,可以按渠道和/或代理商维度聚合广告的展现、点击数据、新增、留存数据,即将数据融合后的维度值对应的一个或多个指标数据,确定为待融合的指标数据。并且可以计算这些维度下的二次计算指标,如转化率(新增数除以点击数),即对数据融合后的维度值对应的一个或多个指标数据进行运算,并将运算后得到的指标数据,作为待融合的指标数据。
例如,根据多源数据的维度关系记录标识关联并查找维度关系记录表中的维度值,按表中的维度关系记录中的维度值对多源数据进行融合,并根据需求对指标进行二次运算从而实现数据的融合。
一实施例中,基于共有维度映射关系对多源数据的指标字段进行二次运算得到二次运算指标。表11中示出了按照渠道或/和代理商维度查看广告展现数据、广告点击数据、新增数、留存数。如表11所示,广告展现、广告点击、新增数、留存数是无需进行二次计算,从数据表中可以直接得到的一次指标。而若要获得不同维度具体值所对应的转化率数据,则需要根据数据中的原始指标数据进行数学运算。在原始指标数据的基础上再进行数学运算而得到的指标就被称为二次运算指标。为了获得二次运算指标进行的运算方式可以是简单的加减乘除运算,也可以是其他复杂的运算方式。表10中所示的转化率=新增数/广告点击。
例如,表11示出了本公开实施例中通过数据融合而得到的按照共有维度查看多源数据融合后的广告漏斗转化效果。利用本公开实施中的共有维度数据融合方法,可以按照单一/多个共有维度查看数据漏斗的转化效果。
渠道 | 代理商 | 广告展现 | 广告点击 | 新增数 | 留存数 | 转化率 |
XXXX | 代理商A | 1000 | 100 | 1000 | 100 | … |
表11
进行数据融合时,可以基于数据融合后的维度值对应的指标数据,确定待融合的指标数据,将数据融合后的维度值以及待融合的指标数据进行融合。
另以表12中的C数据和表13中的D数据的融合为例,说明二次运算指标的应用。
表12
表13
如表12-13中所示,C数据与D数据进行融合的维度为渠道商和代理商,而点击数、激活量则是C数据和D数据对应融合的指标数据。基于C数据包括的维度关系记录标识关联共有维度关系表中存在的维度包括渠道商和代理商对应的维度关系记录:“XXXXXX”+“代理商A”,以及“XXXXXX”+“代理商B”。基于D数据包括的维度关系记录标识关联共有维度关系表中的维度包括渠道商和代理商对应的维度关系记录:“XXXXXX”+“代理商A”,“XXXXXX”+“代理商B”,以及“XXXXX”+“代理商C”。
在对数据进行融合时,需要融合的维度包括:“XXXXXX”+“代理商A”,“XXXXXX”+“代理商B”,以及“XXXXX”+“代理商C”。基于C数据关联的维度关系记录:“XXXXXX”+“代理商A”,以及“XXXXXX”+“代理商B”,和基于D数据关联的维度关系记录“XXXXXX”+“代理商A”,以及“XXXXXX”+“代理商B”相同,则针对“XXXXXX”+“代理商A”,以及“XXXXXX”+“代理商B”,聚合相同维度关系记录作为数据融合后的维度关系记录,例如表14中融合后的第一行和第二行所示。基于D数据关联的维度关系记录“XXXXX”+“代理商C”,与其他维度关系记录不同,则将维度关系记录“XXXXX”+“代理商C”单独作为数据融合后的数据字段,如表14中融合后的第三行所示。
当表12的数据和表13的数据进行关联时,会首先对数据融合后的维度值进行聚合,从而形成如表14中第1-2列中所示的内容,并纵向展示指标数据,从而形成如表14中第3-4列中所示的内容。根据需要对表12和表13的数据中的指标数据进行运算,得到二次运算指标,如表14中第5列中所示的转换率数据,其中转化率数据是B数据中的激活量数据除以A数据中的点击数数据得到的。
渠道商 | 代理商 | 点击数 | 激活量 | 转化率(激活量/点击数) |
XXXXXX | 代理A | 100 | 10 | 0.1(10/100) |
XXXXXX | 代理B | 50 | 3 | 0.06(3/50) |
XXXXX | 代理C | —— | 10 | ——(无点击数,不做计算) |
表14
本公开实施例中,在进行数据融合时,若融合后的维度或指标数据中无对应的数据,则可以在对应位置处以空表示。例如,表14中的“XXXXX”+“代理商C”对应点击数和转化率可以为空。
本公开实施例提供的数据融合方法,基于待融合的多源数据中每一数据包括的维度关系记录标识,在维度关系记录表中提取维度关系记录,每一维度关系记录中包括有一个或多个维度值。基于提取到的维度关系记录中包括的维度值,对待融合的多源数据进行数据融合,数据融合处理过程快速简洁,并且无需针对每一待融合的数据存储相等字段值关联关系的数据表,减少了存储的占用。并且减少了后期重复处理关联关系的工作量,节省了原始数据清洗后重复存储的存储空间,避免了数据清洗规则更改后对原始多源数据的修改,提高了数据维度的可扩展性。
基于相同的构思,本公开实施例还提供一种数据融合装置。
图5是根据一示例性实施例示出的一种数据融合装置的结构示意图。参阅图5所示,数据融合装置100包括确定单元101、提取单元102和融合单元103。
确定单元101,用于确定待融合的多源数据,待融合的多源数据中每一数据绑定有维度关系记录标识,维度关系记录标识用于标识维度关系记录,每一维度关系记录中包括有一个或多个维度值。提取单元102,用于基于待融合的每一数据的维度关系记录标识在预先建立的维度关系记录表中提取维度关系记录,维度关系记录表中包括有一个或多个维度、一个或多个维度各自对应的维度值组成的维度关系记录、以及用于标识维度关系记录的维度关系记录标识。融合单元103,用于基于提取到的维度关系记录中包括的维度值,对待融合的多源数据进行数据融合。
一实施例中,维度关系记录表是基于多源数据的维度预先建立的维度关系映射表。
一实施例中,维度关系记录表采用如下方式基于多源数据的维度预先建立:确定多源数据中每一数据的维度,并将确定的维度去重后取并集映射为维度关系记录表中的维度;基于维度关系记录表中的维度以及多源数据中每一数据的维度值生成维度关系记录。其中,维度关系记录的维度值是根据多源数据中每一数据的维度值规范化并去重后得到的;针对每一维度关系记录分别生成对应的维度关系记录标识。
一实施例中,响应于在已建立维度关系记录表中新增维度关系记录;将新增的维度关系记录与已建立的维度关系记录中的维度关系记录逐一进行匹配;响应于已建立的维度关系记录中存在与新增的维度关系记录匹配的维度关系记录,复用已有的维度关系记录以及维度关系记录标识;响应于已建立的维度关系记录中不存在与新增的维度关系记录匹配的维度关系记录,将新增的维度关系记录添加至已建立的维度关系记录中,并生成与新增的维度关系记录对应的维度关系记录标识。
又一实施例中,新增的维度关系记录包括基于新数据的维度以及已建立维度关系记录表中的维度构建的临时维度关系记录,新数据为与已建立维度关系记录表待进行关联的数据。
又一实施例中,临时维度关系记录采用如下方式基于已建立维度关系记录表中的维度以及新数据的维度构建:响应于在已建立维度关系记录表中关联新数据,确定新数据的维度,并将新数据的维度与已建立维度关系记录表中的维度进行一一匹配;针对新数据的维度中与已建立维度关系记录表中维度匹配的维度,复用已建立维度关系记录表中的维度,并构建包括新数据的维度以及已建立维度关系记录表中的维度的临时维度关系记录;针对新数据的维度中与已建立维度关系记录表中维度不匹配的维度,在已建立维度关系记录表中的维度基础上新增不匹配的维度,构建包括新数据的维度以及已建立维度关系记录表中的维度的临时维度关系记录。
另一实施例中,将每一维度关系记录对应的维度关系记录标识,反向绑定到数据中,并与每一数据的维度值对应。
另一实施例中,融合单元103采用如下方式基于提取到的维度关系记录中包括的维度值,对待融合的多源数据进行数据融合:确定待融合的维度值和指标数据,待融合的维度值归属于维度关系记录中包括的维度值;基于待融合的维度值和指标数据,分别从多源数据中提取各数据的维度值以及指标数据;响应于提取到的维度值中存在相同的维度值,针对相同的维度值,聚合多源数据中与相同的维度值对应的指标数据,并响应于在提取到的维度关系记录中包括的维度值中不存在相同的维度值,记录不相同的维度值对应的指标数据。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明的另一个实施方式提供了一种电子设备。如图6所示,该电子设备200包括存储器201、处理器202、输入/输出(Input/Output,I/O)接口203。其中,存储器201,用于存储指令。处理器202,用于调用存储器201存储的指令执行本发明实施例的数据融合方法。其中,处理器202分别与存储器201、I/O接口203连接,例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器201可用于存储程序和数据,包括本发明实施例中涉及的数据融合方法的程序,处理器202通过运行存储在存储器201的程序从而执行电子设备200的各种功能应用以及数据处理。
本发明实施例中处理器202可以采用数字信号处理器(DigitalSignalProcessing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现,所述处理器202可以是中央处理单元(Central Processing Unit,CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。
本发明实施例中的存储器201可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(Random Access Memory,RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(Read-OnlyMemory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD)等。
本发明实施例中,I/O接口203可用于接收输入的指令(例如数字或字符信息,以及产生与电子设备200的用户设置以及功能控制有关的键信号输入等),也可向外部输出各种信息(例如,图像或声音等)。本发明实施例中I/O接口203可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由装置的处理组件执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
可以理解的是,本发明实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本发明实施例涉及的方法和装置能够利用标准编程技术来完成,利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是,此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。
此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中,软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现,其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。
出于示例和描述的目的,已经给出了本发明实施的前述说明。前述说明并非是穷举性的也并非要将本发明限制到所公开的确切形式,根据上述教导还可能存在各种变形和修改,或者是可能从本发明的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本发明的原理及其实际应用,以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本发明。
Claims (8)
1.一种数据融合方法,其特征在于,包括:
确定待融合的多源数据,所述待融合的多源数据中每一数据绑定有维度关系记录标识,所述维度关系记录标识用于标识维度关系记录,每一维度关系记录中包括有一个或多个维度值;
基于待融合的每一数据的维度关系记录标识在预先建立的维度关系记录表中提取维度关系记录,所述维度关系记录表是基于多源数据的维度预先建立的维度关系映射表,所述维度关系记录表中包括有一个或多个维度、所述一个或多个维度各自对应的维度值组成的维度关系记录、以及用于标识所述维度关系记录的维度关系记录标识;
基于提取到的维度关系记录中包括的维度值,对所述待融合的多源数据进行数据融合;
其中,所述维度关系记录表采用如下方式基于多源数据的维度预先建立:
确定多源数据中每一数据的维度,并将确定的维度去重后取并集映射为维度关系记录表中的维度;
基于所述维度关系记录表中的维度以及多源数据中每一数据的维度值生成维度关系记录,所述维度关系记录的维度值是根据多源数据中每一数据的维度值规范化并去重后得到的;
针对每一维度关系记录分别生成对应的维度关系记录标识;
将每一维度关系记录对应的维度关系记录标识,反向绑定到数据中,并与每一数据的维度值对应。
2.根据权利要求1所述的数据融合方法,其特征在于,所述方法还包括:
响应于在已建立的维度关系记录表中新增维度关系记录;
将新增的维度关系记录与所述已建立的维度关系记录中的维度关系记录逐一进行匹配;
响应于所述已建立的维度关系记录中存在与新增的维度关系记录匹配的维度关系记录,复用已有的维度关系记录以及维度关系记录标识;
响应于所述已建立的维度关系记录中不存在与新增的维度关系记录匹配的维度关系记录,将所述新增的维度关系记录添加至所述已建立的维度关系记录中,并生成与所述新增的维度关系记录对应的维度关系记录标识。
3.根据权利要求2所述的数据融合方法,其特征在于,所述新增的维度关系记录包括基于新数据的维度以及已建立维度关系记录表中的维度构建的临时维度关系记录,所述新数据为与已建立维度关系记录表待进行关联的数据。
4.根据权利要求3所述的数据融合方法,其特征在于,所述临时维度关系记录采用如下方式基于已建立维度关系记录表中的维度以及所述新数据的维度构建:
响应于在已建立维度关系记录表中关联新数据,确定所述新数据的维度,并将所述新数据的维度与已建立维度关系记录表中的维度进行一一匹配;
针对所述新数据的维度中与已建立维度关系记录表中维度匹配的维度,复用所述已建立维度关系记录表中的维度,并构建包括所述新数据的维度以及已建立维度关系记录表中的维度的临时维度关系记录;
针对所述新数据的维度中与已建立维度关系记录表中维度不匹配的维度,在所述已建立维度关系记录表中的维度基础上新增所述不匹配的维度,构建包括所述新数据的维度以及已建立维度关系记录表中的维度的临时维度关系记录。
5.根据权利要求1所述的数据融合方法,其特征在于,基于提取到的维度关系记录中包括的维度值,对所述待融合的多源数据进行数据融合,包括:
确定待融合的维度值和指标数据,所述待融合的维度值归属于所述维度关系记录中包括的维度值;
基于所述待融合的维度值和指标数据,分别从所述多源数据中提取各数据的维度值以及指标数据;
响应于提取到的维度值中存在相同的维度值,针对相同的维度值,聚合所述多源数据中与所述相同的维度值对应的指标数据,并
响应于在提取到的维度关系记录中包括的维度值中不存在相同的维度值,记录不相同的维度值对应的指标数据。
6.一种数据融合装置,其特征在于,包括:
确定单元,用于确定待融合的多源数据,所述待融合的多源数据中每一数据绑定有维度关系记录标识,所述维度关系记录标识用于标识维度关系记录,每一维度关系记录中包括有一个或多个维度值;
提取单元,用于基于待融合的每一数据的维度关系记录标识在预先建立的维度关系记录表中提取维度关系记录,所述维度关系记录表是基于多源数据的维度预先建立的维度关系映射表,所述维度关系记录表中包括有一个或多个维度、所述一个或多个维度各自对应的维度值组成的维度关系记录、以及用于标识所述维度关系记录的维度关系记录标识;
融合单元,用于基于提取到的维度关系记录中包括的维度值,对所述待融合的多源数据进行数据融合;
其中,所述维度关系记录表采用如下方式基于多源数据的维度预先建立:
确定多源数据中每一数据的维度,并将确定的维度去重后取并集映射为维度关系记录表中的维度;
基于所述维度关系记录表中的维度以及多源数据中每一数据的维度值生成维度关系记录,所述维度关系记录的维度值是根据多源数据中每一数据的维度值规范化并去重后得到的;
针对每一维度关系记录分别生成对应的维度关系记录标识;
将每一维度关系记录对应的维度关系记录标识,反向绑定到数据中,并与每一数据的维度值对应。
7.一种电子设备,其中,所述电子设备包括:
存储器,用于存储指令;以及
处理器,用于调用所述存储器存储的指令执行如权利要求1-5中任意一项所述的数据融合方法。
8.一种计算机可读存储介质,其中存储有指令,所述指令被处理器执行时,执行如权利要求1-5中任意一项所述的数据融合方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010512990.2A CN111625545B (zh) | 2020-06-08 | 2020-06-08 | 数据融合方法、数据融合装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010512990.2A CN111625545B (zh) | 2020-06-08 | 2020-06-08 | 数据融合方法、数据融合装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111625545A CN111625545A (zh) | 2020-09-04 |
CN111625545B true CN111625545B (zh) | 2023-09-01 |
Family
ID=72270390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010512990.2A Active CN111625545B (zh) | 2020-06-08 | 2020-06-08 | 数据融合方法、数据融合装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111625545B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112322497A (zh) * | 2020-11-03 | 2021-02-05 | 蒙自海关综合技术中心 | 一种石榴病原菌流行趋势评估方法及系统 |
CN112765162B (zh) * | 2020-12-31 | 2021-11-23 | 医渡云(北京)技术有限公司 | 基于多源数据的唯一身份标识的确定方法、装置、介质及设备 |
CN112800179B (zh) * | 2021-02-02 | 2022-02-15 | 浙江公共安全技术研究院有限公司 | 关联数据库查询方法、装置、存储介质及电子设备 |
CN112765183B (zh) * | 2021-02-02 | 2022-02-11 | 浙江公共安全技术研究院有限公司 | 多源数据融合方法、装置、存储介质及电子设备 |
CN113315813A (zh) * | 2021-05-08 | 2021-08-27 | 重庆第二师范学院 | 一种大数据网际信息链系统的信息交换方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008092149A2 (en) * | 2007-01-26 | 2008-07-31 | Information Resources, Inc. | Data fusion methods and systems |
CN106228440A (zh) * | 2016-08-02 | 2016-12-14 | 南京坦道信息科技有限公司 | 一种基于维度映射匹配的收入指标高效出账方法 |
CN107247787A (zh) * | 2017-06-15 | 2017-10-13 | 山东浪潮云服务信息科技有限公司 | 一种基于多源数据融合的分类方法 |
CN107704508A (zh) * | 2017-08-31 | 2018-02-16 | 北京空间飞行器总体设计部 | 多类型海量空间目标数据的数据融合与数据挖掘方法 |
CN108241692A (zh) * | 2016-12-26 | 2018-07-03 | 北京国双科技有限公司 | 数据的查询方法及装置 |
CN110119413A (zh) * | 2019-04-30 | 2019-08-13 | 京东城市(南京)科技有限公司 | 数据融合的方法和装置 |
CN111198910A (zh) * | 2018-11-16 | 2020-05-26 | 杭州海康威视数字技术股份有限公司 | 数据融合方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10325272B2 (en) * | 2004-02-20 | 2019-06-18 | Information Resources, Inc. | Bias reduction using data fusion of household panel data and transaction data |
DE102006015452A1 (de) * | 2006-03-31 | 2007-10-11 | Siemens Ag | Verfahren und Vorrichtung zur Detektion von chemischen Anomalien und/oder Auffälligkeiten in Weichgewebe eines Objektbereiches |
DE102006058906B4 (de) * | 2006-12-13 | 2016-12-15 | Siemens Healthcare Gmbh | Verfahren zur Darstellung von tomographischen Aufnahmen und Tomographiesystem oder Tomographiesystemverbund zur Durchführung dieses Verfahrens |
DE102009052315B4 (de) * | 2009-11-02 | 2019-03-07 | Siemens Healthcare Gmbh | Verfahren zur Hervorhebung lokaler Eigenschaften in anatomischen Volumendarstellungen von Gefäßstrukturen und Computersystem zur Durchführung dieses Verfahrens |
US8799235B2 (en) * | 2012-09-07 | 2014-08-05 | Oracle International Corporation | Data de-duplication system |
US9122916B2 (en) * | 2013-03-14 | 2015-09-01 | Honda Motor Co., Ltd. | Three dimensional fingertip tracking |
US10346433B2 (en) * | 2015-03-18 | 2019-07-09 | Oath Inc. | Techniques for modeling aggregation records |
-
2020
- 2020-06-08 CN CN202010512990.2A patent/CN111625545B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008092149A2 (en) * | 2007-01-26 | 2008-07-31 | Information Resources, Inc. | Data fusion methods and systems |
CN106228440A (zh) * | 2016-08-02 | 2016-12-14 | 南京坦道信息科技有限公司 | 一种基于维度映射匹配的收入指标高效出账方法 |
CN107392748A (zh) * | 2016-08-02 | 2017-11-24 | 南京坦道信息科技有限公司 | 一种基于维度映射匹配的收入指标高效出账系统及方法 |
CN108241692A (zh) * | 2016-12-26 | 2018-07-03 | 北京国双科技有限公司 | 数据的查询方法及装置 |
CN107247787A (zh) * | 2017-06-15 | 2017-10-13 | 山东浪潮云服务信息科技有限公司 | 一种基于多源数据融合的分类方法 |
CN107704508A (zh) * | 2017-08-31 | 2018-02-16 | 北京空间飞行器总体设计部 | 多类型海量空间目标数据的数据融合与数据挖掘方法 |
CN111198910A (zh) * | 2018-11-16 | 2020-05-26 | 杭州海康威视数字技术股份有限公司 | 数据融合方法及装置 |
CN110119413A (zh) * | 2019-04-30 | 2019-08-13 | 京东城市(南京)科技有限公司 | 数据融合的方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于Wi-Fi与多传感器数据融合的室内定位优化方法研究;谷亚军;中国优秀硕士毕业论文;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111625545A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111625545B (zh) | 数据融合方法、数据融合装置及存储介质 | |
CN108027818B (zh) | 基于图的查询 | |
US8862566B2 (en) | Systems and methods for intelligent parallel searching | |
US20170212945A1 (en) | Branchable graph databases | |
US20180004781A1 (en) | Data lineage analysis | |
WO2023273235A1 (zh) | 一种文件的数据比对方法、装置、设备及存储介质 | |
US8977587B2 (en) | Sampling transactions from multi-level log file records | |
CN109241075B (zh) | 指标基础数据的处理方法、设备及计算机可读存储介质 | |
US20160132496A1 (en) | Data filtering | |
CN111796809A (zh) | 接口文档生成方法、装置、电子设备及介质 | |
CN112612813A (zh) | 一种测试数据的生成方法和装置 | |
CN110019694A (zh) | 用于知识图谱的方法、装置和计算机可读存储介质 | |
CN114443854A (zh) | 多源异构数据的处理方法、装置、计算机设备及存储介质 | |
CN108009223B (zh) | 一种交易数据的一致性检测方法及装置 | |
CN109214640B (zh) | 指标结果的确定方法、设备及计算机可读存储介质 | |
JP2015103110A (ja) | 事故分析活用支援装置および方法 | |
CN113704343A (zh) | 一种数据治理中的数据血缘可视化实现方法及系统 | |
Akca et al. | Run-time measurement of cosmic functional size for java business applications: Initial results | |
CN113760891A (zh) | 一种数据表的生成方法、装置、设备和存储介质 | |
CN116132499B (zh) | 调用链的压缩方法、装置、计算机设备及存储介质 | |
CN112214557A (zh) | 数据匹配分类方法及装置 | |
US9785404B2 (en) | Method and system for analyzing data in artifacts and creating a modifiable data network | |
CN116186119A (zh) | 用户行为分析方法、装置、设备及存储介质 | |
US10664501B2 (en) | Deriving and interpreting users collective data asset use across analytic software systems | |
CN114860759A (zh) | 一种数据处理方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231023 Address after: No. 407, 4th Floor, Digital Content Industrial Park, Building 19, Group A3-3, Yuncheng Shangpin, Yuncheng Street, Baiyun District, Guiyang City, Guizhou Province, 550000 Patentee after: Mafengwo (Guizhou) Tourism Group Co.,Ltd. Address before: 100015 building 10, No.9 Jiuxianqiao North Road, Chaoyang District, Beijing Patentee before: BEIJING CHUANGXIN JOURNEY NETWORK TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |