CN112817569B

CN112817569B - 一种面向分析的数据快速映射方法、设备及存储介质

Info

Publication number: CN112817569B
Application number: CN202110165134.9A
Authority: CN
Inventors: 隋少春; 王攀; 张历记; 王晨; 宋亮; 陈振宇
Original assignee: Chengdu Aircraft Industrial Group Co Ltd; Sichuan Energy Internet Research Institute EIRI Tsinghua University
Current assignee: Chengdu Aircraft Industrial Group Co Ltd; Sichuan Energy Internet Research Institute EIRI Tsinghua University
Priority date: 2021-02-06
Filing date: 2021-02-06
Publication date: 2023-10-17
Anticipated expiration: 2041-02-06
Also published as: CN112817569A

Abstract

本发明公开了一种面向分析的数据快速映射方法、设备及存储介质，其中该方法以已有的分析指标为基础，建立并维护分析数据与基础数据的映射关系；在进行新的指标分析时，通过已有的映射关系快速找到所需要的数据，并根据查找情况更新映射关系。本发明通过构建分析数据集和基础数据集间的映射矩阵来保存已有的映射关系，并支持对这种关系的重复利用。在进行新的分析时，首先基于数据名称的语义相似度查找并建立映射关系，达到简化建立关联关系过程的目的。

Description

一种面向分析的数据快速映射方法、设备及存储介质

技术领域

本发明涉及软件工程技术领域，尤其涉及一种面向分析的数据快速映射方法、设备及存储介质。

背景技术

基于已有的数据开展数据分析、从而获取各类指标，是企业对数据应用的一个重要方面，也是数据发挥价值的重要途径。计算指标需要的各个数据项分散在企业应用系统的各个数据表中，在进行分析时需要人工建立分析数据和基础数据之间的关联，进而在计算时从基础数据中获取需要的数据。建立关联关系的过程通常需要人工完成，耗费大量的精力来分析和判断，且已有的关联关系难以直接应用。因此，如何利用在已经开展的指标分析中积累的分析数据和基础数据之间的关联映射关系，在进行新的指标分析时快速地获取这些关联关系，进而快速对指标进行数据分析，是亟待解决的问题。

文献“基于MapReduce的书目数据关联匹配研究.现代图书情报技术,2013(09):15-22.”公开了一种以书目为对象的数据关联匹配架构，通过对书目数据和书目数据间的关联匹配，以及书目数据和开放关联社区其他的关联数据间的匹配初步实现书目数据和其他关联数据集间的语义关联，使关联的书目数据成为关联开放数据社区中的一部分。文献所述方法更多地关注应用层面，如何从更加基础的底层快速获取数据之间的关联，从而支撑分析，仍然缺乏相应的方法。

发明内容

为了解决上述问题，本发明提出一种面向分析的数据快速映射方法、设备及存储介质，本发明的技术方案如下：

一种面向分析的数据快速映射方法，以已有的分析指标为基础，建立并维护分析数据与基础数据的映射关系；在进行新的指标分析时，通过已有的映射关系快速找到所需要的数据，并根据查找情况更新映射关系。

进一步的，所述以已有的分析指标为基础，建立并维护分析数据与基础数据的映射关系包括以下步骤：

1.对于包含t个分析数据的分析指标F_a，将其表示为：

F_a＝{d_a,1,d_a,2,…,d_a,t} (1)

式中：d_a,i(1≤i≤t)为计算分析指标F_a需要的一个分析数据；

2.对于一系列已有的分析指标F_a，对其包含的分析数据取并集，获得包含m个分析数据项的分析数据集D：

D＝{d₁,d₂,…,d_m} (2)

式中：d_i(1≤i≤m)为分析数据集D中的一个分析数据项；

3.针对多个数据表中的数据项，构建包含w个基础数据项的基础数据集S：

S＝{s₁,s₂,…,s_w} (3)

式中：s_i(1≤i≤w)为基础数据集S中的一个基础数据项；

4.构建分析数据集D和基础数据集S间的映射矩阵T：

T＝[t_i,j]_m×w (4)

式中：t_i,j(1≤i≤m,1≤j≤w)表示分析数据与基础数据的映射关系，其取值：

进一步的，所述在进行新的指标分析时，通过已有的映射关系快速找到所需要的数据，并根据查找情况更新映射关系包括步骤5：

对于一个新的分析指标F_u＝{d_u,1,d_u,2,…,d_u,v}，由于相同数据必定有相同或相似的名称，故通过数据项名称的语义相似度计算获得可能的数据对应关系，并加以分析快速获得所需的关联关系。

进一步的，步骤5包括以下子步骤：

5-1.对于每一个d_u,q(1≤q≤v)，通过数据名称查找分析数据集D中是否存在d_i(1≤i≤m)使得d_i与d_u,q名称相同，若有则d_u,q＝d_i，且在映射矩阵T中查找，若t_i,p＝1(1≤p≤w)，则d_u,q＝s_p；否则，进入步骤5-2；

5-2.确定分析数据集D中是否有与d_u,q相同却不同名称的分析数据项；

5-3.确定d_u,q与S中基础数据项s_r(1≤r≤w)的关联关系。

进一步的，步骤5-2包括以下子步骤：

5-2-1.令Tx_i表示d_u,q与d_i的语义相似度，计算d_u,q与分析数据集D中每一个分析数据项的语义相似度，获得语义相似度集合TX＝[Tx₁,Tx₂,…,Tx_m]；

5-2-2.从最大的Tx_i开始，分析d_u,q与d_i是否是同一数据项；若是，则d_u,q＝d_i，且进入步骤5-2-3；否则，选取TX中次大的Tx_i，重复本步骤；若d_u,q与分析数据集D中每一个分析数据项都不相同，则进入步骤5-3；

5-2-3.通过步骤5-2-2确定d_u,q＝d_z(1≤z≤m)后，在映射矩阵T中查找，若t_z,p＝1，则d_u,q＝s_p。

进一步的，步骤5-3包括以下子步骤：

5-3-1.令Ty_i表示d_u,q与s_i的语义相似度，计算d_u,q与S中每一个基础数据项的语义相似度，获得语义相似度集合TY＝[Ty₁,Ty₂,…,Ty_w]；

5-3-2.从最大的Ty_i开始，分析d_u,q与s_i的关联关系；若d_u,q与s_i存在关联关系，则进入步骤5-3-3；否则，选取TY中次大的Ty_i，重复本步骤；

5-3-3.通过步骤5-3-2确定d_u,q与S中基础数据项s_r的关联关系后，则d_u,q＝s_r，且更新分析数据集D和映射矩阵T。

进一步的，步骤5-3-3中，首先更新分析数据集D：

其次更新映射矩阵T：

一种面向分析的数据快速映射设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述面向分析的数据快速映射方法的步骤。

一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现所述面向分析的数据快速映射方法的步骤。

本发明的有益效果在于：

通过构建分析数据集和基础数据集间的映射矩阵来保存已有的映射关系，并支持对这种关系的重复利用。在进行新的分析时，首先基于数据名称的语义相似度查找并建立映射关系，达到简化建立关联关系过程的目的。

附图说明

图1是本发明的面向分析的数据快速映射方法流程图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现说明本发明的具体实施方式。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实例通过具体的数据映射实例来展示本发明的面向分析的数据快速映射方法，具体而言：

1.对于一系列已有的分析指标，对其包含的分析数据取并集，获得包含10个分析数据的分析数据集D：

D＝{d₁,d₂,…,d₁₀} (1)

式中：

d_i(1≤i≤10)为分析数据集D中的一个分析数据；

2.针对多个数据表中的数据项，构建包含15个基础数据项的基础数据集S：

S＝{s₁,s₂,…,s₁₅} (2)

式中：

s_i(1≤i≤15)为基础数据集S中的一个基础数据项；

3.构建分析数据集D和基础数据集S间的映射矩阵T：

4.对于一个新的分析指标F_u＝{d_u,1,d_u,2,…,d_u,5}，需要快速获取其中每一个分析数据，则需要最大限度地利用已有的映射关系。对于每一个d_u,q(1≤q≤5)：

4-1.存在d_u,1＝d₁，d_u,2＝d₃，d_u,3＝d₅，则快速获取相应的基础数据d_u,1＝s₁，d_u,2＝s₃，d_u,3＝s₆。

4-2.确定D中是否有与d_u,4相同却不同名称的分析数据项：

4-2-1.计算d_u,4与D中每一个分析数据项的语义相似度，获得语义相似度集合TX＝[Tx₁,Tx₂,…,Tx₁₀]。

4-2-2.从最大的Tx_i开始，分析d_u,4与d_i是否是同一数据项。分析确定d_u,4与d₆是同一数据项，且t_6,8＝1，则d_u,4＝d₈。

4-3.确定D中是否有与d_u,5相同却不同名称的分析数据项：

4-3-1.计算d_u,5与D中每一个分析数据项的语义相似度，获得语义相似度集合TX＝[Tx₁,Tx₂,…,Tx₁₀]。

4-3-2.从最大的Tx_i开始，分析d_u,5与d_i是否是同一数据项。分析确定D中没有与d_u,5相同的数据项。

4-4.确定d_u,5与S中基础数据项s_r(1≤r≤15)的关联关系：

5-3-1.令Ty_i表示d_u,5与s_i的语义相似度，计算d_u,5与S中每一个基础数据项的语义相似度，获得语义相似度集合TY＝[Ty₁,Ty₂,…,Ty₁₅]。

5-3-2.从最大的Ty_i开始，分析d_u,5与s_i的关联关系。通过分析确定d_u,5与s₁₄存在关联关系，则d_u,5＝s₁₄，且更新D：

更新T：

该实施实例表明，本发明提出的面向分析的数据快速映射方法可用于快速获取支撑指标分析的数据，并能够取得较好的效果。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种面向分析的数据快速映射方法，其特征在于，以已有的分析指标为基础，建立并维护分析数据与基础数据的映射关系；在进行新的指标分析时，通过已有的映射关系快速找到所需要的数据，并根据查找情况更新映射关系；

所述以已有的分析指标为基础，建立并维护分析数据与基础数据的映射关系包括以下步骤：

步骤1.对于包含t个分析数据的分析指标，将其表示为：

(1)

式中：为计算分析指标/>需要的一个分析数据，其中/>；

步骤2.对于一系列已有的分析指标，对其包含的分析数据取并集，获得包含m个分析数据项的分析数据集D：

(2)

式中：为分析数据集D中的一个分析数据项，其中/>；

步骤3.针对多个数据表中的数据项，构建包含w个基础数据项的基础数据集S：

(3)

式中：为基础数据集S中的一个基础数据项，其中/>；

步骤4.构建分析数据集D和基础数据集S间的映射矩阵T：

(4)

式中：表示分析数据与基础数据的映射关系，其中/>，/>取值：

(5)；

所述在进行新的指标分析时，通过已有的映射关系快速找到所需要的数据，并根据查找情况更新映射关系包括：

步骤5.对于一个新的分析指标，由于相同数据必定有相同或相似的名称，故通过数据项名称的语义相似度计算获得可能的数据对应关系，并加以分析快速获得所需的关联关系；

步骤5包括以下子步骤：

5-1.对于每一个，通过数据名称查找分析数据集D中是否存在/>使得/>与/>名称相同，若有则/>，且在映射矩阵T中查找，若/>，则/>；否则，进入步骤5-2；其中，/>，/>，/>；

5-2.确定分析数据集D中是否有与相同却不同名称的分析数据项；

5-3.确定与S中基础数据项/>的关联关系，其中/>。

2.根据权利要求1所述的一种面向分析的数据快速映射方法，其特征在于，步骤5-2包括以下子步骤：

5-2-1.令表示/>与/>的语义相似度，计算/>与分析数据集D中每一个分析数据项的语义相似度，获得语义相似度集合/>；

5-2-2.从最大的开始，分析/>与/>是否是同一数据项；若是，则/>，且进入步骤5-2-3；否则，选取TX中次大的/>，重复本步骤；若/>与分析数据集D中每一个分析数据项都不相同，则进入步骤5-3；

5-2-3.通过步骤5-2-2确定后，其中/>，在映射矩阵T中查找，若/>，则/>。

3.根据权利要求2所述的一种面向分析的数据快速映射方法，其特征在于，步骤5-3包括以下子步骤：

5-3-1.令表示/>与/>的语义相似度，计算/>与S中每一个基础数据项的语义相似度，获得语义相似度集合/>；

5-3-2.从最大的开始，分析/>与/>的关联关系；若/>与/>存在关联关系，则进入步骤5-3-3；否则，选取TY中次大的/>，重复本步骤；

5-3-3.通过步骤5-3-2确定与S中基础数据项/>的关联关系后，则/>，且更新分析数据集D和映射矩阵T。

4.根据权利要求3所述的一种面向分析的数据快速映射方法，其特征在于，步骤5-3-3中，首先更新分析数据集D：

(6)

其次更新映射矩阵T：

(7)。

5.一种面向分析的数据快速映射设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-4任一项所述方法的步骤。

6.一种存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-4任一项所述的方法的步骤。