CN112817569B - 一种面向分析的数据快速映射方法、设备及存储介质 - Google Patents

一种面向分析的数据快速映射方法、设备及存储介质 Download PDF

Info

Publication number
CN112817569B
CN112817569B CN202110165134.9A CN202110165134A CN112817569B CN 112817569 B CN112817569 B CN 112817569B CN 202110165134 A CN202110165134 A CN 202110165134A CN 112817569 B CN112817569 B CN 112817569B
Authority
CN
China
Prior art keywords
data
analysis
mapping
steps
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110165134.9A
Other languages
English (en)
Other versions
CN112817569A (zh
Inventor
隋少春
王攀
张历记
王晨
宋亮
陈振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Aircraft Industrial Group Co Ltd
Sichuan Energy Internet Research Institute EIRI Tsinghua University
Original Assignee
Chengdu Aircraft Industrial Group Co Ltd
Sichuan Energy Internet Research Institute EIRI Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Aircraft Industrial Group Co Ltd, Sichuan Energy Internet Research Institute EIRI Tsinghua University filed Critical Chengdu Aircraft Industrial Group Co Ltd
Priority to CN202110165134.9A priority Critical patent/CN112817569B/zh
Publication of CN112817569A publication Critical patent/CN112817569A/zh
Application granted granted Critical
Publication of CN112817569B publication Critical patent/CN112817569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/20Software design
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向分析的数据快速映射方法、设备及存储介质,其中该方法以已有的分析指标为基础,建立并维护分析数据与基础数据的映射关系;在进行新的指标分析时,通过已有的映射关系快速找到所需要的数据,并根据查找情况更新映射关系。本发明通过构建分析数据集和基础数据集间的映射矩阵来保存已有的映射关系,并支持对这种关系的重复利用。在进行新的分析时,首先基于数据名称的语义相似度查找并建立映射关系,达到简化建立关联关系过程的目的。

Description

一种面向分析的数据快速映射方法、设备及存储介质
技术领域
本发明涉及软件工程技术领域,尤其涉及一种面向分析的数据快速映射方法、设备及存储介质。
背景技术
基于已有的数据开展数据分析、从而获取各类指标,是企业对数据应用的一个重要方面,也是数据发挥价值的重要途径。计算指标需要的各个数据项分散在企业应用系统的各个数据表中,在进行分析时需要人工建立分析数据和基础数据之间的关联,进而在计算时从基础数据中获取需要的数据。建立关联关系的过程通常需要人工完成,耗费大量的精力来分析和判断,且已有的关联关系难以直接应用。因此,如何利用在已经开展的指标分析中积累的分析数据和基础数据之间的关联映射关系,在进行新的指标分析时快速地获取这些关联关系,进而快速对指标进行数据分析,是亟待解决的问题。
文献“基于MapReduce的书目数据关联匹配研究.现代图书情报技术,2013(09):15-22.”公开了一种以书目为对象的数据关联匹配架构,通过对书目数据和书目数据间的关联匹配,以及书目数据和开放关联社区其他的关联数据间的匹配初步实现书目数据和其他关联数据集间的语义关联,使关联的书目数据成为关联开放数据社区中的一部分。文献所述方法更多地关注应用层面,如何从更加基础的底层快速获取数据之间的关联,从而支撑分析,仍然缺乏相应的方法。
发明内容
为了解决上述问题,本发明提出一种面向分析的数据快速映射方法、设备及存储介质,本发明的技术方案如下:
一种面向分析的数据快速映射方法,以已有的分析指标为基础,建立并维护分析数据与基础数据的映射关系;在进行新的指标分析时,通过已有的映射关系快速找到所需要的数据,并根据查找情况更新映射关系。
进一步的,所述以已有的分析指标为基础,建立并维护分析数据与基础数据的映射关系包括以下步骤:
1.对于包含t个分析数据的分析指标Fa,将其表示为:
Fa={da,1,da,2,…,da,t} (1)
式中:da,i(1≤i≤t)为计算分析指标Fa需要的一个分析数据;
2.对于一系列已有的分析指标Fa,对其包含的分析数据取并集,获得包含m个分析数据项的分析数据集D:
D={d1,d2,…,dm} (2)
式中:di(1≤i≤m)为分析数据集D中的一个分析数据项;
3.针对多个数据表中的数据项,构建包含w个基础数据项的基础数据集S:
S={s1,s2,…,sw} (3)
式中:si(1≤i≤w)为基础数据集S中的一个基础数据项;
4.构建分析数据集D和基础数据集S间的映射矩阵T:
T=[ti,j]m×w (4)
式中:ti,j(1≤i≤m,1≤j≤w)表示分析数据与基础数据的映射关系,其取值:
进一步的,所述在进行新的指标分析时,通过已有的映射关系快速找到所需要的数据,并根据查找情况更新映射关系包括步骤5:
对于一个新的分析指标Fu={du,1,du,2,…,du,v},由于相同数据必定有相同或相似的名称,故通过数据项名称的语义相似度计算获得可能的数据对应关系,并加以分析快速获得所需的关联关系。
进一步的,步骤5包括以下子步骤:
5-1.对于每一个du,q(1≤q≤v),通过数据名称查找分析数据集D中是否存在di(1≤i≤m)使得di与du,q名称相同,若有则du,q=di,且在映射矩阵T中查找,若ti,p=1(1≤p≤w),则du,q=sp;否则,进入步骤5-2;
5-2.确定分析数据集D中是否有与du,q相同却不同名称的分析数据项;
5-3.确定du,q与S中基础数据项sr(1≤r≤w)的关联关系。
进一步的,步骤5-2包括以下子步骤:
5-2-1.令Txi表示du,q与di的语义相似度,计算du,q与分析数据集D中每一个分析数据项的语义相似度,获得语义相似度集合TX=[Tx1,Tx2,…,Txm];
5-2-2.从最大的Txi开始,分析du,q与di是否是同一数据项;若是,则du,q=di,且进入步骤5-2-3;否则,选取TX中次大的Txi,重复本步骤;若du,q与分析数据集D中每一个分析数据项都不相同,则进入步骤5-3;
5-2-3.通过步骤5-2-2确定du,q=dz(1≤z≤m)后,在映射矩阵T中查找,若tz,p=1,则du,q=sp
进一步的,步骤5-3包括以下子步骤:
5-3-1.令Tyi表示du,q与si的语义相似度,计算du,q与S中每一个基础数据项的语义相似度,获得语义相似度集合TY=[Ty1,Ty2,…,Tyw];
5-3-2.从最大的Tyi开始,分析du,q与si的关联关系;若du,q与si存在关联关系,则进入步骤5-3-3;否则,选取TY中次大的Tyi,重复本步骤;
5-3-3.通过步骤5-3-2确定du,q与S中基础数据项sr的关联关系后,则du,q=sr,且更新分析数据集D和映射矩阵T。
进一步的,步骤5-3-3中,首先更新分析数据集D:
其次更新映射矩阵T:
一种面向分析的数据快速映射设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述面向分析的数据快速映射方法的步骤。
一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现所述面向分析的数据快速映射方法的步骤。
本发明的有益效果在于:
通过构建分析数据集和基础数据集间的映射矩阵来保存已有的映射关系,并支持对这种关系的重复利用。在进行新的分析时,首先基于数据名称的语义相似度查找并建立映射关系,达到简化建立关联关系过程的目的。
附图说明
图1是本发明的面向分析的数据快速映射方法流程图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现说明本发明的具体实施方式。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实例通过具体的数据映射实例来展示本发明的面向分析的数据快速映射方法,具体而言:
1.对于一系列已有的分析指标,对其包含的分析数据取并集,获得包含10个分析数据的分析数据集D:
D={d1,d2,…,d10} (1)
式中:
di(1≤i≤10)为分析数据集D中的一个分析数据;
2.针对多个数据表中的数据项,构建包含15个基础数据项的基础数据集S:
S={s1,s2,…,s15} (2)
式中:
si(1≤i≤15)为基础数据集S中的一个基础数据项;
3.构建分析数据集D和基础数据集S间的映射矩阵T:
4.对于一个新的分析指标Fu={du,1,du,2,…,du,5},需要快速获取其中每一个分析数据,则需要最大限度地利用已有的映射关系。对于每一个du,q(1≤q≤5):
4-1.存在du,1=d1,du,2=d3,du,3=d5,则快速获取相应的基础数据du,1=s1,du,2=s3,du,3=s6
4-2.确定D中是否有与du,4相同却不同名称的分析数据项:
4-2-1.计算du,4与D中每一个分析数据项的语义相似度,获得语义相似度集合TX=[Tx1,Tx2,…,Tx10]。
4-2-2.从最大的Txi开始,分析du,4与di是否是同一数据项。分析确定du,4与d6是同一数据项,且t6,8=1,则du,4=d8
4-3.确定D中是否有与du,5相同却不同名称的分析数据项:
4-3-1.计算du,5与D中每一个分析数据项的语义相似度,获得语义相似度集合TX=[Tx1,Tx2,…,Tx10]。
4-3-2.从最大的Txi开始,分析du,5与di是否是同一数据项。分析确定D中没有与du,5相同的数据项。
4-4.确定du,5与S中基础数据项sr(1≤r≤15)的关联关系:
5-3-1.令Tyi表示du,5与si的语义相似度,计算du,5与S中每一个基础数据项的语义相似度,获得语义相似度集合TY=[Ty1,Ty2,…,Ty15]。
5-3-2.从最大的Tyi开始,分析du,5与si的关联关系。通过分析确定du,5与s14存在关联关系,则du,5=s14,且更新D:
更新T:
该实施实例表明,本发明提出的面向分析的数据快速映射方法可用于快速获取支撑指标分析的数据,并能够取得较好的效果。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (6)

1.一种面向分析的数据快速映射方法,其特征在于,以已有的分析指标为基础,建立并维护分析数据与基础数据的映射关系;在进行新的指标分析时,通过已有的映射关系快速找到所需要的数据,并根据查找情况更新映射关系;
所述以已有的分析指标为基础,建立并维护分析数据与基础数据的映射关系包括以下步骤:
步骤1.对于包含t个分析数据的分析指标,将其表示为:
(1)
式中:为计算分析指标/>需要的一个分析数据,其中/>
步骤2.对于一系列已有的分析指标,对其包含的分析数据取并集,获得包含m个分析数据项的分析数据集D
(2)
式中:为分析数据集D中的一个分析数据项,其中/>
步骤3.针对多个数据表中的数据项,构建包含w个基础数据项的基础数据集S
(3)
式中:为基础数据集S中的一个基础数据项,其中/>
步骤4.构建分析数据集D和基础数据集S间的映射矩阵T
(4)
式中:表示分析数据与基础数据的映射关系,其中/>,/>取值:
(5);
所述在进行新的指标分析时,通过已有的映射关系快速找到所需要的数据,并根据查找情况更新映射关系包括:
步骤5.对于一个新的分析指标,由于相同数据必定有相同或相似的名称,故通过数据项名称的语义相似度计算获得可能的数据对应关系,并加以分析快速获得所需的关联关系;
步骤5包括以下子步骤:
5-1.对于每一个,通过数据名称查找分析数据集D中是否存在/>使得/>与/>名称相同,若有则/>,且在映射矩阵T中查找,若/>,则/>;否则,进入步骤5-2;其中,/>,/>,/>
5-2.确定分析数据集D中是否有与相同却不同名称的分析数据项;
5-3.确定S中基础数据项/>的关联关系,其中/>
2.根据权利要求1所述的一种面向分析的数据快速映射方法,其特征在于,步骤5-2包括以下子步骤:
5-2-1.令表示/>与/>的语义相似度,计算/>与分析数据集D中每一个分析数据项的语义相似度,获得语义相似度集合/>
5-2-2.从最大的开始,分析/>与/>是否是同一数据项;若是,则/>,且进入步骤5-2-3;否则,选取TX中次大的/>,重复本步骤;若/>与分析数据集D中每一个分析数据项都不相同,则进入步骤5-3;
5-2-3.通过步骤5-2-2确定后,其中/>,在映射矩阵T中查找,若/>,则/>
3.根据权利要求2所述的一种面向分析的数据快速映射方法,其特征在于,步骤5-3包括以下子步骤:
5-3-1.令表示/>与/>的语义相似度,计算/>S中每一个基础数据项的语义相似度,获得语义相似度集合/>
5-3-2.从最大的开始,分析/>与/>的关联关系;若/>与/>存在关联关系,则进入步骤5-3-3;否则,选取TY中次大的/>,重复本步骤;
5-3-3.通过步骤5-3-2确定S中基础数据项/>的关联关系后,则/>,且更新分析数据集D和映射矩阵T
4.根据权利要求3所述的一种面向分析的数据快速映射方法,其特征在于,步骤5-3-3中,首先更新分析数据集D
(6)
其次更新映射矩阵T
(7)。
5.一种面向分析的数据快速映射设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-4任一项所述方法的步骤。
6.一种存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-4任一项所述的方法的步骤。
CN202110165134.9A 2021-02-06 2021-02-06 一种面向分析的数据快速映射方法、设备及存储介质 Active CN112817569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110165134.9A CN112817569B (zh) 2021-02-06 2021-02-06 一种面向分析的数据快速映射方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110165134.9A CN112817569B (zh) 2021-02-06 2021-02-06 一种面向分析的数据快速映射方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112817569A CN112817569A (zh) 2021-05-18
CN112817569B true CN112817569B (zh) 2023-10-17

Family

ID=75861955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110165134.9A Active CN112817569B (zh) 2021-02-06 2021-02-06 一种面向分析的数据快速映射方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112817569B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591952A (zh) * 2011-12-28 2012-07-18 用友软件股份有限公司 基于语义的数据查询装置和基于语义的数据查询方法
CN106095409A (zh) * 2016-05-31 2016-11-09 浪潮通用软件有限公司 一种数据映射的装置及方法
CN106570081A (zh) * 2016-10-18 2017-04-19 同济大学 基于语义网的大规模离线数据分析框架
US9922101B1 (en) * 2013-06-28 2018-03-20 Emc Corporation Coordinated configuration, management, and access across multiple data stores
CN110096216A (zh) * 2018-01-30 2019-08-06 伊姆西Ip控股有限责任公司 用于管理数据存储系统中的数据存储的方法、装置以及计算机程序产品
CN110895533A (zh) * 2019-11-29 2020-03-20 北京锐安科技有限公司 一种表单映射方法、装置、计算机设备和存储介质
CN112182273A (zh) * 2020-09-25 2021-01-05 贵州师范大学 基于语义约束矩阵分解哈希的跨模态检索方法及其系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591952A (zh) * 2011-12-28 2012-07-18 用友软件股份有限公司 基于语义的数据查询装置和基于语义的数据查询方法
US9922101B1 (en) * 2013-06-28 2018-03-20 Emc Corporation Coordinated configuration, management, and access across multiple data stores
CN106095409A (zh) * 2016-05-31 2016-11-09 浪潮通用软件有限公司 一种数据映射的装置及方法
CN106570081A (zh) * 2016-10-18 2017-04-19 同济大学 基于语义网的大规模离线数据分析框架
CN110096216A (zh) * 2018-01-30 2019-08-06 伊姆西Ip控股有限责任公司 用于管理数据存储系统中的数据存储的方法、装置以及计算机程序产品
CN110895533A (zh) * 2019-11-29 2020-03-20 北京锐安科技有限公司 一种表单映射方法、装置、计算机设备和存储介质
CN112182273A (zh) * 2020-09-25 2021-01-05 贵州师范大学 基于语义约束矩阵分解哈希的跨模态检索方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"关联数据在图书馆书目数据语义化中的应用分析";樊秋妮 等;《图书馆学研究》;第53-62页 *

Also Published As

Publication number Publication date
CN112817569A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
US8161048B2 (en) Database analysis using clusters
WO2003083713A1 (en) Method and apparatus for querying relational databases
CN111708779A (zh) 一种数据管理方法、系统、管理设备及存储介质
US20080065592A1 (en) Method, system and computer-readable media for software object relationship traversal for object-relational query binding
JP2001014329A (ja) データベース処理方法及び実施装置並びにその処理プログラムを記憶した媒体
CN111913954B (zh) 智能数据标准目录生成方法和装置
US20060074857A1 (en) Method and apparatus for querying relational databases
CN112817569B (zh) 一种面向分析的数据快速映射方法、设备及存储介质
CN110968723B (zh) 一种图像特征值的搜索方法、装置及电子设备
JP2009157442A (ja) データ検索装置および方法
CN102402684B (zh) 确定证书类型的方法和装置以及翻译证书的方法和装置
Jabbar et al. Graph based approach for heart disease prediction
Herbert et al. BIO-AJAX: an extensible framework for biological data cleaning
Zdepski et al. New Perspectives for NoSQL Database Design: A Systematic Review
JP2000040079A (ja) 並列データ分析装置
CN116595182A (zh) 一种基于知识图谱和语义理解的评审专家推荐系统
Irshad et al. SwCS: Section-Wise Content Similarity Approach to Exploit Scientific Big Data.
US7657417B2 (en) Method, system and machine readable medium for publishing documents using an ontological modeling system
Lilin Research on classification mining method of frequent itemset
Jemal et al. MapReduce-DBMS: an integration model for big data management and optimization
Baioco et al. Mamcost: Global and local estimates leading to robust cost estimation of similarity queries
US11550780B2 (en) Pre-constructed query recommendations for data analytics
Heuser et al. SimEval-A Tool for Evaluating the Quality of Similarity Functions.
KR102519538B1 (ko) 데이터 흐름 추적 방법 및 시스템
CN107480199A (zh) 数据库的查询重构方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant