CN112817569A - 一种面向分析的数据快速映射方法、设备及存储介质 - Google Patents

一种面向分析的数据快速映射方法、设备及存储介质 Download PDF

Info

Publication number
CN112817569A
CN112817569A CN202110165134.9A CN202110165134A CN112817569A CN 112817569 A CN112817569 A CN 112817569A CN 202110165134 A CN202110165134 A CN 202110165134A CN 112817569 A CN112817569 A CN 112817569A
Authority
CN
China
Prior art keywords
analysis
data
mapping
equal
ltoreq
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110165134.9A
Other languages
English (en)
Other versions
CN112817569B (zh
Inventor
隋少春
王攀
张历记
王晨
宋亮
陈振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Aircraft Industrial Group Co Ltd
Sichuan Energy Internet Research Institute EIRI Tsinghua University
Original Assignee
Chengdu Aircraft Industrial Group Co Ltd
Sichuan Energy Internet Research Institute EIRI Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Aircraft Industrial Group Co Ltd, Sichuan Energy Internet Research Institute EIRI Tsinghua University filed Critical Chengdu Aircraft Industrial Group Co Ltd
Priority to CN202110165134.9A priority Critical patent/CN112817569B/zh
Publication of CN112817569A publication Critical patent/CN112817569A/zh
Application granted granted Critical
Publication of CN112817569B publication Critical patent/CN112817569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/20Software design
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种面向分析的数据快速映射方法、设备及存储介质,其中该方法以已有的分析指标为基础,建立并维护分析数据与基础数据的映射关系;在进行新的指标分析时,通过已有的映射关系快速找到所需要的数据,并根据查找情况更新映射关系。本发明通过构建分析数据集和基础数据集间的映射矩阵来保存已有的映射关系,并支持对这种关系的重复利用。在进行新的分析时,首先基于数据名称的语义相似度查找并建立映射关系,达到简化建立关联关系过程的目的。

Description

一种面向分析的数据快速映射方法、设备及存储介质
技术领域
本发明涉及软件工程技术领域,尤其涉及一种面向分析的数据快速映射方法、设备及存储介质。
背景技术
基于已有的数据开展数据分析、从而获取各类指标,是企业对数据应用的一个重要方面,也是数据发挥价值的重要途径。计算指标需要的各个数据项分散在企业应用系统的各个数据表中,在进行分析时需要人工建立分析数据和基础数据之间的关联,进而在计算时从基础数据中获取需要的数据。建立关联关系的过程通常需要人工完成,耗费大量的精力来分析和判断,且已有的关联关系难以直接应用。因此,如何利用在已经开展的指标分析中积累的分析数据和基础数据之间的关联映射关系,在进行新的指标分析时快速地获取这些关联关系,进而快速对指标进行数据分析,是亟待解决的问题。
文献“基于MapReduce的书目数据关联匹配研究.现代图书情报技术,2013(09):15-22.”公开了一种以书目为对象的数据关联匹配架构,通过对书目数据和书目数据间的关联匹配,以及书目数据和开放关联社区其他的关联数据间的匹配初步实现书目数据和其他关联数据集间的语义关联,使关联的书目数据成为关联开放数据社区中的一部分。文献所述方法更多地关注应用层面,如何从更加基础的底层快速获取数据之间的关联,从而支撑分析,仍然缺乏相应的方法。
发明内容
为了解决上述问题,本发明提出一种面向分析的数据快速映射方法、设备及存储介质,本发明的技术方案如下:
一种面向分析的数据快速映射方法,以已有的分析指标为基础,建立并维护分析数据与基础数据的映射关系;在进行新的指标分析时,通过已有的映射关系快速找到所需要的数据,并根据查找情况更新映射关系。
进一步的,所述以已有的分析指标为基础,建立并维护分析数据与基础数据的映射关系包括以下步骤:
1.对于包含t个分析数据的分析指标Fa,将其表示为:
Fa={da,1,da,2,…,da,t} (1)
式中:da,i(1≤i≤t)为计算分析指标Fa需要的一个分析数据;
2.对于一系列已有的分析指标Fa,对其包含的分析数据取并集,获得包含m个分析数据项的分析数据集D:
D={d1,d2,…,dm} (2)
式中:di(1≤i≤m)为分析数据集D中的一个分析数据项;
3.针对多个数据表中的数据项,构建包含w个基础数据项的基础数据集S:
S={s1,s2,…,sw} (3)
式中:si(1≤i≤w)为基础数据集S中的一个基础数据项;
4.构建分析数据集D和基础数据集S间的映射矩阵T:
T=[ti,j]m×w (4)
式中:ti,j(1≤i≤m,1≤j≤w)表示分析数据与基础数据的映射关系,其取值:
Figure BDA0002937577610000031
进一步的,所述在进行新的指标分析时,通过已有的映射关系快速找到所需要的数据,并根据查找情况更新映射关系包括步骤5:
对于一个新的分析指标Fu={du,1,du,2,…,du,v},由于相同数据必定有相同或相似的名称,故通过数据项名称的语义相似度计算获得可能的数据对应关系,并加以分析快速获得所需的关联关系。
进一步的,步骤5包括以下子步骤:
5-1.对于每一个du,q(1≤q≤v),通过数据名称查找分析数据集D中是否存在di(1≤i≤m)使得di与du,q名称相同,若有则du,q=di,且在映射矩阵T中查找,若ti,p=1(1≤p≤w),则du,q=sp;否则,进入步骤5-2;
5-2.确定分析数据集D中是否有与du,q相同却不同名称的分析数据项;
5-3.确定du,q与S中基础数据项sr(1≤r≤w)的关联关系。
进一步的,步骤5-2包括以下子步骤:
5-2-1.令Txi表示du,q与di的语义相似度,计算du,q与分析数据集D中每一个分析数据项的语义相似度,获得语义相似度集合TX=[Tx1,Tx2,…,Txm];
5-2-2.从最大的Txi开始,分析du,q与di是否是同一数据项;若是,则du,q=di,且进入步骤5-2-3;否则,选取TX中次大的Txi,重复本步骤;若du,q与分析数据集D中每一个分析数据项都不相同,则进入步骤5-3;
5-2-3.通过步骤5-2-2确定du,q=dz(1≤z≤m)后,在映射矩阵T中查找,若tz,p=1,则du,q=sp
进一步的,步骤5-3包括以下子步骤:
5-3-1.令Tyi表示du,q与si的语义相似度,计算du,q与S中每一个基础数据项的语义相似度,获得语义相似度集合TY=[Ty1,Ty2,…,Tyw];
5-3-2.从最大的Tyi开始,分析du,q与si的关联关系;若du,q与si存在关联关系,则进入步骤5-3-3;否则,选取TY中次大的Tyi,重复本步骤;
5-3-3.通过步骤5-3-2确定du,q与S中基础数据项sr的关联关系后,则du,q=sr,且更新分析数据集D和映射矩阵T。
进一步的,步骤5-3-3中,首先更新分析数据集D:
Figure BDA0002937577610000041
其次更新映射矩阵T:
Figure BDA0002937577610000042
一种面向分析的数据快速映射设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述面向分析的数据快速映射方法的步骤。
一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现所述面向分析的数据快速映射方法的步骤。
本发明的有益效果在于:
通过构建分析数据集和基础数据集间的映射矩阵来保存已有的映射关系,并支持对这种关系的重复利用。在进行新的分析时,首先基于数据名称的语义相似度查找并建立映射关系,达到简化建立关联关系过程的目的。
附图说明
图1是本发明的面向分析的数据快速映射方法流程图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现说明本发明的具体实施方式。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实例通过具体的数据映射实例来展示本发明的面向分析的数据快速映射方法,具体而言:
1.对于一系列已有的分析指标,对其包含的分析数据取并集,获得包含10个分析数据的分析数据集D:
D={d1,d2,…,d10} (1)
式中:
di(1≤i≤10)为分析数据集D中的一个分析数据;
2.针对多个数据表中的数据项,构建包含15个基础数据项的基础数据集S:
S={s1,s2,…,s15} (2)
式中:
si(1≤i≤15)为基础数据集S中的一个基础数据项;
3.构建分析数据集D和基础数据集S间的映射矩阵T:
Figure BDA0002937577610000061
4.对于一个新的分析指标Fu={du,1,du,2,…,du,5},需要快速获取其中每一个分析数据,则需要最大限度地利用已有的映射关系。对于每一个du,q(1≤q≤5):
4-1.存在du,1=d1,du,2=d3,du,3=d5,则快速获取相应的基础数据du,1=s1,du,2=s3,du,3=s6
4-2.确定D中是否有与du,4相同却不同名称的分析数据项:
4-2-1.计算du,4与D中每一个分析数据项的语义相似度,获得语义相似度集合TX=[Tx1,Tx2,…,Tx10]。
4-2-2.从最大的Txi开始,分析du,4与di是否是同一数据项。分析确定du,4与d6是同一数据项,且t6,8=1,则du,4=d8
4-3.确定D中是否有与du,5相同却不同名称的分析数据项:
4-3-1.计算du,5与D中每一个分析数据项的语义相似度,获得语义相似度集合TX=[Tx1,Tx2,…,Tx10]。
4-3-2.从最大的Txi开始,分析du,5与di是否是同一数据项。分析确定D中没有与du,5相同的数据项。
4-4.确定du,5与S中基础数据项sr(1≤r≤15)的关联关系:
5-3-1.令Tyi表示du,5与si的语义相似度,计算du,5与S中每一个基础数据项的语义相似度,获得语义相似度集合TY=[Ty1,Ty2,…,Ty15]。
5-3-2.从最大的Tyi开始,分析du,5与si的关联关系。通过分析确定du,5与s14存在关联关系,则du,5=s14,且更新D:
Figure BDA0002937577610000071
更新T:
Figure BDA0002937577610000081
该实施实例表明,本发明提出的面向分析的数据快速映射方法可用于快速获取支撑指标分析的数据,并能够取得较好的效果。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (9)

1.一种面向分析的数据快速映射方法,其特征在于,以已有的分析指标为基础,建立并维护分析数据与基础数据的映射关系;在进行新的指标分析时,通过已有的映射关系快速找到所需要的数据,并根据查找情况更新映射关系。
2.根据权利要求1所述的一种面向分析的数据快速映射方法,其特征在于,所述以已有的分析指标为基础,建立并维护分析数据与基础数据的映射关系包括以下步骤:
1.对于包含t个分析数据的分析指标Fa,将其表示为:
Fa={da,1,da,2,…,da,t} (1)
式中:da,i(1≤i≤t)为计算分析指标Fa需要的一个分析数据;
2.对于一系列已有的分析指标Fa,对其包含的分析数据取并集,获得包含m个分析数据项的分析数据集D:
D={d1,d2,…,dm} (2)
式中:di(1≤i≤m)为分析数据集D中的一个分析数据项;
3.针对多个数据表中的数据项,构建包含w个基础数据项的基础数据集S:
S={s1,s2,…,sw} (3)
式中:si(1≤i≤w)为基础数据集S中的一个基础数据项;
4.构建分析数据集D和基础数据集S间的映射矩阵T:
T=[ti,j]m×w (4)
式中:ti,j(1≤i≤m,1≤j≤w)表示分析数据与基础数据的映射关系,其取值:
Figure FDA0002937577600000021
3.根据权利要求2所述的一种面向分析的数据快速映射方法,其特征在于,所述在进行新的指标分析时,通过已有的映射关系快速找到所需要的数据,并根据查找情况更新映射关系包括步骤5:
对于一个新的分析指标Fu={du,1,du,2,…,du,v},由于相同数据必定有相同或相似的名称,故通过数据项名称的语义相似度计算获得可能的数据对应关系,并加以分析快速获得所需的关联关系。
4.根据权利要求3所述的一种面向分析的数据快速映射方法,其特征在于,步骤5包括以下子步骤:
5-1.对于每一个du,q(1≤q≤v),通过数据名称查找分析数据集D中是否存在di(1≤i≤m)使得di与du,q名称相同,若有则du,q=di,且在映射矩阵T中查找,若ti,p=1(1≤p≤w),则du,q=sp;否则,进入步骤5-2;
5-2.确定分析数据集D中是否有与du,q相同却不同名称的分析数据项;
5-3.确定du,q与S中基础数据项sr(1≤r≤w)的关联关系。
5.根据权利要求4所述的一种面向分析的数据快速映射方法,其特征在于,步骤5-2包括以下子步骤:
5-2-1.令Txi表示du,q与di的语义相似度,计算du,q与分析数据集D中每一个分析数据项的语义相似度,获得语义相似度集合TX=[Tx1,Tx2,…,Txm];
5-2-2.从最大的Txi开始,分析du,q与di是否是同一数据项;若是,则du,q=di,且进入步骤5-2-3;否则,选取TX中次大的Txi,重复本步骤;若du,q与分析数据集D中每一个分析数据项都不相同,则进入步骤5-3;
5-2-3.通过步骤5-2-2确定du,q=dz(1≤z≤m)后,在映射矩阵T中查找,若tz,p=1,则du,q=sp
6.根据权利要求5所述的一种面向分析的数据快速映射方法,其特征在于,步骤5-3包括以下子步骤:
5-3-1.令Tyi表示du,q与si的语义相似度,计算du,q与S中每一个基础数据项的语义相似度,获得语义相似度集合TY=[Ty1,Ty2,…,Tyw];
5-3-2.从最大的Tyi开始,分析du,q与si的关联关系;若du,q与si存在关联关系,则进入步骤5-3-3;否则,选取TY中次大的Tyi,重复本步骤;
5-3-3.通过步骤5-3-2确定du,q与S中基础数据项sr的关联关系后,则du,q=sr,且更新分析数据集D和映射矩阵T。
7.根据权利要求6所述的一种面向分析的数据快速映射方法,其特征在于,步骤5-3-3中,首先更新分析数据集D:
Figure FDA0002937577600000031
其次更新映射矩阵T:
Figure FDA0002937577600000041
8.一种面向分析的数据快速映射设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述方法的步骤。
9.一种存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法的步骤。
CN202110165134.9A 2021-02-06 2021-02-06 一种面向分析的数据快速映射方法、设备及存储介质 Active CN112817569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110165134.9A CN112817569B (zh) 2021-02-06 2021-02-06 一种面向分析的数据快速映射方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110165134.9A CN112817569B (zh) 2021-02-06 2021-02-06 一种面向分析的数据快速映射方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112817569A true CN112817569A (zh) 2021-05-18
CN112817569B CN112817569B (zh) 2023-10-17

Family

ID=75861955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110165134.9A Active CN112817569B (zh) 2021-02-06 2021-02-06 一种面向分析的数据快速映射方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112817569B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114691845A (zh) * 2022-02-22 2022-07-01 北京市农林科学院 语义搜索方法、装置、电子设备、存储介质及产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591952A (zh) * 2011-12-28 2012-07-18 用友软件股份有限公司 基于语义的数据查询装置和基于语义的数据查询方法
CN106095409A (zh) * 2016-05-31 2016-11-09 浪潮通用软件有限公司 一种数据映射的装置及方法
CN106570081A (zh) * 2016-10-18 2017-04-19 同济大学 基于语义网的大规模离线数据分析框架
US9922101B1 (en) * 2013-06-28 2018-03-20 Emc Corporation Coordinated configuration, management, and access across multiple data stores
CN110096216A (zh) * 2018-01-30 2019-08-06 伊姆西Ip控股有限责任公司 用于管理数据存储系统中的数据存储的方法、装置以及计算机程序产品
CN110895533A (zh) * 2019-11-29 2020-03-20 北京锐安科技有限公司 一种表单映射方法、装置、计算机设备和存储介质
CN112182273A (zh) * 2020-09-25 2021-01-05 贵州师范大学 基于语义约束矩阵分解哈希的跨模态检索方法及其系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591952A (zh) * 2011-12-28 2012-07-18 用友软件股份有限公司 基于语义的数据查询装置和基于语义的数据查询方法
US9922101B1 (en) * 2013-06-28 2018-03-20 Emc Corporation Coordinated configuration, management, and access across multiple data stores
CN106095409A (zh) * 2016-05-31 2016-11-09 浪潮通用软件有限公司 一种数据映射的装置及方法
CN106570081A (zh) * 2016-10-18 2017-04-19 同济大学 基于语义网的大规模离线数据分析框架
CN110096216A (zh) * 2018-01-30 2019-08-06 伊姆西Ip控股有限责任公司 用于管理数据存储系统中的数据存储的方法、装置以及计算机程序产品
CN110895533A (zh) * 2019-11-29 2020-03-20 北京锐安科技有限公司 一种表单映射方法、装置、计算机设备和存储介质
CN112182273A (zh) * 2020-09-25 2021-01-05 贵州师范大学 基于语义约束矩阵分解哈希的跨模态检索方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
樊秋妮 等: ""关联数据在图书馆书目数据语义化中的应用分析"", 《图书馆学研究》, pages 53 - 62 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114691845A (zh) * 2022-02-22 2022-07-01 北京市农林科学院 语义搜索方法、装置、电子设备、存储介质及产品

Also Published As

Publication number Publication date
CN112817569B (zh) 2023-10-17

Similar Documents

Publication Publication Date Title
US6901411B2 (en) Statistical bigram correlation model for image retrieval
US7853770B2 (en) Storage system, data relocation method thereof, and recording medium that records data relocation program
US7844139B2 (en) Information management apparatus, information management method, and computer program product
US20090248657A1 (en) web searching
CN102640146B (zh) 数据库搜索方法、系统和控制器
CN108399213B (zh) 一种面向用户个人文件的聚类方法及系统
CN116805044B (zh) 一种标签的获取方法、电子设备及存储介质
WO1995009400A1 (fr) Procede et dispositif de gestion de bases de donnees, et procede et dispositif d'extraction de donnees a partir de la base de donnees
CN109063215B (zh) 数据检索方法及装置
US7716144B2 (en) Consistent weighted sampling of multisets and distributions
CN113065018A (zh) 一种音视频的索引库创建和检索方法、装置及电子设备
CN112817569A (zh) 一种面向分析的数据快速映射方法、设备及存储介质
CN110968723B (zh) 一种图像特征值的搜索方法、装置及电子设备
EP3644195A1 (en) System for storing and querying document collections
US6070169A (en) Method and system for the determination of a particular data object utilizing attributes associated with the object
US11244000B2 (en) Information processing apparatus and non-transitory computer readable medium storing program for creating index for document retrieval
CN111639496A (zh) 一种基于智能加权分词技术的文本相似度计算方法和系统
CN116010670A (zh) 一种基于数据血缘关系的数据目录推荐方法、装置及应用
CN113625967B (zh) 数据存储方法、数据查询方法及服务器
CN108170664A (zh) 基于重点关键词的关键词拓展方法和装置
CN107506398B (zh) 一种为图书添加标签属性的方法
Baioco et al. Mamcost: Global and local estimates leading to robust cost estimation of similarity queries
CN112269946B (zh) 一种协同过滤并权衡数据信息的api推荐方法与装置
CN116954697B (zh) 基于cmdb系统的实例下线方法、可读存储介质和设备
JP6511954B2 (ja) 情報処理装置及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant