CN108052618A - 数据管理方法及装置 - Google Patents

数据管理方法及装置 Download PDF

Info

Publication number
CN108052618A
CN108052618A CN201711346049.2A CN201711346049A CN108052618A CN 108052618 A CN108052618 A CN 108052618A CN 201711346049 A CN201711346049 A CN 201711346049A CN 108052618 A CN108052618 A CN 108052618A
Authority
CN
China
Prior art keywords
source data
model
meta
data
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711346049.2A
Other languages
English (en)
Other versions
CN108052618B (zh
Inventor
廖敏
王帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sohu New Media Information Technology Co Ltd
Original Assignee
Beijing Sohu New Media Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sohu New Media Information Technology Co Ltd filed Critical Beijing Sohu New Media Information Technology Co Ltd
Priority to CN201711346049.2A priority Critical patent/CN108052618B/zh
Publication of CN108052618A publication Critical patent/CN108052618A/zh
Application granted granted Critical
Publication of CN108052618B publication Critical patent/CN108052618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据管理方法,该管理方法可以确定不同存储系统中的源数据的存储特征,并根据存储特征生成源数据对应的元模型的属性,该步骤可以称为元模型的管理。该管理方法还可以确定存储特征的特征值,将特征值作为元模型的属性的属性值,从而得到元数据,该步骤可以称为元数据的管理。元数据可以描述源数据在存储系统中的存储特征,因此可以作为对源数据进行共享分析等处理操作的基础,实现了对源数据的管理。

Description

数据管理方法及装置
技术领域
本申请涉及元数据管理技术领域,更具体地,涉及数据管理方法及装置。
背景技术
数字化的加速,使得企业中存在海量的数据,大数据相关技术可以让企业数据的价值能被充分挖掘,但大数据往往意味着多种数据的采集、共享及分析。
由于实际业务的需求,海量数据通常存储在各种不同类型的系统中。例如数据存储在关系数据库(Relational Database,简称RDB)系统、hive系统、hbase系统、麒麟kylin系统、kafka系统等系统中。存储系统不同,数据的存储格式也不同,或者企业数据开发人员为了满足不同的业务需求,可能会转换数据的存储方式。
然而,各种不同存储方式的数据通常不能直接共享分析,会导致数据孤岛。因此,为了对这些以多种方式存储的海量数据进行共享分析,需要对数据进行基础管理。
发明内容
有鉴于此,本申请提供了一种数据管理方法,以对存储方式不同的海量数据进行基础管理。另外,本申请还提供了一种数据管理装置,用以保证所述方法在实际中的应用及实现。
为实现所述目的,本申请提供的技术方案如下:
第一方面,本申请提供了一种数据管理方法,包括:
确定多种存储类型的源数据的存储特征;
依据所述源数据的存储特征,生成所述源数据对应的元模型;其中所述元模型具有属性;
确定各种所述源数据的存储特征的特征值;
依据所述源数据的特征值,确定所述源数据对应的元模型的属性的属性值。
第二方面,本申请提供了一种数据管理装置,包括:
存储特征确定单元,用于确定多种存储类型的源数据的存储特征;
元模型生成单元,用于依据所述源数据的存储特征,生成所述源数据对应的元模型;其中所述元模型具有属性;
特征值确定单元,用于确定各种所述源数据的存储特征的特征值;
元数据生成单元,用于依据所述源数据的特征值,确定所述源数据对应的元模型的属性的属性值。
由以上可知,本申请提供了一种数据管理方法,该管理方法可以确定不同存储系统中的源数据的存储特征,并根据存储特征生成源数据对应的元模型的属性,该步骤可以称为元模型的管理。该管理方法还可以确定存储特征的特征值,将特征值作为元模型的属性的属性值,从而得到元数据,该步骤可以称为元数据的管理。元数据可以描述源数据在存储系统中的存储特征,因此可以作为对源数据进行共享分析等处理操作的基础,实现了对源数据的管理。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的数据管理方法的一种流程示意图;
图2为本申请提供的数据管理方法的另一种流程示意图;
图3为本申请提供的数据管理方法的又一种流程示意图;
图4为本申请提供的数据管理装置的一种结构示意图;
图5为本申请提供的数据管理装置的另一种结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于说明本申请的技术方案,首先对涉及到的术语进行说明。
元模型,用于描述元数据的结构和关系的数据模型。
元数据,关于数据的数据、描述数据及其环境数据,具体包括业务元数据、技术元数据及管理元数据。
属性,指的是元模型或元数据的属性。
元数据自动采集,指的是通过维护数据源的方式获取数据源的元数据信息,并通过接口导入元数据信息的过程。
元数据手动采集,指的是操作人员通过元数据管理操作界面对元数据进行采集的过程。
元数据模板导入,指的是操作人员通过上传指定模板格式的文件对元数据进行采集的过程。
影响分析,指的是在元数据的流转过程中,对该元数据向后流转为其他元数据的处理过程的分析。影响分析也可以称为血缘分析。
血统分析,指的是在元数据的流转过程中,对该元数据向前来源于其他元数据的过程的分析。
基于上述说明,对本申请提供的数据管理方法进行说明。如图1所示,其示出了本申请提供的数据管理方法的一种流程,具体包括步骤S101~S104。其中步骤S101及步骤S102可以称为元模型管理步骤,步骤S103及步骤S104可以称为元数据管理步骤。
S101:确定多种存储类型的源数据的存储特征。
其中,源数据存储在各种存储系统中,不同的存储系统数据的存储特征不同。存储特征用于描述存储系统对源数据的存储方式,可以包括但不局限于存储路径、存储格式、数据大小等等。
本步骤是确定每种存储类型的源数据各自的存储特征。本申请使用元模型描述源数据的存储特征。元模型具有属性,生成元模型即将源数据的存储特征作为元模型的属性,因此首先需要确定源数据的存储特征。确定源数据的存储特征的方式可以包括如下几种。、
第一种,获得元数据结构形式的描述文件,所述描述文件用于描述多种存储类型的源数据的存储特征。该种方式可以称为导入文件方式。具体地,描述文件可以是JSON(JavaScript Object Notation,简称JS对象表示法)结构的文件,JSON结构是一种元数据结构,包括属性字段,属性字段即源数据的存储特征。因此,导入JSON文件后,提取JSON文件中的属性字段作为源数据的存储特征。
第二种,手动添加方式。具体地,本申请提供操作界面,通过操作界面用户可以定义元模型所具有的属性,例如元模型可以具有的属性包括:名称、存储路径、存储大小、存储格式、父模型等等。需要说明的是,一个模型可以继承其他模型的属性,因此可以为该模型添加父模型这个属性字段。有关父模型需要说明的是,元模型之间可能具有继承关系,可以为不同种类的源数据抽取出共同的元模型作为父模型,然后在这些源数据的元模型中设置父模型这个属性,属性值即上述父模型即可,从而这些源数据的元模型通过该属性来继承父模型的属性。
S102:依据所述源数据的存储特征,生成所述源数据对应的元模型;其中所述元模型具有属性。
其中,将源数据的存储特征作为元模型的属性,便可以得到源数据的元模型。元模型可以由一系列属性构成,属性用于描述源数据在存储系统中存储的相关信息,如源数据的存储路径、源数据的大小、源数据的数据内容等等。每个属性也可以包括多项信息,如属性的名称、属性的数据类型、属性的描述、属性是否唯一、属性是否索引、属性最大值、属性最小值、属性是否可空等。
其中,为元模型的属性添加索引,是为了方便搜索到元模型的属性值。属性的数据类型可以包括多种,如布尔型、整数型、字符型、日期型、数组型、浮点型、枚举型、结构体类型、系统中包含的元模型等等。本申请可以提供常用的数据类型,以供用户进行选择。其中枚举型是一系列固定的具有某种特定含义的一类值。结构体类型也是由一系列属性构成,与元模型的区别是,结构体是属于某个元模型的,没有唯一标识。
元模型可以包括类、结构体、枚举等类型。元模型可以存储在元模型库中,每个元模型具有唯一的标识以为了区分。在实际应用中,可以按照上述方式预先构建元模型库,元模型库中包含有多种元模型,当需要某种元模型时,可以从元模型库中选择该种元模型即可。
元模型的生成方式是将源数据的存储特征作为属性。前已述及,源数据的采集方式可以包括导入方式,则相对应地,导入描述文件后生成元模型时,可以从描述文件中确定每种源数据对应的属性字段,并依据属性字段生成源数据对应的元模型的属性。需要说明的是,每种源数据均具有与其对应的元模型。
S103:确定各种所述源数据的存储特征的特征值。
其中,源数据在存储系统中具有存储特征,本步骤是为了确定存储特征的特征值。例如存储特征包括存储路径,则本步骤可以确定存储路径是什么。当然存储路径仅仅是示例说明,还可以是其他存储特征。
源数据的特征值可以保存为元模型的属性值,因此特征值即元模型所表示的数据,进而可以将特征值称为元数据。元数据以元模型的结构来描述源数据。本步骤可以简称为采集元数据。
本申请可以提供多种元数据的采集方式,具体如下。
第一种,手动采集方式。具体地,本申请可以提供操作界面,在操作界面上显示所生成的元模型或者所选择的元模型的属性,用户需要通过操作界面为属性输入相应的属性值,例如属性包括存储路径,则用户需要将源数据在存储系统中具体的存储路径输入至该属性的属性值中。当然,存储路径仅仅是示例说明,还可以是其他属性。需要说明的,元模型的某些属性可以为空,因此用户可以不必在该属性中输入属性值。
可以理解的是,属性具有数据类型,用户所添加的属性值需要符合属性的数据类型要求。因此,在用户添加的过程中,为了保证用户所添加的属性值的准确性,可以对不同数据类型做相应校验。如果是字符型数据类型,需要检测输入的属性值是否为字符型;如果是数字类型,需要检测输入的属性值是否为数字;如果是枚举类型,需要搜索枚举类型的值以供用户进行选择;如果是结构体类型,需要检测输入的属性值是否符合结构体的格式;如果是其他元模型类型,需要搜索该其他元模型的元数据以供用户进行选择。
第二种,自动采集方式。该种方式需要维护源数据,具体地,
可以维护源数据在存储系统中的属性如集群名称、集群账号等。确定源数据在存储系统中的存储路径,根据该存储路径访问源数据,进而获取到源数据在存储系统中的上述属性的属性值。
第三种,模板导入方式。提供元数据结构形式的模板文件,所述模板文件中包含源数据的存储特征;以及接收用户为所述存储特征输入的特征值。具体来讲,可以向用户提供模板文件,模板文件为元数据结构形式,包括元模型的属性,用户只需要在模板文件为各个属性添加属性值即可,该属性值即存储特征的特征值。需要说明的是,模板文件中的属性与元模型的属性具有一一对应关系,用户在模板文件中添加的属性值可以保存为元模型的属性的属性值。
S104:依据所述源数据的特征值,确定所述源数据对应的元模型的属性的属性值。
其中,得到存储特征的特征值后,直接将特征值作为元模型的属性值即可。可以理解的是,在存储特征为多个的情况下,各个存储特征的特征值作为各个存储特征对应的属性的属性值。
具有属性值的元模型即元数据。元数据的维护也可以按照上述方式进行,即当元数据发生变化时,可以通过操作界面由用户进行修改,也可以通过检测钩子将变更后的属性值更新到元数据中。
通过步骤S101及步骤S102的元模型管理步骤,可以为待管理的源数据对象定义元模型。元模型具有属性,通过步骤S103及步骤S104的元数据管理步骤,可以为定义的元模型添加或者更新属性值。其中元模型管理步骤可以定义元模型,定义方式可以是用户自定义,也可以是自动检测源数据在存储系统中的存储特征从而自动定义。元数据管理时需要对元数据进行采集,采集可以包括多种方式,例如自动采集、手动采集及模板导入。元数据的管理还可以包括元数据的维护,维护即更新过程,更新可以包括修改及删除。维护方式可以是手动维护,也可以是自动维护如通过检测钩子将源数据更新后的存储特征更新至元数据中。
由以上技术方案可知,本申请提供了一种数据管理方法,该管理方法可以确定不同存储系统中的源数据的存储特征,并根据存储特征生成源数据对应的元模型的属性,该步骤可以称为元模型的管理。该管理方法还可以确定存储特征的特征值,将特征值作为元模型的属性的属性值,从而得到元数据,该步骤可以称为元数据的管理。元数据可以描述源数据在存储系统中的存储特征,因此可以作为对源数据进行共享分析等处理操作的基础,实现了对源数据的管理。
元模型包括两类,一种是基本信息元模型,一类是关联元模型。其中基本信息元模型是用来描述元模型各自特征的元模型,关联元模型是用来描述该元模型与其他元模型之间的关系的元模型。
为了管理元模型之间的关系,可以建立关联元模型。因此,如图2所示,本申请提供了另一种数据管理方法,该方法中的步骤S201~S204与上述图1所示的步骤S101~S104相同,此处并不赘述,以下仅对步骤S205进行说明。
S201:确定多种存储类型的源数据的存储特征。
S202:依据所述源数据的存储特征,生成所述源数据对应的元模型;其中所述元模型具有属性。
S203:确定各种所述源数据的存储特征的特征值。
S204:依据所述源数据的特征值,确定所述源数据对应的元模型的属性的属性值。
S205:为所述源数据生成关联元模型,所述关联元模型用于表示源数据之间的关联关系,关联关系包括引用关系和/或被引用关系。
其中,引用关系表示的是某个源数据是来源于哪个源数据,引用关系即上述血统关系。被引用关系表示某个源数据可以流转为哪个源数据,或者说该源数据可以作为哪个源数据的处理基础,被引用关系即上述影响关系。
为源数据生成关联元模型,关联元模型中包含至少两个属性,分别为输入属性及输出属性,其中输入属性表示引用关系,输出属性表示被引用关系。为了表示被引用次数,引用次数表示的是某个源数据被多少其他的源数据引用,关联元模型还可以包括引用次数属性,引用次数属性的属性值表示被引用的次数。
S206:依据所述源数据与其他源数据的流转关系,确定所述关联元模型的属性的属性值。
其中,源数据与其他源数据之间的流转关系可以是由用户输入的,也可以是自动检测到的。源数据在存储系统中可以具有来源属性,来源属性记录有该源数据来源于哪个其他源数据,因此通过检测源数据在存储系统中的来源属性,便可以确定源数据之间的流转关系。
关联元模型具有属性,属性的属性值记录的便是源数据之间的关联关系。在确定出流转关系后,流转关系表示的是源数据之间的关联关系,根据关联关系便可以确定关联元模型的属性值。
具体地,源数据之间的关系一般是由调度产生的,一个调度有多个执行脚本,这些执行脚本通过调度系统按照定义的先后顺序执行。因此,可以在执行脚本中添加注释,在注释中定义调度产生的源数据有哪些,源数据之间的关联关系是怎样的。扫描调度系统中的脚本,便可以自动获得源数据之间的关联关系。需要说明的是,源数据可以通过存储在元模型中的元数据来表示,源数据之间的关联关系可以使用源数据所对应的元数据之间的关系来表示。
由以上技术方案可知,本申请还可以记录源数据之间的流转关系,从而可以明确源数据的来源及去向,便于对各个存储系统中的源数据进行整体分析。
源数据之间的关联关系的一个具体应用示例如下。
例如在hdfs系统中,包含某个源数据的文件,该文件内存储有商品的销售数据。由于业务需求的需求,需要根据该源数据所表示的销售数据建立一张hive表,该表用于做销售业务查询,其中该hive表可以看做另一种源数据。但是在hive表中进行业务查询时耗时较长,因此还需要预先在kylin系统中在hive表的基础上建立又一种与kylin系统相关的源数据,该源数据用于预先存储业务查询可能用到的查询数据,以加快查询速度。在该又一种源数据上可以进行业务查询,查询的结果可以最终保存到mysql表中。
可见,在这个业务查询过程中会涉及到四种类型的源数据,分别为hdsf系统中的源数据、hive系统中的源数据、kylin系统中的源数据及mysql系统中的源数据,在不同的系统中源数据的存储格式是不同的,且这些源数据之间存在关联关系,关联关系指的是一种源数据是在另一种源数据的基础上经过处理后得到的。或者说关联关系是一种流转关系。
为了记录上述源数据之间的流转关系,可以首先建立各个源数据的元模型,并采集源数据的属性至元模型中,从而得到源数据对应的元数据。例如,采集hdfs系统中的源数据的属性,得到该源数据的元数据,假设该元数据名称为/user/appuser/files/productdata;采集hive系统中的源数据的属性,得到该源数据的元数据,假设该元数据名称为hive_product。然后建立关联元模型,该关联元模型用于记录该两个元数据之间的关联关系,该关联元模型包含有两个属性,分别为input属性及output属性。其中input属性的属性值指向/user/appuser/files/productdata,output属性的属性值指向hive_product。因此根据该关联元模型可以看出源数据之间的流转关系,即从hdsf系统中的源数据可以得到hive系统中的源数据。
上述步骤S205及步骤S206可以生成关联元模型,因此在上述方法的基础上,还可以包括对元模型之间的关联关系的分析步骤。
具体地,按照查询条件,在所述关联元模型中的查询符合所述查询条件的关联关系;以及通过图示的形式展示所述关联关系。其中查询条件可以包括目标源数据、查询方向、查询层级。其中目标源数据表示所查询的源数据;查询方向表示来源或者去向,分别表示查询目标源数据的引用关系及被引用关系;查询层级表示需要查询多少层关联关系。
为了便于说明本申请的技术方案,可以结合图3说明。
数据管理可以包括元模型管理、元数据管理、元数据分析三部分。其中,元模型管理可以包括用户自定义及自动检测添加两种方式。元数据管理可以包括元数据采集及元数据维护两部分,其中元数据采集可以包括手动采集、自动采集及模板导入三种方式;元数据维护可以包括基本信息维护、关联关系维护、操作审计。其中操作审计指的是在对基本信息维护及关联关系维护过程的信息进行记录,如记录维护时间、维护人员、维护对象及维护内容等。基本信息维护可以包括两种方式,即手动维护及自动维护。关联关系维护可以包括两种方式,即手动维护及自动维护。元数据分析包括关联关系的查询。
见图4,其示出了本申请提供的一种数据管理装置的结构。如图4所示,该数据管理装置可以具体包括:存储特征确定单元401、元模型生成单元402、特征值确定单元403及元数据生成单元404。
存储特征确定单元401,用于确定多种存储类型的源数据的存储特征;
元模型生成单元402,用于依据所述源数据的存储特征,生成所述源数据对应的元模型;其中所述元模型具有属性;
特征值确定单元403,用于确定各种所述源数据的存储特征的特征值;
元数据生成单元404,用于依据所述源数据的特征值,确定所述源数据对应的元模型的属性的属性值。
在一个示例中,所述存储特征确定单元包括:存储特征确定子单元。
存储特征确定子单元,用于获得元数据结构形式的描述文件,所述描述文件用于描述多种存储类型的源数据的存储特征;
相应地,所述元模型生成单元包括:元模型生成子单元。
元模型生成子单元,用于从所述描述文件中确定每种源数据对应的属性字段,并依据所述属性字段生成源数据对应的元模型的属性。
在一个示例中,所述源数据在存储系统中具有存储属性,且存储属性具有属性值;则所述特征值确定单元包括:检测子单元。
检测子单元,用于获得所述源数据的存储属性的属性值,将所述属性值作为所述源数据的存储特征的特征值。
在一个示例中,所述特征值确定单元包括:模板采集子单元。
模板采集子单元,用于提供元数据结构形式的模板文件,所述模板文件中包含源数据的存储特征;以及接收用户为所述存储特征输入的特征值。
如图5所示,数据管理装置在上述图4的基础上,还可以包括:关联关系记录单元405及关联关系查询单元406。
关联关系记录单元405,用于为所述源数据生成关联元模型,所述关联元模型用于表示源数据之间的关联关系;以及依据所述源数据与其他源数据的流转关系,确定所述关联元模型的属性的属性值。
关联关系查询单元406,用于依据查询条件,在所述关联元模型中的查询符合所述查询条件的关联关系;以及通过图示的形式展示所述关联关系。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种数据管理方法,其特征在于,包括:
确定多种存储类型的源数据的存储特征;
依据所述源数据的存储特征,生成所述源数据对应的元模型;其中所述元模型具有属性;
确定各种所述源数据的存储特征的特征值;
依据所述源数据的特征值,确定所述源数据对应的元模型的属性的属性值。
2.根据权利要求1所述的数据管理方法,其特征在于,所述确定多种存储类型的源数据的存储特征,包括:
获得元数据结构形式的描述文件,所述描述文件用于描述多种存储类型的源数据的存储特征;
则所述依据所述源数据的存储特征,生成所述源数据对应的元模型,包括:
从所述描述文件中确定每种源数据对应的属性字段,并依据所述属性字段生成源数据对应的元模型的属性。
3.根据权利要求1所述的数据管理方法,其特征在于,所述源数据在存储系统中具有存储属性,且存储属性具有属性值;则所述确定各种所述源数据的存储特征的特征值,包括:
获得所述源数据的存储属性的属性值,将所述属性值作为所述源数据的存储特征的特征值。
4.根据权利要求1所述的数据管理方法,其特征在于,所述确定各种所述源数据的存储特征的特征值,包括:
提供元数据结构形式的模板文件,所述模板文件中包含源数据的存储特征;
接收用户为所述存储特征输入的特征值。
5.根据权利要求1所述的数据管理方法,其特征在于,还包括:
为所述源数据生成关联元模型,所述关联元模型用于表示源数据之间的关联关系;
依据所述源数据与其他源数据的流转关系,确定所述关联元模型的属性的属性值。
6.根据权利要求5所述的数据管理方法,其特征在于,还包括:
依据查询条件,在所述关联元模型中的查询符合所述查询条件的关联关系;
通过图示的形式展示所述关联关系。
7.一种数据管理装置,其特征在于,包括:
存储特征确定单元,用于确定多种存储类型的源数据的存储特征;
元模型生成单元,用于依据所述源数据的存储特征,生成所述源数据对应的元模型;其中所述元模型具有属性;
特征值确定单元,用于确定各种所述源数据的存储特征的特征值;
元数据生成单元,用于依据所述源数据的特征值,确定所述源数据对应的元模型的属性的属性值。
8.根据权利要求7所述的数据管理装置,其特征在于,所述存储特征确定单元包括:
存储特征确定子单元,用于获得元数据结构形式的描述文件,所述描述文件用于描述多种存储类型的源数据的存储特征;
则所述元模型生成单元包括:
元模型生成子单元,用于从所述描述文件中确定每种源数据对应的属性字段,并依据所述属性字段生成源数据对应的元模型的属性。
9.根据权利要求7所述的数据管理装置,其特征在于,所述源数据在存储系统中具有存储属性,且存储属性具有属性值;则所述特征值确定单元包括:
检测子单元,用于获得所述源数据的存储属性的属性值,将所述属性值作为所述源数据的存储特征的特征值。
10.根据权利要求7所述的数据管理装置,其特征在于,所述特征值确定单元包括:
模板采集子单元,用于提供元数据结构形式的模板文件,所述模板文件中包含源数据的存储特征;以及接收用户为所述存储特征输入的特征值。
11.根据权利要求7所述的数据管理装置,其特征在于,还包括:
关联关系记录单元,用于为所述源数据生成关联元模型,所述关联元模型用于表示源数据之间的关联关系;以及依据所述源数据与其他源数据的流转关系,确定所述关联元模型的属性的属性值。
12.根据权利要求11所述的数据管理装置,其特征在于,还包括:
关联关系查询单元,用于依据查询条件,在所述关联元模型中的查询符合所述查询条件的关联关系;以及通过图示的形式展示所述关联关系。
CN201711346049.2A 2017-12-15 2017-12-15 数据管理方法及装置 Active CN108052618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711346049.2A CN108052618B (zh) 2017-12-15 2017-12-15 数据管理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711346049.2A CN108052618B (zh) 2017-12-15 2017-12-15 数据管理方法及装置

Publications (2)

Publication Number Publication Date
CN108052618A true CN108052618A (zh) 2018-05-18
CN108052618B CN108052618B (zh) 2020-06-30

Family

ID=62133108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711346049.2A Active CN108052618B (zh) 2017-12-15 2017-12-15 数据管理方法及装置

Country Status (1)

Country Link
CN (1) CN108052618B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299154A (zh) * 2018-11-30 2019-02-01 长城计算机软件与系统有限公司 一种大数据的数据存储系统及方法
CN109947739A (zh) * 2018-05-31 2019-06-28 新华三大数据技术有限公司 数据源管理方法及装置
CN110069461A (zh) * 2019-04-26 2019-07-30 成都四方伟业软件股份有限公司 数据共享方法及装置
CN110096518A (zh) * 2019-04-04 2019-08-06 华东理工大学 知识库元数据发送方法及装置、可读存储介质
CN110287223A (zh) * 2019-06-24 2019-09-27 北京明略软件系统有限公司 信息存储方法及装置、电子装置以及存储介质
CN110555032A (zh) * 2019-09-09 2019-12-10 北京搜狐新媒体信息技术有限公司 一种基于元数据的数据血缘关系分析方法及系统
CN112214263A (zh) * 2019-07-12 2021-01-12 中国电信股份有限公司 数据库脚本的调度方法和装置以及存储介质
WO2021032146A1 (zh) * 2019-08-22 2021-02-25 中兴通讯股份有限公司 元数据管理方法和装置、设备及存储介质
CN113779132A (zh) * 2021-09-15 2021-12-10 深圳我家云网络科技有限公司 一种数据导入的方法、装置、计算机设备和存储介质
CN113779132B (zh) * 2021-09-15 2024-07-16 深圳我家云网络科技有限公司 一种数据导入的方法、装置、计算机设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030208505A1 (en) * 2002-05-03 2003-11-06 Ward Mullins Dynamic class inheritance and distributed caching with object relational mapping and cartesian model support in a database manipulation and mapping system
CN101515290A (zh) * 2009-03-25 2009-08-26 中国工商银行股份有限公司 具有双向互动特征的元数据管理系统及其实现方法
US20120203735A1 (en) * 2010-09-29 2012-08-09 International Business Machines Corporation Dynamic configuration of a persistence provider
CN104462244A (zh) * 2014-11-19 2015-03-25 武汉大学 一种基于元模型的智慧城市异构数据共享方法
CN105893526A (zh) * 2016-03-30 2016-08-24 上海坤士合生信息科技有限公司 多源数据融合系统和方法
CN106202452A (zh) * 2016-07-15 2016-12-07 复旦大学 大数据平台的统一数据资源管理系统与方法
CN107315776A (zh) * 2017-05-27 2017-11-03 国网安徽省电力公司信息通信分公司 一种基于云计算的数据管理系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030208505A1 (en) * 2002-05-03 2003-11-06 Ward Mullins Dynamic class inheritance and distributed caching with object relational mapping and cartesian model support in a database manipulation and mapping system
CN101515290A (zh) * 2009-03-25 2009-08-26 中国工商银行股份有限公司 具有双向互动特征的元数据管理系统及其实现方法
US20120203735A1 (en) * 2010-09-29 2012-08-09 International Business Machines Corporation Dynamic configuration of a persistence provider
CN104462244A (zh) * 2014-11-19 2015-03-25 武汉大学 一种基于元模型的智慧城市异构数据共享方法
CN105893526A (zh) * 2016-03-30 2016-08-24 上海坤士合生信息科技有限公司 多源数据融合系统和方法
CN106202452A (zh) * 2016-07-15 2016-12-07 复旦大学 大数据平台的统一数据资源管理系统与方法
CN107315776A (zh) * 2017-05-27 2017-11-03 国网安徽省电力公司信息通信分公司 一种基于云计算的数据管理系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何华: "一种基于云计算平台的电信经营分析系统中元数据管理的研究与实现方法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947739A (zh) * 2018-05-31 2019-06-28 新华三大数据技术有限公司 数据源管理方法及装置
CN109299154A (zh) * 2018-11-30 2019-02-01 长城计算机软件与系统有限公司 一种大数据的数据存储系统及方法
CN109299154B (zh) * 2018-11-30 2020-12-18 长城计算机软件与系统有限公司 一种大数据的数据存储系统及方法
CN110096518A (zh) * 2019-04-04 2019-08-06 华东理工大学 知识库元数据发送方法及装置、可读存储介质
CN110069461A (zh) * 2019-04-26 2019-07-30 成都四方伟业软件股份有限公司 数据共享方法及装置
CN110287223A (zh) * 2019-06-24 2019-09-27 北京明略软件系统有限公司 信息存储方法及装置、电子装置以及存储介质
CN112214263A (zh) * 2019-07-12 2021-01-12 中国电信股份有限公司 数据库脚本的调度方法和装置以及存储介质
WO2021032146A1 (zh) * 2019-08-22 2021-02-25 中兴通讯股份有限公司 元数据管理方法和装置、设备及存储介质
CN110555032A (zh) * 2019-09-09 2019-12-10 北京搜狐新媒体信息技术有限公司 一种基于元数据的数据血缘关系分析方法及系统
CN113779132A (zh) * 2021-09-15 2021-12-10 深圳我家云网络科技有限公司 一种数据导入的方法、装置、计算机设备和存储介质
CN113779132B (zh) * 2021-09-15 2024-07-16 深圳我家云网络科技有限公司 一种数据导入的方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN108052618B (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN108052618A (zh) 数据管理方法及装置
Dijkman et al. Managing large collections of business process models—Current techniques and challenges
CN101617292B (zh) 面向生成器图的编程和执行
CN105653691B (zh) 信息资源管理方法及管理装置
CN104050223B (zh) 用于文本挖掘和搜索的数据透视面
CN106663224A (zh) 用于机器学习模型评估的交互式界面
US9946702B2 (en) Digital processing system for transferring data for remote access across a multicomputer data network and method thereof
CN105989523A (zh) 用于分析的基于策略的数据收集处理及协商的方法与系统
CN105144080A (zh) 用于元数据管理的系统
US11256712B2 (en) Rapid design, development, and reuse of blockchain environment and smart contracts
Hammad et al. Application of KDD techniques to extract useful knowledge from labor resources data in industrial construction projects
Braun Evaluation of Big Data maturity models–a benchmarking study to support Big Data maturity assessment in organizations
EP3042354B1 (en) Metadata automated system
CN105849723A (zh) 用于多个存储库系统中智能存档搜索的方法和系统
US7526473B2 (en) Traversing a relational model with preferred paths
CN111414410A (zh) 数据处理方法、装置、设备和存储介质
CN101013426A (zh) 使用了连接关系信息的信息管理系统
US20160004730A1 (en) Mining of policy data source description based on file, storage and application meta-data
CN110362767A (zh) 埋点处理方法、装置、系统及计算机可读存储介质
KR102547033B1 (ko) 키워드 인식 기능을 활용하여 사용자가 선택한 방식으로 정보를 제공하는 방법
Thi et al. A review of quality frameworks in information systems
JP6403864B2 (ja) サービス設計支援システムおよびサービス設計支援方法
JP2005122318A (ja) 特許情報管理システム、方法およびプログラム
Pereira et al. A semantic BI process for detecting and analyzing mentions of interest for a domain in tweets
Gibeaut Enabling data sharing through the Gulf of Mexico Research Initiative Information and Data Cooperative (GRIIDC)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant