CN107463603A - 一种基于量化dmp的科研项目生命周期数据管理定制化控制方法和系统 - Google Patents

一种基于量化dmp的科研项目生命周期数据管理定制化控制方法和系统 Download PDF

Info

Publication number
CN107463603A
CN107463603A CN201710454837.7A CN201710454837A CN107463603A CN 107463603 A CN107463603 A CN 107463603A CN 201710454837 A CN201710454837 A CN 201710454837A CN 107463603 A CN107463603 A CN 107463603A
Authority
CN
China
Prior art keywords
data
control
dmp
management
stipulations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710454837.7A
Other languages
English (en)
Other versions
CN107463603B (zh
Inventor
刘峰
张晓林
黎建辉
周园春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN201710454837.7A priority Critical patent/CN107463603B/zh
Publication of CN107463603A publication Critical patent/CN107463603A/zh
Application granted granted Critical
Publication of CN107463603B publication Critical patent/CN107463603B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Abstract

本发明涉及一种基于量化DMP的科研项目生命周期数据管理定制化控制方法和系统。该方法首先建立科研项目生命周期数据管理的模型和规范,然后基于建立的模型和规范对数据管理计划DMP的内容进行量化;根据量化DMP元数据规范并结合功能控制需求,分类归纳科研项目生命周期数据管理的规约控制功能点及其触发条件;根据触发条件触发相应的规约控制功能点,进而将规约控制需求提交给数据管理规约控制引擎进行集中处理,经过规约控制逻辑判定完成相应功能的控制实现。本发明实现了数据管理系统规约控制功能与量化DMP元数据要素设置的解耦,大力提升了面向科研项目生命周期数据管理系统设计开发的效率,增强了系统的高可定制性和高复用性。

Description

一种基于量化DMP的科研项目生命周期数据管理定制化控制 方法和系统
技术领域
本发明涉及数据管理领域,具体涉及一种基于量化DMP的科研项目生命周期数据管理定制化控制方法和系统。
背景技术
随着基于数据密集型计算的科研第四范式的兴起,科研的发现、知识的创新、集成与重用已更多依赖于科研过程中数据的有效管理与积累,因此科学数据管理的基础及重要作用凸显。目前众多科研项目频繁产生大量的、复杂的、不断变化的、动态处理的数据,却往往由于经费、人员有限,专业知识和技术能力不足,缺乏有效的数据组织、管理、长期保存和有序共享,这些项目数据通常保存在项目组成员的计算机和服务器里,由研究生维护,格式纷繁复杂,既没有统一标准,也没有分享机制,更缺乏项目完结后对数据的长期利用策略,被称作长尾数据或暗数据(Heidorn P B.Shedding light on the dark data in thelong tail of science[J].Library Trends,2008,57(2):280-299.)。这些数据很可能由于未被充分利用和重视而最终丢弃。建立适应于众多科研项目的数据管理方法工具的需求极为迫切,其对推进整体科研发展的意义更加突出。
就管理工具和系统而言,目前科研项目中数据管理控制通常采用实验室电子记录本(ELN)、实验室执行系统(LES)、以及商业化的实验室信息管理系统(LIMS)、科学数据管理系统(SDBS)等,随着基础信息技术的不断成熟,它们很容易进行功能扩展,重点都是向智能化方向发展。就差别而言,这些系统的比较分析见表1,并可参考“Building a SmartLaboratory 2015|Scientific Computing World[EB/OL].https://www.scientific-computing.com/BASL2015.[2016-1-15].”,以及“周霖,殷国真,李杨,等.实验室资源管理平台综述[J].现代科学仪器,2013,1:162-164.”。
表1.主要科研项目数据管理系统比较
科研活动的周期过程决定了科学数据具有了生命周期的特征,科研项目做为科研活动(科研过程)最普遍的载体,其阶段的周期性通常对科研活动的周期性起制约作用。因此科研项目生命周期数据管理就是基于科研项目生命周期过程对科学数据进行数据管理的过程。如图1所示,包括以下环节:
1)数据管理计划与规范化:包括数据管理计划制定,数据及元数据管理相关模型、标准与规范设计等。如数据管理计划规范、元数据标准、数据溯源模型及相关规范,管理框架设计等方面。
2)数据生成、收集、汇聚与组织:重点包括数据如何生成和汇聚;以及数据如何有效组织、存储与管理等方面。
3)数据筛选、整理、加工、转换:重点包括对数据的筛选、清洗、转换、归一化等方面的整理加工过程。
4)数据计算、分析、挖掘:重点包括数据的计算、统计分析、挖掘等分析计算加工过程。
5)数据开放与共享:重点包括与数据开放共享密切相关的数据引用;数据权益、数据关联、数据接口访问以及与领域资源库的对接等数据管理规范与技术实现。
6)数据归档与长期保存:重点实现科学数据的长期有效存储,包括数据有效的归档、备份、长期保存及安全管理等方面。
当前迫切需要对科研项目产生的宝贵数据进行规范、全面、有效管理的方法和工具,同时现有的项目数据管理系统主要集中在数据存储环节,主要关注如何管住数据,缺乏从科研生命周期数据管理角度,系统化地从数据的生产管理、发布共享、归档保存等关键阶段,研究数据的规范化的存储、组织、共享、溯源、引用、权益管理、长期保存等深层次的数据管理控制的方法和技术。
数据管理计划(Data Management Plan,DMP)是概要介绍科研项目过程中以及结束后科学数据将如何被有效处理的正式文档,它不是固定不变的,通常在项目的生命周期里被不断充实和细化完善从而变得更加准确(Guidelines on Data Management inHorizon 2020[EB/OL].http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-data-mgt_en.pdf.[2015-8-18].)。通过数据管理计划科研人员可以全面掌握科研数据产生、处理、共享及应用的全过程,方便地跟踪科研过程进展、并进行有针对性的决策,进而保证科研全过程数据的有效管理。
数据管理计划覆盖了从数据产生、共享服务到数据归档保存的生命周期管理的各个环节。它对科研过程中的数据管理提出了极为重要的规范和指导。从当前数据管理计划应用和服务角度看,它仍然停留在对数据管理重点要素的大段文字描述层面,并未真正起到对科学数据进行规范化管理作用。
发明内容
针对科研项目数据管理中缺乏完整规范化的数据管理定制化控制方法和技术的问题,本发明提出了一种基于量化DMP实现科研项目生命周期数据管理定制化控制方法和系统。
本发明采用的技术方案如下:
一种基于量化DMP的科研项目生命周期数据管理定制化控制方法,其步骤包括:
1)建立科研项目生命周期数据管理的模型和规范,所述模型包括数据管理计划、数据生产管理、数据共享管理、数据归档管理和数据管理规约控制引擎;所述规范包括量化DMP元数据规范;
2)基于建立的模型和规范,对数据管理计划DMP的内容进行量化,并将量化DMP实例设置数据录入并保存到数据库中;
3)根据所述量化DMP元数据规范并结合功能控制需求,分类归纳科研项目生命周期数据管理的规约控制功能点及其触发条件,并将所述触发条件植入到所述规约控制功能点的实现中;
4)构建数据管理规约控制引擎,根据步骤3)所述触发条件触发相应的规约控制功能点,进而将规约控制需求提交给所述数据管理规约控制引擎进行集中处理,所述数据管理规约控制引擎根据规约控制请求读取量化DMP实例设置数据,经过规约控制逻辑判定完成相应功能的控制实现。
进一步地,所述模型包括概念模型,其中外围是数据管理计划、数据生产管理、数据共享管理和数据归档管理,中间是数据管理规约控制引擎,接收来自数据管理计划的输入,对其他管理阶段起驱动和控制作用,进而形成以数据管理计划为核心驱动的数据管理模型。
进一步地,所述模型还包括层次结构模型,其自底向上分别为规范层、控制层和功能层;所述规范层主要包括以数据管理计划为核心的数据管理相关控制规范;所述控制层主要包括数据管理规约控制引擎,负责接收规范层中以数据管理计划为核心的各类数据管理细化控制项的设置,最终驱动上层项目生命周期数据管理功能的控制与实现;所述功能层主要完成框架体系的应用实现,重点接收控制层的运行驱动控制,分别实现科研项目生命周期中数据生产、数据共享、数据归档保存等不同管理阶段的具体数据管理功能。
进一步地,所述量化DMP元数据规范将DMP的内容分为以下基本要素:数据产生上下文;数据组织规范与策略;数据存储与安全管理;数据道德规范与知识产权;数据共享与服务实践;数据重用管理;数据归档与长期保存。
进一步地,在所述基本要素下设置细化要素,其中,数据产生上下文的细化要素包括:数据来源、数据规模、数据生产环境、数据生产工具、数据生产方法;数据组织规范与策略的细化要素包括:数据类型、存储格式、数据文件上限、文件命名规则、元数据规范;数据存储与安全管理的细化要素包括:保留期、数据管理责任链、备份策略;数据道德规范与知识产权的细化要素包括:伦理与隐私保护描述、隐私数据处理、知情同意规范、数据知识产权声明、首发权声明;数据共享与服务实践的细化要素包括:数据访问说明、数据访问接口、时滞期、数据共享计划、数据共享说明、数据引用规范、数据应用与服务;数据重用管理的细化要素包括:免责声明、重用描述、重用许可策略;数据归档与长期保存的细化要素包括:归档数据筛选、归档保存计划、长期保存规范。
进一步地,所述规范还包括DMP描述语言规范;所述DMP描述语言规范基于所述量化DMP元数据规范,并采用标准化的XML语法格式,对DMP的形式化描述语言进行统一设计。
进一步地,步骤2)将量化DMP实例设置数据通过在线录入或批量导入形式,经过校验审核后保存到数据库中;基于XML模板或Excel模板实现所述批量导入,或者通过直接操作数据库表完成相关数据的录入。
进一步地,步骤3)从时间范围规约、组织内容规约、用户/系统声明规约、功能控制规约四方面设置数据管理规约控制功能点。
进一步地,步骤4)所述数据管理规约控制引擎包括DMP设置读取器、DMP设置解析器和功能点控制判别器;所述DMP设置读取器负责读取DMP数据库中的特定规约控制点的设置数据并转化成特定格式的DMP设置描述实例;所述DMP设置解析器负责读取DMP设置描述实例数据,并在参考规则库的基础上解析其中DMP设置信息含义,生成解析信息后传送给控制判别器部件;所述功能点控制判别器负责接收DMP设置解析器生成的解析信息,结合功能点的控制逻辑给出控制判断结果,形成用户交互控制提示信息和视图。
一种采用上述方法的基于量化DMP的科研项目生命周期数据管理定制化控制系统,包括数据管理计划模块、数据生产管理模块、数据共享管理模块、数据归档管理模块和数据管理规约控制引擎;
所述数据管理计划模块构成所述数据管理规约控制引擎的核心输入;
所述数据生产管理模块、所述数据共享管理模块和所述数据归档管理模块是科学数据生命周期管理流转运行模块,接受所述数据管理规约控制引擎的驱动和控制,实现科研项目生命周期中的数据生产、数据共享和数据归档保存;
所述数据管理规约控制引擎是科研数据生命周期管理的核心控制模块,负责接收数据管理计划的设置并进而约束和控制科研数据从数据生产、数据共享到数据归档保存的生命周期管理的全过程。
进一步地,所述数据管理规约控制引擎包括DMP设置读取器、DMP设置解析器和功能点控制判别器;所述DMP设置读取器负责读取DMP数据库中的特定规约控制点的设置数据并转化成特定格式的DMP设置描述实例;所述DMP设置解析器负责读取DMP设置描述实例数据,并在参考规则库的基础上解析其中DMP设置信息含义,生成解析信息后传送给控制判别器部件;所述功能点控制判别器负责接收DMP设置解析器生成的解析信息,结合功能点的控制逻辑给出控制判断结果,形成用户交互控制提示信息和视图。
本发明的有益效果如下:
本发明中数据管理计划可以根据实际需求进行补充和扩展,其有益效果表现为可以进一步细化实现了数据管理系统规约控制功能与量化DMP元数据要素设置的解耦,从而大力提升了面向科研项目生命周期数据管理系统设计开发的效率,缩短软件的开发周期,增强了系统的高可定制性和高复用性。其中解耦是指在软件系统开发中将功能代码实现与可定制化的控制逻辑相分离,而不是将两者混在一起,造成代码功能单一不可复用,无法实现定制化控制。本发明通过解耦设计,可以基于量化DMP设置实现数据管理系统功能的定制化控制。
附图说明
图1是本发明总体方法相关的流程及数据流、操作控制关系图。
图2是以数据管理计划(DMP)为核心驱动的数据管理模型示意图。
图3是以量化DMP为核心驱动的科研项目生命周期数据管理框架层次结构图。
图4是自动生成的在线DMP新增/编辑页面(部分)样例图。
图5是基于Excel的量化DMP元数据模板分类设计示意图。
图6是数据管理规约控制引擎(DME)构成及其控制原理示意图。
图7是数据管理规约控制引擎MVC框架实现模式示意图。
具体实施方式
下面通过具体实施例和附图,对本发明做进一步说明。
图1为本发明的总体方法相关的流程及数据流、操作控制关系图。本方法重点分四个大的步骤,其中:
第1步是对整个方法的相关模型和规范进行设计,它是本方法的核心和基础,对整个方法的其他步骤起到支撑和规范约束作用。
第2步是对量化DMP实例设置数据进行规范录入、校验和保存的过程。它形成了本方法规约控制设置的数据基础。
第3步是结合第1步中的量化DMP元数据规范设置,分类归纳科研项目生命周期数据管理规约控制功能点及其触发条件,在数据管理系统实现时将其植入到系统相关模块中,这样当用户在使用系统时,会触发相应的规约控制功能点,进而会将规约控制需求提交给第4步数据管理规约控制引擎进行集中处理,形成设置、触发到处理的闭环。
第4步是构建数据管理规约控制引擎,引擎根据规约控制请求,读取量化DMP实例设置数据,经过具体规约控制逻辑判定,完成相应功能的控制实现。
四个步骤详细设计说明如下:
1.方法相关模型与规范设计
在模型方面重点描述了方法的概念模型和层次化关系模型;在规范方面重点包括量化DMP元数据规范及其描述语言规范设计。
1.1 方法模型设计
1.1.1 概念模型
如图2所示,整个模型的外围是科学数据生命周期管理的4大主要阶段,分别是数据管理计划(DMP:Data Management Plan)、数据生产管理(DPM:Data ProductionManagement)、数据共享管理(DSM:Data Sharing Managerment)和数据归档管理(DAM:DataArchiving Management)。模型的中间是数据管理规约控制引擎(DME:Data ManagementEngine)它接收来自数据管理计划的输入,对其他管理阶段起驱动和控制作用,进而形成了以数据管理计划为核心驱动的数据管理模型。各部分具体含义解析如下:
数据管理规约控制引擎(DME)是科研数据生命周期管理的核心控制模块,它负责接收数据管理计划的设置并进而约束和控制科研数据从数据生产、数据共享到数据归档保存的生命周期管理的全过程。
数据管理计划(DMP)构成了数据管理规约控制引擎的核心输入。
数据生产管理(DPM)、数据共享管理(DSM)和数据归档管理(DAM)是抽象出来的科学数据生命周期管理流转运行模块,它们接受数据管理规约控制引擎的驱动和控制。每个模块又可划分为若干子模块。其中DPM包括:数据采集加工;数据组织、数据存储等子模块;DSM包括:数据的权益控制、数据共享与发布等子模块;DAM包括:数据归档保存与数据备份等模块。
1.1.2 层次结构模型
基于该框架模型构建的层次结构图,如图3所示,自底向上分别为规范层、控制层和功能层。其中:
1)规范层主要包括以数据管理计划为核心的数据管理相关控制规范。
2)控制层主要包括数据管理规约控制引擎DME,它负责接收规范层中以数据管理计划为核心的各类数据管理细化控制项的设置,最终驱动上层项目生命周期数据管理功能的控制与实现。
3)功能层主要完成框架体系的应用实现,重点接收控制层的运行驱动控制,分别实现科研项目生命周期中数据生产、数据共享、数据归档保存等不同管理阶段的具体数据管理功能。
1.2 方法规范设计
1.2.1 量化DMP元数据规范设计
基于统计分析本发明对传统的数据管理计划主要内容进行了规范化,如表2所示。其中值域单位、值域枚举、值域构成规则/样例说明三个属性列比较特殊,它们与前面的DMP元数据细化要素行之间不存在一一映射关系,因此表中的空白单元格表示相应的DMP元数据细化要素行与相应属性列之间没有相关映射关系及说明。
表2.量化DMP元数据规范设计表
其中,元数据元素列dct:代表DCMI元数据术语(DCMI Metadata Terms[EB/OL].http://dublincore.org/documents/dcmi-type-vocabulary/.[2012-10-28].);dcat代表W3C的Data Catalog Vocabulary术语(Data Catalog Vocabulary(DCAT)[EB/OL].http://www.w3.org/TR/vocab-dcat/.[2012-10-28].)。
其中,值域枚举中的DB表示关系数据库,UUID表示通用唯一标识码,CC0是CC协议(知识共享协议)以外的一种新的版权声明协议,采用该协议即代表作者宣布放弃该创作的一切版权,该创作进入共有领域;ODC-By是开放数据共用署名许可,仅有署名的要求;ODC-ODbL是开放数据库许可,要求署名和相同方式共享;PDDL是公共领域贡献和许可。
全局设置项用于信息描述,可以在数据管理系统实现中显示并继承使用;规则化控制项用于功能的控制作用。
1.2.2 DMP描述语言设计
为了规范化DMP的设置信息的描述,使其达到机器可读取识别,本发明基于1.2.1节中《量化DMP元数据规范设计表》,采用标准化的XML语法格式,对DMP形式化描述语言进行了统一设计,具体描述说明如下:
具体一条DMP设置描述实例如下:
2.量化DMP实例数据录入、校验和保存
基于第1节中模型及规范的设计,系统自动完成DMP数据库表的建立,并支持实现将量化DMP实例数据,通过在线录入或批量导入形式,经过校验审核后保存到数据库中。
2.1 DMP数据库表建立
基于1.2.1节中《量化DMP元数据规范设计表》的设计,将表中“元数据编号及中文名称”列中的中文名称作为字段中文名称列;将“元数据英文名称”列作为字段英文名称列;将“值域类型”作为字段类型列;按表格中元数据的顺序,采用现有技术自动转换成SQL的create database(建库)和create table(建表)语句,执行后创建量化DMP数据库表。
2.2 在线录入实现
基于1.2.1节中《量化DMP元数据规范设计表》的设计,将表中“元数据编号及中文名称”列中的中文名称作为编辑对象标题名称,将“元数据英文名称”列作为编辑对象控件英文名称;将“值域类型”作编辑对象控件类型;按表格中元数据的顺序,逐项列出相关编辑对象,采用现有技术,自动生成图形化在线新建编辑页面(见图4,其中RDB表示关系型数据库),用户在线录入或编辑DMP元数据设置信息后提交,系统经校验后保存入库。
2.3 批量导入实现
1)基于XML模板
采用1.2.2节中DMP描述语言设计,形成XML模板(参见模板样例),供用户填写相关DMP元数据要素的数据值,其中数据值的填写形式必须符合1.2.1节中《量化DMP元数据规范设计表》的“值域枚举”列和“值域构成规则/样例说明”列的规范要求(在XML模板中以注释形式提供说明)。然后编写程序读取XML模板用户录入实例,经过数据值审核校验(参见2.4节)后,保存到数据库中。
2)基于Excel模板
在Excel模板设计上,通过生成7个不同的sheet,分别对应1.2.1节中《量化DMP元数据规范设计表》中“基本要素名称”列的7个分类,如图5所示。
每个分类sheet中按其对应的元数据中文名、元数据英文名、元数据填写说明,形成模板项如表3所示。其中元数据填写说明行,覆盖了的《量化DMP元数据规范设计表》中“值域枚举”列和“值域构成规则/样例说明”列的规范要求。然后编写程序读取Excel模板用户录入实例,经过数据值审核校验(参见2.4节)后,保存到数据库中。
表3.量化DMP元数据模板项设计样例
需要说明的是,在批量导入时,除上述方法以外,可以根据1.2.1节中《量化DMP元数据规范设计表》设计形成其他的批量导入模板,如SQL,CSV等格式,但其基本思想是一致的。
2.4 数据校验保存
重点根据1.2.1节中《量化DMP元数据规范设计表》中“值域类型”列、“值域枚举”列、“值域构成规则/样例说明”列的要求,逐条校验审核用户在线录入或批量导入数据的有效性。对于无效的数据,提示用户修改。仅当全部数据都校验有效时,方可存储到数据库中。
错误数据校验实例:
1、值域类型不匹配:如:值域类型为Integer,而用户输入1.12或abc;值域类型为float,用户输入:dfg;
2、值域超出枚举范围:如:值域枚举为DB|File,用户输入data;
3、值域与规则设置不匹配:如:值域规则设置为:元数据项标识:元数据项名称:元数据项类型以;分割,用户输入:
title:数据集名称,string|creator:数据集创建者,string。
2.5 替代录入形式说明
在量化DMP实例数据存储入库实现中,用户也可以直接操作数据库表,完成相关数据的录入。(但需要注意,由于直接操作库表没有经过程序对DMP实例数据的完整校验[参见2.4节]),入库数据的有效性需要求用户自行校验保证,否则入库后的数据可能无法使用,因此这种方式不推荐使用)。直接录入库表数据的方法包括,如使用数据库客户端工具,对DMP数据表在线逐条录入;直接编写针对批量插入SQL语句后直接运行;直接利用数据库客户端工具的批量导入功能,将DMP实例数据组织成excle、csv、xml、SQL、txt等格式后,直接导入相应数据库表中。
3.数据管理规约控制功能点触发植入
为了保证科研项目生命周期数据管理规约控制的自动执行,必须在数据管理系统实现时植入规约控制功能点的触发逻辑,为此本发明基于量化DMP元数据的设置,并结合功能控制需求,从时间范围规约、组织内容规约、用户/系统声明规约、功能控制规约四方面对数据管理规约控制功能点进行了全面的梳理。包括:
1)时间范围规约方面:重点包括提前提醒用户注意在相关时间范围内完成相关工作。如在数据共享和数据归档保存方面依据相关时滞期和保留期的设置,进行时间控制检查,提示并保证用户共享和归档操作可正确完成。
2)组织内容方面:重点包括基于数据及文件格式、文件名称、数据及文件大小的校验和检查;基于隐私保护规则的数据个人隐私过滤与提示;基于文件命名规则的自动系统操作执行;以及数据引用格式的校验检查与提示。
3)用户/系统声明方面:重点包括数据共享时的重用许可,免责声明;以及数据共享权利声明如首发权声明和知识产权声明等;同时包括系统访问接口参数等提示及说明。
4)功能控制方面:重点包括了如元数据编辑保存功能自动实现,元数据细览页面显示;基于设定的备份策略规则(如:备份频率、备份类型),自动完成数据集的备份,DMP全局设置信息的复制填充,隐私数据的定制处理,数据管理责任链对照用户权限检查等。
同时本发明对全部规约控制功能点及其与元数据要素的映射关系、相应触发条件进行了详细的描述,见表4所示。
表4.数据管理规约控制点及其触发条件说明表
4.数据管理规约控制引擎设计与实现
为了深入实现DME引擎的控制作用,在分析DME引擎控制流程的基础上,本发明对DME管理控制部件的内部构成进行了细化研究,如图6所示。
整个DME管理控制部件重点包括DMP设置读取器、DMP设置解析器和功能点控制判别器三个组成部分。其中:
(1)DMP设置读取器:负责读取DMP数据库中的特定规约控制点的设置数据并转化成XML格式的DMP设置描述实例(参见1.2.2DMP描述语言设计及其实例描述)。
(2)DMP设置解析器:读取XML格式的DMP设置描述实例数据,并在参考规则库(参见1.2.1节中《量化DMP元数据规范设计表》值域构成规则/样例说明列)的基础上解析其中DMP设置信息含义,生成解析信息后传送给控制判别器部件。
(3)功能点控制判别器:负责接收解析器生成的解析信息,结合功能点的控制逻辑给出控制判断结果,形成用户交互控制提示信息和视图。具体规约控制功能点判别逻辑说明见表5。
表5.数据管理规约控制功能点判别逻辑说明表
需要说明的是在“(1)DMP设置读取器”、“(2)DMP设置解析器”中除了采用本发明设计的XML格式DMP描述语言,还可以参考该语言设计采用如JSON等标准格式进行封装设计来实现。
为了更具体理解数据管理规约控制引擎的实现,我们从规约控制四大分类中,每类遴选一个典型的实验数据,对应说明量化元数据设置实例及其对应的规约控制判断逻辑处理过程。
1)时间范围
实验的DMP实例数据如下:
该数据经校验后保存入库。当用户对某数据集进行共享或发布操作时,会触发数据管理规约控制引擎读取数据集的建立时间和用户量化DMP设置实例中时滞期设定时间(本例为12个月),即数据集的建立时间加上12个月的时间,与当前时间比较;如果大于当前时间则提示用户数据集的时滞期未满,禁止共享发布;否则时滞期判断通过,返回成功标志信息。
2)组织内容
实验的DMP实例数据如下:
该数据经校验后保存入库。当用户通过数据管理系统上传提交某项目数据集的数据文件时,会触发数据管理规约控制引擎读取当前上传的数据文件的大小和用户量化DMP设置实例中数据文件上限设定值(本例为100MB),如果上传的数据文件大于100MB,则提示用户数据文件大小超过上限,请确认后重新上传;否则数据文件上限判断通过,返回成功标志信息。
3)用户/系统声明
实验的DMP实例数据如下:
该数据经校验后保存入库。当用户通过数据管理系统共享或发布某数据集时,会触发数据管理规约控制引擎从数据库中读取用户量化DMP设置实例的数据知识产权声明,并自动通过界面提示用户相关知识产权声明信息的全部内容。
4)功能控制
实验的DMP实例数据如下:
该数据经校验后保存入库;当数据管理系统,自动备份定时器启动时,会触发数据管理规约控制引擎读取用户量化DMP设置中的备份策略文本(本例为auto;pm;c:\backup),并读取相关规则设定,拆分并解析相关文本含义,自动备份定时器会以每月备份一次的频率,自动完成系统数据向C盘backup目录的备份操作。
在实现方面,目前在线数据管理系统普遍采用B/S架构,因此数据管理规约控制引擎的实现可以采用现有MVC的设计模式。其中:模型(Model)是应用程序中用于处理应用程序数据逻辑的部分,控制器(Controller)是应用程序中处理用户交互的部分,视图(View)是应用程序中处理数据显示的部分,如图7所示。其中数据库部分与量化DMP设置数据库相对应。具体实现控制及相关逻辑可以参考上述引擎的构成说明进行设计实现。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (13)

1.一种基于量化DMP的科研项目生命周期数据管理定制化控制方法,其步骤包括:
1)建立科研项目生命周期数据管理的模型和规范,所述模型包括数据管理计划、数据生产管理、数据共享管理、数据归档管理和数据管理规约控制引擎;所述规范包括量化DMP元数据规范;
2)基于建立的模型和规范,对数据管理计划DMP的内容进行量化,并将量化DMP实例设置数据录入并保存到数据库中;
3)根据所述量化DMP元数据规范并结合功能控制需求,分类归纳科研项目生命周期数据管理的规约控制功能点及其触发条件,并将所述触发条件植入到所述规约控制功能点的实现中;
4)构建数据管理规约控制引擎,根据步骤3)所述触发条件触发相应的规约控制功能点,进而将规约控制需求提交给所述数据管理规约控制引擎进行集中处理,所述数据管理规约控制引擎根据规约控制请求读取量化DMP实例设置数据,经过规约控制逻辑判定完成相应功能的控制实现。
2.如权利要求1所述的方法,其特征在于,所述模型包括概念模型,其中外围是数据管理计划、数据生产管理、数据共享管理和数据归档管理,中间是数据管理规约控制引擎,接收来自数据管理计划的输入,对其他管理阶段起驱动和控制作用,进而形成以数据管理计划为核心驱动的数据管理模型。
3.如权利要求2所述的方法,其特征在于,所述模型还包括层次结构模型,其自底向上分别为规范层、控制层和功能层;所述规范层主要包括以数据管理计划为核心的数据管理相关控制规范;所述控制层主要包括数据管理规约控制引擎,负责接收规范层中以数据管理计划为核心的各类数据管理细化控制项的设置,最终驱动上层项目生命周期数据管理功能的控制与实现;所述功能层主要完成框架体系的应用实现,重点接收控制层的运行驱动控制,分别实现科研项目生命周期中数据生产、数据共享、数据归档保存等不同管理阶段的具体数据管理功能。
4.如权利要求1所述的方法,其特征在于,所述量化DMP元数据规范将DMP的内容分为以下基本要素:数据产生上下文;数据组织规范与策略;数据存储与安全管理;数据道德规范与知识产权;数据共享与服务实践;数据重用管理;数据归档与长期保存。
5.如权利要求3所述的方法,其特征在于,在所述基本要素下设置细化要素,其中,数据产生上下文的细化要素包括:数据来源、数据规模、数据生产环境、数据生产工具、数据生产方法;数据组织规范与策略的细化要素包括:数据类型、存储格式、数据文件上限、文件命名规则、元数据规范;数据存储与安全管理的细化要素包括:保留期、数据管理责任链、备份策略;数据道德规范与知识产权的细化要素包括:伦理与隐私保护描述、隐私数据处理、知情同意规范、数据知识产权声明、首发权声明;数据共享与服务实践的细化要素包括:数据访问说明、数据访问接口、时滞期、数据共享计划、数据共享说明、数据引用规范、数据应用与服务;数据重用管理的细化要素包括:免责声明、重用描述、重用许可策略;数据归档与长期保存的细化要素包括:归档数据筛选、归档保存计划、长期保存规范。
6.如权利要求1所述的方法,其特征在于,所述规范还包括DMP描述语言规范;所述DMP描述语言规范基于所述量化DMP元数据规范,并采用标准化的XML语法格式,对DMP的形式化描述语言进行统一设计。
7.如权利要求1所述的方法,其特征在于,步骤2)将量化DMP实例设置数据通过在线录入或批量导入形式,经过校验审核后保存到数据库中;基于XML模板或Excel模板实现所述批量导入,或者通过直接操作数据库表完成相关数据的录入。
8.如权利要求1所述的方法,其特征在于,步骤3)从时间范围规约、组织内容规约、用户/系统声明规约、功能控制规约四方面设置数据管理规约控制功能点。
9.如权利要求8所述的方法,其特征在于,所述时间范围规约的控制功能点包括:数据共享时滞期检查、数据存储保留期检查;所述组织内容规约的控制功能点包括:数据及文件大小检查、数据及文件格式检查、文件自动命名规则处理、数据引用规范检查、归档数据筛选;所述用户/系统声明规约的控制功能点包括:数据共享说明、重用许可和免责声明、权利声明、访问接口说明、伦理与隐私保护描述、知情同意规范、归档保存计划与长期保存规范;所述功能控制规约的控制功能点包括:元数据规范控制、DMP数据填充、备份策略执行、个人隐私数据检查处理、数据监护责任链检查。
10.如权利要求1所述的方法,其特征在于,步骤4)所述数据管理规约控制引擎包括DMP设置读取器、DMP设置解析器和功能点控制判别器;所述DMP设置读取器负责读取DMP数据库中的特定规约控制点的设置数据并转化成特定格式的DMP设置描述实例;所述DMP设置解析器负责读取DMP设置描述实例数据,并在参考规则库的基础上解析其中DMP设置信息含义,生成解析信息后传送给控制判别器部件;所述功能点控制判别器负责接收DMP设置解析器生成的解析信息,结合功能点的控制逻辑给出控制判断结果,形成用户交互控制提示信息和视图。
11.一种采用权利要求1所述方法的基于量化DMP的科研项目生命周期数据管理定制化控制系统,其特征在于,包括数据管理计划模块、数据生产管理模块、数据共享管理模块、数据归档管理模块和数据管理规约控制引擎;
所述数据管理计划模块构成所述数据管理规约控制引擎的核心输入;
所述数据生产管理模块、所述数据共享管理模块和所述数据归档管理模块是科学数据生命周期管理流转运行模块,接受所述数据管理规约控制引擎的驱动和控制,实现科研项目生命周期中的数据生产、数据共享和数据归档保存;
所述数据管理规约控制引擎是科研数据生命周期管理的核心控制模块,负责接收数据管理计划的设置并进而约束和控制科研数据从数据生产、数据共享到数据归档保存的生命周期管理的全过程。
12.如权利要求11所述的系统,其特征在于,所述数据管理规约控制引擎包括DMP设置读取器、DMP设置解析器和功能点控制判别器;所述DMP设置读取器负责读取DMP数据库中的特定规约控制点的设置数据并转化成特定格式的DMP设置描述实例;所述DMP设置解析器负责读取DMP设置描述实例数据,并在参考规则库的基础上解析其中DMP设置信息含义,生成解析信息后传送给控制判别器部件;所述功能点控制判别器负责接收DMP设置解析器生成的解析信息,结合功能点的控制逻辑给出控制判断结果,形成用户交互控制提示信息和视图。
13.如权利要求11所述的系统,其特征在于,所述数据生产管理模块包括数据采集加工子模块、数据组织子模块、数据存储子模块;所述数据共享管理模块包括数据的权益控制子模块、数据共享与发布子模块;所述数据归档管理模块包括数据归档保存子模块、数据备份子模块。
CN201710454837.7A 2017-06-16 2017-06-16 一种基于量化dmp的科研项目生命周期数据管理定制化控制方法和系统 Active CN107463603B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710454837.7A CN107463603B (zh) 2017-06-16 2017-06-16 一种基于量化dmp的科研项目生命周期数据管理定制化控制方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710454837.7A CN107463603B (zh) 2017-06-16 2017-06-16 一种基于量化dmp的科研项目生命周期数据管理定制化控制方法和系统

Publications (2)

Publication Number Publication Date
CN107463603A true CN107463603A (zh) 2017-12-12
CN107463603B CN107463603B (zh) 2021-01-12

Family

ID=60543753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710454837.7A Active CN107463603B (zh) 2017-06-16 2017-06-16 一种基于量化dmp的科研项目生命周期数据管理定制化控制方法和系统

Country Status (1)

Country Link
CN (1) CN107463603B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491370A (zh) * 2018-03-26 2018-09-04 成都睿码科技有限责任公司 使用元数据结构和数据驱动的方式产生内容的系统与方法
CN109242445A (zh) * 2018-09-29 2019-01-18 广东中标数据科技股份有限公司 对数据产品全生命周期进行开发管理的系统、方法及装置
CN109523035A (zh) * 2018-10-25 2019-03-26 中国航天标准化研究所 基于元数据实现产品寿命周期质量数据规范与组织的方法
CN109614519A (zh) * 2018-12-07 2019-04-12 万兴科技股份有限公司 数据导入方法和数据导入装置
CN110047562A (zh) * 2019-05-14 2019-07-23 上海上药第一生化药业有限公司 一种基于酶活力测定法的效价检测的信息化结构和方法
CN111338705A (zh) * 2020-02-13 2020-06-26 贝壳技术有限公司 一种数据处理的方法、装置和存储介质
CN111430043A (zh) * 2020-03-11 2020-07-17 西北妇女儿童医院 医疗健康宣教平台与系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799826A (zh) * 2010-03-04 2010-08-11 中国电子科技集团公司第二十八研究所 一种基于虚拟视图的网络化数据共享系统及方法
US20110264591A1 (en) * 2009-07-16 2011-10-27 Tangshan Railway Vehicle Co., Ltd. Method and platform for integrating a heterogeneous workgroup collaborative design system and a plm system
CN102687142A (zh) * 2009-12-04 2012-09-19 国际商业机器公司 使用模型驱动方法的灵活数据归档
CN102799962A (zh) * 2012-06-27 2012-11-28 南京合荣欣业信息技术有限公司 一种配置型业务流程系统及其实现方法
CN102819609A (zh) * 2012-08-23 2012-12-12 国电南京自动化股份有限公司 一种持久化数据模型建模方法
CN105590157A (zh) * 2014-12-25 2016-05-18 中国银联股份有限公司 基于数据生命周期管理模板的数据管理
CN106296343A (zh) * 2016-08-01 2017-01-04 王四春 一种基于互联网和大数据的电子商务交易监测方法
CN106649599A (zh) * 2016-11-25 2017-05-10 湖南纬度信息科技有限公司 面向知识服务的科研数据处理和预测性分析平台

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110264591A1 (en) * 2009-07-16 2011-10-27 Tangshan Railway Vehicle Co., Ltd. Method and platform for integrating a heterogeneous workgroup collaborative design system and a plm system
CN102687142A (zh) * 2009-12-04 2012-09-19 国际商业机器公司 使用模型驱动方法的灵活数据归档
CN101799826A (zh) * 2010-03-04 2010-08-11 中国电子科技集团公司第二十八研究所 一种基于虚拟视图的网络化数据共享系统及方法
CN102799962A (zh) * 2012-06-27 2012-11-28 南京合荣欣业信息技术有限公司 一种配置型业务流程系统及其实现方法
CN102819609A (zh) * 2012-08-23 2012-12-12 国电南京自动化股份有限公司 一种持久化数据模型建模方法
CN105590157A (zh) * 2014-12-25 2016-05-18 中国银联股份有限公司 基于数据生命周期管理模板的数据管理
CN106296343A (zh) * 2016-08-01 2017-01-04 王四春 一种基于互联网和大数据的电子商务交易监测方法
CN106649599A (zh) * 2016-11-25 2017-05-10 湖南纬度信息科技有限公司 面向知识服务的科研数据处理和预测性分析平台

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘峰 等: "数据管理计划构成规范及其可操作数据监护模型研究", 《现代图书情报技术》 *
刘峰: "面向科研项目生命周期的科学数据监护框架研究与试验", 《国家工程技术数字图书馆》 *
王健: "一种公共数据编码平台的数据质量管理子系统的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491370A (zh) * 2018-03-26 2018-09-04 成都睿码科技有限责任公司 使用元数据结构和数据驱动的方式产生内容的系统与方法
CN108491370B (zh) * 2018-03-26 2021-11-26 成都睿码科技有限责任公司 使用元数据结构和数据驱动的方式产生内容的系统与方法
CN109242445A (zh) * 2018-09-29 2019-01-18 广东中标数据科技股份有限公司 对数据产品全生命周期进行开发管理的系统、方法及装置
CN109523035A (zh) * 2018-10-25 2019-03-26 中国航天标准化研究所 基于元数据实现产品寿命周期质量数据规范与组织的方法
CN109614519A (zh) * 2018-12-07 2019-04-12 万兴科技股份有限公司 数据导入方法和数据导入装置
CN109614519B (zh) * 2018-12-07 2021-06-15 万兴科技股份有限公司 数据导入方法和数据导入装置
CN110047562A (zh) * 2019-05-14 2019-07-23 上海上药第一生化药业有限公司 一种基于酶活力测定法的效价检测的信息化结构和方法
CN110047562B (zh) * 2019-05-14 2021-04-27 上海上药第一生化药业有限公司 一种基于酶活力测定法的效价检测的信息化结构和方法
CN111338705A (zh) * 2020-02-13 2020-06-26 贝壳技术有限公司 一种数据处理的方法、装置和存储介质
CN111338705B (zh) * 2020-02-13 2021-03-26 北京房江湖科技有限公司 一种数据处理的方法、装置和存储介质
CN111430043A (zh) * 2020-03-11 2020-07-17 西北妇女儿童医院 医疗健康宣教平台与系统
CN111430043B (zh) * 2020-03-11 2024-03-15 西北妇女儿童医院 医疗健康宣教平台与系统

Also Published As

Publication number Publication date
CN107463603B (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
CN107463603A (zh) 一种基于量化dmp的科研项目生命周期数据管理定制化控制方法和系统
US10162612B2 (en) Method and apparatus for inventory analysis
Acher et al. On extracting feature models from product descriptions
US20140196010A1 (en) Automatic code review and code reviewer recommendation
Preidel et al. BIM-based code compliance checking
CN113434497A (zh) 一种由数据仓库与数据元件仓库组成的数据要素金库
Bond-Lamberty et al. gcamdata: An R package for preparation, synthesis, and tracking of input data for the GCAM integrated human-earth systems model
CN114385652A (zh) 数据血缘关系构建方法及系统、电子设备、存储介质
Shaw Myths and mythconceptions: What does it mean to be a programming language, anyhow?
Montrieux et al. Challenges in model-based evolution and merging of access control policies
Lyon Full Stack GraphQL Applications: With React, Node. Js, and Neo4j
Maiti Capturing, Eliciting, and Prioritizing (CEP) Non-Functional Requirements Metadata during the Early Stages of Agile Software Development
Vitalis et al. Applying versioning to multi-LoD 3D city models
Wang et al. Interactive inconsistency fixing in feature modeling
Chen et al. Template-based business logic customization for SaaS applications
Anuar et al. Revisiting web application development with integrated records management important aspect using Re-CRUD
Sastry Secure and Dynamic Search Over Encrypted Cloud Data in Dot Net Framework
Heaton Business intelligence cookbook: A project lifecycle approach using Oracle technology
Aubrecht et al. SumatraTT: A generic data pre-processing system
Reinhartz-Berger et al. Empirical Exploration of Open-Source Issues for Predicting Privacy Compliance
Basaglia et al. arXiv: Data Preservation in High Energy Physics--DPHEP Global Report 2022
Basaglia Data Preservation in High Energy Physics (DPHEP Global Report 2022)
Bilalli et al. There is no Data Science without Data Governance: a Proposal Based on Knowledge Graphs
Park et al. Development of an Open Government Data (OGD) Evaluation Framework for BIM. Buildings 2022, 12, 490
VARGHSE MENTAL HEALTH INSIGHTS FROM SOCIAL MEDIA

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant