CN110019554B - 数据驱动型应用的数据模型、数据建模系统和方法 - Google Patents
数据驱动型应用的数据模型、数据建模系统和方法 Download PDFInfo
- Publication number
- CN110019554B CN110019554B CN201711423940.1A CN201711423940A CN110019554B CN 110019554 B CN110019554 B CN 110019554B CN 201711423940 A CN201711423940 A CN 201711423940A CN 110019554 B CN110019554 B CN 110019554B
- Authority
- CN
- China
- Prior art keywords
- data
- knowledge
- interface
- business
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013499 data model Methods 0.000 title abstract description 26
- 238000005516 engineering process Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 6
- 230000008676 import Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 238000013524 data verification Methods 0.000 claims description 9
- 238000007726 management method Methods 0.000 claims description 9
- 238000010801 machine learning Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000005065 mining Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 2
- 238000011161 development Methods 0.000 abstract description 13
- 238000012546 transfer Methods 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004801 process automation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种数据驱动型应用的数据模型、数据建模系统和方法,涉及数据科学技术领域,能够提高增强数据驱动型应用的可复用性,提高其稳定性。其中该系统包括:数据导入模块,用于导入外部的数据源、数据集和数据字典;数据表示推理模块,用于采用语义网络技术,描述和定义数据源和数据集,表达业务逻辑知识和业务数据知识,从中抽象出跨领域通用的关系和知识,并进行关系推导和知识发现以挖掘隐含的关系和知识。上述系统应用于数据驱动型应用的开发过程中。
Description
技术领域
本发明涉及数据科学技术领域,尤其涉及一种数据驱动型应用的数据模型、数据建模系统和方法。
背景技术
数据科学方法,诸如数据分析、机器学习和深度学习等技术已被广泛用于垂直行业领域,以构造以其业务目标为导向的数据驱动型应用。在垂直行业领域开发数据驱动型应用时,需要对数据驱动型应用进行数据建模。目前现有的数据驱动型应用的数据建模的解决方案主要有如下三种:
一、在平台层封装几个相对比较通用的算法模型。这种方式其实并没有对数据进行任何封装和管理,基本上只是对机器学习算法的输入数据给出定义,要求使用人员按照定义提供数据。
二、提供一个数据治理平台,主要是管理数据的质量、来源和生命周期,其本身和数据驱动型应用是分离的。
三、完全依靠数据分析人员或数据科学家去了解业务逻辑和业务数据,提供一个简单的数据预处理层来进行数据加工。数据探索和模型选择过程中积累的部分知识只能以规则的形式沉淀。
以上三种方式对数据定义和数据描述都是以关系模型建模,并存储在关系数据库或者配置文件中,这导致如下问题:
(1)无法规范的表示与理解行业数据密切相关的概念、术语和实体关系,从而无法积累行业知识,进而无法推导隐含的数据知识。在无行业知识和数据知识的积累及扩展的支持下,也就无法实现模型经验的可复用性。也就是说,现有方案所搭建的数据模型仅能用于当前这一个数据驱动型应用,很难复用到其他应用。这造成现有方案对数据驱动型应用的开发效率低下,开发成本升高。
(2)现有方案对数据定义和数据描述以关系数据库来存储,这会造成模式固定,一旦增加或改变实体或关系,将导致整个数据库模式发生变化,不利于整个数据驱动型应用的稳定性和可维护性。
发明内容
针对上述现有技术中的问题,本发明实施例提供一种数据驱动型应用的数据模型、数据建模系统和方法,通过采用语义网络标准协议语言描述和定义行业概念、术语和实体关系,以增强数据驱动型应用的可复用性,提高其稳定性。
为达到上述目的,本发明实施例采用如下技术方案:
第一方面,本发明实施例提供了一种数据驱动型应用的数据模型,包括:数据表示层,用于描述和定义数据源、数据集和数据字典,表达业务逻辑知识和业务数据知识;概念抽象层,用于维护从所述业务逻辑知识和所述业务数据知识抽象到跨领域通用的知识和关系。
上述数据驱动型应用的数据模型,通过数据表示层来表达业务逻辑知识和业务数据知识,然后从数据表示层抽象出概念抽象层,抽象出的数据为跨领域通用的知识和关系,从而使得上述数据模型具备可复用性,能够应用于不同领域的数据驱动型应用,进而提高了数据驱动型应用的开发效率,降低了开发成本。
第二方面,本发明实施例提供了一种数据驱动型应用的数据建模系统,该数据建模系统包括:数据导入模块,用于导入外部的数据源、数据集和数据字典;数据表示推理模块,用于采用语义网络技术,描述和定义所述数据源和所述数据集,表达业务逻辑知识和业务数据知识,从中抽象出跨领域通用的关系和知识,并进行关系推导和知识发现以挖掘隐含的关系和知识。
上述数据驱动型应用的数据建模系统,通过采用语义网络技术来描述和定义数据源、数据集和数据字典,实现了对行业概念、术语和实体关系的精确描述和定义,从而将会规范的表达业务逻辑知识和业务数据知识,使得业务逻辑知识和业务数据知识能够得到有效积累,并且通过从业务逻辑知识和业务数据知识抽象到高层跨领域通用的关系和知识,实现了跨领域通用的概念、术语和实体关系的表达,同时还可挖掘隐含的关系和知识,这些均有助于增强上述数据建模系统所建立的数据模型的可复用性,实现提高数据驱动型应用的开发效率,降低其开发成本的目的。
并且,由于语义网络技术所使用的语义图关系易于扩展,任何一个改动都只影响局部,不会波及到全局,因此提高了系统的灵活性,从而有利于提高整个数据驱动型应用的稳定性和可维护性。
第三方面,本发明实施例提供了一种数据驱动型应用的数据建模方法,其该数据建模方法包括:收集外部的数据源、数据集和数据字典;采用语义网络技术,描述和定义所述数据源和所述数据集,表达业务逻辑知识和业务数据知识;从所述业务逻辑知识和业务数据知识中抽象出跨领域通用的关系和知识;对所述业务逻辑知识和业务数据知识进行关系推导和知识发现,挖掘隐含的关系和知识;结合所述业务逻辑知识和业务数据知识、所述跨领域通用的关系和知识,和所述隐含的关系和知识,得到数据知识和业务知识库。
上述数据驱动型应用的数据建模方法所能实现的有益效果与第二方面所提供的数据驱动型应用的数据建模系统的有益效果相同,此处不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例所提供的数据驱动型应用的数据模型的逻辑视图;
图2为本发明实施例所提供的数据驱动型应用的数据建模系统的功能模块结构图;
图3为本发明实施例所提供的数据驱动型应用的数据建模系统的逻辑架构图;
图4为本发明实施例所提供的数据驱动型应用的数据建模方法的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
本发明实施例提供一种数据驱动型应用的数据模型,如图1所示,该数据模型包括:底层的数据表示层和高层的概念抽象层。
其中,数据表示层中构建有业务数据模型,数据表示层用于描述和定义具体的数据源、数据集和数据字典,表达业务逻辑知识和业务数据知识;具体来说,数据表示层表达了业务逻辑层面的相关概念、术语、实体和实体关系等。
用于描述数据的数据称为“元数据”,由于数据表示层描述和定义具体的数据源和数据集,因此数据表示层中具有用于描述数据源的数据和用于描述数据集的数据,即数据表示层中具有数据源元数据和数据集元数据。其中,数据源元数据用于记录和描述数据的来源,例如:某个业务数据系统,或某个部门的文件服务器。数据集元数据用于描述具体的某个数据集,例如:某个业务部门生成的文件、表或视图的相关信息。数据表示层能够维护数据源元数据和数据集元数据,这有助于管理数据,加快本实施例中的数据模型后续在机器学习应用中的开发效率。
此外,数据字典用于描述和定义具体的每个字段的相关信息、含义和解释以及与其他数据字段的关系等。
另外,数据表示层中还具有数据关系,这里的“数据关系”是指数据驱动型应用所涉及到的各个业务系统数据之间的关系,以及每个业务数据系统内部数据之间的关系。
概念抽象层中构建有通用数据模型,概念抽象层用于维护从数据表示层所表达的业务逻辑知识和业务数据知识抽象到跨领域通用的知识和关系。也可以说,概念抽象层负责维护从业务逻辑知识和业务数据知识抽象到高层的概念、术语、实体和实体关系,因此概念抽象层所抽象出的知识是可跨业务部门或者跨行业的,这使得本实施例中的数据模型能够应用于不用领域的数据驱动型应用。
在本实施所提供的数据模型中,概念抽象层和数据表示层的关系可以认为概念抽象层是数据表示层的高层抽象,概念抽象层所抽象出来的概念更为通用。举例来说,概念抽象层和数据表示层的关系类似于面向对象编程语言中的Class(类)和Instance(实例),比如:“用户”是一个行业术语,属于数据表示层,其抽象到概念抽象层的概念就是“人”。
基于上述数据模型,本实施例提供了一种数据驱动型应用的数据建模系统,如图2所示,该数据建模系统包括:数据导入模块,及数据表示推理模块。
其中,数据导入模块用于导入外部的数据源、数据集和数据字典。
具体的,请参见图3中所示出的数据导入部分,数据导入模块包括导入单元,以使数据导入模块支持从FTP(File Transfer Protocol,文件传输协议)、HTTP(Hyper TextTransfer Protocol,超文本传输协议)、JDBC或ODBC(JDBC的英文全称为Java DatabaseConnectivity,中文名称为Java数据库连接;ODBC的英文全称为Open DatabaseConnectivity,中文名称为开放数据库连接)、和本地文件中导入数据源、数据集和数据字典。
鉴于目前流行的数据科学编程语言是PYTHON语言或R语言,该模块可提供相应语言的包和接口,用于为Python语言或R语言提供编程接口。
为了使数据导入模块能够在协同系统环境下工作,数据导入模块还需提供Restful(Representational State Transfer,简称REST)接口。
此外,可选的,数据导入模块还可包括:引擎单元,其包括规则引擎、过滤引擎和采样引擎,主要用于根据设定规则所导入的数据进行过滤和采样原数据文件。
数据表示推理模块用于采用语义网络技术,描述和定义由数据导入模块所导入的数据源和数据集,有时也会对数据字典进行描述和定义,表达业务逻辑知识和业务数据知识,从中抽象出跨领域通用的关系和知识,并进行关系推导和知识发现以挖掘隐含的关系和知识。
其中,语义网络是一种用图模型来表示知识的结构化方式,用于描述物体概念与状态及其间的关系。它是由结点和结点之间的弧组成,结点表示概念(事件、事物),弧表示它们之间的关系。在数学上,语义网络是一个有向图,与逻辑表示法对应。语义网络的一个重要特性是属性继承,在此基础上可以方便进行推理,而且可以深层次地表示知识,包括实体结构、层次及实体间的因果关系。语义网络的实现基于RDF(Resource DescriptionFramework,资源描述框架)。
具体的,请再参见图3中所示出的数据表示推理部分,数据表示推理模块包括:数据描述单元、通用数据抽象词汇表、行业数据抽象描述单元和关系推导和知识发现单元四部分。
其中,数据描述单元用于采用RDF、RDFS(Resource Description FrameworkSchema,资源描述框架架构)和R2RML(RDB to RDF Mapping Language,从关系数据库到资源描述框架映射的语言)等中的至少一种,描述和定义数据源和数据集。其中,RDF本身是设计用来描述万维网上的各种资源,表示该资源的相关信息的;RDF使用XML(ExtensibleMarkup Language,可扩展标记语言)语法和RDFS来将元数据描述成为数据模型;RDF并没有定义描述资源所用的词汇表,而是定义了一些规则,这些规则是各领域和应用定义用于描述资源的词汇表时必须遵循的;当然,RDF也提供了描述资源时具有基础性的词汇表;通过RDF可以使用自己的词汇表描述任何资源。RDFS是在RDF之上做一层概念抽象,它可以用来定义和解释RDF不方便定义的概念和术语。R2RML可用来把关系数据库中的实体关系模型直接映射成RDF图模型表示。显然,RDFS和R2RML均基于RDF,而RDF是语义网络技术实现的基础,也就是说,数据描述单元采用基于RDF的语义网络标准协议和技术来描述和定义数据源和数据集,从而实现了针对数据的语义进行建模,使行业概念、属于和实体关系得到规范的描述和定义,通过这样对数据的表示和定义,以及精确定义实体和实体关系,使得后续能够把行业领域概念和术语泛化到通用概念和术语,也可以很好的融合其他数据源,实现业务逻辑知识和业务数据知识的有效积累。
通用数据抽象词汇表用于采用通用标准的SKOS(Simple KnowledgeOrganization System,简单知识组织系统)、DC(Dublin Core Element Set,都柏林核心元素集)和FOAF(Friend Of A Friend,一种XML/RDF词汇表)等中的至少一种,描述和定义泛化的抽象实体、概念和关系。SKOS、DC和FOAF都是基于RDF的语义标准,分别定义了知识组织和人、事物等概念的标准语义协议。
行业数据抽象描述单元主要用于采用OWL(Web Ontology Language,Web本体语言)和OWL 2(OWL的升级版)等中的至少一种,描述业务逻辑知识和业务数据知识,支持业务的泛化表示和对业务关系的精确定义,并支持可扩展和可与多数据源融合。其中,OWL是语义网络的本体语言,可以表达丰富和复杂的事物、事务组、和事物之间的关系。OWL是机器可读的,基于逻辑可计算,因此程序可以通过OWL进行知识和关系推理,从而得到隐含关系和验证关系的有效性。所谓“本体”可以被理解成特定领域规范概念集及其逻辑关系的描述,本体为特定领域中的信息提供了一个基本的分类框架,同时也为特定领域中的信息之间的关联性提供了一定程度的逻辑描述,使得特定领域中的信息资源能够在本体描述的框架上组织成一个有机的整体。
关系推导和知识发现单元用于利用OWL支持的知识推理(Knowledge Reasoning)功能,进行关系推导和知识发现,以实现业务逻辑知识和业务数据知识的有效积累与扩展,进而实现数据模型的可复用性。
此外,数据表示推理模块还包括:RDF API接口、OWL API接口和Reasoning API接口。其中,RDF API接口为资源描述框架功能编程接口;OWL API接口为本体建模功能编程接口;Reasoning API接口为关系推理功能编程接口。
在本实施的数据模型中,数据表示推理模块是核心模块,其通过语义网络标准协议和技术及图模型,使用机器可读的本体建模描述语言,来规范描述业务逻辑和业务数据知识,并且从业务逻辑和业务数据知识抽象出通用的规范描述的概念、术语、实体和实体关系,此外还采用知识推理的方法得到隐含知识和关系,从而不但有助于有效积累业务逻辑知识和数据知识,融合多源数据,提高数据模型的可复用性,最终实现数据驱动型应用的快速开发,从而最大程度降低成本和缩短开发时间;而且还可以实现整个流程自动化,规范流程,减少人为因素,提高数据模型的稳定性和可维护性。
并且,语义网络技术所使用的语义图关系易于扩展,任何一个改动都只影响局部,不会波及到全局,从而可以提高数据模型的灵活性。
请再次参见图2,及图3中的数据验证与数据盘点部分,基于上述数据建模系统的结构,本实施中的数据建模系统还可包括:数据验证模块,用于采用数据盘点技术,从元数据管理模块和数据表示推理模块中收集数据特征,验证所收集的数据特征与所定义的数据特征是否相符。
验证的具体过程为:通过数据盘点技术,收集数据摘要信息作为数据特征,在数据进入机器学习平台之前进行数据验证。如果数据特征和所定义的数据特征相差较大,则可以给出警告。需要注意的是,收集数据特征时需要收集与数据科学方法对数据的要求比较相关的数据信息,如:数据的行数、字段个数、数据变量类型、数据的分布特征、数据的统计特性等。相应的,进行数据验证时具体可对数据集的各个数据字段是否符合定义和满足预期进行检验。
本实施例中,数据验证模块根据组织良好的数据知识来构建数据盘点和验证方法,能够使数据知识和数据盘点紧密耦合,从而达到二者的无缝连接和更新无感知,也就避免了现有技术中数据验证和盘点是与数据定义相分离所引起的开发过程复杂化和出问题的概率增加的问题,保证了机器学习模型结果的稳定性和可靠性。
作为一种可能的设计,请继续参见图2,及图3中的元数据管理部分,本实施中的数据建模系统还包括:元数据管理模块,其用于维护和管理数据源的相关信息、数据集的相关信息和数据字典的相关信息。
元数据管理模块使用DCAT(Data Catalog Vocabulary,数据目录词汇表)标准语义来描述数据源的相关信息、数据集的相关信息和数据字典的相关信息。DCAT为一个基于RDF的描述数据目录的词汇表,例如:定义数据的发布者、发布时间、数据的格式等。数据导入模块通过读取元数据管理模块所记录的元数据来导入外部数据集。通过使用基于RDF的DCAT协议标准定义数据集,有助于规范化数据集的管理流程。
作为一种可能的设计,请继续参见图2,及图3中的数据访问部分,本实施中的数据建模系统还包括:数据接口模块,其用于提供对外的控制接口和访问查询接口。
数据接口模块可至少包括三种接口:SQL接口,SPARQL接口或OWL-QL接口,和RDFAPI接口或OWL API接口。其中,SQL接口用于采用结构化查询语言从关系数据库中提取数据;SPARQL接口用于查询基于图模型的数据定义和实体关系,SPARQL接口所提供的基于图模型的查询更适合于深度优先搜素,便于挖掘实体或概念之间的关系,OWL-QL用于查询基于本体定义和关系的数据定义和实体关系;RDF API接口用于对RDF文档的操作和维护,OWLAPI接口为本体建模功能编程接口。通过数据接口模块的这三种接口可以查询出数据定义和实体关系。
此外,数据接口模块还可包括:PYTHON接口或R接口,和Restful接口。其中,PYTHON接口或R接口用于被Python语言或R语言所调用;Restful接口为被web应用或微服务架构所调用的HTTP接口。
作为一种可能的设计,请继续参见图2,及图3中的存储层部分,本实施中的数据建模系统还包括:存储模块,用于存储实体及其关系,和业务知识。
存储模块具体可包括:关系数据库管理系统(Relational Database,简称RDBMS)、三倍存储数据库(Triple Store Database,简称TDB)和图数据库(Graph Database,简称Graph DB)中的至少一种。其中,关系数据库用于存储固定规则和模式的数据;三倍存储数据库和图数据库用于保存和维护数据定义和数据关系,作为积累在平台层的知识。
此外,存储模块还可包括:RDF文档,用于以文件形式存储RDF数据。
基于上述数据驱动型应用的数据模型及数据建模系统,本实施例还提供一种数据驱动型应用的数据建模方法,如图4所示,该数据建模方法包括以下步骤:
收集外部的数据源、数据集和数据字典;
采用语义网络技术,描述和定义数据源和数据集,表达业务逻辑知识和业务数据知识;
从业务逻辑知识和业务数据知识中抽象出跨领域通用的关系和知识;
对业务逻辑知识和业务数据知识进行关系推导和知识发现,挖掘隐含的关系和知识;
结合业务逻辑知识和业务数据知识、跨领域通用的关系和知识,和隐含的关系和知识,得到数据知识和业务知识库。
在上述方法中,摒弃了现有技术中通过关系数据库进行数据描述和存储的模式,通过采用语义网络技术规范的描述和定义数据,抽象出跨领域通用的关系和知识,并进行关系推导和知识发现,将这三方面相结合得到数据知识和业务知识库,从而使得进入机器学习平台的数据都需要通过数据知识和业务知识库进行知识积累,即什么样的数据,以什么业务目标为目的,应用什么数据科学方法,得到了一个什么结果。经过这样精确的定义和组织,且以描述业务数据和业务逻辑的数据而构建的数据模型,具有可复用性,能够在很大程度上提高数据驱动型应用的开发效率,降低其开发成本;并且数据模型的稳定性较高。
请继续参见图4,作为一种可能的实现方案,上述数据建模方法还可包括如下步骤:
采用数据盘点技术,收集数据特征,验证所收集的数据特征与所定义的数据特征是否相符;
将验证结果与业务逻辑知识和业务数据知识、跨领域通用的关系和知识,和隐含的关系和知识相结合,得到。
在上述步骤中,通过采用数据盘点技术实现对数据的检验,并将检验结果与所精确描述和定义的数据相结合,使得所得到数据知识和业务知识库的稳定性和可靠性更高。
以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种数据驱动型应用的数据建模系统,其特征在于,所述数据建模系统包括:
数据导入模块,用于导入外部的数据源、数据集和数据字典;
数据表示推理模块,用于采用语义网络技术,描述和定义所述数据源和所述数据集,表达业务逻辑知识和业务数据知识,从中抽象出跨领域通用的关系和知识,并进行关系推导和知识发现以挖掘隐含的关系和知识;
元数据管理模块,用于维护和管理所述数据源的相关信息、所述数据集的相关信息和所述数据字典的相关信息;
数据验证模块,用于采用数据盘点技术,从所述元数据管理模块和所述数据表示推理模块中收集数据特征,验证所收集的数据特征与所定义的数据特征是否相符;
所述验证的具体过程为:采用数据盘点技术,收集数据摘要信息作为数据特征,在数据进入机器学习平台之前进行数据验证;其中,收集的数据特征为与数据科学方法对数据的要求相关的数据信息;收集的数据特征包括:数据的行数、字段个数、数据变量类型、数据的分布特征以及数据的统计特性;
对数据集的各个数据字段是否符合定义和满足预期进行检验。
2.根据权利要求1所述的数据建模系统,其特征在于,所述数据导入模块包括:
导入单元,其支持从FTP、HTTP、JDBC或ODBC、和本地文件导入所述数据源、所述数据集和所述数据字典;
PYTHON接口或R接口,为被Python语言或R语言所调用的接口;
Restful接口,为被web应用或微服务架构所调用的HTTP接口。
3.根据权利要求2所述的数据建模系统,其特征在于,所述数据导入模块还包括:引擎单元,包括规则引擎、过滤引擎和采样引擎,用于根据设定规则对数据的导入进行过滤和采样原数据文件。
4.根据权利要求1所述的数据建模系统,其特征在于,所述数据表示推理模块包括:
数据描述单元,用于采用RDF、RDFS和R2RML中的至少一种,描述和定义所述数据源和所述数据集;
通用数据抽象词汇表,用于采用DC、SKOS和FOAF中的至少一种,描述和定义泛化的抽象实体、概念和关系;
行业数据抽象描述单元,用于采用OWL和OWL 2中的至少一种,描述业务逻辑知识和业务数据知识,并支持可扩展和可与多数据源融合;
关系推导和知识发现单元,用于利用OWL支持的知识推理功能,进行关系推导和知识发现;
RDF API接口,为资源描述框架功能编程接口;
OWL API接口,为本体建模功能编程接口;
Reasoning API接口,为关系推理功能编程接口。
5.根据权利要求1所述的数据建模系统,其特征在于,所述元数据管理模块使用DCAT标准语义来描述所述数据源的相关信息和所述数据集的相关信息。
6.根据权利要求1~4任一项所述的数据建模系统,其特征在于,所述数据建模系统还包括:数据接口模块,用于提供对外的控制接口和访问查询接口。
7.根据权利要求6所述的数据建模系统,其特征在于,所述数据接口模块包括:
SQL接口,用于采用结构化查询语言从关系数据库中提取数据;
SPARQL接口或OWL-QL接口,所述SPARQL接口用于查询基于图模型的数据定义和实体关系,OWL-QL用于查询基于本体定义和关系的数据定义和实体关系;
RDF API接口或OWL API接口,所述RDF API接口用于对RDF文档的操作和维护,所述OWLAPI接口为本体建模功能编程接口;
PYTHON接口或R接口,用于被Python语言或R语言所调用;
Restful接口,为被web应用或微服务架构所调用的HTTP接口。
8.根据权利要求1~4任一项所述的数据建模系统,其特征在于,所述数据建模系统还包括:存储模块,用于存储实体及其关系,和业务知识。
9.根据权利要求8所述的数据建模系统,其特征在于,所述存储模块包括:关系数据库、三倍存储数据库和图数据库中的至少一种;其中,所述关系数据库用于存储固定规则和模式的数据;所述三倍存储数据库和所述图数据库用于保存和维护数据定义和数据关系;
RDF文档,用于以文件形式存储RDF数据。
10.一种数据驱动型应用的数据建模方法,其特征在于,所述数据建模方法包括:
收集外部的数据源、数据集和数据字典;
采用语义网络技术,描述和定义所述数据源和所述数据集,表达业务逻辑知识和业务数据知识;
从所述业务逻辑知识和业务数据知识中抽象出跨领域通用的关系和知识;
对所述业务逻辑知识和业务数据知识进行关系推导和知识发现,挖掘隐含的关系和知识;
采用数据盘点技术,收集数据特征,验证所收集的数据特征与所定义的数据特征是否相符;
将验证结果与所述业务逻辑知识和业务数据知识、所述跨领域通用的关系和知识,和所述隐含的关系和知识相结合,得到数据知识和业务知识库;
所述验证的具体过程为:采用数据盘点技术,收集数据摘要信息作为数据特征,在数据进入机器学习平台之前进行数据验证;其中,收集的数据特征为与数据科学方法对数据的要求相关的数据信息;收集的数据特征包括:数据的行数、字段个数、数据变量类型、数据的分布特征以及数据的统计特性;
对数据集的各个数据字段是否符合定义和满足预期进行检验。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711423940.1A CN110019554B (zh) | 2017-12-25 | 2017-12-25 | 数据驱动型应用的数据模型、数据建模系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711423940.1A CN110019554B (zh) | 2017-12-25 | 2017-12-25 | 数据驱动型应用的数据模型、数据建模系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110019554A CN110019554A (zh) | 2019-07-16 |
CN110019554B true CN110019554B (zh) | 2024-05-24 |
Family
ID=67187143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711423940.1A Active CN110019554B (zh) | 2017-12-25 | 2017-12-25 | 数据驱动型应用的数据模型、数据建模系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019554B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111813798B (zh) * | 2020-07-10 | 2023-06-23 | 中国医学科学院医学信息研究所 | 基于r2rml标准的映射方法、装置、设备及存储介质 |
CN112256927B (zh) * | 2020-10-21 | 2024-06-04 | 网易(杭州)网络有限公司 | 基于属性图的知识图谱数据处理方法和装置 |
CN115659993B (zh) * | 2022-11-14 | 2023-05-26 | 杰为软件系统(深圳)有限公司 | 一种基于联邦语义模型驱动的产品数字主线实现方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567314A (zh) * | 2010-12-07 | 2012-07-11 | 中国电信股份有限公司 | 知识查询装置和方法 |
CN102682122A (zh) * | 2012-05-15 | 2012-09-19 | 北京科技大学 | 基于本体构建材料科学领域语义数据模型的方法 |
CN106250382A (zh) * | 2016-01-28 | 2016-12-21 | 新博卓畅技术(北京)有限公司 | 一种元数据管理引擎系统及实现方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160246582A1 (en) * | 2015-02-25 | 2016-08-25 | Red Hat, Inc. | Generic Semantic Configuration Service |
-
2017
- 2017-12-25 CN CN201711423940.1A patent/CN110019554B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567314A (zh) * | 2010-12-07 | 2012-07-11 | 中国电信股份有限公司 | 知识查询装置和方法 |
CN102682122A (zh) * | 2012-05-15 | 2012-09-19 | 北京科技大学 | 基于本体构建材料科学领域语义数据模型的方法 |
CN106250382A (zh) * | 2016-01-28 | 2016-12-21 | 新博卓畅技术(北京)有限公司 | 一种元数据管理引擎系统及实现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110019554A (zh) | 2019-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sevilla Ruiz et al. | Inferring versioned schemas from NoSQL databases and its applications | |
Gagnon | Ontology-based integration of data sources | |
Hor et al. | A semantic graph database for BIM-GIS integrated information model for an intelligent urban mobility web application | |
US20150095303A1 (en) | Knowledge Graph Generator Enabled by Diagonal Search | |
US20110087708A1 (en) | Business object based operational reporting and analysis | |
US11449477B2 (en) | Systems and methods for context-independent database search paths | |
Konstantinou et al. | Exposing scholarly information as linked open data: RDFizing DSpace contents | |
CN110019554B (zh) | 数据驱动型应用的数据模型、数据建模系统和方法 | |
CN115905212A (zh) | 具有相关性标识符的集中式元数据储存库 | |
Berkani et al. | A value-added approach to design BI applications | |
US20240134883A1 (en) | Data object management using data object clusters | |
Capodieci et al. | Semantic enterprise service bus for cultural heritage | |
Soussi et al. | Graph database for collaborative communities | |
Hewasinghage et al. | Managing polyglot systems metadata with hypergraphs | |
Ma et al. | Semantic web technologies and data management | |
Alaoui et al. | Semantic oriented data modeling based on RDF, RDFS and OWL | |
Sellami et al. | MidSemI: a middleware for semantic integration of business data with large-scale social and linked data | |
Mosca et al. | Ontology learning from relational database: a review | |
Chen et al. | A hybrid strategy to construct scientific instrument ontology from relational database model | |
Zhang et al. | Storing fuzzy description logic ontology knowledge bases in fuzzy relational databases | |
Fakhre Alam et al. | A comparative study of RDF and topic maps development tools and APIs | |
Orsi | Context based querying of dynamic and heterogeneous information sources. | |
Priyatna | RDF-based access to multiple relational data sources | |
Cheng et al. | RDF storage and querying: a literature review | |
Fang et al. | RDF Date Storage Scheme Based on Graph Database |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230630 Address after: Floor 1-3, block a, global creative Plaza, No. 10, Furong street, Chaoyang District, Beijing 100102 Applicant after: Bairong Zhixin (Beijing) Technology Co.,Ltd. Address before: Room 116-26, 1st Floor, 101, Building 2, No. 8 Beichen West Road, Chaoyang District, Beijing, 100029 Applicant before: Beijing Shun Zhixin Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |