CN113468280A - 一种数据认知方法、装置、设备及存储介质 - Google Patents
一种数据认知方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113468280A CN113468280A CN202110847493.2A CN202110847493A CN113468280A CN 113468280 A CN113468280 A CN 113468280A CN 202110847493 A CN202110847493 A CN 202110847493A CN 113468280 A CN113468280 A CN 113468280A
- Authority
- CN
- China
- Prior art keywords
- entity
- data
- layer
- real
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 230000019771 cognition Effects 0.000 title abstract description 33
- 238000013136 deep learning model Methods 0.000 claims abstract description 48
- 238000012512 characterization method Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 23
- 238000012549 training Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000004140 cleaning Methods 0.000 description 5
- 230000001149 cognitive effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000001556 precipitation Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000005079 cognition system Anatomy 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种数据认知方法、装置、设备及存储介质,涉及计算机技术领域,该方法包括:基于应用数据构建现实层子图,现实层子图包括多个应用实体,每个应用实体用于表征应用数据中一个应用数据单元。基于标准数据构建知识层子图,知识层子图包括多个标准实体,每个标准实体用于表征标准数据中一个标准数据单元。通过深度学习模型,确定现实层子图中的至少一个应用实体,分别在知识层子图中对应的标准实体;再将至少一个应用实体各自对应的标准实体的标准属性信息,分别添加至至少一个应用实体各自对应的属性信息集合中。相较于采用人工方法进行数据认知的方案来说,本申请的数据认知方法可以提高数据认知的准确性,提高数据认知的效率。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种数据认知方法、装置、设备及存储介质。
背景技术
为了规范化数据形式,国家相关机构针对各行各业制定了数据标准。而企业存储的原始数据往往由于其本身的特点,导致数据形式、字段命名、数据质量等各不相同,因此需要对企业原始数据进行数据治理,为后续分析、挖掘提供高质量的数据,而数据治理的第一步是对数据进行认知,通过数据认知了解数据的主外键等基本信息,及数据字段对应标准数据的哪一字段等。
目前,相关技术在实现数据认知时,一般采用人工方法,即人工执行数据认知的过程。然而,人工方法具有主观性,并且费时费力,而需要进行数据认知数据繁多,从而导致数据认知的准确性和效率较低。
发明内容
本申请实施例提供了一种数据认知方法、装置、设备及存储介质,用于提高数据认知的效率。
一方面,本申请实施例提供了一种数据认知方法,该方法包括:
基于应用数据构建现实层子图,所述现实层子图包括多个应用实体,每个应用实体用于表征所述应用数据中一个应用数据单元,应用实体之间的连接关系用于表征应用数据单元之间的关联关系;
基于标准数据构建知识层子图,所述知识层子图包括多个标准实体,每个标准实体用于表征所述标准数据中一个标准数据单元,标准实体之间的连接关系用于表征标准数据单元之间的关联关系;
通过深度学习模型,确定所述现实层子图中的至少一个应用实体,分别在所述知识层子图中对应的标准实体;
将所述至少一个应用实体各自对应的标准实体的标准属性信息,分别添加至所述至少一个应用实体各自对应的属性信息集合中。
一方面,本申请实施例提供了一种数据认知装置,该装置包括:
第一图谱模块,用于基于应用数据构建现实层子图,所述现实层子图包括多个应用实体,每个应用实体用于表征所述应用数据中一个应用数据单元,应用实体之间的连接关系用于表征应用数据单元之间的关联关系;
第二图谱模块,用于基于标准数据构建知识层子图,所述知识层子图包括多个标准实体,每个标准实体用于表征所述标准数据中一个标准数据单元,标准实体之间的连接关系用于表征标准数据单元之间的关联关系;
匹配模块,用于通过深度学习模型,确定所述现实层子图中的至少一个应用实体,分别在所述知识层子图中对应的标准实体;
添加模块,用于将所述至少一个应用实体各自对应的标准实体的标准属性信息,分别添加至所述至少一个应用实体各自对应的属性信息集合中。
可选地,所述应用数据包括现实层表和现实层字段,所述应用实体包括现实层表实体和现实层字段实体,其中,每个现实层表实体用于表征一个现实层表,每个现实层字段实体用于表征一个现实层字段;
所述现实层表实体与所述现实层字段实体之间的连接关系用于表征一个现实层表对应一个或多个现实层字段。
可选地,所述标准数据包括数据项集,所述标准实体包括数据项集实体,每个数据项集实体用于表征一个数据项集;
所述匹配模块具体用于:
针对所述现实层子图中的每个现实层表实体,通过第一深度学习模型,确定所述现实层表实体在所述知识层子图中对应的目标数据项集实体。
可选地,所述添加模块具体用于:
将所述目标数据项集实体对应标准属性信息,添加至所述现实层表实体对应的属性信息集合中。
可选地,所述应用数据还包括应用系统表征数据和数据源表征数据,所述应用实体还包括应用系统实体和数据源实体,其中,每个应用系统实体用于表征一个应用系统表征数据,每个数据源实体用于表征一个数据源表征数据;
所述应用系统实体与所述数据源实体之间的连接关系用于表征一个应用系统表征数据对应一个或多个数据源表征数据,所述数据源实体与所述现实层表实体之间的连接关系用于表征一个数据源表征数据对应一个或多个现实层表。
可选地,所述标准数据还包括数据项、限定词和数据元,所述标准实体还包括数据项实体、限定词实体和数据元实体,其中,每个数据项实体用于表征一个数据项,每个限定词实体用于表征一个限定词,每个数据元实体用于表征一个数据元;
所述匹配模块具体用于:
针对所述现实层子图中的每个现实层字段实体,通过第二深度学习模型,确定所述现实层字段实体在所述知识层子图中对应的目标限定词实体。
可选地,所述匹配模块还用于:
通过第三深度学习模型,确定所述现实层字段实体在所述知识层子图中对应的目标数据元实体。
可选地,所述匹配模块还用于:
根据所述现实层字段实体在所述知识层子图中对应的目标限定词实体,和所述知识层子图中所述数据项实体、所述限定词实体和所述数据元实体之间的关联关系,确定所述现实层字段实体在所述知识层子图中对应的目标数据元实体。
可选地,所述添加模块具体用于:
将目标限定词实体对应的标准属性信息和所述目标数据元实体对应的标准属性信息,添加至所述现实层字段实体对应的属性信息集合中。
可选地,所述数据项集实体与所述数据项实体之间的连接关系用于表征一个数据项集对应一个或多个数据项,所述数据项实体与所述限定词实体之间的连接关系用于表征一个数据项对应一个限定词,所述数据项实体与所述数据元实体之间的连接关系用于表征一个数据项对应一个数据元。
可选地,所述标准数据还包括值域、数据元表示词、数据元特性词和数据元对象类词,所述标准实体还包括值域实体、数据元表示词实体、数据元特性词实体和数据元对象类词实体;
所述数据元实体与所述数据元表示词实体之间的连接关系用于表征一个数据元对应一个数据元表示词,所述数据元实体与所述数据元特性词实体之间的连接关系用于表征一个数据元对应一个数据元表示词,所述数据元实体与所述数据元对象类词实体之间的连接关系用于表征一个数据元对应一个数据元对象类词,所述数据元实体与所述值域实体之间的连接关系用于表征一个数据元对应一个值域。
一方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述工作流生成方法的步骤。
一方面,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行上述工作流生成方法的步骤。
本申请实施例中,基于应用数据构建现实层子图,基于标准数据构建知识层子图,然后通过深度学习模型,确定现实层子图中的至少一个应用实体,分别在知识层子图中对应的标准实体,再将至少一个应用实体各自对应的标准实体的标准属性信息,分别添加至至少一个应用实体各自对应的属性信息集合中。相较于采用人工方法进行数据认知的方案来说,本申请的数据认知方法可以提高数据认知的准确性,提高数据认知的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种系统架构示意图;
图2为本申请实施例提供的一种数据认知方法的流程示意图;
图3为本申请实施例提供的一种现实层表实体和现实层字段实体对应关系的结构示意图;
图4为本申请实施例提供的一种训练第一深度学习模型的流程示意图;
图5为本申请实施例提供的一种调用第一深度学习模型的流程示意图;
图6为本申请实施例提供的一种现实层表实体和数据项集实体对应关系的结构示意图;
图7为本申请实施例提供的一种数据项集实体的标准属性添加至现实层表实体属性信息集合的流程示意图;
图8为本申请实施例提供的一种现实层子图的结构示意图;
图9为本申请实施例提供的一种知识层子图的结构示意图;
图10为本申请实施例提供的一种现实层字段实体和限定词实体对应关系的结构示意图;
图11为本申请实施例提供的一种限定词实体的标准属性添加至现实层字段实体属性信息集合的流程示意图;
图12为本申请实施例提供的一种现实层字段实体和数据元实体对应关系的结构示意图;
图13为本申请实施例提供的一种现实层字段实体和数据元实体对应关系的结构示意图;
图14为本申请实施例提供的一种数据元实体的标准属性添加至现实层字段实体属性信息集合的流程示意图;
图15为本申请实施例提供的一种知识层子图的结构示意图;
图16为本申请实施例提供的一种现实层子图和知识层子图的结构示意图;
图17为本申请实施例提供的一种数据认知装置的结构示意图;
图18为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了方便理解,下面对本发明实施例中涉及的名词进行解释。
知识图谱:泛指当前基于通用语义知识的形式化描述而组织的人类知识系统,该系统本质上是一个有向、有环的复杂的图结构。
实体:是知识图谱中最基本的元素,不同的实体之间存在不同的关系。
参考图1,其为本申请实施例适用的一种系统架构图,该系统架构至少包括终端设备101和数据认知系统102。
终端设备101安装有提交应用数据和标准数据的目标应用,该应用可以是预先安装的客户端、网页版应用或嵌入在其他应用中的小程序等。终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。
数据认知系统102为目标应用的后台服务器,为目标应用提供服务。数据认知系统102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网路(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101与数据认知系统102可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
终端设备101响应用户的数据提交操作,发送用户提交的应用数据和标准数据至数据认知系统102。数据认知系统102接收用户提交的应用数据和标准数据,并将应用数据和标准数据存储在系统内。
数据认知系统102基于应用数据构建现实层子图,其中,现实层子图包括多个应用实体,每个应用实体用于表征应用数据中一个应用数据单元,应用实体之间的连接关系用于表征应用数据单元之间的关联关系。基于标准数据构建知识层子图,其中,知识层子图包括多个标准实体,每个标准实体用于表征标准数据中一个标准数据单元,标准实体之间的连接关系用于表征标准数据单元之间的关联关系。然后通过深度学习模型,确定现实层子图中的至少一个应用实体,分别在知识层子图中对应的标准实体。再将至少一个应用实体各自对应的标准实体的标准属性信息,分别添加至至少一个应用实体各自对应的属性信息集合中,完成数据认知。
基于图1所述的系统架构图,本申请实施例提供了一种数据认知方法的流程,如图2所示,该方法的流程由计算机设备执行,该计算机设备可以是图1所示的数据认知系统102,包括以下步骤:
步骤S201,基于应用数据构建现实层子图。
具体地,现实层子图是一种知识图谱,现实层子图包括多个应用实体,每个应用实体用于表征应用数据中一个应用数据单元,应用实体之间的连接关系用于表征应用数据单元之间的关联关系。
应用数据中应用数据单元的类型包括以下数据类型中的一种或多种:现实层表、现实层字段、应用系统表征数据和数据源表征数据。相应地,现实层子图中应用实体类型包括以下实体类型中的一种或多种:现实层表实体、现实层字段实体、应用系统实体和数据源实体,其中,每个现实层表实体用于表征一个现实层表,每个现实层字段实体用于表征一个现实层字段,每个应用系统实体用于表征一个应用系统表征数据,每个数据源实体用于表征一个数据源表征数据。
步骤S202,基于标准数据构建知识层子图。
具体地,知识层子图是一种知识图谱,知识层子图包括多个标准实体,每个标准实体用于表征标准数据中一个标准数据单元,标准实体之间的连接关系用于表征标准数据单元之间的关联关系。
可选地,标准数据包括国家制定的标准规范数据和企业沉淀知识。
具体地,国家制定的标准规范数据,包括:人口库DB33/T 2234-2019、实有人口基础信息数据项GA/T 1218-2015、法人库DB37/T 1435-2009、法人和其他组织统一社会信用代码数据交换接口GB/T 36107-2018、自然资源以及空间地舆、基础信息库和宏观经济数据库。
企业沉淀知识包括:企业内部统一要求的标准数据的名称、标准数据的属性等。
具体地,标准数据中标准数据单元的类型包括以下数据类型中的一种或多种:数据项集、数据项、限定词、数据元、值域、数据元表示词、数据元特性词和数据元对象类词。相应地,知识层子图中标准实体类型包括以下实体类型中的一种或多种:数据项集实体、数据项实体、限定词实体、数据元实体、值域实体、数据元表示词实体、数据元特性词实体和数据元对象类词实体。
每个数据项集实体用于表征一个数据项集,每个数据项实体用于表征一个数据项,每个限定词实体用于表征一个限定词,每个数据元实体用于表征一个数据元,每个值域实体用于表征一个值域,每个数据元表示词实体用于表征一个数据元表示词,每个数据元特性词实体用于表征一个数据元特性词,每个数据元对象类词实体用于表征一个数据元对象类词。
步骤S203,通过深度学习模型,确定现实层子图中的至少一个应用实体,分别在知识层子图中对应的标准实体。
具体地,一个应用实体可以映射到一个或多个标准实体,针对一个应用实体与不同标准实体之间的映射关系,可以采用不同的深度学习模型获得。深度学习模型具体可以是单向特征表示的自回归预训练语言模型,即单向模型;也可以是双向特征标识的自编码预训练语言模型,即bert系列模型;还可以是双向特征表示的子回归预训练语言模型,即XLNet等。
步骤S204,将至少一个应用实体各自对应的标准实体的标准属性信息,分别添加至至少一个应用实体各自对应的属性信息集合中。
具体地,应用实体的属性信息集合包括名称、描述等属性信息,标准实体的标准属性信息集合包括ID、标识符、名称等属性信息。
一种可能的实施方式,保留应用实体对应的属性信息集合中原有的属性信息,然后将对应的标准实体的标准属性信息添加至属性信息集合中。
另一种可能的实施方式,将应用实体对应的属性信息集合中原有的属性信息删除,再将对应的标准实体的标准属性信息添加至属性信息集合中。
本申请实施例中,基于应用数据构建现实层子图,基于标准数据构建知识层子图,然后通过深度学习模型,确定现实层子图中的至少一个应用实体,分别在知识层子图中对应的标准实体,再将至少一个应用实体各自对应的标准实体的标准属性信息,分别添加至至少一个应用实体各自对应的属性信息集合中。相较于采用人工方法进行数据认知的方案来说,本申请的数据认知方法可以提高数据认知的准确性,提高数据认知的效率。
可选地,在上述步骤S201中,应用数据包括现实层表和现实层字段,应用实体包括现实层表实体和现实层字段实体,其中,每个现实层表实体用于表征一个现实层表,每个现实层字段实体用于表征一个现实层字段,现实层表实体与现实层字段实体之间的连接关系用于表征一个现实层表对应一个或多个现实层字段。
具体地,应用数据可以包括一个或多个现实层表,以及一个或多个现实层字段。每个现实层表分别对应多个现实层字段,不同现实层表对应的现实层字段可以是完全不同的,也可以存在部分相同的现实层字段。
现实层表实体的属性信息包括:现实层表中文名称、现实层表主键等。现实层字段实体的属性信息包括:现实层字段英文名称、现实层字段中文名称等。
举例来说,如图3所示,设定应用数据包括3个现实层表,表名分别为现实层表1,现实层表2,现实层表3。在现实层子图中每个现实层表对应一个现实层表实体,分别为现实层表实体1,现实层表实体2,现实层表实体3。
设定应用数据包括7个现实层字段,字段名分别为现实层字段1、现实层字段2、现实层字段3、现实层字段4、现实层字段5、现实层字段6。在现实层子图中每个现实层字段对应一个现实字段实体,分别为现实层字段实体1、现实层字段实体2、现实层字段实体3、现实层字段实体4、现实层字段实体5、现实层字段实体6。
设定在应用数据中,现实层表1包括现实层字段1和现实层字段2,现实层表2包括现实层字段3、现实层字段4和现实层字段5,现实层表3包括现实层字段5和现实层字段6。相应地,在现实层子图中现实层表实体1对应实层字段实体1和现实层字段实体2,现实层表实体2对应现实层字段实体3、现实层字段实体4和现实层字段实体5,现实层表实体3对应现实层字段实体5和现实层字段实体6。
可选地,在上述步骤S202中,标准数据包括数据项集,标准实体包括数据项集实体,每个数据项集实体用于表征一个数据项集。
具体地,标准数据可以包括一个或多个数据项集。数据项集实体的标准属性信息包括:数据项集ID、数据项集标识符、数据项集名称、数据项集类别、数据项集主键、数据项集外键等。
举例来说,设定标准数据包括3个数据项集,数据项集的名称分别为数据项集1,数据项集2,数据项集3,在知识层子图中每个数据项集对应一个数据项集实体,分别为数据项集实体1,数据项集实体2,数据项集实体3。
可选地,在上述步骤S203中,针对现实层子图中的每个现实层表实体,通过第一深度学习模型,确定现实层表实体在知识层子图中对应的目标数据项集实体。
为了更加清楚的介绍第一深度学习的训练方法,图4示例性示出了本发明实施例提供的训练第一深度学习模型的方法,该方法包括:
步骤401,预先收集现实层表对应的现实层表数据和数据项集对应的数据项集数据,并人工打标注,将现实层表和数据项集一一对应,构造训练集和验证集。
具体地,现实层表数据包括现实层表表名和现实层表的描述信息。数据项集数据包括数据项集的名称和属性信息。采用人工打标注的方法,将每个现实层表和数据项集一一对应,构造出训练数据集。将训练数据集按照一定比例随机分成训练集和验证集。
步骤402,对现实层表数据和数据项集数据进行数据清洗。
具体地,将现实层表数据包括的现实层表表名和现实层表的描述信息进行数据清洗,包括:将现实层表表名和现实层表的描述信息分别去除头尾空字符,再利用长文本分词工具,分别对现实层表表名和现实层表的描述信息进行分词处理。将处理后得到的各个文本段输入word2vec模型,得到各个文本段的词向量。将每一个数据项集数据从0开始,依次进行编号。
每一个现实层表对应的词向量,和该现实层表对应的数据项集的编号,组成模型的输入数据。
步骤403,训练预测模型。
具体地,将模型的输入数据输入到bert模型,训练bert模型。当模型训练到预先设定好的迭代次数,终止模型训练。此时获得的模型,即为最终的第一深度学习模型。
图5示例性示出了本发明实施例提供的调用第一深度学习模型的方法,该方法包括:
步骤501,调用训练好的第一深度学习模型,预测现实层表对应的数据项集。
具体地,每一个测试数据包括现实层表表名和现实层表的描述信息,对每个测试数据进行数据清洗,数据清洗步骤和上述训练集中数据清洗步骤相同。
将清洗后的现实层表数据输入第一深度学习模型,得到每个现实层表对应的一个数据项集。
步骤502,根据现实层表和数据项集的对应结果,确定现实层表实体对应的目标数据项集实体。
具体地,每个现实层表实体表征一个现实层表,每个数据项集实体表征一个数据项集,每个现实层表实体都对应一个数据项集实体。
步骤503,构造现实层表实体和数据项集实体之间的对应关系。
将构造的现实层表实体和数据项集实体之间的对应关系,写入图数据库中。
举例来说,如图6所示,根据第一深度学习模型的调用结果,确定现实层子图中的现实层表实体和知识层子图中的数据项集实体之间的对应关系。具体地,现实层子图中的现实层表实体1对应知识层子图中的数据项集实体1,现实层表实体2对应数据项集实体2,现实层表实体3对应数据项集实体3。
本申请实施例中,通过训练预测模型,并调用训练好的预测模型,自动地实现了现实层表和数据项集的对应,进而确定了现实层表实体和数据项集实体之间的对应关系,故不再需要人工确定现实层表和数据项集的对应,既提高了效率,又降低了人力成本。
可选地,在上述步骤S204中,将目标数据项集实体对应的标准属性信息,添加至现实层表实体对应的属性信息集合中。
具体地,将目标数据项集实体对应的标准属性信息,添加至对应的现实层表实体的属性信息集合中。
举例来说,如图7所示,目标数据项集实体为数据项集实体1,对应的现实层表实体为现实层表实体1。数据项集实体1对应的标准属性信息包括:数据项集ID1、数据项集标识符1、数据项集名称1、数据项集类别1、数据项集主键1、数据项集外键1等。现实层表实体1对应的属性信息包括:现实层表中文名称1、现实层表主键1等。
将数据项集实体1的标准属性信息添加至现实层表实体1的属性信息集合后,现实层表实体1的属性信息集合包括:现实层表中文名称1、现实层表主键1、数据项集ID1、数据项集标识符1、数据项集名称1、数据项集类别1、数据项集主键1、数据项集外键1等。
可选地,在上述步骤S201中,应用数据还包括应用系统表征数据和数据源表征数据,应用实体还包括应用系统实体和数据源实体,其中,每个应用系统实体用于表征一个应用系统表征数据,每个数据源实体用于表征一个数据源表征数据。
应用系统实体与数据源实体之间的连接关系用于表征一个应用系统表征数据对应一个或多个数据源表征数据,数据源实体与现实层表实体之间的连接关系用于表征一个数据源表征数据对应一个或多个现实层表。
具体地,应用数据可以包括一个或多个应用系统表征数据,以及一个或多个数据源表征数据。
具体地,现实层子图中的应用系统实体对应的属性信息,包括:应用系统编号、应用系统名称、应用系统描述等。数据源实体对应的属性信息,包括:数据源名称、数据源类别、连接详情等。
举例来说,如图8所示,设定应用数据包括应用系统表征数据1、数据源表征数据1、数据源表征数据2、现实层表1、现实层表2、现实层表3、现实层字段1、现实层字段2、现实层字段3、现实层字段4、现实层字段5和现实层字段6。在现实层子图中对应的应用实体分别为:应用系统实体1、数据源实体1、数据源实体2、现实层表实体1、现实层表实体2、现实层表实体3、现实层字段实体1、现实层字段实体2、现实层字段实体3、现实层字段实体4、现实层字段实体5和现实层字段实体6。
具体地,应用系统表征数据1包括数据源表征数据1和数据源表征数据2。相应地,在现实层子图中应用系统实体1对应数据源实体1和数据源实体2。
数据源表征数据1包括现实层表1和现实层表2,数据源表征数据2包括现实层表3。相应地,在现实层子图中数据源实体1对应现实层表实体1和现实层表实体2,数据源实体2对应现实层表实体3。
现实层表1包括现实层字段1和现实层字段2,现实层表2包括现实层字段3、现实层字段4、现实层字段5,现实层表3包括现实层字段5和现实层字段6。相应地,现实层表实体1对应现实层字段实体1和现实层字段实体2,现实层表实体2对应现实层字段实体3、现实层字段实体4、现实层字段实体5,现实层表实体3对应现实层字段实体5和现实层字段实体6。
可选地,在上述步骤S202中,标准数据还包括数据项、限定词和数据元,标准实体还包括数据项实体、限定词实体和数据元实体,其中,每个数据项实体用于表征一个数据项,每个限定词实体用于表征一个限定词,每个数据元实体用于表征一个数据元。
具体地,标准数据可以包括一个或多个数据项,每个数据项实体用于表征一个数据项。标准数据可以包括一个或多个限定词,每个限定词实体用于表征一个限定词。标准数据可以包括一个或多个数据元,每个数据元实体用于表征一个数据元。
可选地,数据项集实体与数据项实体之间的连接关系用于表征一个数据项集对应一个或多个数据项,数据项实体与限定词实体之间的连接关系用于表征一个数据项对应一个限定词,数据项实体与数据元实体之间的连接关系用于表征一个数据项对应一个数据元。
具体地,每个数据项集实体对应一个或多个数据项实体,每个数据项实体对应一个限定词实体,每个数据项实体对应一个数据元实体。每个数据项实体由限定词实体和数据元实体组成。
举例来说,如图9所示,设定标准数据包括数据项集1、数据项1、数据项2、限定词1、限定词2、数据元1、数据元2,在知识层子图中对应的标准实体分别为:数据项集实体1、数据项实体1、数据项实体2、限定词实体1、限定词实体2、数据元实体1、数据元实体2。
数据项集1包括数据项1和数据项2,相应地,数据项集实体1对应数据项实体1和数据项实体2。数据项1包括限定词1和数据元1,相应地,数据项实体1对应限定词实体1和数据元实体1。数据项2包括限定词2和数据元2,相应地,数据项实体2对应限定词实体2和数据元实体2。
具体地,知识层子图中的数据项实体对应的标准属性信息包括:数据项ID、数据项标识符、数据项名称、数据项说明等。
可选地,在上述步骤S203中,针对现实层子图中的每个现实层字段实体,通过第二深度学习模型,确定现实层字段实体在知识层子图中对应的目标限定词实体。
具体地,通过第二深度学习模型,将现实层子图中的每个现实层字段实体和知识层子图中其中一个限定词实体相对应。
第二深度学习模型的训练和调用过程与前文描述的第一深度学习模型的训练和调用过程相同,此处不再赘述。将构造的现实层字段实体和限定词实体之间的对应关系,写入图数据库中。
举例来说,如图10所示,根据第二深度学习模型的调用结果,确定现实层子图中的现实层字段实体和知识层子图中的限定词实体之间的对应关系。现实层子图中的现实层字段实体1和现实层字段实体2均对应限定词实体1,现实层子图中的现实层字段实体3、现实层字段实体4、现实层字段实体5和现实层字段实体6均对应限定词实体2。
可选地,在上述步骤S204中,将目标限定词实体对应的标准属性信息,添加至现实层字段实体对应的属性信息集合中。
具体地,知识层子图中的目标限定词实体对应的标准属性信息,包括:限定词ID、限定词内部标识符、限定词中文名称、限定词标识符、限定词说明等。现实层子图中的现实层字段实体对应的属性信息,包括:现实层字段英文名称、现实层字段中文名称等。将目标限定词实体对应的以上标准属性信息,添加至对应的现实层字段实体的属性信息集合中。
举例来说,如图11所示,目标限定词实体为限定词实体1,对应的现实层字段实体为现实层字段实体1。限定词实体1对应的标准属性信息包括:限定词ID1、限定词内部标识符1、限定词中文名称1、限定词标识符1、限定词说明1等。现实层字段1对应的属性信息包括:现实层字段英文名称1、现实层字段中文名称1等。
将限定词实体1的标准属性信息添加至现实层字段实体1的属性信息集合后,现实层字段实体1的属性信息集合包括:现实层字段英文名称1、现实层字段中文名称1、限定词ID1、限定词内部标识符1、限定词中文名称1、限定词标识符1、限定词说明1等。
可选地,在上述步骤S203中,一种可能的实施方式,针对现实层子图中的每个现实层字段实体,通过第三深度学习模型,确定所述现实层字段实体在知识层子图中对应的目标数据元实体。
具体地,通过第三深度学习模型,将现实层子图中的每个现实层字段实体和知识层子图中其中一个数据元实体相对应。
第三深度学习模型的训练和调用过程与前文描述的第一深度学习模型的训练和调用过程相同,此处不再赘述。将构造的现实层字段实体和数据元实体之间的对应关系,写入图数据库中。
举例来说,如图12所示,通过第三深度学习模型,确定现实层子图中的现实层字段实体和知识层子图中的数据元实体之间的对应关系。具体地,现实层子图中的现实层字段实体1、现实层字段实体2和现实层字段实体3均对应知识层子图中的数据元实体1。现实层子图中的现实层字段实体4、现实层字段实体5和现实层字段实体6均对应知识层子图中的数据元实体2。
另一种可能的实施方式,通过第二深度学习模型,确定现实层字段实体,在知识层子图中对应的目标限定词实体,然后基于知识层子图中限定词实体与数据元实体之间的关联关系,确定目标限定词实体在知识层子图中对应的数据元实体。将目标限定词实体在知识层子图中对应的数据元实体,作为现实层字段实体在知识层子图中对应的目标数据元实体。
具体地,由于数据项由限定词和数据元组成,相应地,知识层子图中限定词实体与数据元实体之间的关联关系为:数据项实体对应一个限定词实体和一个数据元实体。
举例来说,如图13所示,现实层子图包括现实层字段实体1,知识层子图包括数据项实体1、限定词实体1和数据元实体1。根据第二深度学习模型,确定现实层字段实体1与限定词实体1相对应。由于数据项实体1对应限定词实体1和数据元实体1,故可以得出限定词实体1通过数据项实体1与数据元实体1对应,进一步可以得出,现实层子图中的现实层字段实体1与知识层子图中的数据元实体1也存在对应关系。然后将构造的现实层字段实体1和数据元实体1之间的对应关系,写入图数据库中。
可选地,在上述步骤S204中,将目标数据元实体对应的标准属性信息,添加至现实层字段实体对应的属性信息集合中。
具体地,知识层子图中的目标数据元实体对应的标准属性信息,包括:数据元ID、数据元内部标识符、数据元中文名称、数据元英文名称、数据元中文全拼、数据元标识符、数据元版本等。现实层子图中的现实层字段实体对应的属性信息,包括:现实层字段英文名称、现实层字段中文名称等。将目标数据元实体对应的以上标准属性信息,添加至对应的现实层字段实体对应的属性信息集合中。
举例来说,如图14所示,目标数据元实体为数据元实体1,对应的现实层字段实体为现实层字段实体1。数据元实体1对应的标准属性信息,包括:数据元ID1、数据元内部标识符1、数据元中文名称1、数据元英文名称1、数据元中文全拼1、数据元标识符1、数据元版本1等。现实层字段实体1对应的属性信息,包括:现实层字段英文名称1、现实层字段中文名称1等。将数据元实体1的属性信息添加至现实层字段实体1的属性信息集合后,现实层字段实体1的属性信息集合包括:现实层字段英文名称1、现实层字段中文名称1、数据元ID1、数据元内部标识符1、数据元中文名称1、数据元英文名称1、数据元中文全拼1、数据元标识符1、数据元版本1等。
可选地,标准数据还包括值域、数据元表示词、数据元特性词和数据元对象类词,标准实体还包括值域实体、数据元表示词实体、数据元特性词实体和数据元对象类词实体;
数据元实体与值域实体之间的连接关系用于表征一个数据元对应一个值域,数据元实体与数据元表示词实体之间的连接关系用于表征一个数据元对应一个数据元表示词,数据元实体与数据元特性词实体之间的连接关系用于表征一个数据元对应一个数据元特性词,数据元实体与数据元对象类词实体之间的连接关系用于表征一个数据元对应一个数据元对象类词。
数据元特性词实体与数据元表示词实体之间的连接关系用于表征一个数据元表示词对应一个或多个数据元特性词。数据元特性词实体与数据元对象类词实体之间的连接关系用于表征一个数据元对象类词对应一个或多个数据元特性词。
具体地,每个数据元实体分别对应一个值域实体、一个数据元表示词实体、一个数据元特性词实体以及一个数据元对象类词实体。
每个数据元表示词实体对应一个或多个数据元特性词实体,每个数据元对象类词实体对应一个或多个数据元特性词实体。
具体地,知识层子图中的值域实体对应的标准属性信息包括:规则、说明等。数据元表示词实体对应的标准属性信息包括:表示词ID、表示词标识、表示词名称。数据元特性词实体对应的标准属性信息包括:特性词ID、特性词标识、特性词名称。数据元对象类词实体对应的标准属性信息包括:对象类词ID、对象类词标识、对象类词名称。
举例来说,如图15所示,设定标准数据包括数据项集1、数据项1、数据项2、限定词1、限定词2、数据元1、数据元2、值域1、数据元表示词1、数据元特性词1和数据元对象类词1。在知识层子图中对应的标准实体分别为:数据项集实体1、数据项实体1、数据项实体2、限定词实体1、限定词实体2、数据元实体1、数据元实体2、值域实体1、数据元表示词实体1、数据元特性词实体1和数据元对象类词实体1。
具体地,数据项集1包括数据项1和数据项2,数据项1包括限定词1和数据元1,数据项2包括限定词2和数据元2。
相应地,数据项集实体1对应数据项实体1和数据项实体2,数据项实体1对应限定词实体1和数据元实体1,数据项实体2对应限定词实体2和数据元实体2。
数据元2对应值域1,数据元2包括数据元表示词1、数据元特性词1和数据元对象类词1。
相应地,数据元实体2对应一个值域实体,即值域实体1,同时数据元实体2对应数据元表示词实体1、数据元特性词实体1和数据元对象类词实体1。
数据元表示词实体1对应一个或多个数据元特性词实体1,数据元对象类词实体1对应一个或多个数据元特性词实体1。
为了更好地解释本申请实施例,下面以具体实施场景为例,介绍本申请实施例提供的一种数据认知方法的流程,如图16所示:
基于应用数据构建现实层子图,现实层子图包括多个应用实体,每个应用实体用于表征应用数据中一个应用数据单元。应用数据包括:现实层表、现实层字段、应用系统表征数据和数据源表征数据。应用实体包括:现实层表实体、现实层字段实体、应用系统实体和数据源实体。一个应用系统实体对应n个数据源实体,一个数据源实体对应n个现实层表实体,一个现实层表实体对应n个现实层字段实体,n大于等于1。
现实层子图中每个应用实体都有对应的属性信息,应用系统实体的属性信息包括:应用系统编号、应用系统名称、应用系统描述等。数据源实体的属性信息包括:数据源名称、数据源类别、连接详情等。现实层表实体的属性信息包括:现实层表中文名称、现实层表主键等。现实层字段实体的属性信息包括:现实层字段英文名称、现实层字段中文名称等。
基于标准数据构建知识层子图,知识层子图包括多个标准实体,每个标准实体用于表征标准数据中一个标准数据单元,标准数据单元包括:数据项表、数据项、限定词、数据元、值域、数据元表示词、数据元特性词和数据元对象类词。标准实体包括:数据项表实体、数据项实体、限定词实体、数据元实体、值域实体、数据元表示词实体、数据元特性词实体和数据元对象类词实体。一个数据项集实体对应n个数据项实体,一个数据项实体由一个限定词实体和一个数据元实体组成,一个数据元实体对应一个值域实体,一个数据元实体由一个数据元表示词实体、一个数据元特性词实体和一个数据元对象类词实体组成,一个数据元表示词实体对应n个数据元特性词实体,一个数据元对象类词实体对应n个数据元特性词实体。
知识层子图中每个标准实体都有对应的属性信息,数据项集实体的标准属性信息包括:数据项集ID、数据项集标识符、数据项集名称、数据项集类别、数据项集主键、数据项集外键等。数据项实体的标准属性信息包括:数据项ID、数据项标识符、数据项名称、数据项说明等。限定词实体的标准属性信息包括:限定词ID、限定词内部标识符、限定词中文名称、限定词标识符、限定词说明等。数据元实体的标准属性信息包括:数据元ID、数据元内部标识符、数据元中文名称、数据元英文名称、数据元标识符、数据元版本等。值域实体的标准属性信息包括:规则、说明等。数据元表示词实体的标准属性信息包括:表示词ID、表示词标识、表示词名称。数据元特性词实体的标准属性信息包括:特性词ID、特性词标识、特性词名称。数据元对象类词实体的标准属性信息包括:对象类词ID、对象类词标识、对象类词名称。
调用第一深度学习模型,获得现实层表实体和数据项集实体之间的对应关系。调用第二深度学习模型,获得现实层字段实体和限定词实体之间的对应关系。调用第三深度学习模型,获得现实层字段实体和数据元实体之间的对应关系。
将数据项集实体对应的标准属性信息添加至现实层表实体对应的属性信息集合中,此时,现实层表实体对应的属性信息包括现实层表实体原有的属性信息和数据项集的标准属性信息,即现实层表中文名称、现实层表主键、数据项集ID、数据项集标识符、数据项集名称、数据项集类别、数据项集主键、数据项集外键等。
将限定词实体对应的标准属性信息和数据元实体对应的标准属性信息添加至现实层字段实体对应的属性信息集合中,此时,现实层字段实体对应的属性信息包括现实层字段实体原有的属性信息、限定词实体对应的标准属性信息和数据元实体对应的标准属性信息,即现实层字段英文名称、现实层字段中文名称、限定词ID、限定词内部标识符、限定词中文名称、限定词标识符、限定词说明、数据元ID、数据元内部标识符、数据元中文名称、数据元英文名称、数据元中文全拼、数据元标识符、数据元版本等。
本申请实施例中,通过基于应用数据构建现实层子图,基于标准数据构建知识层子图,然后通过调用深度学习模型,自动地实现了现实层表实体和数据项集实体之间的对应关系,现实层字段实体和限定词实体之间的对应关系,现实层字段实体和数据元实体之间的对应关系,故不再需要人工确定现实层表和数据项集的对应,既提高了效率,又降低了人力成本。
基于相同的技术构思,本申请实施例提供了一种数据认知装置,如图17所示,该装置1700包括:
第一图谱模块1701,用于基于应用数据构建现实层子图,所述现实层子图包括多个应用实体,每个应用实体用于表征所述应用数据中一个应用数据单元,应用实体之间的连接关系用于表征应用数据单元之间的关联关系;
第二图谱模块1702,用于基于标准数据构建知识层子图,所述知识层子图包括多个标准实体,每个标准实体用于表征所述标准数据中一个标准数据单元,标准实体之间的连接关系用于表征标准数据单元之间的关联关系;
匹配模块1703,用于通过深度学习模型,确定所述现实层子图中的至少一个应用实体,分别在所述知识层子图中对应的标准实体;
添加模块1704,用于将所述至少一个应用实体各自对应的标准实体的标准属性信息,分别添加至所述至少一个应用实体各自对应的属性信息集合中。
可选地,所述应用数据包括现实层表和现实层字段,所述应用实体包括现实层表实体和现实层字段实体,其中,每个现实层表实体用于表征一个现实层表,每个现实层字段实体用于表征一个现实层字段;
所述现实层表实体与所述现实层字段实体之间的连接关系用于表征一个现实层表对应一个或多个现实层字段。
可选地,所述标准数据包括数据项集,所述标准实体包括数据项集实体,每个数据项集实体用于表征一个数据项集;
所述匹配模块1703具体用于:
针对所述现实层子图中的每个现实层表实体,通过第一深度学习模型,确定所述现实层表实体在所述知识层子图中对应的目标数据项集实体。
可选地,所述添加模块1704具体用于:
将所述目标数据项集实体对应标准属性信息,添加至所述现实层表实体对应的属性信息集合中。
可选地,所述应用数据还包括应用系统表征数据和数据源表征数据,所述应用实体还包括应用系统实体和数据源实体,其中,每个应用系统实体用于表征一个应用系统表征数据,每个数据源实体用于表征一个数据源表征数据;
所述应用系统实体与所述数据源实体之间的连接关系用于表征一个应用系统表征数据对应一个或多个数据源表征数据,所述数据源实体与所述现实层表实体之间的连接关系用于表征一个数据源表征数据对应一个或多个现实层表。
可选地,所述标准数据还包括数据项、限定词和数据元,所述标准实体还包括数据项实体、限定词实体和数据元实体,其中,每个数据项实体用于表征一个数据项,每个限定词实体用于表征一个限定词,每个数据元实体用于表征一个数据元;
所述匹配模块1703具体用于:
针对所述现实层子图中的每个现实层字段实体,通过第二深度学习模型,确定所述现实层字段实体在所述知识层子图中对应的目标限定词实体;
可选地,所述匹配模块1703还用于:
通过第三深度学习模型,确定所述现实层字段实体在所述知识层子图中对应的目标数据元实体。
可选地,所述匹配模块1703还用于:
根据所述现实层字段实体在所述知识层子图中对应的目标限定词实体,和所述知识层子图中所述数据项实体、所述限定词实体和所述数据元实体之间的关联关系,确定所述现实层字段实体在所述知识层子图中对应的目标数据元实体。
可选地,所述添加模块1704具体用于:
将目标限定词实体对应的标准属性信息和所述目标数据元实体对应的标准属性信息,添加至所述现实层字段实体对应的属性信息集合中。
可选地,所述数据项集实体与所述数据项实体之间的连接关系用于表征一个数据项集对应一个或多个数据项,所述数据项实体与所述限定词实体之间的连接关系用于表征一个数据项对应一个限定词,所述数据项实体与所述数据元实体之间的连接关系用于表征一个数据项对应一个数据元。
可选地,所述标准数据还包括值域、数据元表示词、数据元特性词和数据元对象类词,所述标准实体还包括值域实体、数据元表示词实体、数据元特性词实体和数据元对象类词实体;
所述数据元实体与所述数据元表示词实体之间的连接关系用于表征一个数据元对应一个数据元表示词,所述数据元实体与所述数据元特性词实体之间的连接关系用于表征一个数据元对应一个数据元表示词,所述数据元实体与所述数据元对象类词实体之间的连接关系用于表征一个数据元对应一个数据元对象类词,所述数据元实体与所述值域实体之间的连接关系用于表征一个数据元对应一个值域。
基于相同的技术构思,本申请实施例提供了一种计算机设备,计算机设备可以是终端或服务器,如图18所示,包括至少一个处理器1801,以及与至少一个处理器连接的存储器1802,本申请实施例中不限定处理器1801与存储器1802之间的具体连接介质,图18中处理器1801和存储器1802之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本申请实施例中,存储器1802存储有可被至少一个处理器1801执行的指令,至少一个处理器1801通过执行存储器1802存储的指令,可以执行上述工作流生成方法中所包括的步骤。
其中,处理器1801是计算机设备的控制中心,可以利用各种接口和线路连接计算机设备的各个部分,通过运行或执行存储在存储器1802内的指令以及调用存储在存储器1802内的数据,从而进行工作流生成。可选的,处理器1801可包括一个或多个处理单元,处理器1801可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1801中。在一些实施例中,处理器1801和存储器1802可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器1801可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器1802作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1802可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器1802是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器1802还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
基于同一发明构思,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当程序在计算机设备上运行时,使得计算机设备执行上述工作流生成方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (14)
1.一种数据认知方法,其特征在于,包括:
基于应用数据构建现实层子图,所述现实层子图包括多个应用实体,每个应用实体用于表征所述应用数据中一个应用数据单元,应用实体之间的连接关系用于表征应用数据单元之间的关联关系;
基于标准数据构建知识层子图,所述知识层子图包括多个标准实体,每个标准实体用于表征所述标准数据中一个标准数据单元,标准实体之间的连接关系用于表征标准数据单元之间的关联关系;
通过深度学习模型,确定所述现实层子图中的至少一个应用实体,分别在所述知识层子图中对应的标准实体;
将所述至少一个应用实体各自对应的标准实体的标准属性信息,分别添加至所述至少一个应用实体各自对应的属性信息集合中。
2.如权利要求1所述的方法,其特征在于,所述应用数据包括现实层表和现实层字段,所述应用实体包括现实层表实体和现实层字段实体,其中,每个现实层表实体用于表征一个现实层表,每个现实层字段实体用于表征一个现实层字段;
所述现实层表实体与所述现实层字段实体之间的连接关系用于表征一个现实层表对应一个或多个现实层字段。
3.如权利要求2所述的方法,其特征在于,所述标准数据包括数据项集,所述标准实体包括数据项集实体,每个数据项集实体用于表征一个数据项集;
所述通过深度学习模型,确定所述现实层子图中的至少一个应用实体,分别在所述知识层子图中对应的标准实体,包括:
针对所述现实层子图中的每个现实层表实体,通过第一深度学习模型,确定所述现实层表实体在所述知识层子图中对应的目标数据项集实体。
4.如权利要求3所述的方法,其特征在于,所述将所述至少一个应用实体各自对应的标准实体的标准属性信息,分别添加至所述至少一个应用实体各自对应的属性信息集合中,包括:
将所述目标数据项集实体对应标准属性信息,添加至所述现实层表实体对应的属性信息集合中。
5.如权利要求3所述的方法,其特征在于,所述应用数据还包括应用系统表征数据和数据源表征数据,所述应用实体还包括应用系统实体和数据源实体,其中,每个应用系统实体用于表征一个应用系统表征数据,每个数据源实体用于表征一个数据源表征数据;
所述应用系统实体与所述数据源实体之间的连接关系用于表征一个应用系统表征数据对应一个或多个数据源表征数据,所述数据源实体与所述现实层表实体之间的连接关系用于表征一个数据源表征数据对应一个或多个现实层表。
6.如权利要求3至5任一所述的方法,其特征在于,所述标准数据还包括数据项、限定词和数据元,所述标准实体还包括数据项实体、限定词实体和数据元实体,其中,每个数据项实体用于表征一个数据项,每个限定词实体用于表征一个限定词,每个数据元实体用于表征一个数据元;
所述通过深度学习模型,确定所述现实层子图中的至少一个应用实体,分别在所述知识层子图中对应的标准实体,还包括:
针对所述现实层子图中的每个现实层字段实体,通过第二深度学习模型,确定所述现实层字段实体在所述知识层子图中对应的目标限定词实体。
7.如权利要求6所述的方法,其特征在于,还包括:
通过第三深度学习模型,确定所述现实层字段实体在所述知识层子图中对应的目标数据元实体。
8.如权利要求6所述的方法,其特征在于,还包括:
基于所述知识层子图中限定词实体与数据元实体之间的关联关系,确定所述目标限定词实体在所述知识层子图中对应的数据元实体;
将所述目标限定词实体在所述知识层子图中对应的数据元实体,作为所述现实层字段实体在所述知识层子图中对应的目标数据元实体。
9.如权利要求7或8所述的方法,其特征在于,所述将所述至少一个应用实体各自对应的标准实体的标准属性信息,分别添加至所述至少一个应用实体各自对应的属性信息集合中,包括:
将目标限定词实体对应的标准属性信息和所述目标数据元实体对应的标准属性信息,添加至所述现实层字段实体对应的属性信息集合中。
10.如权利要求6所述的方法,其特征在于,所述数据项集实体与所述数据项实体之间的连接关系用于表征一个数据项集对应一个或多个数据项,所述数据项实体与所述限定词实体之间的连接关系用于表征一个数据项对应一个限定词,所述数据项实体与所述数据元实体之间的连接关系用于表征一个数据项对应一个数据元。
11.如权利要求6所述的方法,其特征在于,所述标准数据还包括值域、数据元表示词、数据元特性词和数据元对象类词,所述标准实体还包括值域实体、数据元表示词实体、数据元特性词实体和数据元对象类词实体;
所述数据元实体与所述数据元表示词实体之间的连接关系用于表征一个数据元对应一个数据元表示词,所述数据元实体与所述数据元特性词实体之间的连接关系用于表征一个数据元对应一个数据元表示词,所述数据元实体与所述数据元对象类词实体之间的连接关系用于表征一个数据元对应一个数据元对象类词,所述数据元实体与所述值域实体之间的连接关系用于表征一个数据元对应一个值域。
12.一种数据认知装置,其特征在于,包括:
第一图谱模块,用于基于应用数据构建现实层子图,所述现实层子图包括多个应用实体,每个应用实体用于表征所述应用数据中一个应用数据单元,应用实体之间的连接关系用于表征应用数据单元之间的关联关系;
第二图谱模块,用于基于标准数据构建知识层子图,所述知识层子图包括多个标准实体,每个标准实体用于表征所述标准数据中一个标准数据单元,标准实体之间的连接关系用于表征标准数据单元之间的关联关系;
匹配模块,用于通过深度学习模型,确定所述现实层子图中的至少一个应用实体,分别在所述知识层子图中对应的标准实体;
添加模块,用于将所述至少一个应用实体各自对应的标准实体的标准属性信息,分别添加至所述至少一个应用实体各自对应的属性信息集合中。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~11任一权利要求所述方法的步骤。
14.一种计算机可读存储介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行权利要求1~11任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110847493.2A CN113468280A (zh) | 2021-07-27 | 2021-07-27 | 一种数据认知方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110847493.2A CN113468280A (zh) | 2021-07-27 | 2021-07-27 | 一种数据认知方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113468280A true CN113468280A (zh) | 2021-10-01 |
Family
ID=77882581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110847493.2A Pending CN113468280A (zh) | 2021-07-27 | 2021-07-27 | 一种数据认知方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468280A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160253364A1 (en) * | 2015-02-26 | 2016-09-01 | Accenture Global Services Limited | System for linking diverse data systems |
CN107633075A (zh) * | 2017-09-22 | 2018-01-26 | 吉林大学 | 一种多源异构数据融合平台及融合方法 |
CN110781249A (zh) * | 2019-10-16 | 2020-02-11 | 华电国际电力股份有限公司技术服务分公司 | 基于知识图谱的火电厂多源数据融合方法与装置 |
CN111611408A (zh) * | 2020-05-27 | 2020-09-01 | 北京明略软件系统有限公司 | 一种舆情分析方法、装置、计算机设备及存储介质 |
-
2021
- 2021-07-27 CN CN202110847493.2A patent/CN113468280A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160253364A1 (en) * | 2015-02-26 | 2016-09-01 | Accenture Global Services Limited | System for linking diverse data systems |
CN107633075A (zh) * | 2017-09-22 | 2018-01-26 | 吉林大学 | 一种多源异构数据融合平台及融合方法 |
CN110781249A (zh) * | 2019-10-16 | 2020-02-11 | 华电国际电力股份有限公司技术服务分公司 | 基于知识图谱的火电厂多源数据融合方法与装置 |
CN111611408A (zh) * | 2020-05-27 | 2020-09-01 | 北京明略软件系统有限公司 | 一种舆情分析方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200356729A1 (en) | Generation of text from structured data | |
WO2021051517A1 (zh) | 基于卷积神经网络的信息检索方法、及其相关设备 | |
CN111444320A (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN107391682B (zh) | 知识验证方法、知识验证设备以及存储介质 | |
CN111078776A (zh) | 数据表的标准化方法、装置、设备及存储介质 | |
US11874798B2 (en) | Smart dataset collection system | |
US20200364216A1 (en) | Method, apparatus and storage medium for updating model parameter | |
CN111159016A (zh) | 一种规范检测方法及装置 | |
CN111553151A (zh) | 一种基于字段相似度计算的问题推荐方法、装置和服务器 | |
CN115827895A (zh) | 一种漏洞知识图谱处理方法、装置、设备及介质 | |
WO2021142719A1 (zh) | 画像生成方法、装置、服务器及存储介质 | |
US20230334075A1 (en) | Search platform for unstructured interaction summaries | |
CN111597336A (zh) | 训练文本的处理方法、装置、电子设备及可读存储介质 | |
CN108229572B (zh) | 一种参数寻优方法及计算设备 | |
CN116028626A (zh) | 文本匹配方法、装置、存储介质以及电子设备 | |
CN113010550B (zh) | 结构化数据的批处理对象生成、批处理方法和装置 | |
CN113468280A (zh) | 一种数据认知方法、装置、设备及存储介质 | |
CN111858899B (zh) | 语句处理方法、装置、系统和介质 | |
WO2021135103A1 (zh) | 一种语义分析方法、装置、计算机设备及存储介质 | |
CN110717008B (zh) | 基于语意识别的搜索结果排序方法及相关装置 | |
CN110895924B (zh) | 一种文档内容朗读方法、装置、电子设备及可读存储介质 | |
CN116755683B (zh) | 一种数据处理方法和相关装置 | |
CN111539208B (zh) | 语句处理方法和装置、以及电子设备和可读存储介质 | |
CN116702024B (zh) | 流水数据类型识别方法、装置、计算机设备和存储介质 | |
CN116955406A (zh) | Sql语句生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |