CN115221337A - 数据编织处理方法、装置、电子设备及可读存储介质 - Google Patents
数据编织处理方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN115221337A CN115221337A CN202210827106.3A CN202210827106A CN115221337A CN 115221337 A CN115221337 A CN 115221337A CN 202210827106 A CN202210827106 A CN 202210827106A CN 115221337 A CN115221337 A CN 115221337A
- Authority
- CN
- China
- Prior art keywords
- data
- metadata
- knowledge
- target
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Abstract
本公开提供了一种数据编织处理方法、装置、电子设备及可读存储介质,属于通信技术领域。该方法对分布式存储在数据源节点的原始数据进行元数据的采集、存储,无需将大量边缘节点的数据向数据中心集中传输,减少了数据复制、传输、存储的成本,提高了数据治理效率,减少网络阻塞、带宽成本,及数据中心算力要求,也避免在数据复制、传输、存储过程中可能的安全隐私隐患,改善数据整体处理、访问和管理;通过采集原始数据的元数据,及基于元数据构建知识图谱,实现了数据源节点间跨业务、跨系统的数据整合,提高数据全局关联程度;并对用户实时的数据检索需求生成动态数据知识目录,提供了统一、全面、直观的数据视图,实现对数据的精准检索、访问。
Description
技术领域
本公开属于通信技术领域,具体涉及一种数据编织处理方法、装置、电子设备及可读存储介质。
背景技术
随着网络通信不断发展,信息化进程不断推进,在信息技术与生产、生活交汇融合的过程中,数据呈现爆发增长、海量聚集的特点。从而对数据治理方式提出了新的挑战。
目前,常采用数据入湖的方式实现数据现代化治理,将分散、独立、不同种类的原始数据集中起来,以提供对应的存储、管理、传输、分析等数据处理业务。
但是,上述方案一方面需要将边缘产生、存储的数据向数据中心大量集中传输,难以支持实时性业务,易阻塞网络,带宽成本较高,且需要在数据中心集中算力以对传回的数据进行汇聚计算,对算力要求高,从而存在数据流转周期长、算力性能瓶颈高以及业务处理不灵活的问题;另一方面,在不同数据中心集中各边缘原始数据,使得数据在不同采集、计算平台集群分散,无法提供全局聚合的数据业务,导致数据全局关联程度较低;再一方面,在集中存储、管理、传输、分析的过程中,数据安全隐私难以充分保障,导致数据不能被充分利用。
发明内容
本公开实施例的目的是提供一种数据编织处理方法、装置、电子设备及可读存储介质,能够解决在数据治理方案中数据流转周期长、算力性能瓶颈高,以及全局关联程度较低、利用不充分的问题。
为了解决上述技术问题,本公开是这样实现的:
第一方面,本公开提供了一种数据编织处理方法,该方法可以包括:采集并存储原始数据对应的元数据,原始数据在两个以上数据源节点采用分布式存储,元数据用于描述原始数据在分布式存储中的存储信息;在元数据中抽取实体,以及实体之间的关系,并根据实体和关系构建元数据对应的知识图谱;确定用户的数据检索需求;在知识图谱中根据数据检索需求生成动态数据知识目录,动态数据知识目录包括在元数据中根据数据检索需求确定的目标元数据。
可选地,在元数据中抽取实体,以及实体之间的关系,并根据实体和关系构建元数据对应的知识图谱,包括:将元数据划分为第一元数据、第二元数据;识别第一元数据中的第一实体,并提取第一元数据中第一实体之间的第一关系;根据第一实体、第一关系构建第一元数据对应的第一知识表示;根据第二元数据对第一知识表示进行更新,获得元数据对应的知识图谱。
可选地,根据第二元数据对第一知识表示进行更新,获得元数据对应的知识图谱,包括:识别第二元数据中的第二实体,并提取第二元数据中第二实体之间的第二关系;对第二实体进行实体对齐,实体对齐包括实体消歧、指代消解中的一个以上;在第一知识表示中加入第二实体、第二关系,获得第二知识表示;在第二知识表示中采用知识表示学习模型进行实体预测与关系预测,获得知识图谱。
可选地,在元数据中抽取实体,以及实体之间的关系,并根据实体和关系构建元数据对应的知识图谱之后,还包括:依据元数据与原始数据的对应关系关联知识图谱与原始数据;基于知识图谱构建元数据对应的静态数据知识目录。
可选地,在知识图谱中根据数据检索需求生成动态数据知识目录,动态数据知识目录包括在元数据中根据数据检索需求确定的目标元数据之后,还包括:根据预置关联关系,获取目标元数据对应的关联元数据,预置关联关系包括因果关联关系、相关关联关系、集成关联关系中的一个以上;根据目标元数据、关联元数据向用户提供数据地图。
可选地,采集并存储原始数据对应的元数据之后,还包括:对元数据进行分类管理,分类管理包括元数据统计、元数据模型定义、元数据分类规则定义、元数据版本管理、元数据变更管理中的一个以上。
可选地,在知识图谱中根据数据检索需求生成动态数据知识目录之后,还包括:根据目标元数据在原始数据中获取对应的目标数据,以及目标数据对应的数据源节点;根据数据检索需求、目标数据获取对应的目标算法;将目标算法分解到目标数据对应的数据源节点中,并基于联邦学习在数据源节点间进行联合训练,以对目标数据进行解析;提供基于目标算法对目标数据的解析结果。
第二方面,本公开还提供了一种数据编织处理装置,该装置可以包括采集存储模块、知识图谱模块、用户需求模块、数据目录模块;其中,采集存储模块,用于采集并存储原始数据对应的元数据,原始数据在两个以上数据源节点采用分布式存储,元数据用于描述原始数据在分布式存储中的存储信息;知识图谱模块,用于在元数据中抽取实体,以及实体之间的关系,并根据实体和关系构建元数据对应的知识图谱;用户需求模块,用于确定用户的数据检索需求;数据目录模块,用于在知识图谱中根据数据检索需求生成动态数据知识目录,第一知识目录包括在元数据中根据数据检索需求确定的目标元数据。
可选地,知识图谱模块包括数据划分子模块、第一元数据处理子模块、第一知识表示构建子模块和知识图谱更新子模块;其中,数据划分子模块,用于将元数据划分为第一元数据、第二元数据;第一元数据处理子模块,用于识别第一元数据中的第一实体,并提取第一元数据中第一实体之间的第一关系;第一知识表示构建子模块,用于根据第一实体、第一关系构建第一元数据对应的第一知识表示;知识图谱更新子模块,用于根据第二元数据对第一知识表示进行更新,获得元数据对应的知识图谱。
可选地,知识图谱更新子模块包括第二元数据处理单元、实体对齐单元、第二知识表示构建单元和知识图谱预测更新单元;其中,第二元数据处理单元,用于识别第二元数据中的第二实体,并提取第二元数据中第二实体之间的第二关系;实体对齐单元,用于对第二实体进行实体对齐,实体对齐包括实体消歧、指代消解中的一个以上;第二知识表示构建单元,用于在第一知识表示中加入第二实体、第二关系,获得第二知识表示;知识图谱预测更新单元,用于在第二知识表示中采用知识表示学习模型进行实体预测与关系预测,获得知识图谱。
可选地,数据目录模块还用于依据元数据与原始数据的对应关系关联知识图谱与原始数据,并基于知识图谱构建元数据对应的静态数据知识目录。
可选地,用户需求模块,还用于根据预置关联关系,获取目标元数据对应的关联元数据,并根据目标元数据、关联元数据向用户提供数据地图,预置关联关系包括因果关联关系、相关关联关系、集成关联关系中的一个以上。
可选地,该装置还可以包括数据管理模块;其中,数据管理模块,用于对元数据进行分类管理,分类管理包括元数据统计、元数据模型定义、元数据分类规则定义、元数据版本管理、元数据变更管理中的一个以上。
可选地,该装置还可以包括模型应用模块;其中,模型应用模块,用于根据目标元数据在原始数据中获取对应的目标数据,以及目标数据对应的数据源节点,并根据数据检索需求、目标数据获取对应的目标算法,再将目标算法分解到目标数据对应的数据源节点中,基于联邦学习在数据源节点间进行联合训练,以对目标数据进行解析,以及提供基于目标算法对目标数据的解析结果。
第三方面,本公开提供了一种电子设备,该电子设备包括处理器、存储器及存储在该存储器上并可在该处理器上运行的程序或指令,该程序或指令被该处理器执行时实现如第一方面的数据编织处理方法的步骤。
第四方面,本公开提供了一种可读存储介质,所述可读存储介质上存储程序或指令,该程序或指令被处理器执行时实现如第一方面的数据编织处理方法的步骤。
第五方面,本公开提供了一种芯片,该芯片包括处理器和通信接口,通信接口和处理器耦合,该处理器用于运行程序或指令,实现如第一方面的数据编织处理方法的步骤。
第六方面,本公开提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如实现如第一方面的数据编织处理方法的步骤。
在本公开提供的数据编织处理方法中,可以采集原始数据对应的元数据,其中,原始数据在两个以上数据源节点采用分布式存储,元数据用于描述原始数据在数据节点中的存储信息,进而可以在元数据中抽取实体以及实体间的关系,以构建元数据对应的知识图谱,再依据用户的数据检索需求,在知识图谱中生成对应的动态数据知识目录,该动态数据知识目录中包括元数据中数据检索需求确定的目标元数据;从而在上述方案中,对分布式存储在数据源节点的原始数据进行元数据的采集、存储,从而无需将大量边缘节点的数据向数据中心集中传输,减少了数据复制、传输、存储的成本,提高了数据治理效率,减少网络阻塞、带宽成本,以及数据中心的算力要求,也避免在数据复制、传输、存储过程中可能造成的安全隐私隐患,改善数据整体处理、访问、管理工作;通过在原始数据上实现元数据的采集,以及基于元数据的知识图谱构建,可以实现数据源节点间跨业务、跨系统的数据整合,提高数据全局关联程度;并且能够对用户实时的数据检索需求生成动态数据知识目录,以提供统一、全面、直观的数据视图,实现对数据的精准检索、访问。
附图说明
图1为本公开实施例提供的数据编织处理方法的步骤流程图之一;
图2为本公开实施例提供的数据编织处理方法的步骤流程图之二;
图3为本公开实施例提供的数据编织处理方法的实现框架流程图;
图4为本公开实施例提供的一种数据编织处理架构;
图5为本公开实施例提供的数据编织处理装置的结构示意图之一;
图6为本公开实施例提供的数据编织处理装置的结构示意图之二;
图7为本公开实施例提供的一种电子设备的结构示意图;
图8为本公开实施例提供的一种电子设备的硬件示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本公开实施例提供的数据编织处理方法进行详细地说明。
图1为本公开实施例提供的数据编织处理方法的步骤流程图之一。如图1所示,该方法可以包括如下步骤101至步骤104。
步骤101、采集并存储原始数据对应的元数据,原始数据在两个以上数据源节点采用分布式存储,元数据用于描述原始数据在分布式存储中的存储信息。
其中,原始数据可以是在数据源节点间采用分布式存储的相关数据,可以包括用户数据、业务数据、网络数据等,如原始数据可以包括B(Business SupportSystem,业务支撑系统)域数据、M(Management Support System,管理支撑系统)域数据、O(OperationSupport System,运维支撑系统)域数据、DPI(Deep Packet Inspection,深度数据包检测)数据、企业数据、行业数据等,原始数据在对应本地的数据源节点中产生、存储。数据源节点可以包括本地数据仓库或云端数据仓库等。
本公开实施例中,可以从数据源节点采集并存储原始数据对应的元数据。元数据可以对原始数据进行描述,如可以获取原始数据在数据源节点中的存储信息,通过描述原始数据对应的存储位置、上下文等,以实现对原始数据的组织、查找和理解。在本公开实施例提供的数据编织处理方法中,对采用分布式存储在本地数据源节点间的原始数据,可以通过ETL(Extract-Transform-Load,抽取、转换、加载)进行元数据采集,经过对异构多源的原始数据抽取、清洗、转换、加载获得元数据后,可以对采集的元数据进行存储。
在本公开的一方法实施例中,基于元数据的异构性特征,可以将结构化元数据、半结构化元数据、非结构化元数据存储到对应特性的源数据管理仓库中,如字段名称元数据为结构化元数据,可以存储到关系型数据库中;表单元数据为半结构化元数据可以存储到非关系型数据库中;日志元数据为非结构化元数据,可以存储到文件存储仓库中。通过对分布式存储的原始数据获取对应的元数据,并统一汇聚、存储该元数据便于对分散、边缘的原始数据进行集中管理、编织,且无需将全量的原始数据复制、传输到中心数据湖中,减少了数据隐私泄露风险,缩短了数据周转时间,也可以避免原始数据入湖时可能的写入错误,减少了运维成本。
需要说明的是,本公开中上述元数据、原始数据在明确告知用户采集内容、数据用途、处理方式等信息后,在用户同意、授权的情况下访问、采集、存储并应用于后续分析处理,且可以向用户提供访问、更正、删除该数据的途径,以及撤销同意、授权的方法。
步骤102、在元数据中抽取实体,以及实体之间的关系,并根据实体和关系构建元数据对应的知识图谱。
其中,知识图谱用于对不同数据源节点间,在地理、业务上呈现孤岛隔离的原始数据实现虚拟的全链接。具体的,可以对原始数据对应元数据进行实体,以及实体间关系的抽取,实体可以是数据中人、事、物等的抽象化对象,通常为名词,关系可以指实体与实体间关联方式、关联程度等。根据实体构建知识图谱中的节点,根据实体之间的关系构建知识图谱中节点之间的边,从而形成基于关联关系链接异构多源的元数据的知识图谱。
在本公开的一方法实施例中,对多种类型、复杂的元数据,可以基于其所属的业务类型、关联规则抽取实体、概念以及实体间的关系等,进而构建可表示数据关系的关系数据模型,基于该关系数据模型可以对实体、实体间关系进行计算以构建节点以及连接节点的边,形成全链接的网状知识结构,以获得元数据对应的知识图谱。
步骤103、确定用户的数据检索需求。
其中,用户可以是数据生产者、数据消费者、平台管理者等,可以接收用户输入的语音、字符、图像等数据检索信息,并对该数据检索信息进行解析,以确定用户的数据检索需求,可以是接收用户提供的关键字或提出的问题等形式确定数据检索需求。用户的数据检索需求可以是获取原始数据,或对原始数据的衍生需求,如对原始数据的衍生需求可以包括确定原始数据对应的数据源节点、原始数据之间的关联关系、对原始数据基于需求业务的解析结果等。
步骤104、在知识图谱中根据数据检索需求生成动态数据知识目录,动态数据知识目录包括在元数据中根据数据检索需求确定的目标元数据。
其中,基于用户的数据检索需求,可以在知识图谱中确定满足该数据检索需求的目标元数据,知识图谱中表示了全量的元数据中的实体,以及各实体间的关系,从而通过知识图谱可以对数据检索需求对应的目标元数据进行准确、快速定位。通过生成包括目标元数据的动态数据知识目录,在原始数据不出本地的情况下,用户无需理解每个元数据的基体含义,即可通过知识图谱实现跨领域、跨业务、跨系统的知识链接,挖掘人工无法覆盖的全领域业务数据,实时地、动态地向用户提供精准的,包括关系、权重等信息的检索结果。
本公开实施例中,动态数据知识目录指根据用户的数据检索需求动态生成,且包括目标元数据对应知识表示的知识目录。根据数据检索需求的变化,动态数据知识目录对应的目标元数据也发生变化,从而动态数据知识目录对应发生变化,如目标元数据减少时动态数据知识目录对应删除节点或边,目标元数据增加时动态数据知识目录对应添加节点或边,目标元数据重新定位时动态数据知识目录对应重构,该动态数据知识目录与用户当前的数据检索需求相适应,与用户的用户范围一致,业务需求匹配,可以随用户的数据检索需求实时生成,并更新或重构。
在本公开提供的数据编织处理方法中,可以采集原始数据对应的元数据,其中,原始数据在两个以上数据源节点采用分布式存储,元数据用于描述原始数据在数据节点中的存储信息,进而可以在元数据中抽取实体以及实体间的关系,以构建元数据对应的知识图谱,再依据用户的数据检索需求,在知识图谱中生成对应的动态数据知识目录,该动态数据知识目录中包括元数据中数据检索需求确定的目标元数据;从而在上述方案中,对分布式存储在数据源节点的原始数据进行元数据的采集、存储,从而无需将大量边缘节点的数据向数据中心集中传输,减少了数据复制、传输、存储的成本,提高了数据治理效率,减少网络阻塞、带宽成本,以及数据中心的算力要求,也避免在数据复制、传输、存储过程中可能造成的安全隐私隐患,改善数据整体处理、访问、管理工作;通过在原始数据上实现元数据的采集,以及基于元数据的知识图谱构建,可以实现数据源节点间跨业务、跨系统的数据整合,提高数据全局关联程度;并且能够对用户实时的数据检索需求生成动态数据知识目录,以提供统一、全面、直观的数据视图,实现对数据的精准检索、访问。
图2为本公开实施例提供的数据编织处理方法的步骤流程图之二。如图2所示,该方法可以包括如下步骤201至步骤216。
步骤201、采集并存储原始数据对应的元数据,原始数据在两个以上数据源节点采用分布式存储,元数据用于描述原始数据在分布式存储中的存储信息。
本公开实施例中,步骤201可对应参照前述步骤101的相关描述,为避免重复,在此不再赘述。
图3为本公开实施例提供的数据编织处理方法的实现框架流程图。如图3所示,全量的原始数据包括电信运营商的B、M、O域数据,采用分布式存储在DC(Data Center,数据中心)1、DC2、DC3、DC4、DC5中。本公开实施例中,在步骤①对DC1、DC2、DC3、DC4、DC5进行如下元数据(Metadata)采集,并将采集的元数据存储到元数据管理仓库(Metadata Warehouse)中。
步骤202、对元数据进行分类管理,分类管理包括元数据统计、元数据模型定义、元数据分类规则定义、元数据版本管理、元数据变更管理中的一个以上。
其中,在存储元数据的元数据管理仓库中,可以根据对元数据的管理要求进行分类管理。具体的,可以先依据需求对元数据进行分类,再进一步根据获得的分类对元数据进行管理。如对元数据的分类可以基于元数据统计、元数据模型定义、元数据分类规则定义等,元数据统计可以包括对元数据数量、来源、路径等信息的统计;元数据模型可以定义元数据的语法结构和语义,通过对异构多源的元数据采用定义的元数据模型描述,从而能够实现统一管理;元数据分类规则定义可以根据需求定义不同的元数据分类方式,元数据分类规则可以集成元数据的转换操作、预设条件等,元数据可以按照数据类型分为业务元数据、技术元数据、操作元数据等,其中,操作元数据、业务元数据部分可以以作业执行日志、调研报告、业务规则等文本形式呈现。而基于分类对元数据的管理可以包括元数据版本管理、元数据变更管理,元数据版本管理可以包括元数据版本的新增、修改、删除、发布、状态变更、调用权限,以及元数据版本的查询、对比和回滚等;元数据变更管理可以包括元数据变更的审核、追溯等。
在本公开的一方法实施例中,还可以对分类管理的元数据进行展示,并实现基于该元数据的数据查询。在此基础上,还可以基于元数据进行影响性分析、相关性分析、血缘分析等处理,如可以包括对数据的内容、归属、来源、追溯性、变更历史等进行分析,并进一步在数据查询中提供相应的解析结果。
如图3所示,在步骤②于元数据管理仓库中构建元数据模型(Metadata-Model),基于元数据模型对元数据进行描述,进而分类管理。
步骤203、将元数据划分为第一元数据、第二元数据。
其中,在知识图谱的构建过程中,可以先基于一部分元数据进行初步的构建,获得准确度较高、但不易扩展的知识图谱,进而再基于另一部分元数据在该知识图谱的基础上进行补全、扩展和增量更新,从而获得全量的元数据对应的知识图谱。因此,可以将元数据划分为第一元数据、第二元数据,对第一元数据、第二元数据的划分可以根据实际数据量、应用需求、数据质量等设置,可以根据元数据的种类、领域划分,也可以随机划分,即第一元数据、第二元数据可以是同领域的不同元数据、不同领域的元数据、同种类的不同元数据、不同种类的元数据等,本公开实施例对此不作具体限制。
在本公开的一方法实施例中,可以对元数据进行清洗、预处理等,以提高基于该元数据构建知识图谱的准确性、可靠性。
步骤204、识别第一元数据中的第一实体,并提取第一元数据中第一实体之间的第一关系。
其中,可以对第一元数据中的第一实体,第一实体间的关系进行识别和提取,可以通过人工标注实现,也可以采用实体识别算法、关系挖掘算法等方式实现。
步骤205、根据第一实体、第一关系构建第一元数据对应的第一知识表示。
其中,根据第一实体、第一关系可以进一步构建第一元数据对应的第一知识表示,在第一元数据为部分元数据的基础上,第一知识表示对实体,以及实体间关系的表示准确度较高,但不易扩展。
步骤206、根据第二元数据对第一知识表示进行更新,获得元数据对应的知识图谱。
在本公开实施例中,在第一知识表示的基础上,可以采用第二元数据进行更新,从而进行实体、关系的补全和扩展,实现知识的增量更新,以获得元数据对应的知识图谱。
在本公开的一方法实施例中,步骤206可以包括子步骤S11至S14。如下所示:
步骤S11、识别第二元数据中的第二实体,并提取第二元数据中第二实体之间的第二关系。
其中,可以对第二元数据先进行第二实体、第二实体间第二关系的识别和提取。根据其结构特性,第二元数据可以包括结构化元数据、半结构化元数据和非结构化元数据,针对结构化元数据可以基于其结构特征直接确定第二实体与第二实体间的关系;针对半结构化元数据和非结构化元数据,可以基于实体识别、关系挖掘的规则、机器学习算法、深度学习算法等方式实现实体、关系、属性的抽取。
步骤S12、对第二实体进行实体对齐,实体对齐包括实体消歧、指代消解中的一个以上。
其中,在从第二元数据中获得第二实体的基础上,可以进一步实现知识融合,具体可以是通过实体消歧、指代消解等方式进行实体对齐,以消除其中包含的冗余信息和错误数据。
步骤S13、在第一知识表示中加入第二实体、第二关系,获得第二知识表示。
其中,在对第二实体实现实体对齐后,可在第一知识表示中加入第二实体、第二关系,如可以对同义的第一实体、第二实体进行合并,或者对新的第二实体构建对应的节点,并基于第二关系在第一实体间、第二实体间、第一实体与第二实体间连接新的边,实现对第一知识表示的扩展,获得基于第一元数据、第二元数据构建的第二知识表示。
步骤S13、在第二知识表示中采用知识表示学习模型进行实体预测与关系预测,获得知识图谱。
其中,知识表示学习模型用于学习实体和关系间的表示,以高效地计算知识库中实体、关系的语义关联,从而基于该语义关联对未知的实体、关系进行预测。本公开实施例中,在第二知识表示的基础上,可以采用知识表示学习模型进行实体预测、关系预测,挖掘第二知识表示中可能存在的关系和实体,实现进一步的补全,保证知识图谱的全局性、准确性,以获得全量元数据对应的知识图谱。
如图3所示,在步骤③中对元数据进行实体,及实体间关系的抽取,并基于实体、关系构建知识表示,进一步对知识表示进行推理、补全和更新等,构建元数据对应的知识图谱(Metadata knowledge garaph)。
步骤207、依据元数据与原始数据的对应关系关联知识图谱与原始数据。
其中,可以依据元数据与原始数据的对应关系关联知识图谱与原始数据,具体的可以通过元数据在存储原始数据的分布式物理服务器、分布式云端服务器等数据源节点获取本地位置与访问权限,从而匹配到元数据与原始数据间的链接,并基于该链接建立元数据与原始数据间的索引,再将该索引映射到与知识图谱关联的原始数据的位置信息,从而实现知识图谱与原始数据的关联,基于该关联可以通过知识图谱提供原始数据相关的数据服务。
步骤208、基于知识图谱构建元数据对应的静态数据知识目录。
其中,可以在知识图谱上构建静态数据知识目录,静态数据知识目录可以基于全量的原始数据构建,依据知识图谱中节点、边的位置、连接关系,以及静态数据知识目录的应用需求,可以根据知识图谱中不同节点的层级关系构建分层级的静态数据知识目录,或者以业务类型、行业类型等分类构建对应单独业务、单独行业的静态数据知识目录。
在本公开的一方法实施例中,可以依据元数据与原始数据的对应关系关联知识图谱与原始数据,具体的可以通过元数据在存储原始数据的分布式物理服务器、分布式云端服务器等数据源节点获取本地位置与访问权限,从而匹配到元数据与原始数据间的链接,并基于该链接建立元数据与原始数据间的索引,再将该索引映射到与知识图谱关联的原始数据的位置信息,从而实现知识图谱与原始数据的关联,基于该关联可以通过知识图谱提供原始数据相关的数据服务。
步骤209、确定用户的数据检索需求。
本公开实施例中,步骤209可对应参照前述步骤103的相关描述,为避免重复,在此不再赘述。
如图3所示,在步骤④中可以获取数据使用者(Data User)通过个人服务数据检索(Self-Service Data Search)提供的数据检索信息,以确定用户的数据检索需求。
步骤210、在知识图谱中根据数据检索需求生成动态数据知识目录,动态数据知识目录包括在元数据中根据数据检索需求确定的目标元数据。
本公开实施例中,步骤210可对应参照前述步骤104的相关描述,为避免重复,在此不再赘述。
如图3所示,在步骤⑤中可以基于数据检索需求在知识图谱的基础上构建包括目标元数据的增强型知识目录(Enhanced Knowledge Catalog),其中,该增强型知识目录可以是基于数据检索需求变化而变化的动态数据知识目录。
在本公开的一方法实施例中,在确定目标元数据的基础上,还可以进一步拓展关联关系,获得目标元数据对应的关联元数据,以提供更广泛、更全面的数据地图。如下步骤211至步骤212所示。
步骤211、根据预置关联关系,获取目标元数据对应的关联元数据,预置关联关系包括因果关联关系、相关关联关系、集成关联关系中的一个以上。
其中,预置关联关系可以是在目标元数据以外,其他元数据与目标元数据间存在的关联关系,以区别于目标元数据间的关系,即可以将目标元数据间的关系作为一级关联关系,则预置关联关系可以作为二级关联关系,二级关联关系与一级关联关系可以是同层的关联关系,也可以是上下层的关联关系。预置关联关系可以根据实际需求进行选择,可以包括因果关联关系、相关关联关系、集成关联关系。因果关联关系指关联元数据与目标元数据存在关联、干预、反事实三层级的关联关系,即关联元数据与目标元数据的变量同步变化,且改变目标元数据的变量时关联元数据的变量随之变化,且可以通过改变目标元数据的变量使关联元数据的变量发生期望的变化;相关关联关系指关联元数据与目标元数据存在相互依赖关系,如关联元数据随目标元数据的变量增加而增加,或减少而减少则为正相关关系,或关联元数据随目标元数据的变量增加而减少,或减少而增加则为负相关关系;集成关系可以指元数据与关联元数据基于业务、应用、管理等需求的整合。
步骤212、根据目标元数据、关联元数据向用户提供数据地图。
其中,可以根据目标元数据、关联元数据构建数据地图,以表示目标元数据间,以及目标元数据与关联元数据之间关系链接的层级、路径等。
以电信运营商业务出账分析的应用场景为例,通过用户输入的数据检索信息,可以确定用户的数据检索需求为“本月度业务出账分析”,此时,无需进行连表操作等数据查询方式,可以在知识图谱中用户对应的数据方位范围中确定“本月度业务出账分析”对应的目标元数据,如“自由机楼收入”、“合作机楼收入”、“机架收入”、“带宽收入”、“其他收入”等数据字段,以生成对应的动态数据知识目录。进一步的,可以根据预置关联关系,获取目标元数据对应的关联元数据,如“自有机楼宽带流入流量”、“合作机楼宽带流量”、“机架宽带流量”、“带宽型宽带总流量”、“其他宽带总流量”等数据字段,从而构建对应的数据地图。
在本公开的一方法实施例中,在确定目标元数据的基础上,还可以在原始数据中进一步确定目标元数据描述的目标数据,进而可以对目标数据进行分析处理,以满足具体的数据业务需求。如下步骤213至步骤216所示:
步骤213、根据目标元数据在原始数据中获取对应的目标数据,以及目标数据对应的数据源节点。
其中,在基于数据检索需求确定目标元数据的基础上,可以通过目标元数据映射到对应的数据源节点,从而确定符合数据检索需求的目标数据。
如图3所示,在步骤⑥中基于数据检索需求“本月度业务出账分析”确定目标元数据后,可以通过目标元数据追溯(metadata to target data)到对应的数据源节点DC1、DC5。元数据中包括数据库对象、字段位置、访问权限、处理日志等描述原始数据属性的存储信息,因而通过目标元数据可以追溯到其对应的DC1、DC5两个分布式的数据源节点。
步骤214、根据数据检索需求、目标数据获取对应的目标算法。
其中,在确定目标数据后,可以调度该数据检索需求、目标数据对应的目标算法,以实现在数据源节点本地对目标数据的分析处理。本公开实施例中,可以预先配置多种异构的算法模型,也可以对不同的算法模型进行拆解、聚合,以实现不同的数据处理任务,如对语音数据、文本数据、图像数据、行为数据等进行识别、转换、分类、预测等,进而满足对行为路径、需求挖掘、价值评估等业务的分析需求。在基于目标算法在对应的数据源节点对目标数据进行解析,从而在目标数据不出本地的情况下,获得与数据检索需求相适应的解析结果,保证了数据源的安全、可靠,也实现了数据检索的实际需求。
步骤215、将目标算法分解到目标数据对应的数据源节点中,并基于联邦学习在数据源节点间进行联合训练,以对目标数据进行解析。
其中,由于原始数据为异构多源,以分布式存储在两个以上数据源节点,因此,目标数据可能分布在两个以上数据源节点中,因此可以基于联邦学习在不同数据源节点间进行联合训练。如可以分发目标算法的模型参数到各个数据源节点以将目标算法分解到对应的数据源节点中,并进行梯度汇聚以计算损失函数,并基于联邦学习在数据源节点间进行联合训练,循环往复模型参数的分发汇聚,直至模型收敛。
在本公开的一实施例中,在多个数据源节点间需要进行数据共享的情况下,可以根据各数据源节点的数据所有权确认协议、输出数据存储位置、计算类型等信息进行数据调度,从而实现数据安全共享,其中,计算类型可以包括通用隐私计算、TEE(TrustedExecution Environment,可信执行环境)等。
进一步的,如图3所示,在步骤⑦中匹配符合数据检索需求的,目标数据对应的算法(algorithm),基于联邦学习通过该算法在DC1、DC5间进行联合训练,获得解析结果。
步骤216、提供基于目标算法对目标数据的解析结果。
其中,在通过目标算法对原始数据在数据源节点进行本地联合训练获得解析结果后,可以向用户提供基于目标算法对目标数据的解析结果,如可以直接提供解析结果,如数据的分类、预测结果等,也可以基于解析结果进行进一步的应用分析、执行决策等。
如图3所示,以电信领域的用户洞察(Insight)为例,基于步骤⑦的解析结果,在步骤⑧中可以提供对电信用户行为特征、消费习惯等数据进行梳理和刻画,或进一步的基于行为特征、消费习惯等对电信用户进行分群划分,以便提供针对电信用户群的服务方案规划,实现差异化的决策建议。
本公开实施例中,实现了业务需求的全局关联,对目标数据进行精确定位,能够智能地全盘管理原始数据,在数据消费流程中包括“取数、管数、知数、用数”,通过元数据采集、元数据管理、元数据知识图谱构建、基于知识图谱的数据定位分析等,向用户提供了智能化自助式数据消费
如图3所示,确定用户的数据检索需求后,通过前述步骤②至⑦可以获得该数据检索需求的解析结果或进一步基于该解析结果的规划建议,进而可在步骤⑨向用户提供该解析结果或规划建议,以向用户提供自助化、无感知的数据消费(Data Consumption)。
在本公开提供的数据编织处理方法中,可以采集原始数据对应的元数据,其中,原始数据在两个以上数据源节点采用分布式存储,元数据用于描述原始数据在数据节点中的存储信息,进而可以在元数据中抽取实体以及实体间的关系,以构建元数据对应的知识图谱,再依据用户的数据检索需求,在知识图谱中生成对应的动态数据知识目录,该动态数据知识目录中包括元数据中数据检索需求确定的目标元数据。进一步的,可以在知识图谱的基础上关联原始数据,构建原始数据对应的静态数据知识目录;还可以提供的数据检索需求对应的目标算法,并将目标算法基于目标算法对目标数据在对应的数据源节点进行解析,向用户提供其解析结果;还可以对采集的元数据进行分类管理。
在上述方案中,对分布式存储在数据源节点的原始数据进行元数据的采集、存储,从而无需将大量边缘节点的数据向数据中心集中传输,减少了数据复制、传输、存储的成本,提高了数据治理效率,减少网络阻塞、带宽成本,以及数据中心的算力要求,也避免在数据复制、传输、存储过程中可能造成的安全隐私隐患,改善数据整体处理、访问、管理工作;通过在原始数据上实现元数据的采集,以及基于元数据的知识图谱构建,可以实现数据源节点间跨业务、跨系统的数据整合,提高数据全局关联程度;通过对元数据对应知识图谱的构建,并基于知识图谱生成整体原始数据的静态数据知识目录,和数据检索需求对应的动态数据知识目录,可以向用户提供统一、全面、直观的业务数据视图;通过匹配与数据检索需求相适应的目标算法,在目标数据对应数据源节点进行本地的数据分析,可以在数据不出本地的情况下,提供跨业务、跨系统的数据分析,在保证数据源可信、安全的同时,实现数据的充分利用,便于向用户提供人工无法实现的信息链接,挖掘孤岛数据的隐藏信息,掌握业务之间的隐藏属性关系,实现数据洞察。
图4为本公开实施例提供的一种数据编织处理架构400。该架构基于上述数据编织处理方法中各步骤执行进行功能层的划分,如下所示。
如图4所示,该架构可以包括采集存储层401、数据管理层402、知识图谱层403、数据目录层404、模型应用层405、用户需求层406。
采集存储层401可以用于采集并存储原始数据对应的元数据,原始数据在两个以上数据源节点采用分布式存储,元数据用于描述原始数据在数据源节点中的存储信息。其中,在采集存储层401可以基于其实现的功能划分为元数据采集4011和元数据存储4012两个功能单元,元数据采集4011可以采集原始数据对应的元数据,可以基于对应元数据采集工具实现;元数据存储4012可以存储采集到的元数据,可以基于对应的数据库实现。
数据管理层402可以用于对所述元数据进行分类管理,所述分类管理包括元数据统计、元数据模型定义、元数据分类规则定义、元数据版本管理、元数据变更管理中的一个以上。其中,数据管理层402可以基于其实现的功能划分元数据模型4021和元数据展示4022两个功能单元。元数据模型4021可以实现元数据模型的构建、应用、更新,以获得符合业务需求、规范的元数据,元数据展示4022可以实现对元数据的展示,或进一步展示对元数据查询、影响性分析、相关性分析、血缘分析等处理的结果。
知识图谱层403可以用于在元数据中抽取实体,以及实体之间的关系,并根据实体和关系构建元数据对应的知识图谱。其中,知识图谱层403可以基于其实现的功能划分为实体识别4031、关系抽取4032、实体消歧4033、指代消解4034、权重分析4035、知识推理4036和规则推理4037七个功能单元。实体识别4031可以基于语义特征识别元数据中的实体,关系抽取4032可以对识别的实体进行关系抽取,实体消歧4033可以识别相同指称的不同实体,指代消解4034可以识别同一实体的不同指称,权重分析4045可以衡量实体间关系的强弱,知识推理4046挖掘推理新的知识以补全知识图谱,规则推理4047挖掘推理新的规则以补全知识图谱。上述各功能单元可以通过配置对应功能的算法实现。
数据目录层404可以用于实现元数据的索引关联,对数据路径进行追溯分析,在知识图谱的基础上生成链接原始数据的增强型知识目录。其中,数据目录层404可以基于其实现的功能划分为数据索引关联4041、数据资产4042、工具4043、活动4044四个功能单元,数据资产4042可以划分为静态数据知识目录40421、动态数据知识目录40422两个功能子单元。数据索引关联4041可以关联元数据以及其对应的原始数据;数据资产4042用于在知识图谱的基础上构建增强型知识目录,包括在静态数据知识目录40421构建分层级,或不同分类的原始数据对应的静态数据知识目录,以及在动态数据知识目录40422动态实时构建数据检索需求对应的动态数据知识目录;工具4043可以在知识图谱的基础上实现数据洞察、数据路径、数据价值的分析;活动4044用于记录、展示用户的操作数据、日志数据等。
模型应用层405可以用于根据数据检索需求匹配对应的目标算法,并基于目标算法在对应的数据源节点对目标数据进行解析,以向用户提供目标算法的解析结果。其中,模型应用层405可以基于其实现的功能划分为算法匹配4051、算法分解4052、联邦学习4053和分析结果4054四个功能单元。算法匹配4051可以根据数据检索需求向目标数据匹配目标算法,算法分解4042可以分发汇聚模型参数以将目标算法分解到目标数据对应的数据源节点,联邦学习4043可以在分布式的数据源节点间实现联合训练,分析结果4044可以获取、展示目标算法对目标数据的分析结果,或者也可以进一步对分析结果进行评估。
用户需求层406可以用于获取用户的数据检索需求,以及可以向用户提供数据检索需求对应的分析结果。其中,用户需求层406可以基于其实现的功能划分为用户权限4061、用户搜索4062、数据地图4063、算法地图4064和决策视图4065五个功能单元。其中,用户权限4061可以对用户进行权限的分配、限制和管理等,权限可以是数据所有权、数据使用权、数据管理权、算法所有权、算法使用权、算法管理权等;用户搜索4062可以接收用户的输入,并基于用户的输入确定其数据检索需求,也可以向其他功能层,如模型应用层405、数据目录层404等提供其确定的数据检索需求;数据地图4063可以提供目标元数据与关联元数据对应的数据地图,以实现整体、全面的数据洞察;算法地图4064可以根据算法属性向用户提供算法地图,以展示算法对应工作流程、分析用途、算法类别等算法属性,向用户提供直观、开放、共享、便于迭代更新的算法地图应用机制;决策视图4065可以基于目标算法的分析结果、数据检索需求等形成决策,辅助用户的业务实践。
需要说明的是,上述各功能层、功能单元、功能子单元的划分仅用于区分不同执行逻辑、实现功能,而不限制具体实现的方式,如可以采用不同的服务器、网络、算法模型等以及其组合实现上述数据编织处理架构,从而执行本公开提供的数据编织处理方法。
本公开实施例提供的数据编织处理方法,执行主体还可以为数据编织处理装置,或者该数据编织处理装置中的用于执行数据编织处理方法的控制模块。本公开实施例中以数据编织处理装置执行数据编织处理的方法为例,说明本公开实施例提供的数据编织处理的装置。
图5为本公开实施例提供的数据编织处理装置500的结构示意图之一,如图5中所示,数据编织处理装置可以包括采集存储模块501、知识图谱模块502、用户需求模块503和数据目录模块504;其中,采集存储模块501,用于采集并存储原始数据对应的元数据,原始数据在两个以上数据源节点采用分布式存储,元数据用于描述原始数据在分布式存储中的存储信息;知识图谱模块502,用于在元数据中抽取实体,以及实体之间的关系,并根据实体和关系构建元数据对应的知识图谱;用户需求模块503,用于确定用户的数据检索需求;数据目录模块504,用于在知识图谱中根据数据检索需求生成动态数据知识目录,第一知识目录包括在元数据中根据数据检索需求确定的目标元数据。
在本公开的一装置实施例中,知识图谱模块502包括数据划分子模块、第一元数据处理子模块、第一知识表示构建子模块和知识图谱更新子模块;其中,数据划分子模块,用于将元数据划分为第一元数据、第二元数据;第一元数据处理子模块,用于识别第一元数据中的第一实体,并提取第一元数据中第一实体之间的第一关系;第一知识表示构建子模块,用于根据第一实体、第一关系构建第一元数据对应的第一知识表示;知识图谱更新子模块,用于根据第二元数据对第一知识表示进行更新,获得元数据对应的知识图谱。
在本公开的一装置实施例中,知识图谱更新子模块包括第二元数据处理单元、实体对齐单元、第二知识表示构建单元和知识图谱预测更新单元;其中,第二元数据处理单元,用于识别第二元数据中的第二实体,并提取第二元数据中第二实体之间的第二关系;实体对齐单元,用于对第二实体进行实体对齐,实体对齐包括实体消歧、指代消解中的一个以上;第二知识表示构建单元,用于在第一知识表示中加入第二实体、第二关系,获得第二知识表示;知识图谱预测更新单元,用于在第二知识表示中采用知识表示学习模型进行实体预测与关系预测,获得知识图谱。
在本公开的一装置实施例中,数据目录模块504,还用于依据元数据与原始数据的对应关系关联知识图谱与原始数据,并基于知识图谱构建元数据对应的静态数据知识目录。
在本公开的一装置实施例中,用户需求模块503,还用于根据预置关联关系,获取目标元数据对应的关联元数据,并根据目标元数据、关联元数据向用户提供数据地图,预置关联关系包括因果关联关系、相关关联关系、集成关联关系中的一个以上。
在本公开提供的数据编织处理装置中,可以通过采集存储模块采集原始数据对应的元数据,其中,原始数据在两个以上数据源节点采用分布式存储,元数据用于描述原始数据在数据节点中的存储信息,进而可以通过知识图谱模块在元数据中抽取实体以及实体间的关系,以构建元数据对应的知识图谱,再依据用户需求模块提供的用户的数据检索需求,通过数据目录模块在知识图谱中生成对应的动态数据知识目录,该动态数据知识目录中包括元数据中数据检索需求确定的目标元数据;从而在上述方案中,对分布式存储在数据源节点的原始数据进行元数据的采集、存储,从而无需将大量边缘节点的数据向数据中心集中传输,减少了数据复制、传输、存储的成本,提高了数据治理效率,减少网络阻塞、带宽成本,以及数据中心的算力要求,也避免在数据复制、传输、存储过程中可能造成的安全隐私隐患,改善数据整体处理、访问、管理工作;通过在原始数据上实现元数据的采集,以及基于元数据的知识图谱构建,可以实现数据源节点间跨业务、跨系统的数据整合,提高数据全局关联程度;并且能够对用户实时的数据检索需求生成动态数据知识目录,以提供统一、全面、直观的数据视图,实现对数据的精准检索、访问。
图6为本公开实施例提供的数据编织处理装置600的结构示意图之二,如图6中所示,数据编织处理装置可以包括采集存储模块601、数据管理模块602、知识图谱模块603、用户需求模块604、数据目录模块605和模型应用模块606;其中,采集存储模块601,用于采集并存储原始数据对应的元数据,原始数据在两个以上数据源节点采用分布式存储,元数据用于描述原始数据在分布式存储中的存储信息;数据管理模块602,用于对元数据进行分类管理,分类管理包括元数据统计、元数据模型定义、元数据分类规则定义、元数据版本管理、元数据变更管理中的一个以上;知识图谱模块603,用于在元数据中抽取实体,以及实体之间的关系,并根据实体和关系构建元数据对应的知识图谱;用户需求模块604,用于确定用户的数据检索需求;数据目录模块605,用于在知识图谱中根据数据检索需求生成动态数据知识目录,第一知识目录包括在元数据中根据数据检索需求确定的目标元数据;模型应用模块606,用于根据目标元数据在原始数据中获取对应的目标数据,以及目标数据对应的数据源节点,并根据数据检索需求、目标数据获取对应的目标算法,再将目标算法分解到目标数据对应的数据源节点中,基于联邦学习在数据源节点间进行联合训练,以对目标数据进行解析,以及提供基于目标算法对目标数据的解析结果。
在本公开提供的数据编织处理装置中,可以通过采集存储模块采集原始数据对应的元数据,其中,原始数据在两个以上数据源节点采用分布式存储,元数据用于描述原始数据在数据节点中的存储信息,进而可以通过知识图谱模块在元数据中抽取实体以及实体间的关系,以构建元数据对应的知识图谱,再依据用户需求模块提供的用户的数据检索需求,基于数据目录模块在知识图谱中生成对应的动态数据知识目录,该动态数据知识目录中包括元数据中数据检索需求确定的目标元数据。进一步的,可以通过数据目录模块在知识图谱的基础上关联原始数据,构建原始数据对应的静态数据知识目录;还可以通过模型应用模块提供数据检索需求对应的目标算法,并将目标算法基于目标算法对目标数据在对应的数据源节点进行解析,向用户提供其解析结果;还可以通过数据管理模块实现对元数据的分类管理。
在上述方案中,对分布式存储在数据源节点的原始数据进行元数据的采集、存储,从而无需将大量边缘节点的数据向数据中心集中传输,减少了数据复制、传输、存储的成本,提高了数据治理效率,减少网络阻塞、带宽成本,以及数据中心的算力要求,也避免在数据复制、传输、存储过程中可能造成的安全隐私隐患,改善数据整体处理、访问、管理工作;通过在原始数据上实现元数据的采集,以及基于元数据的知识图谱构建,可以实现数据源节点间跨业务、跨系统的数据整合,提高数据全局关联程度;通过对元数据对应知识图谱的构建,并基于知识图谱生成整体原始数据的静态数据知识目录,和数据检索需求对应的动态数据知识目录,可以向用户提供统一、全面、直观的业务数据视图;通过匹配与数据检索需求相适应的目标算法,在目标数据对应数据源节点进行本地的数据分析,可以在数据不出本地的情况下,提供跨业务、跨系统的数据分析,在保证数据源可信、安全的同时,实现数据的充分利用,便于向用户提供人工无法实现的信息链接,挖掘孤岛数据的隐藏信息,掌握业务之间的隐藏属性关系,实现数据洞察。
本公开实施例提供的数据编织处理装置能够实现图1至图3方法实施例实现的各个过程,为避免重复,这里不再赘述。
图7为本公开实施例提供的一种电子设备700的结构示意图,如图7所示,该电子设备700可以包括处理器701,存储器702,存储在存储器702上并可在处理器701上运行的程序或指令,该程序或指令被处理器701执行时实现上述数据编织处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,图7示出的电子设备700仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
图8为本公开实施例提供的一种电子设备800的硬件示意图,如图8所示,电子设备800包括中央处理单元(Central Processing Unit,CPU)801,其可以根据存储在ROM(ReadOnly Memory,只读存储器,)802中的程序或者从存储部分808加载到RAM(Random AccessMemory,随机访问存储器)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。I/O(Input/Output,输入/输出)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如CRT(Cathode Ray Tube,阴极射线管)、LCD(Liquid Crystal Display,液晶显示器)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN(Local AreaNetwork,无线网络)卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU801)执行时,执行本申请的系统中限定的各种功能。
本公开实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述数据编织处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如ROM、RAM、磁碟或者光盘等。
本公开实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述数据编织处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本公开实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
本公开实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如上述的数据编织处理方法的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本公开实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,电子设备,空调器,或者网络设备等)执行本公开各个实施例所述的方法。
上面结合附图对本公开的实施例进行了描述,但是本公开并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本公开的启示下,在不脱离本公开宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本公开的保护之内。
Claims (10)
1.一种数据编织处理方法,其特征在于,所述方法包括:
采集并存储原始数据对应的元数据,所述原始数据在两个以上数据源节点采用分布式存储,所述元数据用于描述所述原始数据在所述分布式存储中的存储信息;
在所述元数据中抽取实体,以及所述实体之间的关系,并根据所述实体和所述关系构建所述元数据对应的知识图谱;
确定用户的数据检索需求;
在所述知识图谱中根据所述据检索需求生成动态数据知识目录,所述动态数据知识目录包括在所述元数据中根据所述数据检索需求确定的目标元数据。
2.根据权利要求1所述的方法,其特征在于,所述在所述元数据中抽取实体,以及所述实体之间的关系,并根据所述实体和所述关系构建所述元数据对应的知识图谱,包括:
将所述元数据划分为第一元数据、第二元数据;
识别所述第一元数据中的第一实体,并提取所述第一元数据中所述第一实体之间的第一关系;
根据所述第一实体、所述第一关系构建所述第一元数据对应的第一知识表示;
根据所述第二元数据对所述第一知识表示进行更新,获得所述元数据对应的知识图谱。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第二元数据对所述第一知识表示进行更新,获得所述元数据对应的知识图谱,包括:
识别所述第二元数据中的所述第二实体,并提取所述第二元数据中所述第二实体之间的第二关系;
对所述第二实体进行实体对齐,所述实体对齐包括实体消歧、指代消解中的一个以上;
在所述第一知识表示中加入所述第二实体、所述第二关系,获得第二知识表示;
在所述第二知识表示中采用知识表示学习模型进行实体预测与关系预测,获得知识图谱。
4.根据权利要求1所述的方法,其特征在于,所述在所述元数据中抽取实体,以及所述实体之间的关系,并根据所述实体和所述关系构建所述元数据对应的知识图谱之后,还包括:
依据所述元数据与所述原始数据的对应关系关联所述知识图谱与所述原始数据;
基于所述知识图谱构建所述元数据对应的静态数据知识目录。
5.根据权利要求1所述的方法,其特征在于,所述在所述知识图谱中根据所述据检索需求生成动态数据知识目录,所述动态数据知识目录包括在所述元数据中根据所述数据检索需求确定的目标元数据之后,还包括:
根据预置关联关系,获取所述目标元数据对应的关联元数据,所述预置关联关系包括因果关联关系、相关关联关系、集成关联关系中的一个以上;
根据所述目标元数据、所述关联元数据向所述用户提供数据地图。
6.根据权利要求1所述的方法,其特征在于,所述采集并存储原始数据对应的元数据之后,还包括:
对所述元数据进行分类管理,所述分类管理包括元数据统计、元数据模型定义、元数据分类规则定义、元数据版本管理、元数据变更管理中的一个以上。
7.根据权利要求1所述的方法,其特征在于,所述在所述知识图谱中根据所述数据检索需求生成动态数据知识目录之后,还包括:
根据所述目标元数据在所述原始数据中获取对应的目标数据,以及所述目标数据对应的数据源节点;
根据所述数据检索需求、所述目标数据获取对应的目标算法;
将所述目标算法分解到所述目标数据对应的所述数据源节点中,并基于联邦学习在所述数据源节点间进行联合训练,以对所述目标数据进行解析;
提供基于所述目标算法对所述目标数据的解析结果。
8.一种数据编织处理装置,其特征在于,所述装置包括:
采集存储模块,用于采集并存储原始数据对应的元数据,所述原始数据在两个以上数据源节点采用分布式存储,所述元数据用于描述所述原始数据在所述分布式存储中的存储信息;
知识图谱模块,用于在所述元数据中抽取实体,以及所述实体之间的关系,并根据所述实体和所述关系构建所述元数据对应的知识图谱;
用户需求模块,用于确定用户的数据检索需求;
数据目录模块,用于在所述知识图谱中根据所述据检索需求生成动态数据知识目录,所述第一知识目录包括在所述元数据中根据所述数据检索需求确定的目标元数据。
9.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至7中任一项所述的数据编织处理方法。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的数据编织处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210827106.3A CN115221337A (zh) | 2022-07-13 | 2022-07-13 | 数据编织处理方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210827106.3A CN115221337A (zh) | 2022-07-13 | 2022-07-13 | 数据编织处理方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115221337A true CN115221337A (zh) | 2022-10-21 |
Family
ID=83611442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210827106.3A Pending CN115221337A (zh) | 2022-07-13 | 2022-07-13 | 数据编织处理方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115221337A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115827899A (zh) * | 2023-02-14 | 2023-03-21 | 广州汇通国信科技有限公司 | 基于知识图谱的数据集成方法、装置、设备及存储介质 |
-
2022
- 2022-07-13 CN CN202210827106.3A patent/CN115221337A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115827899A (zh) * | 2023-02-14 | 2023-03-21 | 广州汇通国信科技有限公司 | 基于知识图谱的数据集成方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11847574B2 (en) | Systems and methods for enriching modeling tools and infrastructure with semantics | |
CN113377850B (zh) | 认知物联网大数据技术平台 | |
Wang et al. | Industrial big data analytics: challenges, methodologies, and applications | |
US9800675B2 (en) | Methods for dynamically generating an application interface for a modeled entity and devices thereof | |
Phillips-Wren et al. | Business analytics in the context of big data: A roadmap for research | |
JP2022050489A (ja) | 統計プロファイリングおよびリファレンススキーママッチングによるオントロジー帰納のためのシステムおよび方法 | |
US9064224B2 (en) | Process driven business intelligence | |
CN112612902A (zh) | 一种电网主设备的知识图谱构建方法及设备 | |
US11403347B2 (en) | Automated master data classification and curation using machine learning | |
Wang et al. | Developing an employee turnover risk evaluation model using case-based reasoning | |
Mezni et al. | Reusing process fragments for fast service composition: a clustering-based approach | |
CN115809302A (zh) | 元数据处理方法、装置、设备及存储介质 | |
Ataei et al. | The state of big data reference architectures: A systematic literature review | |
CN115221337A (zh) | 数据编织处理方法、装置、电子设备及可读存储介质 | |
Malaverri et al. | A provenance–based approach to evaluate data quality in eScience | |
US20220156228A1 (en) | Data Tagging And Synchronisation System | |
CN115269862A (zh) | 一种基于知识图谱的电力问答与可视化系统 | |
US20180150543A1 (en) | Unified multiversioned processing of derived data | |
CN113360496A (zh) | 一种构建元数据标签库的方法及装置 | |
CN117435792A (zh) | 一种分布式的数据编织处理架构 | |
US20220004718A1 (en) | Ontology-Driven Conversational Interface for Data Analysis | |
Kopp et al. | Estimation and analysis of business process models similarity in enterprise continuum repository | |
Mertens et al. | DMISTA: Conceptual Data Model for Interactions in Support Ticket Administration. | |
Wurzer et al. | Bringing innovative semantic technology to practice: The iqser approach and its use cases | |
Fotopoulou et al. | Exploiting Linked Data Towards the Production of Added-Value Business Analytics and Vice-versa. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |