CN113918677A - 基于知识图谱自动化链路分层的数据处理方法、装置及计算机可读介质 - Google Patents
基于知识图谱自动化链路分层的数据处理方法、装置及计算机可读介质 Download PDFInfo
- Publication number
- CN113918677A CN113918677A CN202111211500.6A CN202111211500A CN113918677A CN 113918677 A CN113918677 A CN 113918677A CN 202111211500 A CN202111211500 A CN 202111211500A CN 113918677 A CN113918677 A CN 113918677A
- Authority
- CN
- China
- Prior art keywords
- data
- knowledge
- graph
- link
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 65
- 230000008520 organization Effects 0.000 claims abstract description 56
- 238000013500 data storage Methods 0.000 claims abstract description 50
- 230000008569 process Effects 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000006243 chemical reaction Methods 0.000 claims abstract description 11
- 238000003860 storage Methods 0.000 claims description 44
- 238000012549 training Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 16
- 238000007726 management method Methods 0.000 claims description 14
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000013136 deep learning model Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000003066 decision tree Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 abstract 1
- 238000003062 neural network model Methods 0.000 description 16
- 238000013527 convolutional neural network Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 230000007115 recruitment Effects 0.000 description 7
- 230000008030 elimination Effects 0.000 description 6
- 238000003379 elimination reaction Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 241000510672 Cuminum Species 0.000 description 1
- 235000007129 Cuminum cyminum Nutrition 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000010225 co-occurrence analysis Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于知识图谱自动化链路分层的数据处理方法、装置及计算机可读介质。所述方法包括:S1、从一个或多个数据源获取数据;S2、对所述数据进行预处理;S3、基于递进式构建的基于知识图谱的数据存储层,对所述预处理后的数据进行转换,以适应所述数据存储层的组织结构,所述数据存储层至少包括一个或多个基础SPO层,一个或多个实体数据归一层,一个或多个宽表服务应用层;S4、在所述转换过程中,自动化标识被存储的所述数据的基于知识图谱的链路,所述链路用于支持各种数据服务。所述方法能够提高基于知识图谱进行数据组织、存储和处理的效率,基于优化的数据存储结构,对数据进行处理、存储,提高数据检索、查询效率,实现数据召回量和匹配度的双向提升。
Description
技术领域
本公开涉及数据处理、组织、存储领域,特别是涉及一种基于知识图谱自动化链路分层的数据处理方法、装置及计算机可读介质。
背景技术
人类对信息的掌握和利用,都是通过信息系统这个工具来完成的,各种系统也只有集成为综合系统才能充分发挥作用。信息系统技术是以计算机为中心,以数据库和通信网络技术为依托实现对信息处理的技术。对于信息,如何更高效地组织、存储和处理是孜孜不倦地需求与愿望。
知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代技术。知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维。例如,用户的查询输入后,搜索引擎不仅仅去寻找关键词,而是首先进行语义的理解。对查询分词之后,对查询的描述进行归一化,从而能够与知识库进行匹配。查询的返回结果,是搜索引擎在知识库中检索相应的实体之后,给出的完整知识体系。
当前的互联网中,海量信息分布于不同的信息源,相关性较为稀疏,使用传统搜索引擎,准确、快速地获得有价值的信息变得愈发困难。传统的基于人工的知识管理方式,并不能实时高效地满足用户对于知识的获取需求。特别是在精准、高效识别用户需求,准确匹配搜索查询的结果的应用领域,例如基于大数据的精准招聘需求。其中,基于知识图谱的信息组织存储,通过引入自然语言处理技术,方便高效地从知识图谱中搜索相关结果,并推送给用户,辅助用户学习相关知识。
现有技术中,基于知识图谱进行数据组织、存储及处理,只是简单地在关系型数据库中存储数据,组织成知识图谱,未能有效地组织存储数据,充分利用知识图谱的优势;不同领域的数据有其领域的特性,在采用知识图谱来描述、组织和处理数据时,同样具有领域特性,现有技术中数据的组织、存储同样未能适应适应领域性;同时,获得数据后,未能有针对性地对数据进行处理,以适应相对应的数据组织与存储,也是面临的技术问题。迫切需要新的技术方案来解决此技术问题。
发明内容
针对上述技术问题,为了提高基于知识图谱进行数据组织存储的效率,充分发挥知识图谱的优势,本发明提出一种基于知识图谱自动化链路分层的数据处理方法。所述方法包括:S1、从一个或多个数据源获取数据;S2、对所述数据进行预处理;S3、基于递进式构建的基于知识图谱的数据存储层,对所述预处理后的数据进行转换,以适应所述数据存储层的组织结构,所述数据存储层至少包括一个或多个基础SPO层,一个或多个实体数据归一层,一个或多个宽表服务应用层;S4、在所述转换过程中,自动化标识被存储的所述数据的基于知识图谱的链路,所述链路用于支持数据服务。所述方法能够基于新创立的基于知识图谱自动化链路分层的数据组织存储结构来处理数据,以提高基于知识图谱进行数据组织、存储和处理的效率,充分发挥知识图谱的优势;基于优化的数据存储结构,对数据进行处理、存储,提高数据检索、查询效率,实现数据召回量和匹配度的双向提升。更进一步地,通过模型自学习,能够自适应地适应数据领域特性,进一步提高数据组织、存储和处理的效率,发挥知识图谱的优势。
此外,提供一种基于知识图谱自动化链路分层的数据组织存储装置及计算机可读介质。
为了实现上述目的,根据本公开的一个方面,提供以下技术方案:
一种基于知识图谱自动化链路分层的数据处理方法,所述方法包括:S1、从一个或多个数据源获取数据;S2、对所述数据进行预处理;S3、基于递进式构建的基于知识图谱的数据存储层,对所述预处理后的数据进行转换,以适应所述数据存储层的组织结构,所述数据存储层至少包括一个或多个基础SPO层,一个或多个实体数据归一层,一个或多个宽表服务应用层;S4、在所述转换过程中,自动化标识被存储的所述数据的基于知识图谱的链路,所述链路用于支持各种数据服务。
为了实现上述目的,根据本公开的另一个方面,还提供以下技术方案:
一种基于知识图谱自动化链路分层的数据组织存储装置,包括:
数据获取模块,用于从一个或多个数据源获取数据;
预处理模块,用于对所述数据进行预处理;
数据转换模块,用于基于递进式构建的基于知识图谱的数据存储层,对所述预处理后的数据进行转换,以适应所述数据存储层的组织结构,所述数据存储层至少包括一个或多个基础SPO层,一个或多个实体数据归一层,一个或多个宽表服务应用层;
数据标识模块,用于在所述转换过程中,自动化标识被存储的所述数据的基于知识图谱的链路,所述链路用于支持数据服务。
为了实现上述目的,根据本公开的又一个方面,还提供以下技术方案:
一种计算机可读存储介质,用于存储非暂时性计算机可读指令,当所述非暂时性计算机可读指令由计算机执行时,使得所述计算机执行上述基于知识图谱自动化链路分层的数据处理方法。
上述说明仅是本公开技术方案的概述,为了能更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为让本公开的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为根据本公开一个实施例的基于知识图谱自动化链路分层的数据处理方法的流程示意图;
图2为根据本公开一个实施例的基于知识图谱的数据存储层的结构示意图;
图3为根据本公开一个实施例的构建链路的系统示意图;
图4(A)为根据本公开一个实施例的基于知识图谱自动化链路分层的数据处理方法中,抽象出的kg_calss实体类别表示意图;
图4(B)为根据本公开一个实施例的基于知识图谱自动化链路分层的数据处理方法中,抽象出的kg_calss实体类别表示意图;
图4(C)为根据本公开一个实施例的基于知识图谱自动化链路分层的数据处理方法中,抽象出的kg_spo_property_schedule构建元数据表;
图4(D)为根据本公开一个实施例的基于知识图谱自动化链路分层的数据处理方法中,抽象出的kg_spo_track数据构建记录溯源表;
图5为根据本公开一个实施例的基于知识图谱自动化链路分层的数据处理装置的结构示意图;
图6为根据本公开一个实施例的计算机可读存储介质的结构示意图。
具体实施方式
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
为了提高基于知识图谱进行数据组织存储的效率,充分发挥知识图谱的优势,为此创建基于知识图谱自动化链路分层的数据组织存储结构,包括递进式构建的基于知识图谱的数据存储层,所述数据存储层至少包括一个或多个基础SPO层,一个或多个实体数据归一层,一个或多个宽表服务应用层。
其中,基础SPO层:在进行数据组织存储过程中,针对各种数据源获取的数据,首先构建基础SPO层,此层组织存储的数据是尚未对实体进行归一的数据,是所有数据中的基础数据。根据知识图谱理论模型,采用SPO(Subject-Predicate-Object)三元组来表示基础数据的知识,通过(实体,属性,关系)三元组来组织存储基础数据。通过基础SPO层,实现基础数据的数据可追溯性,即追溯ID的生成,互逆关系的自动构建,可靠数据源属性等。
实体数据归一层:此层组织存储的数据,是对基础层实体数据进行去重归一,实现数据归一,数据的排序,根据单值/多值去重,无效数据的清洗,数据来源的把控。
宽表服务应用层:此层组织存储的数据,是对数据使用方提供一站式服务,方便不懂SPO的用户使用;主要实现属性名称及数据类型到宽表的映射。
所构建的基于知识图谱的数据存储层如图2所示。
在一个实施例中,可以通过深度学习模型,例如各种卷积神经网络模型CNN、深度信任网络模型DBN等,构建样本集合,训练神经网络模型,从多个数据源获取的初始数据中,构建初步的单个基础SPO层,实体数据归一层,和宽表服务应用层;通过神经网络模型的不断训练学习,对数据存储层进行不断的学习、更新。通过数据不断训练,误差自顶向下传输,对神经网络模型进行微调。基于得到的各层参数,进一步优调整个多层模型的参数,形成有监督训练过程。能够取得更好的数据存储层的配置搭建效果,层级搭建配置更加合理。
在一个实施例中,可以使用ResNet(残差网络)模型从训练集中提取数据特征,将提取的数据特征输入训练的决策树模型,分类出基础SPO层,实体数据归一层,和宽表服务应用层。进一步地,利用MultiTaskLoss损失函数替换改进ResNet最后一层。使用MultiTaskLoss损失函数来评价模型性能优劣,MultiTaskLoss损失函数的表达式为:
其中,L({pi},{ti})是多目标损失的大小;
i为小批量样本中目标的顺序索引值,
pi是样本i属于正确分类样本的预测概率;pi *是参考标准,如果其为1,则为正样本,如果是0,则为负样本;
ti表示预测参数化坐标的矢量;
ti *是与正样本关联的参考;
λ是平衡参数,可给正则化系数Ncls和Nreg添加相应的权重;
Lcls是两个类别之间的对数分类误差;
Lreg是回归损失,且只可被正样本激活。
在构建基于知识图谱的数据存储层过程中,自动化构建知识图谱数据的链路,所述链路用于支持各种数据服务。
创建可并行运行的任务,在构建的基于知识图谱的数据存储层的基础上,构建各种应用服务与数据之间的链路,构建系统内部服务与数据之间的链路。如图3所示。
通过上述基于知识图谱自动化链路分层的数据组织存储结构,能够提高基于知识图谱进行数据组织存储的效率,充分发挥知识图谱的优势;更进一步地,通过模型自学习,能够自适应地适应数据领域特性,进一步提高数据组织存储的效率,发挥知识图谱的优势。
为了适应上述数据组织存储结构,以下实施例提供一种基于知识图谱自动化链路分层的数据组织存储方法。
如图1所示,该基于知识图谱自动化链路分层的数据处理方法,主要包括如下步骤:
S1、从一个或多个数据源获取数据。
在构建了基于知识图谱的数据存储层的数据组织存储结构基础上,应用于多种数据服务,需要获取大量数据,将这些数据组织存储在所建立的所述基于知识图谱的数据存储层的数据组织存储结构中。
在一个实施例中,所存储的数据或从一个或多个其他系统获取,或从网上提取,或直接录入,具体数据源再此不做限定。
在一个实施例中,具体数据源包括网络数据、h i ve数据、消息数据、文件数据、HDFS数据或API接口数据,如图4所示。
一个实施例中,该方法还包括步骤:
S0、配置元数据,根据知识图谱模型,从数据的属性中抽象出元数据,进行配置,配置数据的链路属性;递进式构建所述基于知识图谱的数据存储层的组织结构。
需要说明的是,该步骤S0可以在步骤S1之前或之后。
根据知识图谱模型中的概念(Concept),针对数据属性,抽象出元数据表,本申请采用Schema表对元数据进行描述。
在本发明一个实施例中,人才招聘场景下,根据知识图谱模型,将现实世界的某个实体(例如,Company)抽象出元数据表过程如图4(A)~4(D)所示。
图4(A)为根据本公开的该基于知识图谱的数据组织存储方法中,抽象出的kg_calss实体类别表示意图;如图,其中,kg_calss实体类别表,主要有实体类别编号,类别名称,级别,父类编号。
图4(B)为根据本公开的该基于知识图谱的数据组织存储方法中,抽象出的kg_property实体属性表示意图;如图,其中,kg_property实体属性表,约束实体有哪些属性(基本属性和关系属性),主要有属性名称,属性所属类别,是否多值等。
图4(C)为根据本公开的该基于知识图谱的数据组织存储方法中,抽象出的kg_spo_property_schedule构建元数据表;如图,其中,kg_spo_property_schedule构建元数据表,描述对哪个实体进行哪些属性的构建,主要有任务编号,属性名称,数据来源,字段映射,关系属性约束,是否构建逆向关系。
图4(D)为根据本公开的该基于知识图谱的数据组织存储方法中,抽象出的kg_spo_track数据构建记录溯源表;如图,其中,kg_spo_track数据构建记录溯源表,记录数据构建过程中的过程信息,和详细配置信息,便于数据的溯源,主要有trackID,实体类别,构建时间,类型,数据来源,版本号等。
此外,根据本公开的该基于知识图谱的数据组织存储方法中,还有另外一些提高数据质量的辅助表,比如kg_property_constraint属性约束表,kg_source数据来源表,kg_spo_supply定制化宽表转换配置表等。
从概念抽象为元数据表,称之为KGSchema,它从源头对数据进行统一的规范,约束与管理,基于知识图谱的数据存储层的数据组织存储结构中创立一套KG元数据管理系统,包含实体类别组织管理,实体属性组织管理,数据来源组织管理。
实体类别组织管理:是对实体所属的类别的组织管理。在一个实施例中,在人才,应、招聘场景下,例如是对简历,候选人,职位,公司,学校,工作经历等的管理,实体类别之间拥有血缘关系,例如公司或学校是组织机构的子类。
实体属性组织管理:是对实体基本属性的管理和关系属性的管理,父子实体属性的继承管理。在一个实施例中,在人才,应、招聘场景下,基本属性,例如name,kgID,alias等;关系属性,例如workedIn就职于,itsIndustry所属行业等。
数据来源组织管理:是对数据来源的管理,不同数据来源数据可信度不同,数据质量越好,可信度越高,在一个实施例中,在人才,应、招聘场景下,例如,zhilian公司内部数据,label人工标注数据,baidu,credit等。
在一个实施例中,元数据的配置,可以通过深度学习模型,例如各种卷积神经网络模型CNN、深度信任网络模型DBN等。构建初始样本集合,训练神经网络模型,从多个数据源获取的初始数据中,抽象元数据;通过神经网络模型的不断训练学习,对元数据进行不断的抽象、更新。通过数据不断训练,误差自顶向下传输,对神经网络模型进行微调。基于得到的各层参数,进一步优调整个多层模型的参数,形成有监督训练过程。能够取得更好的元数据配置效果,配置更加精准。
S2、对获取的数据进行预处理。
数据预处理主要是在对数据处理主要之前,对数据进行准备等处理,预处理包括数据清理、集成、标准化、规范化等操作。此外数据预处理也包括审核、筛选、排序等用于完成完整性、准确性等功能的操作。
S3、基于递进式构建的基于知识图谱的数据存储层,对所述预处理后的数据进行转换,以适应所述数据存储层的组织结构,所述数据存储层至少包括一个或多个基础SPO层,一个或多个实体数据归一层,一个或多个宽表服务应用层。
其中,基础SPO层:在进行数据组织存储过程中,针对各种数据源获取的数据,首先构建基础SPO层,此层组织存储的数据是尚未对实体进行归一的数据,是所有数据中的基础数据。根据知识图谱理论模型,采用SPO(Subject-Predicate-Object)三元组来表示基础数据的知识,通过(实体,属性,关系)三元组来组织存储基础数据。通过基础SPO层,实现基础数据的数据可追溯性,即追溯ID的生成,互逆关系的自动构建,可靠数据源属性等。
实体数据归一层:此层组织存储的数据,是对基础层实体数据进行去重归一,实现数据归一,数据的排序,根据单值/多值去重,无效数据的清洗,数据来源的把控。
宽表服务应用层:此层组织存储的数据,是对数据使用方提供一站式服务,方便不懂SPO的用户使用;主要实现属性名称及数据类型到宽表的映射。
所构建的基于知识图谱的数据存储层如图2所示。
在一个实施例中,可以通过深度学习模型,例如各种卷积神经网络模型CNN、深度信任网络模型DBN等,构建样本集合,训练神经网络模型,从多个数据源获取的初始数据中,构建初步的单个基础SPO层,实体数据归一层,和宽表服务应用层;通过神经网络模型的不断训练学习,对数据存储层进行不断的学习、更新。通过数据不断训练,误差自顶向下传输,对神经网络模型进行微调。基于得到的各层参数,进一步优调整个多层模型的参数,形成有监督训练过程。能够取得更好的数据存储层的配置搭建效果,层级搭建配置更加合理。
在一个实施例中,可以使用ResNet(残差网络)模型从训练集中提取数据特征,将提取的数据特征输入训练的决策树模型,分类出基础SPO层,实体数据归一层,和宽表服务应用层。进一步地,利用MultiTaskLoss损失函数替换改进ResNet最后一层。使用MultiTaskLoss损失函数来评价模型性能优劣,MultiTaskLoss损失函数的表达式为:
其中,L({pi},{ti})是多目标损失的大小;
i为小批量样本中目标的顺序索引值,
pi是样本i属于正确分类样本的预测概率;pi *是参考标准,如果其为1,则为正样本,如果是0,则为负样本;
ti表示预测参数化坐标的矢量;
ti *是与正样本关联的参考;
λ是平衡参数,可给正则化系数Ncls和Nreg添加相应的权重;
Lcls是两个类别之间的对数分类误差;
Lreg是回归损失,且只可被正样本激活。
在一个实施例中,例如对于人才,应、招聘场景下的数据,根据知识图谱模型,可以先对数据进行预处理,对缺失的数据进行修复,统一标准化,构成基础数据,例如修复公司地址、简介等数据,统一标准化为技能、专业、职类、行业等基础数据,表示为(实体,属性,关系)三元组,搭建基础SPO层;基于基础数据进行分析、计算,进行数据去重归一,实现数据的排序,根据单值/多值去重,无效数据的清洗,搭建实体数据归一层;例如,将简历与学校、公司进行关联,构建彼此之间的关系,准确刻画用户教育经理与工作经历特征;进行属性名称及数据类型到宽表的映射,搭建宽表服务应用层,使用方提供一站式服务,方便不懂SPO的用户使用。例如,为用户提供搜索服务时,准确理解用户需求,基于建立、职位、公司等多维度的知识图谱关系,准确理解客户端、企业端的需求。
S4、在所述转换过程中,自动化标识被存储的所述数据的基于知识图谱的链路,所述链路用于支持各种数据服务。
创建可并行运行的任务,在构建的基于知识图谱的数据存储层的基础上,构建各种应用服务与数据之间的链路,构建系统内部服务与数据之间的链路,如图3所示。
在元数据配置时,为数据属性创建面向应用服务的链路属性,用于标识能够支持的数据服务。通过这种基于知识图谱自动化链路分层的数据组织存储结构,能够提高基于知识图谱进行数据组织存储的效率,充分发挥知识图谱的优势。
更进一步地,通过模型自学习,能够自适应地适应数据领域特性,有针对性地自动构建各种应用服务与数据之间的链路,构建系统内部服务与数据之间的链路;进一步提高数据组织存储的效率,发挥知识图谱的优势。
在一个实施例中,通过深度学习模型,例如各种卷积神经网络模型CNN、深度信任网络模型DBN等,从多个成熟的业务系统数据源获取的初始数据中,抽象元数据,标识面向具体应用服务的链路属性;通过神经网络模型的不断训练学习,对元数据进行不断的抽象、更新。通过数据不断训练,误差自顶向下传输,对神经网络模型进行微调。基于得到的各层参数,进一步优调整个多层模型的参数,形成有监督训练过程。能够取得更好的元数据配置效果,配置更加精准。
在上文中,虽然按照上述的顺序描述了基于知识图谱自动化链路分层的数据组织存储方法实施例中的各个步骤,本领域技术人员应清楚,本公开实施例中的步骤并不必然按照上述顺序执行,其也可以倒序、并行、交叉等其他顺序执行,而且,在上述步骤的基础上,本领域技术人员也可以再加入其他步骤,这些明显变型或等同替换的方式也应包含在本公开的保护范围之内,在此不再赘述。
下面为本公开装置实施例,本公开装置实施例可用于执行本公开方法实施例实现的步骤,为了便于说明,仅示出了与本公开实施例相关的部分,具体技术细节未揭示的,请参照本公开方法实施例。
为了提高基于知识图谱进行数据组织存储的效率,充分发挥知识图谱的优势。以下实施例提供一种基于知识图谱自动化链路分层的数据组织存储装置。该装置可以执行上述基于知识图谱自动化链路分层的数据组织存储方法实施例中所述的步骤。如图5所示,该装置5主要包括:
数据获取模块,用于从一个或多个数据源获取数据。
在构建了基于知识图谱的数据存储层的数据组织存储结构基础上,应用于多种数据服务,需要获取大量数据,将这些数据组织存储在所建立的所述基于知识图谱的数据存储层的数据组织存储结构中。
在一个实施例中,所存储的数据或从一个或多个其他系统获取,或从网上提取,或直接录入,具体数据源再此不做限定。
在一个实施例中,具体数据源包括网络数据、hive数据、消息数据、文件数据、HDFS数据或API接口数据,如图2所示。
预处理模块,用于对所述数据进行预处理。
数据预处理主要是在对数据处理主要之前,对数据进行准备等处理,预处理包括数据清理、集成、标准化、规范化等操作。此外数据预处理也包括审核、筛选、排序等用于完成完整性、准确性等功能的操作。
数据转换模块,用于基于递进式构建的基于知识图谱的数据存储层,对所述预处理后的数据进行转换,以适应所述数据存储层的组织结构,所述数据存储层至少包括一个或多个基础SPO层,一个或多个实体数据归一层,一个或多个宽表服务应用层。
其中,基础SPO层:在进行数据组织存储过程中,针对各种数据源获取的数据,首先构建基础SPO层,此层组织存储的数据是尚未对实体进行归一的数据,是所有数据中的基础数据。根据知识图谱理论模型,采用SPO(Subject-Predicate-Object)三元组来表示基础数据的知识,通过(实体,属性,关系)三元组来组织存储基础数据。通过基础SPO层,实现基础数据的数据可追溯性,即追溯ID的生成,互逆关系的自动构建,可靠数据源属性等。
实体数据归一层:此层组织存储的数据,是对基础层实体数据进行去重归一,实现数据归一,数据的排序,根据单值/多值去重,无效数据的清洗,数据来源的把控。
宽表服务应用层:此层组织存储的数据,是对数据使用方提供一站式服务,方便不懂SPO的用户使用;主要实现属性名称及数据类型到宽表的映射。
所构建的基于知识图谱的数据存储层如图2所示。
在一个实施例中,可以通过深度学习模型,例如各种卷积神经网络模型CNN、深度信任网络模型DBN等,构建样本集合,训练神经网络模型,从多个数据源获取的初始数据中,构建初步的单个基础SPO层,实体数据归一层,和宽表服务应用层;通过神经网络模型的不断训练学习,对数据存储层进行不断的学习、更新。通过数据不断训练,误差自顶向下传输,对神经网络模型进行微调。基于得到的各层参数,进一步优调整个多层模型的参数,形成有监督训练过程。能够取得更好的数据存储层的配置搭建效果,层级搭建配置更加合理。
在一个实施例中,可以使用ResNet(残差网络)模型从训练集中提取数据特征,将提取的数据特征输入训练的决策树模型,分类出基础SPO层,实体数据归一层,和宽表服务应用层。进一步地,利用MultiTaskLoss损失函数替换改进ResNet最后一层。使用MultiTaskLoss损失函数来评价模型性能优劣,MultiTaskLoss损失函数的表达式为:
其中,L({pi},{ti})是多目标损失的大小;
i为小批量样本中目标的顺序索引值,
pi是样本i属于正确分类样本的预测概率;pi *是参考标准,如果其为1,则为正样本,如果是0,则为负样本;
ti表示预测参数化坐标的矢量;
ti *是与正样本关联的参考;
λ是平衡参数,可给正则化系数Ncls和Nreg添加相应的权重;
Lcls是两个类别之间的对数分类误差;
Lreg是回归损失,且只可被正样本激活。
在一个实施例中,例如对于人才,应、招聘场景下的数据,根据知识图谱模型,可以先对数据进行预处理,对缺失的数据进行修复,统一标准化,构成基础数据,例如修复公司地址、简介等数据,统一标准化为技能、专业、职类、行业等基础数据,表示为(实体,属性,关系)三元组,搭建基础SPO层;基于基础数据进行分析、计算,进行数据去重归一,实现数据的排序,根据单值/多值去重,无效数据的清洗,搭建实体数据归一层;例如,将简历与学校、公司进行关联,构建彼此之间的关系,准确刻画用户教育经理与工作经历特征;进行属性名称及数据类型到宽表的映射,搭建宽表服务应用层,使用方提供一站式服务,方便不懂SPO的用户使用。例如,为用户提供搜索服务时,准确理解用户需求,基于建立、职位、公司等多维度的知识图谱关系,准确理解客户端、企业端的需求。
数据标识模块,用于在所述转换过程中,自动化标识被存储的所述数据的基于知识图谱的链路,所述链路用于支持各种数据服务。
创建可并行运行的任务,在构建的基于知识图谱的数据存储层的基础上,构建各种应用服务与数据之间的链路,构建系统内部服务与数据之间的链路。如图5所示。
在元数据配置时,为数据属性创建面向应用服务的链路属性,用于标识能够支持的数据服务。通过这种基于知识图谱自动化链路分层的数据组织存储结构,能够提高基于知识图谱进行数据组织存储的效率,充分发挥知识图谱的优势。
更进一步地,通过模型自学习,能够自适应地适应数据领域特性,有针对性地自动构建各种应用服务与数据之间的链路,构建系统内部服务与数据之间的链路;进一步提高数据组织存储的效率,发挥知识图谱的优势。
在一个实施例中,通过深度学习模型,例如各种卷积神经网络模型CNN、深度信任网络模型DBN等,从多个成熟的业务系统数据源获取的初始数据中,抽象元数据,标识面向具体应用服务的链路属性;通过神经网络模型的不断训练学习,对元数据进行不断的抽象、更新。通过数据不断训练,误差自顶向下传输,对神经网络模型进行微调。基于得到的各层参数,进一步优调整个多层模型的参数,形成有监督训练过程。能够取得更好的元数据配置效果,配置更加精准。
图6是图示根据本公开的实施例的计算机可读存储介质的示意图。如图6所示,根据本公开实施例的计算机可读存储介质60,其上存储有非暂时性计算机可读指令61。当该非暂时性计算机可读指令61由处理器运行时,执行前述的本公开各实施例的基于知识图谱自动化链路分层的数据处理方法的全部或部分步骤。
上述计算机可读存储介质60包括但不限于:光存储介质(例如:CD-ROM和DVD)、磁光存储介质(例如:MO)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置ROM的媒体(例如:ROM盒)。
有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
另外,如在此使用的,在以“至少一个”开始的项的列举中使用的“或”指示分离的列举,以便例如“A、B或C的至少一个”的列举意味着A或B或C,或AB或AC或BC,或ABC(即A和B和C)。此外,措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。
还需要指出的是,在本公开的系统和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外,本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而,所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种基于知识图谱自动化链路分层的数据处理方法,其特征在于:所述方法包括:
S1、从一个或多个数据源获取数据;
S2、对所述数据进行预处理;
S3、基于递进式构建的基于知识图谱的数据存储层,对所述预处理后的数据进行转换,以适应所述数据存储层的组织步骤结构;
所述数据存储层至少包括一个或多个基础SPO层,一个或多个实体数据归一层,一个或多个宽表服务应用层;
S4、在所述转换过程中,自动化标识被存储的所述数据的基于知识图谱的链路,所述链路用于支持数据服务。
2.如权利要求1的基于知识图谱自动化链路分层的数据处理方法,其中还包括步骤:
S0、配置元数据,根据知识图谱模型,从数据的属性中抽象出元数据,进行配置,配置数据的链路属性;递进式构建所述基于知识图谱的数据存储层的组织结构。
3.如权利要求1的基于知识图谱自动化链路分层的数据处理方法,其中所述步骤S2的预处理,包括数据清理、集成、标准化、规范化、审核、筛选、排序中的一种或多种操作。
4.如权利要求2的基于知识图谱自动化链路分层的数据处理方法,其中,步骤S3中的数据存储层中的元数据可以通过如下方式创建:构建样本集合,训练深度学习模型,从所述一个或多个数据源获取的样本数据中,抽象元数据;通过深度学习模型的不断训练学习,对元数据进行不断的抽象、更新。
5.如权利要求1的基于知识图谱自动化链路分层的数据处理方法,其中,步骤S3中,在所述基础SOP层中,采用SPO三元组来表示基础数据的知识,通过<实体,属性,关系>三元组来组织存储基础数据。
6.如权利要求1的基于知识图谱自动化链路分层的数据处理方法,其中,步骤S3中,所述实体数据归一层组织存储的数据,对基础层实体数据进行去重归一、排序、清洗操作,实现归一化,排序化,清洗化,并组织管理数据来源;
所述宽表服务应用层组织存储的数据,是对数据使用方提供一站式服务,实现属性名称及数据类型到宽表的映射。
7.如权利要求1的基于知识图谱自动化链路分层的数据处理方法,其中,步骤S3中,使用ResNet模型从训练集中提取数据特征,将提取的数据特征输入训练的决策树模型,分类出所述基础SPO层,实体数据归一层,和宽表服务应用层;利用MultiTaskLoss损失函数替换改进ResNet模型最后一层,使用所述MultiTaskLoss损失函数来评价模型性能优劣;其中,所述MultiTaskLoss损失函数的表达式为:
其中,L({pi},{ti})是多目标损失的大小;
i为小批量样本中目标的顺序索引值,
pi是样本i属于正确分类样本的预测概率;pi *是参考标准,如果其为1,则为正样本,如果是0,则为负样本;
ti表示参数化坐标的矢量;
ti *是与正样本关联的参考;
λ是平衡参数,可给正则化系数Ncls和Nreg添加相应的权重;
Lcls是两个类别之间的对数分类误差;
Lreg是回归损失,且只可被正样本激活。
8.如权利要求1的基于知识图谱自动化链路分层的数据处理方法,其中步骤S4中:在元数据配置时,为数据属性创建面向应用服务的链路属性,用于标识能够支持的数据服务;创建可并行运行的任务,基于知识图谱的数据存储层,构建各种应用服务与数据之间的链路,构建系统内部服务与数据之间的链路。
9.一种基于知识图谱自动化链路分层的数据处理装置,其特征在于,包括:
数据获取模块,用于从一个或多个数据源获取数据;
预处理模块,用于对所述数据进行预处理;
数据转换模块,用于基于递进式构建的基于知识图谱的数据存储层,对所述预处理后的数据进行转换,以适应所述数据存储层的组织结构,所述数据存储层至少包括一个或多个基础SPO层,一个或多个实体数据归一层,一个或多个宽表服务应用层;
数据标识模块,用于在所述转换过程中,自动化标识被存储的所述数据的基于知识图谱的链路,所述链路用于支持数据服务。
10.一种计算机可读存储介质,用于存储非暂时性计算机可读指令,当所述非暂时性计算机可读指令由计算机执行时,使得所述计算机执行权利要求1-8中任意一项所述的基于知识图谱自动化链路分层的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111211500.6A CN113918677A (zh) | 2021-10-18 | 2021-10-18 | 基于知识图谱自动化链路分层的数据处理方法、装置及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111211500.6A CN113918677A (zh) | 2021-10-18 | 2021-10-18 | 基于知识图谱自动化链路分层的数据处理方法、装置及计算机可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113918677A true CN113918677A (zh) | 2022-01-11 |
Family
ID=79241321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111211500.6A Pending CN113918677A (zh) | 2021-10-18 | 2021-10-18 | 基于知识图谱自动化链路分层的数据处理方法、装置及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113918677A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108510001A (zh) * | 2018-04-04 | 2018-09-07 | 北京交通大学 | 一种风力发电机叶片缺陷分类方法及其分类系统 |
US20190163749A1 (en) * | 2017-11-30 | 2019-05-30 | Wipro Limited | Method and system for providing response to user input |
US20190392074A1 (en) * | 2018-06-21 | 2019-12-26 | LeapAnalysis Inc. | Scalable capturing, modeling and reasoning over complex types of data for high level analysis applications |
CN112380356A (zh) * | 2020-11-30 | 2021-02-19 | 百度国际科技(深圳)有限公司 | 用于构建配餐知识图谱的方法、装置、电子设备及介质 |
CN112488791A (zh) * | 2020-11-30 | 2021-03-12 | 中国传媒大学 | 一种基于知识图谱卷积算法的个性化推荐方法 |
WO2021196520A1 (zh) * | 2020-03-30 | 2021-10-07 | 西安交通大学 | 一种面向税务领域知识图谱的构建方法及系统 |
-
2021
- 2021-10-18 CN CN202111211500.6A patent/CN113918677A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190163749A1 (en) * | 2017-11-30 | 2019-05-30 | Wipro Limited | Method and system for providing response to user input |
CN108510001A (zh) * | 2018-04-04 | 2018-09-07 | 北京交通大学 | 一种风力发电机叶片缺陷分类方法及其分类系统 |
US20190392074A1 (en) * | 2018-06-21 | 2019-12-26 | LeapAnalysis Inc. | Scalable capturing, modeling and reasoning over complex types of data for high level analysis applications |
WO2021196520A1 (zh) * | 2020-03-30 | 2021-10-07 | 西安交通大学 | 一种面向税务领域知识图谱的构建方法及系统 |
CN112380356A (zh) * | 2020-11-30 | 2021-02-19 | 百度国际科技(深圳)有限公司 | 用于构建配餐知识图谱的方法、装置、电子设备及介质 |
CN112488791A (zh) * | 2020-11-30 | 2021-03-12 | 中国传媒大学 | 一种基于知识图谱卷积算法的个性化推荐方法 |
Non-Patent Citations (1)
Title |
---|
胡盼盼: "《医学人工智能导论普通高等教育医学类创新课程三十五规划教材,全国高等医药院校教材》", 北京理工大学出版社, pages: 144 - 158 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11500818B2 (en) | Method and system for large scale data curation | |
US10019509B1 (en) | Multi-dimensional modeling in a functional information system | |
CN109240901B (zh) | 性能分析方法、性能分析装置、存储介质和电子设备 | |
CN117271767B (zh) | 基于多智能体的运维知识库的建立方法 | |
EP3671526B1 (en) | Dependency graph based natural language processing | |
CN110633366A (zh) | 一种短文本分类方法、装置和存储介质 | |
CN114201616A (zh) | 一种基于多源数据库的知识图谱构建方法及系统 | |
Diamantopoulos et al. | Semantically-enriched jira issue tracking data | |
CN117592450A (zh) | 基于员工信息整合的全景档案生成方法及系统 | |
CN116304115B (zh) | 一种基于知识图谱的物资匹配替换方法和装置 | |
Stollberg et al. | H-Techsight—A next generation knowledge management platform | |
CN115827885A (zh) | 一种运维知识图谱的构建方法、装置及电子设备 | |
CN115757735A (zh) | 一种面向电网数字化建设成果资源的智能检索方法及系统 | |
CN113918677A (zh) | 基于知识图谱自动化链路分层的数据处理方法、装置及计算机可读介质 | |
CN114035783A (zh) | 一种软件代码知识图谱构建方法及工具 | |
Wei et al. | A Data-Driven Human–Machine Collaborative Product Design System Toward Intelligent Manufacturing | |
CN113849591A (zh) | 基于知识图谱的数据组织存储方法、系统和存储介质 | |
Abdellaoui et al. | A quality-driven approach for building heterogeneous distributed databases: the case of data warehouses | |
Hovy | Data and knowledge integration for e-government | |
CN117993876B (zh) | 一种简历评估系统、方法、装置和介质 | |
CN116450717B (zh) | 一种跨业务模块的数据整合方法及信息管理系统 | |
Hefke et al. | A CBR-Based Approach for Supporting Consulting Agencies in Successfully Accompanying a Customer’s Introduction of Knowledge Management | |
Рудський et al. | ALGORITHM AND SOFTWARE TO ASSESSS THE COMPLIANCE OF BUSINESS PROCESS MODELS WITH THEIR TEXTUAL DESCRIPTIONS | |
CN117610570A (zh) | 专家咨询智能系统及方法 | |
CN118626594A (zh) | 电力标准知识的标签自动化标注方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 214000 room 706, 7 / F, building 8 (Wuxi talent financial port), east of Hongxing Duhui, economic development zone, Wuxi City, Jiangsu Province Applicant after: Zhilian Wangpin Information Technology Co.,Ltd. Address before: 214000 room 706, 7 / F, building 8 (Wuxi talent financial port), east of Hongxing Duhui, Wuxi Economic Development Zone, Wuxi City, Jiangsu Province Applicant before: Zhilian (Wuxi) Information Technology Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220111 |