CN112541087A - 基于百科的跨语言知识图谱构建方法及装置 - Google Patents
基于百科的跨语言知识图谱构建方法及装置 Download PDFInfo
- Publication number
- CN112541087A CN112541087A CN202011507799.5A CN202011507799A CN112541087A CN 112541087 A CN112541087 A CN 112541087A CN 202011507799 A CN202011507799 A CN 202011507799A CN 112541087 A CN112541087 A CN 112541087A
- Authority
- CN
- China
- Prior art keywords
- data
- concept
- instance
- encyclopedia
- executing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 33
- 230000004927 fusion Effects 0.000 claims abstract description 64
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000007781 pre-processing Methods 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims description 80
- 238000012545 processing Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 31
- 238000004891 communication Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- FFRBMBIXVSCUFS-UHFFFAOYSA-N 2,4-dinitro-1-naphthol Chemical compound C1=CC=C2C(O)=C([N+]([O-])=O)C=C([N+]([O-])=O)C2=C1 FFRBMBIXVSCUFS-UHFFFAOYSA-N 0.000 description 1
- 235000009917 Crataegus X brevipes Nutrition 0.000 description 1
- 235000013204 Crataegus X haemacarpa Nutrition 0.000 description 1
- 235000009685 Crataegus X maligna Nutrition 0.000 description 1
- 235000009444 Crataegus X rubrocarnea Nutrition 0.000 description 1
- 235000009486 Crataegus bullatus Nutrition 0.000 description 1
- 235000017181 Crataegus chrysocarpa Nutrition 0.000 description 1
- 235000009682 Crataegus limnophila Nutrition 0.000 description 1
- 235000004423 Crataegus monogyna Nutrition 0.000 description 1
- 240000000171 Crataegus monogyna Species 0.000 description 1
- 235000002313 Crataegus paludosa Nutrition 0.000 description 1
- 235000009840 Crataegus x incaedua Nutrition 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000021039 pomes Nutrition 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于百科的跨语言知识图谱构建方法及装置,所述方法包括:获取目标领域的原始百科数据,原始百科数据包括至少两种语言、至少两处来源的所述目标领域的原始数据;对原始百科数据进行预处理,获得经过预处理后的目标数据;基于经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;基于经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;执行知识融合操作,生成所述目标领域的知识图谱。本发明实现了基于百科的跨语言领域知识图谱的构建,数据来源具有多样性,可有效提升知识图谱的构建效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于百科的跨语言知识图谱构建方法及装置。
背景技术
知识图谱是存储知识的数据库,知识图谱是由谷歌公司在2012年正式提出的概念,它的主要目的是在面对互联网高速发展,网络数据爆炸增长的时代,增强搜索效率,完善用户体验。知识图谱凭借其卓越的语义处理技术和互联性,为信息智能应用建立了基础,广泛运用于搜索、问答、情报分析等方面,促进信息技术从信息服务向知识服务发展。近几年,各行各业都在研究将知识图谱应用于专业领域,更好的服务特定领域。
但是目前基于百科的知识图谱的构建需要基于特定领域的某一语言的百科词条,采用百科词条作为数据源,数据源易获得,容易复现,同时,数据源单一,但是尚不能实现跨语言的知识图谱构建。
发明内容
本发明提供一种基于百科的跨语言知识图谱构建方法及装置,用以解决现有技术尚不能实现跨语言的知识图谱构建的缺陷。
本发明提供一种基于百科的跨语言知识图谱构建方法,包括:
获取目标领域的原始百科数据,所述原始百科数据包括至少两种语言、至少两处来源的所述目标领域的原始数据;
对所述原始百科数据进行预处理,获得经过预处理后的目标数据;
基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;
基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及所述实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱。
根据本发明提供的一种基于百科的跨语言知识图谱构建方法,所述基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据,包括:
基于所述经过预处理后的目标数据,执行概念获取操作,获得概念数据;
基于所述经过预处理后的目标数据,执行概念上下文生成操作,获得不同概念之间的上下位关系;
基于所述经过预处理后的目标数据,执行概念属性获取操作,获得概念属性数据。
根据本发明提供的一种基于百科的跨语言知识图谱构建方法,所述基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据,包括:
基于所述经过预处理后的目标数据,执行实例抽取操作,获得实例数据;
基于所述经过预处理后的目标数据,执行实例分类操作,获得实例与概念之间的关系;
基于所述经过预处理后的目标数据,执行实例属性抽取操作,获得实例属性数据。
根据本发明提供的一种基于百科的跨语言知识图谱构建方法,所述根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及所述实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱,包括:
对所述至少两种语言、至少两处来源的原始数据所对应的概念数据、不同概念之间的上下位关系和概念属性数据,执行概念融合操作,实现概念层数据对齐;
对所述至少两种语言、至少两处来源的原始数据所对应的实例数据、实例与概念之间的关系以及实例属性数据,执行实例融合操作,实现实例层数据对齐;
对所述至少两种语言、至少两处来源的原始数据所对应的概念数据、不同概念之间的上下位关系和概念属性数据,以及所述至少两种语言、至少两处来源的原始数据所对应的实例数据、实例与概念之间的关系以及实例属性数据,执行关系融合操作,实现概念和概念之间的关系、概念和实例之间的关系以及实例和实例之间的关系的对齐,生成所述目标领域的知识图谱。
根据本发明提供的一种基于百科的跨语言知识图谱构建方法,所述对所述原始百科数据进行预处理,获得经过预处理后的目标数据,包括:
对所述原始百科数据,执行预设操作,获得经过预处理后的目标数据;
其中,所述预设操作包括摘要提取、目录提取、正文提取、分类截取、信息框提取、多义词提取、URL提取、状态提取、图片提取和表格提取中的至少一项。
本发明还提供一种跨语言领域知识图谱构建装置,包括:
原始数据获取模块,用于获取目标领域的原始百科数据,所述原始百科数据包括至少两种语言、至少两处来源的所述目标领域的原始数据;
预处理模块,用于对所述原始百科数据进行预处理,获得经过预处理后的目标数据;
知识建模模块,用于基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;
知识获取模块,用于基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;
知识融合模块,用于根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及所述实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱。
根据本发明提供的一种基于百科的跨语言知识图谱构建装置,所述知识融合模块包括:
概念对齐子模块,用于对所述至少两种语言、至少两处来源的原始数据所对应的概念数据、不同概念之间的上下位关系和概念属性数据,执行概念融合操作,实现概念层数据对齐;
实例对齐子模块,用于对所述至少两种语言、至少两处来源的原始数据所对应的实例数据、实例与概念之间的关系以及实例属性数据,执行实例融合操作,实现实例层数据对齐;
关系对齐子模块,用于对所述至少两种语言、至少两处来源的原始数据所对应的概念数据、不同概念之间的上下位关系和概念属性数据,以及所述至少两种语言、至少两处来源的原始数据所对应的实例数据、实例与概念之间的关系以及实例属性数据,执行关系融合操作,实现概念和概念之间的关系、概念和实例之间的关系以及实例和实例之间的关系的对齐,生成所述目标领域的知识图谱。
根据本发明提供的一种基于百科的跨语言知识图谱构建装置,所述预处理模块用于:
对所述原始百科数据,执行预设操作,获得经过预处理后的目标数据;
其中,所述预设操作包括摘要提取、目录提取、正文提取、分类截取、信息框提取、多义词提取、URL提取、状态提取、图片提取和表格提取中的至少一项。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于百科的跨语言知识图谱构建方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于百科的跨语言知识图谱构建方法的步骤。
本发明提供的基于百科的跨语言知识图谱构建方法及装置,通过获取目标领域不同语言来源不同的原始百科数据,基于该原始百科数据进行知识图谱构建,实现了基于百科的跨语言领域知识图谱的构建,数据来源具有多样性,且在知识图谱的构建过程中无需依赖该特定领域的专家知识和行业调研才能实现,可有效提升知识图谱的构建效率,节省人力物力。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于百科的跨语言知识图谱构建方法的流程示意图;
图2为本发明实施例提供的基于百科的跨语言知识图谱构建流程示意图;
图3为本发明实施例提供的语言C百科B中“易建联”部分数据展示图;
图4为本发明实施例提供的语言C百科W中“易建联”部分数据展示图;
图5为本发明实施例提供的语言E百科W中“Yi Jianlian”部分数据展示图;
图6为本发明实施例提供的语言C百科B中“易建联”预处理信息框截取结果示意图;
图7为本发明实施例提供的语言C百科W中“易建联”预处理信息框截取结果示意图;
图8为本发明实施例提供的语言E百科W中“Yi Jianlian”预处理信息框截取结果示意图;
图9为本发明实施例提供的语言C百科B中“易建联”知识获取信息框抽取结果示意图;
图10为本发明实施例提供的语言C百科W中“易建联”知识获取信息框抽取结果示意图;
图11为本发明实施例提供的语言E百科W中“Yi Jianlian”知识获取信息框抽取结果示意图;
图12为本发明实施例提供的概念对齐部分示意图;
图13为本发明实施例提供的实例对齐部分示意图;
图14为本发明实施例提供的关系对齐部分示意图;
图15为本发明实施例提供的语言C百科B处理后的界面示意图;
图16为本发明实施例提供的语言C百科W处理后的界面示意图;
图17为本发明实施例提供的语言E百科W处理后的界面示意图;
图18为本发明实施例提供的基于百科的跨语言知识图谱构建装置的结构示意图;
图19为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图19描述本发明的基于百科的跨语言知识图谱构建方法及装置。
首先对本发明涉及的术语进行解释。
知识图谱:存储知识的一种数据库,里面存储的是一些三元组,如(姚明,出生地,上海)等,每个三元组都表示一个事实。知识图谱也可以看成图的形式,如上述三元组,姚明和上海是节点,出生地是姚明指向上海的一条有向有标签的边。
概念:知识图谱中一类实体,例如水果、梨果等。
实体:知识图谱中具体的某个实物,例如苹果,山楂等。
属性:知识图谱中概念或实体所具有的特征,例如苹果的产地、颜色等。
关系:知识图谱中概念、实体、属性三者自己与自己或者某两者之间的关系,例如实体苹果是水果概念下的其中一个实体、苹果的颜色属性可以是红色、粉色、金黄色等。
图1为本发明实施例提供的基于百科的跨语言知识图谱构建方法的流程示意图,包括:
步骤100、获取目标领域的原始百科数据,所述原始百科数据包括至少两种语言、至少两处来源的所述目标领域的原始数据;
针对某一目标领域,为了构建该目标领域的跨语言知识图谱,首先获取包括至少两种语言、至少两处来源的所述目标领域的原始数据。
例如,针对某一目标领域,获取语言为C、来源为百科B的原始数据,语言为C、来源为百科W的原始数据,以及语言为E、来源为百科W的原始数据。
获取了目标领域的原始百科数据之后,基于该原始百科数据进行知识图谱构建。本发明中知识图谱的构建过程包括预处理、知识建模、知识获取、知识融合等步骤。
步骤101、对所述原始百科数据进行预处理,获得经过预处理后的目标数据;
其中预处理,指在主要的处理以前对数据进行规范化处理。
可选的,所述对所述原始百科数据进行预处理,获得经过预处理后的目标数据,包括:
对所述原始百科数据,执行预设操作,获得经过预处理后的目标数据;
其中,所述预设操作包括摘要提取、目录提取、正文提取、分类截取、信息框提取、多义词提取、URL提取、状态提取、图片提取和表格提取中的至少一项。
步骤102、基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;
知识建模包括概念获取、概念上下位生成、概念属性获取等过程。其中概念获取是从预处理后的数据中抽取得到概念数据,概念上下位生成是从原始数据中通过一定的规则获取得到不同概念之间的上下位关系,概念属性抽取是对概念属性的抽取过程。
步骤103、基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;
知识获取主要包括实例抽取、实例分类、实例属性抽取等。其中实例抽取是从预处理后的数据中抽取得到实例数据,实例分类是从预处理后的数据中抽取得到实例和概念的关系,实例属性抽取是从预处理后的数据中抽取得到实例的属性数据。
步骤104、根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及所述实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱。
知识融合主要是包括概念融合、实例融合和关系融合,概念融合主要是指概念层数据的融合,实例融合主要是指实例层数据的融合,关系融合指的是概念和概念之间的关系、概念和实例之间的关系以及实例和实例之间的关系的融合,执行知识融合操作后,可以实现概念对齐、实例对齐和关系对齐。
基于所述原始百科数据,经过上述预处理、知识建模、知识获取、知识融合等步骤,最终得到所述目标领域的知识图谱。
在本发明实施例中,通过获取目标领域不同语言来源不同的原始百科数据,基于该原始百科数据进行知识图谱构建,实现了基于百科的跨语言领域知识图谱的构建,数据来源具有多样性,且在知识图谱的构建过程中无需依赖该特定领域的专家知识和行业调研才能实现,可有效提升知识图谱的构建效率,节省人力物力。
在上述实施例的基础上,可选的,所述基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据,包括:
基于所述经过预处理后的目标数据,执行概念获取操作,获得概念数据;
基于所述经过预处理后的目标数据,执行概念上下文生成操作,获得不同概念之间的上下位关系;
基于所述经过预处理后的目标数据,执行概念属性获取操作,获得概念属性数据。
可以理解的是,基于经过预处理后的目标数据,分别执行概念获取操作、概念上下文生成操作、以及概念属性获取操作,可以获得概念数据、不同概念之间的上下位关系和概念属性数据。
在上述实施例的基础上,可选的,所述基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据,包括:
基于所述经过预处理后的目标数据,执行实例抽取操作,获得实例数据;
基于所述经过预处理后的目标数据,执行实例分类操作,获得实例与概念之间的关系;
基于所述经过预处理后的目标数据,执行实例属性抽取操作,获得实例属性数据。
可以理解的是,基于经过预处理后的目标数据,分别执行实例抽取操作、实例分类操作、实例属性抽取操作,可以获得实例数据、实例与概念之间的关系以及实例属性数据。
在上述实施例的基础上,可选的,所述根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及所述实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱,包括:
对所述至少两种语言、至少两处来源的原始数据所对应的概念数据、不同概念之间的上下位关系和概念属性数据,执行概念融合操作,实现概念层数据对齐;
对所述至少两种语言、至少两处来源的原始数据所对应的实例数据、实例与概念之间的关系以及实例属性数据,执行实例融合操作,实现实例层数据对齐;
对所述至少两种语言、至少两处来源的原始数据所对应的概念数据、不同概念之间的上下位关系和概念属性数据,以及所述至少两种语言、至少两处来源的原始数据所对应的实例数据、实例与概念之间的关系以及实例属性数据,执行关系融合操作,实现概念和概念之间的关系、概念和实例之间的关系以及实例和实例之间的关系的对齐,生成所述目标领域的知识图谱。
可以理解的是,将不同语言不同来源的原始数据所对应的概念数据、不同概念之间的上下位关系和概念属性数据,进行知识融合,实现概念对齐。
例如,将语言为C、来源为百科B的原始数据所对应的概念数据,语言为C、来源为百科W的原始数据所对应的概念数据,以及语言为E、来源为百科W的原始数据所对应的概念数据进行知识融合,实现概念对齐。
可以理解的是,将不同语言不同来源的原始数据所对应的实例数据、实例与概念之间的关系以及实例属性数据,进行融合,实现实例对齐。
例如,将语言为C、来源为百科B的原始数据所对应的实例数据,语言为C、来源为百科W的原始数据所对应的实例数据,以及语言为E、来源为百科W的原始数据所对应的实例数据进行融合,实现实例对齐。
可以理解的是,根据所述至少两种语言、至少两处来源的原始数据所对应的概念数据、不同概念之间的上下位关系和概念属性数据,以及所述至少两种语言、至少两处来源的原始数据所对应的实例数据、实例与概念之间的关系以及实例属性数据,执行关系融合操作,实现概念和概念之间的关系、概念和实例之间的关系以及实例和实例之间的关系的对齐,生成所述目标领域的知识图谱。
在本发明实施例中,通过获取目标领域不同语言来源不同的原始百科数据,基于该原始百科数据进行知识图谱构建,实现了基于百科的跨语言领域知识图谱的构建,数据来源具有多样性,可有效提升知识图谱的构建效率。
下面给出一个具体的实施例进一步说明本发明提供的基于百科的跨语言知识图谱构建方法。
图2为本发明实施例提供的基于百科的跨语言知识图谱构建流程流程示意图。
构建基于语言C百科B、语言C百科W和语言E百科W三个百科数据融合的知识图谱。首先,获取语言C百科B、语言C百科W和语言E百科W的原始数据,作为原始百科数据。本实施例采用其中一个实例来进行介绍,其中,语言C百科B中“易建联”、语言C百科W中“易建联”和语言E百科W的“Yi Jianlian”的部分数据如图3-5所示。其中,图3为语言C百科B中“易建联”部分数据展示图,图4为语言C百科W中“易建联”部分数据展示图,图5为语言E百科W中“YiJianlian”部分数据展示图。
然后,基于原始百科数据进行知识图谱的构建。
其中,知识图谱构建过程包括:预处理、知识建模、知识获取、知识融合等步骤。
首先,对原始百科数据进行预处理,预处理包括摘要截取、正文截取、信息框截取等。图6为语言C百科B中“易建联”预处理信息框截取结果示意图,图7为语言C百科W中“易建联”预处理信息框截取结果示意图,图8为语言E百科W中“Yi Jianlian”预处理信息框截取结果示意图。
在预处理的基础上,进行知识建模过程。知识建模包括概念获取、概念上下位生成、概念属性获取等过程。其中概念获取是从预处理后的数据中抽取得到概念数据,概念上下位生成是从原始数据中通过一定的规则获取得到不同概念之间的上下位关系,概念属性抽取是对概念属性抽取过程。例如本例中,C百科B中“易建联”抽取到的概念有“运动员”、“体育人物”、“体育”、“人物”等,同时可以得到“体育人物”为“体育”概念的下层概念,而“运动员”概念有“出生时间”、“国籍”等属性。同理,语言C百科W中“易建联”和语言E百科W中“YiJianlian”可以得到类似的结果。
知识获取主要包括实例抽取、实例分类、实例属性抽取等。其中实例抽取是从预处理后的数据中抽取得到实例数据,实例分类从预处理后的数据中抽取得到实例和概念的关系,实例属性抽取是从预处理后的数据中抽取得到实例的属性数据。图9为语言C百科B中“易建联”知识获取信息框抽取结果示意图,图10为语言C百科W中“易建联”知识获取信息框抽取结果示意图,图11为语言E百科W中“Yi Jianlian”知识获取信息框抽取结果示意图。
通过以上预处理、知识建模、知识获取等过程,然后进行知识融合操作,主要包括概念对齐、实例对齐以及关系对齐。最后获得该目标领域的跨语言知识图谱。其中,图12为概念对齐部分示意图,图13为实例对齐部分示意图,图14为关系对齐部分示意图。
最后,将所有得到的三元组存入数据库中,然后进行页面展示,例如其中语言C百科B、语言C百科W和语言E百科W对应处理后的界面如图15-图17中所示,且三个界面可以通过BD、CN和EN的按钮实现相互之间的切换。
下面对本发明提供的基于百科的跨语言知识图谱构建装置进行描述,下文描述的跨语言领域知识图谱构建装置与上文描述的基于百科的跨语言知识图谱构建方法可相互对应参照。
图18为本发明实施例提供的基于百科的跨语言知识图谱构建装置的结构示意图,包括:原始数据获取模块1810、预处理模块1820、知识建模模块1830、知识获取模块1840和知识融合模块1850,其中,
原始数据获取模块1810,用于获取目标领域的原始百科数据,所述原始百科数据包括至少两种语言、至少两处来源的所述目标领域的原始数据;
预处理模块1820,用于对所述原始百科数据进行预处理,获得经过预处理后的目标数据;
知识建模模块1830,用于基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;
知识获取模块1840,用于基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;
知识融合模块1850,用于根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及所述实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱。
可选的,所述知识融合模块1850包括:
概念对齐子模块,用于对所述至少两种语言、至少两处来源的原始数据所对应的概念数据、不同概念之间的上下位关系和概念属性数据,执行概念融合操作,实现概念层数据对齐;
实例对齐子模块,用于对所述至少两种语言、至少两处来源的原始数据所对应的实例数据、实例与概念之间的关系以及实例属性数据,执行实例融合操作,实现实例层数据对齐;
关系对齐子模块,用于对所述至少两种语言、至少两处来源的原始数据所对应的概念数据、不同概念之间的上下位关系和概念属性数据,以及所述至少两种语言、至少两处来源的原始数据所对应的实例数据、实例与概念之间的关系以及实例属性数据,执行关系融合操作,实现概念和概念之间的关系、概念和实例之间的关系以及实例和实例之间的关系的对齐,生成所述目标领域的知识图谱。
可选的,所述预处理模块用于:
对所述原始百科数据,执行预设操作,获得经过预处理后的目标数据;
其中,所述预设操作包括摘要提取、目录提取、正文提取、分类截取、信息框提取、多义词提取、URL提取、状态提取、图片提取和表格提取中的至少一项。
可选的,所述知识建模模块1830用于:
基于所述经过预处理后的目标数据,执行概念获取操作,获得概念数据;
基于所述经过预处理后的目标数据,执行概念上下文生成操作,获得不同概念之间的上下位关系;
基于所述经过预处理后的目标数据,执行概念属性获取操作,获得概念属性数据。
可选的,所述知识获取模块1840用于:
基于所述经过预处理后的目标数据,执行实例抽取操作,获得实例数据;
基于所述经过预处理后的目标数据,执行实例分类操作,获得实例与概念之间的关系;
基于所述经过预处理后的目标数据,执行实例属性抽取操作,获得实例属性数据。
可选的,所述知识融合模块1850用于:
对所述至少两种语言、至少两处来源的原始数据所对应的概念数据、不同概念之间的上下位关系和概念属性数据,执行概念融合操作,实现概念层数据对齐;
对所述至少两种语言、至少两处来源的原始数据所对应的实例数据、实例与概念之间的关系以及实例属性数据,执行实例融合操作,实现实例层数据对齐;
对所述至少两种语言、至少两处来源的原始数据所对应的概念数据、不同概念之间的上下位关系和概念属性数据,以及所述至少两种语言、至少两处来源的原始数据所对应的实例数据、实例与概念之间的关系以及实例属性数据,执行关系融合操作,实现概念和概念之间的关系、概念和实例之间的关系以及实例和实例之间的关系的对齐,生成所述目标领域的知识图谱。
本发明提供的跨语言领域知识图谱构建装置能够实现图1至图17的方法实施例实现的各个过程,并达到相同的技术效果,为避免重复,这里不再赘述。
图19示例了一种电子设备的实体结构示意图,如图19所示,该电子设备可以包括:处理器(processor)1910、通信接口(Communications Interface)1920、存储器(memory)1930和通信总线1940,其中,处理器1910,通信接口1920,存储器1930通过通信总线1940完成相互间的通信。处理器1910可以调用存储器1930中的逻辑指令,以执行基于百科的跨语言知识图谱构建方法,该方法包括:获取目标领域的原始百科数据,所述原始百科数据包括至少两种语言、至少两处来源的所述目标领域的原始数据;对所述原始百科数据进行预处理,获得经过预处理后的目标数据;基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及所述实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱。
此外,上述的存储器1930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于百科的跨语言知识图谱构建方法,该方法包括:获取目标领域的原始百科数据,所述原始百科数据包括至少两种语言、至少两处来源的所述目标领域的原始数据;对所述原始百科数据进行预处理,获得经过预处理后的目标数据;基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及所述实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于百科的跨语言知识图谱构建方法,该方法包括:获取目标领域的原始百科数据,所述原始百科数据包括至少两种语言、至少两处来源的所述目标领域的原始数据;对所述原始百科数据进行预处理,获得经过预处理后的目标数据;基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及所述实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于百科的跨语言知识图谱构建方法,其特征在于,包括:
获取目标领域的原始百科数据,所述原始百科数据包括至少两种语言、至少两处来源的所述目标领域的原始数据;
对所述原始百科数据进行预处理,获得经过预处理后的目标数据;
基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;
基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及所述实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱。
2.根据权利要求1所述的基于百科的跨语言知识图谱构建方法,其特征在于,所述基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据,包括:
基于所述经过预处理后的目标数据,执行概念获取操作,获得概念数据;
基于所述经过预处理后的目标数据,执行概念上下文生成操作,获得不同概念之间的上下位关系;
基于所述经过预处理后的目标数据,执行概念属性获取操作,获得概念属性数据。
3.根据权利要求1所述的基于百科的跨语言知识图谱构建方法,其特征在于,所述基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据,包括:
基于所述经过预处理后的目标数据,执行实例抽取操作,获得实例数据;
基于所述经过预处理后的目标数据,执行实例分类操作,获得实例与概念之间的关系;
基于所述经过预处理后的目标数据,执行实例属性抽取操作,获得实例属性数据。
4.根据权利要求1所述的基于百科的跨语言知识图谱构建方法,其特征在于,所述根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及所述实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱,包括:
对所述至少两种语言、至少两处来源的原始数据所对应的概念数据、不同概念之间的上下位关系和概念属性数据,执行概念融合操作,实现概念层数据对齐;
对所述至少两种语言、至少两处来源的原始数据所对应的实例数据、实例与概念之间的关系以及实例属性数据,执行实例融合操作,实现实例层数据对齐;
对所述至少两种语言、至少两处来源的原始数据所对应的概念数据、不同概念之间的上下位关系和概念属性数据,以及所述至少两种语言、至少两处来源的原始数据所对应的实例数据、实例与概念之间的关系以及实例属性数据,执行关系融合操作,实现概念和概念之间的关系、概念和实例之间的关系以及实例和实例之间的关系的对齐,生成所述目标领域的知识图谱。
5.根据权利要求1所述的基于百科的跨语言知识图谱构建方法,其特征在于,所述对所述原始百科数据进行预处理,获得经过预处理后的目标数据,包括:
对所述原始百科数据,执行预设操作,获得经过预处理后的目标数据;
其中,所述预设操作包括摘要提取、目录提取、正文提取、分类截取、信息框提取、多义词提取、URL提取、状态提取、图片提取和表格提取中的至少一项。
6.一种基于百科的跨语言知识图谱构建装置,其特征在于,包括:
原始数据获取模块,用于获取目标领域的原始百科数据,所述原始百科数据包括至少两种语言、至少两处来源的所述目标领域的原始数据;
预处理模块,用于对所述原始百科数据进行预处理,获得经过预处理后的目标数据;
知识建模模块,用于基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;
知识获取模块,用于基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;
知识融合模块,用于根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及所述实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱。
7.根据权利要求6所述的基于百科的跨语言知识图谱构建装置,其特征在于,所述知识融合模块包括:
概念对齐子模块,用于对所述至少两种语言、至少两处来源的原始数据所对应的概念数据、不同概念之间的上下位关系和概念属性数据,执行概念融合操作,实现概念层数据对齐;
实例对齐子模块,用于对所述至少两种语言、至少两处来源的原始数据所对应的实例数据、实例与概念之间的关系以及实例属性数据,执行实例融合操作,实现实例层数据对齐;
关系对齐子模块,用于对所述至少两种语言、至少两处来源的原始数据所对应的概念数据、不同概念之间的上下位关系和概念属性数据,以及所述至少两种语言、至少两处来源的原始数据所对应的实例数据、实例与概念之间的关系以及实例属性数据,执行关系融合操作,实现概念和概念之间的关系、概念和实例之间的关系以及实例和实例之间的关系的对齐,生成所述目标领域的知识图谱。
8.根据权利要求6所述的基于百科的跨语言知识图谱构建装置,其特征在于,所述预处理模块用于:
对所述原始百科数据,执行预设操作,获得经过预处理后的目标数据;
其中,所述预设操作包括摘要提取、目录提取、正文提取、分类截取、信息框提取、多义词提取、URL提取、状态提取、图片提取和表格提取中的至少一项。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的基于百科的跨语言知识图谱构建方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于百科的跨语言知识图谱构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011507799.5A CN112541087A (zh) | 2020-12-18 | 2020-12-18 | 基于百科的跨语言知识图谱构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011507799.5A CN112541087A (zh) | 2020-12-18 | 2020-12-18 | 基于百科的跨语言知识图谱构建方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112541087A true CN112541087A (zh) | 2021-03-23 |
Family
ID=75019225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011507799.5A Pending CN112541087A (zh) | 2020-12-18 | 2020-12-18 | 基于百科的跨语言知识图谱构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112541087A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486160A (zh) * | 2021-05-26 | 2021-10-08 | 山东大学 | 基于跨语言知识的对话方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN110990579A (zh) * | 2019-10-30 | 2020-04-10 | 清华大学 | 跨语言的医学知识图谱构建方法、装置与电子设备 |
CN111444351A (zh) * | 2020-03-24 | 2020-07-24 | 清华苏州环境创新研究院 | 一种行业工艺领域知识图谱构建方法及装置 |
CN111753100A (zh) * | 2020-06-30 | 2020-10-09 | 广州小鹏车联网科技有限公司 | 一种针对车载应用的知识图谱生成方法和服务器 |
-
2020
- 2020-12-18 CN CN202011507799.5A patent/CN112541087A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN110990579A (zh) * | 2019-10-30 | 2020-04-10 | 清华大学 | 跨语言的医学知识图谱构建方法、装置与电子设备 |
CN111444351A (zh) * | 2020-03-24 | 2020-07-24 | 清华苏州环境创新研究院 | 一种行业工艺领域知识图谱构建方法及装置 |
CN111753100A (zh) * | 2020-06-30 | 2020-10-09 | 广州小鹏车联网科技有限公司 | 一种针对车载应用的知识图谱生成方法和服务器 |
Non-Patent Citations (1)
Title |
---|
贾丙静;马润;: "基于实体对齐的知识图谱构建研究", 佳木斯大学学报(自然科学版), no. 03, 15 May 2018 (2018-05-15) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486160A (zh) * | 2021-05-26 | 2021-10-08 | 山东大学 | 基于跨语言知识的对话方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110837550B (zh) | 基于知识图谱的问答方法、装置、电子设备及存储介质 | |
CN110147437B (zh) | 一种基于知识图谱的搜索方法及装置 | |
US11899681B2 (en) | Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium | |
Heymann et al. | Visual analysis of complex networks for business intelligence with gephi | |
CN111275784B (zh) | 生成图像的方法和装置 | |
CN108090351B (zh) | 用于处理请求消息的方法和装置 | |
CN106980497A (zh) | 网页网站性能优化方法和装置 | |
CN112487212A (zh) | 领域知识图谱的构建方法及装置 | |
US10095736B2 (en) | Using synthetic events to identify complex relation lookups | |
CN107958078A (zh) | 信息生成方法和装置 | |
CN111327607A (zh) | 一种基于大数据的安全威胁情报管理方法、系统、存储介质及终端 | |
CN114330966A (zh) | 一种风险预测方法、装置、设备以及可读存储介质 | |
WO2022127259A1 (zh) | 数据清洗方法、装置、设备及存储介质 | |
CN111198946A (zh) | 一种网络新闻热点挖掘方法及装置 | |
CN113158987A (zh) | 表格处理方法、装置、设备及计算机可读存储介质 | |
Godfrey et al. | An adaptable approach for generating vector features from scanned historical thematic maps using image enhancement and remote sensing techniques in a geographic information system | |
CN112541087A (zh) | 基于百科的跨语言知识图谱构建方法及装置 | |
CN112527924A (zh) | 动态更新的知识图谱扩展方法及装置 | |
CN109783471A (zh) | 企业画像小程序化方法、装置、计算机设备及存储介质 | |
CN116167057B (zh) | 基于关键代码语义检测的代码动态安全加载方法及装置 | |
CN111241142A (zh) | 一种科技成果转化推送系统及方法 | |
CN116561337A (zh) | 网络攻击知识图谱生成方法、装置、电子设备及存储介质 | |
CN107644103B (zh) | 一种可追溯信息来源的信息存储的方法和系统 | |
CN112767933B (zh) | 公路养护管理系统的语音交互方法、装置、设备及介质 | |
CN112750047B (zh) | 行为关系信息提取方法及装置、存储介质、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |