CN112487213A - 跨语言领域知识图谱构建方法及装置 - Google Patents
跨语言领域知识图谱构建方法及装置 Download PDFInfo
- Publication number
- CN112487213A CN112487213A CN202011507796.1A CN202011507796A CN112487213A CN 112487213 A CN112487213 A CN 112487213A CN 202011507796 A CN202011507796 A CN 202011507796A CN 112487213 A CN112487213 A CN 112487213A
- Authority
- CN
- China
- Prior art keywords
- data
- vocabularies
- concept
- knowledge graph
- instance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 44
- 239000013589 supplement Substances 0.000 claims abstract description 18
- 230000004927 fusion Effects 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 22
- 238000007781 pre-processing Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000013075 data extraction Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 10
- 239000000463 material Substances 0.000 abstract description 5
- 238000011160 research Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- FFRBMBIXVSCUFS-UHFFFAOYSA-N 2,4-dinitro-1-naphthol Chemical compound C1=CC=C2C(O)=C([N+]([O-])=O)C=C([N+]([O-])=O)C2=C1 FFRBMBIXVSCUFS-UHFFFAOYSA-N 0.000 description 1
- 235000009917 Crataegus X brevipes Nutrition 0.000 description 1
- 235000013204 Crataegus X haemacarpa Nutrition 0.000 description 1
- 235000009685 Crataegus X maligna Nutrition 0.000 description 1
- 235000009444 Crataegus X rubrocarnea Nutrition 0.000 description 1
- 235000009486 Crataegus bullatus Nutrition 0.000 description 1
- 235000017181 Crataegus chrysocarpa Nutrition 0.000 description 1
- 235000009682 Crataegus limnophila Nutrition 0.000 description 1
- 235000004423 Crataegus monogyna Nutrition 0.000 description 1
- 240000000171 Crataegus monogyna Species 0.000 description 1
- 235000002313 Crataegus paludosa Nutrition 0.000 description 1
- 235000009840 Crataegus x incaedua Nutrition 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000021039 pomes Nutrition 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种跨语言领域知识图谱构建方法及装置,所述方法包括:获取目标领域对应的至少两种语言的种子词汇;利用所述至少两种语言的种子词汇,进行词汇扩展,直至扩展得到的词汇数量满足预设条件,获得所述至少两种语言的扩展词汇;对所述至少两种语言的扩展词汇执行交叉补充操作,获得所述目标领域的相关词汇;从现有数据库中提取所述相关词汇对应的原始数据;对所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。本发明实现了适用于任何领域的跨语言领域知识图谱的构建方法,知识图谱的构建过程中无需依赖该特定领域的专家知识和行业调研才能实现,可有效提升知识图谱的构建效率,节省人力物力。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种跨语言领域知识图谱构建方法及装置。
背景技术
知识图谱是存储知识的数据库,知识图谱是由谷歌公司在2012年正式提出的概念,它的主要目的是在面对互联网高速发展,网络数据爆炸增长的时代,增强搜索效率,完善用户体验。知识图谱凭借其卓越的语义处理技术和互联性,为信息智能应用建立了基础,广泛运用于搜索、问答、情报分析等方面,促进信息技术从信息服务向知识服务发展。近几年,各行各业都在研究将知识图谱应用于专业领域,更好的服务特定领域。
但是目前知识图谱的构建需要基于特定领域的某一语言的原始数据,不能实现跨语言的知识图谱构建,并需要借助该特定领域的专家知识和行业调研才能实现,会耗费较多的人力物力。
发明内容
本发明提供一种跨语言领域知识图谱构建方法及装置,用以解决现有知识图谱的构建需要基于特定领域的某一语言的原始数据,不能实现跨语言的知识图谱构建,并需要借助该特定领域的专家知识和行业调研才能实现,会耗费较多的人力物力的缺陷。
本发明提供一种跨语言领域知识图谱构建方法,包括:
获取目标领域对应的至少两种语言的种子词汇;
利用所述至少两种语言的种子词汇,进行词汇扩展,直至扩展得到的词汇数量满足预设条件,获得所述至少两种语言的扩展词汇;
对所述至少两种语言的扩展词汇执行交叉补充操作,获得所述目标领域的相关词汇;
从现有数据库中提取所述相关词汇对应的原始数据;
对所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。
根据本发明提供的一种跨语言领域知识图谱构建方法,所述对所述至少两种语言的扩展词汇执行交叉补充操作,获得所述目标领域的相关词汇,包括:
获取所述至少两种语言的扩展词汇的交集数据,将所述交集数据作为所述目标领域的相关词汇;或者,
获取所述至少两种语言的扩展词汇的并集数据,将所述并集数据作为所述目标领域的相关词汇;或者,
将所述至少两种语言的扩展词汇进行优先级排序,将排序后的扩展词汇作为所述目标领域的相关词汇。
根据本发明提供的一种跨语言领域知识图谱构建方法,所述对所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱,包括:
对所述原始数据进行预处理,获得经过预处理后的目标数据;
基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;
基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱。
根据本发明提供的一种跨语言领域知识图谱构建方法,所述基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据,包括:
基于所述经过预处理后的目标数据,执行概念获取操作,获得概念数据;
基于所述经过预处理后的目标数据,执行概念上下文生成操作,获得不同概念之间的上下位关系;
基于所述经过预处理后的目标数据,执行概念属性获取操作,获得概念属性数据。
根据本发明提供的一种跨语言领域知识图谱构建方法,所述基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据,包括:
基于所述经过预处理后的目标数据,执行实例抽取操作,获得实例数据;
基于所述经过预处理后的目标数据,执行实例分类操作,获得实例与概念之间的关系;
基于所述经过预处理后的目标数据,执行实例属性抽取操作,获得实例属性数据。
根据本发明提供的一种跨语言领域知识图谱构建方法,所述根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱,包括:
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行概念融合操作,实现概念层数据对齐;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行实例融合操作,实现实例层数据对齐;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行关系融合操作,实现概念和概念之间的关系、概念和实例之间的关系以及实例和实例之间的关系的对齐,生成所述目标领域的知识图谱。
根据本发明提供的一种跨语言领域知识图谱构建方法,所述对所述原始数据进行预处理,获得经过预处理后的目标数据,包括:
对所述原始数据进行摘要截取、正文截取和/或信息框截取,获得经过预处理后的目标数据。
本发明还提供一种跨语言领域知识图谱构建装置,包括:
种子词汇获取单元,用于获取目标领域对应的至少两种语言的种子词汇;
词汇扩展单元,用于利用所述至少两种语言的种子词汇,进行词汇扩展,直至扩展得到的词汇数量满足预设条件,获得所述至少两种语言的扩展词汇;
交叉补充单元,用于对所述至少两种语言的扩展词汇执行交叉补充操作,获得所述目标领域的相关词汇;
原始数据提取单元,用于从现有数据库中提取所述相关词汇对应的原始数据;
知识图谱构建单元,用于对所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述跨语言领域知识图谱构建方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述跨语言领域知识图谱构建方法的步骤。
本发明提供的跨语言领域知识图谱构建方法及装置,通过利用目标领域至少两种语言的种子词汇进行词汇扩展、交叉补充获得相关词汇,并基于相关词汇获取原始数据,基于原始数据进行知识图谱构建,实现了适用于任何领域的跨语言领域知识图谱的构建方法,知识图谱的构建过程中无需依赖该特定领域的专家知识和行业调研才能实现,可有效提升知识图谱的构建效率,节省人力物力。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的跨语言领域知识图谱构建方法的流程示意图;
图2为本发明实施例提供的所述基于所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱的流程示意图;
图3为本发明实施例提供的“易建联”摘要截取的结果示意图;
图4为本发明实施例提供的“Yi Jianlian”摘要截取的结果示意图;
图5为本发明实施例提供的基于摘要抽取结果的“易建联”知识获取结果示意图;
图6为本发明实施例提供的基于摘要抽取结果的“Yi Jianlian”知识获取结果示意图;
图7为本发明实施例提供的“易建联”页面展示示意图;
图8为本发明实施例提供的“Yi Jianlian”页面展示示意图;
图9为本发明实施例提供的跨语言领域知识图谱构建装置的结构示意图;
图10是本发明提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图10描述本发明的跨语言领域知识图谱构建方法及装置。
首先对本发明涉及的术语进行解释。
知识图谱:存储知识的一种数据库,里面存储的是一些三元组,如(姚明,出生地,上海)等,每个三元组都表示一个事实。知识图谱也可以看成图的形式,如上述三元组,姚明和上海是节点,出生地是姚明指向上海的一条有向有标签的边。
概念:知识图谱中一类实体,例如水果、梨果等。
实体:知识图谱中具体的某个实物,例如苹果,山楂等。
属性:知识图谱中概念或实体所具有的特征,例如苹果的产地、颜色等。
关系:知识图谱中概念、实体、属性三者自己与自己或者某两者之间的关系,例如实体苹果是水果概念下的其中一个实体、苹果的颜色属性可以是红色、粉色、金黄色等。
图1为本发明实施例提供的跨语言领域知识图谱构建方法的流程示意图,包括:
步骤100、获取目标领域对应的至少两种语言的种子词汇;
针对某一目标领域,为了构建该目标领域的跨语言知识图谱,首先获取该目标领域的至少两种语言的种子词汇。
可选的,可以通过接收用户输入,响应于该用户输入,获取用户输入中包含的至少两种语言的种子词汇。
可选的,也可以在确定了目标领域的情况下,直接获取目标领域至少两种语言的种子词汇。
步骤101、利用所述至少两种语言的种子词汇,进行词汇扩展,直至扩展得到的词汇数量满足预设条件,获得所述至少两种语言的扩展词汇;
利用所述目标领域至少两种语言的种子词汇,通过预先实现的词汇扩展功能进行词汇扩展,直至扩展得到的词汇满足预设条件,最终获得所述目标领域至少两种语言的相关词汇。
可选的,扩展得到的词汇满足预设条件可以是扩展得到的词汇的数量满足预设数量,也可以是扩展得到的词汇中不同种类语言的词汇之间的数量比满足预设比例,或者其他能够用于判断词汇扩展结束的条件。
步骤102、对所述至少两种语言的扩展词汇执行交叉补充操作,获得所述目标领域的相关词汇;
对所述至少两种语言的扩展词汇进行交叉补充以对所述至少两种语言的扩展词汇进行完善和补充。
可选的,所述对所述至少两种语言的扩展词汇执行交叉补充操作,获得所述目标领域的相关词汇,包括:
获取所述至少两种语言的扩展词汇的交集数据,将所述交集数据作为所述目标领域的相关词汇;或者,
获取所述至少两种语言的扩展词汇的并集数据,将所述并集数据作为所述目标领域的相关词汇;或者,
将所述至少两种语言的扩展词汇进行优先级排序,将排序后的扩展词汇作为所述目标领域的相关词汇。
步骤103、从现有数据库中提取所述相关词汇对应的原始数据;
根据所述目标领域的相关词汇从现有数据库中提取相对应的原始数据。
现有数据库是已经存在的数据库。
原始数据是所述相关词汇的来源数据,可选的,原始数据可以是百科页面信息,可以是网页原始数据,或其他原始数据形式。
步骤104、对所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。
知识图谱构建过程包括预处理、知识建模、知识获取、知识融合等步骤。
基于所述原始数据,经过预处理、知识建模、知识获取、知识融合等步骤,最终得到所述目标领域的知识图谱。
在本发明实施例中,通过利用目标领域至少两种语言的种子词汇进行词汇扩展、交叉补充获得相关词汇,并基于相关词汇获取原始数据,基于原始数据进行知识图谱构建,实现了适用于任何领域的跨语言领域知识图谱的构建方法,知识图谱的构建过程中无需依赖该特定领域的专家知识和行业调研才能实现,可有效提升知识图谱的构建效率,节省人力物力。
在上述实施例的基础上,可选的,如图2所示,所述基于所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱,包括:
步骤200、对所述原始数据进行预处理,获得经过预处理后的目标数据;
其中预处理,指在主要的处理以前对数据进行规范化处理。
可选的,在一个实施例中,所述对所述原始数据进行预处理,获得经过预处理后的目标数据,包括:
对所述原始数据进行摘要截取、正文截取和信息框截取,获得经过预处理后的目标数据。
步骤201、基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;
知识建模包括概念获取、概念上下位生成、概念属性获取等过程。其中概念获取是从预处理后的数据中抽取得到概念数据,概念上下位生成是从原始数据中通过一定的规则获取得到不同概念之间的上下位关系,概念属性抽取是对概念属性的抽取过程。
可选的,在一个实施例中,所述基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据,包括:
基于所述经过预处理后的目标数据,执行概念获取操作,获得概念数据;
基于所述经过预处理后的目标数据,执行概念上下文生成操作,获得不同概念之间的上下位关系;
基于所述经过预处理后的目标数据,执行概念属性获取操作,获得概念属性数据。
步骤202、基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;
知识获取主要包括实例抽取、实例分类、实例属性抽取等。其中实例抽取是从预处理后的数据中抽取得到实例数据,实例分类是从预处理后的数据中抽取得到实例和概念的关系,实例属性抽取是从预处理后的数据中抽取得到实例的属性数据。
可选的,在一个实施例中,所述基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据,包括:
基于所述经过预处理后的目标数据,执行实例抽取操作,获得实例数据;
基于所述经过预处理后的目标数据,执行实例分类操作,获得实例与概念之间的关系;
基于所述经过预处理后的目标数据,执行实例属性抽取操作,获得实例属性数据。
步骤203、根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱。
知识融合主要是包括概念融合、实例融合和关系融合,概念融合主要是指概念层数据的融合,实例融合主要是指实例层数据的融合,关系融合指的是概念和概念之间的关系、概念和实例之间的关系以及实例和实例之间的关系的融合。
可选的,在一个实施例中,所述根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱,包括:
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行概念融合操作,实现概念层数据对齐;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行实例融合操作,实现实例层数据对齐;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行关系融合操作,实现概念和概念之间的关系、概念和实例之间的关系以及实例和实例之间的关系的对齐,生成所述目标领域的知识图谱。
在本发明实施例中,通过某领域至少两种语言的少量种子词经过词汇扩展和交叉补充,提取出原始数据,基于原始数据进行知识图谱的构建,不需要专家知识即可以构建上层概念层数据,通过某领域跨域的少量种子词汇即可快速实现该领域的跨语言知识图谱构建,可有效提升跨语言知识图谱的构建效率。
下面给出一个具体的实施例进一步说明本发明提供的跨语言领域知识图谱构建方法。
构建中英文跨语言的篮球相关的知识图谱。首先,输入中文种子词“美国职业篮球联赛、姚明、科比、篮球”等共20个,英文种子词“National Basketball Association、YaoMing、Kobe、Basketball”等共20个;然后,通过词汇扩展功能分别实现了中英文中国篮球领域词汇的扩展功能,其中中文得到450个相关词汇,例如“易建联、孙悦、中国男子篮球职业联赛、詹姆斯、湖人、冠军、韦德、热火”等词汇,英文得到403个相关词汇,例如“YiJianlian、Sun Yue、National Basketball Association、James、Lakers”等词汇;然后进行交叉补充操作,将对应的中文词汇和英文词汇进行并集操作,可以得到中英文各有455个相关词汇;根据相关词汇从数据库中提取相对应的原始数据,例如,与相关词汇相对应的百科页面信息,然后进行知识图谱构建工作。
其中,知识图谱构建过程包括:首先,对原始数据进行预处理,预处理包括摘要截取、正文截取和/或信息框截取等操作;其中,“易建联”摘要截取的结果如图3所示,“YiJianlian”摘要截取的结果图4所示。
在预处理的基础上,进行知识建模过程。知识建模包括概念获取、概念上下位生成、概念属性获取等过程。其中概念获取是从预处理后的数据中抽取得到概念数据,概念上下位生成是从原始数据中通过一定的规则获取得到不同概念之间的上下位关系,概念属性抽取是对概念属性抽取过程。其中中文部分存在的概念有“运动员”、“规则”、“联赛”等,其中“易建联”为“运动员”概念的下层实例,而“运动员”概念有“场上位置”、“出生时间”、“国籍”等属性。而英文部分存在的概念有“Players”、“Rules”、“League”等,其中“YiJianlian”为“Players”概念的下层实例,而“Players”概念有“Position”、“Born”、“Nationality”等属性。
然后进行知识获取。知识获取主要包括实例抽取、实例分类、实例属性抽取等。其中实例抽取是从预处理后的数据中抽取得到实例数据,实例分类从预处理后的数据中抽取得到实例和概念的关系,实例属性抽取是从预处理后的数据中抽取得到实例的属性数据。图5为本申请实施例提供的基于摘要抽取结果的“易建联”知识获取结果示意图,图6为本申请实施例提供的基于摘要抽取结果的“Yi Jianlian”知识获取结果示意图。
通过以上词汇扩展、预处理、知识建模、知识获取等步骤,最后成功构建了篮球相关知识图谱数据,其中中文中概念有5个,实例有455个,属性有220个。英文中概念有5个,实例有455个,属性有210个。最后对中英文的数据进行知识融合,分别展开进行概念层数据、示例层数据以及属性的对齐。则针对本例中则会得到概念层对齐结果:“运动员”——“Players”、“规则”——“Rules”、“联赛”——“League”等,实例层对齐结果:“易建联”——“Yi Jianlian”、“孙悦”——“Sun Yue”、“詹姆斯”——“James”、“湖人”——“Lakers”、“冠军”——“Champion”,属性对齐结果为:“场上位置”——“Position”、“出生时间”——“Born”、“国籍”——“Nationality”等。
最后获得该目标领域的跨语言知识图谱。将所有得到的三元组存入数据库virtuoso中,然后进行页面展示,其中“易建联”和“Yi Jianlian”界面如图7和图8所示,且两个界面可以通过CN(中文)和EN(英文)实现切换。
下面对本发明提供的跨语言领域知识图谱构建装置进行描述,下文描述的跨语言领域知识图谱构建装置与上文描述的跨语言领域知识图谱构建方法可相互对应参照。
图9为本发明实施例提供的跨语言领域知识图谱构建装置的结构示意图,包括:种子词汇获取单元910、词汇扩展单元920、交叉补充单元930、原始数据提取单元940和知识图谱构建单元950,其中,
种子词汇获取单元910,用于获取目标领域对应的至少两种语言的种子词汇;
词汇扩展单元920,用于利用所述至少两种语言的种子词汇,进行词汇扩展,直至扩展得到的词汇数量满足预设条件,获得所述至少两种语言的扩展词汇;
交叉补充单元930,用于对所述至少两种语言的扩展词汇执行交叉补充操作,获得所述目标领域的相关词汇;
原始数据提取单元940,用于从现有数据库中提取所述相关词汇对应的原始数据;
知识图谱构建单元950,用于对所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。
可选的,所述交叉补充单元930用于:
获取所述至少两种语言的扩展词汇的交集数据,将所述交集数据作为所述目标领域的相关词汇;或者,
获取所述至少两种语言的扩展词汇的并集数据,将所述并集数据作为所述目标领域的相关词汇;或者,
将所述至少两种语言的扩展词汇进行优先级排序,将排序后的扩展词汇作为所述目标领域的相关词汇。
可选的,所述知识图谱构建单元950包括:
预处理子模块,用于对所述原始数据进行预处理,获得经过预处理后的目标数据;
知识建模子模块,用于基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;
知识获取子模块,用于基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;
知识融合子模块,用于根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱。
可选的,所述知识建模子模块用于:
基于所述经过预处理后的目标数据,执行概念获取操作,获得概念数据;
基于所述经过预处理后的目标数据,执行概念上下文生成操作,获得不同概念之间的上下位关系;
基于所述经过预处理后的目标数据,执行概念属性获取操作,获得概念属性数据。
可选的,所述知识获取子模块用于:
基于所述经过预处理后的目标数据,执行实例抽取操作,获得实例数据;
基于所述经过预处理后的目标数据,执行实例分类操作,获得实例与概念之间的关系;
基于所述经过预处理后的目标数据,执行实例属性抽取操作,获得实例属性数据。
可选的,所述知识融合子模块用于:
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行概念融合操作,实现概念层数据对齐;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行实例融合操作,实现实例层数据对齐;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行关系融合操作,实现概念和概念之间的关系、概念和实例之间的关系以及实例和实例之间的关系的对齐,生成所述目标领域的知识图谱。
可选的,所述预处理子模块用于:
对所述原始数据进行摘要截取、正文截取和信息框截取,获得经过预处理后的目标数据。
本发明提供的跨语言领域知识图谱构建装置能够实现图1至图8的方法实施例实现的各个过程,并达到相同的技术效果,为避免重复,这里不再赘述。
图10示例了一种电子设备的实体结构示意图,如图10所示,该电子设备可以包括:处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040,其中,处理器1010,通信接口1020,存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令,以执行跨语言领域知识图谱构建方法,该方法包括:获取目标领域对应的至少两种语言的种子词汇;利用所述至少两种语言的种子词汇,进行词汇扩展,直至扩展得到的词汇数量满足预设条件,获得所述至少两种语言的扩展词汇;对所述至少两种语言的扩展词汇执行交叉补充操作,获得所述目标领域的相关词汇;从现有数据库中提取所述相关词汇对应的原始数据;对所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。
此外,上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的跨语言领域知识图谱构建方法,该方法包括:获取目标领域对应的至少两种语言的种子词汇;利用所述至少两种语言的种子词汇,进行词汇扩展,直至扩展得到的词汇数量满足预设条件,获得所述至少两种语言的扩展词汇;对所述至少两种语言的扩展词汇执行交叉补充操作,获得所述目标领域的相关词汇;从现有数据库中提取所述相关词汇对应的原始数据;对所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的跨语言领域知识图谱构建方法,该方法包括:获取目标领域对应的至少两种语言的种子词汇;利用所述至少两种语言的种子词汇,进行词汇扩展,直至扩展得到的词汇数量满足预设条件,获得所述至少两种语言的扩展词汇;对所述至少两种语言的扩展词汇执行交叉补充操作,获得所述目标领域的相关词汇;从现有数据库中提取所述相关词汇对应的原始数据;对所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种跨语言领域知识图谱构建方法,其特征在于,包括:
获取目标领域对应的至少两种语言的种子词汇;
利用所述至少两种语言的种子词汇,进行词汇扩展,直至扩展得到的词汇数量满足预设条件,获得所述至少两种语言的扩展词汇;
对所述至少两种语言的扩展词汇执行交叉补充操作,获得所述目标领域的相关词汇;
从现有数据库中提取所述相关词汇对应的原始数据;
对所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。
2.根据权利要求1所述的跨语言领域知识图谱构建方法,其特征在于,所述对所述至少两种语言的扩展词汇执行交叉补充操作,获得所述目标领域的相关词汇,包括:
获取所述至少两种语言的扩展词汇的交集数据,将所述交集数据作为所述目标领域的相关词汇;或者,
获取所述至少两种语言的扩展词汇的并集数据,将所述并集数据作为所述目标领域的相关词汇;或者,
将所述至少两种语言的扩展词汇进行优先级排序,将排序后的扩展词汇作为所述目标领域的相关词汇。
3.根据权利要求1所述的跨语言领域知识图谱构建方法,其特征在于,所述对所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱,包括:
对所述原始数据进行预处理,获得经过预处理后的目标数据;
基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;
基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱。
4.根据权利要求3所述的跨语言领域知识图谱构建方法,其特征在于,所述基于所述经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据,包括:
基于所述经过预处理后的目标数据,执行概念获取操作,获得概念数据;
基于所述经过预处理后的目标数据,执行概念上下文生成操作,获得不同概念之间的上下位关系;
基于所述经过预处理后的目标数据,执行概念属性获取操作,获得概念属性数据。
5.根据权利要求3所述的跨语言领域知识图谱构建方法,其特征在于,所述基于所述经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据,包括:
基于所述经过预处理后的目标数据,执行实例抽取操作,获得实例数据;
基于所述经过预处理后的目标数据,执行实例分类操作,获得实例与概念之间的关系;
基于所述经过预处理后的目标数据,执行实例属性抽取操作,获得实例属性数据。
6.根据权利要求3所述的跨语言领域知识图谱构建方法,其特征在于,所述根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行知识融合操作,生成所述目标领域的知识图谱,包括:
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行概念融合操作,实现概念层数据对齐;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行实例融合操作,实现实例层数据对齐;
根据所述概念数据、不同概念之间的上下位关系和概念属性数据,以及实例数据、实例与概念之间的关系以及实例属性数据,执行关系融合操作,实现概念和概念之间的关系、概念和实例之间的关系以及实例和实例之间的关系的对齐,生成所述目标领域的知识图谱。
7.根据权利要求3所述的跨语言领域知识图谱构建方法,其特征在于,所述对所述原始数据进行预处理,获得经过预处理后的目标数据,包括:
对所述原始数据进行摘要截取、正文截取和/或信息框截取,获得经过预处理后的目标数据。
8.一种跨语言领域知识图谱构建装置,其特征在于,包括:
种子词汇获取单元,用于获取目标领域对应的至少两种语言的种子词汇;
词汇扩展单元,用于利用所述至少两种语言的种子词汇,进行词汇扩展,直至扩展得到的词汇数量满足预设条件,获得所述至少两种语言的扩展词汇;
交叉补充单元,用于对所述至少两种语言的扩展词汇执行交叉补充操作,获得所述目标领域的相关词汇;
原始数据提取单元,用于从现有数据库中提取所述相关词汇对应的原始数据;
知识图谱构建单元,用于对所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述跨语言领域知识图谱构建方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述跨语言领域知识图谱构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011507796.1A CN112487213A (zh) | 2020-12-18 | 2020-12-18 | 跨语言领域知识图谱构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011507796.1A CN112487213A (zh) | 2020-12-18 | 2020-12-18 | 跨语言领域知识图谱构建方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112487213A true CN112487213A (zh) | 2021-03-12 |
Family
ID=74914698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011507796.1A Pending CN112487213A (zh) | 2020-12-18 | 2020-12-18 | 跨语言领域知识图谱构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112487213A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156365A (zh) * | 2016-08-03 | 2016-11-23 | 北京智能管家科技有限公司 | 一种知识图谱的生成方法及装置 |
US20190311003A1 (en) * | 2015-03-19 | 2019-10-10 | Semantic Technologies Pty Ltd | Semantic knowledge base |
CN110750698A (zh) * | 2019-09-09 | 2020-02-04 | 深圳壹账通智能科技有限公司 | 知识图谱构建方法、装置、计算机设备及存储介质 |
CN110990579A (zh) * | 2019-10-30 | 2020-04-10 | 清华大学 | 跨语言的医学知识图谱构建方法、装置与电子设备 |
-
2020
- 2020-12-18 CN CN202011507796.1A patent/CN112487213A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190311003A1 (en) * | 2015-03-19 | 2019-10-10 | Semantic Technologies Pty Ltd | Semantic knowledge base |
CN106156365A (zh) * | 2016-08-03 | 2016-11-23 | 北京智能管家科技有限公司 | 一种知识图谱的生成方法及装置 |
CN110750698A (zh) * | 2019-09-09 | 2020-02-04 | 深圳壹账通智能科技有限公司 | 知识图谱构建方法、装置、计算机设备及存储介质 |
CN110990579A (zh) * | 2019-10-30 | 2020-04-10 | 清华大学 | 跨语言的医学知识图谱构建方法、装置与电子设备 |
Non-Patent Citations (1)
Title |
---|
HAILONG JIN 等: "XLORE2: Large-scale Cross-lingual Knowledge Graph Construction and Application", DATA INTELLIGENCE, 1 March 2019 (2019-03-01) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110837550B (zh) | 基于知识图谱的问答方法、装置、电子设备及存储介质 | |
TWI729472B (zh) | 特徵詞的確定方法、裝置和伺服器 | |
US20220318275A1 (en) | Search method, electronic device and storage medium | |
US20080240575A1 (en) | Learning concept templates from web images to query personal image databases | |
CN112487212A (zh) | 领域知识图谱的构建方法及装置 | |
CN107436916B (zh) | 智能提示答案的方法及装置 | |
CN114218931B (zh) | 信息抽取方法、装置、电子设备和可读存储介质 | |
US20230289402A1 (en) | Joint perception model training method, joint perception method, device, and storage medium | |
CN112527924A (zh) | 动态更新的知识图谱扩展方法及装置 | |
CN108563637A (zh) | 一种融合三元组知识库的句子实体补全方法 | |
CN113204695B (zh) | 网站识别方法和装置 | |
CN112528146B (zh) | 内容资源推荐方法、装置、电子设备及存储介质 | |
WO2020000752A1 (zh) | 仿冒移动应用程序的判别方法及系统 | |
US20230206007A1 (en) | Method for mining conversation content and method for generating conversation content evaluation model | |
CN112541087A (zh) | 基于百科的跨语言知识图谱构建方法及装置 | |
CN112487213A (zh) | 跨语言领域知识图谱构建方法及装置 | |
CN116662509A (zh) | 大规模语言模型的开放域问答实现方法、装置及设备 | |
CN113360672B (zh) | 用于生成知识图谱的方法、装置、设备、介质和产品 | |
CN112767933B (zh) | 公路养护管理系统的语音交互方法、装置、设备及介质 | |
CN114638221A (zh) | 基于业务需求的业务模型生成方法及装置 | |
CN112749364B (zh) | 基于人工智能的网页生成方法、装置、设备及存储介质 | |
CN114118937A (zh) | 基于任务的信息推荐方法、装置、电子设备及存储介质 | |
CN114357164A (zh) | 情感-原因对抽取方法、装置、设备及可读存储介质 | |
CN113392220A (zh) | 一种知识图谱生成方法、装置、计算机设备及存储介质 | |
CN106095956A (zh) | 支持信息裂变查询方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |