CN116245177B - 地理环境知识图谱自动化构建方法及系统、可读存储介质 - Google Patents
地理环境知识图谱自动化构建方法及系统、可读存储介质 Download PDFInfo
- Publication number
- CN116245177B CN116245177B CN202310503276.0A CN202310503276A CN116245177B CN 116245177 B CN116245177 B CN 116245177B CN 202310503276 A CN202310503276 A CN 202310503276A CN 116245177 B CN116245177 B CN 116245177B
- Authority
- CN
- China
- Prior art keywords
- data
- entity
- extraction
- knowledge
- geographical environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 52
- 238000000605 extraction Methods 0.000 claims abstract description 113
- 238000002372 labelling Methods 0.000 claims abstract description 63
- 238000013135 deep learning Methods 0.000 claims abstract description 29
- 238000012216 screening Methods 0.000 claims abstract description 17
- 230000004927 fusion Effects 0.000 claims description 30
- 238000000034 method Methods 0.000 claims description 22
- 230000003993 interaction Effects 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 description 10
- 238000013136 deep learning model Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000009193 crawling Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种地理环境知识图谱自动化构建方法及系统、可读存储介质,地理环境知识图谱自动化构建方法包括:获取地理环境数据,地理环境数据包括结构化数据、半结构化数据和非结构化数据;通过主动学习算法对地理环境相关的非结构化文本进行筛选和标注,得到标注数据集;根据地理环境数据和标注数据集通过规则模板算法和深度学习算法进行知识抽取,得到实体数据,实体数据包括地理环境实体名称、实体属性和实体关系,知识抽取包括实体抽取、关系抽取和属性抽取;根据实体数据构建地理环境知识图谱。通过本申请的技术方案,采用主动学习算法完成待标注语料的筛选,提高了标注数据集的生成效率,降低专业领域文本的人力标注成本。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种地理环境知识图谱自动化构建方法及系统、可读存储介质。
背景技术
识抽取是地理环境知识图谱构建过程中的重要一环,这部分的功能是抽取文本中包含的地理实体和实体间关系,来组成知识图谱中的三元组。若要实现知识抽取自动化,则可以通过制定规则模板或监督学习的方法实现。规则模板的方法需要耗费人力成本请领域专家在浏览大量文本后制定对应的模板,可移植性较差且经常需要修改更新。监督学习的方法则是利用经标注的文本语料训练统计序列模型完成抽取,专业领域内文本语料有大量人力标注需求才能达到一定的准确率。
发明内容
本申请旨在解决或改善上述技术问题。
为此,本申请的第一目的在于提供一种地理环境知识图谱自动化构建方法。
本申请的第二目的在于提供一种地理环境知识图谱自动化构建系统。
本申请的第三目的在于提供一种地理环境知识图谱自动化构建系统。
本申请的第四目的在于提供一种可读存储介质。
为实现本申请的第一目的,本申请第一方面的技术方案提供了一种地理环境知识图谱自动化构建方法,包括:获取地理环境数据,地理环境数据包括结构化数据、半结构化数据和非结构化数据;通过主动学习算法对地理环境相关的非结构化文本进行筛选和标注,得到标注数据集;根据地理环境数据和标注数据集通过规则模板算法和深度学习算法进行知识抽取,得到实体数据,实体数据包括地理环境实体名称、实体属性和实体关系,知识抽取包括实体抽取、关系抽取和属性抽取;根据实体数据构建地理环境知识图谱。
根据本申请提供的地理环境知识图谱自动化构建方法,首先获取地理环境数据,地理环境数据包括结构化数据、半结构化数据和非结构化数据。然后通过主动学习算法对地理环境相关的非结构化文本进行筛选和标注,得到标注数据集,根据地理环境数据和标注数据集通过规则模板算法和深度学习算法进行知识抽取,得到地理环境实体名称、实体属性和实体关系。最后根据实体数据构建地理环境知识图谱。可以理解,采用主动学习算法完成待标注语料的筛选,能够生成用于训练深度学习模型的高质量的标注数据集,降低了专业领域文本的人力标注成本。基于深度学习算法对已有的地理环境数据进行实体识别和关系抽取,得到由实体与实体关系组成的多个三元组,其中,每个所述三元组中包括两个实体和所述两个实体之间的关系。基于三元组中实体与实体间关系能够构建地理环境知识图谱。
另外,本申请提供的技术方案还可以具有如下附加技术特征:
上述技术方案中,通过主动学习算法对地理环境相关的非结构化文本进行筛选和标注,得到标注数据集,具体包括:通过网络爬虫获取地理环境相关的非结构化文本;对非结构化文本的实体信息进行自动标注,得到训练数据集;通过训练数据集对序列标注模型进行训练,得出训练结果;通过不确定性采样算法对训练结果进行查询,得到待标注语料;通过人机交互模块引导用户对待标注语料进行标注,得到标注数据集。
在该技术方案中,通过主动学习算法对地理环境相关的非结构化文本进行筛选和标注,得到标注数据集,具体为通过网络爬虫获取地理环境相关的非结构化文本。对非结构化文本的实体信息进行自动标注,得到训练数据集。通过训练数据集对序列标注模型进行训练,得出训练结果。通过不确定性采样算法对训练结果进行查询,得到待标注语料。通过人机交互模块引导用户对待标注语料进行标注,得到标注数据集。具体地,利用爬取百科页面时实体信息的标签实现对非结构化文本中出现的实体信息的自动标注。将一定数量的非结构化文本自动标注形成训练数据集,用以训练序列标注模型。模型的预测结果经过不确定性采样算法查询,将模型中难以区分的样本数据提取出来,提供给专家或标注人员进行标注,从而获得较高质量的标注数据集,同时降低人工标注的成本,达到以较快速度提升知识抽取部分算法效果的能力。
上述技术方案中,根据地理环境数据和标注数据集通过规则模板算法和深度学习算法进行知识抽取,得到实体数据,具体包括:通过规则模板算法对半结构化数据进行解析,通过标签定位实体各类信息,得到实体数据。
在该技术方案中,半结构化数据送入知识抽取模块,规则模板算法解析半结构化数据中的网页元素,通过标签定位实体各类信息,从而完成实体名称抽取、实体属性值匹配以及与其他实体之间的关系抽取。
上述技术方案中,根据地理环境数据和标注数据集通过规则模板算法和深度学习算法进行知识抽取,得到实体数据,具体包括:通过正则表达式对非结构化数据进行知识抽取;根据标注数据集对序列标注模型进行训练;通过训练后的序列标注模型对地理环境数据进行实体识别和关系抽取,得到实体数据。
在该技术方案中,非结构化文本数据的知识抽取由规则模板算法和深度学习算法组合完成。基于百科类页面的文本的写作格式,规则模板算法中利用正则表达式从中抽取实体信息。深度学习算法负责利用标注数据集训练序列标注模型,完成对非结构化文本的批量自动识别抽取,得到实体各类信息。
上述技术方案中,根据实体数据构建地理环境知识图谱,具体包括:对实体数据进行知识融合,得到融合数据,知识融合包括实体对齐和属性值填充;根据融合数据构建地理环境知识图谱。
在该技术方案中,根据实体数据构建地理环境知识图谱,具体为首先对实体数据进行知识融合,得到融合数据,知识融合包括实体对齐和属性值填充。然后根据融合数据构建地理环境知识图谱。知识融合部分由实体对齐算法和属性值填充组成,负责将知识抽取得到的实体各类数据进行融合。知识融合包括同名实体的消岐合并以及实体对应属性信息填充。
上述技术方案中,实体对齐包括实体消岐合并。
在该技术方案中,实体对齐包括实体消岐合并。具体地,同数据源的实体结点在进行属性信息的补全,利用的是百科网页抽取的实体属性数据,对其应用表示学习获取实体名称的向量表示,匹配相似度较大的两个实体,将其属性信息进行合并。合并的过程中,百科网页抽取的实体属性数据、实体结点自身的标签属性这两个信息将作为主要的匹配手段。通过百科页面抽取到的地理实体属性信息,不仅可以补全不同数据源的实体属性信息并进行合并,还可以根据抽取到的一些地理属性信息,结合实体原有的地理属性信息或实体的标签进行同名实体的区分。在同名同标签的地理实体中还存在一类实体,虽然标签相同,但不是同一个实体,属于重名实体。这类实体在插入消歧的过程中算法利用额外的信息用作区分。
上述技术方案中,人机交互模块包括地理环境实体信息与标签。
在该技术方案中,人机交互模块由用户操作数据,提供标注功能界面。模块内容包含地理环境实体信息与标签。主要负责引导用户标注数据。在经不确定性采样算法查询提取出难以区分的自动标注样本后,人机交互模块引导用户匹配正确的实体信息和标签,从而增大高质量标注数据集的数量,提升知识抽取模块算法模型的抽取效果。
为实现本申请的第二目的,本申请第二方面的技术方案提供了一种地理环境知识图谱自动化构建系统,包括:获取模块,用于获取地理环境数据,地理环境数据包括结构化数据、半结构化数据和非结构化数据;数据增强模块,用于通过主动学习算法对地理环境相关的非结构化文本进行筛选和标注,得到标注数据集;知识抽取模块,用于根据地理环境数据和标注数据集通过规则模板算法和深度学习算法进行知识抽取,得到实体数据,实体数据包括地理环境实体名称、实体属性和实体关系,知识抽取包括实体抽取、关系抽取和属性抽取;构建模块,用于根据实体数据构建地理环境知识图谱。
根据本申请提供的地理环境知识图谱自动化构建系统,包括获取模块、数据增强模块、知识抽取模块和构建模块。其中,获取模块用于获取地理环境数据,地理环境数据包括结构化数据、半结构化数据和非结构化数据。数据增强模块用于通过主动学习算法对地理环境相关的非结构化文本进行筛选和标注,得到标注数据集。知识抽取模块用于根据地理环境数据和标注数据集通过规则模板算法和深度学习算法进行知识抽取,得到实体数据,实体数据包括地理环境实体名称、实体属性和实体关系,知识抽取包括实体抽取、关系抽取和属性抽取。构建模块用于根据实体数据构建地理环境知识图谱。可以理解,采用主动学习算法完成待标注语料的筛选,能够生成用于训练深度学习模型的高质量的标注数据集,降低了专业领域文本的人力标注成本。基于深度学习算法对已有的地理环境数据进行实体识别和关系抽取,得到由实体与实体关系组成的多个三元组,其中,每个所述三元组中包括两个实体和所述两个实体之间的关系。基于三元组中实体与实体间关系能够构建地理环境知识图谱。
为实现本申请的第三目的,本申请第三方面的技术方案提供了一种地理环境知识图谱自动化构建系统,包括:存储器和处理器,其中,存储器上存储有可在处理器上运行的程序或指令,处理器执行程序或指令时实现第一方面技术方案中任一项的地理环境知识图谱自动化构建方法,故而具有上述第一方面任一技术方案的技术效果,在此不再赘述。
为实现本申请的第四目的,本申请第四方面的技术方案提供了一种可读存储介质,其上存储有程序或指令,程序或指令被处理器执行时实现第一方面技术方案中任一项的地理环境知识图谱自动化构建方法的步骤,故而具有上述第一方面任一技术方案的技术效果,在此不再赘述。
本申请的附加方面和优点将在下面的描述部分中变得明显,或通过本申请的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请一个实施例的地理环境知识图谱自动化构建方法的步骤流程示意图;
图2为本申请一个实施例的地理环境知识图谱自动化构建方法的步骤流程示意图;
图3为本申请一个实施例的地理环境知识图谱自动化构建方法的步骤流程示意图;
图4为本申请一个实施例的地理环境知识图谱自动化构建方法的步骤流程示意图;
图5为本申请一个实施例的地理环境知识图谱自动化构建方法的步骤流程示意图;
图6为本申请一个实施例的地理环境知识图谱自动化构建系统的结构示意框图;
图7为本申请另一个实施例的地理环境知识图谱自动化构建系统的结构示意框图;
图8为本申请一个实施例的地理环境知识图谱自动化构建方法的步骤流程示意图。
其中,图6和图7中的附图标记与部件名称之间的对应关系为:
10:地理环境知识图谱自动化构建系统;110:获取模块;120:数据增强模块;130:知识抽取模块;140:构建模块;20:地理环境知识图谱自动化构建系统;300:存储器;400:处理器。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是,本申请还可以采用其他不同于在此描述的其他方式来实施,因此,本申请的保护范围并不受下面公开的具体实施例的限制。
下面参照图1至图8描述本申请一些实施例的地理环境知识图谱自动化构建方法及系统、可读存储介质。
如图1所示,本申请第一方面的实施例提供了一种地理环境知识图谱自动化构建方法,包括以下步骤:
步骤S102:获取地理环境数据,地理环境数据包括结构化数据、半结构化数据和非结构化数据;
步骤S104:通过主动学习算法对地理环境相关的非结构化文本进行筛选和标注,得到标注数据集;
步骤S106:根据地理环境数据和标注数据集通过规则模板算法和深度学习算法进行知识抽取,得到实体数据,实体数据包括地理环境实体名称、实体属性和实体关系,知识抽取包括实体抽取、关系抽取和属性抽取;
步骤S108:根据实体数据构建地理环境知识图谱。
根据本实施例提供的地理环境知识图谱自动化构建方法,首先获取地理环境数据,地理环境数据包括结构化数据、半结构化数据和非结构化数据。然后通过主动学习算法对地理环境相关的非结构化文本进行筛选和标注,得到标注数据集,根据地理环境数据和标注数据集通过规则模板算法和深度学习算法进行知识抽取,得到地理环境实体名称、实体属性和实体关系。最后根据实体数据构建地理环境知识图谱。可以理解,采用主动学习算法完成待标注语料的筛选,能够生成用于训练深度学习模型的高质量的标注数据集,降低了专业领域文本的人力标注成本。基于深度学习算法对已有的地理环境数据进行实体识别和关系抽取,得到由实体与实体关系组成的多个三元组,其中,每个所述三元组中包括两个实体和所述两个实体之间的关系。基于三元组中实体与实体间关系能够构建地理环境知识图谱。
如图2所示,根据本申请提出的一个实施例的地理环境知识图谱自动化构建方法,通过主动学习算法对地理环境相关的非结构化文本进行筛选和标注,得到标注数据集,具体包括以下步骤:
步骤S202:通过网络爬虫获取地理环境相关的非结构化文本;
步骤S204:对非结构化文本的实体信息进行自动标注,得到训练数据集;
步骤S206:通过训练数据集对序列标注模型进行训练,得出训练结果;
步骤S208:通过不确定性采样算法对训练结果进行查询,得到待标注语料;
步骤S210:通过人机交互模块引导用户对待标注语料进行标注,得到标注数据集。
在该实施例中,通过主动学习算法对地理环境相关的非结构化文本进行筛选和标注,得到标注数据集,具体为通过网络爬虫获取地理环境相关的非结构化文本。对非结构化文本的实体信息进行自动标注,得到训练数据集。通过训练数据集对序列标注模型进行训练,得出训练结果。通过不确定性采样算法对训练结果进行查询,得到待标注语料。通过人机交互模块引导用户对待标注语料进行标注,得到标注数据集。具体地,利用爬取百科页面时实体信息的标签实现对非结构化文本中出现的实体信息的自动标注。将一定数量的非结构化文本自动标注形成训练数据集,用以训练序列标注模型。模型的预测结果经过不确定性采样算法查询,将模型中难以区分的样本数据提取出来,提供给专家或标注人员进行标注,从而获得较高质量的标注数据集,同时降低人工标注的成本,达到以较快速度提升知识抽取部分算法效果的能力。
如图3所示,根据本申请提出的一个实施例的地理环境知识图谱自动化构建方法,根据地理环境数据和标注数据集通过规则模板算法和深度学习算法进行知识抽取,得到实体数据,具体包括以下步骤:
步骤S302:通过规则模板算法对半结构化数据进行解析,通过标签定位实体各类信息,得到实体数据。
在该实施例中,半结构化数据送入知识抽取模块,规则模板算法解析半结构化数据中的网页元素,通过标签定位实体各类信息,从而完成实体名称抽取、实体属性值匹配以及与其他实体之间的关系抽取。
如图4所示,根据本申请提出的一个实施例的地理环境知识图谱自动化构建方法,根据地理环境数据和标注数据集通过规则模板算法和深度学习算法进行知识抽取,得到实体数据,具体包括以下步骤:
步骤S402:通过正则表达式对非结构化数据进行知识抽取;
步骤S404:根据标注数据集对序列标注模型进行训练;
步骤S406:通过训练后的序列标注模型对地理环境数据进行实体识别和关系抽取,得到实体数据。
在该实施例中,非结构化文本数据的知识抽取由规则模板算法和深度学习算法组合完成。基于百科类页面的文本的写作格式,规则模板算法中利用正则表达式从中抽取实体信息。深度学习算法负责利用标注数据集训练序列标注模型,完成对非结构化文本的批量自动识别抽取,得到实体各类信息。
如图5所示,根据本申请提出的一个实施例的地理环境知识图谱自动化构建方法,根据实体数据构建地理环境知识图谱,具体包括以下步骤:
步骤S502:对实体数据进行知识融合,得到融合数据,知识融合包括实体对齐和属性值填充;
步骤S504:根据融合数据构建地理环境知识图谱。
在该实施例中,根据实体数据构建地理环境知识图谱,具体为首先对实体数据进行知识融合,得到融合数据,知识融合包括实体对齐和属性值填充。然后根据融合数据构建地理环境知识图谱。知识融合部分由实体对齐算法和属性值填充组成,负责将知识抽取得到的实体各类数据进行融合。知识融合包括同名实体的消岐合并以及实体对应属性信息填充。
具体地,同数据源的实体结点在进行属性信息的补全,利用的是百科网页抽取的实体属性数据,对其应用表示学习获取实体名称的向量表示,匹配相似度较大的两个实体,将其属性信息进行合并。合并的过程中,百科网页抽取的实体属性数据、实体结点自身的标签属性这两个信息将作为主要的匹配手段。通过百科页面抽取到的地理实体属性信息,不仅可以补全不同数据源的实体属性信息并进行合并,还可以根据抽取到的一些地理属性信息,结合实体原有的地理属性信息或实体的标签进行同名实体的区分。在同名同标签的地理实体中还存在一类实体,虽然标签相同,但不是同一个实体,属于重名实体。这类实体在插入消歧的过程中算法利用额外的信息用作区分。
在上述实施例中,人机交互模块由用户操作数据,提供标注功能界面。模块内容包含地理环境实体信息与标签。主要负责引导用户标注数据。在经不确定性采样算法查询提取出难以区分的自动标注样本后,人机交互模块引导用户匹配正确的实体信息和标签,从而增大高质量标注数据集的数量,提升知识抽取模块算法模型的抽取效果。
如图6所示,本申请第二方面的实施例提供了一种地理环境知识图谱自动化构建系统10,包括:获取模块110,用于获取地理环境数据,地理环境数据包括结构化数据、半结构化数据和非结构化数据;数据增强模块120,用于通过主动学习算法对地理环境相关的非结构化文本进行筛选和标注,得到标注数据集;知识抽取模块130,用于根据地理环境数据和标注数据集通过规则模板算法和深度学习算法进行知识抽取,得到实体数据,实体数据包括地理环境实体名称、实体属性和实体关系,知识抽取包括实体抽取、关系抽取和属性抽取;构建模块140,用于根据实体数据构建地理环境知识图谱。
根据本实施例提供的地理环境知识图谱自动化构建系统10,包括获取模块110、数据增强模块120、知识抽取模块130和构建模块140。其中,获取模块110用于获取地理环境数据,地理环境数据包括结构化数据、半结构化数据和非结构化数据。数据增强模块120用于通过主动学习算法对地理环境相关的非结构化文本进行筛选和标注,得到标注数据集。知识抽取模块130用于根据地理环境数据和标注数据集通过规则模板算法和深度学习算法进行知识抽取,得到实体数据,实体数据包括地理环境实体名称、实体属性和实体关系,知识抽取包括实体抽取、关系抽取和属性抽取。构建模块140用于根据实体数据构建地理环境知识图谱。可以理解,采用主动学习算法完成待标注语料的筛选,能够生成用于训练深度学习模型的高质量的标注数据集,降低了专业领域文本的人力标注成本。基于深度学习算法对已有的地理环境数据进行实体识别和关系抽取,得到由实体与实体关系组成的多个三元组,其中,每个所述三元组中包括两个实体和所述两个实体之间的关系。基于三元组中实体与实体间关系能够构建地理环境知识图谱。
如图7所示,本申请第三方面的实施例提供了一种地理环境知识图谱自动化构建系统20,包括:存储器300和处理器400,其中,存储器300上存储有可在处理器400上运行的程序或指令,处理器400执行程序或指令时实现第一方面的实施例中任一项的地理环境知识图谱自动化构建方法的步骤,故而具有上述第一方面任一实施例的技术效果,在此不再赘述。
本申请第四方面的实施例提供了一种可读存储介质,其上存储有程序或指令,程序或指令被处理器执行时实现第一方面的实施例中任一项的地理环境知识图谱自动化构建方法的步骤,故而具有上述第一方面任一实施例的技术效果,在此不再赘述。
如图8所示,根据本申请提供的一个具体实施例的地理环境知识图谱自动化构建方法,有几个主要构成,分别是知识抽取,数据增强,知识融合,UI模块。
具体地,知识抽取部分由实体抽取算法、关系抽取算法、属性抽取算法组成,抽取对象是经数据源爬取部分得到的不同种类文本数据,经知识抽取后得到地理环境实体、实体属性、实体关系等信息。知识抽取中的各算法由规则模板算法和深度学习算法组成。
半结构化数据送入知识抽取模块,规则模板算法解析半结构化数据中的网页元素,通过标签定位实体各类信息,从而完成实体名称抽取、实体属性值匹配以及与其他实体之间的关系抽取。非结构化文本数据的知识抽取由规则模板算法和深度学习算法组合完成。基于百科类页面的文本的写作格式,规则模板算法中利用正则表达式从中抽取实体信息。深度学习算法负责利用数据集训练序列标注模型,完成对非结构化文本的批量自动识别抽取,得到实体各类信息。
地理环境知识图谱中实体类别繁多且细致,导致知识抽取中用于训练深度学习模型的高质量数据集少、大批量人工标注成本高的问题。数据增强部分由主动学习算法构成,依附于知识抽取部分,主要负责解决上述问题,为知识抽取中深度学习算法模型提供数据集。当知识抽取得到足量的实体数据后,利用爬取百科页面时实体信息的标签实现对非结构化文本中出现的实体信息的自动标注。将一定数量的非结构化文本自动标注形成训练数据集,用以训练序列标注模型。模型的预测结果经过不确定性采样算法查询,将模型中难以区分的样本数据提取出来,提供给专家或标注人员进行标注,从而获得较高质量的标注数据集,同时降低人工标注的成本,达到以较快速度提升知识抽取部分算法效果的能力。
人机交互UI模块由用户操作数据,提供标注功能界面。模块内容包含地理环境实体信息与标签。主要负责引导用户标注数据。数据增强模块中经不确定性采样算法查询提取出难以区分的自动标注样本后,人机交互UI模块引导用户匹配正确的实体信息和标签,从而增大高质量标注数据集的数量,提升知识抽取模块算法模型的抽取效果。
知识融合部分由实体对齐算法和属性值填充组成,负责将知识抽取得到的实体各类数据进行融合。包括同名实体的消岐合并以及实体对应属性信息填充。
同数据源的实体结点在进行属性信息的补全,利用的是百科网页抽取的实体属性数据,对其应用表示学习获取实体名称的向量表示,匹配相似度较大的两个实体,将其属性信息进行合并。合并的过程中,百科网页抽取的实体属性数据、实体结点自身的标签属性这两个信息将作为主要的匹配手段。通过百科页面抽取到的地理实体属性信息,不仅可以补全不同数据源的实体属性信息并进行合并,还可以根据抽取到的一些地理属性信息,结合实体原有的地理属性信息或实体的标签进行同名实体的区分。在同名同标签的地理实体中还存在一类实体,虽然标签相同,但不是同一个实体,属于重名实体。这类实体在插入消歧的过程中算法利用额外的信息用作区分。
综上,本申请实施例的有益效果为:
1、主动学习算法完成待标注语料的筛选,能够生成用于训练深度学习模型的高质量的标注数据集,降低了专业领域文本的人力标注成本。
在本申请中,术语“第一”、“第二”、“第三”仅用于描述的目的,而不能理解为指示或暗示相对重要性;术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
本申请的描述中,需要理解的是,术语“上”、“下”、 “前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或模块必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本申请的限制。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种地理环境知识图谱自动化构建方法,其特征在于,包括:
获取地理环境数据,所述地理环境数据包括结构化数据、半结构化数据和非结构化数据;
通过主动学习算法对地理环境相关的非结构化文本进行筛选和标注,得到标注数据集;
根据所述地理环境数据和所述标注数据集通过规则模板算法和深度学习算法进行知识抽取,得到实体数据,所述实体数据包括地理环境实体名称、实体属性和实体关系,所述知识抽取包括实体抽取、关系抽取和属性抽取;
根据所述实体数据构建地理环境知识图谱;
其中,所述通过主动学习算法对地理环境相关的非结构化文本进行筛选和标注,得到标注数据集,具体包括:
通过网络爬虫获取地理环境相关的非结构化文本;
对所述非结构化文本的实体信息进行自动标注,得到训练数据集;
通过所述训练数据集对序列标注模型进行训练,得出训练结果;
通过不确定性采样算法对所述训练结果进行查询,得到待标注语料;
通过人机交互模块引导用户对所述待标注语料进行标注,得到标注数据集;
所述根据所述实体数据构建地理环境知识图谱,具体包括:
对所述实体数据进行知识融合,得到融合数据,所述知识融合包括实体对齐和属性值填充;
根据所述融合数据构建地理环境知识图谱;
利用百科网页抽取的实体属性数据,对其应用表示学习获取实体名称的向量表示;
通过百科网页抽取的实体属性数据、实体结点自身的标签属性作为主要的匹配手段,匹配相似度较大的两个实体,将其属性信息进行合并。
2.根据权利要求1所述的地理环境知识图谱自动化构建方法,其特征在于,所述根据所述地理环境数据和所述标注数据集通过规则模板算法和深度学习算法进行知识抽取,得到实体数据,具体包括:
通过规则模板算法对所述半结构化数据进行解析,通过标签定位实体各类信息,得到实体数据。
3.根据权利要求1所述的地理环境知识图谱自动化构建方法,其特征在于,所述根据所述地理环境数据和所述标注数据集通过规则模板算法和深度学习算法进行知识抽取,得到实体数据,具体包括:
通过正则表达式对所述非结构化数据进行知识抽取;
根据所述标注数据集对所述序列标注模型进行训练;
通过训练后的所述序列标注模型对所述地理环境数据进行实体识别和关系抽取,得到实体数据。
4.根据权利要求1所述的地理环境知识图谱自动化构建方法,其特征在于,所述实体对齐包括实体消岐合并。
5.根据权利要求1至4中任一项所述的地理环境知识图谱自动化构建方法,其特征在于,所述人机交互模块包括地理环境实体信息与标签。
6.一种地理环境知识图谱自动化构建系统,其特征在于,包括:
获取模块(110),用于获取地理环境数据,所述地理环境数据包括结构化数据、半结构化数据和非结构化数据;
数据增强模块(120),用于通过主动学习算法对地理环境相关的非结构化文本进行筛选和标注,得到标注数据集;
知识抽取模块(130),用于根据所述地理环境数据和所述标注数据集通过规则模板算法和深度学习算法进行知识抽取,得到实体数据,所述实体数据包括地理环境实体、实体属性和实体关系,所述知识抽取包括实体抽取、关系抽取和属性抽取;
构建模块(140),用于根据所述实体数据构建地理环境知识图谱;
其中,所述数据增强模块(120),具体用于:
通过网络爬虫获取地理环境相关的非结构化文本;
对所述非结构化文本的实体信息进行自动标注,得到训练数据集;
通过所述训练数据集对序列标注模型进行训练,得出训练结果;
通过不确定性采样算法对所述训练结果进行查询,得到待标注语料;
通过人机交互模块引导用户对所述待标注语料进行标注,得到标注数据集;
所述构建模块(140),具体用于:
对所述实体数据进行知识融合,得到融合数据,所述知识融合包括实体对齐和属性值填充;
根据所述融合数据构建地理环境知识图谱;
利用百科网页抽取的实体属性数据,对其应用表示学习获取实体名称的向量表示;
通过百科网页抽取的实体属性数据、实体结点自身的标签属性作为主要的匹配手段,匹配相似度较大的两个实体,将其属性信息进行合并。
7.一种地理环境知识图谱自动化构建系统,其特征在于,包括:
存储器(300)和处理器(400),其中,所述存储器(300)上存储有可在所述处理器(400)上运行的程序或指令,所述处理器(400)执行所述程序或所述指令时实现如权利要求1至5中任一项所述的地理环境知识图谱自动化构建方法的步骤。
8.一种可读存储介质,其上存储有程序或指令,其特征在于,所述程序或所述指令被处理器执行时实现如权利要求1至5中任一项所述的地理环境知识图谱自动化构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310503276.0A CN116245177B (zh) | 2023-05-06 | 2023-05-06 | 地理环境知识图谱自动化构建方法及系统、可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310503276.0A CN116245177B (zh) | 2023-05-06 | 2023-05-06 | 地理环境知识图谱自动化构建方法及系统、可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116245177A CN116245177A (zh) | 2023-06-09 |
CN116245177B true CN116245177B (zh) | 2023-08-11 |
Family
ID=86631632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310503276.0A Active CN116245177B (zh) | 2023-05-06 | 2023-05-06 | 地理环境知识图谱自动化构建方法及系统、可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116245177B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116737862A (zh) * | 2023-08-03 | 2023-09-12 | 航天宏图信息技术股份有限公司 | 基于事件图谱的地理变化信息的检测方法、装置和设备 |
CN117235249B (zh) * | 2023-09-26 | 2024-04-26 | 中山大学 | 一种基于知识与数据双驱动的智能创作方法与系统 |
CN118504679A (zh) * | 2024-07-12 | 2024-08-16 | 暗物智能科技(广州)有限公司 | 构建垂域知识图谱的方法及相关装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507136A (zh) * | 2020-12-18 | 2021-03-16 | 南京摄星智能科技有限公司 | 一种知识驱动的业务操作图谱构建方法 |
CN112948535A (zh) * | 2019-12-10 | 2021-06-11 | 复旦大学 | 一种文本的知识三元组抽取方法、装置及存储介质 |
US11048979B1 (en) * | 2018-11-23 | 2021-06-29 | Amazon Technologies, Inc. | Active learning loop-based data labeling service |
CN113722430A (zh) * | 2021-08-23 | 2021-11-30 | 北京工业大学 | 面向食品安全的多模态人机交互方法和系统、设备及介质 |
CN115269751A (zh) * | 2022-05-10 | 2022-11-01 | 泰瑞数创科技(北京)股份有限公司 | 地理实体时空知识图谱本体库构建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8010357B2 (en) * | 2004-03-02 | 2011-08-30 | At&T Intellectual Property Ii, L.P. | Combining active and semi-supervised learning for spoken language understanding |
-
2023
- 2023-05-06 CN CN202310503276.0A patent/CN116245177B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11048979B1 (en) * | 2018-11-23 | 2021-06-29 | Amazon Technologies, Inc. | Active learning loop-based data labeling service |
CN112948535A (zh) * | 2019-12-10 | 2021-06-11 | 复旦大学 | 一种文本的知识三元组抽取方法、装置及存储介质 |
CN112507136A (zh) * | 2020-12-18 | 2021-03-16 | 南京摄星智能科技有限公司 | 一种知识驱动的业务操作图谱构建方法 |
CN113722430A (zh) * | 2021-08-23 | 2021-11-30 | 北京工业大学 | 面向食品安全的多模态人机交互方法和系统、设备及介质 |
CN115269751A (zh) * | 2022-05-10 | 2022-11-01 | 泰瑞数创科技(北京)股份有限公司 | 地理实体时空知识图谱本体库构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116245177A (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116245177B (zh) | 地理环境知识图谱自动化构建方法及系统、可读存储介质 | |
CN107392143B (zh) | 一种基于svm文本分类的简历精确解析方法 | |
US11093698B2 (en) | Method and apparatus and computer device for automatic semantic annotation for an image | |
CN112149399B (zh) | 基于rpa及ai的表格信息抽取方法、装置、设备及介质 | |
CN103389895B (zh) | 一种前端页面的生成方法及系统 | |
CN107992476B (zh) | 面向句子级生物关系网络抽取的语料库生成方法及系统 | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
US20210012103A1 (en) | Systems and methods for information extraction from text documents with spatial context | |
CN110555205B (zh) | 否定语义识别方法及装置、电子设备、存储介质 | |
CN114547072A (zh) | 自然语言查询转换sql方法、系统、设备及存储介质 | |
CN111639178A (zh) | 生命科学文档的自动分类和解释 | |
CN111656453A (zh) | 用于信息提取的层次实体识别和语义建模框架 | |
CN114186533A (zh) | 模型训练方法及装置、知识抽取方法及装置、设备和介质 | |
CN114218333A (zh) | 一种地质知识图谱构建方法、装置、电子设备及存储介质 | |
CN117370578A (zh) | 一种基于多模态信息进行食品安全知识图谱补全的方法 | |
CN114911893A (zh) | 基于知识图谱的自动化构建知识库的方法及系统 | |
CN114491209A (zh) | 基于互联网信息抓取的企业业务标签挖掘的方法和系统 | |
CN115878818B (zh) | 一种地理知识图谱构建方法、装置、终端及存储介质 | |
CN117473054A (zh) | 基于知识图谱的通用智能问答方法及装置 | |
CN114398492B (zh) | 一种在数字领域的知识图谱构建方法、终端及介质 | |
CN115730603A (zh) | 基于人工智能的信息提取方法、装置、设备及存储介质 | |
CN106407271B (zh) | 一种智能客服系统及其智能客服知识库的更新方法 | |
CN114840657A (zh) | 一种基于混合模式的api知识图谱自适应构建及智能问答方法 | |
CN114661900A (zh) | 一种文本标注推荐方法、装置、设备及存储介质 | |
CN114154489A (zh) | 一种三元组抽取方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |