CN114860960A - 一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法 - Google Patents
一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法 Download PDFInfo
- Publication number
- CN114860960A CN114860960A CN202210807776.9A CN202210807776A CN114860960A CN 114860960 A CN114860960 A CN 114860960A CN 202210807776 A CN202210807776 A CN 202210807776A CN 114860960 A CN114860960 A CN 114860960A
- Authority
- CN
- China
- Prior art keywords
- word
- words
- preset
- disaster
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000005065 mining Methods 0.000 title claims abstract description 39
- 239000003607 modifier Substances 0.000 claims abstract description 58
- 238000012800 visualization Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000011218 segmentation Effects 0.000 claims description 23
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 11
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 239000002994 raw material Substances 0.000 description 28
- 238000010586 diagram Methods 0.000 description 18
- 238000000605 extraction Methods 0.000 description 10
- 239000000049 pigment Substances 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 239000013590 bulk material Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000012271 agricultural production Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A10/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
- Y02A10/40—Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,包括:对文本数据进行预处理,获得目标文本数据;根据预设语料库,确定目标文本数据中的有效单句;根据有效单句中的词语与有效单句中的核心动词之间的相关关系和预设灾害事件模板,提取有效单句中的中心词;根据提取的中心词,提取中心词的子节点中符合词性要求的修饰词;根据预设洪涝型灾害事件模板,将提取的中心词和修饰词存储至预设洪涝型灾害事件模板的数据库中;将事件库和关系库中的数据导入图数据库,构建洪涝型灾害事件可视化知识图谱。旨在全面专业地构建洪涝型Natech灾害事件可视化知识图谱。
Description
技术领域
本发明涉及灾害应急处理技术领域,特别是涉及一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法。
背景技术
Natech灾害事件是指由自然灾害诱发的技术灾害,广义上包括所有由自然灾害引发基础设施受到破坏的灾害。其影响往往具有链状的多米诺骨牌效应,给人类社会和经济发展造成巨大的损失。在国内,由洪涝引起或与洪涝相关的Natech灾害事件尤其具有破坏性。这一链状影响效应具有一定的特征规律,因此洪涝型Natech灾害事件发生和发展机制的研究对灾害防控意义重大。
而近几年随着信息化和大数据时代的到来,互联网上存在大量记录灾害的发生及影响的报道和描述,可以作为实时灾害监测和研究灾害影响机制的重要数据来源。而现有的文本挖掘手段缺乏高效的数据抽取和关系可视化方法,难以支撑大数据量的Natech灾害事件。
发明内容
有鉴于此,本发明提供一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,旨在自动高效地对大数据量进行处理,同时更加全面专业地构建Natech灾害事件知识图谱。
本发明提供了一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,该方法包括:
对文本数据进行预处理,获得目标文本数据;
根据预设语料库,确定所述目标文本数据中的有效单句,所述预设语料库中包括触发词和非关键词;
根据所述有效单句中的词语与所述有效单句中的核心动词之间的相关关系和预设灾害事件模板,提取所述有效单句中的中心词;
根据提取的所述中心词,提取所述中心词的子节点中符合词性要求的修饰词;
根据所述预设灾害事件模板,将提取的所述中心词和所述修饰词存储至所述预设灾害事件模板的数据库中,所述数据库包括事件库和关系库;
将事件库和关系库中的数据导入图数据库,构建洪涝型Natech灾害事件可视化知识图谱。
可选地,所述预设语料库的构建,包括:
根据基础文本数据中的各个句子涵盖的灾害事件的信息量,对所述各个句子进行分级;
根据所述各个句子的等级,对所述各个句子进行赋值,获得经过赋值的各个句子;
根据词语在各个句子中的频次和各个句子的等级分值,确定该词语的权重值;
根据词语的权重取值,将满足第一预设条件的词语存储至语料库的非关键词词典中,将满足第二预设条件的词语和该词语的权重值存储至语料库的触发词词典中,以及将Natech灾害事件专有名词词典和灾害等级指示词存储至语料库的对应词典类别中,获得预设语料库。
可选地,所述根据预设语料库,确定所述目标文本数据中的有效单句,包括:
根据预设语料库,确定所述目标文本数据中的各个单句是否包含所述预设语料库中的触发词;
将包含所述预设语料库中的触发词的单句确定为有效单句。
可选地,所述根据所述有效单句中的词语与所述有效单句中的核心动词之间的相关关系和预设灾害事件模板,提取所述有效单句中的中心词,包括:
通过预设算法,确定所述有效单句中的核心动词;
根据所述有效单句中的各个词语的词性、位置,以及所述各个词语分别与所述核心动词之间的依存距离,从所述有效单句中提取所述预设灾害事件模板中各个类别的中心词。
可选地,所述根据所述有效单句中的各个词语的词性、位置,以及所述各个词语分别与所述核心动词之间的依存距离,从所述有效单句中提取所述预设灾害事件模板中各个类别的中心词,包括:
通过句法分析,对所述有效单句中的所有词语进行打分,获得所有词语分别与所述核心动词之间的依存距离评分;
遍历所述预设语料库,在词语属于所述预设语料库中的触发词时,将该词语的依存距离评分除以该词语在所述预设语料库中对应的权重值,获得该词语对应的目标依存距离评分;在词语属于所述预设语料库中的非关键词时,排除该词语;在词语不属于所述预设语料库中的非关键词和触发词时,将该词语的依存距离评分确定为该词语的目标依存距离评分;
从具有目标依存距离评分的词语中提取词性和位置均符合所述预设灾害事件模板中的关键实体信息要求,且目标依存距离评分最低的词语,作为关键实体信息的中心词,以及,从具有目标依存距离评分的词语中提取词性和位置均符合所述预设灾害事件模板中的时空信息要求的词语,且目标依存距离评分最低的词语,作为时空信息的中心词。
可选地,所述根据提取的所述中心词,提取所述中心词的子节点中符合词性要求的修饰词,包括:
根据所述有效单句中词语间的依存关系,通过句法分析算法构建对应的句法树;
提取所述句法树中符合所述中心词的词性要求的修饰词。
可选地,所述根据所述预设灾害事件模板,将提取的所述中心词和所述修饰词存储至所述预设灾害事件模板的数据库中,包括:
将所述中心词和所述中心词的修饰词按照序列距离进行排序,获得长组合词组;
根据所述长组合词组中的关键实体信息、时间指示词和地点指示词,将所述长组合词组中的关键实体信息按照词性拆分为实体描述词和属性描述词,以及,将所述长组合词组中的时间信息按照时间指示词进行分词,以及,将所述长组合词组中的空间信息按照地点指示词进行分词,获得分词结果;
根据所述有效单句中的各个动词,构建关键实体信息之间的关系和关键实体信息与时空信息之间的关系;
对分词结果中的时空信息进行标准化处理;
将构建的关键实体信息之间的关系存储至预设灾害事件模板的关系库中,以及,将分词结果、关键实体信息与时空信息之间的关系和时空信息的标准化处理结果存储至预设灾害事件模板的事件库中。
可选地,所述将事件库和关系库中的数据导入图数据库,构建Natech灾害事件可视化知识图谱,包括:
将事件库和关系库中的数据导入图数据库;
在图数据库中,将事件库中的关键实体信息对应的灾害事件和承灾体各自的名称作为主键创建节点,将事件库中的时空信息中的时间标准化结果作为主键创建节点,以及,将事件库中的时空信息中的空间信息标准化结果作为主键创建节点;
在图数据库中,通过关系库中关键实体信息之间的关系和关键实体信息与时空信息之间的关系创建连接各个节点的边。
可选地,所述方法还包括:
获取所述文本数据的文本来源元数据;
根据所述文本来源元数据,提取所述文本来源元数据中与时空信息相关的中心词。
可选地,所述方法还包括:确定提取的所有中心词中是否存在多个相同的重复中心词;
在提取的所有中心词中包括多个相同的重复中心词时,根据预设规则,保留所述多个相同的重复中心词中的一个。
针对在先技术,本发明具备如下优点:
本发明提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,通过从文本信息中抽取Natech灾害事件的类型、规模、承灾体受影响程度等信息,并根据Natech灾害事件影响的直接逻辑联系与时空重叠关系构建表达Natech灾害事件影响的知识图谱,使得构建出全面专业的Natech灾害事件知识图谱,同时实现了以知识进行驱动的Natech灾害事件信息抽取-知识图谱构建的全自动化流程,能够支持高效的大数据量处理。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法的流程图;
图2是本发明实施例提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法中的预设语料库的示意图;
图3是本发明实施例提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法中的知识图谱概念模型的示意图;
图4是本发明实施例提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法中的一个有效单句的评分示意图;
图5是本发明实施例提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法中的一个有效单句的句法树示意图;
图6是本发明实施例提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法中的事件库的示意图;
图7是本发明实施例提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法中的关系库的示意图;
图8是本发明实施例提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法中的一示例中的事件库的填写结果示意图;
图9是本发明实施例提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法中的一示例中的关系库的填写结果示意图;
图10是本发明实施例提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法中的提取流程示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整地传达给本领域的技术人员。
图1是本发明实施例提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法的流程图,如图1所示,该方法包括:
步骤S101:对文本数据进行预处理,获得目标文本数据;
步骤S102:根据预设语料库,确定所述目标文本数据中的有效单句,所述预设语料库中包括触发词和非关键词;
步骤S103:根据所述有效单句中的词语与所述有效单句中的核心动词之间的相关关系和预设灾害事件模板,提取所述有效单句中的中心词;
步骤S104:根据提取的所述中心词,提取所述中心词的子节点中符合词性要求的修饰词;
步骤S105:根据所述预设灾害事件模板,将提取的所述中心词和所述修饰词存储至所述预设灾害事件模板的数据库中,所述数据库包括事件库和关系库;
步骤S106:将事件库和关系库中的数据导入图数据库,构建Natech灾害事件可视化知识图谱。
在本申请的步骤S101之前,需要具有一个预先构建的预设语料库和具有一个预先构建的预设灾害事件模板。
在本申请中,所述预设语料库的构建,包括:根据基础文本数据中的各个句子涵盖的灾害事件的信息量,对所述各个句子进行分级;根据所述各个句子的等级,对所述各个句子进行赋值,获得经过赋值的各个句子;根据词语在各个句子中的频次和各个句子的等级分值,确定该词语的权重值;根据词语的权重取值,将满足第一预设条件的词语存储至语料库的非关键词词典中,将满足第二预设条件的词语和该词语的权重值存储至语料库的触发词词典中,以及将Natech灾害事件专有名词词典和灾害等级指示词存储至语料库的对应词典类别中,获得预设语料库。
在本实施例中,图2是本发明实施例提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法中的预设语料库的示意图。参照图2,基础文本数据指的是涉及洪涝灾害及其影响的气候公报、相关的文章和相关报道文字,基础文本数据将用于构建预设语料库。获取到涉及洪涝灾害及其影响的气候公报、相关的文章和相关报道文字的预设数量的基础文本数据,其中一篇气候公报,一篇相关的文章,一篇相关报道文字分别称之为一份基础文本数据。
根据句子中所涵盖的灾害事件的信息量,通过人工标注的方式对该预设数量的基础文本数据中的各个句子进行分级。按照句子的等级,对句子进行赋值,句子的等级与等级分值具有一一对应关系,在人工标注出一个句子的具体等级后,该句子的等级分值也就唯一确定。根据一个词语在该预设数量的基础文本数据中的各个句子内出现的频次和各个句子的等级分值,确定该词语的权重值。
其中,句子中所涵盖的灾害事件的信息量表征句子与Natech灾害事件的相关程度。例如,在句子包含有明确的Natech灾害事件时,句子中所涵盖的灾害事件的信息量多;在句子没有包含明确的灾害事件(也就是包括概述性语句、总结性语句等的非具体事件),但有较为明确的灾害词表述时,句子中所涵盖的灾害事件的信息量较少;在句子完全没有提及与Natech灾害事件相关的信息时,句子中所涵盖的灾害事件的信息量很少。
在本实施例中,句子的等级数量可以根据实际应用进行设定。根据句子中所涵盖的灾害事件的信息量,可以将句子划分为3种等级,也可以将句子划分为4种等级或5种等级或更多种等级,在此不做具体限定。应当理解的是,句子的等级数量将远小于预设数量的基础文本数据中所包括的句子数量,因此,预设数量的基础文本数据中将存在多个等级相同的句子。
具体地,针对词语的权重值,具体计算公式为:
其中,tf (ti,Dk )表示词语ti在句子Dk中出现的频次;ADn是通过人工标注的方式在得到句子Dn的等级后,得到的句子Dn的等级分值;K (ti )即为词语ti的权重。
在确定每个词语的权重值后,根据词语的权重值,确定该词语所属于的词语类型。将满足第一预设条件的词语存储至语料库的非关键词词典中,将满足第二预设条件的词语和该词语的权重值存储至语料库的触发词词典中。
在语料库中补充Natech灾害事件专有名词词典(例如台风名称、较为少见的灾害名称等)、灾害等级指示词词典(例如“等级”“强度”“规模”等)等。
在将预设数量的基础文本数据中的所有满足相应预设条件的词语存储至语料库的对应词典中,以及将补充的Natech灾害事件专有名词词典和灾害等级指示词词典存储至语料库中后,获得预设语料库。
具体地,根据词语的权重值划定低分临界线和高分临界线,对于低于低分临界线的词语存储至语料库的非关键词词典中,对于高于高分临界线的词语和该词语对应的权重值存储至语料库的触发词词典中。
在本实施例中,低分临界线和高分临界线的具体取值将基于预设数量的基础文本数据中的所有词语的权重值进行确定,其具体取值在此不做具体限定。
示例地,在基础文本数据中的句子包含有明确的Natech灾害事件时,例如:“2017年6月中下旬,随着副热带高压逐渐西伸加强,我市北部出现强降雨天气,局部路段有积水。”,将该句子标记为1级;在基础文本数据中的句子没有包含明确的灾害事件(也就是包括概述性语句、总结性语句等的非具体事件),但有较为明确的灾害词表述时,例如:“全年主要气候事件有:超强厄尔尼诺开启“暴力梅”,长江流域洪涝严重,......”,将该句子标记为2级;在基础文本数据中的句子完全没有提及与Natech灾害事件相关的信息时,例如:“气温、降水和日照时数资料使用安徽省77个国家级气象站(高山站除外),来自安徽省气象信息中心整编资料,日值统计时段为前一日20时至当日20时。”,将该句子标记为3级。
在完成对预设数量的基础文本数据中的所有句子的等级划分后,为不同等级的句子进行赋值,从高到低依次赋予分值,为1级的句子赋值AD1、为2级的句子赋值AD2、为3级的句子赋值AD3。
赋值的具体要求为AD1为接近0的正值,AD2为大小介于AD1和AD3之间的值,AD3的值为略大于1的数值。在本实施例中,示例性地赋值为:AD1=0.3,AD2=0.8,AD3=1.2。
统计人工标注的预设数量的基础文本数据中各个词语的词频,结合赋值结果,计算每个词语的权重值,具体公式为:
其中tf (ti,Dk )表示词语ti在句子Dk中出现的频次,AD1、AD2、AD3是上一步得到的各个句子各自的等级分值;K (ti )即为词语ti的权重值。
对于权重值低于低分临界线的词语存储到语料库的非关键词中,例如“是”“的”“记载”“报道”“气象站”等。对于权重值高于高分临界线(临界值必须大于1)的词语存储到语料库的触发词中,例如“受灾”“损失”“袭击”“停运”等,并将词语对应的权重值也记录在语料库中,词语与自身的权重值具有一一对应关系。
在本实施例中,基础文本数据的预设数量可根据实际应用进行取值,在此不做具体限定。图2中所示的预设语料库中只是示例性地列举出了各种类型词语的部分,并不作为对预设语料库中的各种类型词语的限制。
在本实施例中,图3是本发明实施例提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法中的知识图谱概念模型的示意图。参照图3,为了实现全面专业地构建Natech灾害事件可视化知识图谱,设计针对Natech灾害事件的知识图谱概念模型。
整个知识图谱概念模型分为本体层、实体层和时空层三层。
下面以气象灾害报道中的一段文本内容为例,说明知识图谱概念模型各层之间的关系。文本内容如下:“造成直接经济损失最大的台风发生于2020年8月11日,福建省漳州市龙海市颜厝镇长边工业区被淹,大批原材料受潮。内涝积水导致线路供电受到影响,冷库温度达不到标准,对其食品出口产生了一定程度的影响”。
其中,本体层为概念层,从逻辑上对实体层的关系规则进行限定,分为技术灾害和承灾体类别,以及自然灾害类别。本体层与实体层之间由自然灾害与技术灾害和承灾体的隶属关系相连接。
实体层则基于本体层进行创建,受到本体层中的关系规则的限定。例如,对于实体层中属于技术灾害和承灾体类别中的“农业生产”事件,是由属于自然灾害类别中的“洪涝灾害”事件所导致的,实体层中的“洪涝灾害”与“农业生产”之间的传导关系,受到本体层中自然灾害类别事件将导致技术灾害和承灾体类别事件的传导方向的限制。
例如,“工业区被淹”事件属于“洪涝灾害”,“洪涝灾害”的上层为“自然灾害”;“大批原材料受潮”事件属于“财产损失”,“财产损失”的上层为“技术灾害或承灾体”。从概念层面上看,“洪涝灾害”能够导致“财产损失”,但“财产损失”不能造成“洪涝灾害”,故对实体层中事件实例之间的传导关系进行了限定,“工业区被淹”会引发“大批原材料受潮”,该传导方向不能反转。
时空层则从时空重叠的角度对实体层进行限定。
实体层与时空层由事件实例发生和演变的时刻状态序列和所属地点相连接。
例如,“工业区被淹”事件发生时间为“2020年8月11日”,故与时空层的对应时间节点连接;发生地点为“福建省漳州市龙海市”,故与时空层的对应地点节点连接。时间层将实体层中的“工业区被淹”事件,限定在发生于“2020年8月11日”的“福建省漳州市龙海市”。
基于该知识图谱概念模型,创建预设灾害事件模板,用于作为Natech灾害事件知识图谱的基础。该预设灾害事件模板中包括关键实体信息、核心动词和时空信息,其中时空信息包括时间信息和空间信息两种。预设灾害事件模板中的关键实体信息包括关键实体的主体信息和关键实体的客体信息。关键实体信息的中心词也就是关键实体的主体信息的中心词和关键实体的客体信息的中心词。关键实体的主体信息由对应的中心词和修饰词构成,关键实体的客体信息由对应的中心词和修饰词构成。关键实体的主体信息和关键实体的客体信息均将表示为实体描述词,其中修饰词也均将表示为属性描述词。
在本实施例中,文本数据指的是涉及洪涝灾害及其影响的气候公报、相关的文章和相关报道文字,该文本数据将用于构建Natech灾害事件可视化知识图谱。对获取到的涉及洪涝灾害及其影响的文本数据进行拆分单句的预处理,也就是将文本数据拆分为一个个单独的句子。
同时,由于文本数据中的部分字符和空格等与灾害事件并无关系,这些信息在文本数据中并不会对后续的Natech灾害事件知识图谱的构建起到任何作用,同时还可能导致后续的Natech灾害事件知识图谱的构建不够准确。因此,对获取到的文本数据进行预处理还可以包括删除无效字符和空格等处理。应当理解的是,后文提到的文本数据均指涉及洪涝灾害及其影响的文本数据。
涉及洪涝灾害及其影响的文本数据在经过预处理后,获得目标文本数据,其中目标文本数据即为文本数据在经过单句拆分后获得的由大量单句组成的文本数据。
在获得由大量单句组成的目标文本数据后,根据预先创建的预设语料库,从该目标文本数据中的大量单句中确定出与Natech灾害事件相关的有效单句。从一个目标文本数据中确定出的有效单句至少包括一个。
为了更加清晰地说明本申请,下面以目标文本数据中的一个有效单句进行说明。
针对有效单句,根据该有效单句中各个词语与该有效单句中的与Natech灾害事件直接相关的核心动词之间的相关关系,按照预先创建的预设灾害事件模板中所具有的参数类别,从该有效单句中提取出其中与Natech灾害事件相关的多个中心词,该多个中心词分别与预设灾害事件模板中所具有的参数类别一一对应,包括关键实体信息的中心词,时间信息的中心词,空间信息的中心词。
由于中心词只是提取的一个核心词语,并无法构建完整的Natech灾害事件知识图谱,需要对中心词进行完善。而为了完善对中心词的描述,在从有效单句中提取出其中的各个中心词后,进一步提取出各个中心词各自对应的修饰词,以对各个中心词进行完善。
具体地,根据从该有效单句中提取的各个中心词,确定到各个中心词的各自的所有子节点。
以其中一个中心词为例,针对该中心词,根据该中心词所对应的预设灾害事件模板中的参数类别,从该中心词中的所有子节点中提取出符合该参数类别的词性要求的修饰词,作为该中心词的修饰词。而对于有效单句中的其他中心词的修饰词的提取与上述中心词的修饰词的提取实施方式相同,在此不再赘述。
在从该目标文本数据中的所有有效单句中确定出所有的中心词和各个中心词各自对应的修饰词后,根据预先创建的预设灾害事件模板,将提取的中心词和中心词对应的修饰词存储到该预设灾害事件模板对应的事件库和关系库中。
由于预设灾害事件模板对应的事件库和关系库中只是存储的事件,以及事件之间的关系,直接根据事件库和关系库中所存储的中心词和修饰词,无法构建Natech灾害事件知识图谱。需要将事件库和关系库中存储的内容导入到图数据库中,系统将根据图数据库中的事件和事件与事件之间的关系,构建Natech灾害事件可视化知识图谱。
本发明提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,通过从文本信息中抽取Natech灾害事件的类型、规模、承灾体受影响程度等信息,并根据Natech灾害事件影响的直接逻辑联系与时空重叠关系构建表达Natech灾害事件影响的知识图谱,使得构建出全面专业的Natech灾害事件知识图谱,同时实现了知识驱动的Natech灾害事件信息抽取-知识图谱构建的全自动化流程,能够支持高效的大数据量处理。
在本申请中,所述根据预设语料库,确定所述目标文本数据中的有效单句,包括:根据预设语料库,确定所述目标文本数据中的各个单句是否包含所述预设语料库中的触发词;将包含所述预设语料库中的触发词的单句确定为有效单句。
在本实施例中,在获得由大量单句组成的目标文本数据后,通过分词处理,将每个单句拆分为一个个词语。将每个单句的分词结果依次与预设语料库的触发词词典中的触发词进行对比,确定各个单句中是否包括预设语料库中的触发词。在单句中包括预设语料库中的触发词时,将该单句确定为有效单句。由此确定出目标文本数据中包括触发词的所有有效单句。
示例地,对句子“造成直接经济损失最大的台风发生于2020年8月11日,福建省漳州市龙海市颜厝镇长边工业区被淹,大批原材料受潮。”进行分词处理,获得分词结果“造成/直接/经济损失/最大/的/台风/发生/于/2020年/8月/11日,福建省/漳州市/龙海市/颜厝镇长边/工业区/被淹/,/大批/原材料/受潮/。/”。将该分词结果中的每个词语依次与预设语料库的触发词词典中的触发词进行对比,找到其中的“造成”“发生”“被淹”“受潮”属于预设语料库的触发词词典中的触发词,因此将上述句子确定为有效单句。
在本申请中,所述根据所述有效单句中的词语与所述有效单句中的核心动词之间的相关关系和预设灾害事件模板,提取所述有效单句中的中心词,包括:通过预设算法,确定所述有效单句中的核心动词;根据所述有效单句中的各个词语的词性、位置,以及所述各个词语分别与所述核心动词之间的依存距离,从所述有效单句中提取所述预设灾害事件模板中各个类别的中心词。
在本实施例中,在确定出目标文本数据中包括触发词的所有有效单句后,通过将每个有效单句分别输入到HanLP模型中进行计算,该HanLP模型将输出每个有效单句中的核心动词。HanLP模型算法即为预设算法。
在确定出有效单句中的核心动词后,根据有效单句中每个词语的词性和每个词语与各个动词之间的相对位置关系,以及有效单句中每个词语与该有效单句中的核心动词之间的依存距离,从所述有效单句中提取所述预设灾害事件模板中各个类别的中心词。
在本申请中,所述根据所述有效单句中的各个词语的词性、位置,以及所述各个词语分别与所述核心动词之间的依存距离,从所述有效单句中提取所述预设灾害事件模板中各个类别的中心词,包括:通过句法分析,对所述有效单句中的所有词语进行打分,获得所有词语分别与所述核心动词之间的依存距离评分;遍历所述预设语料库,在词语属于所述预设语料库中的触发词时,将该词语的依存距离评分除以该词语在所述预设语料库中对应的权重值,获得该词语对应的目标依存距离评分;在词语属于所述预设语料库中的非关键词时,排除该词语;在词语不属于所述预设语料库中的非关键词和触发词时,将该词语的依存距离评分确定为该词语的目标依存距离评分;从具有目标依存距离评分的词语中提取词性和位置均符合所述预设灾害事件模板中的关键实体信息要求,且目标依存距离评分最低的词语,作为关键实体信息的中心词,以及,从具有目标依存距离评分的词语中提取词性和位置均符合所述预设灾害事件模板中的时空信息要求的词语,且目标依存距离评分最低的词语,作为时空信息的中心词。
在本实施例中,由于有效单句已经在上一步骤中进行了分词处理,获得了对应的分词结果。直接通过句法分析,对有效单句中的每个词语与该有效单句中的核心动词之间的序列距离和依存距离分别进行打分,由此获得有效单句中的每个词语分别与该有效单句中的核心动词的依存距离评分。
由于在有效单句中的词语为触发词时,该词语与Natech灾害事件的相关性将更高,对于这类词语将符合预设灾害事件模板中的中心词。
因此,在根据依存距离评分确定词语是否将被提取为中心词时,这类词语被优先考虑,将使得最终获得的中心词的准确性将更高。
因此,在获得有效单句中的各个词语分别与该有效单句中的核心动词的依存距离评分后,遍历预设语料库,将每个词语与预设语料库的触发词词典中的触发词进行对比。
在确定词语属于预设语料库中的触发词时,将该词语的依存距离评分除以该词语在预设语料库中对应的权重值,获得该词语对应的目标依存距离评分,由此将降低该词语的依存距离评分,使得后续确定中心词时,该词语将更有利。在确定词语属于预设语料库中的非关键词时,该词语与Natech灾害事件并无关联,排除该词语。在确定词语既不属于预设语料库中的触发词,又不属于非关键词时,该词语与Natech灾害事件具有关联,但关联不大,直接将该词语的依存距离评分确定为该词语的目标依存距离评分。
将有效单句中的具有目标依存距离评分的词语按照目标依存距离评分的高低进行排序。将词性和位置均符合预设灾害事件模板中的关键实体信息要求,同时其目标依存距离评分最低的词语确定为关键实体信息的中心词。将词性和位置均符合预设灾害事件模板中的时间信息要求,同时其目标依存距离评分最低的词语确定为时间信息的中心词。将词性和位置均符合预设灾害事件模板中的空间信息要求,同时其目标依存距离评分最低的词语确定为空间信息的中心词。
具体地,对经过分词处理的有效单句中的词语进行遍历,在出现动词时,则抽取与该动词对应的关键实体的主体信息的中心词和关键实体的客体信息的中心词。
其中,动词对应的关键实体的主体信息的中心词的提取条件为:词性符合关键实体的词性、在该动词位置之前区域范围内目标依存距离评分最小的词语。
动词对应的关键实体的客体信息的中心词的提取条件为:词性符合关键实体的词性、在该动词位置之后区域范围内目标依存距离评分最小的词语。
示例地,以经过分词处理的有效单句“造成/直接/经济损失/最大/的/台风/发生/于/2020年/8月/11日,福建省/漳州市/龙海市/颜厝镇长边/工业区/被淹/,/大批/原材料/受潮/。/”为例。图4是本发明实施例提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法中的一个有效单句的评分示意图。参照图4,图4示出了计算获得的上述有效单句中的各个词语的目标依存距离评分。图4中的LEMMA为原词,POSTAG为词性;DEPREL为各词与句中核心动词(上述示例中为“造成”)之间的关系;SQD为各词与核心动词之间的语序距离;DED为依存距离;DIS为根据1:10的权重结合了语序距离的综合依存距离,相较于前两者距离将更加客观、综合地衡量了每个词与核心动词间的距离,在提取中心词的任务中具有更佳的效果;WEIGHT为对应词语在预设语料库中的权重,如果有则记录具体数字,如果无则为空;SCORE为DIS除以WEIGHT的结果,其中,如果WEIGHT=0则SCORE为0,如果WEIGHT为空则SCORE为DIS值(相当于WEIGHT=1),SCORE也就是最终的目标依存距离评分。其中,上述中各个参数的定义和计算的基础是应用的NLP模型。
通过遍历上述示例中的有效单句,在识别到有效单句中的动词“造成”时,确定该词语位置的前面文字部分,由于该“造成”动词前面文字部分无实体,故不更新对应的关键实体的主体信息,此处的关键实体的主体信息为空;确定该词语位置的后面文字部分,由于该“造成”动词后面文字部分具有实体,从该“造成”动词后面文字部分中确定出词性符合实体词性的实体,包括“台风”、“工业区”、“原材料”,而其中的“台风”是目标依存距离评分最小的,因此将“台风”确定为该“造成”动词对应的关键实体的客体信息,在预设灾害事件模板的关系库中的“造成”动词项中的关键实体的客体信息填写为“台风”。关键实体的主体信息和关键实体的客体信息均称为关键实体信息,得到的属于关键实体信息的词语称之为关键实体信息的中心词。
在识别到有效单句中的动词“发生”时,确定该词语位置的前面文字部分,由于该“发生”动词前面文字部分具有实体,从该“发生”动词前面文字部分中确定出词性符合实体词性的实体,同时由于只有实体“台风”,此时直接将“台风”确定为动词“发生”对应的关键实体的主体信息,在预设灾害事件模板的关系库中的“发生”动词项中的关键实体的客体信息填写为“台风”;确定该词语位置的后面文字部分,由于该“发生”动词后面文字部分具有实体,从该“发生”动词后面文字部分中确定出词性符合实体词性的实体,包括“工业区”、“原材料”,而其中的“工业区”是目标依存距离评分最小的,因此将“工业区”确定为该“发生”动词对应的关键实体的客体信息,在预设灾害事件模板的关系库中的“发生”动词项中的关键实体的客体信息填写为“工业区”。
在识别到有效单句中的动词“被淹”时,确定该词语位置的前面文字部分,由于该“被淹”动词前面文字部分具有实体,从该“被淹”动词前面文字部分中确定出词性符合实体词性的实体,包括“台风”和“工业区”,其中“台风”的目标依存距离评分最低,此时将“台风”确定为动词“被淹”对应的关键实体的主体信息,在预设灾害事件模板的关系库中的“被淹”动词项中的关键实体的客体信息填写为“台风”;确定该词语位置的后面文字部分,由于该“被淹”动词后面文字部分具有实体,从该“被淹”动词后面文字部分中确定出词性符合实体词性的实体,包括“原材料”,而其中的“原材料”是目标依存距离评分最小的,因此将“原材料”确定为该“被淹”动词对应的关键实体的客体信息,在预设灾害事件模板的关系库中的“被淹”动词项中的关键实体的客体信息填写为“原材料”。
在识别到有效单句中的动词“受潮”时,确定该词语位置的前面文字部分,由于该“受潮”动词前面文字部分具有实体,从该“受潮”动词前面文字部分中确定出词性符合实体词性的实体,包括“台风”、“工业区”、“原材料”,其中“台风”的目标依存距离评分最低,此时将“台风”确定为动词“受潮”对应的关键实体的主体信息,在预设灾害事件模板的关系库中的“受潮”动词项中的关键实体的客体信息填写为“台风”;确定该词语位置的后面文字部分,由于该“受潮”动词后面文字部分无实体,此处的关键实体的客体信息为空。
遍历上述示例中的有效单句,从中确定出符合时间词性的“2020年”、“8月”、“11日”,其中“11日”的目标依存距离评分最低,将“11日”确定为时间信息的中心词;从中确定出符合空间词性的“福建省”、“漳州市”、“龙海市”,其中“龙海市”的目标依存距离评分最低,将“龙海市”确定为空间信息的中心词。
在本实施例中,如果一个有效单句中的各个动词前后均无符合时空信息要求的时空信息的中心词,则沿用上一组Natech灾害事件对应的时空信息,也就是将上一个有效单句中的Natech灾害事件对应的时空信息,作为该有效单句中的Natech灾害事件的时空信息。
在本申请中,所述方法还包括:获取所述文本数据的文本来源元数据;根据所述文本来源元数据,提取所述文本来源元数据中与时空信息相关的中心词。
在本实施例中,对于涉及洪涝灾害及其影响的气候公报、相关的文章和相关报道文字的一些文本数据,可能在整个文本数据中都不会提及时空信息相关的内容,而以出现“我省”,“我市”,“我区”,“昨日”,“今日早些时候”等信息来表示该文本数据的时空信息。如果仅基于文本数据本身提取Natech灾害事件的时空信息,有可能导致无法提取到Natech灾害事件的时空信息。在此基础上,本实施例通过获取文本数据的文本来源元数据,从文本来源元数据提取到Natech灾害事件的时空信息。例如通过获取文本来源元数据,确定文本数据所发表的网站所属的具体地区确定到文本数据中的Natech灾害事件的空间信息,通过获取文本来源元数据,确定文本数据所发表的具体时间,基于文本数据中的“昨日”,“今日早些时候”的相关时间相关信息进行分析,确定到文本数据中的Natech灾害事件的时间信息。
在本申请中,所述方法还包括:确定提取的所有中心词中是否存在多个相同的重复中心词;
在提取的所有中心词中包括多个相同的重复中心词时,根据预设规则,保留所述多个相同的重复中心词中的一个。
在本实施例中,继续沿用上述确定关键实体信息的示例,动词“造成”连接的节点关系为null→台风,动词“受潮”连接的节点关系为台风→null,如果在最终的Natech灾害事件知识图谱中创建与上述两个动词相关的节点,则将是null→台风和台风→null存在一侧节点的缺失,导致最终的Natech灾害事件知识图谱中“台风”这一链条断裂,而无法进行连续的Natech灾害事件知识图谱的构建。因此,在Natech灾害事件知识图谱中仅显示“台风”节点。而有效单句中的动词“发生”连接的节点关系为台风→工业区,同时台风由于出现在同一有效单句中的同一位置,因此上述三个动词对应的3个台风具有相同的时间和空间属性,默认指的是同一事件,因此均为同一节点。该三个动词对应的节点都会是台风→工业区。对于这一结果来说,由“造成”和“受潮”存储的信息均属于冗余存储信息,在预设灾害事件模板的关系库中将基于“造成”和“受潮”存储的相关数据进行删除。
判定由一个动词提取的存储至预设灾害事件模板的关系库中的相关数据是否会被删除的依据为该动词对应的关键实体信息的中心词是否空缺,同时在该动词所在的有效单句中,该动词对应的另一关键实体信息的中心词是否重复。
在本申请中,所述根据提取的所述中心词,提取所述中心词的子节点中符合词性要求的修饰词,包括:根据所述有效单句中词语间的依存关系,通过句法分析算法构建对应的句法树;提取所述句法树中符合所述中心词的词性要求的修饰词。
在本实施例中,根据有效单句中的各个词语之间的依存关系,通过句法分析算法构建有效单句的句法树。在获得有效单句的句法树后,提取出确定出的所有中心词在句法树中的下属所有子节点。
针对不同类型的中心词,提取符合自身词性要求的修饰词。
示例地,以经过分词处理的有效单句“造成/直接/经济损失/最大/的/台风/发生/于/2020年/8月/11日,福建省/漳州市/龙海市/颜厝镇长边/工业区/被淹/,/大批/原材料/受潮/。/”为例。图5是本发明实施例提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法中的一个有效单句的句法树示意图。参照图5,图5示出了基于上述有效单句构建的句法树。在获得上述有效单句的句法树后,提取出确定出的所有中心词在句法树中的下属所有子节点,也就是时间信息的中心词“11日”下属的所有节点,空间信息的中心词“龙海市”下属的所有子节点,关键实体信息的中心词“台风”、“工业区”、“原材料”各自下属的所有子节点。
对于时间信息的中心词“11日”,子节点包括“8月”、“2020年”、“于”,其中“8月”和“2020年”均为时间词性,符合要求,留下作为时间信息的中心词“11日”的修饰词。
对于空间信息的中心词“龙海市”,子节点包括“漳州市”、“福建省”,两者均为地名词性,符合要求,留下作为空间信息的中心词“龙海市”的修饰词。
对于关键实体信息的中心词“台风”,子节点包括“造成”、“直接”、“经济损失”、“最大”、“的”,均为符合修饰词的词性,因此留下作为关键实体信息的中心词“台风”的修饰词。
对于关键实体信息的中心词“工业区”,子节点包括“颜厝镇长边”、“漳州市”、“龙海市”、“福建省”,其中“漳州市”、“龙海市”、“福建省”均为地名词性,不属于工业区的修饰词,从修饰词中排除,仅留下“颜厝镇长边”一词作为空间信息的中心词“工业区”的修饰词。其它关键实体信息的中心词的修饰词抽取均可依此类推,若无符合要求的子节点则无修饰词。
在本申请中,所述根据所述预设灾害事件模板,将提取的所述中心词和所述修饰词存储至所述预设灾害事件模板的数据库中,包括:将所述中心词和所述中心词的修饰词按照序列距离进行排序,获得长组合词组;根据所述长组合词组中的关键实体信息、时间指示词和地点指示词,将所述长组合词组中的关键实体信息按照词性拆分为实体描述词和属性描述词,以及,将所述长组合词组中的时间信息按照时间指示词进行分词,以及,将所述长组合词组中的空间信息按照地点指示词进行分词,获得分词结果;根据所述有效单句中的各个动词,构建关键实体信息之间的关系和关键实体信息与时空信息之间的关系;对分词结果中的时空信息进行标准化处理;将构建的关键实体信息之间的关系存储至预设灾害事件模板的关系库中,以及,将分词结果、关键实体信息与时空信息之间的关系和时空信息的标准化处理结果存储至预设灾害事件模板的事件库中。
在本实施例中,在获得各个中心词和各个中心词各自的修饰词后,将各个中心词和各个中心词各自的修饰词按照序列距离进行排序,获得包含关键实体信息、时间指示词和地点指示词对应的中心词和修饰词的长组合词组。
根据长组合词组中的关键实体信息、时间指示词和地点指示词,将长组合词组中的关键实体信息按照词性拆分为实体描述词和属性描述词,以及,将长组合词组中的时间信息按照时间指示词进行分词,以及,将长组合词组中的空间信息按照地点指示词进行分词,由此获得分词结果。
示例地,继续沿用上述有效单句“造成直接经济损失最大的台风发生于2020年8月11日,福建省漳州市龙海市颜厝镇长边工业区被淹,大批原材料受潮。”为例。
对于时间信息的中心词“11日”对应的修饰词为“8月”、“2020年”,按照句法分析结果的序列距离排序可得“2020年”“8月”“11日”,将排序结果合并为长组合词组,即“2020年8月11日”。
对于空间信息的中心词“龙海市”对应修饰词为“漳州市”、“福建省”,按照句法分析结果的序列距离排序可得“福建省”“漳州市”“龙海市”,将排序结果合并为长组合词组,即“福建省漳州市龙海市”。其他中心词及修饰词的合并均可依此类推。
在获得了各个中心词对应的长组合词组后,根据所述长组合词组中的关键实体信息、时间指示词和地点指示词,将所述长组合词组中的关键实体信息按照词性拆分为实体描述词和属性描述词,以及,将所述长组合词组中的时间信息按照时间指示词进行分词,以及,将所述长组合词组中的空间信息按照地点指示词进行分词。
其中“2020年8月11日”按照数字和“年”“月”“日”等指示词交叉的时间信息表述规则分词,“福建省漳州市龙海市”按照“省”“市”“区”等标志词将地名分为三级,依次为“福建省”、“漳州市”、“龙海市”。
关键实体信息的中心词“台风”修饰词为“造成”、“直接”、“经济损失”、“最大”、“的”,重新按照语序顺序排列后为“造成直接经济损失最大的”,因此将“台风”作为一个实体描述词,“造成直接经济损失最大的”作为对应的属性描述词;中心词“工业区”有对应的修饰词“颜厝镇长边”,因此将“工业区”作为实体描述词,“颜厝镇长边”作为属性描述词;中心词“原材料”有对应的修饰词“大批”,因此将“原材料”作为实体描述词,“大批”作为属性描述词。若某个关键实体信息的中心词对应的修饰词符合实体描述词的词性要求或不存在对应的修饰词,则属性描述词可为空。
在本实施例中,在将提取的关键实体信息和时空信息保存至事件库和关系库中时,需要将时空信息进行标准化。例如,“福建省”、“漳州市”、“龙海市”需要参考中华人民共和国行政区划代码json树进行调整,在json树中自顶向下查询行政区名称,对错误的地名进行更改或对省市级别行政区名称存在缺漏的情况进行补充,以保证名称的规范性和防止某一级别地名的缺失。
在本实施例中,应用自然语言处理技术将长组合词组进行分词和拆解是为了解决一个实体对应多个修饰词的情况,便于按照Natech灾害事件的知识图谱概念模型将数据正确导入。例如时间信息的中心词将具有多个修饰词,空间信息的中心词将具有多个修饰词。
在本实施例中,实体描述词和对应的属性描述词统称为关键实体信息,关键实体信息的中心词与关键实体信息中的实体描述词对应,关键实体信息的中心词的修饰词与关键实体信息中的属性描述词对应。
在本实施例中,图6是本发明实施例提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法中的事件库的示意图,图7是本发明实施例提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法中的关系库的示意图。参照图6和图7,在基于有效单句的核心动词获得有效单句中的关键实体的主体信息、关键实体的客体信息、实体描述词和与实体描述词对应的属性描述词、时间信息、空间信息后,基于预设灾害事件模板中的事件库和关系库,将上述获得的内容填充到预设灾害事件模板中的事件库和关系库中,从而构建Natech灾害事件的节点内容、实体之间的关系、实体与时间信息的关系、实体与地点信息的关系。图6中的事件库中的ID号是根据实体描述词创建的表示该实体描述词所对应的灾害事件的ID,该ID号与实体描述词具有一一对应关系。图7中的关系库中的主体信息对应关键实体信息id号和客体信息对应关键实体信息id号与事件库中的Natech灾害事件的关键实体信息ID号对应。根据关系库中的主体信息对应关键实体信息id号和客体信息对应关键实体信息id号可确定到关系库中的该组关系所表示的是哪两个实体描述词的关系。
示例地,继续沿用上述有效单句“造成直接经济损失最大的台风发生于2020年8月11日,福建省漳州市龙海市颜厝镇长边工业区被淹,大批原材料受潮。”为例。图8是本发明实施例提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法中的一示例中的事件库的填写结果示意图。图9是本发明实施例提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法中的一示例中的关系库的填写结果示意图。参照图8和图9,在关系库中关系ID为0的信息中,主体信息为“台风”,客体信息为“工业区”,在最终的知识图谱构建中,“台风”和“工业区”都将各自作为一个节点,同时两者分别为关系库中关系ID为0时的主体信息和对应的客体信息关系,因此,该两个节点将进行连接,由主体信息“台风”指向“工业区”。在关系库中关系ID为1的信息中,主体信息为“台风”,客体信息为“原材料”,在最终的知识图谱构建中,“原材料”将作为一个节点,而“台风”已经在关系ID为0时创建过了节点,这两个关系中“台风”都指向的是关键实体信息ID号为0的“台风”,因此指的是同一个台风,直接将“原材料”节点与该“台风”节点进行连接,由主体信息“台风”指向“原材料”。虽然实体关系三元组代表的“台风”“被淹”“原材料”不符合自然语言的语法和逻辑,但仍然能够表达从“工业区”到“原材料”的Natech灾害事件传导效应,对最终知识图谱的节点和关系构建没有影响。
在完成当前一组Natech灾害事件的抽取和存储至事件库和关系库中后,则继续对下一组Natech灾害事件的抽取,直至目标文本数据中的所有内容均抽取完毕。
在本实施例中,图10是本发明实施例提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法中的提取流程示意图。参照图10,通过预设语料库中的触发词,从文本数据中筛选出有效单句。通过句法分析,对有效单句中的各个词语分别与该有效单句中的核心动词之间的依存距离进行计算,获得各个词语的目标依存距离评分,在各个词语的目标依存距离评分的基础上结合预设语料库中各个词语的权重,从各个词语中筛选出时间信息的中心词和空间信息的中心词,以及关键实体信息的中心词。根据有效单句中各个词语之间的依存关系构建的句法树,确定出关键实体信息的中心词的修饰词,获得带有修饰词的关键实体信息;以及根据有效单句中各个词语之间的依存关系构建的句法树,确定出时间信息的中心词的修饰词,获得完整的时间词组;以及根据有效单句中各个词语之间的依存关系构建的句法树,确定出空间信息的中心词的修饰词,获得完整的地点词组。将带有修饰词的关键实体信息拆分为实体描述词和属性描述词存储于预设灾害事件模板的事件库中,用于创建对应的实体节点,也就是自然灾害节点、技术灾害、承灾体节点;将完整的时间词组存储于预设灾害事件模板的事件库中,用于创建对应的时间节点,将完整的地点词组存储于预设灾害事件模板的事件库中,用于创建地点节点。而预设灾害事件模板的关系库中存储上述各个实体之间的关系,以及存储上述各个实体与时间之间的关系,以及存储上述各个实体与地点之间的关系。
在本申请中,所述将事件库和关系库中的数据导入图数据库,构建Natech灾害事件可视化知识图谱,包括:将事件库和关系库中的数据导入图数据库;在图数据库中,将事件库中的关键实体信息对应的灾害事件和承灾体各自的名称作为主键创建节点,将事件库中的时空信息中的时间标准化结果作为主键创建节点,以及,将事件库中的时空信息中的空间信息标准化结果作为主键创建节点;在图数据库中,通过关系库中关键实体信息之间的关系和关键实体信息与时空信息之间的关系创建连接各个节点的边。
在本实施例中,将事件库和关系库中存储的数据导入图数据库。在图数据库中,将事件库中的各个实体描述词对应的灾害事件和承灾体的ID号为主键创建对应的节点,显示名称为事件库中对应的实体描述词,以图8中的数据为例,为8中的“台风”实体描述词创建节点,为8中的“工业区”实体描述词创建节点、为8中的“原材料”实体描述词创建节点。将事件库中的时空信息中的时间标准化结果作为主键创建节点,以图8中的数据为例,由于图8对应的示例中只提取到了标准化的时间信息“2020年8月11日”,因此只创建一个显示为“2020年8月11日”的时间节点。将事件库中的时空信息中的空间信息标准化结果作为主键创建节点,以图8中的数据为例,为图8中的“福建省”创建省级的空间节点,为图8中的“漳州市”创建地级市的空间节点,为图8中的龙海市创建区级的空间节点。通过关系库中的关键实体的主体信息和关键实体的客体信息之间的关系创建连接各个节点的边,以9中的数据为例,将关系ID为0中的节点“台风”与节点“工业区”进行连接,同时由该关系中的主体信息“台风”指向客体信息“工业区”,将关系ID为1中的节点“台风”与节点“原材料”进行连接,同时由该关系中的主体信息“台风”指向客体信息“原材料”。将基于灾害事件和承灾体各自的名称作为主键创建的节点与各自对应的时间信息的节点和空间信息的节点进行连接。以上节点使用图数据库的节点标签label进行区分。
对不同类型的节点以不同的显示样式进行可视化显示,例如以粉色表示自然灾害节点,以绿色表示技术灾害或承灾体节点,以红色表示一级(省级行政单位)地点节点,以蓝色表示二级(市级行政单位)地点节点,以灰色表示时间节点。由此构建Natech灾害事件可视化知识图谱。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述方法包括:
对文本数据进行预处理,获得目标文本数据;
根据预设语料库,确定所述目标文本数据中的有效单句,所述预设语料库中包括触发词和非关键词;
根据所述有效单句中的词语与所述有效单句中的核心动词之间的相关关系和预设灾害事件模板,提取所述有效单句中的中心词;
根据提取的所述中心词,提取所述中心词的子节点中符合词性要求的修饰词;
根据所述预设灾害事件模板,将提取的所述中心词和所述修饰词存储至所述预设灾害事件模板的数据库中,所述数据库包括事件库和关系库;
将事件库和关系库中的数据导入图数据库,构建洪涝型Natech灾害事件可视化知识图谱。
2.根据权利要求1所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述预设语料库的构建,包括:
根据基础文本数据中的各个句子涵盖的灾害事件的信息量,对所述各个句子进行分级;
根据所述各个句子的等级,对所述各个句子进行赋值,获得经过赋值的各个句子;
根据词语在各个句子中的频次和各个句子的等级分值,确定该词语的权重值;
根据词语的权重取值,将满足第一预设条件的词语存储至语料库的非关键词词典中,将满足第二预设条件的词语和该词语的权重值存储至语料库的触发词词典中,以及将Natech灾害事件专有名词词典和灾害等级指示词存储至语料库的对应词典类别中,获得预设语料库。
3.根据权利要求1所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述根据预设语料库,确定所述目标文本数据中的有效单句,包括:
根据预设语料库,确定所述目标文本数据中的各个单句是否包含所述预设语料库中的触发词;
将包含所述预设语料库中的触发词的单句确定为有效单句。
4.根据权利要求1所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述根据所述有效单句中的词语与所述有效单句中的核心动词之间的相关关系和预设灾害事件模板,提取所述有效单句中的中心词,包括:
通过预设算法,确定所述有效单句中的核心动词;
根据所述有效单句中的各个词语的词性、位置,以及所述各个词语分别与所述核心动词之间的依存距离,从所述有效单句中提取所述预设灾害事件模板中各个类别的中心词。
5.根据权利要求4所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述根据所述有效单句中的各个词语的词性、位置,以及所述各个词语分别与所述核心动词之间的依存距离,从所述有效单句中提取所述预设灾害事件模板中各个类别的中心词,包括:
通过句法分析,对所述有效单句中的所有词语进行打分,获得所有词语分别与所述核心动词之间的依存距离评分;
遍历所述预设语料库,在词语属于所述预设语料库中的触发词时,将该词语的依存距离评分除以该词语在所述预设语料库中对应的权重值,获得该词语对应的目标依存距离评分;在词语属于所述预设语料库中的非关键词时,排除该词语;在词语不属于所述预设语料库中的非关键词和触发词时,将该词语的依存距离评分确定为该词语的目标依存距离评分;
从具有目标依存距离评分的词语中提取词性和位置均符合所述预设灾害事件模板中的关键实体信息要求,且目标依存距离评分最低的词语,作为关键实体信息的中心词,以及,从具有目标依存距离评分的词语中提取词性和位置均符合所述预设灾害事件模板中的时空信息要求的词语,且目标依存距离评分最低的词语,作为时空信息的中心词。
6.根据权利要求1所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述根据提取的所述中心词,提取所述中心词的子节点中符合词性要求的修饰词,包括:
根据所述有效单句中词语间的依存关系,通过句法分析算法构建对应的句法树;
提取所述句法树中符合所述中心词的词性要求的修饰词。
7.根据权利要求1所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述根据所述预设灾害事件模板,将提取的所述中心词和所述修饰词存储至所述预设灾害事件模板的数据库中,包括:
将所述中心词和所述中心词的修饰词按照序列距离进行排序,获得长组合词组;
根据所述长组合词组中的关键实体信息、时间指示词和地点指示词,将所述长组合词组中的关键实体信息按照词性拆分为实体描述词和属性描述词,以及,将所述长组合词组中的时间信息按照时间指示词进行分词,以及,将所述长组合词组中的空间信息按照地点指示词进行分词,获得分词结果;
根据所述有效单句中的各个动词,构建关键实体信息之间的关系和关键实体信息与时空信息之间的关系;
对分词结果中的时空信息进行标准化处理;
将构建的关键实体信息之间的关系存储至预设灾害事件模板的关系库中,以及,将分词结果、关键实体信息与时空信息之间的关系和时空信息的标准化处理结果存储至预设灾害事件模板的事件库中。
8.根据权利要求7所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述将事件库和关系库中的数据导入图数据库,构建Natech灾害事件可视化知识图谱,包括:
将事件库和关系库中的数据导入图数据库;
在图数据库中,将事件库中的关键实体信息对应的灾害事件和承灾体各自的名称作为主键创建节点,将事件库中的时空信息中的时间标准化结果作为主键创建节点,以及,将事件库中的时空信息中的空间信息标准化结果作为主键创建节点;
在图数据库中,通过关系库中关键实体信息之间的关系和关键实体信息与时空信息之间的关系创建连接各个节点的边。
9.根据权利要求1所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述方法还包括:
获取所述文本数据的文本来源元数据;
根据所述文本来源元数据,提取所述文本来源元数据中与时空信息相关的中心词。
10.根据权利要求1所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述方法还包括:确定提取的所有中心词中是否存在多个相同的重复中心词;
在提取的所有中心词中包括多个相同的重复中心词时,根据预设规则,保留所述多个相同的重复中心词中的一个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210807776.9A CN114860960B (zh) | 2022-07-11 | 2022-07-11 | 一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210807776.9A CN114860960B (zh) | 2022-07-11 | 2022-07-11 | 一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114860960A true CN114860960A (zh) | 2022-08-05 |
CN114860960B CN114860960B (zh) | 2022-11-11 |
Family
ID=82626169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210807776.9A Active CN114860960B (zh) | 2022-07-11 | 2022-07-11 | 一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114860960B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115438141A (zh) * | 2022-11-08 | 2022-12-06 | 智慧眼科技股份有限公司 | 一种基于知识图谱模型的信息检索方法 |
CN115630846A (zh) * | 2022-12-07 | 2023-01-20 | 速度时空信息科技股份有限公司 | 适用于自然灾害风险综合监测数据的处理方法 |
CN116776984A (zh) * | 2023-07-10 | 2023-09-19 | 河海大学 | 一种基于知识图谱的灾害链推理预测方法及系统 |
CN118643997A (zh) * | 2024-08-16 | 2024-09-13 | 水利部交通运输部国家能源局南京水利科学研究院 | 基于自然语言处理和数据驱动模型的洪涝韧性高效评估方法和系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951438A (zh) * | 2017-02-13 | 2017-07-14 | 北京航空航天大学 | 一种面向开放域的事件抽取系统及方法 |
CN108595582A (zh) * | 2018-04-17 | 2018-09-28 | 北京理工大学 | 一种基于社会信号的灾害性气象热点事件识别方法 |
CN111143576A (zh) * | 2019-12-18 | 2020-05-12 | 中科院计算技术研究所大数据研究院 | 一种面向事件的动态知识图谱构建方法和装置 |
CN112199512A (zh) * | 2020-10-15 | 2021-01-08 | 北京大学 | 面向科技服务的事理图谱构建方法、装置、设备及存储介质 |
CN112966079A (zh) * | 2021-03-02 | 2021-06-15 | 中国电子科技集团公司第二十八研究所 | 一种用于对话系统的面向事件画像的文本分析方法 |
CN113468320A (zh) * | 2021-07-22 | 2021-10-01 | 中国地震台网中心 | 地震应急信息快速可视化方法及系统 |
CN113761094A (zh) * | 2021-08-19 | 2021-12-07 | 华南师范大学 | 地质灾害事理图谱的构建方法、系统、装置和存储介质 |
CN114417865A (zh) * | 2022-01-24 | 2022-04-29 | 平安科技(深圳)有限公司 | 灾害事件的描述文本处理方法、装置、设备及存储介质 |
CN114548086A (zh) * | 2020-11-26 | 2022-05-27 | 税友软件集团股份有限公司 | 一种事件文本数据处理方法及相关装置 |
-
2022
- 2022-07-11 CN CN202210807776.9A patent/CN114860960B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951438A (zh) * | 2017-02-13 | 2017-07-14 | 北京航空航天大学 | 一种面向开放域的事件抽取系统及方法 |
CN108595582A (zh) * | 2018-04-17 | 2018-09-28 | 北京理工大学 | 一种基于社会信号的灾害性气象热点事件识别方法 |
CN111143576A (zh) * | 2019-12-18 | 2020-05-12 | 中科院计算技术研究所大数据研究院 | 一种面向事件的动态知识图谱构建方法和装置 |
CN112199512A (zh) * | 2020-10-15 | 2021-01-08 | 北京大学 | 面向科技服务的事理图谱构建方法、装置、设备及存储介质 |
CN114548086A (zh) * | 2020-11-26 | 2022-05-27 | 税友软件集团股份有限公司 | 一种事件文本数据处理方法及相关装置 |
CN112966079A (zh) * | 2021-03-02 | 2021-06-15 | 中国电子科技集团公司第二十八研究所 | 一种用于对话系统的面向事件画像的文本分析方法 |
CN113468320A (zh) * | 2021-07-22 | 2021-10-01 | 中国地震台网中心 | 地震应急信息快速可视化方法及系统 |
CN113761094A (zh) * | 2021-08-19 | 2021-12-07 | 华南师范大学 | 地质灾害事理图谱的构建方法、系统、装置和存储介质 |
CN114417865A (zh) * | 2022-01-24 | 2022-04-29 | 平安科技(深圳)有限公司 | 灾害事件的描述文本处理方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
王慧敏等: "大数据驱动的城市洪涝灾害风险感知与预警决策研究范式", 《工程管理科技前沿》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115438141A (zh) * | 2022-11-08 | 2022-12-06 | 智慧眼科技股份有限公司 | 一种基于知识图谱模型的信息检索方法 |
CN115630846A (zh) * | 2022-12-07 | 2023-01-20 | 速度时空信息科技股份有限公司 | 适用于自然灾害风险综合监测数据的处理方法 |
CN116776984A (zh) * | 2023-07-10 | 2023-09-19 | 河海大学 | 一种基于知识图谱的灾害链推理预测方法及系统 |
CN116776984B (zh) * | 2023-07-10 | 2024-03-19 | 河海大学 | 一种基于知识图谱的灾害链推理预测方法及系统 |
CN118643997A (zh) * | 2024-08-16 | 2024-09-13 | 水利部交通运输部国家能源局南京水利科学研究院 | 基于自然语言处理和数据驱动模型的洪涝韧性高效评估方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114860960B (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114860960B (zh) | 一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法 | |
CN112199511B (zh) | 跨语言多来源垂直领域知识图谱构建方法 | |
CN101539907B (zh) | 词性标注模型训练装置、词性标注系统及其方法 | |
CN104091054B (zh) | 面向短文本的群体性事件预警方法和系统 | |
CN110826331A (zh) | 基于交互式与迭代式学习的地名标注语料库智能构建方法 | |
CN112925921B (zh) | 基于dikw图谱的资源识别方法、相关装置及可读介质 | |
CN105183869A (zh) | 楼宇知识图谱数据库及其构建方法 | |
CN104820629A (zh) | 一种智能的舆情突发事件应急处理系统及方法 | |
CN108710663A (zh) | 一种基于本体模型的数据匹配方法及系统 | |
CN103699663A (zh) | 一种基于大规模知识库的热点事件挖掘方法 | |
CN109800349A (zh) | 基于用户发布内容量化新闻价值的数据处理方法和装置 | |
CN112527933A (zh) | 一种基于空间位置和文本训练的中文地址关联方法 | |
Bouillot et al. | How and why exploit tweet’s location information | |
CN114077674A (zh) | 一种电网调度知识图谱数据优化方法及系统 | |
CN109815340A (zh) | 一种民族文化信息资源知识图谱的构建方法 | |
CN109299469A (zh) | 一种在长文本中识别复杂住址的方法 | |
CN116484024A (zh) | 一种基于知识图谱的多层次知识库构建方法 | |
JP2023504961A (ja) | 台風事件情報収束方法 | |
CN114780680A (zh) | 基于地名地址数据库的检索与补全方法及系统 | |
CN114282534A (zh) | 一种基于要素信息抽取的气象灾害事件聚合方法 | |
Wang et al. | A toponymic cultural heritage protection evaluation method considering environmental effects in a context of cultural tourism integration | |
Purwandari et al. | Automatic Smart Crawling on Twitter for Weather Information in Indonesia | |
CN112069824B (zh) | 基于上下文概率和引证的地域识别方法、装置及介质 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN115952339A (zh) | 基于NGBoost的地理时空知识抽取和图谱表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |