CN114282534A

CN114282534A - 一种基于要素信息抽取的气象灾害事件聚合方法

Info

Publication number: CN114282534A
Application number: CN202111651925.9A
Authority: CN
Inventors: 赵文强; 王铁; 张雪英; 王益鹏; 曹忠群
Original assignee: Nanjing Canyon Information Technology Co ltd
Current assignee: Nanjing Canyon Information Technology Co ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-05

Abstract

本发明公开了一种基于要素信息抽取的气象灾害事件聚合方法。本发明通过分析气象灾害事件信息在自然语言与气象灾害事件信息系统中表达机制差异，归纳总结气象灾害信息的语言描述特点，构建面向中文文本的气象灾害信息表达体系，并制定具体的标注模式和规范，建立大规模的中文文本标注实验数据，以供机器学习进行灾害事件信息中相关信息的抽取；根据气象灾害信息来源发布特点，选取合适所需信息源进行数据采集，制定自动化采集方法，以获取气象灾害事件的文本数据；随后根据标注数据，结合机器学习算法与模型，对气象灾害事件信息中的时间信息、地名信息、事物信息、人物信息和事件信息进行抽取；以抽取的时间、地名、事物、人物和事件信息作为基础，根据构建的气象灾害特征词库以及抽取信息中的灾害时间范围、灾害地点、受灾详情以及事物关键词和灾情信息阈值等数据，结合事件聚合流程和判断逻辑，将同一气象灾害事件的信息进行聚合。

Description

一种基于要素信息抽取的气象灾害事件聚合方法

技术领域

本发明涉及一种基于要素信息抽取的气象灾害事件聚合方法，属于气象灾害监测技术领域。

背景技术

气象灾害是指大气对人类的生命财产和国民经济建设及国防建设等造成的直接或间接的损害，主要包括台风、干旱、高温、山洪、雷暴、沙尘暴等。中国是世界上自然灾害发生十分频繁、灾害种类甚多，造成损失十分严重的少数国家之一。气象防灾减灾救灾是气象工作的重中之重，是国家防灾减灾救灾不可替代的重要力量，是国家公共安全体系的重要组成部分。

实践表明，气象实况数据、预报数据和舆情监测数据存在显著的优势互补特性。与其他气象数据相比，虽然网络气象舆情数据存在稀疏性、不确定性、模糊性等缺点，但是具有不可替代的多元性、丰富性、动态性和关联性等特征。气象防灾减灾相关舆情信息收集和分析是气象服务工作重要成分。

舆情信息聚合是将各种数据来源中分散的相关信息碎片，围绕某个主题将其整合成完整的、有参考价值的信息。可以分别以时间、地点、人物、事物、事件为线索，进行气象灾害舆情信息聚合。例如，将台风“山竹”(事件)按照时间和地点顺序进行聚合，能够系统地整理该事件从预报开始，直至事件结束所有的信息，帮助人们全面地了解台风的整个生命周期及其导致的灾情信息。在发明中，重点对文本信息进行聚合，结合信息抽取过程中对于气象灾害事件信息的抽取结果，针对我国不同区域、不同时期气象灾害发生的类型和特点，通过事件聚合流程和判断逻辑，对气象灾害舆情事件进行聚合，从而可实现气象灾害的整体分析，解决气象灾害监测的标准化、智能化问题。

发明内容

气象灾害的防灾减灾是国家公共安全体系的重要组成部分。气象舆情监测数据存在稀疏性、不确定性、模糊性等缺点，针对我国不同区域、不同时期气象灾害发生的类型和特点，利用信息聚合将其整合成完整的、有参考价值的信息是本发明亟待解决的问题，本发明的目的在于提供一种基于要素信息抽取的气象灾害事件聚合方法。

本发明解决其技术问题所采取的技术方案是：一种基于要素信息抽取的气象灾害事件聚合方法，该方法包括以下步骤：

步骤1：通过分析气象灾害事件信息在自然语言与气象灾害事件信息系统中表达机制差异，归纳总结气象灾害信息的语言描述特点，构建面向中文文本的气象灾害信息表达体系，并制定具体的标注模式和规范，建立大规模的中文文本标注实验数据，以供机器学习进行灾害事件信息中相关信息抽取的训练；

步骤2：参考气象灾害信息的发布特点，选取所需信息源进行访问，拟采用基于链接结构评价的搜索策略和基于网页内容评价的搜索策略两种方式的气象灾害事件信息资源网页获取策略以获取灾害舆情信息的新闻文本数据；

步骤3：利用舆情信息中灾害事件标注语料完成训练的机器学习和深度学习信息抽取模型，结合本发明构建的气象灾害事件的特征词汇库，进行舆情信息中的数据抽取，包括时间、地名、人物、事物和气象灾害事件信息的抽取；

步骤4：将文本信息作为主要载体，以抽取的时间、地名、事物、人物和事件信息作为基础，根据构建的气象灾害特征词库以及抽取信息中的灾害时间范围、灾害地点、受灾详情以及事物关键词和灾情信息阈值等数据，结合事件聚合流程和判断逻辑，将同一气象灾害事件的信息进行聚合，得到同一事件聚合结果。

进一步地，本发明步骤1中所述构建面向中文文本的气象灾害信息表达体系和标注规范，将从气象灾害信息词汇、句法和语义结构三个层次进行体系构建，并制定基于XMLschema的气象灾害事件信息标注操作规范。

进一步地，本发明步骤1中所述建立大规模的中文文本标注实验数据，将以中科院计算所研发的ICTCLAS为自然语言处理平台，GATE(General Architecture for TextEngineering)为标注平台，进行大规模数据标注，以用于机器学习训练。

进一步地，本发明步骤2中所述采用基于链接结构评价的搜索策略和基于网页内容评价的搜索策略两种方式，首先利用基于链接结构评价的搜索策略扩大搜索宽度，然后通过对网页内容与检索模板中的内容进行相似度计算，最终根据计算结果确定是否保留该网页。

进一步地，本发明步骤3中所述利用机器学习模型对灾害信息中的时间信息进行抽取，主要利用条件随机场(Conditional Random Fields，CRF)模型进行实现。

进一步地，本发明利用CRF对灾害信息中时间信息进行抽取，实现步骤如下：1)解析标注语料格式，获取时间短语起始位置，将其转化为条件随机场模型训练所需要的格式，即BIES序列标注。2)经过上述步骤得到CRF训练所需样本格式，设计特征模板，使用CRF++工具训练，生成CRF模型。3)将所得模型集成到Java项目中，通过自定义的规则得到完整的时间信息。从识别的BIES 序列标注结果中提取出识别的时间信息。

进一步地，本发明步骤3中所述利用机器学习模型对灾害信息中的事件信息进行抽取，根据事件语句描述特点将事件信息抽取分为三个层次：信息描述较为丰富的句子、事件信息描述较为稀疏的句子和对于事件信息描述较为稀疏的段落。

进一步地，本发明机器学习模型在事件信息抽取选择文本范围时，对于信息描述较为丰富的句子，以句子为单位的事件类型判断；对于事件信息描述较为稀疏的句子，则将文本单位扩展至段落范围；对于事件信息描述较为稀疏的段落，则将文本单位扩展至篇章范围。

进一步地，本发明步骤4中所述的对气象灾害舆情信息进行聚合，针对已有的事件，需要不断更新相关舆情新闻入库直至事件结束；针对数据库中没有的事件，则需要根据事件聚合的方法逻辑进行处理，从互联网数据中及时发现新的灾害事件。

进一步地，本发明事件聚合过程中需要判断的内容包括灾害时间范围、灾害地点、受灾详情、事物关键词和灾情信息阈值等数据，结合聚合流程进行综合判断，根据判断结果进行事件聚合。

本发明是通过分析气象灾害事件信息在自然语言与气象灾害事件信息系统中表达机制差异，归纳总结气象灾害信息的语言描述特点，构建面向中文文本的气象灾害信息表达体系，并制定具体的标注模式和规范，建立大规模的中文文本标注实验数据，以供机器学习进行灾害事件信息中相关信息的抽取。参考气象灾害信息的发布特点，选取所需主题的网页进行访问，拟采用基于链接结构评价的搜索策略和基于网页内容评价的搜索策略两种方式的气象灾害事件信息资源网页获取策略以获取灾害舆情信息的新闻文本数据。利用舆情信息中灾害事件标注语料完成训练的机器学习和深度学习信息抽取模型，结合本发明构建的气象灾害事件的特征词汇库，进行舆情信息中的数据抽取，包括时间、地名、人物、事物和气象灾害事件信息的抽取。将文本信息作为主要载体，以经抽取得到的时间、地点、人物、事物、事件为线索，结合气象灾害舆情事件的判断准则和触发条件，进行气象灾害舆情信息聚合，以完成事件聚合过程。

有益效果：

1、本发明在构建语料表达体系时结合气象灾害事件要素的时空特征和属性特征，以及地理信息系统中主要用于表达地理对象的地理专题属性和空间分布属性的，典型的结构化和定量化特征，按照统一的时空基准对各个要素信息进行有序化组织和表达。避免了传统自然语言标注过程中缺乏统一的、基于数学模型的空间参考系统的问题。

2、本发明在气象灾害事件信息抽取过程中，所使用的气象灾害事件信息抽取方法将重点构建气象灾害事件触发词汇库，将气象灾害事件涉及的地名、时间和上下文信息作为相关特征项，设计条件随机场模型和算法，实现气象灾害事件名称识别。气象灾害事件触发词汇库内容包括了气象灾害的各种类型，针对每种灾害构建其单独的特征词组，用于识别每种事件类别，在融合气象灾害领域专家知识的背景下提高了信息抽取的效率和准确率，对于气象灾害的防灾减灾相关数据分析具有一定指导意义。

3、本发明的气象灾害事件聚合考虑到舆情信息的时效性和存在一定不确定性，在事件聚合时不断迭代往复进行对于舆情的判断和处理。同时以要素信息抽取结果作为数据基础，参考事件聚合流程和逻辑，综合考量事件的灾害时间范围、灾害地点、事物关键词和特定灾害事件词库，对灾害事件聚合进行判断，将同一气象灾害事件的信息进行聚合。多要素的事件聚合验证方法提高聚合精准度的同时，丰富了聚合目标事件的数据维度，为后续数据分析提供重要参考。

附图说明

图1为本发明的方法流程图。

图2为本发明实施例的气象灾害地名识别模型框架图。

图3为本发明实施例的气象灾害事物信息抽取过程图。

图4为本发明实施例的气象灾害事件信息识别流程图。

图5为本发明实施例的气象灾害事件触发及聚合条件架构图。

具体实施方式

下面结合说明书附图对本发明的具体实施过程作进一步详细说明。

如图1和图2所示，本发明提供了一种基于要素信息抽取的气象灾害事件聚合方法，该方法包括以下步骤：

(1)构建面向中文文本的气象灾害信息表达体系，并形成大规模气象灾害信息标注语料，用于灾害信息抽取的机器学习。自然语言中主要通过各种语言单元的非结构化组合，定性地描述气象灾害事件要素的时空特征和属性特征，缺乏统一的、基于数学模型的空间参考系统。地理信息系统主要用于表达地理对象的地理专题属性和空间分布属性，具备典型的结构化和定量化特征。因此，在自然语言和地理信息系统中，地理的空间认知对象和目的是相同的，但是相关信息的描述、组织与表达模式存在显著差异。气象灾害事件按照统一的时空基准对各个要素信息(时间、地点、人物、事物、事件等)进行有序化组织和表达。拟通过分析气象灾害事件信息在自然语言与气象灾害事件信息系统中表达机制差异，归纳总结气象灾害信息的语言描述特点，从词汇、句法和语义结构三个层次，构建面向中文文本的气象灾害信息表达体系，并制定具体的标注模式和规范，建立大规模的中文文本标注实验数据。

(2)气象灾害舆情信息获取。主要获取手段采用互联网爬虫，传统的通用网络爬虫需要具有较高的网页覆盖率，通常采用广度优先或者深度优先的方法来探索整个互联网的网页资源。主题爬虫获取网页资源的搜索策略通常有两种方式：基于链接结构评价的搜索策略和基于网页内容评价的搜索策略。通过对比分析以上两种搜索策略的优缺点，拟采用两种方式的气象灾害事件信息资源网页获取策略。首先利用基于链接结构评价的搜索策略扩大搜索宽度，然后通过对网页内容与检索模板中的内容进行相似度计算，最终参考计算结果选取舆情信息获取来源。综合相似度计算结果，同时将基于灾害信息的发布特点及其传播规律，选取常用于发布舆情信息的门户网站、社交媒体、传统媒体的数字版作为舆情数据主要获取来源，并且将不断更新迭代。

(3)利用舆情信息中灾害事件标注语料完成训练的机器学习和深度学习信息抽取模型，进行信息抽取。主要包括时间、地名、事物、人物和气象灾害事件的抽取。抽取后得到的信息要素将作为气象灾害事件聚合的数据基础和参考标准。

1)时间抽取：时间信息贯穿于一切事物的演化过程，是气象灾害信息的重要组成部分，反映了气象灾害事件发生前后的变化过程，是进行时空关联分析的基础。本发明本项目在对大量时间信息进行归纳的基础上，依据《GB/T 7408-2005》以及《GB 3102.1-1993》标准，总结了时间信息分类和描述体系(如表1所示)，并结合使用条件随机场(Conditional Random Fields，CRF)模型对时间进行抽取。CRF是一种判别式概率无向图学习模型，克服了传统隐马尔科夫方法不易融合新特征、最大熵马尔科夫模型存在标注偏置等问题，被广泛地应用于分词、词性标注和命名实体识别等序列标注任务中。

利用CRF模型完成时间信息抽取后，会将抽取到的时间进行规范化，将所有信息的时间格式进行统一便于后期的分析工作。如“B市气象台4月27日12 点30分发布D地区大风黄色预警”，抽取时间“4月27日12点30分”规范化为“2021年04月27日12时30分00秒”。实验使用时间信息标注语料库进行封闭测试，并进行开放测试。经模糊定性判断，试验表明，CRF与规则混合模型在识别时间信息的准确度上有着较好的效果，特别是利用条件随机场模型可以利用文本中的语义信息的特征，判断存在二义性的词语是否为时间信息，因而具有较高的准确率。

表1时间信息分类和描述体系

2)地名抽取：本发明以中文句子中的字为基本单位，将地名实体识别任务转化为序列标注问题，形成一种基于长短期记忆模型与CRF模型集成的中文地名识别方法，主要包括地名语料数据集的词向量生成、基于Bi-LSTM深度学习模型的地名特征学习与表示、基于CRF模型的地名实体识别三个部分。

词向量生成部分通过训练将每个词映射成K维实数向量(K为模型中的超参数)，通过词之间的距离来判断它们之间的语义相似度，获得一种单词在向量空间上的表示；随后采用Bi-LSTM神经网络作为特征抽取，以不同的语义上下文信息预测字符为目标，获取地名文本各个字符前向、后向的上下文依赖关系信息，深入挖掘字符间潜在的语义关联，最终以数值向量的形式输出；最后通过增加额外的CRF模块，综合输出的上下文特征向量，进行全局归一化处理，计算地名识别结果每一个字符的类别概率值，并以概率最大为指标对地名进行标注，从而完成地名识别。以气象灾害舆情信息文本“A省气象台发布海上雷雨大风黄色预警”为例，将地名“A省”进行识别。

3)事物信息抽取：现有的气象灾害事件信息采集技术在较大程度上忽视了气象灾害关联事物及其属性信息(特别是致灾事物)。文本中蕴含丰富的气象灾害事件相关的事物及其事物属性描述，但是不同气象灾害事件要素类型描述的属性类型不一样，且每种气象灾害事件要素的属性类型复杂多样。本发明针对此种问题拟构建气象灾害事件关联的事物及其属性触发词汇词典，采用 Bootstrapping弱监督学习方法实现事物及其事物属性信息抽取。

Bootstrapping通过人工得到的特征词种子(属性触发词汇词典)，然后增量迭代进行自动训练，直到收敛。在每一轮迭代中，都将产生新的标注数据，用这些新的标注数据重新训练模型，新的模型又可以产生新的数据，如此循环往复，直到最终收敛结束。这类方法能够极大减少学习过程中人的工作量，减轻了人工标注语料库的负担。通过表达模式的自动迭代获取，构建相应的属性信息表达模式知识库，以及融合事件信息上下文特征，实现气象灾害相关联的事物及其事物的属性信息高效抽取。

根据事件文本数据库的大量数据作为属性特征抽取的语料库，从大量样本中学习属性词特征。对语料库中的中文文本进行预处理，包括分词、词性标注、句子拆分，以及停用词、虚词等的过滤。随后对句子中的属性词进行标注，利用Bootstrapping弱监督学习方法对标注的语料库进行训练，构建相应的属性信息知识库。

对于灾害事件文本，以B市大风事件为例，首先按照规则分句，遍历分句执行抽取方法。然后将文本中的时间和地点信息进行抽取，包括“B市”“4月30 日”，后续可以将其标准化方便统一管理入库。其次，利用属性信息知识库抽取句子中首要灾害属性特征关键词，包括“受灾人数”、“死亡人数”、“受伤人数”、 “紧急转移人数”等，最后抽取灾害事件属性数据。

4)人物抽取：本发明根据气象灾害文本中人名信息的描述特征和规则，采用基于角色标注的方式进行人名信息抽取。基于角色标注的人名信息识别方法将一个句子中所有的词划分为：人名的内部组成、上下文、无关词，并称之为中国人名的构成角色(为行文方便，以下简称角色)，并对切分后的语句进行角色标注。采用Viterbi算法来实现角色自动标注，能够从所有可能的标注序列中优选出概率最大者作为最终标注结果。

5)气象灾害事件抽取：本发明将重点构建气象灾害事件触发词汇库，将气象灾害事件涉及的地名、时间和上下文信息作为相关特征项，设计条件随机场模型和算法，实现气象灾害事件名称识别。文本中事件信息的描述语句较长，而时空属性信息描述通常分布在句子单位的描述文本中，跨句子和跨段落的情况所占比例相对较少。因此，本发明以句子单位进行事件识别可以较为准确的进行事件类型判断，以及关联事件和时空属性信息之间的语义关系。事件分类分为三个层次：对于信息描述较为丰富的句子，以句子为单位的事件类型判断；对于事件信息描述较为稀疏的句子，则将文本单位扩展至段落范围；对于事件信息描述较为稀疏的段落，则将文本单位扩展至篇章范围。重点研究如何从事件的时空语义本质特性出发，根据文本中事件信息的语言描述特征，以句子为单位，采用触发词汇驱动和机器学习相结合的方法，综合考虑文本上下文中语义和语境信息，进行事件类型的判断。

首先，构建触发词汇知识库，也就是事件类型关键字的集合，称为特征集；在进行事件类型判断时，需要根据输入的事件文本进行判别。文本中包含了关于事件类型的关键词语，是进行类型分析的重要依据。例如，对于台风事件，文本中通常包含“台风”、“热带风暴”、“飓风”、“登陆”等明显的词语，通过在文本中识别这些词语就可以判断该事件类型为台风。因此，构建较为完整的触发特征词库，包括气象灾害的各种类型，针对每种灾害构建其单独的特征词组，用于识别每种事件类别。

本项目构建的特征/触发词库包括：“台风”、“热带气旋”、“暴雨”、“强降水”、“大风”、“大雾”、“浓雾”、“沙尘暴”、“霜冻”、“暴雪”、“寒潮”、“沙尘天气”、“干旱”、“雷电”、“洪水”、“龙卷风”等具有标识性的气象灾害事件词语。通过触发词库对输入的灾害事件文本进行事件类型的判断。判断完成后对事件信息进行抽取。

随后，根据事件时空属性表达特性和文本描述特点，设置合适的事件信息特征向量。在判断出事件的类型之后，由于整个事件文本包含许多无用信息，如 “这次台风‘环高’还是同样的套路，其体型庞大，水汽丰富，风切条件和海温条件都比较好”这句话对于整体台风事件信息的识别无具体作用，而“A省B 市C县(北纬25.69度，东经99.89度)发生3.6级地震，震源深度12千米”这句话中包含了重要的地震灾情信息，对于灾情信息的抽取和聚合与分析都具有重要价值，因此需要将其提取出来。

文本中的事件特征词的上下文描述了事件在自然语言中的环境、结构和语义关系，是事件信息判断的重要依据。通过学习文本中的语义信息，将气象灾害事件涉及的地名、时间和上下文信息作为相关特征项，实现相关特征词的识别。为了有效表达事件特征词在文本中的作用，以事件特征词为核心，取其左右各5 个词汇作为上下文窗口，使用窗口中各个词语的语义等特征作为上下文特征来构造特征向量。以触发词为核心的特征向量可形式化地表示为：

其中，V表示以触发词为核心的特征向量，w表示距离触发词的位置，i表示触发词初始位置，K为模型的超参数。

例如，以“据统计，截至5月25日20时，地震造成C、D等地8个县3.5 万人受灾，18人受伤，紧急转移安置2.3万人。”这句话为例，句中的事件触发词为“地震”。通过取“地震”左右各5个词汇作为上下文窗口，并进行标注，通过学习触发词的上下文特征输入模型进行训练。后面的文本“8个县3.5万人受灾，18人受伤，紧急转移安置2.3万人。”中，进行同样的操作，标注触发词 “受灾”、“受伤”、“转移安置”通过不断的训练，使得模型能够识别这些特征词，实现灾情信息特征词的识别。

其次，采用支持向量机模型，对事件标注语料进行训练，生成特征模板；支持向量机(SVM)是有监督的机器学习算法，可通过训练得到支持向量，即能够正确划分类别的集合。其基本思想是先找到一个分类面，然后将两类样本分割开。在文本分类中，通过对训练集进行测试，得到样本类别，然后依据得到的类别对测试集进行分类。SVM是基于统计学理论原理，在处理小样本、非线性和高维向量模式识别问题中表现出了很大的优势。事件类型判别SVM函数的一般形式为：g(x)＝w^Tx+b＝0，参数w和b分别为超平面的法向量和截距。所有在上间隔边界上方的样本属于正类，在下间隔边界下方的样本属于负类。根据灾害事件文本，设置多个事件信息判别函数，选用“一对一”分类方法进行事件的多元分类，采用交叉验证选择最佳参数，生成SVM事件判别模型。通过事件标注语料进行训练生成合适的参数w和b得到特征模板。最后，基于特征模板和支持向量机模型，对事件描述文本进行过滤，划分候选事件和非事件文本，实现事件信息抽取。

事件的整个描述文本中包含中众多信息，由于整个事件文本包含许多无用信息，需要将与事件相关的文本抽取出来。基于构建的支持向量机模型和特征词库，对文本中的特征词和特征向量进行识别。通过利用判别公式g(x)＝w^TX_i+b，输入事件文本特征词和特征向量表示为X_i，作为模型的输入值。当

时，模型判断输入的文本为正类，X_i为目标事件信息。否则，当

时，模型判断输入的文本为负类，X_i为其它类型文本，结果一直不满足要求，说明该文本不属于任意一个候选事件，不属于事件中的信息文本，从中能获取得到的灾情信息就少，不需要进行灾情信息抽取。

以事件描述文本为例，通过字符串匹配或文本分词技术，将文本与触发词库进行对比。当文本中检测到触发词“沙尘暴”时，则判断该灾害事件类型为沙尘暴。随后，利用SVM模型对整个事件的输入文本进行检测，可以准确识别到文本中的特征词，如“能见度”“小于”“沙尘”“持续”等。再对特征词与特征词库进行对比，判断是否符合沙尘暴事件类型。完成事件识别和提取过程，最终得到沙尘暴事件信息文本。

(4)舆情信息聚合是将各种数据来源中分散的相关信息碎片，围绕某个主题将其整合成完整的、有参考价值的信息。可以分别以时间、地点、人物、事物、事件为线索，进行气象灾害舆情信息聚合。本发明中关于气象灾害舆情信息聚合的核心是灾害信息的抽取，包括信息中时间、地点、人物、事物和气象灾害事件的抽取，聚合的准确度和效率也取决于抽取的精度。

事件聚合是一个不断迭代往复的过程，根据信息抽取结果，针对已有的事件，需要不断更新相关舆情新闻入库直至事件结束；针对数据库中没有的事件，则需要根据事件聚合的方法逻辑进行处理，从互联网数据中及时发现新的灾害事件。

对于在数据库中存在着已经包含的其它灾害事件，需要遍历当天已存在事件，然后基于事件发生地点、事件中最新舆情时间、事件类型从当日的数据索引中获取更新的相关舆情新闻入库；针对不存在的舆情事件根据互联网爬虫每日获取到的灾害信息进行过滤和处理，同时根据舆情事件的标题及其内容构建权重并判断是否属于气象灾害类舆情事件。

随后，本发明可根据新闻标题的文本进行中文分词处理，并将地点和灾害类型、时间对应存储，即一个地点对应一个舆情事件和时间，将融合后的数据以地点为主进行对比，在同一地点下再将标题数据中的时间和事件类型对比分析，以完成初步的判断。接下来从数据中的标题中抽取地名信息，过滤掉标题不包含地名信息的舆情新闻，并且过滤掉一些特殊地名单位。然后获取该舆情新闻相关灾情抽取信息，过滤掉灾害信息全空的舆情新闻，对于死亡人数数据，如遇到死亡人数非空，则不作相关舆情数量限制直接生成事件。基于相关舆情数量，系统会将新闻事件中的关键字如“受伤人数”、“经济损失”等和数字结合起来，如果超过一定阀值，则判断生成事件。如果新闻和消息中出现较多人员伤亡和较大的经济损失，系统会提取新闻标题的关键词并触发条件从而对相关灾害舆情事件进行监测。同时，综合灾害时间范围、灾害地点、灾害信息阈值等数据完成事件聚合判断，进行事件聚合流程，得到同一事件聚合后的结果。

Claims

1.一种基于要素信息抽取的气象灾害事件聚合方法，其特征在于，所述方法包括以下步骤：

步骤3：利用舆情信息中灾害事件标注语料完成训练的机器学习和深度学习信息抽取模型，结合构建的气象灾害事件的特征词汇库，进行舆情信息中的数据抽取，包括时间、地名、人物、事物和气象灾害事件信息的抽取；

2.根据权利要求1所述的一种基于要素信息抽取的气象灾害事件聚合方法，其特征在于，步骤1中所述构建面向中文文本的气象灾害信息表达体系和标注规范，将从气象灾害信息词汇、句法和语义结构三个层次进行体系构建，并制定基于XML schema的气象灾害事件信息标注操作规范。

3.根据权利要求1所述的一种基于要素信息抽取的气象灾害事件聚合方法，其特征在于，步骤1中所述建立大规模的中文文本标注实验数据，将以GATE(General Architecturefor Text Engineering)为标注平台，进行大规模数据标注，以用于机器学习训练。

4.根据权利要求1所述的一种基于要素信息抽取的气象灾害事件聚合方法，其特征在于，步骤2中所述采用基于链接结构评价的搜索策略和基于网页内容评价的搜索策略两种方式，首先利用基于链接结构评价的搜索策略扩大搜索宽度，然后通过对网页内容与检索模板中的内容进行相似度计算，最终根据计算结果确定是否保留该网页。

5.根据权利要求1所述的一种基于要素信息抽取的气象灾害事件聚合方法，其特征在于，步骤3中所述利用机器学习模型对灾害信息中的时间信息进行抽取，主要利用条件随机场(Conditional Random Fields，CRF)模型进行实现。

6.根据权利要求5所述的一种基于要素信息抽取的气象灾害事件聚合方法，其特征在于，利用CRF对灾害信息中时间信息进行抽取，实现步骤如下：1)解析标注语料格式，获取时间短语起始位置，将其转化为条件随机场模型训练所需要的格式，即BIES序列标注，2)经过上述步骤得到CRF训练所需样本格式，设计特征模板，使用CRF++工具训练，生成CRF模型，3)将所得模型集成到Java项目中，通过自定义的规则得到完整的时间信息，从识别的BIES序列标注结果中提取出识别的时间信息。

7.根据权利要求1所述的一种基于要素信息抽取的气象灾害事件聚合方法，其特征在于，步骤3中所述利用机器学习模型对灾害信息中的事件信息进行抽取，根据事件语句描述特点将事件信息抽取分为三个层次：信息描述较为丰富的句子、事件信息描述较为稀疏的句子和对于事件信息描述较为稀疏的段落。

8.根据权利要求8所述的一种基于要素信息抽取的气象灾害事件聚合方法，其特征在于，机器学习模型在事件信息抽取选择文本范围时，对于信息描述较为丰富的句子，以句子为单位的事件类型判断；对于事件信息描述较为稀疏的句子，则将文本单位扩展至段落范围；对于事件信息描述较为稀疏的段落，则将文本单位扩展至篇章范围。

9.根据权利要求1中所述的基于地址要素索引的中文地址匹配方法，其特征在于，步骤4中所述的对气象灾害舆情信息进行聚合，针对已有的事件，需要不断更新相关舆情新闻入库直至事件结束；针对数据库中没有的事件，则需要根据事件聚合的方法逻辑进行处理，从互联网数据中及时发现新的灾害事件。

10.根据权利要求1中所述的基于地址要素索引的中文地址匹配方法，其特征在于，事件聚合的过程中需要判断的内容包括灾害时间范围、灾害地点、受灾详情、事物关键词和灾情信息阈值数据，结合聚合流程进行综合判断，根据判断结果进行事件聚合。