CN111382332A

CN111382332A - 一种地震灾情信息处理方法及系统

Info

Publication number: CN111382332A
Application number: CN201910260052.5A
Authority: CN
Inventors: 毕雪梅; 左天惠; 安立强
Original assignee: JIANGSU EARTHQUAKE ADMINISTRATION
Current assignee: JIANGSU EARTHQUAKE ADMINISTRATION
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2020-07-07
Anticipated expiration: 2039-04-02
Also published as: CN111382332B

Abstract

本发明公开一种地震灾情信息处理方法及系统，通过对待抓取种子库中的种子进行权重设置，根据权重信息对种子进行信息抓取，获得灾情数据，对灾情数据进行信息提取后得到灾情信息，然后对灾情信息进行去标签、去重和过滤处理，然后统计地震震感信息和地震灾情信息，更新数据库信息。本发明对种子进行权重设置，按照权重顺序进行抓取排序，提高了抓取信息的高效性，并且对灾情信息进行去标签、去重和过滤处理，使得对地震信息的采集和处理更加高效和准确。

Description

一种地震灾情信息处理方法及系统

技术领域

本发明涉及信息处理领域，特别是涉及一种地震灾情信息处理方法及系统。

背景技术

自汶川地震以来，地震灾害逐步受到全社会的重视以及国内外媒体的广泛关注。地震灾害的程度、影响范围、发展趋势、社会影响、次生灾害、应急救援进展等灾情信息的快速准确获取和处理是整个地震应急救援工作的核心，也是应急指挥决策的关键。但是目前的地震灾情信息采集还存在一些问题，主要表现为：(1)网络信息采集主要靠人工采集，时间紧、任务重、效率低；(2)采集错误率高，容易将往期地震或者近期地震的灾情信息误作为当前地震的信息进行采集；(3)网络信息程序采集误采率高、无效信息多，主要表现为：网页上的广告、无效链接和文件多，采集到的很多地震信息与当前地震事件或者与地震应急救援无关的信息多；(4)网络信息程序采集到的新闻信息重复率高(有时甚至多达50-80％)。这些问题，导致震后灾情信息处理难度高、工作量大、效率低、准确率低。因此，无法满足应急救援和指挥决策的需求。

发明内容

本发明的目的是提供一种地震灾情信息处理方法及系统，提高了信息采集和处理的效率和准确性。

为实现上述目的，本发明提供了如下方案：

一种地震灾情信息处理方法，所述方法包括：

对待抓取种子库中的种子进行权重设置，确定所述种子的抓取顺序；

按照所述抓取顺序对相应的所述种子进行信息抓取，获得灾情数据；

对所述灾情数据进行信息提取，得到灾情信息；

通过对所述灾情信息进行去标签、去重和过滤处理，并分类统计地震震感信息和地震灾情信息。

可选的，所述对待抓取种子库中的种子进行权重设置，确定所述种子的抓取顺序具体包括：

根据所述待抓取种子库的种子的实时性、历史可信度和信息量，确定所述待抓取种子库中的种子的优先权和可信度；

根据所述优先权和可信度对所述种子进行权重设置；

删除所述权重低于权重阈值的种子对应的网络地址；

按照从高到低的顺序对所述权重进行排序。

可选的，所述按照所述抓取顺序对相应的所述种子进行信息抓取，获得灾情数据具体包括：

自动访问中国地震台网网站识别震情，自动触发爬虫程序采集所述灾情数据；

手动启动所述爬虫程序采集所述灾情数据。

可选的，所述对所述灾情数据进行信息提取，得到灾情信息具体包括：

对抓取到的网页链接进行标准化处理获得完整链接；

获取所述完整链接的显示内容；

利用行块分布函数对所述显示内容的正文进行抽取，获得所述完整链接的正文内容；

利用正则表达式对所述显示内容进行时间的提取；

利用锚链接和超文本标记语言html标签对所述显示内容进行标题的提取；

结合所述正文内容、所述时间和所述标题，形成所述灾情信息。

可选的，所述通过对所述灾情信息进行去标签、去重和过滤处理，并统计地震震感信息和地震灾情信息具体包括：

根据正则表达式去除所述灾情信息的所述html标签；

判断原始数据库中是否存在所述灾情信息对应的网站地址，若存在所述网站地址，则去除所述网站对应的重复的信息；

对所述灾情信息进行地震事件相关性判断，若没有相关性则过滤没有相关性的信息；

对经过去标签、去重和过滤处理的所述灾情信息进行统计，得到所述震感信息和所述地震灾情信息；

将所述震感信息和所述地震灾情信息保存至数据库中，完成对所述数据库的更新。

一种地震灾情信息处理系统，所述系统包括：

抓取顺序确定单元，用于对待抓取种子库中的种子进行权重设置，确定所述种子的抓取顺序；

抓取单元，用于按照所述抓取顺序对相应的所述种子进行信息抓取，获得灾情数据；

提取单元，用于对所述灾情数据进行信息提取，得到灾情信息；

处理单元，用于通过对所述灾情信息进行去标签、去重和过滤处理，并分类统计地震震感信息和地震灾情信息。

可选的，所述抓取顺序确定单元具体包括：

优先权和可信度确定模块，用于根据所述待抓取种子库的种子的实时性、历史可信度和信息量，确定所述待抓取种子库中的种子的优先权和可信度；

权重设置模块，用于根据所述优先权和可信度对所述种子进行权重设置；

删除模块，用于删除所述权重低于权重阈值的种子对应的网络地址；

排序模块，用于按照从高到低的顺序对所述权重进行排序。

可选的，所述抓取单元具体包括：

自动访问模块，用于自动访问中国地震台网网站识别震情，自动触发爬虫程序采集所述灾情数据；

手动访问模块，用于手动启动所述爬虫程序采集所述灾情数据。

可选的，所述提取单元具体包括：

标准化处理模块，用于对抓取到的网页链接进行标准化处理获得完整链接；

显示内容获取模块，用于获取所述完整链接的显示内容；

正文抽取模块，用于利用行块分布函数对所述显示内容的正文进行抽取，获得所述完整链接的正文内容；

时间提取模块，用于利用正则表达式对所述显示内容进行时间的提取；

标题提取模块，用于利用锚链接和超文本标记语言html标签对所述显示内容进行标题的提取；

灾情信息形成模块，用于结合所述正文内容、所述时间和所述标题，形成所述灾情信息。

可选的，所述处理单元具体包括：

去标签模块，用于根据正则表达式去除所述灾情信息的所述html标签；

去重模块，用于判断原始数据库中是否存在所述灾情信息对应的网站地址，若存在所述网站地址，则去除所述网站对应的重复的信息；

过滤模块，用于对所述灾情信息进行地震事件相关性判断，若没有相关性则过滤没有相关性的信息；

统计模块，用于对经过去标签、去重和过滤处理的所述灾情信息进行统计，得到所述震感信息和所述地震灾情信息；

数据库更新模块，用于将所述震感信息和所述地震灾情信息保存至数据库中，完成对所述数据库的更新。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明通过对待抓取种子库中的种子进行权重设置，根据权重信息对种子进行信息抓取，获得灾情数据，对灾情数据进行信息提取后得到地震灾情信息，然后对地震灾情信息进行去标签、去重和过滤处理，然后分类统计震感信息和14类地震灾情信息，更新数据库信息。本发明对种子进行权重设置，按照权重排列抓取顺序，能够提高抓取信息的高效性，并且对地震灾情信息进行去标签、去重和过滤处理，使得对地震信息的采集和处理更加高效和准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的实施例提供的地震灾情信息处理方法的流程图；

图2为本发明的实施例提供的地震灾情信息处理系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种地震灾情信息处理方法及系统，使得地震灾情信息的采集和处理更加高效和准确。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例

通过平板或者电脑设置查询条件，来查询数据库中往期或者当前地震事件的网络信息，当数据库中存在要查询的地震事件信息时，则将信息进行可视化，当数据库中没有要查询的地震事件信息时，则按照地震灾情信息处理方法更新数据库，以准确高效地存储更多的地震灾情信息。

如图1所示，该地震灾情信息处理方法包括：

步骤101：对待抓取种子库中的种子进行权重设置，确定所述种子的抓取顺序。

根据权重能够判断种子的重要性，有利于使信息的相关性更高，提高信息的有效性。

所述对待抓取种子库中的种子进行权重设置，确定所述种子的抓取顺序具体包括：

根据所述待抓取种子库的种子的实时性、数据量和历史可信度，确定所述待抓取种子库中的种子的优先权和可信度。

根据所述优先权和可信度对所述种子进行权重设置。

实时性是比较相同新闻或信息之间的发布时间，如果发布时间越早，则代表实时性越高，而实时性越高的信息，更有利于地震灾情的分析和应急指挥决策。

数据量指的是对于相同的地震事件，从每个种子采集到的有用信息的类别和数量。数据量越大，则代表从该种子里获得的有用信息的价值和效率越高，对辅助灾情评估和应急指挥决策的贡献越大。

历史可信度指的是往期地震事件，从每个种子采集到的信息的真实性。历史可信度越高，则代表从该种子里获取的往期地震灾情信息的错误率越少。

根据实时性、数据量和历史可信度来判断种子的优先权和可信度，能够更准确全面地获取灾情信息，为应急救援和指挥决策提供更有力的信息保障。

删除所述权重低于权重阈值的种子对应的网络地址。

按照从高到低的顺序对所述权重进行排序。

对于错误种子以及采集到的信息错误率较高的种子库，降低其优先权，即退后其信息爬取的顺序，降低其可信度；并且在种子权重低于权重阈值时，删除该种子对应的网络地址，这样就不会对该网络地址的信息进行爬取，从而避免信息错误的影响，同时对权重进行由高到低的排序，使得爬取的顺序是按照权重的高低进行，提高数据采集的效率和准确性性，进而缩小信息爬取的范围，提高工作效率。

步骤102：按照所述抓取顺序对相应的所述种子进行信息抓取，获得灾情数据。

本申请中，具体采用以下方法获得灾情数据：

自动访问中国地震台网网站，触发爬虫程序自动采集所述灾情数据。

该方法使用编程语言Java的SpringMVC框架中@Scheduled函数实现。该函数每隔3分钟访问一次中国地震台网网站CENC，当CENC中有新的地震事件发布时，系统利用Java的JSON库对CENC上的地震事件信息进行解析，以获取地震发生的时间、地点(含经纬度)、震级、震源深度等信息，之后启动爬虫程序从网络上获取与该地震事件名称有关的地震震情、灾情和应急救援等14类信息，使得信息的抓取更加及时全面。

手动启动所述爬虫程序采集所述灾情数据。

在采用同步请求来启动爬虫程序时，则需要等待上一次爬虫结束后，服务器将结果返回给Web浏览器端，才能响应同步请求，执行下一步操作，避免了信息的重复采集。

步骤103：对所述灾情数据进行信息提取，得到灾情信息。

本申请中，具体采用以下步骤进行信息提取：

对抓取到的网页链接进行标准化处理获得完整链接，获取所述完整链接的显示内容。

根据初始链接，自动从网页中获取新链接，由于网页上的链接表示方法多样，获取的链接可能并不完整，如：/a？i＝3，/../a/b。因此需要对抓取到的网页链接进行标准化处理，以得到一个完整的链接地址，即去除掉超链接中的“./”,“../”等描述资源逻辑地址的符号，将初始链接的域名加入到新链接的开头，并获得以http开头的完整链接。

此外，对于网页中的链接可能是一些下载的文件，比如：pdf文件、word文件、视频文件等，系统将自动过滤这些需要下载文件的网址，过滤方式采用正则表达式。当链接末尾含有pdf、doc、docx、wmv等信息时，则过滤该链接，从而提高新链接获取的效率。

利用行块分布函数对所述显示内容的正文进行抽取，获得所述完整链接的正文内容。

本方法采用的是基于行块分布函数的通用网页正文抽取算法，该算法具体为：(1)HTML每一行都表示一个完整的语义；(2)正文代码在物理位置上会靠的很近；(3)正文代码的一行中大多是文字；(4)正文代码的一行中非HTML标签的文字数量较多；(5)正文代码的一行中超链接长度所占的比率不会很大。算法将网页正文抽取问题转换为求页面的行块分布函数，并完全脱离HTML标签，使得信息提取的准确率在95％以上。

利用正则表达式对所述显示内容进行时间的提取。

获得信息的发表时间有利于用户直接观察到信息发布的时间，而不必点击每一篇文章进行观看，降低了信息处理的时间，提高了工作效率。

利用锚链接和超文本标记语言html标签对所述显示内容进行标题的提取。

如果网页有锚文本，则使用锚文本中的文字作为标题；如果没有锚文本，则系统依次从网页中的题目和标签进行获取，将获取的文本信息作为标题。

对灾情信息的提取，能够排除无效信息，进而提高数据的有效性。

步骤104：对所述灾情信息进行去标签、去重和过滤处理，并分类统计地震震感信息和地震灾情信息。

本申请中，具体采用以下步骤统计地震震感信息和地震灾情信息

根据正则表达式去除所述灾情信息的所述html标签。

判断原始数据库中是否存在所述灾情信息对应的网站地址，若存在所述网站地址，则去除所述网站对应的重复的信息。

对所述灾情信息进行地震相关性判断，若没有相关性则过滤没有相关性的信息。

对经过去标签、去重和过滤处理的所述灾情信息进行分类统计，得到所述震感信息和所述地震灾情信息。

在震感信息统计过程中，本方法利用发震省份以及周边省份的地名词典来获取具有震感信息的地点。其中，震感信息分为有感、震感明显和震感强烈三部分，每个震感信息中具有相应的关键词，当震感信息关键词匹配成功时，则利用关键词和地名词典来获取震感地点，当匹配不成功时，则删除对应的信息。

在地震灾情信息分类统计的过程中，根据预定义的地震词典对同一地震事件的地震灾情信息进行分类统计。其中，地震词典中的地震灾情信息分14个类别，包括震感信息、房屋破坏、人员伤亡、基础设施破坏、生命线破坏、次生灾害、经济损失、社会影响、政府行动、救援行动、志愿行动、地震局行动、震害分析和救灾建议。

通过对地震灾情信息的分类统计，便于用户对灾情的具体分析，为灾情评估和应急指挥提供辅助决策支持，同时提高应急处置和指挥决策的精准性和科学性。

如图2所示，本发明提供的地震灾情信息处理系统包括：抓取顺序确定单元201、抓取单元202、提取单元203和处理单元204。

抓取顺序确定单元201，用于对待抓取种子库中的种子进行权重设置，确定所述种子的抓取顺序。

抓取顺序确定单元201具体包括：

优先权和可信度确定模块，用于根据所述待抓取种子库的种子的实时性、数据量和历史可信度，确定所述待抓取种子库中的种子的优先权和可信度。

权重设置模块，用于根据所述优先权和可信度对所述种子进行权重设置。

删除模块，用于删除所述权重低于权重阈值的种子对应的网络地址。

排序模块，用于按照从高到低的顺序对所述权重进行排序。

抓取单元202，用于按照所述抓取顺序对相应的所述种子进行信息抓取，获得灾情数据。

抓取单元202具体包括：

自动访问模块，用于自动访问中国地震台网网站，触发爬虫程序自动采集所述灾情数据。

使用编程语言Java的SpringMVC框架中@Scheduled函数实现。该函数每隔3分钟访问一次中国地震台网网站CENC，当CENC中有新的地震事件发布时，系统利用Java的JSON库对CENC上的地震事件信息进行解析，以获取地震发生的时间、地点(含经纬度)、震级、震源深度等信息，之后启动爬虫程序从网络上获取与该地震事件名称有关的地震震情、灾情和应急救援等信息，使得信息的抓取更加及时全面。

提取单元203，用于对所述灾情数据进行有效信息提取，得到灾情信息。

提取单元203具体包括：

标准化处理模块，用于对抓取到的网页链接进行标准化处理获得完整链接。

显示内容获取模块，用于利用行块分布函数对所述显示内容的正文进行抽取，获取所述完整链接的显示内容。

本系统采用的是基于行块分布函数的通用网页正文抽取算法，该算法具体为：(1)HTML每一行都表示一个完整的语义；(2)正文代码在物理位置上会靠的很近；(3)正文代码的一行中大豆是文字；(4)正文代码的一行中非HTML标签的文字数量较多；(5)正文代码的一行中超链接长度所占的比率不会很大。算法将网页正文抽取问题转换为求页面的行块分布函数，并完全脱离HTML标签，使得信息提取的准确率在95％以上。

时间提取模块，用于利用正则表达式对所述显示内容进行时间的提取。

标题提取模块，用于利用锚链接和超文本标记语言html标签对所述显示内容进行标题的提取。

如果网页有锚文本，则使用锚文本中的文字作为标题；如果没有锚文本，则系统依次从网页中的的题目和标签进行获取，将获取的文本信息作为标题。

地震灾情信息形成模块，用于结合所述正文内容、所述时间和所述标题，形成所述地震灾情信息。

处理单元204，用于对所述灾情信息进行去标签、去重和过滤处理，并统计地震震感信息和地震灾情信息。

处理单元204具体包括：

去标签模块，用于根据正则表达式去除所述地震灾情信息的所述html标签；

过滤模块，用于对所述灾情信息进行地震相关性判断，若没有相关性则过滤没有相关性的信息；

统计模块，用于对经过去标签、去重和过滤处理的所述灾情信息进行统计，得到所述震感信息和所述地震灾情信息。

在震感信息统计过程中，本方法利用发震省份以及周边省份的地名词典来获取具有震感信息的地点。其中，震感信息分为有感、震感强烈和震感明显三部分，每个震感信息中具有相应的关键词，当震感信息关键侧匹配成功时，则利用关键词和地名词典来获取震感地点，当匹配不成功时，则删除对应的信息。

数据库更新模块，用于将将所述震感信息和所述地震灾情信息保存至数据库中，完成对所述数据库的更新。

对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种地震灾情信息处理方法，其特征在于，所述方法包括：

对所述灾情数据进行信息提取，得到灾情信息；

对所述灾情信息进行去标签、去重和过滤处理，并分类统计地震震感信息和地震灾情信息。

2.根据权利要求1所述的地震灾情信息处理方法，其特征在于，所述对待抓取种子库中的种子进行权重设置，确定所述种子的抓取顺序具体包括：

根据所述优先权和可信度对所述种子进行权重设置；

删除所述权重低于权重阈值的种子对应的网络地址；

按照从高到低的顺序对所述权重进行排序。

3.根据权利要求1所述的地震灾情信息处理方法，其特征在于，所述按照所述抓取顺序对相应的所述种子进行信息抓取，获得灾情数据具体包括：

手动启动所述爬虫程序采集所述灾情数据。

4.根据权利要求1所述的地震灾情信息处理方法，其特征在于，所述对所述灾情数据进行信息提取，得到灾情信息具体包括：

对抓取到的网页链接进行标准化处理获得完整链接；

获取所述完整链接的显示内容；

利用正则表达式对所述显示内容进行时间的提取；

5.根据权利要求1所述的地震灾情信息处理方法，其特征在于，所述对所述灾情信息进行去标签、去重和过滤处理，并统计地震震感信息和地震灾情信息具体包括：

根据正则表达式去除所述灾情信息的所述html标签；

6.一种地震灾情信息处理系统，其特征在于，所述系统包括：

处理单元，用于对所述灾情信息进行去标签、去重和过滤处理，并分类统计地震震感信息和地震灾情信息。

7.根据权利要求6所述的地震灾情信息处理系统，其特征在于，所述抓取顺序确定单元具体包括：

排序模块，用于按照从高到低的顺序对所述权重进行排序。

8.根据权利要求6所述的地震灾情信息处理系统，其特征在于，所述抓取单元具体包括：

9.根据权利要求6所述的地震灾情信息处理系统，其特征在于，所述提取单元具体包括：

显示内容获取模块，用于获取所述完整链接的显示内容；

10.根据权利要求6所述的地震灾情信息处理系统，其特征在于，所述处理单元具体包括：