CN112231483A

CN112231483A - 灾情追踪方法、系统、设备和存储介质

Info

Publication number: CN112231483A
Application number: CN202011231091.1A
Authority: CN
Inventors: 孙洪泉; 杜治高; 杨晓静; 苏志诚; 吕娟; 武剑峰; 李明; 高辉; 江鹏; 王亚许; 王肖
Original assignee: Cheng'an Rongchuang Beijing Information Technology Co ltd; China Institute of Water Resources and Hydropower Research
Current assignee: Cheng'an Rongchuang Beijing Information Technology Co ltd; China Institute of Water Resources and Hydropower Research
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-01-15

Abstract

本发明提供一种灾情追踪方法、系统、设备和存储介质，其中方法包括：获取与旱情相关的原始信息；对原始信息进行提抽取信息、去重清洗、信息分类和情感分析；对处理后的信息进行统计分析。本发明通过深度学习对原始信息进行处理，实现对灾情信息进行分类，最终进行统计分析和可视化，具有识别准确、效率高、分析全面和对灾情的舆论进行实时监控等优点。

Description

灾情追踪方法、系统、设备和存储介质

技术领域

本发明涉及旱情信息处理技术领域，尤其是涉及一种灾情追踪方法、系统、设备和存储介质。

背景技术

干旱通常指淡水总量少，不足以满足人的生存和经济发展的气候现象，一般是长期的现象，干旱从古至今都是人类面临的主要自然灾害。即使在科学技术如此发达的今天，它造成的灾难性后果仍然比比皆是。尤其值得注意的是，随着人类的经济发展和人口膨胀，水资源短缺现象日趋严重，这也直接导致了干旱地区的扩大与干旱化程度的加重，干旱化趋势已成为全球关注的问题。

随着网络的发展，使得信息会快速地进行传播，一旦某地出现干旱，就会在相关的网站上出现关于该地干旱的一些新闻报道，这些新闻报道有的是正面的、客观的报道，也有些是负面、歪曲事实的报道。为了社会的和谐发展，对网络上关于旱情的舆论监控显得非常重要。但是在现有技术中，还没有相关技术对网络上关于旱情的舆论进行监控。

发明内容

为了解决上述技术问题，本发明提供一种可以对旱情舆论进行监控的灾情追踪方法、系统、设备和存储介质。

本发明的一种技术方案是：提供一种灾情追踪方法，包括如下步骤：

获取与灾情相关的原始信息；

对原始信息进行提抽取信息、去重清洗、信息分类和情感分析；

对处理后的信息进行统计分析。

作为对本发明的改进，在对原始信息进行提抽取信息、去重清洗、信息分类和情感分析的步骤中，提抽取信息包括：从原始信息中提取正文，并从正文中抽取相关的内容信息。

作为对本发明的改进，在对原始信息进行提抽取信息、去重清洗、信息分类和情感分析的步骤中，去重清洗包括：

去除重复的原始信息；

将原始信息清洗并分类成旱情信息和非旱情信息。作为对本发明的改进，在去除重复的原始信息的步骤中，包括：

过滤掉重复的链接和过滤掉重复的内容。

作为对本发明的改进，在将原始信息清洗并分类成旱情信息和非旱情信息的步骤中，包括：

从原始信息中获取若干第一样本信息并形成第一样本文件；

将第一样本文件分为第一测试集和第一验证集；

对第一测试集中的第一样本文件进行训练得到第一训练模型；

用第一验证集检验第一训练模型；

使用第一训练模型将原始信息分类成旱情信息和非旱情信息。

作为对本发明的改进，在对原始信息进行提抽取信息、去重清洗、信息分类和情感分析的步骤中，信息分类包括：将旱情信息分类成热点信息和非热点信息。

作为对本发明的改进，在将旱情信息分类成热点信息和非热点信息的步骤中，包括：

从旱情信息中获取若干第二样本信息并形成第二样本文件；

将第二样本文件分为第二测试集和第二验证集；

对第二测试集中的第二样本文件进行训练得到第二训练模型；

用第二验证集检验第二训练模型；

使用第二训练模型将旱情信息分类成热点信息和非热点信息。

作为对本发明的改进，在对原始信息进行提抽取信息、去重清洗、信息分类和情感分析的步骤中，情感分析包括：将旱情信息分类成正面报道信息和负面报道信息。

本发明的另一种技术方案是：提供一种灾情追踪系统，包括：

信息获取模块，用于获取与旱情相关的原始信息；

信息处理模块，用于对原始信息进行提抽取信息、去重清洗、信息分类和情感分析；

信息管理模块，用于对处理后的信息进行专题分析和统计分析。

本发明的第三种技术方案是：提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现上述灾情追踪方法的步骤。

本发明的第四种技术方案是：提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述灾情追踪方法的步骤。

本发明通过深度学习对原始信息进行处理，实现对旱情信息进行分类，最终进行统计分析和可视化，具有识别准确、效率高、分析全面和对旱情的舆论进行实时监控等优点。

附图说明

图1是本发明中灾情追踪方法的流程示意图。

图2是本发明中灾情追踪系统的结构示意框图。

图3是本发明中计算机设备的结构示意框图。

图4是本发明中各城市旱情报道占比示意图。

图5是本发明中近一周各城市的旱情媒体关注程度示意图。

图6是本发明中每周旱情报道数量的示意图。

图7是本发明中媒体关注度趋势示意图。

图8是本发明中旱情监测示意图。

图9是本发明中在舆情时区域受关注程度示意图。

图10是本发明中旱情监测示意图。

其中：

11.信息获取模块；12.信息处理模块；13.信息管理模块；71.处理器； 72.输入接口；73.网络端口；74.显示单元；75.存储器。

具体实施方式

在本发明的描述中，需要理解的是，术语中“中心”、“上”、“下”、“前”、 “后”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或组件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

一、本发明提供一种灾情追踪方法，请参见图1，包括如下步骤：

S100,获取与旱情相关的原始信息。

S200,对原始信息进行提抽取信息、去重清洗、信息分类和情感分析。

S300,对处理后的信息进行专题分析和统计分析。

在上述步骤S100中，使用爬虫从外部站点上获取与旱情有关的原始信息(原始数据)。得到原始信息后，将其统一转换为UTF-8编码，并将得到的原始信息存储，可以存储到关系型数据库，如Mysql数据库等。

外部站点是与旱情相关的原始信息的数据源。基于Scrapy框架的 CrawlSpider组件集成了Splash工具，设计和开发了爬虫采集器。Splash可以模拟浏览器插件，用于动态网页的爬取。爬虫采集器分布式、定时反复地从外部站点爬取旱情相关的信息。单次爬取时，爬虫采集器通过读取用户配置的规则，自动抓取输入URL上的所有有效链接和页面内容，并支持按照用户配置从爬取的网页中抽取文章标题、发文单位、发文日期等关键信息。

外部站点包括政府门户网站、百度新闻、微信公众号、今日头条、新浪微博。政府门户网站包括部委和地方政府门户网站。百度新闻中以传统官媒新闻为主，其内容相对严肃。微信公众号以企业和组织公众号为主，其信息管控严，内容可靠程度高。今日头条中涉及新闻、百科、提问和讨论等各类信息，且有用户评论。新浪微博中的个人微博虽然发布内容较多，但信息可靠程度低；相比而言，官媒微博的信息有用户评论，可靠程度高。

在上述步骤S200中，提抽取信息包括从原始信息中提取正文，并从正文中抽取相关的内容信息，相关的内容信息包括旱情时间、地点、严重程度、损失和应对措施等等。需要说明的是，从原始信息中识别正文，并提取正文。抽取相关的内容信息，主要采用的是关键字识别技术。

在上述步骤S200中，去重清洗适用于将不相关内容删除，从结果中分析规律，修正部分错误结果信息，主要包括如下步骤：

S201，去除重复的原始信息。

包括过滤掉重复的链接，和过滤掉重复的内容。重复的链接，只要网络地址相同，就可以认为是重复的链接。重复的内容，需要对内容进行识别，只要内容相似度达到95％就可以认为是重复的内容。

S202，将原始信息清洗并分类成旱情信息和非旱情信息。

在上述步骤S202中，将原始信息清洗并分类成旱情信息和非旱情信息，包括如下步骤：

S2021，从原始信息中获取若干第一样本信息并形成第一样本文件。

具体地说，从关系型数据库的原始信息中导出若干第一样本信息并保存至第一样本文件。需要说明的是，导出方式采取随机导出，并且导出的样本数量也可以根据需要进行设定。

S2022，将第一样本文件分为第一测试集和第一验证集。

将第一样本文件分为两个类别，两个类别分别为第一测试集和第一验证集，两个类别中的第一样本信息的数量可以相同，也可以不相同。也就是说，第一测试集中的第一样本信息的数量，和第一验证集中的第一样本信息的数量相同或者不相同。

S2023，对第一测试集中的第一样本文件进行训练得到第一训练模型。

S2024，用第一验证集检验第一训练模型。

S2025，使用第一训练模型将原始信息分类成旱情信息和非旱情信息。分类的时候，将分类结果存入到关系型数据库。

在上述步骤S2023中，对第一测试集中的第一样本文件进行训练得到第一训练模型包括如下步骤：

S20231，将第一测试集中的若干第一样本文件标注为干旱和非干旱，即标注的类型是干旱和非干旱。标注时，采用人工进行标注。也就是说，通过人工识别若干第一样本文件为干旱或非干旱，识别过程中，将具有干旱信息的若干第一样本文件标记为干旱，将不具有干旱信息的若干第一样本文件标记为非干旱。需要说明的是，不一定必须采用干旱和非干旱进行标记，也可以采用其他名称进行标记，只要能够区分干旱信息和非干旱信息都在本发明的保护范围中。

S20232，使用逻辑回归算法第一测试集中的若干第一样本文件进行训练得到第一训练模型。如何得到第一训练模型的具体步骤如下：

S1，得到训练模型函数，也叫做逻辑回归公式。

g(z)＝1/1+e^wx 公式一

其中，g(z)值域为(0，1)，对于向量x，g(z)大于0.5判定x为标注为干旱的第一样本文件；小于0.5判定x为标注为非干旱的第一样本文件。

S2，第一训练模型训练。

将文本通过分词、去除停用词、TF-IDF算法计算权重，分别将标注为干旱的若干第一样本文件和标注为非干旱的第一样本文件转变为向量x，然后将向量 x和g(z)值输入到公式一中，拟合分类概率最高的w₀，得到第一训练模型。在此过程中，会得到若干w，这时候，需要随机找一组参数w，然后输入的x和标注的类型，通过梯度下降的方法迭代更新w，直到找到最优解，即找到拟合分类概率最高的w₀，第一训练模型为

在上述步骤S2024中，用第一验证集检验第一训练模型，包括如下步骤：

S20241，将第一验证集中的若干第一样本文件标注为干旱和非干旱，即标注的类型是干旱和非干旱。标注时，采用人工进行标注。也就是说，通过人工识别若干第一样本文件是否为干旱或非干旱，识别完成后，将具有干旱信息的若干第一样本文件标记为干旱，将没有具有干旱信息的若干第一样本文件标记为非干旱。需要说明的是，不一定必须采用干旱和非干旱进行标记，也可以采用其他名称进行标记，只要能够区分干旱信息和非干旱信息都在本发明的保护范围中。

S20242，第一训练模型检验。

将文本通过分词、去除停用词、TF-IDF算法计算权重，分别将标注为干旱的若干第一样本文件和标注为非干旱的第一样本文件转变为向量x，然后将向量 x和g(z)值输入到公式二第一训练模型

中，验证第一训练模型的准确度。准确率的标准有两个：准确率和召回率，准确率就是被分对的样本数量除以样本总数量，召回率是召回率是覆盖面的度量，度量有多少比例的正例被分为正例，则调整算法参数并再次进行模型训练。也就是说，验证第一训练模型的准确度不够高，就需要重新训练第一训练模型，直到验证准确率达标。

在上述步骤S200中，信息分类包括：将旱情信息分类成热点信息和非热点信息。这里所说的热点信息是指占据了一定网络流量，并且受到了一定的关注，关注度很高，被转发和评论的次数很多。非热点信息是指没有占据了一定网络流量，关注度不够高，被转发和评论的次数很少。在将旱情信息分类成热点信息和非热点信息的步骤中，具体包括如下步骤：

S2031，从旱情信息中获取若干第二样本信息并形成第二样本文件。

具体地说，从关系型数据库的旱情信息中的导出若干第二样本信息并保存至第二样本文件。需要说明的是，随机导出，并且导出的数量也可以根据需要进行选择。

S2032，将第二样本文件分为第二测试集和第二验证集。

将第二样本文件分为两个类别，两个类别分别为第二测试集和第二验证集，两个类别中的第二样本信息的数量可以相同，也可以不相同。也就是说，第二测试集中的第二样本信息的数量，和第二验证集中的第二样本信息的数量相同或者不相同。

S2033，对第二测试集中的第二样本文件进行训练得到第二训练模型。

S2034，用第二验证集检验第二训练模型。

S2035，使用第二训练模型将旱情信息分类成热点信息和非热点信息。分类的时候，将分类结果存入到关系型数据库

在上述步骤S2033中，对第二测试集中的第二样本文件进行训练得到第二训练模型包括如下步骤：

S20331，将第二测试集中的若干第二样本文件标注为热点信息和非热点信息，即标注的类型是热点信息和非热点信息。标注时，采用人工进行标注。也就是说，通过人工识别若干第二样本文件是否为热点信息或非热点信息，识别完成后，将若干第二样本文件分别标记为热点信息和非热点信息。需要说明的是，不一定必须采用热点信息和非热点信息进行标记，也可以采用其他名称进行标记，只要能够区分热点信息和非热点信息都在本发明的保护范围中。

S20332，使用逻辑回归算法对标注为热点信息的若干第二样本文件进行训练得到第二训练模型。如何得到第二训练模型的具体步骤如下：

S11，得到训练模型函数，也叫做逻辑回归公式。

其中，g₁(z)值域为(0，1)，对于向量x，g₁(z)大于0.5判定x为标注为热点信息的第二样本文件；小于0.5判定x为标注为非热点信息的第二样本文件。

S12，第二训练模型训练。

将文本通过分词、去除停用词、TF-IDF算法计算权重，分别将标注为热点信息的若干第二样本文件和标注为非热点信息的第二样本文件转变为向量x，然后将向量x和g(z)值输入到公式三中，拟合分类概率最高的w₁₁，得到第二训练模型。在此过程中，会得到若干w₁，这时候，需要随机找一组参数w₁，然后输入的x和标注的类型，通过梯度下降的方法迭代更新w₁，直到找到最优解，即找到拟合分类概率最高的w₁₁，第二训练模型为

在上述步骤S2034中，用第二验证集检验第二训练模型，包括如下步骤：

S20341，将第二验证集中的若干第二样本文件标注为热点信息和非热点信息，即标注的类型是热点信息和非热点信息。标注时，采用人工进行标注。也就是说，通过人工识别若干第二样本文件是否为热点信息或非热点信息，识别完成后，将若干第二样本文件分别标记为热点信息和非热点信息。需要说明的是，不一定必须采用热点信息和非热点信息进行标记，也可以采用其他名称进行标记，只要能够区分热点信息和非热点信息都在本发明的保护范围中。

S20342，第二训练模型检验。

将文本通过分词、去除停用词、TF-IDF算法计算权重，分别将标注为热点信息的若干第二样本文件和标注为非热点信息的第二样本文件转变为向量x，然后将向量x和g(z)值输入到公式四第二训练模型

中，验证第二训练模型的准确度。准确率的标准有两个：准确率和召回率，准确率就是被分对的样本数量除以样本总数量，召回率是召回率是覆盖面的度量，度量有多少比例的正例被分为正例，则调整算法参数并再次进行模型训练。也就是说，验证第二训练模型的准确度不够高，就需要重新训练第二训练模型，直到验证准确率达标。

在上述步骤S200中，在对原始信息进行提抽取信息、去重清洗、信息分类和情感分析的步骤中，情感分析包括：将旱情信息分类成正面报道信息和负面报道信息。

情感分析使用Google Bert框架的情感分析实现。Google Bert利用 Transformer超强的特征抽取能力来学习词语的双向编码表示，融合了上下文信息的词语编码能更好地进行情感决策。它既引入了LSTM的双向编码机制同时还采用了GPT中的Transformer来做特征抽取，具有非常强大的文本特征提取能力，能学习到句子中潜在的句法和语义信息。除此之外，Bert基于character-level 做embedding，就不存在分词以及测试集包含训练集中未出现词的困扰了，这些优点使得Bert能够比较好得解决情感分类问题。

情感分析的具体步骤如下：

S2041，从旱情信息中获取若干第三样本信息并形成第三样本文件。

具体地说，从关系型数据库的旱情信息中的导出若干第三样本信息并保存至第三样本文件。需要说明的是，随机导出，并且导出的数量也可以根据需要进行选择。

S2042，将第三样本文件分为第三测试集和第三验证集。

将第三样本文件分为两个类别，两个类别分别为第三测试集和第三验证集，两个类别中的第三样本信息的数量可以相同，也可以不相同。也就是说，第三测试集中的第三样本信息的数量，和第三验证集中的第三样本信息的数量相同或者不相同。

S2043，对第三测试集中的第三样本文件进行训练得到第三训练模型。

S2044，用第三验证集检验第三训练模型。

S2045，使用第三训练模型将旱情信息分类成正面报道信息和负面报道信息。分类的时候，将分类结果存入到关系型数据库

在上述步骤S2043中，对第三测试集中的第三样本文件进行训练得到第三训练模型包括如下步骤：

S20431，将第三测试集中的若干第三样本文件标注为正面报道信息和负面报道信息，即标注的类型是正面报道信息和负面报道信息。标注时，采用人工进行标注。也就是说，通过人工识别若干第三样本文件是否为正面报道信息或负面报道信息，识别完成后，将若干第三样本文件分别标记为正面报道信息和负面报道信息。需要说明的是，不一定必须采用正面报道信息和负面报道信息进行标记，也可以采用其他名称进行标记，只要能够区分正面报道信息和负面报道信息都在本发明的保护范围中。

S20432，使用逻辑回归算法对标注为正面报道信息的若干第三样本文件进行训练得到第三训练模型。如何得到第三训练模型的具体步骤如下：

S21，得到训练模型函数，也叫做逻辑回归公式。

其中，g₂(z)值域为(0，1)，对于向量x，g₂(z)大于0.5判定x为标注为正面报道信息的第三样本文件；小于0.5判定x为标注为负面报道信息的第三样本文件。

S22，第三训练模型训练。

将文本通过分词、去除停用词、TF-IDF算法计算权重，分别将标注为正面报道信息的若干第三样本文件和标注为负面报道信息的第三样本文件转变为向量x，然后将向量x和g(z)值输入到公式三中，拟合分类概率最高的w₂₁，得到第三训练模型。在此过程中，会得到若干w₂，这时候，需要随机找一组参数w₂，然后输入的x和标注的类型，通过梯度下降的方法迭代更新w₂，直到找到最优解，即找到拟合分类概率最高的w₂₁，第三训练模型为

在上述步骤S2044中，用第三验证集检验第三训练模型，包括如下步骤：

S20441，将第三验证集中的若干第三样本文件标注为正面报道信息和负面报道信息，即标注的类型是正面报道信息和负面报道信息。标注时，采用人工进行标注。也就是说，通过人工识别若干第三样本文件是否为正面报道信息或负面报道信息，识别完成后，将若干第三样本文件分别标记为正面报道信息和负面报道信息。需要说明的是，不一定必须采用正面报道信息和负面报道信息进行标记，也可以采用其他名称进行标记，只要能够区分正面报道信息和负面报道信息都在本发明的保护范围中。

S20442，第三训练模型检验。

将文本通过分词、去除停用词、TF-IDF算法计算权重，分别将标注为正面报道信息的若干第三样本文件和标注为负面报道信息的第三样本文件转变为向量x，然后将向量x和g₂(z)值输入到公式四第三训练模型

中，验证第三训练模型的准确度。准确率的标准有两个：准确率和召回率，准确率就是被分对的样本数量除以样本总数量，召回率是召回率是覆盖面的度量，度量有多少比例的正例被分为正例，则调整算法参数并再次进行模型训练。也就是说，验证第三训练模型的准确度不够高，就需要重新训练第三训练模型，直到验证准确率达标。

在上述步骤S200中，还包括对原始信息进行词云图处理，词云图处理是将关键字按照出现频率以云图的形式展示热点词云图。

在上述步骤S300中，对处理后的信息进行统计分析，统计分析包括如下GIS 统计分析和专题统计分析。

GIS统计分析，基于GIS的旱情信息统计分析为对提升旱情事件判断水平、反应能力和应急处理能力提供信息保障，不但可提供城市基本旱情信息，还可对旱情关注度进行层级划分，并实现旱情信息地图显示、图表输出等多种形式的表达。具体包括如下内容：

(1)城市基本旱情信息统计

根据各城市的旱情报道数量，统计各城市旱情报道占比＝各城市旱情数量/旱情总数量，并以饼状图的形式展示。例如，使用Echarts

(2)旱情关注度

根据近一周各城市的旱情新闻报道数量，针对各城市的旱情媒体关注程度进行评级，新闻报道数量越多，媒体关注度评级越高。近一周新闻报道数量小于20，媒体关注度评级为“一般”；近一周新闻报道数量在20和80之间，媒体关注度评级为“中等”，近一周新闻报道数量大于80，媒体关注度评级为“高度”。媒体关注度以电子地图的形式进行展示，请参见图5所示。上述只是举例说明，本发明不限于此。

专题统计分析，创建专题，将旱情报道归类到不同的专题，可以缩小关注范围，能够更详细地把握旱情情况。(1)报道追踪，统计专题下最新的旱情数据。(2)媒体关注度趋势，每日统计前一周媒体关注度数量，以折线图的形式显示其趋势，例如，使用Echarts柱状图展示每周旱情报道数量，请参见图6所示。

(3)旱情分类对比，统计专题下各类别的旱情报道数量，以柱状图的形式展示。

(4)热点词，统计专题下所有旱情报道中出现频率较高的词，并生成词云图。

在上述步骤S300中，还包括对处理后的信息进行后台管理，后台管理包括对专题内容的增删改查等操作。

在上述步骤S300中，还包括对处理后的信息进行全文检索，全文检索包括提取数据关键字，用于数据查询等操作。

在本发明中，将处理后的信息发送给显示模块，显示模块显示用户界面即前端页面，包括系统首页、旱情新闻页面、专题分析页面、历史干旱概况页面、历史干旱分析页面等。

二、结合上述方法进行举例说明，如下。

请参见图7和图8所示，舆情显示受关注较高的时间高峰出现在 10月中旬、11月上旬，与旱情监测中受旱面积较大的时间点十分吻合。

请参见图9和图10所示，舆情显示受关注较高的区域主要在江淮之间，北部和西南部相对较低，与旱情监测中10月、11月(这两个月旱情比较严重)的旱情分布结果相一致。

三、本发明实施例提供的一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现如上述公开的任一种灾情追踪方法的步骤。

具体的，存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令，该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。处理器在一些实施例中可以是一中央处理器(CentralProcessing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，为计算机设备提供计算和控制能力。

所述计算机设备还包括：输入接口，与处理器相连，用于获取外部导入的计算机程序、参数和指令，经处理器控制保存至存储器中。该输入接口可以与输入装置相连，接收用户手动输入的参数或指令。该输入装置可以是显示屏上覆盖的触摸层，也可以是终端外壳上设置的按键、轨迹球或触控板，也可以是键盘、触控板或鼠标等。

显示单元，与处理器相连，用于显示处理器处理的数据以及用于显示可视化的用户界面。该显示单元可以为LED显示器、液晶显示器、触控式液晶显示器以及OLED(OrganicLight-Emitting Diode，有机发光二极管)触摸器等。

网络端口，与处理器相连，用于与外部各终端设备进行通信连接。该通信连接所采用的通信技术可以为有线通信技术或无线通信技术，如移动高清链接技术 (MHL)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术等。

本发明还提供了一种计算机可读存储介质，该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。该存储介质上存储有计算机程序，所述计算机程序被处理器执行时时实现如上述公开的任一种灾情追踪方法的步骤。

前述方法实施例中的内容均适用于对应的存储介质实施例中，因而本存储介质实施例具体实现的功能与前述方法实施例相同，并且达到的有益效果也与前述方法实施例相同。

本领域技术人员可以理解的是，上述步骤在实际运行中可以根据需要调换顺序，或者并行处理。上述步骤反复执行，直至针对灾情追踪工作全部完成。

三、本发明提供一种灾情追踪系统，如图2所示，包括：

信息获取模块11，用于获取与旱情相关的原始信息；

信息处理模块12，用于对原始信息进行提抽取信息、去重清洗、信息分类和情感分析；

信息管理模块13，用于对处理后的信息进行专题分析和统计分析。

本实施例中，信息获取模块11使用爬虫从外部站点上获取与旱情有关的原始信息(原始数据)。得到原始信息后，将其统一转换为UTF-8编码，并将得到的原始信息存储，可以存储到关系型数据库。

外部站点是与旱情相关的原始信息的数据源，是爬虫爬取的页面范围，这个范围内的站点都是可靠有效的。在从外部站点爬取数据(与旱情有关的原始信息) 时，采用基于Scrapy框架的爬虫采集器，分布式地定时爬取外部站点信息，并按照配置进行结构化，定位页面内容，获取文献标题、发文单位等结构化信息； CrawlSpider爬虫，通过读取页面的规则配置，自动获取输入站点上的所有有效链接和页面内容。Splash，是与Scrapy框架配套的模拟浏览器插件，用于动态页面的爬取。

本实施例中，信息处理模块12包括提抽取信息模块，抽取信息模块用于从原始信息中提取正文，并从正文中抽取相关的内容信息，相关的内容信息包括旱情时间、地点、严重程度、损失和应对措施等等。需要说明的是，从原始信息中识别正文，并提取正文。抽取相关的内容信息，主要采用的是关键字识别技术。

本实施例中，信息处理模块12包括去重清洗模块，去重清洗模块用于将不相关内容删除，从结果中分析规律修正部分错误结果信息，主要包括如下内容：

去除模块，用于去除重复的原始信息。包括过滤掉重复的链接，和过滤掉重复的内容。重复的链接，只要链接相同，就可以认为是重复的链接。重复的内容，需要对内容进行识别，只要内容相似度达到95％就可以认为是重复的内容。

清洗分类模块，用于将原始信息清洗并分类成旱情信息和非旱情信息。清洗分类模块包括如下内容。

第一样本获取模块，用于从原始信息中获取若干第一样本信息并形成第一样本文件。

第一样本分类模块，用于将第一样本文件分为第一测试集和第一验证集。将第一样本文件分为两个类别，两个类别分别为第一测试集和第一验证集，两个类别中的第一样本信息的数量可以相同，也可以不相同。也就是说，第一测试集中的第一样本信息的数量，和第一验证集中的第一样本信息的数量相同或者不相同。

第一训练模型训练模块，用于对第一测试集中的第一样本文件进行训练得到第一训练模型。

第一训练模型验证模块，用第一验证集检验第一训练模型。

旱情分类模块，使用第一训练模型将原始信息分类成旱情信息和非旱情信息。分类的时候，将分类结果存入到关系型数据库。

本实施例中，信息处理模块12包括信息分类模块，信息分类模块将旱情信息分类成热点信息和非热点信息。信息分类模块包括如下内容。

第二样本获取模块，从旱情信息中获取若干第二样本信息并形成第二样本文件。

第二样本分类模块，将第二样本文件分为第二测试集和第二验证集。

第二训练模型训练模块，对第二测试集中的第二样本文件进行训练得到第二训练模型。

第二训练模型验证模块，用第二验证集检验第二训练模型。

热点信息分类模块，使用第二训练模型将旱情信息分类成热点信息和非热点信息。分类的时候，将分类结果存入到关系型数据库

本实施例中，信息处理模块12包括情感分析模块，情感分析模块将旱情信息分类成正面报道信息和负面报道信息。情感分析模块包括如下内容。

第三样本获取模块，从旱情信息中获取若干第三样本信息并形成第三样本文件。

第三样本分类模块，将第三样本文件分为第三测试集和第三验证集。

第三训练模型训练模块，对第三测试集中的第三样本文件进行训练得到第三训练模型。

第三训练模型验证模块，用第三验证集检验第三训练模型。

报道信息分类模块，使用第三训练模型将旱情信息分类成正面报道信息和负面报道信息。分类的时候，将分类结果存入到关系型数据库

本实施例中，信息处理模块12包括词云图处理模块，用于将关键字按照出现频率以云图的形式展示热点词云图。

本实施例中，信息管理模块13包括统计分析模块，统计分析模块包括如下 GIS统计分析模块和专题统计分析模块。

GIS统计分析模块，基于GIS的旱情信息统计分析为对提升旱情事件判断水平、反应能力和应急处理能力提供信息保障，不但可提供城市基本旱情信息，还可对旱情关注度进行层级划分，并实现旱情信息地图显示、图表输出等多种形式的表达。具体包括如下内容：

(1)城市基本旱情信息统计

根据各城市的旱情报道数量，统计各城市旱情报道占比＝各城市旱情数量/ 旱情总数量，并以饼状图的形式展示。

(2)旱情关注度层级划分

根据各城市的旱情报道数量，对各城市的旱情关注度进行层级划分，报道数量小于20层级为一般，报道数量在20和80之间层级为中等，报道数据大于80 层级为高度，并以地图的形式展示。

专题统计分析模块，创建专题，将旱情报道归类到不同的专题，可以缩小关注范围，能够更详细地把握旱情情况。(1)报道追踪，统计专题下最新的旱情数据。(2)媒体关注度趋势，每日统计前一周媒体关注度数量，以折线图的形式显示其趋势。(3)旱情分类对比，统计专题下各类别的旱情报道数量，以柱状图的形式展示。(4)热点词，统计专题下所有旱情报道中出现频率较高的词，并生成词云图。

本实施例中，信息管理模块13包括后台管理模块，用于对专题内容的增删改查等操作。

本实施例中，信息管理模块13包括全文检索模块，用于提取数据关键字，用于数据查询等操作。

在本发明中，还包括传输模块，用于将处理后的信息发送给显示模块，显示模块显示用户界面即前端页面，包括系统首页、旱情新闻页面、专题分析页面、历史干旱概况页面、历史干旱分析页面等。

前述方法实施例中的内容均适用于对应的系统实施例中，因而本系统实施例的具体实现的功能与前述方法实施例相同，并且达到的有益效果也与前述方法实施例相同。由于系统实施例与方法实施例基本相同，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

四、本发明提供一种计算机设备，请参见图3，本申请实施例提供的一种计算机设备的结构图，包括存储器75和处理器71，所述存储器75存储有计算机程序，所述处理器71执行所述计算机程序时，实现如上述公开的任一种灾情追踪方法的步骤。

具体的，存储器75包括非易失性存储介质、内存储器75。该非易失性存储介质存储有操作系统和计算机可读指令，该内存储器75为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。处理器71在一些实施例中可以是一中央处理器71(CentralProcessing Unit，CPU)、控制器、微控制器、微处理器71或其他数据处理芯片，为计算机设备提供计算和控制能力。

所述计算机设备还包括：输入接口72，与处理器71相连，用于获取外部导入的计算机程序、参数和指令，经处理器71控制保存至存储器75中。该输入接口72可以与输入装置相连，接收用户手动输入的参数或指令。该输入装置可以是显示屏上覆盖的触摸层，也可以是终端外壳上设置的按键、轨迹球或触控板，也可以是键盘、触控板或鼠标等。

显示单元74，与处理器71相连，用于显示处理器71处理的数据以及用于显示可视化的用户界面。该显示单元74可以为LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。

网络端口73，与处理器71相连，用于与外部各终端设备进行通信连接。该通信连接所采用的通信技术可以为有线通信技术或无线通信技术，如移动高清链接技术(MHL)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术等。

本领域技术人员可以理解的是，上述步骤在实际运行中可以根据需要调换顺序，或者并行处理。上述步骤反复执行，直至针对灾情追踪工作全部完成。需要说明的是，针对上述各实施方式的详细解释，其目的仅在于对本发明进行解释，以便于能够更好地解释本发明，但是，这些描述不能以任何理由解释成是对本发明的限制，特别是，在不同的实施方式中描述的各个特征也可以相互任意组合，从而组成其他实施方式，除了有明确相反的描述，这些特征应被理解为能够应用于任何一个实施方式中，而并不仅局限于所描述的实施方式。

Claims

1.一种灾情追踪方法，其特征在于，包括如下步骤：

获取与灾情相关的原始信息；

对处理后的信息进行统计分析。

2.根据权利要求1所述的灾情追踪方法，其特征在于，在对原始信息进行提抽取信息、去重清洗、信息分类和情感分析的步骤中，提抽取信息包括：

从原始信息中提取正文，并从正文中抽取相关的内容信息。

3.根据权利要求1或2所述的灾情追踪方法，其特征在于，在对原始信息进行提抽取信息、去重清洗、信息分类和情感分析的步骤中，去重清洗包括：

去除重复的原始信息；

将原始信息清洗并分类成旱情信息和非旱情信息。

4.根据权利要求3所述的灾情追踪方法，其特征在于，在去除重复的原始信息的步骤中，包括：

过滤掉重复的链接和过滤掉重复的内容。

5.根据权利要求3所述的灾情追踪方法，其特征在于，在将原始信息清洗并分类成旱情信息和非旱情信息的步骤中，包括：

从原始信息中获取若干第一样本信息并形成第一样本文件；

将第一样本文件分为第一测试集和第一验证集；

用第一验证集检验第一训练模型；

6.根据权利要求1或2所述的灾情追踪方法，其特征在于，在对原始信息进行提抽取信息、去重清洗、信息分类和情感分析的步骤中，信息分类包括：

将旱情信息分类成热点信息和非热点信息。

7.根据权利要求5所述的灾情追踪方法，其特征在于，在将旱情信息分类成热点信息和非热点信息的步骤中，包括：

从旱情信息中获取若干第二样本信息并形成第二样本文件；

将第二样本文件分为第二测试集和第二验证集；

用第二验证集检验第二训练模型；

8.一种灾情追踪系统，其特征在于，包括：

信息获取模块，用于获取与旱情相关的原始信息；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现权利要求1至7中任一项所述的灾情追踪方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至7中任一项所述的灾情追踪方法的步骤。