CN112231483A - 灾情追踪方法、系统、设备和存储介质 - Google Patents

灾情追踪方法、系统、设备和存储介质 Download PDF

Info

Publication number
CN112231483A
CN112231483A CN202011231091.1A CN202011231091A CN112231483A CN 112231483 A CN112231483 A CN 112231483A CN 202011231091 A CN202011231091 A CN 202011231091A CN 112231483 A CN112231483 A CN 112231483A
Authority
CN
China
Prior art keywords
information
drought
disaster
sample
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011231091.1A
Other languages
English (en)
Inventor
孙洪泉
杜治高
杨晓静
苏志诚
吕娟
武剑峰
李明
高辉
江鹏
王亚许
王肖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cheng'an Rongchuang Beijing Information Technology Co ltd
China Institute of Water Resources and Hydropower Research
Original Assignee
Cheng'an Rongchuang Beijing Information Technology Co ltd
China Institute of Water Resources and Hydropower Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cheng'an Rongchuang Beijing Information Technology Co ltd, China Institute of Water Resources and Hydropower Research filed Critical Cheng'an Rongchuang Beijing Information Technology Co ltd
Priority to CN202011231091.1A priority Critical patent/CN112231483A/zh
Publication of CN112231483A publication Critical patent/CN112231483A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Abstract

本发明提供一种灾情追踪方法、系统、设备和存储介质,其中方法包括:获取与旱情相关的原始信息;对原始信息进行提抽取信息、去重清洗、信息分类和情感分析;对处理后的信息进行统计分析。本发明通过深度学习对原始信息进行处理,实现对灾情信息进行分类,最终进行统计分析和可视化,具有识别准确、效率高、分析全面和对灾情的舆论进行实时监控等优点。

Description

灾情追踪方法、系统、设备和存储介质
技术领域
本发明涉及旱情信息处理技术领域,尤其是涉及一种灾情追踪方法、系 统、设备和存储介质。
背景技术
干旱通常指淡水总量少,不足以满足人的生存和经济发展的气候现象, 一般是长期的现象,干旱从古至今都是人类面临的主要自然灾害。即使在科 学技术如此发达的今天,它造成的灾难性后果仍然比比皆是。尤其值得注意 的是,随着人类的经济发展和人口膨胀,水资源短缺现象日趋严重,这也直 接导致了干旱地区的扩大与干旱化程度的加重,干旱化趋势已成为全球关注 的问题。
随着网络的发展,使得信息会快速地进行传播,一旦某地出现干旱,就 会在相关的网站上出现关于该地干旱的一些新闻报道,这些新闻报道有的是 正面的、客观的报道,也有些是负面、歪曲事实的报道。为了社会的和谐发 展,对网络上关于旱情的舆论监控显得非常重要。但是在现有技术中,还没 有相关技术对网络上关于旱情的舆论进行监控。
发明内容
为了解决上述技术问题,本发明提供一种可以对旱情舆论进行监控的 灾情追踪方法、系统、设备和存储介质。
本发明的一种技术方案是:提供一种灾情追踪方法,包括如下步骤:
获取与灾情相关的原始信息;
对原始信息进行提抽取信息、去重清洗、信息分类和情感分析;
对处理后的信息进行统计分析。
作为对本发明的改进,在对原始信息进行提抽取信息、去重清洗、信息分 类和情感分析的步骤中,提抽取信息包括:从原始信息中提取正文,并从正文中 抽取相关的内容信息。
作为对本发明的改进,在对原始信息进行提抽取信息、去重清洗、信息分类 和情感分析的步骤中,去重清洗包括:
去除重复的原始信息;
将原始信息清洗并分类成旱情信息和非旱情信息。作为对本发明的改进,在去 除重复的原始信息的步骤中,包括:
过滤掉重复的链接和过滤掉重复的内容。
作为对本发明的改进,在将原始信息清洗并分类成旱情信息和非旱情信息的 步骤中,包括:
从原始信息中获取若干第一样本信息并形成第一样本文件;
将第一样本文件分为第一测试集和第一验证集;
对第一测试集中的第一样本文件进行训练得到第一训练模型;
用第一验证集检验第一训练模型;
使用第一训练模型将原始信息分类成旱情信息和非旱情信息。
作为对本发明的改进,在对原始信息进行提抽取信息、去重清洗、信息分类 和情感分析的步骤中,信息分类包括:将旱情信息分类成热点信息和非热点信息。
作为对本发明的改进,在将旱情信息分类成热点信息和非热点信息的步骤中, 包括:
从旱情信息中获取若干第二样本信息并形成第二样本文件;
将第二样本文件分为第二测试集和第二验证集;
对第二测试集中的第二样本文件进行训练得到第二训练模型;
用第二验证集检验第二训练模型;
使用第二训练模型将旱情信息分类成热点信息和非热点信息。
作为对本发明的改进,在对原始信息进行提抽取信息、去重清洗、信息分类 和情感分析的步骤中,情感分析包括:将旱情信息分类成正面报道信息和负面报 道信息。
本发明的另一种技术方案是:提供一种灾情追踪系统,包括:
信息获取模块,用于获取与旱情相关的原始信息;
信息处理模块,用于对原始信息进行提抽取信息、去重清洗、信息分类和情 感分析;
信息管理模块,用于对处理后的信息进行专题分析和统计分析。
本发明的第三种技术方案是:提供一种计算机设备,包括存储器和处理器, 所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现上述灾 情追踪方法的步骤。
本发明的第四种技术方案是:提供一种计算机可读存储介质,其上存储有计 算机程序,所述计算机程序被处理器执行时,实现上述灾情追踪方法的步骤。
本发明通过深度学习对原始信息进行处理,实现对旱情信息进行分类,最终 进行统计分析和可视化,具有识别准确、效率高、分析全面和对旱情的舆论进行 实时监控等优点。
附图说明
图1是本发明中灾情追踪方法的流程示意图。
图2是本发明中灾情追踪系统的结构示意框图。
图3是本发明中计算机设备的结构示意框图。
图4是本发明中各城市旱情报道占比示意图。
图5是本发明中近一周各城市的旱情媒体关注程度示意图。
图6是本发明中每周旱情报道数量的示意图。
图7是本发明中媒体关注度趋势示意图。
图8是本发明中旱情监测示意图。
图9是本发明中在舆情时区域受关注程度示意图。
图10是本发明中旱情监测示意图。
其中:
11.信息获取模块;12.信息处理模块;13.信息管理模块;71.处理器; 72.输入接口;73.网络端口;74.显示单元;75.存储器。
具体实施方式
在本发明的描述中,需要理解的是,术语中“中心”、“上”、“下”、“前”、 “后”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系, 仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或组件必须 具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。 此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重 要性。
一、本发明提供一种灾情追踪方法,请参见图1,包括如下步骤:
S100,获取与旱情相关的原始信息。
S200,对原始信息进行提抽取信息、去重清洗、信息分类和情感分析。
S300,对处理后的信息进行专题分析和统计分析。
在上述步骤S100中,使用爬虫从外部站点上获取与旱情有关的原始信息(原 始数据)。得到原始信息后,将其统一转换为UTF-8编码,并将得到的原始信息 存储,可以存储到关系型数据库,如Mysql数据库等。
外部站点是与旱情相关的原始信息的数据源。基于Scrapy框架的 CrawlSpider组件集成了Splash工具,设计和开发了爬虫采集器。Splash可以 模拟浏览器插件,用于动态网页的爬取。爬虫采集器分布式、定时反复地从外部 站点爬取旱情相关的信息。单次爬取时,爬虫采集器通过读取用户配置的规则, 自动抓取输入URL上的所有有效链接和页面内容,并支持按照用户配置从爬取的 网页中抽取文章标题、发文单位、发文日期等关键信息。
外部站点包括政府门户网站、百度新闻、微信公众号、今日头条、新浪微博。 政府门户网站包括部委和地方政府门户网站。百度新闻中以传统官媒新闻为主, 其内容相对严肃。微信公众号以企业和组织公众号为主,其信息管控严,内容可 靠程度高。今日头条中涉及新闻、百科、提问和讨论等各类信息,且有用户评论。 新浪微博中的个人微博虽然发布内容较多,但信息可靠程度低;相比而言,官媒 微博的信息有用户评论,可靠程度高。
在上述步骤S200中,提抽取信息包括从原始信息中提取正文,并从正文中 抽取相关的内容信息,相关的内容信息包括旱情时间、地点、严重程度、损失和 应对措施等等。需要说明的是,从原始信息中识别正文,并提取正文。抽取相关 的内容信息,主要采用的是关键字识别技术。
在上述步骤S200中,去重清洗适用于将不相关内容删除,从结果中分析规 律,修正部分错误结果信息,主要包括如下步骤:
S201,去除重复的原始信息。
包括过滤掉重复的链接,和过滤掉重复的内容。重复的链接,只要网络地址 相同,就可以认为是重复的链接。重复的内容,需要对内容进行识别,只要内容 相似度达到95%就可以认为是重复的内容。
S202,将原始信息清洗并分类成旱情信息和非旱情信息。
在上述步骤S202中,将原始信息清洗并分类成旱情信息和非旱情信息,包 括如下步骤:
S2021,从原始信息中获取若干第一样本信息并形成第一样本文件。
具体地说,从关系型数据库的原始信息中导出若干第一样本信息并保存至第 一样本文件。需要说明的是,导出方式采取随机导出,并且导出的样本数量也可 以根据需要进行设定。
S2022,将第一样本文件分为第一测试集和第一验证集。
将第一样本文件分为两个类别,两个类别分别为第一测试集和第一验证集, 两个类别中的第一样本信息的数量可以相同,也可以不相同。也就是说,第一测 试集中的第一样本信息的数量,和第一验证集中的第一样本信息的数量相同或者 不相同。
S2023,对第一测试集中的第一样本文件进行训练得到第一训练模型。
S2024,用第一验证集检验第一训练模型。
S2025,使用第一训练模型将原始信息分类成旱情信息和非旱情信息。分类 的时候,将分类结果存入到关系型数据库。
在上述步骤S2023中,对第一测试集中的第一样本文件进行训练得到第一训 练模型包括如下步骤:
S20231,将第一测试集中的若干第一样本文件标注为干旱和非干旱,即标注 的类型是干旱和非干旱。标注时,采用人工进行标注。也就是说,通过人工识别 若干第一样本文件为干旱或非干旱,识别过程中,将具有干旱信息的若干第一样 本文件标记为干旱,将不具有干旱信息的若干第一样本文件标记为非干旱。需要 说明的是,不一定必须采用干旱和非干旱进行标记,也可以采用其他名称进行标 记,只要能够区分干旱信息和非干旱信息都在本发明的保护范围中。
S20232,使用逻辑回归算法第一测试集中的若干第一样本文件进行训练得到 第一训练模型。如何得到第一训练模型的具体步骤如下:
S1,得到训练模型函数,也叫做逻辑回归公式。
g(z)=1/1+ewx 公式一
其中,g(z)值域为(0,1),对于向量x,g(z)大于0.5判定x为标注为干旱 的第一样本文件;小于0.5判定x为标注为非干旱的第一样本文件。
S2,第一训练模型训练。
将文本通过分词、去除停用词、TF-IDF算法计算权重,分别将标注为干旱 的若干第一样本文件和标注为非干旱的第一样本文件转变为向量x,然后将向量 x和g(z)值输入到公式一中,拟合分类概率最高的w0,得到第一训练模型。在 此过程中,会得到若干w,这时候,需要随机找一组参数w,然后输入的x和标 注的类型,通过梯度下降的方法迭代更新w,直到找到最优解,即找到拟合分类 概率最高的w0,第一训练模型为
Figure BDA0002765225310000041
在上述步骤S2024中,用第一验证集检验第一训练模型,包括如下步骤:
S20241,将第一验证集中的若干第一样本文件标注为干旱和非干旱,即标注 的类型是干旱和非干旱。标注时,采用人工进行标注。也就是说,通过人工识别 若干第一样本文件是否为干旱或非干旱,识别完成后,将具有干旱信息的若干第 一样本文件标记为干旱,将没有具有干旱信息的若干第一样本文件标记为非干旱。 需要说明的是,不一定必须采用干旱和非干旱进行标记,也可以采用其他名称进 行标记,只要能够区分干旱信息和非干旱信息都在本发明的保护范围中。
S20242,第一训练模型检验。
将文本通过分词、去除停用词、TF-IDF算法计算权重,分别将标注为干旱 的若干第一样本文件和标注为非干旱的第一样本文件转变为向量x,然后将向量 x和g(z)值输入到公式二第一训练模型
Figure BDA0002765225310000042
中,验证第一训练模型 的准确度。准确率的标准有两个:准确率和召回率,准确率就是被分对的样本数 量除以样本总数量,召回率是召回率是覆盖面的度量,度量有多少比例的正例被 分为正例,则调整算法参数并再次进行模型训练。也就是说,验证第一训练模型 的准确度不够高,就需要重新训练第一训练模型,直到验证准确率达标。
在上述步骤S200中,信息分类包括:将旱情信息分类成热点信息和非热点 信息。这里所说的热点信息是指占据了一定网络流量,并且受到了一定的关注, 关注度很高,被转发和评论的次数很多。非热点信息是指没有占据了一定网络流 量,关注度不够高,被转发和评论的次数很少。在将旱情信息分类成热点信息和 非热点信息的步骤中,具体包括如下步骤:
S2031,从旱情信息中获取若干第二样本信息并形成第二样本文件。
具体地说,从关系型数据库的旱情信息中的导出若干第二样本信息并保存至 第二样本文件。需要说明的是,随机导出,并且导出的数量也可以根据需要进行 选择。
S2032,将第二样本文件分为第二测试集和第二验证集。
将第二样本文件分为两个类别,两个类别分别为第二测试集和第二验证集, 两个类别中的第二样本信息的数量可以相同,也可以不相同。也就是说,第二测 试集中的第二样本信息的数量,和第二验证集中的第二样本信息的数量相同或者 不相同。
S2033,对第二测试集中的第二样本文件进行训练得到第二训练模型。
S2034,用第二验证集检验第二训练模型。
S2035,使用第二训练模型将旱情信息分类成热点信息和非热点信息。分类 的时候,将分类结果存入到关系型数据库
在上述步骤S2033中,对第二测试集中的第二样本文件进行训练得到第二训 练模型包括如下步骤:
S20331,将第二测试集中的若干第二样本文件标注为热点信息和非热点信息, 即标注的类型是热点信息和非热点信息。标注时,采用人工进行标注。也就是说, 通过人工识别若干第二样本文件是否为热点信息或非热点信息,识别完成后,将 若干第二样本文件分别标记为热点信息和非热点信息。需要说明的是,不一定必 须采用热点信息和非热点信息进行标记,也可以采用其他名称进行标记,只要能 够区分热点信息和非热点信息都在本发明的保护范围中。
S20332,使用逻辑回归算法对标注为热点信息的若干第二样本文件进行训练 得到第二训练模型。如何得到第二训练模型的具体步骤如下:
S11,得到训练模型函数,也叫做逻辑回归公式。
Figure BDA0002765225310000051
其中,g1(z)值域为(0,1),对于向量x,g1(z)大于0.5判定x为标注为热 点信息的第二样本文件;小于0.5判定x为标注为非热点信息的第二样本文件。
S12,第二训练模型训练。
将文本通过分词、去除停用词、TF-IDF算法计算权重,分别将标注为热点 信息的若干第二样本文件和标注为非热点信息的第二样本文件转变为向量x,然 后将向量x和g(z)值输入到公式三中,拟合分类概率最高的w11,得到第二训练 模型。在此过程中,会得到若干w1,这时候,需要随机找一组参数w1,然后输 入的x和标注的类型,通过梯度下降的方法迭代更新w1,直到找到最优解,即 找到拟合分类概率最高的w11,第二训练模型为
Figure BDA0002765225310000052
在上述步骤S2034中,用第二验证集检验第二训练模型,包括如下步骤:
S20341,将第二验证集中的若干第二样本文件标注为热点信息和非热点信息, 即标注的类型是热点信息和非热点信息。标注时,采用人工进行标注。也就是说, 通过人工识别若干第二样本文件是否为热点信息或非热点信息,识别完成后,将 若干第二样本文件分别标记为热点信息和非热点信息。需要说明的是,不一定必 须采用热点信息和非热点信息进行标记,也可以采用其他名称进行标记,只要能 够区分热点信息和非热点信息都在本发明的保护范围中。
S20342,第二训练模型检验。
将文本通过分词、去除停用词、TF-IDF算法计算权重,分别将标注为热点 信息的若干第二样本文件和标注为非热点信息的第二样本文件转变为向量x,然 后将向量x和g(z)值输入到公式四第二训练模型
Figure BDA0002765225310000061
中,验证第 二训练模型的准确度。准确率的标准有两个:准确率和召回率,准确率就是被分 对的样本数量除以样本总数量,召回率是召回率是覆盖面的度量,度量有多少比 例的正例被分为正例,则调整算法参数并再次进行模型训练。也就是说,验证第 二训练模型的准确度不够高,就需要重新训练第二训练模型,直到验证准确率达 标。
在上述步骤S200中,在对原始信息进行提抽取信息、去重清洗、信息分类 和情感分析的步骤中,情感分析包括:将旱情信息分类成正面报道信息和负面报 道信息。
情感分析使用Google Bert框架的情感分析实现。Google Bert利用 Transformer超强的特征抽取能力来学习词语的双向编码表示,融合了上下文信 息的词语编码能更好地进行情感决策。它既引入了LSTM的双向编码机制同时还 采用了GPT中的Transformer来做特征抽取,具有非常强大的文本特征提取能力, 能学习到句子中潜在的句法和语义信息。除此之外,Bert基于character-level 做embedding,就不存在分词以及测试集包含训练集中未出现词的困扰了,这些 优点使得Bert能够比较好得解决情感分类问题。
情感分析的具体步骤如下:
S2041,从旱情信息中获取若干第三样本信息并形成第三样本文件。
具体地说,从关系型数据库的旱情信息中的导出若干第三样本信息并保存至 第三样本文件。需要说明的是,随机导出,并且导出的数量也可以根据需要进行 选择。
S2042,将第三样本文件分为第三测试集和第三验证集。
将第三样本文件分为两个类别,两个类别分别为第三测试集和第三验证集, 两个类别中的第三样本信息的数量可以相同,也可以不相同。也就是说,第三测 试集中的第三样本信息的数量,和第三验证集中的第三样本信息的数量相同或者 不相同。
S2043,对第三测试集中的第三样本文件进行训练得到第三训练模型。
S2044,用第三验证集检验第三训练模型。
S2045,使用第三训练模型将旱情信息分类成正面报道信息和负面报道信息。 分类的时候,将分类结果存入到关系型数据库
在上述步骤S2043中,对第三测试集中的第三样本文件进行训练得到第三训 练模型包括如下步骤:
S20431,将第三测试集中的若干第三样本文件标注为正面报道信息和负面报 道信息,即标注的类型是正面报道信息和负面报道信息。标注时,采用人工进行 标注。也就是说,通过人工识别若干第三样本文件是否为正面报道信息或负面报 道信息,识别完成后,将若干第三样本文件分别标记为正面报道信息和负面报道 信息。需要说明的是,不一定必须采用正面报道信息和负面报道信息进行标记, 也可以采用其他名称进行标记,只要能够区分正面报道信息和负面报道信息都在 本发明的保护范围中。
S20432,使用逻辑回归算法对标注为正面报道信息的若干第三样本文件进行 训练得到第三训练模型。如何得到第三训练模型的具体步骤如下:
S21,得到训练模型函数,也叫做逻辑回归公式。
Figure BDA0002765225310000071
其中,g2(z)值域为(0,1),对于向量x,g2(z)大于0.5判定x为标注为正 面报道信息的第三样本文件;小于0.5判定x为标注为负面报道信息的第三样本 文件。
S22,第三训练模型训练。
将文本通过分词、去除停用词、TF-IDF算法计算权重,分别将标注为正面 报道信息的若干第三样本文件和标注为负面报道信息的第三样本文件转变为向 量x,然后将向量x和g(z)值输入到公式三中,拟合分类概率最高的w21,得到 第三训练模型。在此过程中,会得到若干w2,这时候,需要随机找一组参数w2, 然后输入的x和标注的类型,通过梯度下降的方法迭代更新w2,直到找到最优 解,即找到拟合分类概率最高的w21,第三训练模型为
Figure BDA0002765225310000072
Figure BDA0002765225310000073
在上述步骤S2044中,用第三验证集检验第三训练模型,包括如下步骤:
S20441,将第三验证集中的若干第三样本文件标注为正面报道信息和负面报 道信息,即标注的类型是正面报道信息和负面报道信息。标注时,采用人工进行 标注。也就是说,通过人工识别若干第三样本文件是否为正面报道信息或负面报 道信息,识别完成后,将若干第三样本文件分别标记为正面报道信息和负面报道 信息。需要说明的是,不一定必须采用正面报道信息和负面报道信息进行标记, 也可以采用其他名称进行标记,只要能够区分正面报道信息和负面报道信息都在 本发明的保护范围中。
S20442,第三训练模型检验。
将文本通过分词、去除停用词、TF-IDF算法计算权重,分别将标注为正面 报道信息的若干第三样本文件和标注为负面报道信息的第三样本文件转变为向 量x,然后将向量x和g2(z)值输入到公式四第三训练模型
Figure BDA0002765225310000074
中, 验证第三训练模型的准确度。准确率的标准有两个:准确率和召回率,准确率就 是被分对的样本数量除以样本总数量,召回率是召回率是覆盖面的度量,度量有 多少比例的正例被分为正例,则调整算法参数并再次进行模型训练。也就是说, 验证第三训练模型的准确度不够高,就需要重新训练第三训练模型,直到验证准 确率达标。
在上述步骤S200中,还包括对原始信息进行词云图处理,词云图处理是将 关键字按照出现频率以云图的形式展示热点词云图。
在上述步骤S300中,对处理后的信息进行统计分析,统计分析包括如下GIS 统计分析和专题统计分析。
GIS统计分析,基于GIS的旱情信息统计分析为对提升旱情事件判断水平、 反应能力和应急处理能力提供信息保障,不但可提供城市基本旱情信息,还可对 旱情关注度进行层级划分,并实现旱情信息地图显示、图表输出等多种形式的表 达。具体包括如下内容:
(1)城市基本旱情信息统计
根据各城市的旱情报道数量,统计各城市旱情报道占比=各城市 旱情数量/旱情总数量,并以饼状图的形式展示。例如,使用Echarts
(2)旱情关注度
根据近一周各城市的旱情新闻报道数量,针对各城市的旱情媒体 关注程度进行评级,新闻报道数量越多,媒体关注度评级越高。近一 周新闻报道数量小于20,媒体关注度评级为“一般”;近一周新闻报 道数量在20和80之间,媒体关注度评级为“中等”,近一周新闻报 道数量大于80,媒体关注度评级为“高度”。媒体关注度以电子地图 的形式进行展示,请参见图5所示。上述只是举例说明,本发明不限 于此。
专题统计分析,创建专题,将旱情报道归类到不同的专题,可以 缩小关注范围,能够更详细地把握旱情情况。(1)报道追踪,统计专 题下最新的旱情数据。(2)媒体关注度趋势,每日统计前一周媒体关 注度数量,以折线图的形式显示其趋势,例如,使用Echarts柱状图 展示每周旱情报道数量,请参见图6所示。
(3)旱情分类对比,统计专题下各类别的旱情报道数量,以柱状图的形式展示。
(4)热点词,统计专题下所有旱情报道中出现频率较高的词,并生成词云图。
在上述步骤S300中,还包括对处理后的信息进行后台管理,后台管理包括 对专题内容的增删改查等操作。
在上述步骤S300中,还包括对处理后的信息进行全文检索,全文检索包括 提取数据关键字,用于数据查询等操作。
在本发明中,将处理后的信息发送给显示模块,显示模块显示用户界面即前 端页面,包括系统首页、旱情新闻页面、专题分析页面、历史干旱概况页面、历 史干旱分析页面等。
本发明通过深度学习对原始信息进行处理,实现对旱情信息进行分类,最终 进行统计分析和可视化,具有识别准确、效率高、分析全面和对旱情的舆论进行 实时监控等优点。
二、结合上述方法进行举例说明,如下。
请参见图7和图8所示,舆情显示受关注较高的时间高峰出现在 10月中旬、11月上旬,与旱情监测中受旱面积较大的时间点十分吻 合。
请参见图9和图10所示,舆情显示受关注较高的区域主要在江淮 之间,北部和西南部相对较低,与旱情监测中10月、11月(这两个 月旱情比较严重)的旱情分布结果相一致。
三、本发明实施例提供的一种计算机设备,包括存储器和处理器, 所述存储器存储有计算机程序,所述处理器执行所述计算机程序时, 实现如上述公开的任一种灾情追踪方法的步骤。
具体的,存储器包括非易失性存储介质、内存储器。该非易失性存储介质存 储有操作系统和计算机可读指令,该内存储器为非易失性存储介质中的操作系统 和计算机可读指令的运行提供环境。处理器在一些实施例中可以是一中央处理器(CentralProcessing Unit,CPU)、控制器、微控制器、微处理器或其他数据处 理芯片,为计算机设备提供计算和控制能力。
所述计算机设备还包括:输入接口,与处理器相连,用于获取外部导入的计 算机程序、参数和指令,经处理器控制保存至存储器中。该输入接口可以与输入 装置相连,接收用户手动输入的参数或指令。该输入装置可以是显示屏上覆盖的 触摸层,也可以是终端外壳上设置的按键、轨迹球或触控板,也可以是键盘、触 控板或鼠标等。
显示单元,与处理器相连,用于显示处理器处理的数据以及用于显示可视化 的用户界面。该显示单元可以为LED显示器、液晶显示器、触控式液晶显示器以 及OLED(OrganicLight-Emitting Diode,有机发光二极管)触摸器等。
网络端口,与处理器相连,用于与外部各终端设备进行通信连接。该通信连 接所采用的通信技术可以为有线通信技术或无线通信技术,如移动高清链接技术 (MHL)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线保真技术(WiFi)、蓝 牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术等。
本发明还提供了一种计算机可读存储介质,该存储介质可以包括:U盘、移 动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。该存储介质上存 储有计算机程序,所述计算机程序被处理器执行时时实现如上述公开的任一种灾 情追踪方法的步骤。
前述方法实施例中的内容均适用于对应的存储介质实施例中,因而本存储介 质实施例具体实现的功能与前述方法实施例相同,并且达到的有益效果也与前述 方法实施例相同。
本领域技术人员可以理解的是,上述步骤在实际运行中可以根据需要调换顺 序,或者并行处理。上述步骤反复执行,直至针对灾情追踪工作全部完成。
三、本发明提供一种灾情追踪系统,如图2所示,包括:
信息获取模块11,用于获取与旱情相关的原始信息;
信息处理模块12,用于对原始信息进行提抽取信息、去重清洗、信息分类 和情感分析;
信息管理模块13,用于对处理后的信息进行专题分析和统计分析。
本实施例中,信息获取模块11使用爬虫从外部站点上获取与旱情有关的原 始信息(原始数据)。得到原始信息后,将其统一转换为UTF-8编码,并将得到 的原始信息存储,可以存储到关系型数据库。
外部站点是与旱情相关的原始信息的数据源,是爬虫爬取的页面范围,这个 范围内的站点都是可靠有效的。在从外部站点爬取数据(与旱情有关的原始信息) 时,采用基于Scrapy框架的爬虫采集器,分布式地定时爬取外部站点信息,并 按照配置进行结构化,定位页面内容,获取文献标题、发文单位等结构化信息; CrawlSpider爬虫,通过读取页面的规则配置,自动获取输入站点上的所有有效 链接和页面内容。Splash,是与Scrapy框架配套的模拟浏览器插件,用于动态 页面的爬取。
本实施例中,信息处理模块12包括提抽取信息模块,抽取信息模块用于从 原始信息中提取正文,并从正文中抽取相关的内容信息,相关的内容信息包括旱 情时间、地点、严重程度、损失和应对措施等等。需要说明的是,从原始信息中 识别正文,并提取正文。抽取相关的内容信息,主要采用的是关键字识别技术。
本实施例中,信息处理模块12包括去重清洗模块,去重清洗模块用于将不 相关内容删除,从结果中分析规律修正部分错误结果信息,主要包括如下内容:
去除模块,用于去除重复的原始信息。包括过滤掉重复的链接,和过滤掉重 复的内容。重复的链接,只要链接相同,就可以认为是重复的链接。重复的内容, 需要对内容进行识别,只要内容相似度达到95%就可以认为是重复的内容。
清洗分类模块,用于将原始信息清洗并分类成旱情信息和非旱情信息。清洗 分类模块包括如下内容。
第一样本获取模块,用于从原始信息中获取若干第一样本信息并形成第一样 本文件。
第一样本分类模块,用于将第一样本文件分为第一测试集和第一验证集。将 第一样本文件分为两个类别,两个类别分别为第一测试集和第一验证集,两个类 别中的第一样本信息的数量可以相同,也可以不相同。也就是说,第一测试集中 的第一样本信息的数量,和第一验证集中的第一样本信息的数量相同或者不相同。
第一训练模型训练模块,用于对第一测试集中的第一样本文件进行训练得到 第一训练模型。
第一训练模型验证模块,用第一验证集检验第一训练模型。
旱情分类模块,使用第一训练模型将原始信息分类成旱情信息和非旱情信息。 分类的时候,将分类结果存入到关系型数据库。
本实施例中,信息处理模块12包括信息分类模块,信息分类模块将旱情信 息分类成热点信息和非热点信息。信息分类模块包括如下内容。
第二样本获取模块,从旱情信息中获取若干第二样本信息并形成第二样本文 件。
第二样本分类模块,将第二样本文件分为第二测试集和第二验证集。
将第二样本文件分为两个类别,两个类别分别为第二测试集和第二验证集, 两个类别中的第二样本信息的数量可以相同,也可以不相同。也就是说,第二测 试集中的第二样本信息的数量,和第二验证集中的第二样本信息的数量相同或者 不相同。
第二训练模型训练模块,对第二测试集中的第二样本文件进行训练得到第二 训练模型。
第二训练模型验证模块,用第二验证集检验第二训练模型。
热点信息分类模块,使用第二训练模型将旱情信息分类成热点信息和非热点 信息。分类的时候,将分类结果存入到关系型数据库
本实施例中,信息处理模块12包括情感分析模块,情感分析模块将旱情信 息分类成正面报道信息和负面报道信息。情感分析模块包括如下内容。
第三样本获取模块,从旱情信息中获取若干第三样本信息并形成第三样本文 件。
第三样本分类模块,将第三样本文件分为第三测试集和第三验证集。
将第三样本文件分为两个类别,两个类别分别为第三测试集和第三验证集, 两个类别中的第三样本信息的数量可以相同,也可以不相同。也就是说,第三测 试集中的第三样本信息的数量,和第三验证集中的第三样本信息的数量相同或者 不相同。
第三训练模型训练模块,对第三测试集中的第三样本文件进行训练得到第三 训练模型。
第三训练模型验证模块,用第三验证集检验第三训练模型。
报道信息分类模块,使用第三训练模型将旱情信息分类成正面报道信息和负 面报道信息。分类的时候,将分类结果存入到关系型数据库
本实施例中,信息处理模块12包括词云图处理模块,用于将关键字按照出 现频率以云图的形式展示热点词云图。
本实施例中,信息管理模块13包括统计分析模块,统计分析模块包括如下 GIS统计分析模块和专题统计分析模块。
GIS统计分析模块,基于GIS的旱情信息统计分析为对提升旱情事件判断水 平、反应能力和应急处理能力提供信息保障,不但可提供城市基本旱情信息,还 可对旱情关注度进行层级划分,并实现旱情信息地图显示、图表输出等多种形式 的表达。具体包括如下内容:
(1)城市基本旱情信息统计
根据各城市的旱情报道数量,统计各城市旱情报道占比=各城市旱情数量/ 旱情总数量,并以饼状图的形式展示。
(2)旱情关注度层级划分
根据各城市的旱情报道数量,对各城市的旱情关注度进行层级划分,报道数 量小于20层级为一般,报道数量在20和80之间层级为中等,报道数据大于80 层级为高度,并以地图的形式展示。
专题统计分析模块,创建专题,将旱情报道归类到不同的专题,可以缩小关 注范围,能够更详细地把握旱情情况。(1)报道追踪,统计专题下最新的旱情数 据。(2)媒体关注度趋势,每日统计前一周媒体关注度数量,以折线图的形式显 示其趋势。(3)旱情分类对比,统计专题下各类别的旱情报道数量,以柱状图的 形式展示。(4)热点词,统计专题下所有旱情报道中出现频率较高的词,并生成 词云图。
本实施例中,信息管理模块13包括后台管理模块,用于对专题内容的增删 改查等操作。
本实施例中,信息管理模块13包括全文检索模块,用于提取数据关键字, 用于数据查询等操作。
在本发明中,还包括传输模块,用于将处理后的信息发送给显示模块,显示 模块显示用户界面即前端页面,包括系统首页、旱情新闻页面、专题分析页面、 历史干旱概况页面、历史干旱分析页面等。
前述方法实施例中的内容均适用于对应的系统实施例中,因而本系统实施例 的具体实现的功能与前述方法实施例相同,并且达到的有益效果也与前述方法实 施例相同。由于系统实施例与方法实施例基本相同,所以描述的比较简单,相关 之处参见方法实施例中的说明即可。
四、本发明提供一种计算机设备,请参见图3,本申请实施例提供的一种计 算机设备的结构图,包括存储器75和处理器71,所述存储器75存储有计算机 程序,所述处理器71执行所述计算机程序时,实现如上述公开的任一种灾情追 踪方法的步骤。
具体的,存储器75包括非易失性存储介质、内存储器75。该非易失性存储 介质存储有操作系统和计算机可读指令,该内存储器75为非易失性存储介质中 的操作系统和计算机可读指令的运行提供环境。处理器71在一些实施例中可以 是一中央处理器71(CentralProcessing Unit,CPU)、控制器、微控制器、微处 理器71或其他数据处理芯片,为计算机设备提供计算和控制能力。
所述计算机设备还包括:输入接口72,与处理器71相连,用于获取外部导 入的计算机程序、参数和指令,经处理器71控制保存至存储器75中。该输入接 口72可以与输入装置相连,接收用户手动输入的参数或指令。该输入装置可以 是显示屏上覆盖的触摸层,也可以是终端外壳上设置的按键、轨迹球或触控板, 也可以是键盘、触控板或鼠标等。
显示单元74,与处理器71相连,用于显示处理器71处理的数据以及用于 显示可视化的用户界面。该显示单元74可以为LED显示器、液晶显示器、触控 式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触 摸器等。
网络端口73,与处理器71相连,用于与外部各终端设备进行通信连接。该 通信连接所采用的通信技术可以为有线通信技术或无线通信技术,如移动高清链 接技术(MHL)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线保真技术(WiFi)、 蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术等。
本发明还提供了一种计算机可读存储介质,该存储介质可以包括:U盘、移 动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。该存储介质上存 储有计算机程序,所述计算机程序被处理器执行时时实现如上述公开的任一种灾 情追踪方法的步骤。
前述方法实施例中的内容均适用于对应的存储介质实施例中,因而本存储介 质实施例具体实现的功能与前述方法实施例相同,并且达到的有益效果也与前述 方法实施例相同。
本领域技术人员可以理解的是,上述步骤在实际运行中可以根据需要调换顺 序,或者并行处理。上述步骤反复执行,直至针对灾情追踪工作全部完成。 需要说明的是,针对上述各实施方式的详细解释,其目的仅在于对本发明进行解 释,以便于能够更好地解释本发明,但是,这些描述不能以任何理由解释成是对 本发明的限制,特别是,在不同的实施方式中描述的各个特征也可以相互任意组 合,从而组成其他实施方式,除了有明确相反的描述,这些特征应被理解为能够 应用于任何一个实施方式中,而并不仅局限于所描述的实施方式。

Claims (10)

1.一种灾情追踪方法,其特征在于,包括如下步骤:
获取与灾情相关的原始信息;
对原始信息进行提抽取信息、去重清洗、信息分类和情感分析;
对处理后的信息进行统计分析。
2.根据权利要求1所述的灾情追踪方法,其特征在于,在对原始信息进行提抽取信息、去重清洗、信息分类和情感分析的步骤中,提抽取信息包括:
从原始信息中提取正文,并从正文中抽取相关的内容信息。
3.根据权利要求1或2所述的灾情追踪方法,其特征在于,在对原始信息进行提抽取信息、去重清洗、信息分类和情感分析的步骤中,去重清洗包括:
去除重复的原始信息;
将原始信息清洗并分类成旱情信息和非旱情信息。
4.根据权利要求3所述的灾情追踪方法,其特征在于,在去除重复的原始信息的步骤中,包括:
过滤掉重复的链接和过滤掉重复的内容。
5.根据权利要求3所述的灾情追踪方法,其特征在于,在将原始信息清洗并分类成旱情信息和非旱情信息的步骤中,包括:
从原始信息中获取若干第一样本信息并形成第一样本文件;
将第一样本文件分为第一测试集和第一验证集;
对第一测试集中的第一样本文件进行训练得到第一训练模型;
用第一验证集检验第一训练模型;
使用第一训练模型将原始信息分类成旱情信息和非旱情信息。
6.根据权利要求1或2所述的灾情追踪方法,其特征在于,在对原始信息进行提抽取信息、去重清洗、信息分类和情感分析的步骤中,信息分类包括:
将旱情信息分类成热点信息和非热点信息。
7.根据权利要求5所述的灾情追踪方法,其特征在于,在将旱情信息分类成热点信息和非热点信息的步骤中,包括:
从旱情信息中获取若干第二样本信息并形成第二样本文件;
将第二样本文件分为第二测试集和第二验证集;
对第二测试集中的第二样本文件进行训练得到第二训练模型;
用第二验证集检验第二训练模型;
使用第二训练模型将旱情信息分类成热点信息和非热点信息。
8.一种灾情追踪系统,其特征在于,包括:
信息获取模块,用于获取与旱情相关的原始信息;
信息处理模块,用于对原始信息进行提抽取信息、去重清洗、信息分类和情感分析;
信息管理模块,用于对处理后的信息进行专题分析和统计分析。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1至7中任一项所述的灾情追踪方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至7中任一项所述的灾情追踪方法的步骤。
CN202011231091.1A 2020-11-06 2020-11-06 灾情追踪方法、系统、设备和存储介质 Pending CN112231483A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011231091.1A CN112231483A (zh) 2020-11-06 2020-11-06 灾情追踪方法、系统、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011231091.1A CN112231483A (zh) 2020-11-06 2020-11-06 灾情追踪方法、系统、设备和存储介质

Publications (1)

Publication Number Publication Date
CN112231483A true CN112231483A (zh) 2021-01-15

Family

ID=74122542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011231091.1A Pending CN112231483A (zh) 2020-11-06 2020-11-06 灾情追踪方法、系统、设备和存储介质

Country Status (1)

Country Link
CN (1) CN112231483A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906384A (zh) * 2021-03-10 2021-06-04 平安科技(深圳)有限公司 基于bert模型的数据处理方法、装置、设备及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法
US9185188B1 (en) * 2013-02-28 2015-11-10 Emc Corporation Method and system for determining optimal time period for data movement from source storage to target storage
CN109815991A (zh) * 2018-12-29 2019-05-28 北京城市网邻信息技术有限公司 机器学习模型的训练方法、装置、电子设备及存储介质
CN109992704A (zh) * 2019-03-12 2019-07-09 青岛格兰德信用管理咨询有限公司 一种基于长短期记忆神经网络的企业舆情监控系统及方法
CN110909973A (zh) * 2019-09-25 2020-03-24 中国水利水电科学研究院 考虑下垫面条件的旱情综合监测评估方法
CN111382332A (zh) * 2019-04-02 2020-07-07 江苏省地震局 一种地震灾情信息处理方法及系统
CN111831824A (zh) * 2020-07-16 2020-10-27 民生科技有限责任公司 一种舆情正负面分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法
US9185188B1 (en) * 2013-02-28 2015-11-10 Emc Corporation Method and system for determining optimal time period for data movement from source storage to target storage
CN109815991A (zh) * 2018-12-29 2019-05-28 北京城市网邻信息技术有限公司 机器学习模型的训练方法、装置、电子设备及存储介质
CN109992704A (zh) * 2019-03-12 2019-07-09 青岛格兰德信用管理咨询有限公司 一种基于长短期记忆神经网络的企业舆情监控系统及方法
CN111382332A (zh) * 2019-04-02 2020-07-07 江苏省地震局 一种地震灾情信息处理方法及系统
CN110909973A (zh) * 2019-09-25 2020-03-24 中国水利水电科学研究院 考虑下垫面条件的旱情综合监测评估方法
CN111831824A (zh) * 2020-07-16 2020-10-27 民生科技有限责任公司 一种舆情正负面分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906384A (zh) * 2021-03-10 2021-06-04 平安科技(深圳)有限公司 基于bert模型的数据处理方法、装置、设备及可读存储介质
CN112906384B (zh) * 2021-03-10 2024-02-02 平安科技(深圳)有限公司 基于bert模型的数据处理方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CA3098802C (en) Systems and methods for generating a contextually and conversationally correct response to a query
Jiang et al. Public-opinion sentiment analysis for large hydro projects
US10339453B2 (en) Automatically generating test/training questions and answers through pattern based analysis and natural language processing techniques on the given corpus for quick domain adaptation
Korenčić et al. Document-based topic coherence measures for news media text
US20180374157A1 (en) Modeling Asset Transfer Flow Relationships Discovered in Unstructured Data
Chen et al. A two-step resume information extraction algorithm
US9483519B2 (en) Authorship enhanced corpus ingestion for natural language processing
WO2021175009A1 (zh) 预警事件图谱的构建方法、装置、设备及存储介质
CN110612522B (zh) 实体模型的建立
Sharafat et al. Data mining for smart legal systems
Putra et al. Traffic and road conditions monitoring system using extracted information from Twitter
CN104794209B (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
CN104281634A (zh) 一种基于邻居关系的移动用户基础属性预测方法
García-Esparza et al. Validity of machine learning in assessing large texts through sustainability indicators
CN112231483A (zh) 灾情追踪方法、系统、设备和存储介质
Skondras et al. Efficient Resume Classification through Rapid Dataset Creation Using ChatGPT
CN109033133A (zh) 基于特征项权重增长趋势的事件检测与跟踪方法
Liang et al. Enhancing scenic recommendation and tour route personalization in tourism using UGC text mining
Yang et al. Evaluation and assessment of machine learning based user story grouping: A framework and empirical studies
Vysotska et al. Set-theoretic models and unified methods of information resources processing in e-business systems
CN110930189A (zh) 基于用户行为的个性化营销方法
Alzaidi et al. Arabic Location Named Entity Recognition for Tweets using a Deep Learning Approach
Sinha et al. My City, My Voice: Listening to the Citizen Views from Web Sources
CN115374108B (zh) 一种基于知识图谱技术的数据标准生成与自动映射方法
US20240086433A1 (en) Interactive tool for determining a headnote report

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210115