CN112749905A

CN112749905A - 一种基于大数据挖掘的洪涝灾害评估方法

Info

Publication number: CN112749905A
Application number: CN202110049401.6A
Authority: CN
Inventors: 张金良; 雷添杰; 吴迪; 付健; 徐瑞瑞; 罗秋实
Original assignee: China Institute of Water Resources and Hydropower Research; Yellow River Engineering Consulting Co Ltd
Current assignee: China Institute of Water Resources and Hydropower Research; Yellow River Engineering Consulting Co Ltd
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-05-04

Abstract

本发明提供了一种基于大数据挖掘的洪涝灾害评估方法，属于洪涝灾害风险评估技术领域。本发明通过网络爬虫等获取大量本发明数据；通过词频‑逆文本频率进行分词处理；通过共词分析，集中词汇对或名词短语的共现情况，来反映关键词之间的关联强度，进而确定这些词反映洪涝发生的等级、时间以及地点；本发明通过文本对应各个主题的概率，进而得知文本中各个词对应各个主题的概率，且知道这个词在文本中的出现次数，求得这个词被各个主题的产生次数；通过文本聚类，筛选出每个地域，单个主题落在地域中，表示该地区某时间发生某种主题等级的洪涝灾害概率较大，为后面做好防汛工作做好准备。

Description

一种基于大数据挖掘的洪涝灾害评估方法

技术领域

本发明属于洪涝灾害风险评估技术领域，尤其涉及一种基于大数据挖掘的洪涝灾害评估方法。

背景技术

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，作出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，作出正确的决策。洪涝灾害风险指某一地区在某一时间内洪涝发生的可能性、活动程度、破坏损失及其对经济、社会和自然环境系统造成的影响和危害有多大。

现有评估技术主要有基于遥感技术对洪涝灾害进行监测和评估，采用历史灾情数据进行洪涝灾害风险评估，基于水文动力学模型进行情景模拟。其中，基于遥感技术对分类精度以及数据匹配度要求较高；历史灾情法由于其历史资料的可得性与详略程度，使其具有一定局限性；基于水文动力学模型的情景模拟法因缺乏潜在地表及社会经济因素，不能提供洪涝灾害的综合风险评估。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于大数据挖掘的洪涝灾害评估方法，通过挖掘的方法，利用自然语言处理揭示各地各年发生的洪涝等级与频率，为研究洪涝发生规律、预测未来洪涝灾害发生情况提供参考依据。

为了达到以上目的，本发明采用的技术方案为：

本方案提供一种基于大数据挖掘的洪涝灾害评估方法，包括以下步骤：

S1、获取洪涝灾害数据，并对所述洪涝灾害数据进行分词处理；

S2、根据分词处理结果，对洪涝等级进行划分；

S3、利用词频统计方法统计洪涝等级划分结果中的高频词汇及其TF值，并根据统计结果构建特征词列表；

S4、对所述特征词列表进行共词分析；

S5、利用隐含狄利克雷分布模型构建洪涝主题模型，并通过所述洪涝主题模型建立洪涝主题，并通过洪涝灾害文本对应每个洪涝主题的概率得到文本中每个词对应每个洪涝主题的概率以及每个洪涝主题产生的次数；

S6、根据文本中每个词对应每个洪涝主题的概率以及每个洪涝主题产生的次数，利用共词分析结果得到每个地域发生洪涝等级的概率，完成基于大数据挖掘的洪涝灾害评估。

进一步地，所述步骤S4包括以下步骤：

S401、对所述特征词列表中的词汇对以及名词短语共同出现的次数进行统计，确定分析数据集；

S402、利用洪涝等级划分结果确定洪涝等级的关键词；

S403、根据所述特征词列表构建二维矩阵；

S404、遍历所有特征词列表，构建全部特征词之间的组合，并判断所述组合是否在同一篇文本中出现，若是，则存入二维矩阵对应的位置，并构建共词矩阵，并进入步骤S405，否则，重复步骤S404；

S405、根据所述分析数据集、洪涝等级的关键词以及共词矩阵，完成对特征词列表的共词分析。

再进一步地，所述步骤S5中洪涝主题中词分布的表达式如下：

其中，

表示洪涝主题中的词分布，

表示第k个主题的词分布，

表示第m个文档的词编号，Z_i表示第i个词在主题中的编号，w_i表示第i个词在字典中的序号，p(·)表示生成概率，

表示主题下词的多项式分布的狄利克雷函数现验参数，Dir(·)表示隐含狄利克雷分布模型记录结果，

第 t个文档中k个主题中的词个数，V的总文档数，β_t表示第t个文档下主题的多项式狄利克雷函数先验参数，t表示第一个文档。

再进一步地，所述步骤S5中洪涝主题的分布表达式如下：

其中，

表示洪涝主题的分布，

表示第m个文档的主题编号， N_m表示第m个文档包含的词总数，n表示文本中词的个数，z_m,n表示第m个文档第n个词的主题编号，p(·)表示生成概率，

表示第m个文档的主题分布，

表示文档主题的多项式分布的狄利克雷函数现验参数，Dir(·)表示隐含狄利克雷分布模型记录结果，

表示第k主题下的词分布向量，

表示第m 个文档中的词个数，

表示第k主题文档中m个文档中的词个数，a_m表示第 m个文档下主题的多项式狄利克雷函数先验参数，K表示主题总数。

再进一步地，所述步骤S5中各洪涝主题的相关性的表达式如下：

其中，label_e表示各主题的相关性，x_e表示样本，μ_j表示选择的f个类别中心，c_j表示e个类别与f个类别中距离最近的类别，j表示e个类别与f个类别的某一的类别。

本发明的有益效果：

(1)本发明通过网络爬虫等获取大量本发明数据；通过共词分析，集中词汇对或名词短语的共现情况，来反映关键词之间的关联强度，进而确定这些词反映洪涝发生的等级、时间以及地点；通过主题模型，建立主题，通过文本对应各个主题的概率，进而得知文本中各个词对应各个主题的概率，且知道这个词在文本中的出现次数，于是求得这个词被各个主题的产生次数；通过文本聚类，筛选出每个地域，单个主题落在地域中，表示该地区某时间发生某种主题等级的洪涝灾害概率较大，为后面做好防汛工作做好准备。

(2)本发明通过获取某地区某时间发生某种主题等级的洪涝灾害概率，在未来提高灾害风险意识和加强灾害风险管理，建立具有较强、较全面的防灾抗灾能力，来减轻灾害对人类、社会、经济与环境造成的损失。

附图说明

图1为本发明的方法流程图。

图2为本实施例中高频词汇统计示意图。

图3为本实施例中高频关键词词云示意图。

图4为本实施例中的聚类结果示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例

如图1所示，本发明提供了一种基于大数据挖掘的洪涝灾害评估方法，其实现方法如下：

S1、获取洪涝灾害数据，并对所述洪涝灾害数据进行分词处理。

本实施例中，洪涝灾害数据的获取包括：微博数据、新闻报道、历史资料、年鉴、奏折、政府公告、水旱灾害公报以及中英文献库等获取数据，并存入文本库。

本实施例中，文本预处理，使用软件python3.7与jieba库对文本进行分词处理，为确保分词更加准确，比如原来词典将“大暴雨”拆分为“大”和“暴雨”，而本发明想要的是词语“大暴雨”和“暴雨”，因此分别建立停止词词典以及不同关键词词典，停止词词典包括现代汉语中出现次数较多但意义较小词语，比如，“造成”、“影响”、“的”、“等”，因为研究洪涝灾害避免其他灾害词语影响，因此考虑去掉与其他灾害表达相关的词。

S2、根据分词处理结果，对洪涝等级进行划分；

本实施例中，根据语意，相关词语“特大暴雨”、“山洪暴发”、“房屋倒塌”可设置洪涝等级特重度洪涝；词语“河水泛滥”、“淹没农田”、“毁坏农业设置”等可设置洪涝等级重度洪涝；词语“雨水过多”，“车辆停运”可设置洪涝等级中度洪涝；词语“城市积水”、“农田积水”等可设置洪涝等级轻度度洪涝；因此可以拟确定洪涝灾害评价指标、依次为轻度洪涝、洪涝、重度洪涝、特重度洪涝，后面可根据具体分析的情况增加或者减少等级。

本实施例中，采用词频统计的方法统计出现频率最多的词，如“大水”、“大暴雨”，“大雨”，“内涝”等词，统计高频词汇及其TF值。对词频统计结果求并集，结果存入一个字典中，keys(.)为词，values(.)为每个词的词频，再将所有特征词存入一列表中列表中，如图2-图3所示。

S4、对所述特征词列表进行共词分析，其实现方法如下：

S402、利用洪涝等级划分结果确定洪涝等级的关键词；

S403、根据所述特征词列表构建二维矩阵；

本实施例中，对文本中词汇对或名词短语共同出现次数进行统计，确定分析数据集，使用的分词结果中的txt文件或者csv文件，确定分析对象为洪涝等级关键词。建立共词矩阵，建一个二维矩阵，其大小为：总特征词词数x 总特征词词数(也就是共词矩阵如表1所示，表1为共词矩阵)。其横竖分别对应总特征词中的每个词，例如，合肥、四月在同一篇文章中出现一次，则在共词矩阵中的权重增加1，循环遍历特征词列表，构建全部两个词之间的组合, 再遍历每一篇文章的切词结果，如果该两个词在同一篇文章中出现，则该两词的权重+1，再将其存入共词矩阵的对应位置中。(它也是一个对角矩阵将共词矩阵对角线上元素赋值为它自身在所有文章出现次数。通过权重分析关键词之间的关联，权重越大则词汇对在一篇文章中出现的次数越多，代表着两个主题关系越密切。通过供词网络可分析合肥，四月相关性较高。

表1

大水	宿州	全省	暴雨
				154	23	5	3
5	171	4	4
				4	4	243	4
3	4	8	362

本实施例中，使用隐含狄利克雷分布(LDA)模型，其中语料库中共有m 篇文档，词典中共有V个词，语料库中共有K个主题，对于某篇文档中的第 n个词，θ是每篇文档的主题分布，对于第i篇文档d_i的主题分布是θ_i＝(θ_i1,θ_i2,...,θ_ik)是长度为K的向量；对于第i篇文档d_i，在主题分布θ_i下，可以确定一个具体的主题Z_ij＝k,k∈[1,K]，φ_k表示第k个主题的词分布，对于第k个主题T_k的词分布φ_k＝(φ_k1,φ_k2,...,φ_kv)是长度为v的向量，通过z_ij选择φ_zij，表示由词分布φ_zij确定词语，即得到观测值w_ij。

洪涝主题中词分布的表达式如下：

其中，

表示洪涝主题中的词分布，

表示第k个主题的词分布，

第 t主题文档中k个文档中的词个数，V的总文档数，β_t表示第t个文档下主题的多项式狄利克雷函数先验参数，t＝1表示第一个文档。

洪涝主题的分布表达式如下：

其中，

表示洪涝主题的分布，

表示第m个文档的主题分布，

表示第k主题下的词分布向量，

表示第m 个文档中的词个数，

本实施例中，如将史料文档经过分词后，词典中共有58417个词。先本发明预得到4个洪涝等级，轻度洪涝、洪涝、重度洪涝以及特重度洪涝。所以主题数目至少大于等于4，本发明设置主题数为5，比如偏涝，特大涝，洪涝，大雨以及暴雨等，本发明通过文本对应各个主题的概率，进而得知文本中各个词对应各个主题的概率，且知道这个词在文本中的出现次数，于是求得这个词被各个主题的产生次数，遍历文文本中的每一个词，就可以得到新的文本中对应各个主题的词的个数，本发明最终得到了文本对应各个主题的词的个数的更新值：记作向量，本发明将更新后的向量再次作为狄利克雷分布的输入向量，得到文本对应各个主题的概率的更新值，此反复迭代，最终得到收敛的，即为本发明要的结果。再利用python中networkx库，利用共词矩阵构建共词网络图。

本实施例中，观察表2可知主题一全省连绵雨为主，可定义洪涝等级为轻度洪涝；主题二，阴雨，大水，定义洪涝等级为重度洪涝；主题三大风，全省关键词为主，可定义等级为洪涝；主题四大暴雨，水灾关键词为主，定义洪涝等级为特重度特涝。表2为主题与高频关键词的相关性。

表2

本实施例中，通过聚类分析，本发明用到的k-Means算法是一种广泛使用的聚类算法，具体步骤为假定输入样本S＝x₁,x₂,...,x_m，选择初始的k个类别中心μ₁,μ₂,...,μ_k，对于每个样本x_i，将其标记为距离类别中心最近的类别，即:

将每个类别中心更新为隶属该类别的所有样本的均值

其中，label_e表示各主题的相关性，x_e表示样本，μ_j表示选择的f个类别中心，c_j表示e个类别与f个类别中距离最近的类别，j表示 e个类别与f个类别的某一的类别，重复最后两步，直到类别中心的变化小于某阈值。从多个文档随机选取4文档作为中心点，该4个文档为各主题中高频词组成，对其他文档测量其到每个中心点的距离，并把它归到最近的质心的类，计算已经得到的各个类的中心点。各主题相关性如图4所示。利用统计方法。某个主题中城市和时间等词相关性较大，表示该地区某时间发生某种主题等级的洪涝灾害概率较大，例如合肥、大水、六月常发生中度洪涝，为后面做好防汛工作做好准备。

综上所述，本发明通过网络爬虫等获取大量本发明数据；通过词频-逆文本频率进行分词处理；通过共词分析，集中词汇对或名词短语的共现情况，来反映关键词之间的关联强度，进而确定这些词反映洪涝发生的等级、时间以及地点；通过主题模型，建立主题，本发明通过文本对应各个主题的概率，进而得知文本中各个词对应各个主题的概率，且知道这个词在文本中的出现次数，于是求得这个词被各个主题的产生次数；通过文本聚类，筛选出每个地域，单个主题落在地域中，表示该地区某时间发生某种主题等级的洪涝灾害概率较大，为后面做好防汛工作做好准备，为未来提高灾害风险意识和加强灾害风险管理，建立具有较强、较全面的防灾抗灾能力，来减轻灾害对人类、社会、经济与环境造成的损失。