CN112749905A - 一种基于大数据挖掘的洪涝灾害评估方法 - Google Patents

一种基于大数据挖掘的洪涝灾害评估方法 Download PDF

Info

Publication number
CN112749905A
CN112749905A CN202110049401.6A CN202110049401A CN112749905A CN 112749905 A CN112749905 A CN 112749905A CN 202110049401 A CN202110049401 A CN 202110049401A CN 112749905 A CN112749905 A CN 112749905A
Authority
CN
China
Prior art keywords
word
flood
topic
representing
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110049401.6A
Other languages
English (en)
Inventor
张金良
雷添杰
吴迪
付健
徐瑞瑞
罗秋实
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Institute of Water Resources and Hydropower Research
Yellow River Engineering Consulting Co Ltd
Original Assignee
China Institute of Water Resources and Hydropower Research
Yellow River Engineering Consulting Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Institute of Water Resources and Hydropower Research, Yellow River Engineering Consulting Co Ltd filed Critical China Institute of Water Resources and Hydropower Research
Priority to CN202110049401.6A priority Critical patent/CN112749905A/zh
Publication of CN112749905A publication Critical patent/CN112749905A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Development Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于大数据挖掘的洪涝灾害评估方法,属于洪涝灾害风险评估技术领域。本发明通过网络爬虫等获取大量本发明数据;通过词频‑逆文本频率进行分词处理;通过共词分析,集中词汇对或名词短语的共现情况,来反映关键词之间的关联强度,进而确定这些词反映洪涝发生的等级、时间以及地点;本发明通过文本对应各个主题的概率,进而得知文本中各个词对应各个主题的概率,且知道这个词在文本中的出现次数,求得这个词被各个主题的产生次数;通过文本聚类,筛选出每个地域,单个主题落在地域中,表示该地区某时间发生某种主题等级的洪涝灾害概率较大,为后面做好防汛工作做好准备。

Description

一种基于大数据挖掘的洪涝灾害评估方法
技术领域
本发明属于洪涝灾害风险评估技术领域,尤其涉及一种基于大数据挖掘的洪涝灾害评估方法。
背景技术
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。洪涝灾害风险指某一地区在某一时间内洪涝发生的可能性、活动程度、破坏损失及其对经济、社会和自然环境系统造成的影响和危害有多大。
现有评估技术主要有基于遥感技术对洪涝灾害进行监测和评估,采用历史灾情数据进行洪涝灾害风险评估,基于水文动力学模型进行情景模拟。其中,基于遥感技术对分类精度以及数据匹配度要求较高;历史灾情法由于其历史资料的可得性与详略程度,使其具有一定局限性;基于水文动力学模型的情景模拟法因缺乏潜在地表及社会经济因素,不能提供洪涝灾害的综合风险评估。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于大数据挖掘的洪涝灾害评估方法,通过挖掘的方法,利用自然语言处理揭示各地各年发生的洪涝等级与频率,为研究洪涝发生规律、预测未来洪涝灾害发生情况提供参考依据。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种基于大数据挖掘的洪涝灾害评估方法,包括以下步骤:
S1、获取洪涝灾害数据,并对所述洪涝灾害数据进行分词处理;
S2、根据分词处理结果,对洪涝等级进行划分;
S3、利用词频统计方法统计洪涝等级划分结果中的高频词汇及其TF值,并根据统计结果构建特征词列表;
S4、对所述特征词列表进行共词分析;
S5、利用隐含狄利克雷分布模型构建洪涝主题模型,并通过所述洪涝主题模型建立洪涝主题,并通过洪涝灾害文本对应每个洪涝主题的概率得到文本中每个词对应每个洪涝主题的概率以及每个洪涝主题产生的次数;
S6、根据文本中每个词对应每个洪涝主题的概率以及每个洪涝主题产生的次数,利用共词分析结果得到每个地域发生洪涝等级的概率,完成基于大数据挖掘的洪涝灾害评估。
进一步地,所述步骤S4包括以下步骤:
S401、对所述特征词列表中的词汇对以及名词短语共同出现的次数进行统计,确定分析数据集;
S402、利用洪涝等级划分结果确定洪涝等级的关键词;
S403、根据所述特征词列表构建二维矩阵;
S404、遍历所有特征词列表,构建全部特征词之间的组合,并判断所述组合是否在同一篇文本中出现,若是,则存入二维矩阵对应的位置,并构建共词矩阵,并进入步骤S405,否则,重复步骤S404;
S405、根据所述分析数据集、洪涝等级的关键词以及共词矩阵,完成对特征词列表的共词分析。
再进一步地,所述步骤S5中洪涝主题中词分布的表达式如下:
Figure RE-GDA0002988068410000031
Figure RE-GDA0002988068410000032
其中,
Figure RE-GDA0002988068410000033
表示洪涝主题中的词分布,
Figure RE-GDA0002988068410000034
表示第k个主题的词分布,
Figure RE-GDA0002988068410000035
表示第m个文档的词编号,Zi表示第i个词在主题中的编号,wi表示第i个词在字典中的序号,p(·)表示生成概率,
Figure RE-GDA0002988068410000036
表示主题下词的多项式分布的狄利克雷函数现验参数,Dir(·)表示隐含狄利克雷分布模型记录结果,
Figure RE-GDA0002988068410000037
第 t个文档中k个主题中的词个数,V的总文档数,βt表示第t个文档下主题的多项式狄利克雷函数先验参数,t表示第一个文档。
再进一步地,所述步骤S5中洪涝主题的分布表达式如下:
Figure RE-GDA0002988068410000038
Figure RE-GDA0002988068410000039
其中,
Figure RE-GDA00029880684100000310
表示洪涝主题的分布,
Figure RE-GDA00029880684100000311
表示第m个文档的主题编号, Nm表示第m个文档包含的词总数,n表示文本中词的个数,zm,n表示第m个文档第n个词的主题编号,p(·)表示生成概率,
Figure RE-GDA00029880684100000312
表示第m个文档的主题分布,
Figure RE-GDA00029880684100000313
表示文档主题的多项式分布的狄利克雷函数现验参数,Dir(·)表示隐含狄利克雷分布模型记录结果,
Figure RE-GDA00029880684100000314
表示第k主题下的词分布向量,
Figure RE-GDA00029880684100000315
表示第m 个文档中的词个数,
Figure RE-GDA00029880684100000316
表示第k主题文档中m个文档中的词个数,am表示第 m个文档下主题的多项式狄利克雷函数先验参数,K表示主题总数。
再进一步地,所述步骤S5中各洪涝主题的相关性的表达式如下:
Figure RE-GDA00029880684100000317
Figure RE-GDA0002988068410000041
其中,labele表示各主题的相关性,xe表示样本,μj表示选择的f个类别中心,cj表示e个类别与f个类别中距离最近的类别,j表示e个类别与f个类别的某一的类别。
本发明的有益效果:
(1)本发明通过网络爬虫等获取大量本发明数据;通过共词分析,集中词汇对或名词短语的共现情况,来反映关键词之间的关联强度,进而确定这些词反映洪涝发生的等级、时间以及地点;通过主题模型,建立主题,通过文本对应各个主题的概率,进而得知文本中各个词对应各个主题的概率,且知道这个词在文本中的出现次数,于是求得这个词被各个主题的产生次数;通过文本聚类,筛选出每个地域,单个主题落在地域中,表示该地区某时间发生某种主题等级的洪涝灾害概率较大,为后面做好防汛工作做好准备。
(2)本发明通过获取某地区某时间发生某种主题等级的洪涝灾害概率,在未来提高灾害风险意识和加强灾害风险管理,建立具有较强、较全面的防灾抗灾能力,来减轻灾害对人类、社会、经济与环境造成的损失。
附图说明
图1为本发明的方法流程图。
图2为本实施例中高频词汇统计示意图。
图3为本实施例中高频关键词词云示意图。
图4为本实施例中的聚类结果示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例
如图1所示,本发明提供了一种基于大数据挖掘的洪涝灾害评估方法,其实现方法如下:
S1、获取洪涝灾害数据,并对所述洪涝灾害数据进行分词处理。
本实施例中,洪涝灾害数据的获取包括:微博数据、新闻报道、历史资料、年鉴、奏折、政府公告、水旱灾害公报以及中英文献库等获取数据,并存入文本库。
本实施例中,文本预处理,使用软件python3.7与jieba库对文本进行分词处理,为确保分词更加准确,比如原来词典将“大暴雨”拆分为“大”和“暴雨”,而本发明想要的是词语“大暴雨”和“暴雨”,因此分别建立停止词词典以及不同关键词词典,停止词词典包括现代汉语中出现次数较多但意义较小词语,比如,“造成”、“影响”、“的”、“等”,因为研究洪涝灾害避免其他灾害词语影响,因此考虑去掉与其他灾害表达相关的词。
S2、根据分词处理结果,对洪涝等级进行划分;
本实施例中,根据语意,相关词语“特大暴雨”、“山洪暴发”、“房屋倒塌”可设置洪涝等级特重度洪涝;词语“河水泛滥”、“淹没农田”、“毁坏农业设置”等可设置洪涝等级重度洪涝;词语“雨水过多”,“车辆停运”可设置洪涝等级中度洪涝;词语“城市积水”、“农田积水”等可设置洪涝等级轻度度洪涝;因此可以拟确定洪涝灾害评价指标、依次为轻度洪涝、洪涝、重度洪涝、特重度洪涝,后面可根据具体分析的情况增加或者减少等级。
S3、利用词频统计方法统计洪涝等级划分结果中的高频词汇及其TF值,并根据统计结果构建特征词列表;
本实施例中,采用词频统计的方法统计出现频率最多的词,如“大水”、“大暴雨”,“大雨”,“内涝”等词,统计高频词汇及其TF值。对词频统计结果求并集,结果存入一个字典中,keys(.)为词,values(.)为每个词的词频,再将所有特征词存入一列表中列表中,如图2-图3所示。
S4、对所述特征词列表进行共词分析,其实现方法如下:
S401、对所述特征词列表中的词汇对以及名词短语共同出现的次数进行统计,确定分析数据集;
S402、利用洪涝等级划分结果确定洪涝等级的关键词;
S403、根据所述特征词列表构建二维矩阵;
S404、遍历所有特征词列表,构建全部特征词之间的组合,并判断所述组合是否在同一篇文本中出现,若是,则存入二维矩阵对应的位置,并构建共词矩阵,并进入步骤S405,否则,重复步骤S404;
S405、根据所述分析数据集、洪涝等级的关键词以及共词矩阵,完成对特征词列表的共词分析。
本实施例中,对文本中词汇对或名词短语共同出现次数进行统计,确定分析数据集,使用的分词结果中的txt文件或者csv文件,确定分析对象为洪涝等级关键词。建立共词矩阵,建一个二维矩阵,其大小为:总特征词词数x 总特征词词数(也就是共词矩阵如表1所示,表1为共词矩阵)。其横竖分别对应总特征词中的每个词,例如,合肥、四月在同一篇文章中出现一次,则在共词矩阵中的权重增加1,循环遍历特征词列表,构建全部两个词之间的组合, 再遍历每一篇文章的切词结果,如果该两个词在同一篇文章中出现,则该两词的权重+1,再将其存入共词矩阵的对应位置中。(它也是一个对角矩阵将共词矩阵对角线上元素赋值为它自身在所有文章出现次数。通过权重分析关键词之间的关联,权重越大则词汇对在一篇文章中出现的次数越多,代表着两个主题关系越密切。通过供词网络可分析合肥,四月相关性较高。
表1
大水 宿州 全省 暴雨
154 23 5 3
5 171 4 4
4 4 243 4
3 4 8 362
S5、利用隐含狄利克雷分布模型构建洪涝主题模型,并通过所述洪涝主题模型建立洪涝主题,并通过洪涝灾害文本对应每个洪涝主题的概率得到文本中每个词对应每个洪涝主题的概率以及每个洪涝主题产生的次数;
本实施例中,使用隐含狄利克雷分布(LDA)模型,其中语料库中共有m 篇文档,词典中共有V个词,语料库中共有K个主题,对于某篇文档中的第 n个词,θ是每篇文档的主题分布,对于第i篇文档di的主题分布是θi=(θi1i2,...,θik)是长度为K的向量;对于第i篇文档di,在主题分布θi下,可以确定一个具体的主题Zij=k,k∈[1,K],φk表示第k个主题的词分布,对于第k个主题Tk的词分布φk=(φk1k2,...,φkv)是长度为v的向量,通过zij选择φzij,表示由词分布φzij确定词语,即得到观测值wij
洪涝主题中词分布的表达式如下:
Figure RE-GDA0002988068410000081
Figure RE-GDA0002988068410000082
其中,
Figure RE-GDA0002988068410000083
表示洪涝主题中的词分布,
Figure RE-GDA0002988068410000084
表示第k个主题的词分布,
Figure RE-GDA0002988068410000085
表示第m个文档的词编号,Zi表示第i个词在主题中的编号,wi表示第i个词在字典中的序号,p(·)表示生成概率,
Figure RE-GDA0002988068410000086
表示主题下词的多项式分布的狄利克雷函数现验参数,Dir(·)表示隐含狄利克雷分布模型记录结果,
Figure RE-GDA0002988068410000087
第 t主题文档中k个文档中的词个数,V的总文档数,βt表示第t个文档下主题的多项式狄利克雷函数先验参数,t=1表示第一个文档。
洪涝主题的分布表达式如下:
Figure RE-GDA0002988068410000088
Figure RE-GDA0002988068410000089
其中,
Figure RE-GDA00029880684100000810
表示洪涝主题的分布,
Figure RE-GDA00029880684100000811
表示第m个文档的主题编号, Nm表示第m个文档包含的词总数,n表示文本中词的个数,zm,n表示第m个文档第n个词的主题编号,p(·)表示生成概率,
Figure RE-GDA00029880684100000812
表示第m个文档的主题分布,
Figure RE-GDA00029880684100000813
表示文档主题的多项式分布的狄利克雷函数现验参数,Dir(·)表示隐含狄利克雷分布模型记录结果,
Figure RE-GDA00029880684100000814
表示第k主题下的词分布向量,
Figure RE-GDA00029880684100000815
表示第m 个文档中的词个数,
Figure RE-GDA00029880684100000816
表示第k主题文档中m个文档中的词个数,am表示第 m个文档下主题的多项式狄利克雷函数先验参数,K表示主题总数。
本实施例中,如将史料文档经过分词后,词典中共有58417个词。先本发明预得到4个洪涝等级,轻度洪涝、洪涝、重度洪涝以及特重度洪涝。所以主题数目至少大于等于4,本发明设置主题数为5,比如偏涝,特大涝,洪涝,大雨以及暴雨等,本发明通过文本对应各个主题的概率,进而得知文本中各个词对应各个主题的概率,且知道这个词在文本中的出现次数,于是求得这个词被各个主题的产生次数,遍历文文本中的每一个词,就可以得到新的文本中对应各个主题的词的个数,本发明最终得到了文本对应各个主题的词的个数的更新值:记作向量,本发明将更新后的向量再次作为狄利克雷分布的输入向量,得到文本对应各个主题的概率的更新值,此反复迭代,最终得到收敛的,即为本发明要的结果。再利用python中networkx库,利用共词矩阵构建共词网络图。
S6、根据文本中每个词对应每个洪涝主题的概率以及每个洪涝主题产生的次数,利用共词分析结果得到每个地域发生洪涝等级的概率,完成基于大数据挖掘的洪涝灾害评估。
本实施例中,观察表2可知主题一全省连绵雨为主,可定义洪涝等级为轻度洪涝;主题二,阴雨,大水,定义洪涝等级为重度洪涝;主题三大风,全省关键词为主,可定义等级为洪涝;主题四大暴雨,水灾关键词为主,定义洪涝等级为特重度特涝。表2为主题与高频关键词的相关性。
表2
Figure RE-GDA0002988068410000091
Figure RE-GDA0002988068410000101
本实施例中,通过聚类分析,本发明用到的k-Means算法是一种广泛使用的聚类算法,具体步骤为假定输入样本S=x1,x2,...,xm,选择初始的k个类别中心μ12,...,μk,对于每个样本xi,将其标记为距离类别中心最近的类别,即:
Figure RE-GDA0002988068410000102
将每个类别中心更新为隶属该类别的所有样本的均值
Figure RE-GDA0002988068410000103
其中,labele表示各主题的相关性,xe表示样本,μj表示选择的f个类别中心,cj表示e个类别与f个类别中距离最近的类别,j表示 e个类别与f个类别的某一的类别,重复最后两步,直到类别中心的变化小于某阈值。从多个文档随机选取4文档作为中心点,该4个文档为各主题中高频词组成,对其他文档测量其到每个中心点的距离,并把它归到最近的质心的类,计算已经得到的各个类的中心点。各主题相关性如图4所示。利用统计方法。某个主题中城市和时间等词相关性较大,表示该地区某时间发生某种主题等级的洪涝灾害概率较大,例如合肥、大水、六月常发生中度洪涝,为后面做好防汛工作做好准备。
综上所述,本发明通过网络爬虫等获取大量本发明数据;通过词频-逆文本频率进行分词处理;通过共词分析,集中词汇对或名词短语的共现情况,来反映关键词之间的关联强度,进而确定这些词反映洪涝发生的等级、时间以及地点;通过主题模型,建立主题,本发明通过文本对应各个主题的概率,进而得知文本中各个词对应各个主题的概率,且知道这个词在文本中的出现次数,于是求得这个词被各个主题的产生次数;通过文本聚类,筛选出每个地域,单个主题落在地域中,表示该地区某时间发生某种主题等级的洪涝灾害概率较大,为后面做好防汛工作做好准备,为未来提高灾害风险意识和加强灾害风险管理,建立具有较强、较全面的防灾抗灾能力,来减轻灾害对人类、社会、经济与环境造成的损失。

Claims (5)

1.一种基于大数据挖掘的洪涝灾害评估方法,其特征在于,包括以下步骤:
S1、获取洪涝灾害数据,并对所述洪涝灾害数据进行分词处理;
S2、根据分词处理结果,对洪涝等级进行划分;
S3、利用词频统计方法统计洪涝等级划分结果中的高频词汇及其TF值,并根据统计结果构建特征词列表;
S4、对所述特征词列表进行共词分析;
S5、利用隐含狄利克雷分布模型构建洪涝主题模型,并通过所述洪涝主题模型建立洪涝主题,并通过洪涝灾害文本对应每个洪涝主题的概率得到文本中每个词对应每个洪涝主题的概率以及每个洪涝主题产生的次数;
S6、根据文本中每个词对应每个洪涝主题的概率以及每个洪涝主题产生的次数,利用共词分析结果得到每个地域发生洪涝等级的概率,完成基于大数据挖掘的洪涝灾害评估。
2.根据权利要求1所述的基于大数据挖掘的洪涝灾害评估方法,其特征在于,所述步骤S4包括以下步骤:
S401、对所述特征词列表中的词汇对以及名词短语共同出现的次数进行统计,确定分析数据集;
S402、利用洪涝等级划分结果确定洪涝等级的关键词;
S403、根据所述特征词列表构建二维矩阵;
S404、遍历所有特征词列表,构建全部特征词之间的组合,并判断所述组合是否在同一篇文本中出现,若是,则存入二维矩阵对应的位置,并构建共词矩阵,并进入步骤S405,否则,重复步骤S404;
S405、根据所述分析数据集、洪涝等级的关键词以及共词矩阵,完成对特征词列表的共词分析。
3.根据权利要求1所述的基于大数据挖掘的洪涝灾害评估方法,其特征在于,所述步骤S5中洪涝主题中词分布的表达式如下:
Figure FDA0002898446740000021
Figure FDA0002898446740000022
其中,
Figure FDA0002898446740000023
表示洪涝主题中的词分布,
Figure FDA0002898446740000024
表示第k个主题的词分布,
Figure FDA0002898446740000025
表示第m个文档的词编号,Zi表示第i个词在主题中的编号,wi表示第i个词在字典中的序号,p(·)表示生成概率,
Figure FDA0002898446740000026
表示主题下词的多项式分布的狄利克雷函数现验参数,Dir(·)表示隐含狄利克雷分布模型记录结果,
Figure FDA0002898446740000027
第t个文档中k个主题中的词个数,V的总文档数,βt表示第t个文档下主题的多项式狄利克雷函数先验参数,t表示第一个文档。
4.根据权利要求1所述的基于大数据挖掘的洪涝灾害评估方法,其特征在于,所述步骤S5中洪涝主题的分布表达式如下:
Figure FDA0002898446740000028
Figure FDA0002898446740000029
其中,
Figure FDA00028984467400000210
表示洪涝主题的分布,
Figure FDA00028984467400000211
表示第m个文档的主题编号,Nm表示第m个文档包含的词总数,n表示文本中词的个数,zm,n表示第m个文档第n个词的主题编号,p(·)表示生成概率,
Figure FDA00028984467400000212
表示第m个文档的主题分布,
Figure FDA00028984467400000213
表示文档主题的多项式分布的狄利克雷函数现验参数,Dir(·)表示隐含狄利克雷分布模型记录结果,
Figure FDA00028984467400000214
表示第k主题下的词分布向量,
Figure FDA00028984467400000215
表示第m个文档中的词个数,
Figure FDA00028984467400000216
表示第k主题文档中m个文档中的词个数,am表示第m个文档下主题的多项式狄利克雷函数先验参数,K表示主题总数。
5.根据权利要求1所述的基于大数据挖掘的洪涝灾害评估方法,其特征在于,所述步骤S5中各洪涝主题的相关性的表达式如下:
Figure FDA0002898446740000031
Figure FDA0002898446740000032
其中,labele表示各主题的相关性,xe表示样本,μj表示选择的f个类别中心,cj表示e个类别与f个类别中距离最近的类别,j表示e个类别与f个类别的某一的类别。
CN202110049401.6A 2021-01-14 2021-01-14 一种基于大数据挖掘的洪涝灾害评估方法 Pending CN112749905A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110049401.6A CN112749905A (zh) 2021-01-14 2021-01-14 一种基于大数据挖掘的洪涝灾害评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110049401.6A CN112749905A (zh) 2021-01-14 2021-01-14 一种基于大数据挖掘的洪涝灾害评估方法

Publications (1)

Publication Number Publication Date
CN112749905A true CN112749905A (zh) 2021-05-04

Family

ID=75651927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110049401.6A Pending CN112749905A (zh) 2021-01-14 2021-01-14 一种基于大数据挖掘的洪涝灾害评估方法

Country Status (1)

Country Link
CN (1) CN112749905A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187769A (zh) * 2023-05-04 2023-05-30 四川省安全科学技术研究院 基于情景模拟的城镇洪涝灾害风险研判方法
CN116433032A (zh) * 2023-04-26 2023-07-14 中国农业科学院农业环境与可持续发展研究所 基于网络爬虫方式的智能评估方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150046793A (ko) * 2013-10-21 2015-05-04 대한민국(국민안전처 국립재난안전연구원장) 소셜미디어를 이용한 재난 감지 시스템
CN110533212A (zh) * 2019-07-04 2019-12-03 西安理工大学 基于大数据的城市内涝舆情监测预警方法
CN111737976A (zh) * 2020-06-22 2020-10-02 黄河勘测规划设计研究院有限公司 一种旱灾风险预测方法及系统
CN112069378A (zh) * 2020-09-14 2020-12-11 郑州大学 一种基于idf曲线的城市致灾降水分类判定方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150046793A (ko) * 2013-10-21 2015-05-04 대한민국(국민안전처 국립재난안전연구원장) 소셜미디어를 이용한 재난 감지 시스템
CN110533212A (zh) * 2019-07-04 2019-12-03 西安理工大学 基于大数据的城市内涝舆情监测预警方法
CN111737976A (zh) * 2020-06-22 2020-10-02 黄河勘测规划设计研究院有限公司 一种旱灾风险预测方法及系统
CN112069378A (zh) * 2020-09-14 2020-12-11 郑州大学 一种基于idf曲线的城市致灾降水分类判定方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李杰 等: "《CiteSpace:科技文本挖掘及可视化》", 31 August 2017 *
黄锦涛: "《基于文本数据的水旱灾害风险评估--以河南省为例》", 《万方学位论文》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116433032A (zh) * 2023-04-26 2023-07-14 中国农业科学院农业环境与可持续发展研究所 基于网络爬虫方式的智能评估方法
CN116433032B (zh) * 2023-04-26 2024-04-09 中国农业科学院农业环境与可持续发展研究所 基于网络爬虫方式的智能评估方法
CN116187769A (zh) * 2023-05-04 2023-05-30 四川省安全科学技术研究院 基于情景模拟的城镇洪涝灾害风险研判方法

Similar Documents

Publication Publication Date Title
CN107066599B (zh) 一种基于知识库推理的相似上市公司企业检索分类方法及系统
CN109657947B (zh) 一种面向企业行业分类的异常检测方法
CN111400432B (zh) 事件类型信息处理方法、事件类型识别方法及装置
CN102567464B (zh) 基于扩展主题图的知识资源组织方法
Kumar et al. Crime prediction using K-nearest neighboring algorithm
CN110866030A (zh) 一种基于无监督学习的数据库异常访问检测方法
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN107122382A (zh) 一种基于说明书的专利分类方法
CN107291895B (zh) 一种快速的层次化文档查询方法
CN114880486A (zh) 基于nlp和知识图谱的产业链识别方法及系统
CN110633371A (zh) 一种日志分类方法及系统
CN112749905A (zh) 一种基于大数据挖掘的洪涝灾害评估方法
CN109740642A (zh) 发票类别识别方法、装置、电子设备及可读存储介质
CN109033087B (zh) 计算文本语义距离的方法、去重方法、聚类方法以及装置
CN110990529A (zh) 企业的行业明细划分方法及系统
Das et al. Group incremental adaptive clustering based on neural network and rough set theory for crime report categorization
CN109902173B (zh) 一种中文文本分类方法
CN110245692B (zh) 一种用于集合数值天气预报成员的层次聚类方法
Huang et al. Research in the field of natural hazards based on bibliometric analysis
CN109582743A (zh) 一种针对恐怖袭击事件的数据挖掘方法
CN113569048A (zh) 一种基于企业经营范围自动划分所属行业的方法及系统
CN115796635A (zh) 基于大数据和机器学习的银行数字化转型成熟度评价系统
CN113705679B (zh) 一种基于超图神经网络的学生成绩预测方法
CN115062108A (zh) 一种获取标准化房产地址的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210504