CN108182178B - 基于事件文本数据挖掘的地下水水位分析方法与系统 - Google Patents

基于事件文本数据挖掘的地下水水位分析方法与系统 Download PDF

Info

Publication number
CN108182178B
CN108182178B CN201810074794.4A CN201810074794A CN108182178B CN 108182178 B CN108182178 B CN 108182178B CN 201810074794 A CN201810074794 A CN 201810074794A CN 108182178 B CN108182178 B CN 108182178B
Authority
CN
China
Prior art keywords
event
data
groundwater level
water level
groundwater
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810074794.4A
Other languages
English (en)
Other versions
CN108182178A (zh
Inventor
刘广泽
杨泊宁
刘雨哲
刘淑然
张艺馨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810074794.4A priority Critical patent/CN108182178B/zh
Publication of CN108182178A publication Critical patent/CN108182178A/zh
Application granted granted Critical
Publication of CN108182178B publication Critical patent/CN108182178B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明公开了一种基于事件文本数据挖掘的地下水水位分析方法和系统,所述方法包括:获取与地下水水位变化相关的事件数据;对所述与地下水水位变化相关的文本数据进行标签提取,所述标签包括与地下水水位变化相关的事件标签以及所述事件对应的时间;根据时间标签将事件标签进行排列、对齐;根据事件标签进行地下水位事件影响因素分析。本发明结合了多个系统中的与地下水水位变化有关的数据,整合了数据资源,且针对这些数据进行了关联分析,有助于找到影响水位的主要事件,并对地下水保护措施的成效进行评估,辅助决策。

Description

基于事件文本数据挖掘的地下水水位分析方法与系统
技术领域
本发明涉及地下水水位分析分析领域,具体涉及一种基于从与地下水水位变化有关的新闻报道、公告等文本描述,及有关水文、气象数据,挖掘文本数据中的事件,进行地下水水位分析的方法和系统。
背景技术
济南市是著名的泉城,现代地质工作者调查研究认为,济南泉水(地下水)来源于市区南部山区,大气降水渗漏地下,顺岩层倾斜方向北流,至城区遇到侵入岩体阻挡,承压水出露地表,形成泉水。近年来,由于用水量的增加,以及城市建设对地下水系的判断,济南泉水水位变化涨跌不定,每年总有一段时间,泉水水位会下降到危险警戒线。对泉水水位涨落的分析分析和预测一直是一个重要的问题;研究者传统上采用水文地质调查、气象条件分析等手段分析和预测泉水水位。然而,济南泉水水位变化的因素是复杂的,降水、气温、农业生产、地下市政施工等各种影响因素交互作用,都可能影响泉水的正常喷涌;从历史数据的分析看,泉水事件对泉水水位涨落具有规律性地影响。挖掘影响地下水水位变化的关键因素,是本领域技术人员目前面临的核心问题。
影响泉水的诸多因素中,以非结构化的文本数据形态的存在比例较大,如新闻报道文本、施工公告文本、气象数据描述等都是以非结构化的文本形式存储,文本信息量较大,人为很难从中提取关键的信息。目前,以互联网为信息获取源,从中进行文本数据分析和挖掘十分常见,对网络产生的大规模真实语料库进行不同深度地加工,形成了一定规模的知识网络。因此,针对地下水位分析的具体情况,如何对上述“事件”文本数据进行分析,挖掘影响水位的关键因素,是本领域技术人员目前面临的技术问题。
发明内容
本发明的目的是为了克服地下水监控预测中与水位相关的原始数据分散、非结构化数据比例大,难以直观发现规律的问题,提出了一种基于事件文本数据挖掘的地下水水位分析的路线。
为实现上述目的,本发明采用如下技术方案:
一种基于事件文本数据挖掘的地下水水位分析方法,包括以下步骤:
获取与地下水水位变化相关的事件数据;
对所述与地下水水位变化相关的文本数据进行标签提取,所述标签包括与地下水水位变化相关的事件标签以及所述事件对应的时间;
根据时间标签将事件标签进行排列、对齐;
根据事件标签进行地下水位事件影响因素分析。
进一步地,所述与地下水水位变化相关的数据包括:从网络资源获取的与地下水水位变化相关的事件文本数据,包括农业灌溉数据、地下市政施工数据、违规抽取地下水、地下水回灌的描述性文本数据;水利部门公开发布的地下水水位观测数据;以及气象部门发布的气象观测数据。
进一步地,所述标签提取还包括提取描述所述事件程度的权重标签。
进一步地,所述地下水位事件影响因素分析包括地下水位事件关联分析、地下水位事件与地下水水位变化关联分析,和基于时间轴的地下水水位事件叠加影响分析。
进一步地,所述地下水位事件关联分析包括:
对事件描述数据进行标签提取,获取事件标签序列;
利用Apriori算法对事件标签系列进行频繁项集的提取。
进一步地,所述地下水位事件与地下水水位变化关联分析包括:
将水位观测数据转化为水位涨落数据;
将水位涨落数据按照时间标签与影响水位事件排列、对齐;
采用相关性分析方法分析事件与地下水水位变化的关联;
其中,水位涨落数据有以下三种计算方法:
当天水位减去前一天水位的水位差;
固定时间窗口起始时间的水位差;
根据事件持续时间的可变窗口涨跌描述:根据事件类别设定不同的涨跌时间窗口,计算该时间窗口起始时间的水位差。
进一步地,所述基于时间轴的地下水水位事件叠加影响分析包括:
计算每个事件的事件作用时间窗口,将作用时间窗口重叠的记为叠加事件;
对于叠加事件中的每个事件,基于历史数据统计每个事件在不重叠情况下的权重数据和对水位的影响数据;
根据权重数据从历史数据中分别匹配各事件对水位的独立影响情况;
对各独立影响情况进行叠加计算,并根据实际水位涨落情况进行修正。
进一步地,所述方法还包括:对地下水水位分析结果进行可视化,辅助地下水分析和管理决策。
根据本发明的第二目的,本发明还提供了一种基于事件文本数据挖掘的地下水水位分析系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的地下水水位分析方法。
根据本发明的第三目的,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行实现所述的基于事件文本数据挖掘的地下水水位分析方法。
本发明的有益效果
1、本发明克服了影响地下水位变化的因素复杂,数据分散的问题,将多个系统中的数据进行关联分析,即,将水利部门公开发布的准确的地下水水位观测数据、气象部门公开发布的准确的气象观测数据、以及通过互联网等提取的与水位变化有关的大量文本描述数据综合在一起,共同分析各种事件之间的关联关系,找到影响地下水水位变化的各种潜在因素,并追溯到影响水位变化的核心因素,辅助水利部门和专家进行综合分析。
2、本发明分析过程中为了处理大量非结构化的文本数据,利用了关键词提取技术,从影响地下水位变化的事件数据中提取关键词,构建水位事件词典,利于进一步建立地下水水位分析知识图谱。
3、本发明将影响地下水位变化的事件数据文本按照事件发生时间转化为事件序列,分析事件现象特征之间的关联关系,通过挖掘和分析事件之间的共现模式、叠加影响,有助于分析各种事件的相互影响;通过挖掘不同事件与同一时刻及随后某时间窗口水位涨跌的关系,有助于找到影响水位的主要事件,并对地下水保护措施的成效进行评估,辅助决策。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明方法流程示意图。
图2为本发明系统架构结构图。
图3为地下水位影响事件与地下水水位变化可视化示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的最佳实施方式是结合地下水水位观测系统、地下水位水位信息管理系统,作为水利管理部门、研究机构的辅助分析工具,通过本系统提供的分析模型和挖掘方法调用接口使用本发明系统。
实施中,需深入了解地下水水位信息管理系统中的有关地下水水位观测、管理等相关子系统,依托本发明的分析流程和方法,对原始数据进行分析,进而发现规律性的知识,辅助地下水水位管理与调控决策。
本发明的基本思想为:通过公开的信息渠道搜集各种与地下水有关的文本信息,如降水、农业生产、地下市政施工等文本数据,进行文本分析,过滤掉无关信息,提取出与地下水水位变化有密切关系的关键词;同时,与水利部门提供的准确的地下水水位数据相结合,按照时间轴对齐,将这些关键词放置在地下水水位变化的时间轴上,形成一个个影响地下水位变化的“事件”;继而,从海量历史数据中自动分析“事件”与水位变化的各种关系,分析这些事件与泉水水位变化的密切联系,追溯到地下水水位变化的源头因素,从中发现生产规律,指导实际的地下水保护与利用。
实施例一
本实施例公开了一种基于事件文本数据挖掘的地下水水位分析方法,如图1所示,包括以下步骤:
Step1:多源数据提取
从针对不同数据源设计使用的相应信息管理系统中提取与地下水水位变化相关的数据,如:从公开的新闻报道、公告信息等获取与地下水水位变化相关的事件文本数据,包括但不限于农业灌溉数据、地下市政施工数据、违规抽取地下水、地下水回灌等描述性文本数据;水利部门公开发布的准确的地下水水位观测数据;气象部门公开发布的准确的气象观测数据。
提取数据之后,还对数据进行数据清洗、中文分词等预处理。
Step2:事件标签提取
影响地下水水位变化的因素复杂,其中各种非结构化的数据比例较大,如新闻报道、市政公告、违规处理描述等都是以非结构化的文本形式存储。其中大部分的词语是为了辅助表述,只有极少数的词语是与地下水水位变化有关的。因此可以通过标签提取过程,将影响水位的事件数据转化为事件关键词标签,将水位结构化数据转化为地下水水位涨落变化标签。通过从大量原始文本数据中筛选出高质量、高可信度的关键词,过滤掉冗余不相关的信息,便于专家直观查看和后续关联分析。
关键词提取技术中比较常见的有TF-IDF和TextRank,其中TF-IDF算法没有考虑词语间的关系及本身的特性,仅以词频衡量一个词的重要性。TextRank算法只局限于单篇文档进行计算,忽略了语料库的信息。可以结合基于统计的TF-IDF和基于图的TextRank两种算法,共同用于提取影响地下水水位的文件中的事件关键词。
同时,提取事件关键词的时间标签和描述其程度的权重数据。所述权重数据包括从公开的新闻报道、公告信息中挖掘的描述地下水位事件程度关键词,比如“今起济南再次增加了回灌补源的黄河水水量,每天增加10万吨,目前每天近30万吨黄河水补入玉符河”,其中“回灌补源”为事件关键词,“30万吨每天”为事件程度关键词;以及地下水位观测数据、气象观测数据中地下水位值、降水量值等。对于描述地下水位事件程度关键词,根据该关键词设定权重值。
Step3:根据事件标签进行事件关联分析、事件与地下水水位变化关联分析,和基于时间轴的地下水水位事件叠加影响分析。
1、事件现象关联分析
影响地下水水位的事件的发生既有自然因素,也有工农业生产和市政施工等人为因素,事件与事件之间也具有共现性,即某一事件的发生往往会导致另一事件的发生。因此事件现象之间存在着一定的潜在关系,即两个事件经常一起出现在事件现象描述中。
由于对事件现象描述做了标签提取,将一条描述文本转换为事件标签序列;同时,由于事件具有时间属性,可以将相同或相近时间的若干条描述文本合并处理,按照一条事件描述文本处理。
因此可以利用Apriori算法对事件标签进行频繁项集的提取。例如,“事件现象描述”大段文本转换为事件标签列表后,得到多条包含一系列事件现象的列表,如列表1:[事件1,事件2,事件3,事件4,事件5],列表2:[事件1,事件2,事件6,事件7,事件8],列表3:[事件1,事件2,事件3],列表4:[事件3,事件4]。分析事件现象特征之间的关联关系,即哪些事件现象一起出现,得到:<事件1,事件2>,共现3次;<事件3,事件4>,共现2次;<事件1,事件2,事件3>,共现2次。说明<事件1,事件2>,<事件3,事件4>,<事件1,事件2,事件3>存在关联关系。
从大量事件现象描述文本中挖掘出事件共现模式的流程如下:
(1)对每条事件现象描述文本进行关键词提取,将一条文本转化为一条事件现象标签序列。
(2)统计所有事件现象描述中各个事件现象标签出现的频率,筛去出现频率低于阈值的标签,得到事件现象标签的F1频繁项集。
(3)由F1频繁项集两两组合得到事件现象标签组F2项集
(4)统计所有事件现象描述中F2项集中各个项出现的频率,筛去出现阈值低于阈值的项,得到事件现象标签的F2频繁项集。
(5)以此类推,直到Fk频繁项集中不含有任何项。
2、事件-水位变化关联分析
地下水水位变化与其影响地下水水位的事件之间存在着一定的关联关系,因此,地下水水位变化往往可以追溯到产生这一变化的关键事件,找到真正的问题所在。
具体步骤如下:
首先,根据前述步骤已经获取了影响地下水水位的关键事件标签;
然后,将结构化的地下水水位观测数据转化为水位涨落数据;
之后,根据事件的时间标签和地下水位观测数据的时间戳,将事件与水位涨落按照时间排列并对齐。
最后,通过相关性分析手段,分析事件与水位涨落的关联关系,找到影响水位涨落的关键事件。
其中,水位观测数据转化为水位涨落数据的构建方法为:
涨跌描述为二元组,RF(R/F,Value),其中涨落为描述性字段,涨落量为数值型,正数表示上涨,负数表示回落;提供三种水位涨落描述方法,
(1)当天水位减去前一天水位的水位差;
(2)固定时间窗口起始时间的水位差,如三日窗口,则为当日水位减去三天前的水位;
(3)根据事件持续时间的可变窗口涨跌描述,根据事件类别设定不同的涨跌窗口,计算该时间窗口起始时间的水位差。
3、基于时间轴的地下水水位事件叠加影响分析
地下水水位变化具有连续性,影响水位变化的事件因素也具有持续性和叠加效应,两个相邻的事件可能会对地下水水位变化具有传导性。可以基于时间轴上不同的事件对地下水水位变化联合分析,找到哪些事件在地下水水位变化影响中发生了叠加。
对采集的影响地下水水位的文本数据分析时,也会同时提取其时间戳。对事件现象描述做标签提取,将一条描述文本转换为事件标签序列。同时,基于上述“2、事件-水位变化关联分析”对历史数据做分析,可以归纳出不同类型的事件所影响的时间窗口,定义为事件作用时间窗口,表示为ETW[StartTime,EndTime],其中StartTime和EndTime为事件开始对水位变化起作用的时间和结束作用的时间。
对每个事件i,都计算其ETWi,对于不重叠的ETW,可以不考虑其影响叠加性;
对于重叠的ETW,由于最后的水位涨跌表征只有一个,需要分别计算每个事件的单独影响。叠加事件分为三种情况:
(1)正向叠加,如降水和回灌事件都会提升地下水的水位;而农业灌溉和地下施工抽水事件都会降低地下水的水位,这两种情况都是同向影响;
(2)负向叠加,如降水与农业灌溉事件对地下水位的影响方向相反,同时发生时,地下水位涨落情况不确定;
(3)多因素叠加,既存在正向叠加又存在负向叠加的情况;
对于ETW重叠的多个事件,即叠加事件:
1)基于历史数据统计每种类型事件在时间窗口不重叠情况下(即每个事件作用窗口内没有其他事件,该事件是独立影响地下水水位的事件)对水位的影响数据;同一类型的多个事件按照其权重数据从小到大排序其对水位的影响数据。例如:获取多个时间窗口不重叠情况下的降雨事件,记录其降雨量(权重事件)和相应的水位变化(对水位的影响数据),按降雨量进行排序。
2)对所述叠加事件中的每个事件,根据事件权重从历史数据中匹配该类型事件对水位的独立影响数据;
3)对所述叠加事件中的每个事件所匹配的独立影响数据进行叠加计算,并与实际水位涨落情况进行比对分析,根据实际水位涨落情况修正各独立影响情况。
Step4:直观的展示数据分析结果,辅助专家进行地下水水位分析和管理决策。
上述分析完成后,需要将结果直观友好地展示给水利管理人员,辅助其进行地下水水位分析和管理决策。数据可视化阶段提供了词云、饼状图、热度图等多种显示方式。词云对非结构化的文本数据提供了一种可视化表现方式,对频率较高的关键词予以视觉上的突出,用不同的字号、布局和配色显示频率不同的词项,从而过滤掉大量的文本信息,使专家只要一眼扫过就可以领略文本的主旨。词云展示具体实现如下:将需要展示的词汇、词频对应关系按词频大小进行降序排序。将词频映射为字体大小,使得词频大的词字体较大,词频小的词字体较小。按词频从大到小的顺序,从图片中心开始绘制。图3为地下水水位变化与事件关系分析图,采用时间轴方式进行动态显示。
实施例二
本实施例的目的是提供一种基于事件文本数据挖掘的地下水水位分析系统。
所述系统包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获取与地下水水位变化相关的数据,所述与地下水水位变化相关的数据包括气象描述文件数据、影响水位的农业灌溉数据、地下市政施工数据和其他有关地下水利用的新闻报道、报告等描述性文本数据;获取水利部门公开发布的准确的地下水水位观测数据;获取气象部门公开发布的准确的气象观测数据;
对所述与地下水水位变化相关的文本数据进行事件标签提取;
将上述数据根据时间标签进行排列、对齐;
根据所述事件标签进行影响地下水位变化的事件因素关联分析,和地下水水位变化关联分析。
图2详细展示了本系统的功能结构图。本系统分为四个功能模块,分别为预处理模块、数据分析模块、数据可视化模块和数据存储模块。其中,预处理模块分为数据提取、数据清洗、中文分词和关键词提取;数据分析模块分为事件词典构建、事件关联分析、事件叠加性分析、水位变化关联分析;数据可视化模块分为数据整体展示、数据关联展示和数据对比展示;数据存储模块分为配置文件存储、日志记录存储、专业词库存储和停用词库存储。
实施例三
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行以下步骤:
获取与地下水水位变化相关的数据,所述与地下水水位变化相关的数据包括气象描述文件数据、影响水位的农业灌溉数据、地下市政施工数据和其他有关地下水利用的新闻报道、报告等描述性文本数据;获取水利部门公开发布的准确的地下水水位观测数据;获取气象部门公开发布的准确的气象观测数据;
对所述与地下水水位变化相关的文本数据进行事件标签提取;
将上述数据根据时间标签进行排列、对齐;
根据所述事件标签进行影响地下水位变化的事件因素关联分析,和地下水水位变化关联分析。
以上实施例二和三的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本发明的有益效果
1、本发明克服了影响地下水位变化的因素复杂,数据分散的问题,将多个系统中的数据进行关联分析,即,将水利部门公开发布的准确的地下水水位观测数据、气象部门公开发布的准确的气象观测数据、以及通过互联网等提取的与水位变化有关的大量文本描述数据综合在一起,共同分析各种事件之间的关联关系,找到影响地下水水位变化的各种潜在因素,并追溯到影响水位变化的核心因素,辅助水利部门和专家进行综合分析。
2、本发明分析过程中为了处理大量非结构化的文本数据,利用了关键词提取技术,从影响地下水位变化的事件数据中提取关键词,构建水位事件词典,利于进一步建立地下水水位分析知识图谱。
3、本发明将影响地下水位变化的事件数据文本按照事件发生时间转化为事件序列,分析事件现象特征之间的关联关系,通过挖掘和分析事件之间的共现模式,有助于分析各种事件的相互影响;通过挖掘不同事件与同一时刻及随后某时间窗口水位涨跌的关系,有助于找到影响水位的主要事件,并对地下水保护措施的成效进行评估,辅助决策。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (8)

1.一种基于事件文本数据挖掘的地下水水位分析方法,其特征在于,包括以下步骤:
获取与地下水水位变化相关的事件数据;
对所述与地下水水位变化相关的文本数据进行标签提取,所述标签包括与地下水水位变化相关的事件标签以及所述事件对应的时间;
根据时间标签将事件标签进行排列、对齐;
根据事件标签进行地下水位事件影响因素分析;
所述地下水位事件影响因素分析包括地下水位事件关联分析、地下水位事件与地下水水位变化关联分析,和基于时间轴的地下水水位事件叠加影响分析;
所述基于时间轴的地下水水位事件叠加影响分析包括:
计算每个事件的事件作用时间窗口,将作用时间窗口重叠的记为叠加事件;
对于叠加事件中的每个事件,基于历史数据统计每个事件在不重叠情况下的权重数据和对水位的影响数据;
根据权重数据从历史数据中分别匹配各事件对水位的独立影响情况;
对各独立影响情况进行叠加计算,并根据实际水位涨落情况进行修正。
2.如权利要求1所述的一种基于事件文本数据挖掘的地下水水位分析方法,其特征在于,所述与地下水水位变化相关的数据包括:从网络资源获取的与地下水水位变化相关的事件文本数据,包括农业灌溉数据、地下市政施工数据、违规抽取地下水、地下水回灌的描述性文本数据;水利部门公开发布的地下水水位观测数据;以及气象部门发布的气象观测数据。
3.如权利要求1所述的一种基于事件文本数据挖掘的地下水水位分析方法,其特征在于,所述标签提取还包括提取描述所述事件程度的权重标签。
4.如权利要求1所述的一种基于事件文本数据挖掘的地下水水位分析方法,其特征在于,所述地下水位事件关联分析包括:
对事件描述数据进行标签提取,获取事件标签序列;
利用Apriori算法对事件标签系列进行频繁项集的提取。
5.如权利要求1所述的一种基于事件文本数据挖掘的地下水水位分析方法,其特征在于,所述地下水位事件与地下水水位变化关联分析包括:
将水位观测数据转化为水位涨落数据;
将水位涨落数据按照时间标签与影响水位事件排列、对齐;
采用相关性分析方法分析事件与地下水水位变化的关联;
其中,水位涨落数据有以下三种计算方法:
当天水位减去前一天水位的水位差;
固定时间窗口起始时间的水位差;
根据事件持续时间的可变窗口涨跌描述:根据事件类别设定不同的涨跌时间窗口,计算该时间窗口起始时间的水位差。
6.如权利要求1所述的一种基于事件文本数据挖掘的地下水水位分析方法,其特征在于,所述方法还包括:对地下水水位分析结果进行可视化,辅助地下水分析和管理决策。
7.一种基于事件文本数据挖掘的地下水水位分析系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一项所述的地下水水位分析方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时执行实现如权利要求1-6任一项所述的基于事件文本数据挖掘的地下水水位分析方法。
CN201810074794.4A 2018-01-25 2018-01-25 基于事件文本数据挖掘的地下水水位分析方法与系统 Active CN108182178B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810074794.4A CN108182178B (zh) 2018-01-25 2018-01-25 基于事件文本数据挖掘的地下水水位分析方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810074794.4A CN108182178B (zh) 2018-01-25 2018-01-25 基于事件文本数据挖掘的地下水水位分析方法与系统

Publications (2)

Publication Number Publication Date
CN108182178A CN108182178A (zh) 2018-06-19
CN108182178B true CN108182178B (zh) 2021-06-18

Family

ID=62551349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810074794.4A Active CN108182178B (zh) 2018-01-25 2018-01-25 基于事件文本数据挖掘的地下水水位分析方法与系统

Country Status (1)

Country Link
CN (1) CN108182178B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109615266B (zh) * 2018-12-26 2022-11-04 贵州电网有限责任公司 基于数据挖掘的电网异常信息的文本分析决策方法
CN109918478A (zh) * 2019-02-26 2019-06-21 北京悦图遥感科技发展有限公司 基于知识图谱获取地理产品数据的方法和装置
CN116662569B (zh) * 2023-05-31 2024-04-16 东北石油大学 基于知识图谱的油气地质评价方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127037A (zh) * 2006-08-15 2008-02-20 临安微创网格信息工程有限公司 基于时序向量差异序列法聚类的周期关联规则发现算法
CN101853277A (zh) * 2010-05-14 2010-10-06 南京信息工程大学 一种基于分类和关联分析的漏洞数据挖掘方法
CN103970848B (zh) * 2014-05-01 2016-05-11 刘莎 一种通用型互联网信息数据挖掘方法
CN104063810B (zh) * 2014-07-04 2017-09-12 国家电网公司 一种基于大数据的用电因素影响模型的构建方法
WO2016041047A1 (en) * 2014-09-15 2016-03-24 Synaptive Medical (Barbados) Inc. System and method for magnetic resonance image acquisition
CN104679825B (zh) * 2015-01-06 2018-10-09 中国农业大学 基于网络文本的地震宏观异常信息获取与筛选方法
CN105260358A (zh) * 2015-10-14 2016-01-20 上海大学 一种面向短文本的突发事件发展过程表示方法
CN105843942B (zh) * 2016-04-01 2019-03-29 浙江大学城市学院 一种基于大数据技术的城市防汛决策支持方法
CN106355275A (zh) * 2016-08-29 2017-01-25 西南民族大学 一种冰川分布区泥石流灾害危险性分级评价方法
CN106384128A (zh) * 2016-09-09 2017-02-08 西安交通大学 一种挖掘时序数据状态关联的方法
CN106845778A (zh) * 2016-12-21 2017-06-13 中国水利水电科学研究院 一种基于贡献度的科普勒函数地下水位分析方法
CN106844527B (zh) * 2016-12-29 2020-05-05 武汉理工大学 一种基于互联网大数据的路面病害识别与管养决策方法及系统
CN107516287A (zh) * 2017-08-23 2017-12-26 中南大学 交通事故成因分析方法

Also Published As

Publication number Publication date
CN108182178A (zh) 2018-06-19

Similar Documents

Publication Publication Date Title
CN104572958B (zh) 一种基于事件抽取的敏感信息监控方法
CN108182178B (zh) 基于事件文本数据挖掘的地下水水位分析方法与系统
CN104598535B (zh) 一种基于最大熵的事件抽取方法
CN103617280B (zh) 一种中文事件信息挖掘方法和系统
CN101231640B (zh) 一种自动计算互联网上主题演化趋势的方法及系统
CN106339942A (zh) 一种金融信息处理方法和系统
CN102662930A (zh) 一种语料标注方法及装置
CN111414520B (zh) 一种舆情信息中敏感信息的智能挖掘系统
CN110287329A (zh) 一种基于商品文本分类的电商类目属性挖掘方法
CN102880631A (zh) 一种基于双层分类模型的中文作者识别方法及其装置
CN103942325A (zh) 一种融合气候分区思想的海陆气候事件关联规则挖掘方法
CN106339481A (zh) 基于最大置信度的中文复合新词发现方法
CN114860882A (zh) 一种基于文本分类模型的公平竞争审查辅助方法
Li et al. Cross-project utilisation of tunnel boring machine (TBM) construction data: A case study using big data from Yin-Song diversion project in China
CN106649844A (zh) 非结构化文本数据增强型分布式大规模数据维度抽取方法
Xie et al. The twenty-first century of structural engineering research: A topic modeling approach
CN105159886B (zh) 一种基于凭证摘要文本的孤立点检测方法及系统
CN101739396A (zh) 基于不确定性空间数据挖掘的区域成矿预测方法
CN116186288A (zh) 一种基于地点和语义的知识图谱反馈方法
KR102285080B1 (ko) 이슈 발생 예측 시스템
CN108874974A (zh) 基于频繁词集的并行化话题跟踪方法
CN114997267A (zh) 一种海洋旋涡演化分析方法、装置、设备及可读存储介质
CN111930893A (zh) 一种面向景区异常事件的知识图谱构建方法
CN111782814A (zh) 一种专利技术主题内容和热度演化的分析方法
Xu et al. Multi-scale regionalization based mining of spatio-temporal teleconnection patterns between anomalous sea and land climate events

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant