CN111274282B - 一种空气质量挖掘系统、方法及数据采集监控装置 - Google Patents

一种空气质量挖掘系统、方法及数据采集监控装置 Download PDF

Info

Publication number
CN111274282B
CN111274282B CN202010014006.XA CN202010014006A CN111274282B CN 111274282 B CN111274282 B CN 111274282B CN 202010014006 A CN202010014006 A CN 202010014006A CN 111274282 B CN111274282 B CN 111274282B
Authority
CN
China
Prior art keywords
space
data
time
air quality
mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010014006.XA
Other languages
English (en)
Other versions
CN111274282A (zh
Inventor
王玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202010014006.XA priority Critical patent/CN111274282B/zh
Publication of CN111274282A publication Critical patent/CN111274282A/zh
Application granted granted Critical
Publication of CN111274282B publication Critical patent/CN111274282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01WMETEOROLOGY
    • G01W1/00Meteorology
    • G01W1/02Instruments for indicating weather conditions by measuring two or more variables, e.g. humidity, pressure, temperature, cloud cover or wind speed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Environmental & Geological Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Ecology (AREA)
  • Atmospheric Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Environmental Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种空气质量挖掘系统、方法及数据采集监控装置,所述空气质量挖掘系统包括:数据采集监控装置,用于采集空气质量数据;数据分析模块,用于对采集的空气质量数据进行分析,根据时空关联规则进行数据挖掘;空气质量数据采集监控APP,用于提供相关数据的查询、显示、在线更新及修改。所述方法包括基于迁移学习的时空关联规则挖掘算法,根据时空数据的特点,建立时空关联规则挖掘模型,能够将时空关联规则的研究扩展到多个类型的时空数据中。本发明的数据采集监控装置、挖掘算法、监控APP三部分组成了一个完整的体系,为相关领域的研究、发展提供了有益的借鉴。

Description

一种空气质量挖掘系统、方法及数据采集监控装置
技术领域
本发明涉及空气质量分析技术领域,特别涉及一种空气质量挖掘系统、方法及数据采集监控装置。
背景技术
近年来,随着科技技术的不断发展,社会生活的方方面面都在往数据化、信息化的方向转变,互联网的接入,也加速了这一进程。为了从海量的数据中得到具有决策意义的信息,数据挖掘的相关技术得到了广泛的应用。
时空数据是数据挖掘中新兴的一类复杂数据,是包含空间位置标签的多个属性的观测记录按照时间次序性自动、递增排列的数据集。由于数据采集、计算机存储和处理技术的迅速发展以及依赖于传感器网络的不断完善,气象、交通、地理、工业等领域为时空信息科学提供了丰富的基础数据,如何从包含时间和空间约束的数据集中挖掘出有用的信息,已经成为当前的一个研究热点。考虑到时空数据不但具有时间序列的高维、快速、无穷性等特点还具有与时序性紧密相连而又有所区分的空间性,因此经典的数据挖掘方法并不再适用于这种数据类型的信息挖掘,需要根据时空数据的特点,结合新的挖掘技术进行扩展,进而适应新的需求。
关联分析是时序数据挖掘技术中的重要组成部分,同样的,时空关联分析也是时空数据挖掘技术中的重要组成部分,时空关联规则挖掘是空间关联规则挖掘针对时空数据的扩展,可以发现多个空间下项集之间的相关联系[5]。传统的关联规则挖掘算法是基于相同时间下同一事务集之间的频繁项来建立规则的,而规则的组成项集之间并没有严格的次序性及空间性,而现有的时态关联规则也不能准确获取包含详细时态关系的规则形式,因此就有必要结合时空数据的特点对时态关联规则挖掘算法进行扩展,来实现时空数据中获取时空关联规则的目的。
时空数据因领域的不同也各自有其独特的特点,但所有不同类型的时空数据都可以理解为是带有空间位置标签的时间序列数据,而不同属性所对应的数据也都是连续的,因此需要先对时空数据进行离散化,将连续数值型属性转换为符号化序列进行描述。目前有很多方案都依赖于人为参数的设定,实现相应的转换,该方式虽易于操作却降低了普适性,而且现有的方案中没有一套完整的方法能够获取包含时态关系的符号化序列,因而更不能获取包含具体时态关系的关联规则。而空间关系的获取大多是将其看着是时序数据的某个特殊属性来进行分析或者人为选择多个空间,虽然目前依赖传感器网络,我们能够获取大部分位置的时空数据,但也存在特殊的位置因数据量少或者数据缺失情况而不易于进行分析,人为的选择多个空间进行分析就缺乏一定的可信度,而将空间看着时序数据中的特殊属性又会存在时间和空间的一定独立性,此外利用传统模型根据时空数据特点进行改进就会存在很大程度的领域局限性,因此时空关联规则挖掘就需要采用更合适的方法来构建通用的挖掘模型来实现规则的获取。
伴随着现实生活科学技术的发展,人们对数据的信息的存储也越来越完善,从最初的静态记录到后来的次序存储,再到现今的三维方式下的记录。考虑数据的时间次序的同时,二维平面中不同坐标位置处所获取的信息也会存在一定的差异,因此时空数据挖掘技术是指在常规的时间序列挖掘过程中考虑不同空间下的约束,其核心思想仍然是利用与目标位置数据紧密联系的邻近源域数据共同构建能够保持对历史数据集、当前数据集和未来数据集平滑过渡的模型。
与传统的数据集相比,时空数据具有以下几个方面的特点:
(1)时序性:数据都是连续不断的到达数据挖掘系统中;
(2)空间性:由于不同空间位置下所获取的信息存在一定的差异性,因此不同空间位置下的数据集不在认为是相同的数据集,即具有空间维度;
(3)动态性:数据是对具体对象的一种描述形式,对象的状态在时间上和空间上的变化都会导致数据集中具体的数值发生相应的变化,而这种变化只在一定的时间一定的空间内有效。
根据时空数据的这些特点,时空数据的挖掘算法需要满足下述要求:
(1)时空数据的挖掘不应该仅仅适用于某一个领域,更不应该只实用于某一类数据;
(2)时空数据的挖掘中,应该选择合适的邻近空间数据用于构建模型,不合适的数据集的选择会导致模型的效果更差;
(3)所构建的模型要根据新数据的状态信息更新模型的相关内容,实现演化的目的;
时空数据同传统数据类型一样也具备各个领域的研究,其中以时空关联规则的研究最为广泛,时空关联规则的研究算法大多是基于时空事务的挖掘算法,该方式下对时空数据进行关联规则挖掘可以看着是传统关联规则挖掘算法针对时空关联规则挖掘问题的拓展。算法的研究思路是将时空数据描述成事务表的形式,然后结合事务表的挖掘算法获取时空关联规则。事务表是事务记录的有限集,每条事务记录对应一个样本单元,描述一组项在该样本单元上的取值情况。事务表的获取方式需要根据时空数据的具体应用进行判别,这部分的操作可以理解为传统数据集操作中的离散化过程。而针对事务表的获取方式,现有的方法中主要的处理方式有两种,一种是对所要研究的时空数据以空间位置、时空位置或者事件的不同进行划分,然后依据不同的划分结果分析该地区要研究对象随着时间的变化进而获取时空关联规则。其中最为代表性的是,在对某一区域植被分布情况获取关联规则时,采用快照序列模型的方式获取时空数据的项集表示,文中获取同一空间区域不同时刻状态的栅格图层的集合作为初步的快照序列,将快照序列中每个时刻的快照上都标出这一区域,然后依据某一区域的覆被类型将所获取得到的项集的快照序列进行归类,最后就可以依据所获取得到的信息提取植被分布的时空关联规则。但是该方式下获取到的时空关联规则具有很强的针对性,一般用来获取植被地表分布或土地资源分配等领域中知识的获取。另外一种挖掘时空关联规则的方法是在获取规则的整个过程进行严格的空间约束,最终获取某个时间段内的时空关联规则。这方面的研究主要是通过结合空间约束利用移动位置变化的起点和终点组成事务对,进而对有关联的事务对挖掘时空关联规则。但该种方式下的时空关联规则挖掘严格受限制于有起点和终点类型的数据处理过程中。
此外,有更多的时空关联规则挖掘的算法主要是依据某一领域的时空数据类型对原始的关联规则挖掘算法进行改编,其中基于Apriori算法来挖掘时空关联规则就有Apriori-like和Apriori-gen等方法,该方式下的挖掘算法往往所处理的时空数据类型有限,并不适用于所有类型的时空数据。目前针对时空数据关联规则挖掘还很大程度上局限于类似交通数据、地理数据这些明显空间和时间存在紧密联系的数据类型,更重要的是上述方法欠缺一种普适性,更忽略了类似工业过程中一个齿轮不同位置的传感器数据同样也应当属于时空数据这样的数据类型。另外结合现有的研究过程,可以发现针对时空数据的挖掘过程主要是将空间和时间分为两个阶段来完成,而类似于交通数据类型的时空数据在挖掘过程中能够将时间和空间绑定挖掘,但该模型并不能扩展到所有类型的时空数据。
发明内容
本发明的目的在于提供一种空气质量挖掘系统、方法及数据采集监控装置,针对现有的时空关联规则挖掘模型不能普遍适用于多个领域的时空数据中的问题,提出基于迁移学习的时空关联规则演化挖掘算法,通过数据采集云平台,更好地取得相关需要挖掘的数据,应用到空气质量分析系统中,能够挖掘到多个空间下属性间包含具体时态信息的时空关联规则。
为解决上述技术问题,本发明的实施例提供如下方案:
一种数据采集监控装置,用于空气质量数据采集和监控,所述数据采集监控装置包括:至少一个现场数据采集模块、数据中心模块和云平台链路模块,所述现场数据采集模块与所述数据中心模块之间通过网线连接,所述数据中心模块和所述云平台链路模块之间通过光纤连接;
所述现场数据采集模块用于采集本地空气质量的实时运行数据,实现本地数据监视、历史数据存储和实时运行数据向所述数据中心模块上传;
所述数据中心模块用于对所述实时运行数据进行存储,提供检索服务以及将所述实时运行数据上传给所述云平台链路模块;
所述云平台链路模块用于汇总所述现场数据采集模块采集的实时运行数据,实现数据集中监控。
优选地,所述现场数据采集模块包括:
空气监控仪,用于实时监控空气质量,并采集空气质量数据;
风速测速仪,用于实时监测风速,并采集风速数据;
与所述空气监控仪及所述风速测速仪通过串口服务器连接的管理工作站,用于接收所述空气质量数据和所述风速数据,并进行存储和监视;
与所述管理工作站连接的接口服务器,用于提供符合规约的接口服务;
与所述接口服务器连接的单向隔离网关,用于实现数据的单向传输。
优选地,所述数据中心模块包括依次连接的路由器、存储服务器和第一交换机,所述路由器连接所述现场数据采集模块,所述第一交换机连接所述云平台链路模块,所述存储服务器中包含实时数据库,用于实时运行数据和历史数据的存储、检索、发布。
优选地,所述云平台链路模块包括:与所述数据中心模块连接的第二交换机、与所述第二交换机连接的平台核心交换机、以及分别与所述平台核心交换机连接的云计算节点和WEB服务器,其中,所述平台核心交换机用于实现数据汇总和集中监控。
一种空气质量挖掘系统,包括上述的数据采集监控装置,还包括数据分析模块和空气质量数据采集监控APP;
所述数据分析模块用于对采集的空气质量数据进行分析,根据时空关联规则进行数据挖掘,为空气质量分析、决策提供数据支持;
所述空气质量数据采集监控APP用于提供相关数据的查询、显示、在线更新及修改。
优选地,所述空气质量数据采集监控APP包括:
客户端,采用HTML5、CSS、及JavaScript语言进行开发,采用MUI前端框架进行搭建,用于提供查询功能、显示功能、以及用户注册管理功能;
服务器端,采用ThinkJS服务端框架进行开发,搭配MySQL数据库,用于实现注册、登录验证以及数据的传输、增加、修改和删除功能;
系统后台管理端,采用HTML5、CSS、JavaScript语言进行开发,用于管理数据库。
一种基于上述的空气质量挖掘系统的挖掘方法,包括以下步骤:
采集空气质量数据;
对采集的空气质量数据进行分析,根据时空关联规则进行数据挖掘;
构建空气质量数据采集监控APP,提供相关数据的查询、显示、在线更新及修改。
优选地,所述根据时空关联规则进行数据挖掘的步骤利用基于迁移学习的时空关联规则挖掘算法,包括:
将多个空间作为迁移对象,依据多个空间包含属性所对应的符号时态区间进行时态区间的划分来构建时空事务数据集;
依据时态频繁项集的挖掘过程获取序列模式扩展所需求的前缀和后缀;
根据时态区间的次序性对时空频繁项集进行扩展进而获取包含具体时态信息的时空关联规则。
优选地,对于历史数据,所述基于迁移学习的时空关联规则挖掘算法具体包括:
S101、选择目标域空间及源域空间,对空间域中所包含的属性运用格兰杰因果分析和矩阵相似性度量计算迁移学习所需目标域的相似空间域数据;
S102、对目标域空间及迁移的源域空间数据,运用香农熵自适应聚类分别获取每个属性所对应的符号集及值域范围;
S103、获取每个空间域中所包含时间序列的特征点序列,运用双层符号化算法获取所对应的符号化序列;
S104、依据多个空间域中所包含符号化序列中每个符号所对应的时间区间,划分事务时间区间构建时空事务数据集;
S105、基于时空事务数据集按照时态频繁项集的挖掘过程获取时空事务数据集所对应的频繁项集及时空频繁项集;
S106、根据序列模式挖掘过程,以时空频繁项集作为前缀和后缀的扩展库,基于时空事务数据集所对应事务时间区间进行前缀的指定后缀扩展,进而获取包含具体时态关系的时空关联规则。
优选地,对于新增的数据,存储在对应的增量数据块中,所述基于迁移学习的时空关联规则挖掘算法还包括对增量数据块中的数据进行演化更新的步骤:
S201、扫描增量数据块,分别获取空间所对应的增量数据块与目标增量数据块的空间相似度;
S202、结合历史空间相似性度量结果和增量数据块相似性度量结果,判断是否需要对相似源域空间进行更新,若度量结果表明不需要更新空间域则直接执行S204、否则依次执行S203、S204,这里假设新的时空数据已经获取所对应的符号化序列;
S203、根据历史时空数据集所对应的时空事务数据集,删去需要替换的空间域所对应的项集,以时空事务数据集所对应每个事务时态区间为基准补充新的空间域在每个事务时态区间中所对应的项集;
S204、对筛选到的源域空间以及目标域空间所对应的增量数据块获取所对应的时空事务数据集,进而融合获取最终包含所有空间的时空事务数据集;
S205、获取增量时空事务数据集所对应的时空频繁项集,与历史时空频繁项集进行合并,删除不满足支持度约束的频繁项集,同时将重复出现过的频繁项集进行合并;
S206、对更新后的时空频繁项集基于新的时空事务数据集进行时空关联规则的挖掘,这里针对空间域是否更新分为两种情况,若空间域未发生变化则执行S207,否则执行S208;
S207、删除历史规则库中非时空频繁项集所对应的规则,同时对新增加的频繁项集在整个时空事务数据集中进行挖掘,而旧的频繁项集只需在时空增量数据块所对应的时空事务范围内进行规则的挖掘,最后合并相同的规则获取最终的时空关联规则;
S208、以新的时空频繁项集为前缀在整个时空事务数据集范围内重新进行时空关联规则的挖掘。
本发明的上述方案至少包括以下有益效果:
本发明以迁移学习的核心问题作为出发点,针对性的根据时空数据的特点,将时空关联规则的研究扩展到多个类型的时空数据中,并结合相关领域的知识,提出一种新的时空关联规则挖掘模型,能够普遍适用于多个时空数据领域中,且能够获取包含具体时态信息的时空关联规则;并且,本发明的挖掘算法与数据采集监控装置相结合,能够更好地获取相关需要挖掘的数据,同时构建了空气质量采集监控APP,便于实时监控,简单适用;整个发明的三部分组成了一个完整的空气质量挖掘系统,为相关领域的研究、发展提供了有益的借鉴。
附图说明
图1是本发明实施例提供的数据采集监控装置的结构示意图;
图2是本发明实施例提供的空气质量挖掘系统的结构示意图;
图3是本发明实施例提供的空气质量挖掘方法的流程图;
图4是本发明实施例中目标域邻近风力监测站点示意图。
附图标记说明:1-数据采集监控装置;2-数据分析模块;3-空气质量数据采集监控APP;11-现场数据采集模块;12-数据中心模块;13-云平台链路模块;
101-空气监控仪;102-风速测速仪;103-串口服务器;104-管理工作站;105-接口服务器;106-单向隔离网关;201-路由器;202-存储服务器;203-第一交换机;301-第二交换机;302-平台核心交换机;303-云计算节点;304-WEB服务器。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明的实施例首先提供了一种数据采集监控装置,用于空气质量数据采集和监控,如图1所示,所述数据采集监控装置包括:至少一个现场数据采集模块11、数据中心模块12和云平台链路模块13,现场数据采集模块11与数据中心模块12之间通过网线连接,数据中心模块12和云平台链路模块13之间通过光纤连接;
现场数据采集模块11用于采集本地空气质量的实时运行数据,实现本地数据监视、历史数据存储和实时运行数据向数据中心模块12上传;
数据中心模块12用于对所述实时运行数据进行存储,提供检索服务以及将所述实时运行数据上传给云平台链路模块13;
云平台链路模块13用于汇总现场数据采集模块11采集的实时运行数据,实现数据集中监控。
本发明提供的数据采集监控装置是负责空气质量运行数据采集的支撑系统,实现监控、综合能源管理、计量、故障分析及报警推送等多系统数据的接入,能够支持多种设备的接入,具备多种规约的解析能力。各级模块之间的通讯规约可采用电力标准IEC104规约或其他规约,实时数据采集频率按规约要求支持秒级,可支持变化量上送、循环上送和召唤等模式。
进一步地,现场数据采集模块11包括:
空气监控仪101,用于实时监控空气质量,并采集空气质量数据;
风速测速仪102,用于实时监测风速,并采集风速数据;
与空气监控仪101及风速测速仪102通过串口服务器103连接的管理工作站104,用于接收空气质量数据和风速数据,并进行存储和监视;
与管理工作站104连接的接口服务器105,用于提供符合规约的接口服务;
与接口服务器105连接的单向隔离网关106,用于实现数据的单向传输。
其中,管理工作站104包括工控机、显示器,数据采集软件等。
进一步地,数据中心模块12包括依次连接的路由器201、存储服务器202和第一交换机203,路由器201连接现场数据采集模块11,第一交换机203连接云平台链路模块13,存储服务器202中包含实时数据库,用于实时运行数据和历史数据的存储、检索、发布。
实时数据库是基于64bit系统开发的高速数据库引擎和先进的分布式集群架构,能够适用于海量实时/历史数据的采集、存储、检索、发布,具备很好的水平扩展能力和高可用性,可处理随时间快速变化动态数据,既可支持运行状态实时监控需要,又可满足各类面向应用、面向主题的分析需求。数据库设计按照符合人类思维自然模式的面向对象的方式来组织数据库的管理,实现以设备为单位的监控模式,便于设备维护和故障诊断,提高数据检索查找的速度及效率。
进一步地,云平台链路模块13包括:与数据中心模块12连接的第二交换机301、与第二交换机301连接的平台核心交换机302、以及分别与平台核心交换机302连接的云计算节点303和WEB服务器304,其中,平台核心交换机302用于实现数据汇总和集中监控。
本发明可实现数据采集监控装置与云平台之间的2级系统,云平台集中监控从各个数据采集监控装置获取的空气质量实时监测数据,用于综合监视空气状况。
本发明的实施例还提供了一种空气质量挖掘系统,如图2所示,该系统包括上述的数据采集监控装置1,还包括数据分析模块2和空气质量数据采集监控APP3;
数据分析模块2用于对采集的空气质量数据进行分析,根据时空关联规则进行数据挖掘,为空气质量分析、决策提供数据支持;
空气质量数据采集监控APP3用于提供相关数据的查询、显示、在线更新及修改。
本发明集数据采集监控、挖掘算法以及应用APP于一体,三个部分相互衔接,形成一个完整的体系,不仅便于实时监控空气质量,而且简单易操作,为相关领域的研究提供了有益的借鉴和支持。
其中,空气质量数据采集监控APP3包括:
客户端,采用HTML5、CSS、及JavaScript语言进行开发,采用MUI前端框架进行搭建,用于提供查询功能、显示功能、以及用户注册管理功能;
服务器端,采用ThinkJS服务端框架进行开发,搭配MySQL数据库,用于实现注册、登录验证以及数据的传输、增加、修改和删除功能;
系统后台管理端,采用HTML5、CSS、JavaScript语言进行开发,用于管理数据库。
本发明提供的上述APP操作简单方便、界面简洁美化,具有实时性,已注册的用户无论身处在何地,通过手机APP都可登系统,系统提供自动查询功能和显示功能,以及用户注册信息管理功能。系统长期运行稳定、安全。
相应地,本发明的实施例还提供了一种基于上述的空气质量挖掘系统的挖掘方法,如图3所示,该方法包括以下步骤:
采集空气质量数据;
对采集的空气质量数据进行分析,根据时空关联规则进行数据挖掘;
构建空气质量数据采集监控APP,提供相关数据的查询、显示、在线更新及修改。
其中,所述根据时空关联规则进行数据挖掘的步骤利用基于迁移学习的时空关联规则挖掘算法,包括:
将多个空间作为迁移对象,依据多个空间包含属性所对应的符号时态区间进行时态区间的划分来构建时空事务数据集;
依据时态频繁项集的挖掘过程获取序列模式扩展所需求的前缀和后缀;
根据时态区间的次序性对时空频繁项集进行扩展进而获取包含具体时态信息的时空关联规则。
时空关联规则挖掘算法的难点在于如何处理空间约束和时间约束,目前大量有关时间序列的研究提供了诸多方案可以用来解决时间次序性的难点,而空间数据却受到领域知识的影响缺乏普及性,因而现有的时空关联规则挖掘算法的模型很难适用于多种领域的时空数据中。为了解决这一问题,本发明综合考虑空间约束和时间约束来构建一种新的通用时空关联规则挖掘模型。
迁移学习的目的是为了解决目标域空间因数据缺失等情况无法获取足够的数据准确构建模型这一问题。本发明基于迁移学习的基本概念,通过空间域相似性度量算法为目标域空间筛选获取相似源域空间,通过迁移源域中的时空对象来构建时空关联规则挖掘模型。针对多个空间中的不同数据,基于时态关联规则算法的挖掘过程构建时空事务数据集,获取频繁项集及时空频繁项集,最后基于时空事务数据集所对应的时态区间进行规则的扩展以获取包含具体时态关系的时空关联规则。
具体地,空间域时空事务集构建包括以下方面。
时空事务集从本质上来说是由多个时空事务集合而成,现有的时空事务集往往是通过时间的谓词化(上午、下午等)和空间的谓词化(东、西、南、北等)来进行构建。由于传统方式下空间的谓词化会依赖于明显的领域特征,例如:研究河流与工厂污染程度的关系时会根据不同工厂距离河流的远近程度进行谓词化;研究风向与监测站点的时空关系时会根据方向进行谓词化;因此采用空间谓词化的方式处理空间约束关系将不利于构建通用的时空关联规则挖掘模型同时也无法获取多个空间下属性间的关联关系。
为了便于理解多空间域时空事务数据集的构建方式,以两个不同的空间域为例进行说明,假设有空间域1(Space1)和空间域2(Space2),令AS表示在空间标签约束下的时空对象,即不同空间中所包含的多个属性,例如Space1中的PM2.5和Space2中的PM2.5尽管是同一种属性,因空间标签的不同,认为两者是不同的时空对象;T表示空间对象的具体作用时态区间,即对象出现的时刻和终止的时刻;而D则表示所对应时空事务时态区间内时空对象的值域状态等级,因此对于两个不同空间的时空事务能够分别表示为STD1={AS1,T,D}和STD2={AS2,T,D},其中上标“1”和“2”为空间标签。为方便说明多空间域时空事务集的构建过程,下面对应Space1的时态区间中的时刻值采用奇数项表述,而Space2的时态区间中的时刻值则采用偶数项表述,其中时刻值序列t=<t1,t2,…,tn>满足t1<t2<…<tn,对应Space1和Space2的时空事务数据集如下所示:
定义1-1(时空事务编号)为了区分时空事务数据表的区别,在下述过程中采用“IDs”+“空间域编号”的形式表示对应时空事务数据集的事务编号,IDsZ表示融合时空事务数据集事务编号。
表1-1 Space1的时空事务数据集
Figure BDA0002358178390000121
表1-2 Space2的时空事务数据集
Figure BDA0002358178390000122
Figure BDA0002358178390000131
针对表1-1和表1-2所示的时空事务数据集,根据两个空间域中不同的时空对象所对应的时态区间按照最短时刻值划分原则进一步划分事务时态区间,进而获取Space1和Space2的融合时空事务数据集,如表1-3所示:
表1-3 Space1和Space2的融合时空事务数据集
Figure BDA0002358178390000132
融合时空事务数据集所对应的事务标号从小到大有严格的次序性,且所对应的时态区间也是逐渐递增的。根据时空事务数据集利用时态频繁项集挖掘算法时就能够准确获取每个频繁项集所对应的具体时态区间及出现的频率,最后按照扩展的思想过程将能获取所需要的时空关联规则。
进一步地,对于历史数据,所述基于迁移学习的时空关联规则挖掘算法具体包括:
S101、选择目标域空间及源域空间,对空间域中所包含的属性运用格兰杰因果分析和矩阵相似性度量计算迁移学习所需目标域的相似空间域数据;
S102、对目标域空间及迁移的源域空间数据,运用香农熵自适应聚类分别获取每个属性所对应的符号集及值域范围;
S103、获取每个空间域中所包含时间序列的特征点序列,运用双层符号化算法获取所对应的符号化序列;
S104、依据多个空间域中所包含符号化序列中每个符号所对应的时间区间,划分事务时间区间构建时空事务数据集;
S105、基于时空事务数据集按照时态频繁项集的挖掘过程获取时空事务数据集所对应的频繁项集及时空频繁项集;
S106、根据序列模式挖掘过程,以时空频繁项集作为前缀和后缀的扩展库,基于时空事务数据集所对应事务时间区间进行前缀的指定后缀扩展,进而获取包含具体时态关系的时空关联规则。
以表1-4所示时空事务数据集为例阐述时空关联规则对历史数据集的挖掘过程。
表1-4案例时空事务数据集
Figure BDA0002358178390000141
表1-4中
Figure BDA0002358178390000142
的上标“1”表示空间域编号,下标“1”,“3”依次代表属性编号及该属性的值域等级。若设定频繁项集的最小支持度为2,则能够获取到的频繁项集有
Figure BDA0002358178390000143
这里与常规的规则获取不同,经过频繁项集的获取后需要进行时态区间的回溯得到所对应的时空频繁项集有/>
Figure BDA0002358178390000144
Figure BDA0002358178390000145
Figure BDA0002358178390000146
其中时空频繁项集/>
Figure BDA0002358178390000147
中的/>
Figure BDA0002358178390000148
表示项集组成,[2]表示所持续的时间长短为2小时,最后的数值“2”则表示该种情况出现的频率。从常规的频繁项集匹配情况来看,因项集在转换为其他状态时所经历的时间不同将具体分化为多种时态情况。根据关联规则的特性我们知道有意义的规则必然是由频繁项集所构成的,因此要获取包含具体时态关系的时空关联规则,就要求规则的前件,也就是扩展的前缀必须是频繁的,而后缀再进行扩展时不需要考虑具体的时态关系,只需要确定后缀发生的时刻位置,因而根据时空频繁项集的获取,能够得到符合筛选要求的前缀有/>
Figure BDA0002358178390000151
我们以频繁项集作为指定后缀进行规则的扩展可以获得如表1-5所示的时空关联规则,其中规则的扩展需满足前件和后件的交集为零。
表1-5 IDsZ中的时空关联规则挖掘结果
Figure BDA0002358178390000152
基于表1-4所述的时空事务数据集就能够挖掘到如表1-5所示的时空关联规则,从挖掘的结果中可以发现出现次数最多的时空关联规则共有三个:
Figure BDA0002358178390000153
和/>
Figure BDA0002358178390000154
而对应的三个规则都包含于/>
Figure BDA0002358178390000155
因此我们可以获取该时空事务数据集所包含的信息是当Space1中属性1和Space2中属性1分别位于等级3和等级2时经过时间t=2后Space1中属性3和Space2中属性4将分别转变为等级1和等级3状态。可见,经过时空关联规则的挖掘过程可以获得包含具体时态关系的规则形式。
经过对历史数据的时空关联规则挖掘,对于新到来的多个空间的时空数据分别存储在对应的时空增量数据块SDB[1],SDB[2],…中,对增量数据块中的数据进行演化更新主要分为相似空间域的更新和时空频繁项集的更新两个方面。
具体地,所述基于迁移学习的时空关联规则挖掘算法还包括对增量数据块中的数据进行演化更新的步骤:
S201、扫描增量数据块,分别获取空间所对应的增量数据块与目标增量数据块的空间相似度;
S202、结合历史空间相似性度量结果和增量数据块相似性度量结果,判断是否需要对相似源域空间进行更新,若度量结果表明不需要更新空间域则直接执行S204、否则依次执行S203、S204,这里假设新的时空数据已经获取所对应的符号化序列;
S203、根据历史时空数据集所对应的时空事务数据集,删去需要替换的空间域所对应的项集,以时空事务数据集所对应每个事务时态区间为基准补充新的空间域在每个事务时态区间中所对应的项集;
S204、对筛选到的源域空间以及目标域空间所对应的增量数据块获取所对应的时空事务数据集,进而融合获取最终包含所有空间的时空事务数据集;
S205、获取增量时空事务数据集所对应的时空频繁项集,与历史时空频繁项集进行合并,删除不满足支持度约束的频繁项集,同时将重复出现过的频繁项集进行合并;
S206、对更新后的时空频繁项集基于新的时空事务数据集进行时空关联规则的挖掘,这里针对空间域是否更新分为两种情况,若空间域未发生变化则执行S207,否则执行S208;
S207、删除历史规则库中非时空频繁项集所对应的规则,同时对新增加的频繁项集在整个时空事务数据集中进行挖掘,而旧的频繁项集只需在时空增量数据块所对应的时空事务范围内进行规则的挖掘,最后合并相同的规则获取最终的时空关联规则;
S208、以新的时空频繁项集为前缀在整个时空事务数据集范围内重新进行时空关联规则的挖掘。
以表1-6所示的时空事务数据集表示时空增量数据块所对应的融合时空事务数据集,描述时空关联规则的演化过程。为了便于过程的描述,这里假设经过时空增量数据块的相似性度量并未发生空间域的更新。
表1-6增量数据块时空事务数据集
Figure BDA0002358178390000171
伴随着增量时空数据块的加入,可以发现原先存在的频繁项集有些不再频繁,相应的也有新的频繁项集加入,因此能够获得新的频繁项集有:
Figure BDA0002358178390000172
Figure BDA0002358178390000173
而经过增量时空数据块的加入,项集/>
Figure BDA0002358178390000174
就不再符合要求,因此对应的需要将包含非频繁项集的规则删除,同时对新增加的频繁项集进行匹配获取对应的时空频繁项集有
Figure BDA0002358178390000175
Figure BDA0002358178390000176
根据新的时空频繁项集能够获取新的时空关联规则由下表1-7所示。
表1-7时空增量数据块所对应新的时空关联规则
Figure BDA0002358178390000177
根据时空关联规则的挖掘过程以及算法的演化过程可以发现,对应时空频繁项集中的非频繁项作为规则前件进行扩展时所获取到的规则出现的次数较少,因此我们只以时空频繁项集作为前缀进行扩展的剪枝策略是有效的,这一点从挖掘的结果中也可以发现。
本发明提供的空气质量挖掘系统、方法的实验验证及结果分析如下。
通过数据采集监控装置,取得在空气质量分析的需要数据,经过迁移学习的时空关联规则演化挖掘方法实现对空气质量数据的分析,挖掘。实验过程利用两个真实时空数据集运行。采集的数据集中,一个是Air quality空气质量数据,另一个来自于提供的风能数据,与风速相关的四个属性Wind Speed、Wind dir、Wind Gust和AirTemp的数据集,选取了2013年至2016年的1月份数据。对于空气质量数据选取2014年6月到2014年8月中8个空间域(Space)的数据。两个数据集中的采样时间间隔均为每小时采集一次,所有实验均是在2.40GHz处理器和4.00GB内存下运行的Python 3.6环境中执行。
(1)基于空气质量数据集的时空关联规则挖掘
首先选取空间域1(Space1)作为为目标空间,经过之前空间域的相似性度量选取空间域4(Space4)和空间域8(Space8)作为目标域的相似空间进行时空关联规则挖掘。将Space1中的各个属性构建为时空事务数据表形式,其中时态区间依据各属性的最短时间进行划分。
表1-8 Space1时态区间划分表
Figure BDA0002358178390000181
同样对Space4及Space8作相同的转换,对应的时态区间划分表如下:
表1-9 Space4时态区间划分表
Figure BDA0002358178390000182
Figure BDA0002358178390000191
表1-10 Space8时态区间划分表
Figure BDA0002358178390000192
经过不同空间域对应事务数据集转换,下述过程将本着最小区间划分原则将Space1、Space4和Space8的事务数据集融合为时空事务数据集的形式如表1-11所示。对于不同空间域中因某些时刻测量值的缺失导致总时长并不一致的情况,在构建时空事务数据集时采用最短的总时长作为时空事务数据集的总时长:
表1-11多空间域时态区间划分表
Figure BDA0002358178390000193
对应表1-11所示时空事务数据集,利用FP-growth获取频繁项集进而获取对应的时空频繁项集作为前缀和后缀的扩展对象,下面列举不同长度的频繁项集中支持度最高的结果作为规则的获取对象,
Figure BDA0002358178390000201
Figure BDA0002358178390000202
这里不再详细列举频繁项集所对应的时空频繁项集形式,以频繁项集的角度进行描述,故对应支持度最高的5种频繁项集分别以其中一个频繁项集作为规则的前件,将该频繁项集以外的结果作为规则后件基于整个时空事务数据集中的时态区间进行前缀的扩展,同时在进行规则组合进行相应的剪枝操作。例如若频繁项集/>
Figure BDA0002358178390000203
的持续时间与频繁项集/>
Figure BDA0002358178390000204
的持续时间相同,因为/>
Figure BDA0002358178390000205
为/>
Figure BDA0002358178390000206
的子集,所以在进行规则组合时筛选去除该种情况,针对上述5种频繁项集,基于FP-BIDE算法所获取到的时空关联规则如下表1-12所示,表中只列举了每种规则组合中所出现时态关系最高的前两种情况。
表1-12时空关联规则挖掘结果
Figure BDA0002358178390000207
/>
根据时空关联规则的挖掘结果,有规则
Figure BDA0002358178390000208
的前件
Figure BDA0002358178390000211
表示Space4中的属性5(SO2)位于等级1、Space1中的属性1(PM2.5)位于等级1、Space4中的属性1(PM2.5)位于等级1以及Space8中的属性1(PM2.5)位于等级1时经过时间间隔t=21小时后Space4中的属性3(NO2)、Space1中的属性3(NO2)以及Space8中的属性3(NO2)将分别转变为等级3、等级3及等级4状态,该规则的变化情况在该规则形式对应的所有时态关系中共出现16次记为t=21(16),其次,根据挖掘结果发现上述规则变化经过t=1小时后也容易发生上述变化。经过对时空关联规则物理意义的说明,我们能够从时空关联规则的挖掘结果中发现,规则前件和后件中频繁项集长度的合适选择更能有效对数据进行判别,因此对于上述挖掘结果可以发现规则/>
Figure BDA0002358178390000212
和/>
Figure BDA0002358178390000213
出现的次数最多,根据其具体的时态关系,可以得到当Space1中属性1(PM2.5)和Space4中属性1(PM2.5)同时位于等级1时在经过时间t=1及t=48小时后需要注意Space4中属性3(NO2)的含量将转换为等级3,同样的Space4中属性3(N02)的含量位于等级3时,在经过时间t=1及t=24小时后需要注意Space1中属性1(PM2.5)和Space4中属性1(PM2.5)的含量变化。
(2)基于风速时空数据集的时空关联规则挖掘
为了进一步验证时空关联规则挖掘算法的通用性,基于MO风能时空数据在整个挖掘过程的基础上进行分析,实验过程中选取图4中标号为“1”的空间域作为目标域,目标域附近的空间域分布如下所示。
实验过程中以Space1作为目标域,相邻的6个不同空间域作为筛选的空间域对象,经过空间相似性度量的方法对多个空间域进行相似性度量,下述表格首先依据回归模型的校正决策系数判别该数据集是否适合于空间相似性度量方法中的格兰杰因果检验。
表1-13 2013年MO不同空间域各属性校正决定系数结果表
Figure BDA0002358178390000214
Figure BDA0002358178390000221
注:--表示因其中一个空间域的数据缺失而不存在度量结果表1-14 2014年MO不同空间域各属性校正决定系数结果表
Figure BDA0002358178390000222
根据2013年和2014年的计算结果可以发现在风速时空数据集中邻近空间域中的属性并不具备相关性,而强行进行融合会导致错误的结果。因此下述过程我们忽略风速数据中其他不相关的属性,只研究具备相关性的气温属性进行时空关联规则的挖掘分析,接下来以气温数据为对象度量不同空间相比于目标域空间的相似度如下表1-15所示。
表1-15 2013-2015年MO不同空间域Airtemp相似性度量结果
Figure BDA0002358178390000223
根据相似性度量的结果,在研究Airtemp属性时将选取Space2和Space5作为筛选得到的源域空间域,与目标域中该属性一起研究相关性,因此通过构建三个空间域下Airtemp属性的时空事务数据集,当设定支持数约束为50时所能够获取到的频繁项集如下表1-16所示:
表1-16 MO时空数据集频繁模式挖掘结果
Figure BDA0002358178390000231
对于上表中
Figure BDA0002358178390000232
的上标“5”表示空间域编号,指Space5,下标依次代表属性4(Airtemp)位于的值域等级状态为4,则挖掘到出现频率最高的前6种时空关联规则如下:
表1-17 MO时空数据集时空关联规则挖掘结果
Figure BDA0002358178390000233
经过空间域的筛选进而对包含具体时态关系的时空关联规则的挖掘。针对上述挖掘结果而言,规则
Figure BDA0002358178390000234
表明Space1中气温位于第4等级时经过1小时后Space5中的气温也将转变为等级4;规则/>
Figure BDA0002358178390000235
则表明Space1中气温位于第4等级时经过1小时后Space2中的气温也将转变为等级4;同样的规则/>
Figure BDA0002358178390000236
和/>
Figure BDA0002358178390000237
也映正了三个空间的气温相关性,这一点也与空间域的相似性正好呼应。所以根据上述挖掘结果能够得到结论“当发现Space1或者Space5中气温位于第4等级段时应留意相关空间域Space2中气温的变化”,而所获取规则中包含的具体的时态关系也能够为决策的进行提供更为细致的参考意见。
本发明以迁移学习的核心问题作为出发点,针对性的根据时空数据的特点,将时空关联规则的研究扩展到多个类型的时空数据中,并结合相关领域的知识,提出一种新的时空关联规则挖掘模型,能够普遍适用于多个时空数据领域中,且能够获取包含具体时态信息的时空关联规则;并且,本发明的挖掘算法与数据采集监控装置相结合,能够更好地获取相关需要挖掘的数据,同时构建了空气质量采集监控APP,便于实时监控,简单适用;整个发明的三部分组成了一个完整的空气质量挖掘系统,为相关领域的研究、发展提供了有益的借鉴。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种空气质量挖掘系统,其特征在于,包括数据采集监控装置,数据分析模块和空气质量数据采集监控APP;
所述数据采集监控装置用于空气质量数据采集和监控,包括:至少一个现场数据采集模块、数据中心模块和云平台链路模块,所述现场数据采集模块与所述数据中心模块之间通过网线连接,所述数据中心模块和所述云平台链路模块之间通过光纤连接;
所述现场数据采集模块用于采集本地空气质量的实时运行数据,实现本地数据监视、历史数据存储和实时运行数据向所述数据中心模块上传;
所述数据中心模块用于对所述实时运行数据进行存储,提供检索服务以及将所述实时运行数据上传给所述云平台链路模块;
所述云平台链路模块用于汇总所述现场数据采集模块采集的实时运行数据,实现数据集中监控;
所述数据分析模块用于对采集的空气质量数据进行分析,根据时空关联规则进行数据挖掘,为空气质量分析、决策提供数据支持;
所述空气质量数据采集监控APP用于提供相关数据的查询、显示、在线更新及修改;
基于所述空气质量挖掘系统的挖掘方法,包括以下步骤:
采集空气质量数据;
对采集的空气质量数据进行分析,根据时空关联规则进行数据挖掘;
所述根据时空关联规则进行数据挖掘的步骤利用基于迁移学习的时空关联规则挖掘算法,包括:
将多个空间作为迁移对象,依据多个空间包含属性所对应的符号时态区间进行时态区间的划分来构建时空事务数据集;
依据时态频繁项集的挖掘过程获取序列模式扩展所需求的前缀和后缀;
根据时态区间的次序性对时空频繁项集进行扩展进而获取包含具体时态信息的时空关联规则;
其中,空间域时空事务集构建包括:
假设有空间域1和空间域2,即Space1和Space2;令AS表示在空间标签约束下的时空对象,即不同空间中所包含的多个属性;T表示空间对象的具体作用时态区间,即对象出现的时刻和终止的时刻;D表示所对应时空事务时态区间内时空对象的值域状态等级,因此对于两个不同空间的时空事务能够分别表示为STD1={AS1,T,D}和STD2={AS2,T,D},其中上标“1”和“2”为空间标签;
对应Space1的时态区间中的时刻值采用奇数项表述,而Space2的时态区间中的时刻值则采用偶数项表述,其中时刻值序列t=<t1,t2,…,tn>满足t1<t2<…<tn,得到Space1和Space2的时空事务数据集;
对于Space1和Space2的时空事务数据集,根据两个空间域中不同的时空对象所对应的时态区间按照最短时刻值划分原则进一步划分事务时态区间,进而获取Space1和Space2的融合时空事务数据集。
2.根据权利要求1所述的空气质量挖掘系统,其特征在于,所述现场数据采集模块包括:
空气监控仪,用于实时监控空气质量,并采集空气质量数据;
风速测速仪,用于实时监测风速,并采集风速数据;
与所述空气监控仪及所述风速测速仪通过串口服务器连接的管理工作站,用于接收所述空气质量数据和所述风速数据,并进行存储和监视;
与所述管理工作站连接的接口服务器,用于提供符合规约的接口服务;
与所述接口服务器连接的单向隔离网关,用于实现数据的单向传输。
3.根据权利要求1所述的空气质量挖掘系统,其特征在于,所述数据中心模块包括依次连接的路由器、存储服务器和第一交换机,所述路由器连接所述现场数据采集模块,所述第一交换机连接所述云平台链路模块,所述存储服务器中包含实时数据库,用于实时运行数据和历史数据的存储、检索、发布。
4.根据权利要求1所述的空气质量挖掘系统,其特征在于,所述云平台链路模块包括:与所述数据中心模块连接的第二交换机、与所述第二交换机连接的平台核心交换机、以及分别与所述平台核心交换机连接的云计算节点和WEB服务器,其中,所述平台核心交换机用于实现数据汇总和集中监控。
5.根据权利要求1所述的空气质量挖掘系统,其特征在于,所述空气质量数据采集监控APP包括:
客户端,采用HTML5、CSS、及JavaScript语言进行开发,采用MUI前端框架进行搭建,用于提供查询功能、显示功能、以及用户注册管理功能;
服务器端,采用ThinkJS服务端框架进行开发,搭配MySQL数据库,用于实现注册、登录验证以及数据的传输、增加、修改和删除功能;
系统后台管理端,采用HTML5、CSS、JavaScript语言进行开发,用于管理数据库。
6.根据权利要求1所述的空气质量挖掘系统,其特征在于,对于历史数据,所述基于迁移学习的时空关联规则挖掘算法具体包括:
S101、选择目标域空间及源域空间,对空间域中所包含的属性运用格兰杰因果分析和矩阵相似性度量计算迁移学习所需目标域的相似空间域数据;
S102、对目标域空间及迁移的源域空间数据,运用香农熵自适应聚类分别获取每个属性所对应的符号集及值域范围;
S103、获取每个空间域中所包含时间序列的特征点序列,运用双层符号化算法获取所对应的符号化序列;
S104、依据多个空间域中所包含符号化序列中每个符号所对应的时间区间,划分事务时间区间构建时空事务数据集;
S105、基于时空事务数据集按照时态频繁项集的挖掘过程获取时空事务数据集所对应的频繁项集及时空频繁项集;
S106、根据序列模式挖掘过程,以时空频繁项集作为前缀和后缀的扩展库,基于时空事务数据集所对应事务时间区间进行前缀的指定后缀扩展,进而获取包含具体时态关系的时空关联规则。
7.根据权利要求6所述的空气质量挖掘系统,其特征在于,对于新增的数据,存储在对应的增量数据块中,所述基于迁移学习的时空关联规则挖掘算法还包括对增量数据块中的数据进行演化更新的步骤:
S201、扫描增量数据块,分别获取空间所对应的增量数据块与目标增量数据块的空间相似度;
S202、结合历史空间相似性度量结果和增量数据块相似性度量结果,判断是否需要对相似源域空间进行更新,若度量结果表明不需要更新空间域则直接执行S204、否则依次执行S203、S204,这里假设新的时空数据已经获取所对应的符号化序列;
S203、根据历史时空数据集所对应的时空事务数据集,删去需要替换的空间域所对应的项集,以时空事务数据集所对应每个事务时态区间为基准补充新的空间域在每个事务时态区间中所对应的项集;
S204、对筛选到的源域空间以及目标域空间所对应的增量数据块获取所对应的时空事务数据集,进而融合获取最终包含所有空间的时空事务数据集;
S205、获取增量时空事务数据集所对应的时空频繁项集,与历史时空频繁项集进行合并,删除不满足支持度约束的频繁项集,同时将重复出现过的频繁项集进行合并;
S206、对更新后的时空频繁项集基于新的时空事务数据集进行时空关联规则的挖掘,这里针对空间域是否更新分为两种情况,若空间域未发生变化则执行S207,否则执行S208;
S207、删除历史规则库中非时空频繁项集所对应的规则,同时对新增加的频繁项集在整个时空事务数据集中进行挖掘,而旧的频繁项集只需在时空增量数据块所对应的时空事务范围内进行规则的挖掘,最后合并相同的规则获取最终的时空关联规则;
S208、以新的时空频繁项集为前缀在整个时空事务数据集范围内重新进行时空关联规则的挖掘。
CN202010014006.XA 2020-01-07 2020-01-07 一种空气质量挖掘系统、方法及数据采集监控装置 Active CN111274282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010014006.XA CN111274282B (zh) 2020-01-07 2020-01-07 一种空气质量挖掘系统、方法及数据采集监控装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010014006.XA CN111274282B (zh) 2020-01-07 2020-01-07 一种空气质量挖掘系统、方法及数据采集监控装置

Publications (2)

Publication Number Publication Date
CN111274282A CN111274282A (zh) 2020-06-12
CN111274282B true CN111274282B (zh) 2023-06-23

Family

ID=71111947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010014006.XA Active CN111274282B (zh) 2020-01-07 2020-01-07 一种空气质量挖掘系统、方法及数据采集监控装置

Country Status (1)

Country Link
CN (1) CN111274282B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737321B (zh) * 2020-07-02 2024-06-14 大连理工大学人工智能大连研究院 基于数据挖掘的城市大气污染联防联控区域划分方法
CN112597236B (zh) * 2020-12-04 2022-10-25 河南大学 一种基于概念格的关联规则的优化方法及可视化展示方法
CN112818046B (zh) * 2021-01-25 2022-09-30 同济大学 一种基于轨交云控的非时空数据变换归集处理系统及方法
CN113009086A (zh) * 2021-03-08 2021-06-22 重庆邮电大学 一种基于后向轨迹模式的探索城市大气污染物来源的方法
CN112712400B (zh) * 2021-03-26 2021-06-22 南京信息工程大学 基于虚拟齿轮的复杂关联数据生成方法
CN115327675B (zh) * 2022-10-13 2023-01-06 安徽省大气探测技术保障中心 气象装备运行状态监控方法、系统、设备及存储介质
CN116882522B (zh) * 2023-09-07 2023-11-28 湖南视觉伟业智能科技有限公司 一种分布式时空挖掘方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103957262A (zh) * 2014-05-07 2014-07-30 深圳市中科斯克技术有限公司 一种智能检测终端的数据汇集方法
WO2017182920A1 (en) * 2016-04-20 2017-10-26 Meo Limited Air quality monitoring device
CN110334133A (zh) * 2019-07-11 2019-10-15 京东城市(北京)数字科技有限公司 规则挖掘方法和装置、电子设备和计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108802856B (zh) * 2018-03-30 2020-06-30 南京大学 一种基于ai的源数据动态修正预报系统及其工作方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103957262A (zh) * 2014-05-07 2014-07-30 深圳市中科斯克技术有限公司 一种智能检测终端的数据汇集方法
WO2017182920A1 (en) * 2016-04-20 2017-10-26 Meo Limited Air quality monitoring device
CN110334133A (zh) * 2019-07-11 2019-10-15 京东城市(北京)数字科技有限公司 规则挖掘方法和装置、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN111274282A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111274282B (zh) 一种空气质量挖掘系统、方法及数据采集监控装置
Compton et al. Geotagging one hundred million twitter accounts with total variation minimization
Oussalah et al. A software architecture for Twitter collection, search and geolocation services
CN102667761B (zh) 可扩展的集群数据库
CN109241161A (zh) 一种气象数据管理方法
CN104995870A (zh) 多目标服务器布局确定
Wang et al. A flexible spatio-temporal indexing scheme for large-scale GPS track retrieval
Xu et al. Mobile cellular big data: Linking cyberspace and the physical world with social ecology
CN104216889B (zh) 基于云服务的数据传播性分析预测方法及系统
CN107451225A (zh) 用于半结构化数据的可缩放分析平台
Sun [Retracted] Research on the Construction of Smart Tourism System Based on Wireless Sensor Network
US20140358492A1 (en) Systems and methods for synchronizing geographic information system (gis) network models
CN111488420B (zh) 去中心微服务化区域洪水预警水信息系统及其集成方法
CN111160867A (zh) 大范围地域停车场大数据分析系统
Zhang et al. Urban traffic flow forecast based on FastGCRNN
Wakamiya et al. Crowd-sourced urban life monitoring: urban area characterization based crowd behavioral patterns from twitter
Ding et al. A hybrid search engine framework for the internet of things based on spatial-temporal, value-based, and keyword-based conditions
CN104486116A (zh) 多维度查询流量数据的方法及系统
CN106407429A (zh) 文件追踪方法、装置及系统
CN105760449A (zh) 一种面向多源异构数据的云推送方法
Kottursamy et al. An improved database synchronization mechanism for mobile data using software-defined networking control
CN104298669A (zh) 一种基于社交网络的人员地理信息挖掘模型
CN105138600A (zh) 基于图结构匹配的社交网络分析方法
CN105554132A (zh) 一种Hadoop在线扩容的方法
Maduako et al. STVG: an evolutionary graph framework for analyzing fast-evolving networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant