CN113641918B - 一种基于大数据的区域空气环境质量监测系统及方法 - Google Patents
一种基于大数据的区域空气环境质量监测系统及方法 Download PDFInfo
- Publication number
- CN113641918B CN113641918B CN202110938806.5A CN202110938806A CN113641918B CN 113641918 B CN113641918 B CN 113641918B CN 202110938806 A CN202110938806 A CN 202110938806A CN 113641918 B CN113641918 B CN 113641918B
- Authority
- CN
- China
- Prior art keywords
- data
- social network
- unit
- air environment
- environment quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000011156 evaluation Methods 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000012937 correction Methods 0.000 claims abstract description 33
- 238000007405 data analysis Methods 0.000 claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000013500 data storage Methods 0.000 claims description 12
- 238000012790 confirmation Methods 0.000 claims description 10
- 238000011161 development Methods 0.000 claims description 10
- 230000018109 developmental process Effects 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000013016 damping Methods 0.000 claims description 5
- 230000014759 maintenance of location Effects 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 239000000428 dust Substances 0.000 claims description 3
- 238000007726 management method Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims description 3
- 238000003915 air pollution Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 235000008446 instant noodles Nutrition 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000004056 waste incineration Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/0004—Gaseous mixtures, e.g. polluted air
- G01N33/0009—General constructional details of gas analysers, e.g. portable test equipment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Human Computer Interaction (AREA)
- Development Economics (AREA)
- Computational Linguistics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Combustion & Propulsion (AREA)
- Artificial Intelligence (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于大数据的区域空气环境质量监测系统,属于空气环境质量监测技术领域。该系统包括社交网络平台服务器、数据分析模块、数据处理模块、参数修正模块、评估监管模块;所述社交网络平台服务器的输出端与所述数据分析模块的输入端相连接;所述数据分析模块的输出端与所述数据处理模块的输入端相连接;所述数据处理模块的输出端与所述参数修正模块的输入端相连接;所述参数修正模块的输出端与所述评估监管模块、数据处理模块的输入端相连接。并同时提供一种基于大数据的区域空气环境质量监测方法,用以具体实施,本发明社交网络平台数据出发,利用人民在生活中的社交网络大数据,进行监测这一区域内的空气环境质量。
Description
技术领域
本发明涉及空气环境质量监测技术领域,具体为一种基于大数据的区域空气环境质量监测系统及方法。
背景技术
区域空气环境质量的好坏一般反映了一个区域内的空气污染的程度,它通常时根据空气中污染物浓度的高低来判断的,它会受到很多因素的影响,包括有自然污染和人为污染,例如来自于车辆、船舶、飞机的尾气、工业污染、居民生活和取暖、垃圾焚烧等。
在进行区域空气环境质量监测的过程中,一般采取的技术均为在空气中进行采样测试,可是由于采样测试难以进行全面覆盖,只能从大面积上得出一个平均性的空气环境质量,而且在检测指标上,也是只根据与科学技术手段提出的标准进行审核,但其实生活在区域内的人民群众对于环境的反应才是更加真实的,因此本发明从社交网络平台数据出发,利用人民在生活中的社交网络大数据,进行监测这一区域内的空气环境质量。
发明内容
本发明的目的在于提供一种基于大数据的区域空气环境质量监测系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:
一种基于大数据的区域空气环境质量监测系统,该系统包括社交网络平台服务器、数据分析模块、数据处理模块、参数修正模块、评估监管模块;
所述社交网络平台服务器用于获取社交网络数据,作为数据库支撑;所述数据分析模块用于提取关键字,选出对于空气环境的评价数据;所述数据处理模块用于确定时间及地理位置,并对数据进行处理;所述参数修正模块用于记录极端天气,并进行模型参数调整;所述评估监管模块用于评估区域空气环境质量,并进行监管重污染企业;
所述社交网络平台服务器的输出端与所述数据分析模块的输入端相连接;所述数据分析模块的输出端与所述数据处理模块的输入端相连接;所述数据处理模块的输出端与所述参数修正模块的输入端相连接;所述参数修正模块的输出端与所述评估监管模块、数据处理模块的输入端相连接。
根据上述技术方案,所述社交网络平台服务器包括社交网络数据获取单元、社交网络数据存储单元;
所述社交网络数据获取单元用于获取用户的社交网络平台数据;所述社交网络数据存储单元用于存储用户的社交网络平台数据;
所述社交网络数据获取单元的输出端与所述社交网络数据存储单元的输入端相连接;所述社交网络数据存储单元的输出端与所述数据分析模块的输入端相连接。
根据上述技术方案,所述数据分析模块包括关键词确认单元、分类提取单元;
所述关键词确认单元用于确认第一关键词,即有关于空气环境的关键词;所述分类提取单元用于根据第一关键词进行分类提取出社交网络数据,并传输至数据处理模块;
所述关键词确认单元的输出端与所述分类提取单元的输入端相连接;所述分类提取单元的输出端与所述数据处理模块的输入端相连接。
根据上述技术方案,所述数据处理模块包括文本分割单元、权重选择单元、评价确认单元;
所述文本分割单元用于对数据分析模块中得到的社交网络数据进行进一步的文本分割,利用标点符号进行不断分割;所述权重选择单元用于计算每一个关键词节点的权重;所述评价确认单元用于确认数据分析模块中选择的社交网络数据为评价空气环境质量的数据;
所述文本分割单元的输出端与所述权重选择单元的输入端相连接;所述权重选择单元的输出端与所述评价确认单元的输入端相连接。
根据上述技术方案,所述参数修正模块包括获取单元、修正单元;
所述获取单元用于获取最近时间内地理位置区域内极端天气、出行假日、工业发展的信息数据情况;所述修正单元用于根据信息数据情况进行修正参数值;
所述获取单元的输出端与所述修正单元的输入端相连接;所述修正单元的输出端与所述数据处理模块的输入单相连接。
根据上述技术方案,所述评估监管模块包括评估单元、监管单元;
所述评估单元用于对区域空气环境质量进行评估,并给出区域空气环境质量值;所述监管单元在区域空气环境质量值低于一定阈值的情况下,对重污染企业进行监管;
所述评估单元的输出端与所述监管单元的输入端相连接。
一种基于大数据的区域空气环境质量监测方法,该方法包括以下步骤:
S1、获取社交网络平台服务器的管理权,调取社交网络数据,进行关键字提取;
S2、基于关键字进行进一步识别,获取对应的时间以及地理位置区域,并记录在数据库;
S3、获取极端天气、出行假日、工业发展的信息数据情况,对模型进行参数修正;
S4、监管部门进行评估区域下空气环境质量,并对重污染企业进行监管与处罚。
根据上述技术方案,在步骤S1中,对关键字进行提取包括以下步骤:
S8-1、对社交网络平台服务器中的社交网络数据进行获取,并设置与空气环境质量相关的关键词,分别记为[A1、A2、A3、……、An];
S8-2、从获取的社交网络平台服务器中的社交网络数据中对应步骤S1中设置的关键词,将带有关键词关联句组提取出来,所述句组以句号为分界线,分别记为文本[I1、I2、I3、……、IJ];
S8-3、对所有的文本[I1、I2、I3、……、IJ]进行标记,分别在其后缀带有时间及地理位置区域,并进行分析;
根据上述技术方案,在步骤S2中,基于关键字进行进一步识别包括以下步骤:
S9-1、获取步骤S8-3的标记后的文本[I1、I2、I3、……、IJ],对每个文本按照标点进行分割,即任意标点即为一道分界线,分割后记为:
Im=S1+S2+S3+……+SK
其中,Im为任一标记后的文本,S1、S2、S3、……、SK分别为文本Im分割的每一段落;
S9-2、对文本Im的所有段落进行词性标注处理,并去除停用词,则每个段落生成:
SK=T1+T2+T3+……+Ta
其中,SK指文本Im中的任一段落,T1+T2+T3+……+Ta为段落SK中的候选关键词;
S9-3、获取步骤S9-2中的候选关键词,建立节点集V,每个候选关键词作为一个节点存在,采用共现关系构造任意两个节点Ti、Tj之间的边,两个节点之间存在边即它们在长度为h的窗口中共现,h表示窗口大小,即最多共现h个关键词。
S9-4、根据公式:
其中,w(Ti)为节点Ti的权重,d为阻尼系数,为0.85;In(Ti)为节点Ti的前驱结点集合,Out(Ti)节点Ti的后继结点集合,wji为节点i与节点j之间的相似度,w(Tj)为节点Tj的权重,Th为窗口内任一节点;
在这一步骤下,权重即代表节点的重要性,利用两个节点之间的关联性,以及在窗口内前驱结点与后继节点进行计算当前节点的权重,并设置阻尼系数,进行进一步计算,提高精度,从而迭代传播各节点的权重,直到收敛为止;
S9-5、对节点权重进行倒序排列,选取F个作为最佳词汇,对最佳词汇进行甄别,根据公式:Q=C/F;
其中,Q为保留概率,C为最佳词汇中能够表达空气环境质量的词汇;
S9-6、设置阈值Qmax,若Q能够超出Qmax,则选取其对应的原始社交网络数据存储至数据库。
在本步骤中,主要是对于关键词提取的数据进行进一步拆分,例如,在设置了关键词“天气”后,提取的社交网络数据中可能会出现“今天气死我了”这样的无关数据,因此利用切分段落,多次迭代计算权重后进行确认其属于描述空气环境质量的数据,可以进一步净化数据库,减少无关数据,从而达到增加精度的目的。
根据上述技术方案,在步骤S3-S4中,对模型进行修正以及评估监管包括以下步骤:
S10-1、调取S9-6中的数据库数据,进行地理位置区域划分,对同一地理位置区域内取数据L条进行评估;
S10-2、对L条数据进行分析,根据程度副词关键词的分析,进行判断社交网络平台对于空气环境的评价信息,所述程度副词关键词包括但不限于很好、晴朗、大风、灰尘;
S10-3、根据公式计算区域空气环境质量值:
其中,U为区域空气环境质量值,y1、y2、y3为参数系数值,L优为带有优质程度副词的数据;
并同时设置阈值Umin,若U低于Umin则相关部门需要对重污染企业进行监管;
所述优质程度副词包括但不限于很好、晴朗;
S10-4、获取地理位置区域内极端天气、出行假日、工业发展的信息数据情况,若在时间B内存在上述信息数据情况任一种,则对参数取相应的常数值为y1=0.5;y2=1.2;y3=0.8;对在时间B内不存在上述信息数据情况的,其对应的参数值取1。
设置多重参数进行一段时间的分析,从而提高模型的拟合程度,提高检测精度,在信息不存在的情况下,则设置其为常数1。
与现有技术相比,本发明所达到的有益效果是:
本发明能够根据社交网络平台的社交网络数据进行判断区域空气环境的质量,能够更真实地反映人民生活中对于环境的评价,首先设置关键词对社交网络数据进行提取,然后在提取到的社交网络数据中进行进一步分析,去除掉存在设置的关键词却并不是表达空气环境质量的数据,使整个数据内容更加纯净,便于分析,同时也可以加深评估精度,还设置了相关参数用来平衡模型效果,多方考虑空气质量的影响因素,同时在不满于阈值时提醒监管部门对重污染企业进行监管。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种基于大数据的区域空气环境质量监测系统的流程示意图;
图2是本发明一种基于大数据的区域空气环境质量监测方法的步骤示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明提供技术方案:
一种基于大数据的区域空气环境质量监测系统,该系统包括社交网络平台服务器、数据分析模块、数据处理模块、参数修正模块、评估监管模块;
所述社交网络平台服务器用于获取社交网络数据,作为数据库支撑;所述数据分析模块用于提取关键字,选出对于空气环境的评价数据;所述数据处理模块用于确定时间及地理位置,并对数据进行处理;所述参数修正模块用于记录极端天气,并进行模型参数调整;所述评估监管模块用于评估区域空气环境质量,并进行监管重污染企业;
所述社交网络平台服务器的输出端与所述数据分析模块的输入端相连接;所述数据分析模块的输出端与所述数据处理模块的输入端相连接;所述数据处理模块的输出端与所述参数修正模块的输入端相连接;所述参数修正模块的输出端与所述评估监管模块、数据处理模块的输入端相连接。
所述社交网络平台服务器包括社交网络数据获取单元、社交网络数据存储单元;
所述社交网络数据获取单元用于获取用户的社交网络平台数据;所述社交网络数据存储单元用于存储用户的社交网络平台数据;
所述社交网络数据获取单元的输出端与所述社交网络数据存储单元的输入端相连接;所述社交网络数据存储单元的输出端与所述数据分析模块的输入端相连接。
所述数据分析模块包括关键词确认单元、分类提取单元;
所述关键词确认单元用于确认第一关键词,即有关于空气环境的关键词;所述分类提取单元用于根据第一关键词进行分类提取出社交网络数据,并传输至数据处理模块;
所述关键词确认单元的输出端与所述分类提取单元的输入端相连接;所述分类提取单元的输出端与所述数据处理模块的输入端相连接。
所述数据处理模块包括文本分割单元、权重选择单元、评价确认单元;
所述文本分割单元用于对数据分析模块中得到的社交网络数据进行进一步的文本分割,利用标点符号进行不断分割;所述权重选择单元用于计算每一个关键词节点的权重;所述评价确认单元用于确认数据分析模块中选择的社交网络数据为评价空气环境质量的数据;
所述文本分割单元的输出端与所述权重选择单元的输入端相连接;所述权重选择单元的输出端与所述评价确认单元的输入端相连接。
所述参数修正模块包括获取单元、修正单元;
所述获取单元用于获取最近时间内地理位置区域内极端天气、出行假日、工业发展的信息数据情况;所述修正单元用于根据信息数据情况进行修正参数值;
所述获取单元的输出端与所述修正单元的输入端相连接;所述修正单元的输出端与所述数据处理模块的输入单相连接。
所述评估监管模块包括评估单元、监管单元;
所述评估单元用于对区域空气环境质量进行评估,并给出区域空气环境质量值;所述监管单元在区域空气环境质量值低于一定阈值的情况下,对重污染企业进行监管;
所述评估单元的输出端与所述监管单元的输入端相连接。
一种基于大数据的区域空气环境质量监测方法,该方法包括以下步骤:
S1、获取社交网络平台服务器的管理权,调取社交网络数据,进行关键字提取;
S2、基于关键字进行进一步识别,获取对应的时间以及地理位置区域,并记录在数据库;
S3、获取极端天气、出行假日、工业发展的信息数据情况,对模型进行参数修正;
S4、监管部门进行评估区域下空气环境质量,并对重污染企业进行监管与处罚。
在步骤S1中,对关键字进行提取包括以下步骤:
S8-1、对社交网络平台服务器中的社交网络数据进行获取,并设置与空气环境质量相关的关键词,分别记为[A1、A2、A3、……、An];
S8-2、从获取的社交网络平台服务器中的社交网络数据中对应步骤S1中设置的关键词,将带有关键词关联句组提取出来,所述句组以句号为分界线,分别记为文本[I1、I2、I3、……、IJ];
S8-3、对所有的文本[I1、I2、I3、……、IJ]进行标记,分别在其后缀带有时间及地理位置区域,并进行分析;
在步骤S2中,基于关键字进行进一步识别包括以下步骤:
S9-1、获取步骤S8-3的标记后的文本[I1、I2、I3、……、IJ],对每个文本按照标点进行分割,即任意标点即为一道分界线,分割后记为:
Im=S1+S2+S3+……+SK
其中,Im为任一标记后的文本,S1、S2、S3、……、SK分别为文本Im分割的每一段落;
S9-2、对文本Im的所有段落进行词性标注处理,并去除停用词,则每个段落生成:
SK=T1+T2+T3+……+Ta
其中,SK指文本Im中的任一段落,T1+T2+T3+……+Ta为段落SK中的候选关键词;
S9-3、获取步骤S9-2中的候选关键词,建立节点集V,每个候选关键词作为一个节点存在,采用共现关系构造任意两个节点Ti、Tj之间的边,两个节点之间存在边即它们在长度为h的窗口中共现,h表示窗口大小,即最多共现h个关键词。
S9-4、根据公式:
其中,w(Ti)为节点Ti的权重,d为阻尼系数,为0.85;In(Ti)为节点Ti的前驱结点集合,Out(Ti)节点Ti的后继结点集合,wji为节点i与节点j之间的相似度,w(Tj)为节点Tj的权重,Th为窗口内任一节点;
迭代传播各节点的权重,直到收敛为止;
S9-5、对节点权重进行倒序排列,选取F个作为最佳词汇,对最佳词汇进行甄别,根据公式:Q=C/F;
其中,Q为保留概率,C为最佳词汇中能够表达空气环境质量的词汇;
S9-6、设置阈值Qmax,若Q能够超出Qmax,则选取其对应的原始社交网络数据存储至数据库。
在步骤S3-S4中,对模型进行修正以及评估监管包括以下步骤:
S10-1、调取S9-6中的数据库数据,进行地理位置区域划分,对同一地理位置区域内取数据L条进行评估;
S10-2、对L条数据进行分析,根据程度副词关键词的分析,进行判断社交网络平台对于空气环境的评价信息,所述程度副词关键词包括但不限于很好、晴朗、大风、灰尘;
S10-3、根据公式计算区域空气环境质量值:
其中,U为区域空气环境质量值,y1、y2、y3为参数系数值,L优为带有优质程度副词的数据;
并同时设置阈值Umin,若U低于Umin则相关部门需要对重污染企业进行监管;
所述优质程度副词包括但不限于很好、晴朗;
S10-4、获取地理位置区域内极端天气、出行假日、工业发展的信息数据情况,若在时间B内存在上述信息数据情况任一种,则对参数取相应的常数值为y1=0.5;y2=1.2;y3=0.8;对在时间B内不存在上述信息数据情况的,其对应的参数值取1。
在本实施例中:
相关部门取用微信朋友圈作为社交网络数据;
对微信朋友圈的相关数据资源进行获取,并设置与空气环境质量相关的关键词,分别为天气、空气;
从获取的社交网络平台服务器中的社交网络数据中对应步骤S1中设置的关键词,将带有关键词关联句组提取出来,所述句组以句号为分界线,分别记为文本[I1、I2、I3、……、IJ];
对所有的文本[I1、I2、I3、……、IJ]进行标记,分别在其后缀带有时间及地理位置区域,并进行分析;
对每个文本按照标点进行分割,即任意标点即为一道分界线,分割后记为:
Im=S1+S2+S3+……+SK
其中,Im为任一标记后的文本,S1、S2、S3、……、SK分别为文本Im分割的每一段落;
例如,任一文本Im为“今天的天气可真好,阳光明媚,大家快出来玩。”;则其存在“天气”,因此被提取出来,直至句号。
对其进行分割段落后为:今天的天气可真好、阳光明媚、大家快出来玩;
对文本Im的所有段落进行词性标注处理,并去除停用词,则每个段落生成:
SK=T1+T2+T3+……+Ta
其中,SK指文本Im中的任一段落,T1+T2+T3+……+Ta为段落SK中的候选关键词;
例如,对其中“今天的天气可真好”这一段落进行处理后,为“今天”、“天气”、“可”、“真好”;其中停用词“的”被删除;其他作为候选关键词进入下一步骤;
获取候选关键词,建立节点集V,每个候选关键词作为一个节点存在,采用共现关系构造任意两个节点Ti、Tj之间的边,两个节点之间存在边即它们在长度为h的窗口中共现,h表示窗口大小,即最多共现h个关键词。
根据公式:
其中,w(Ti)为节点Ti的权重,d为阻尼系数,为0.85;In(Ti)为节点Ti的前驱结点集合,Out(Ti)节点Ti的后继结点集合,wji为节点i与节点j之间的相似度,w(Tj)为节点Tj的权重,Th为窗口内任一节点;
迭代传播各节点的权重,直到收敛为止;
例如,最后取到的节点为“天气”、“真好”;
对节点权重进行倒序排列,选取F个作为最佳词汇,对最佳词汇进行甄别,根据公式:Q=C/F;
其中,Q为保留概率,C为最佳词汇中能够表达空气环境质量的词汇;
保留概率Q=1/2;
设置阈值Qmax为25%,因为Q能够超出Qmax,则选取其对应的原始社交网络数据存储至数据库。
即选取“今天的天气可真好,阳光明媚,大家快出来玩。”这一数据进入数据库;
进行地理位置区域划分,对同一地理位置区域内取数据L条进行评估;其中L=100,L中存在这一数据“今天的天气可真好,阳光明媚,大家快出来玩。”
对L条数据进行分析,根据程度副词关键词的分析,进行判断社交网络平台对于空气环境的评价信息,所述程度副词关键词包括“真好”;
根据公式计算区域空气环境质量值:
其中,U为区域空气环境质量值,y1、y2、y3为参数系数值,L优为带有优质程度副词的数据;L优为80条,所述优质程度副词关键词包括“真好”;
设置y1、y2、y3分别为0.5、1.2、0.8;
U=0.5*1.2*0.8*0.8=0.384
并同时设置阈值Umin为0.01,因为0.384大于0.01,因此,暂不需要相关部门需要对重污染企业进行监管;
获取地理位置区域内极端天气、出行假日、工业发展的信息数据情况,发现在一段时间B内不存在上述信息数据情况任一种,因此不对参数做出改变。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于大数据的区域空气环境质量监测方法,其特征在于:该方法包括以下步骤:
S1、获取社交网络平台服务器的管理权,调取社交网络数据,进行关键字提取;
S2、基于关键字进行进一步识别,获取对应的时间以及地理位置区域,并记录在数据库;
S3、获取极端天气、出行假日、工业发展的信息数据情况,对模型进行参数修正;
S4、监管部门进行评估区域下空气环境质量,并对重污染企业进行监管与处罚;
在步骤S1中,对关键字进行提取包括以下步骤:
S8-1、对社交网络平台服务器中的社交网络数据进行获取,并设置与空气环境质量相关的关键词,分别记为[A1、A2、A3、……、An];
S8-2、从获取的社交网络平台服务器中的社交网络数据中对应步骤S1中设置的关键词,将带有关键词关联句组提取出来,所述句组以句号为分界线,分别记为文本[I1、I2、I3、……、IJ];
S8-3、对所有的文本[I1、I2、I3、……、IJ]进行标记,分别在其后缀带有时间及地理位置区域,并进行分析;
在步骤S2中,基于关键字进行进一步识别包括以下步骤:
S9-1、获取步骤S8-3的标记后的文本[I1、I2、I3、……、IJ],对每个文本按照标点进行分割,即任意标点即为一道分界线,分割后记为:
Im=S1+S2+S3+……+SK
其中,Im为任一标记后的文本,S1、S2、S3、……、SK分别为文本Im分割的每一段落;
S9-2、对文本Im的所有段落进行词性标注处理,并去除停用词,则每个段落生成:
SK=T1+T2+T3+……+Ta
其中,SK指文本Im中的任一段落,T1+T2+T3+……+Ta为段落SK中的候选关键词;
S9-3、获取步骤S9-2中的候选关键词,建立节点集V,每个候选关键词作为一个节点存在,采用共现关系构造任意两个节点Ti、Tj之间的边,两个节点之间存在边即它们在长度为h的窗口中共现,h表示窗口大小,即最多共现h个关键词;
S9-4、根据公式:
其中,w(Ti)为节点Ti的权重,d为阻尼系数,为0.85;In(Ti)为节点Ti的前驱结点集合,Out(Ti)节点Ti的后继结点集合,wji为节点i与节点j之间的相似度,w(Tj)为节点Tj的权重,Th为窗口内任一节点;
迭代传播各节点的权重,直到收敛为止;
S9-5、对节点权重进行倒序排列,选取F个作为最佳词汇,对最佳词汇进行甄别,根据公式:Q=C/F;
其中,Q为保留概率,C为最佳词汇中能够表达空气环境质量的词汇;
S9-6、设置阈值Qmax,若Q能够超出Qmax,则选取其对应的原始社交网络数据存储至数据库;
在步骤S3-S4中,对模型进行修正以及评估监管包括以下步骤:
S10-1、调取S9-6中的数据库数据,进行地理位置区域划分,对同一地理位置区域内取数据L条进行评估;
S10-2、对L条数据进行分析,根据程度副词关键词的分析,进行判断社交网络平台对于空气环境的评价信息,所述程度副词关键词包括很好、晴朗、大风、灰尘;
S10-3、根据公式计算区域空气环境质量值:
其中,U为区域空气环境质量值,y1、y2、y3为参数系数值,L优为带有优质程度副词的数据;
并同时设置阈值Umin,若U低于Umin则相关部门需要对重污染企业进行监管;
所述优质程度副词包括很好、晴朗;
S10-4、获取地理位置区域内极端天气、出行假日、工业发展的信息数据情况,若在时间B内存在上述信息数据情况任一种,则对参数取相应的常数值为y1=0.5;y2=1.2;y3=0.8;对在时间B内不存在上述信息数据情况的,其对应的参数值取1,其中B为监测规定时间。
2.根据权利要求1所述的一种基于大数据的区域空气环境质量监测方法的一种基于大数据的区域空气环境质量监测系统,其特征在于:该系统包括社交网络平台服务器、数据分析模块、数据处理模块、参数修正模块、评估监管模块;
所述社交网络平台服务器用于获取社交网络数据,作为语料库支撑;所述数据分析模块用于提取关键字,选出对于空气环境的评价数据;所述数据处理模块用于确定时间及地理位置,并对数据进行处理;所述参数修正模块用于记录极端天气,并进行模型参数调整;所述评估监管模块用于评估区域空气环境质量,并进行监管重污染企业;
所述社交网络平台服务器的输出端与所述数据分析模块的输入端相连接;所述数据分析模块的输出端与所述数据处理模块的输入端相连接;所述数据处理模块的输出端与所述参数修正模块的输入端相连接;所述参数修正模块的输出端与所述评估监管模块、数据处理模块的输入端相连接。
3.根据权利要求2所述的一种基于大数据的区域空气环境质量监测系统,其特征在于:所述社交网络平台服务器包括社交网络数据获取单元、社交网络数据存储单元;
所述社交网络数据获取单元用于获取用户的社交网络平台数据;所述社交网络数据存储单元用于存储用户的社交网络平台数据;
所述社交网络数据获取单元的输出端与所述社交网络数据存储单元的输入端相连接;所述社交网络数据存储单元的输出端与所述数据分析模块的输入端相连接。
4.根据权利要求2所述的一种基于大数据的区域空气环境质量监测系统,其特征在于:所述数据分析模块包括关键词确认单元、分类提取单元;
所述关键词确认单元用于确认第一关键词,即有关于空气环境的关键词;所述分类提取单元用于根据第一关键词进行分类提取出社交网络数据,并传输至数据处理模块;
所述关键词确认单元的输出端与所述分类提取单元的输入端相连接;所述分类提取单元的输出端与所述数据处理模块的输入端相连接。
5.根据权利要求2所述的一种基于大数据的区域空气环境质量监测系统,其特征在于:所述数据处理模块包括文本分割单元、权重选择单元、评价确认单元;
所述文本分割单元用于对数据分析模块中得到的社交网络数据进行进一步的文本分割,利用标点符号进行不断分割;所述权重选择单元用于计算每一个关键词节点的权重;所述评价确认单元用于确认数据分析模块中选择的社交网络数据为评价空气环境质量的数据;
所述文本分割单元的输出端与所述权重选择单元的输入端相连接;所述权重选择单元的输出端与所述评价确认单元的输入端相连接。
6.根据权利要求2所述的一种基于大数据的区域空气环境质量监测系统,其特征在于:所述参数修正模块包括获取单元、修正单元;
所述获取单元用于获取最近时间内地理位置区域内极端天气、出行假日、工业发展的信息数据情况;所述修正单元用于根据信息数据情况进行修正参数值;
所述获取单元的输出端与所述修正单元的输入端相连接;所述修正单元的输出端与所述数据处理模块的输入单相连接。
7.根据权利要求2所述的一种基于大数据的区域空气环境质量监测系统,其特征在于:所述评估监管模块包括评估单元、监管单元;
所述评估单元用于对区域空气环境质量进行评估,并给出区域空气环境质量值;所述监管单元在区域空气环境质量值低于一定阈值的情况下,对重污染企业进行监管;
所述评估单元的输出端与所述监管单元的输入端相连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110938806.5A CN113641918B (zh) | 2021-08-16 | 2021-08-16 | 一种基于大数据的区域空气环境质量监测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110938806.5A CN113641918B (zh) | 2021-08-16 | 2021-08-16 | 一种基于大数据的区域空气环境质量监测系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113641918A CN113641918A (zh) | 2021-11-12 |
CN113641918B true CN113641918B (zh) | 2022-07-19 |
Family
ID=78422125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110938806.5A Active CN113641918B (zh) | 2021-08-16 | 2021-08-16 | 一种基于大数据的区域空气环境质量监测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113641918B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116818685B (zh) * | 2023-08-28 | 2023-11-07 | 福建榕基软件股份有限公司 | 一种基于大数据的环境监测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473217A (zh) * | 2012-06-08 | 2013-12-25 | 华为技术有限公司 | 从文本中抽取关键词的方法和装置 |
CN105740229A (zh) * | 2016-01-26 | 2016-07-06 | 中国人民解放军国防科学技术大学 | 关键词提取的方法及装置 |
CN105893352A (zh) * | 2016-04-15 | 2016-08-24 | 苏州爱诺信信息科技有限公司 | 一种基于社交网络大数据的空气质量预警和监测分析系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10725008B2 (en) * | 2017-04-24 | 2020-07-28 | International Business Machines Corporation | Automatic siting for air quality monitoring stations |
US10315492B2 (en) * | 2017-05-15 | 2019-06-11 | Toyota Motor Engineering & Manufacturing North America, Inc. | Automatic air quality monitoring and improvement systems |
CN112766549A (zh) * | 2021-01-07 | 2021-05-07 | 清华大学 | 一种空气污染物浓度预报方法、装置及存储介质 |
-
2021
- 2021-08-16 CN CN202110938806.5A patent/CN113641918B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473217A (zh) * | 2012-06-08 | 2013-12-25 | 华为技术有限公司 | 从文本中抽取关键词的方法和装置 |
CN105740229A (zh) * | 2016-01-26 | 2016-07-06 | 中国人民解放军国防科学技术大学 | 关键词提取的方法及装置 |
CN105893352A (zh) * | 2016-04-15 | 2016-08-24 | 苏州爱诺信信息科技有限公司 | 一种基于社交网络大数据的空气质量预警和监测分析系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113641918A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104820629B (zh) | 一种智能的舆情突发事件应急处理系统及方法 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN112699246A (zh) | 基于知识图谱的领域知识推送方法 | |
CN109165294A (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN107194617B (zh) | 一种app软件工程师软技能分类系统及方法 | |
CN111309864B (zh) | 一种微博热点话题的用户群体情感倾向迁移动态分析方法 | |
CN108199951A (zh) | 一种基于多算法融合模型的垃圾邮件过滤方法 | |
CN112836509A (zh) | 一种专家系统知识库构建方法及系统 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN110737805B (zh) | 图模型数据的处理方法、装置和终端设备 | |
CN111026870A (zh) | 一种综合文本分类和图像识别的ict系统故障分析方法 | |
CN113468317A (zh) | 一种简历筛选方法、系统、设备和存储介质 | |
CN111369294B (zh) | 软件造价估算方法及装置 | |
CN113239111A (zh) | 一种基于知识图谱的网络舆情可视化分析方法及系统 | |
CN113641918B (zh) | 一种基于大数据的区域空气环境质量监测系统及方法 | |
CN113792118A (zh) | 基于景区评价的满意度提升系统和方法 | |
CN110728140A (zh) | 基于情感分析与主题特征的突发事件舆情演化分析方法 | |
CN106202116A (zh) | 一种基于粗糙集与knn的文本分类方法及系统 | |
CN117235253A (zh) | 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法 | |
CN109614381A (zh) | 电力调度日志分类方法、装置及设备 | |
CN115292167A (zh) | 生命周期预测模型构建方法、装置、设备及可读存储介质 | |
CN113836244A (zh) | 样本获取方法、模型训练方法、关系预测方法及装置 | |
CN111078882A (zh) | 一种文本情感测量方法和装置 | |
Zhang | Application of English Score Management System Based on Spark-Decision Tree Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |