CN113641918A - 一种基于大数据的区域空气环境质量监测系统及方法 - Google Patents

一种基于大数据的区域空气环境质量监测系统及方法 Download PDF

Info

Publication number
CN113641918A
CN113641918A CN202110938806.5A CN202110938806A CN113641918A CN 113641918 A CN113641918 A CN 113641918A CN 202110938806 A CN202110938806 A CN 202110938806A CN 113641918 A CN113641918 A CN 113641918A
Authority
CN
China
Prior art keywords
data
social network
unit
air environment
environment quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110938806.5A
Other languages
English (en)
Other versions
CN113641918B (zh
Inventor
张美芬
唐晓
王燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Yunju Testing Technology Co ltd
Original Assignee
Jiangsu Yunju Testing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Yunju Testing Technology Co ltd filed Critical Jiangsu Yunju Testing Technology Co ltd
Priority to CN202110938806.5A priority Critical patent/CN113641918B/zh
Publication of CN113641918A publication Critical patent/CN113641918A/zh
Application granted granted Critical
Publication of CN113641918B publication Critical patent/CN113641918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/0004Gaseous mixtures, e.g. polluted air
    • G01N33/0009General constructional details of gas analysers, e.g. portable test equipment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Human Computer Interaction (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Combustion & Propulsion (AREA)
  • Artificial Intelligence (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于大数据的区域空气环境质量监测系统,属于空气环境质量监测技术领域。该系统包括社交网络平台服务器、数据分析模块、数据处理模块、参数修正模块、评估监管模块;所述社交网络平台服务器的输出端与所述数据分析模块的输入端相连接;所述数据分析模块的输出端与所述数据处理模块的输入端相连接;所述数据处理模块的输出端与所述参数修正模块的输入端相连接;所述参数修正模块的输出端与所述评估监管模块、数据处理模块的输入端相连接。并同时提供一种基于大数据的区域空气环境质量监测方法,用以具体实施,本发明社交网络平台数据出发,利用人民在生活中的社交网络大数据,进行监测这一区域内的空气环境质量。

Description

一种基于大数据的区域空气环境质量监测系统及方法
技术领域
本发明涉及空气环境质量监测技术领域,具体为一种基于大数据的区域空气环境质量监测系统及方法。
背景技术
区域空气环境质量的好坏一般反映了一个区域内的空气污染的程度,它通常时根据空气中污染物浓度的高低来判断的,它会受到很多因素的影响,包括有自然污染和人为污染,例如来自于车辆、船舶、飞机的尾气、工业污染、居民生活和取暖、垃圾焚烧等。
在进行区域空气环境质量监测的过程中,一般采取的技术均为在空气中进行采样测试,可是由于采样测试难以进行全面覆盖,只能从大面积上得出一个平均性的空气环境质量,而且在检测指标上,也是只根据与科学技术手段提出的标准进行审核,但其实生活在区域内的人民群众对于环境的反应才是更加真实的,因此本发明从社交网络平台数据出发,利用人民在生活中的社交网络大数据,进行监测这一区域内的空气环境质量。
发明内容
本发明的目的在于提供一种基于大数据的区域空气环境质量监测系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:
一种基于大数据的区域空气环境质量监测系统,该系统包括社交网络平台服务器、数据分析模块、数据处理模块、参数修正模块、评估监管模块;
所述社交网络平台服务器用于获取社交网络数据,作为数据库支撑;所述数据分析模块用于提取关键字,选出对于空气环境的评价数据;所述数据处理模块用于确定时间及地理位置,并对数据进行处理;所述参数修正模块用于记录极端天气,并进行模型参数调整;所述评估监管模块用于评估区域空气环境质量,并进行监管重污染企业;
所述社交网络平台服务器的输出端与所述数据分析模块的输入端相连接;所述数据分析模块的输出端与所述数据处理模块的输入端相连接;所述数据处理模块的输出端与所述参数修正模块的输入端相连接;所述参数修正模块的输出端与所述评估监管模块、数据处理模块的输入端相连接。
根据上述技术方案,所述社交网络平台服务器包括社交网络数据获取单元、社交网络数据存储单元;
所述社交网络数据获取单元用于获取用户的社交网络平台数据;所述社交网络数据存储单元用于存储用户的社交网络平台数据;
所述社交网络数据获取单元的输出端与所述社交网络数据存储单元的输入端相连接;所述社交网络数据存储单元的输出端与所述数据分析模块的输入端相连接。
根据上述技术方案,所述数据分析模块包括关键词确认单元、分类提取单元;
所述关键词确认单元用于确认第一关键词,即有关于空气环境的关键词;所述分类提取单元用于根据第一关键词进行分类提取出社交网络数据,并传输至数据处理模块;
所述关键词确认单元的输出端与所述分类提取单元的输入端相连接;所述分类提取单元的输出端与所述数据处理模块的输入端相连接。
根据上述技术方案,所述数据处理模块包括文本分割单元、权重选择单元、评价确认单元;
所述文本分割单元用于对数据分析模块中得到的社交网络数据进行进一步的文本分割,利用标点符号进行不断分割;所述权重选择单元用于计算每一个关键词节点的权重;所述评价确认单元用于确认数据分析模块中选择的社交网络数据为评价空气环境质量的数据;
所述文本分割单元的输出端与所述权重选择单元的输入端相连接;所述权重选择单元的输出端与所述评价确认单元的输入端相连接。
根据上述技术方案,所述参数修正模块包括获取单元、修正单元;
所述获取单元用于获取最近时间内地理位置区域内极端天气、出行假日、工业发展的信息数据情况;所述修正单元用于根据信息数据情况进行修正参数值;
所述获取单元的输出端与所述修正单元的输入端相连接;所述修正单元的输出端与所述数据处理模块的输入单相连接。
根据上述技术方案,所述评估监管模块包括评估单元、监管单元;
所述评估单元用于对区域空气环境质量进行评估,并给出区域空气环境质量值;所述监管单元在区域空气环境质量值低于一定阈值的情况下,对重污染企业进行监管;
所述评估单元的输出端与所述监管单元的输入端相连接。
一种基于大数据的区域空气环境质量监测方法,该方法包括以下步骤:
S1、获取社交网络平台服务器的管理权,调取社交网络数据,进行关键字提取;
S2、基于关键字进行进一步识别,获取对应的时间以及地理位置区域,并记录在数据库;
S3、获取极端天气、出行假日、工业发展的信息数据情况,对模型进行参数修正;
S4、监管部门进行评估区域下空气环境质量,并对重污染企业进行监管与处罚。
根据上述技术方案,在步骤S1中,对关键字进行提取包括以下步骤:
S8-1、对社交网络平台服务器中的社交网络数据进行获取,并设置与空气环境质量相关的关键词,分别记为[A1、A2、A3、……、An];
S8-2、从获取的社交网络平台服务器中的社交网络数据中对应步骤S1中设置的关键词,将带有关键词关联句组提取出来,所述句组以句号为分界线,分别记为文本[I1、I2、I3、……、IJ];
S8-3、对所有的文本[I1、I2、I3、……、IJ]进行标记,分别在其后缀带有时间及地理位置区域,并进行分析;
根据上述技术方案,在步骤S2中,基于关键字进行进一步识别包括以下步骤:
S9-1、获取步骤S8-3的标记后的文本[I1、I2、I3、……、IJ],对每个文本按照标点进行分割,即任意标点即为一道分界线,分割后记为:
Im=S1+S2+S3+……+SK
其中,Im为任一标记后的文本,S1、S2、S3、……、SK分别为文本Im分割的每一段落;
S9-2、对文本Im的所有段落进行词性标注处理,并去除停用词,则每个段落生成:
SK=T1+T2+T3+……+Ta
其中,SK指文本Im中的任一段落,T1+T2+T3+……+Ta为段落SK中的候选关键词;
S9-3、获取步骤S9-2中的候选关键词,建立节点集V,每个候选关键词作为一个节点存在,采用共现关系构造任意两个节点Ti、Tj之间的边,两个节点之间存在边即它们在长度为h的窗口中共现,h表示窗口大小,即最多共现h个关键词。
S9-4、根据公式:
Figure BDA0003214177450000051
其中,w(Ti)为节点Ti的权重,d为阻尼系数,为0.85;In(Ti)为节点Ti的前驱结点集合,Out(Ti)节点Ti的后继结点集合,wji为节点i与节点j之间的相似度,w(Tj)为节点Tj的权重,Th为窗口内任一节点;
在这一步骤下,权重即代表节点的重要性,利用两个节点之间的关联性,以及在窗口内前驱结点与后继节点进行计算当前节点的权重,并设置阻尼系数,进行进一步计算,提高精度,从而迭代传播各节点的权重,直到收敛为止;
S9-5、对节点权重进行倒序排列,选取F个作为最佳词汇,对最佳词汇进行甄别,根据公式:Q=C/F;
其中,Q为保留概率,C为最佳词汇中能够表达空气环境质量的词汇;
S9-6、设置阈值Qmax,若Q能够超出Qmax,则选取其对应的原始社交网络数据存储至数据库。
在本步骤中,主要是对于关键词提取的数据进行进一步拆分,例如,在设置了关键词“天气”后,提取的社交网络数据中可能会出现“今天气死我了”这样的无关数据,因此利用切分段落,多次迭代计算权重后进行确认其属于描述空气环境质量的数据,可以进一步净化数据库,减少无关数据,从而达到增加精度的目的。
根据上述技术方案,在步骤S3-S4中,对模型进行修正以及评估监管包括以下步骤:
S10-1、调取S9-6中的数据库数据,进行地理位置区域划分,对同一地理位置区域内取数据L条进行评估;
S10-2、对L条数据进行分析,根据程度副词关键词的分析,进行判断社交网络平台对于空气环境的评价信息,所述程度副词关键词包括但不限于很好、晴朗、大风、灰尘;
S10-3、根据公式计算区域空气环境质量值:
Figure BDA0003214177450000061
其中,U为区域空气环境质量值,y1、y2、y3为参数系数值,L为带有优质程度副词的数据;
并同时设置阈值Umin,若U低于Umin则相关部门需要对重污染企业进行监管;
所述优质程度副词包括但不限于很好、晴朗;
S10-4、获取地理位置区域内极端天气、出行假日、工业发展的信息数据情况,若在时间B内存在上述信息数据情况任一种,则对参数取相应的常数值为y1=g1;y2=g2;y3=g3;对在时间B内不存在上述信息数据情况的,其对应的参数值取1。
设置多重参数进行一段时间的分析,从而提高模型的拟合程度,提高检测精度,在信息不存在的情况下,则设置其为常数1。
与现有技术相比,本发明所达到的有益效果是:
本发明能够根据社交网络平台的社交网络数据进行判断区域空气环境的质量,能够更真实地反映人民生活中对于环境的评价,首先设置关键词对社交网络数据进行提取,然后在提取到的社交网络数据中进行进一步分析,去除掉存在设置的关键词却并不是表达空气环境质量的数据,使整个数据内容更加纯净,便于分析,同时也可以加深评估精度,还设置了相关参数用来平衡模型效果,多方考虑空气质量的影响因素,同时在不满于阈值时提醒监管部门对重污染企业进行监管。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种基于大数据的区域空气环境质量监测系统的流程示意图;
图2是本发明一种基于大数据的区域空气环境质量监测方法的步骤示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明提供技术方案:
一种基于大数据的区域空气环境质量监测系统,该系统包括社交网络平台服务器、数据分析模块、数据处理模块、参数修正模块、评估监管模块;
所述社交网络平台服务器用于获取社交网络数据,作为数据库支撑;所述数据分析模块用于提取关键字,选出对于空气环境的评价数据;所述数据处理模块用于确定时间及地理位置,并对数据进行处理;所述参数修正模块用于记录极端天气,并进行模型参数调整;所述评估监管模块用于评估区域空气环境质量,并进行监管重污染企业;
所述社交网络平台服务器的输出端与所述数据分析模块的输入端相连接;所述数据分析模块的输出端与所述数据处理模块的输入端相连接;所述数据处理模块的输出端与所述参数修正模块的输入端相连接;所述参数修正模块的输出端与所述评估监管模块、数据处理模块的输入端相连接。
所述社交网络平台服务器包括社交网络数据获取单元、社交网络数据存储单元;
所述社交网络数据获取单元用于获取用户的社交网络平台数据;所述社交网络数据存储单元用于存储用户的社交网络平台数据;
所述社交网络数据获取单元的输出端与所述社交网络数据存储单元的输入端相连接;所述社交网络数据存储单元的输出端与所述数据分析模块的输入端相连接。
所述数据分析模块包括关键词确认单元、分类提取单元;
所述关键词确认单元用于确认第一关键词,即有关于空气环境的关键词;所述分类提取单元用于根据第一关键词进行分类提取出社交网络数据,并传输至数据处理模块;
所述关键词确认单元的输出端与所述分类提取单元的输入端相连接;所述分类提取单元的输出端与所述数据处理模块的输入端相连接。
所述数据处理模块包括文本分割单元、权重选择单元、评价确认单元;
所述文本分割单元用于对数据分析模块中得到的社交网络数据进行进一步的文本分割,利用标点符号进行不断分割;所述权重选择单元用于计算每一个关键词节点的权重;所述评价确认单元用于确认数据分析模块中选择的社交网络数据为评价空气环境质量的数据;
所述文本分割单元的输出端与所述权重选择单元的输入端相连接;所述权重选择单元的输出端与所述评价确认单元的输入端相连接。
所述参数修正模块包括获取单元、修正单元;
所述获取单元用于获取最近时间内地理位置区域内极端天气、出行假日、工业发展的信息数据情况;所述修正单元用于根据信息数据情况进行修正参数值;
所述获取单元的输出端与所述修正单元的输入端相连接;所述修正单元的输出端与所述数据处理模块的输入单相连接。
所述评估监管模块包括评估单元、监管单元;
所述评估单元用于对区域空气环境质量进行评估,并给出区域空气环境质量值;所述监管单元在区域空气环境质量值低于一定阈值的情况下,对重污染企业进行监管;
所述评估单元的输出端与所述监管单元的输入端相连接。
一种基于大数据的区域空气环境质量监测方法,该方法包括以下步骤:
S1、获取社交网络平台服务器的管理权,调取社交网络数据,进行关键字提取;
S2、基于关键字进行进一步识别,获取对应的时间以及地理位置区域,并记录在数据库;
S3、获取极端天气、出行假日、工业发展的信息数据情况,对模型进行参数修正;
S4、监管部门进行评估区域下空气环境质量,并对重污染企业进行监管与处罚。
在步骤S1中,对关键字进行提取包括以下步骤:
S8-1、对社交网络平台服务器中的社交网络数据进行获取,并设置与空气环境质量相关的关键词,分别记为[A1、A2、A3、……、An];
S8-2、从获取的社交网络平台服务器中的社交网络数据中对应步骤S1中设置的关键词,将带有关键词关联句组提取出来,所述句组以句号为分界线,分别记为文本[I1、I2、I3、……、IJ];
S8-3、对所有的文本[I1、I2、I3、……、IJ]进行标记,分别在其后缀带有时间及地理位置区域,并进行分析;
在步骤S2中,基于关键字进行进一步识别包括以下步骤:
S9-1、获取步骤S8-3的标记后的文本[I1、I2、I3、……、IJ],对每个文本按照标点进行分割,即任意标点即为一道分界线,分割后记为:
Im=S1+S2+S3+……+SK
其中,Im为任一标记后的文本,S1、S2、S3、……、SK分别为文本Im分割的每一段落;
S9-2、对文本Im的所有段落进行词性标注处理,并去除停用词,则每个段落生成:
SK=T1+T2+T3+……+Ta
其中,SK指文本Im中的任一段落,T1+T2+T3+……+Ta为段落SK中的候选关键词;
S9-3、获取步骤S9-2中的候选关键词,建立节点集V,每个候选关键词作为一个节点存在,采用共现关系构造任意两个节点Ti、Tj之间的边,两个节点之间存在边即它们在长度为h的窗口中共现,h表示窗口大小,即最多共现h个关键词。
S9-4、根据公式:
Figure BDA0003214177450000101
其中,w(Ti)为节点Ti的权重,d为阻尼系数,为0.85;In(Ti)为节点Ti的前驱结点集合,Out(Ti)节点Ti的后继结点集合,wji为节点i与节点j之间的相似度,w(Tj)为节点Tj的权重,Th为窗口内任一节点;
迭代传播各节点的权重,直到收敛为止;
S9-5、对节点权重进行倒序排列,选取F个作为最佳词汇,对最佳词汇进行甄别,根据公式:Q=C/F;
其中,Q为保留概率,C为最佳词汇中能够表达空气环境质量的词汇;
S9-6、设置阈值Qmax,若Q能够超出Qmax,则选取其对应的原始社交网络数据存储至数据库。
在步骤S3-S4中,对模型进行修正以及评估监管包括以下步骤:
S10-1、调取S9-6中的数据库数据,进行地理位置区域划分,对同一地理位置区域内取数据L条进行评估;
S10-2、对L条数据进行分析,根据程度副词关键词的分析,进行判断社交网络平台对于空气环境的评价信息,所述程度副词关键词包括但不限于很好、晴朗、大风、灰尘;
S10-3、根据公式计算区域空气环境质量值:
Figure BDA0003214177450000111
其中,U为区域空气环境质量值,y1、y2、y3为参数系数值,L为带有优质程度副词的数据;
并同时设置阈值Umin,若U低于Umin则相关部门需要对重污染企业进行监管;
所述优质程度副词包括但不限于很好、晴朗;
S10-4、获取地理位置区域内极端天气、出行假日、工业发展的信息数据情况,若在时间B内存在上述信息数据情况任一种,则对参数取相应的常数值为y1=g1;y2=g2;y3=g3;对在时间B内不存在上述信息数据情况的,其对应的参数值取1。
在本实施例中:
相关部门取用微信朋友圈作为社交网络数据;
对微信朋友圈的相关数据资源进行获取,并设置与空气环境质量相关的关键词,分别为天气、空气;
从获取的社交网络平台服务器中的社交网络数据中对应步骤S1中设置的关键词,将带有关键词关联句组提取出来,所述句组以句号为分界线,分别记为文本[I1、I2、I3、……、IJ];
对所有的文本[I1、I2、I3、……、IJ]进行标记,分别在其后缀带有时间及地理位置区域,并进行分析;
对每个文本按照标点进行分割,即任意标点即为一道分界线,分割后记为:
Im=S1+S2+S3+……+SK
其中,Im为任一标记后的文本,S1、S2、S3、……、SK分别为文本Im分割的每一段落;
例如,任一文本Im为“今天的天气可真好,阳光明媚,大家快出来玩。”;则其存在“天气”,因此被提取出来,直至句号。
对其进行分割段落后为:今天的天气可真好、阳光明媚、大家快出来玩;
对文本Im的所有段落进行词性标注处理,并去除停用词,则每个段落生成:
SK=T1+T2+T3+……+Ta
其中,SK指文本Im中的任一段落,T1+T2+T3+……+Ta为段落SK中的候选关键词;
例如,对其中“今天的天气可真好”这一段落进行处理后,为“今天”、“天气”、“可”、“真好”;其中停用词“的”被删除;其他作为候选关键词进入下一步骤;
获取候选关键词,建立节点集V,每个候选关键词作为一个节点存在,采用共现关系构造任意两个节点Ti、Tj之间的边,两个节点之间存在边即它们在长度为h的窗口中共现,h表示窗口大小,即最多共现h个关键词。
根据公式:
Figure BDA0003214177450000131
其中,w(Ti)为节点Ti的权重,d为阻尼系数,为0.85;In(Ti)为节点Ti的前驱结点集合,Out(Ti)节点Ti的后继结点集合,wji为节点i与节点j之间的相似度,w(Tj)为节点Tj的权重,Th为窗口内任一节点;
迭代传播各节点的权重,直到收敛为止;
例如,最后取到的节点为“天气”、“真好”;
对节点权重进行倒序排列,选取F个作为最佳词汇,对最佳词汇进行甄别,根据公式:Q=C/F;
其中,Q为保留概率,C为最佳词汇中能够表达空气环境质量的词汇;
保留概率Q=1/2;
设置阈值Qmax为25%,因为Q能够超出Qmax,则选取其对应的原始社交网络数据存储至数据库。
即选取“今天的天气可真好,阳光明媚,大家快出来玩。”这一数据进入数据库;
进行地理位置区域划分,对同一地理位置区域内取数据L条进行评估;其中L=100,L中存在这一数据“今天的天气可真好,阳光明媚,大家快出来玩。”
对L条数据进行分析,根据程度副词关键词的分析,进行判断社交网络平台对于空气环境的评价信息,所述程度副词关键词包括“真好”;
根据公式计算区域空气环境质量值:
Figure BDA0003214177450000141
其中,U为区域空气环境质量值,y1、y2、y3为参数系数值,L为带有优质程度副词的数据;L为80条,所述优质程度副词关键词包括“真好”;
设置y1、y2、y3分别为0.5、1.2、0.8;
U=0.5*1.2*0.8=0.384
并同时设置阈值Umin为0.01,因为0.384大于0.01,因此,暂不需要相关部门需要对重污染企业进行监管;
获取地理位置区域内极端天气、出行假日、工业发展的信息数据情况,发现在一段时间B内不存在上述信息数据情况任一种,因此不对参数做出改变。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于大数据的区域空气环境质量监测系统,其特征在于:该系统包括社交网络平台服务器、数据分析模块、数据处理模块、参数修正模块、评估监管模块;
所述社交网络平台服务器用于获取社交网络数据,作为语料库支撑;所述数据分析模块用于提取关键字,选出对于空气环境的评价数据;所述数据处理模块用于确定时间及地理位置,并对数据进行处理;所述参数修正模块用于记录极端天气,并进行模型参数调整;所述评估监管模块用于评估区域空气环境质量,并进行监管重污染企业;
所述社交网络平台服务器的输出端与所述数据分析模块的输入端相连接;所述数据分析模块的输出端与所述数据处理模块的输入端相连接;所述数据处理模块的输出端与所述参数修正模块的输入端相连接;所述参数修正模块的输出端与所述评估监管模块、数据处理模块的输入端相连接。
2.根据权利要求1所述的一种基于大数据的区域空气环境质量监测系统,其特征在于:所述社交网络平台服务器包括社交网络数据获取单元、社交网络数据存储单元;
所述社交网络数据获取单元用于获取用户的社交网络平台数据;所述社交网络数据存储单元用于存储用户的社交网络平台数据;
所述社交网络数据获取单元的输出端与所述社交网络数据存储单元的输入端相连接;所述社交网络数据存储单元的输出端与所述数据分析模块的输入端相连接。
3.根据权利要求1所述的一种基于大数据的区域空气环境质量监测系统,其特征在于:所述数据分析模块包括关键词确认单元、分类提取单元;
所述关键词确认单元用于确认第一关键词,即有关于空气环境的关键词;所述分类提取单元用于根据第一关键词进行分类提取出社交网络数据,并传输至数据处理模块;
所述关键词确认单元的输出端与所述分类提取单元的输入端相连接;所述分类提取单元的输出端与所述数据处理模块的输入端相连接。
4.根据权利要求1所述的一种基于大数据的区域空气环境质量监测系统,其特征在于:所述数据处理模块包括文本分割单元、权重选择单元、评价确认单元;
所述文本分割单元用于对数据分析模块中得到的社交网络数据进行进一步的文本分割,利用标点符号进行不断分割;所述权重选择单元用于计算每一个关键词节点的权重;所述评价确认单元用于确认数据分析模块中选择的社交网络数据为评价空气环境质量的数据;
所述文本分割单元的输出端与所述权重选择单元的输入端相连接;所述权重选择单元的输出端与所述评价确认单元的输入端相连接。
5.根据权利要求1所述的一种基于大数据的区域空气环境质量监测系统,其特征在于:所述参数修正模块包括获取单元、修正单元;
所述获取单元用于获取最近时间内地理位置区域内极端天气、出行假日、工业发展的信息数据情况;所述修正单元用于根据信息数据情况进行修正参数值;
所述获取单元的输出端与所述修正单元的输入端相连接;所述修正单元的输出端与所述数据处理模块的输入单相连接。
6.根据权利要求1所述的一种基于大数据的区域空气环境质量监测系统,其特征在于:所述评估监管模块包括评估单元、监管单元;
所述评估单元用于对区域空气环境质量进行评估,并给出区域空气环境质量值;所述监管单元在区域空气环境质量值低于一定阈值的情况下,对重污染企业进行监管;
所述评估单元的输出端与所述监管单元的输入端相连接。
7.一种基于大数据的区域空气环境质量监测方法,其特征在于:该方法包括以下步骤:
S1、获取社交网络平台服务器的管理权,调取社交网络数据,进行关键字提取;
S2、基于关键字进行进一步识别,获取对应的时间以及地理位置区域,并记录在数据库;
S3、获取极端天气、出行假日、工业发展的信息数据情况,对模型进行参数修正;
S4、监管部门进行评估区域下空气环境质量,并对重污染企业进行监管与处罚。
8.根据权利要求7所述的一种基于大数据的区域空气环境质量监测方法,其特征在于:在步骤S1中,对关键字进行提取包括以下步骤:
S8-1、对社交网络平台服务器中的社交网络数据进行获取,并设置与空气环境质量相关的关键词,分别记为[A1、A2、A3、……、An];
S8-2、从获取的社交网络平台服务器中的社交网络数据中对应步骤S1中设置的关键词,将带有关键词关联句组提取出来,所述句组以句号为分界线,分别记为文本[I1、I2、I3、……、IJ];
S8-3、对所有的文本[I1、I2、I3、……、IJ]进行标记,分别在其后缀带有时间及地理位置区域,并进行分析。
9.根据权利要求8所述的一种基于大数据的区域空气环境质量监测方法,其特征在于:在步骤S2中,基于关键字进行进一步识别包括以下步骤:
S9-1、获取步骤S8-3的标记后的文本[I1、I2、I3、……、IJ],对每个文本按照标点进行分割,即任意标点即为一道分界线,分割后记为:
Im=S1+S2+S3+……+SK
其中,Im为任一标记后的文本,S1、S2、S3、……、SK分别为文本Im分割的每一段落;
S9-2、对文本Im的所有段落进行词性标注处理,并去除停用词,则每个段落生成:
SK=T1+T2+T3+……+Ta
其中,SK指文本Im中的任一段落,T1+T2+T3+……+Ta为段落SK中的候选关键词;
S9-3、获取步骤S9-2中的候选关键词,建立节点集V,每个候选关键词作为一个节点存在,采用共现关系构造任意两个节点Ti、Tj之间的边,两个节点之间存在边即它们在长度为h的窗口中共现,h表示窗口大小,即最多共现h个关键词。
S9-4、根据公式:
Figure FDA0003214177440000041
其中,w(Ti)为节点Ti的权重,d为阻尼系数,为0.85;In(Ti)为节点Ti的前驱结点集合,Out(Ti)节点Ti的后继结点集合,wji为节点i与节点j之间的相似度,w(Tj)为节点Tj的权重,Th为窗口内任一节点;
迭代传播各节点的权重,直到收敛为止;
S9-5、对节点权重进行倒序排列,选取F个作为最佳词汇,对最佳词汇进行甄别,根据公式:Q=C/F;
其中,Q为保留概率,C为最佳词汇中能够表达空气环境质量的词汇;
S9-6、设置阈值Qmax,若Q能够超出Qmax,则选取其对应的原始社交网络数据存储至数据库。
10.根据权利要求9所述的一种基于大数据的区域空气环境质量监测方法,其特征在于:在步骤S3-S4中,对模型进行修正以及评估监管包括以下步骤:
S10-1、调取S9-6中的数据库数据,进行地理位置区域划分,对同一地理位置区域内取数据L条进行评估;
S10-2、对L条数据进行分析,根据程度副词关键词的分析,进行判断社交网络平台对于空气环境的评价信息,所述程度副词关键词包括但不限于很好、晴朗、大风、灰尘;
S10-3、根据公式计算区域空气环境质量值:
Figure FDA0003214177440000051
其中,U为区域空气环境质量值,y1、y2、y3为参数系数值,L为带有优质程度副词的数据;
并同时设置阈值Umin,若U低于Umin则相关部门需要对重污染企业进行监管;
所述优质程度副词包括但不限于很好、晴朗;
S10-4、获取地理位置区域内极端天气、出行假日、工业发展的信息数据情况,若在时间B内存在上述信息数据情况任一种,则对参数取相应的常数值为y1=g1;y2=g2;y3=g3;对在时间B内不存在上述信息数据情况的,其对应的参数值取1,其中B为监测规定时间。
CN202110938806.5A 2021-08-16 2021-08-16 一种基于大数据的区域空气环境质量监测系统及方法 Active CN113641918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110938806.5A CN113641918B (zh) 2021-08-16 2021-08-16 一种基于大数据的区域空气环境质量监测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110938806.5A CN113641918B (zh) 2021-08-16 2021-08-16 一种基于大数据的区域空气环境质量监测系统及方法

Publications (2)

Publication Number Publication Date
CN113641918A true CN113641918A (zh) 2021-11-12
CN113641918B CN113641918B (zh) 2022-07-19

Family

ID=78422125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110938806.5A Active CN113641918B (zh) 2021-08-16 2021-08-16 一种基于大数据的区域空气环境质量监测系统及方法

Country Status (1)

Country Link
CN (1) CN113641918B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116818685A (zh) * 2023-08-28 2023-09-29 福建榕基软件股份有限公司 一种基于大数据的环境监测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473217A (zh) * 2012-06-08 2013-12-25 华为技术有限公司 从文本中抽取关键词的方法和装置
CN105740229A (zh) * 2016-01-26 2016-07-06 中国人民解放军国防科学技术大学 关键词提取的方法及装置
CN105893352A (zh) * 2016-04-15 2016-08-24 苏州爱诺信信息科技有限公司 一种基于社交网络大数据的空气质量预警和监测分析系统
US20180306762A1 (en) * 2017-04-24 2018-10-25 International Business Machines Corporation Automatic siting for air quality monitoring stations
US20180326811A1 (en) * 2017-05-15 2018-11-15 Toyota Motor Engineering & Manufacturing North America, Inc. Automatic air quality monitoring and improvement systems
CN112766549A (zh) * 2021-01-07 2021-05-07 清华大学 一种空气污染物浓度预报方法、装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473217A (zh) * 2012-06-08 2013-12-25 华为技术有限公司 从文本中抽取关键词的方法和装置
CN105740229A (zh) * 2016-01-26 2016-07-06 中国人民解放军国防科学技术大学 关键词提取的方法及装置
CN105893352A (zh) * 2016-04-15 2016-08-24 苏州爱诺信信息科技有限公司 一种基于社交网络大数据的空气质量预警和监测分析系统
US20180306762A1 (en) * 2017-04-24 2018-10-25 International Business Machines Corporation Automatic siting for air quality monitoring stations
US20180326811A1 (en) * 2017-05-15 2018-11-15 Toyota Motor Engineering & Manufacturing North America, Inc. Automatic air quality monitoring and improvement systems
CN112766549A (zh) * 2021-01-07 2021-05-07 清华大学 一种空气污染物浓度预报方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116818685A (zh) * 2023-08-28 2023-09-29 福建榕基软件股份有限公司 一种基于大数据的环境监测方法及系统
CN116818685B (zh) * 2023-08-28 2023-11-07 福建榕基软件股份有限公司 一种基于大数据的环境监测方法及系统

Also Published As

Publication number Publication date
CN113641918B (zh) 2022-07-19

Similar Documents

Publication Publication Date Title
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
US20140207786A1 (en) System and methods for computerized information governance of electronic documents
CN109165294A (zh) 一种基于贝叶斯分类的短文本分类方法
CN102937960A (zh) 突发事件热点话题的识别与评估装置和方法
CN107194617B (zh) 一种app软件工程师软技能分类系统及方法
CN102663001A (zh) 基于支持向量机的博客作者兴趣与性格自动识别方法
CN108595525A (zh) 一种律师信息处理方法和系统
CN108959395A (zh) 一种面向多源异构大数据的层次约减联合清洗方法
CN111369294B (zh) 软件造价估算方法及装置
CN113239111A (zh) 一种基于知识图谱的网络舆情可视化分析方法及系统
CN113641918B (zh) 一种基于大数据的区域空气环境质量监测系统及方法
CN110728140A (zh) 基于情感分析与主题特征的突发事件舆情演化分析方法
Siregar Application of the Naive Bayes classifier method in the sentiment analysis of Twitter user about the capital city relocation
CN115827988A (zh) 一种自媒体内容热度预测方法
CN115935073A (zh) 基于人工智能交叉验证的舆情分析方法及系统
CN117235253A (zh) 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法
CN112612895B (zh) 一种主体话题态度指数的计算方法
CN115292167A (zh) 生命周期预测模型构建方法、装置、设备及可读存储介质
CN111078882A (zh) 一种文本情感测量方法和装置
CN117271710B (zh) 一种基于大数据的教辅热点数据智能分析系统
Erfina et al. Indonesian Analysis Sentiment on Non Fungible Token (NFT)
Zhang Application of English Score Management System Based on Spark-Decision Tree Algorithm
Black Creating specialized corpora from digitized historical newspaper archives: An iterative bootstrapping approach
Liu Push method of online learning resources based on user behaviour characteristics
Virliani et al. Analysis of Name Entities in Text Using Robust Disambiguation Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant