CN111275318A - 基于大数据分析技术对环境质量进行监测的方法 - Google Patents

基于大数据分析技术对环境质量进行监测的方法 Download PDF

Info

Publication number
CN111275318A
CN111275318A CN202010056897.5A CN202010056897A CN111275318A CN 111275318 A CN111275318 A CN 111275318A CN 202010056897 A CN202010056897 A CN 202010056897A CN 111275318 A CN111275318 A CN 111275318A
Authority
CN
China
Prior art keywords
environment
environmental quality
emotion
analysis technology
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010056897.5A
Other languages
English (en)
Inventor
王志波
袁旌乘
何月顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Institute of Technology
Original Assignee
East China Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Institute of Technology filed Critical East China Institute of Technology
Priority to CN202010056897.5A priority Critical patent/CN111275318A/zh
Publication of CN111275318A publication Critical patent/CN111275318A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply

Abstract

基于大数据分析技术对环境质量进行监测的方法,包括以下步骤:S1:选择数据获取手段对社交媒体上的信息进行获取;S2:对获取的数据进行清洗和按照地区和时间段进行归类;S3:选取训练集和测试集构建高效的情感预测模型;S4:使用情感预测模型对每条数据进行关于环境的情感倾向预测,并计算出各个省份的环境质量指数。本发明中,主要通过收集社交媒体上大量关于环境问题的言论,通过构建环境质量预测模型来对与环境相关言论的情感倾向进行预测,并通过一定的公式来计算环境质量指数,用来表示各个地区不同时间段的环境质量。

Description

基于大数据分析技术对环境质量进行监测的方法
技术领域
本发明涉及大数据分析领域,尤其涉及基于大数据分析技术对环境质量进行监测的方法。
背景技术
随着中国工业经济的急剧发展和能源的加速开采,人们的生活质量得到了提升,同时也涌现出大量环境问题,这就使得环境监测工作变得十分迫切。
在互联网发展迅速的时代下,很多社交媒体如微博、百度贴吧和一些个人博客已经彻底改变了人们的生活方式,这些社交媒体每天都会传播很多信息,有新闻、广告和个人对环境的态度。根据中国互联网信息中心的报告显示,人们在互联网上花的时间越来越多,并且这种上升态势在将来还会持续。
在大数据环境下,我们意识到采用大数据分析技术来对各个省市不同时间段的发表在微博和百度贴吧上的关于环境问题具有情感倾向的大量信息进行分析,从而实现监测环境质量的效果。将我们的结果和中国科学院发表的中国宜居城市报告是非常吻合的,这说明我们的方式是可行的。根据以往的环境监测方法,大多都是采用传感器进行实地探测,有的安装在移动手机上,有的安装在车上,这些方法都在极大的程度上依赖传感器这些硬件,在时间和空间跨度问题上也有很大的局限性。
支持向量机是一种可训练的机器学习方法,在二分类问题上有很大的优势性。我们这里只需要挑选少量的关于环境的情感倾向信息,并通过目测判断这些信息的情感倾向,用这些信息来训练支持向量机模型。然后通过训练的模型来对不同地区不同时间段的大量关于环境问题的情感倾向进行预测。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出基于大数据分析技术对环境质量进行监测的方法,主要通过收集社交媒体上大量关于环境问题的言论,通过构建环境质量预测模型来对与环境相关言论的情感倾向进行预测,并通过一定的公式来计算环境质量指数,用来表示各个地区不同时间段的环境质量。
(二)技术方案
为解决上述问题,本发明提出了基于大数据分析技术对环境质量进行监测的方法,包括以下步骤:
S1:选择数据获取手段对社交媒体上的信息进行获取;
S2:对获取的数据进行清洗和按照地区和时间段进行归类;
S3:选取训练集和测试集构建高效的情感预测模型;
S4:使用情感预测模型对每条数据进行关于环境的情感倾向预测,并计算出各个省份的环境质量指数。
优选的,通过支持向量机模型实现媒体数据关于环境的情感倾向预测,以分析不同地区不同时间的环境质量。
优选的,应用于其他领域的情感倾向预测。
本发明中,主要通过收集社交媒体上大量关于环境问题的言论,通过构建环境质量预测模型来对与环境相关言论的情感倾向进行预测,并通过一定的公式来计算环境质量指数,用来表示各个地区不同时间段的环境质量。
本发明中,系统通过高效的预测性能,来分析各个地区不同时间段的情感倾向,最终通过环境质量指数计算公式来计算环境质量指数EQI,最终通过比较EQI来达到监测不同地区不同时间段的环境质量的效果。
附图说明
图1为本发明提出的基于大数据分析技术对环境质量进行监测的方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提出的基于大数据分析技术对环境质量进行监测的方法,包括以下步骤:
S1:选择数据获取手段对社交媒体上的信息进行获取;
S2:对获取的数据进行清洗和按照地区和时间段进行归类;
S3:选取训练集和测试集构建高效的情感预测模型;
S4:使用情感预测模型对每条数据进行关于环境的情感倾向预测,并计算出各个省份的环境质量指数。
在一个可选的实施例中,通过支持向量机模型实现媒体数据关于环境的情感倾向预测,以分析不同地区不同时间的环境质量。
本发明中,主要通过收集社交媒体上大量关于环境问题的言论,通过构建环境质量预测模型来对与环境相关言论的情感倾向进行预测,并通过一定的公式来计算环境质量指数,用来表示各个地区不同时间段的环境质量。
在一个可选的实施例中,应用于其他领域的情感倾向预测。
实施例:
S11:对数据的获取基于python3的爬虫技术,用来获取百度贴吧和新浪微博上的关于环境不同地区不同时间段的大量信息,用于在新浪微博中通过关键字搜索关于环境一段时间的微博信息,和在百度贴吧中通过递归爬取各个百度贴吧帖子的获取。
S12:对S11中获取到的数据进行清洗和归类。用于将与本次研究的主题环境问题不相关的文本信息进行剔除然后将这些文本转化为构建情感模型所需要的数据形式。本文主要采用文本排序算法,对所要研究的每一条微博和百度贴吧中的帖子进行环境主题排序,然后将一些与环境质量不相关或者相关度低的信息剔除,将那些相关度非常高的信息提出来用来做情感模型的训练集和预测集。将清洗出来的数据进行归类主要是按照各个省市不同时间段分开归类。
S13:将S12中预处理后的数据划分一部分作为训练集,用来对情感分析模型进行训练,构建能够判断文本对于环境质量的情感倾向的模型。本文对此次分类模型采用的是目前分类算法中比较好的支持向量机算法,训练过程只需要找到一个超平面就能实现情感倾向的预测。而在实现寻找情感倾向的超平面过程中我们使用的是SMO算法,因为每次只是做一维优化,所以每个循环中的优化过程的效率很高。
S14:采用S13中得到的情感预测模型,用来计算环境质量指数,通过分析各个地区各个时间段中大量的数据,我们使用EQI来代表环境质量指数,其计算公式如下:
Figure BDA0002369885930000041
其中,t代表时间段;c代表地区;T代表文本;E(T)代表使用情感倾向模型预测文本T的值;S(c,t)是地区c时间段t中的所有文本信息。
通过以下公式来计算环境质量指数值s:
Figure BDA0002369885930000051
其中,F(t)代表一个省份中通过情感预测模型预测的所有数据的和的复数,C代表所有省份的所有数据集;s用来表示每个省份的环境质量,s越大说明环境质量越好。
需要说明的是,系统通过高效的预测性能,来分析各个地区不同时间段的情感倾向,最终通过环境质量指数计算公式来计算环境质量指数EQI,最终通过比较EQI来达到监测不同地区不同时间段的环境质量的效果。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (3)

1.基于大数据分析技术对环境质量进行监测的方法,其特征在于,包括以下步骤:
S1:选择数据获取手段对社交媒体上的信息进行获取;
S2:对获取的数据进行清洗和按照地区和时间段进行归类;
S3:选取训练集和测试集构建高效的情感预测模型;
S4:使用情感预测模型对每条数据进行关于环境的情感倾向预测,并计算出各个省份的环境质量指数。
2.根据权利要求1所述的基于大数据分析技术对环境质量进行监测的方法,其特征在于,通过支持向量机模型实现媒体数据关于环境的情感倾向预测,以分析不同地区不同时间的环境质量。
3.根据权利要求1所述的基于大数据分析技术对环境质量进行监测的方法,其特征在于,应用于其他领域的情感倾向预测。
CN202010056897.5A 2020-01-16 2020-01-16 基于大数据分析技术对环境质量进行监测的方法 Pending CN111275318A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010056897.5A CN111275318A (zh) 2020-01-16 2020-01-16 基于大数据分析技术对环境质量进行监测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010056897.5A CN111275318A (zh) 2020-01-16 2020-01-16 基于大数据分析技术对环境质量进行监测的方法

Publications (1)

Publication Number Publication Date
CN111275318A true CN111275318A (zh) 2020-06-12

Family

ID=71001727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010056897.5A Pending CN111275318A (zh) 2020-01-16 2020-01-16 基于大数据分析技术对环境质量进行监测的方法

Country Status (1)

Country Link
CN (1) CN111275318A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893352A (zh) * 2016-04-15 2016-08-24 苏州爱诺信信息科技有限公司 一种基于社交网络大数据的空气质量预警和监测分析系统
US20170124575A1 (en) * 2015-11-03 2017-05-04 International Business Machines Corporation Analyzing sentiment in product reviews
CN106776982A (zh) * 2016-12-02 2017-05-31 深圳市唯特视科技有限公司 一种采用机器学习的社交媒体情感分析方法
CN107341518A (zh) * 2017-07-07 2017-11-10 东华理工大学 一种基于卷积神经网络的图像分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124575A1 (en) * 2015-11-03 2017-05-04 International Business Machines Corporation Analyzing sentiment in product reviews
CN105893352A (zh) * 2016-04-15 2016-08-24 苏州爱诺信信息科技有限公司 一种基于社交网络大数据的空气质量预警和监测分析系统
CN106776982A (zh) * 2016-12-02 2017-05-31 深圳市唯特视科技有限公司 一种采用机器学习的社交媒体情感分析方法
CN107341518A (zh) * 2017-07-07 2017-11-10 东华理工大学 一种基于卷积神经网络的图像分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
阿塔夫•法辛达等: "《社交媒体自然语言处理 第2版》", 中国宇航出版社 *

Similar Documents

Publication Publication Date Title
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
Aghababaei et al. Mining social media content for crime prediction
US20170200125A1 (en) Information visualization method and intelligent visual analysis system based on text curriculum vitae information
Tanwar et al. Unravelling unstructured data: A wealth of information in big data
CN108334591A (zh) 基于聚焦爬虫技术的行业分析方法及系统
CN108717408A (zh) 一种敏感词实时监控方法、电子设备、存储介质及系统
CN104809108A (zh) 信息监测分析系统
CN107895008B (zh) 基于大数据平台的情报信息热点发现方法
CN116150509B (zh) 社交媒体网络的威胁情报识别方法、系统、设备及介质
CN113537040A (zh) 一种基于半监督学习的时序行为检测方法及系统
CN111538931A (zh) 基于大数据的舆情监控方法、装置、计算机设备及介质
CN115713715A (zh) 一种基于深度学习的人体行为识别方法及识别系统
Liu et al. Detecting collusive spamming activities in community question answering
KR101575779B1 (ko) 시청자 의견의 감정 분석을 통한 프로그램 시청률 예측 방법 및 장치
Chen et al. Novelty paper recommendation using citation authority diffusion
CN111275318A (zh) 基于大数据分析技术对环境质量进行监测的方法
Aghababaei et al. Temporal topic inference for trend prediction
Wang et al. AdaNS: Adaptive negative sampling for unsupervised graph representation learning
CN104809253A (zh) 互联网数据分析系统
Hours et al. Link prediction in the twitter mention network: impacts of local structure and similarity of interest
CN109033133A (zh) 基于特征项权重增长趋势的事件检测与跟踪方法
Liu et al. HMM-based state prediction for Internet hot topic
CN113378023A (zh) 民生舆情及新闻信息挖掘比对可视化系统
Anishaa et al. Identifying similar question pairs using machine learning techniques
CN111291198A (zh) 基于大数据的经济形势指数分析方法、系统及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200612