CN111275318A - 基于大数据分析技术对环境质量进行监测的方法 - Google Patents
基于大数据分析技术对环境质量进行监测的方法 Download PDFInfo
- Publication number
- CN111275318A CN111275318A CN202010056897.5A CN202010056897A CN111275318A CN 111275318 A CN111275318 A CN 111275318A CN 202010056897 A CN202010056897 A CN 202010056897A CN 111275318 A CN111275318 A CN 111275318A
- Authority
- CN
- China
- Prior art keywords
- environment
- environmental quality
- emotion
- analysis technology
- big data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007613 environmental effect Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012544 monitoring process Methods 0.000 title claims abstract description 16
- 238000005516 engineering process Methods 0.000 title claims abstract description 14
- 238000007405 data analysis Methods 0.000 title claims abstract description 13
- 230000008451 emotion Effects 0.000 claims abstract description 19
- 230000002996 emotional effect Effects 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000004140 cleaning Methods 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
Abstract
基于大数据分析技术对环境质量进行监测的方法,包括以下步骤:S1:选择数据获取手段对社交媒体上的信息进行获取;S2:对获取的数据进行清洗和按照地区和时间段进行归类;S3:选取训练集和测试集构建高效的情感预测模型;S4:使用情感预测模型对每条数据进行关于环境的情感倾向预测,并计算出各个省份的环境质量指数。本发明中,主要通过收集社交媒体上大量关于环境问题的言论,通过构建环境质量预测模型来对与环境相关言论的情感倾向进行预测,并通过一定的公式来计算环境质量指数,用来表示各个地区不同时间段的环境质量。
Description
技术领域
本发明涉及大数据分析领域,尤其涉及基于大数据分析技术对环境质量进行监测的方法。
背景技术
随着中国工业经济的急剧发展和能源的加速开采,人们的生活质量得到了提升,同时也涌现出大量环境问题,这就使得环境监测工作变得十分迫切。
在互联网发展迅速的时代下,很多社交媒体如微博、百度贴吧和一些个人博客已经彻底改变了人们的生活方式,这些社交媒体每天都会传播很多信息,有新闻、广告和个人对环境的态度。根据中国互联网信息中心的报告显示,人们在互联网上花的时间越来越多,并且这种上升态势在将来还会持续。
在大数据环境下,我们意识到采用大数据分析技术来对各个省市不同时间段的发表在微博和百度贴吧上的关于环境问题具有情感倾向的大量信息进行分析,从而实现监测环境质量的效果。将我们的结果和中国科学院发表的中国宜居城市报告是非常吻合的,这说明我们的方式是可行的。根据以往的环境监测方法,大多都是采用传感器进行实地探测,有的安装在移动手机上,有的安装在车上,这些方法都在极大的程度上依赖传感器这些硬件,在时间和空间跨度问题上也有很大的局限性。
支持向量机是一种可训练的机器学习方法,在二分类问题上有很大的优势性。我们这里只需要挑选少量的关于环境的情感倾向信息,并通过目测判断这些信息的情感倾向,用这些信息来训练支持向量机模型。然后通过训练的模型来对不同地区不同时间段的大量关于环境问题的情感倾向进行预测。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出基于大数据分析技术对环境质量进行监测的方法,主要通过收集社交媒体上大量关于环境问题的言论,通过构建环境质量预测模型来对与环境相关言论的情感倾向进行预测,并通过一定的公式来计算环境质量指数,用来表示各个地区不同时间段的环境质量。
(二)技术方案
为解决上述问题,本发明提出了基于大数据分析技术对环境质量进行监测的方法,包括以下步骤:
S1:选择数据获取手段对社交媒体上的信息进行获取;
S2:对获取的数据进行清洗和按照地区和时间段进行归类;
S3:选取训练集和测试集构建高效的情感预测模型;
S4:使用情感预测模型对每条数据进行关于环境的情感倾向预测,并计算出各个省份的环境质量指数。
优选的,通过支持向量机模型实现媒体数据关于环境的情感倾向预测,以分析不同地区不同时间的环境质量。
优选的,应用于其他领域的情感倾向预测。
本发明中,主要通过收集社交媒体上大量关于环境问题的言论,通过构建环境质量预测模型来对与环境相关言论的情感倾向进行预测,并通过一定的公式来计算环境质量指数,用来表示各个地区不同时间段的环境质量。
本发明中,系统通过高效的预测性能,来分析各个地区不同时间段的情感倾向,最终通过环境质量指数计算公式来计算环境质量指数EQI,最终通过比较EQI来达到监测不同地区不同时间段的环境质量的效果。
附图说明
图1为本发明提出的基于大数据分析技术对环境质量进行监测的方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提出的基于大数据分析技术对环境质量进行监测的方法,包括以下步骤:
S1:选择数据获取手段对社交媒体上的信息进行获取;
S2:对获取的数据进行清洗和按照地区和时间段进行归类;
S3:选取训练集和测试集构建高效的情感预测模型;
S4:使用情感预测模型对每条数据进行关于环境的情感倾向预测,并计算出各个省份的环境质量指数。
在一个可选的实施例中,通过支持向量机模型实现媒体数据关于环境的情感倾向预测,以分析不同地区不同时间的环境质量。
本发明中,主要通过收集社交媒体上大量关于环境问题的言论,通过构建环境质量预测模型来对与环境相关言论的情感倾向进行预测,并通过一定的公式来计算环境质量指数,用来表示各个地区不同时间段的环境质量。
在一个可选的实施例中,应用于其他领域的情感倾向预测。
实施例:
S11:对数据的获取基于python3的爬虫技术,用来获取百度贴吧和新浪微博上的关于环境不同地区不同时间段的大量信息,用于在新浪微博中通过关键字搜索关于环境一段时间的微博信息,和在百度贴吧中通过递归爬取各个百度贴吧帖子的获取。
S12:对S11中获取到的数据进行清洗和归类。用于将与本次研究的主题环境问题不相关的文本信息进行剔除然后将这些文本转化为构建情感模型所需要的数据形式。本文主要采用文本排序算法,对所要研究的每一条微博和百度贴吧中的帖子进行环境主题排序,然后将一些与环境质量不相关或者相关度低的信息剔除,将那些相关度非常高的信息提出来用来做情感模型的训练集和预测集。将清洗出来的数据进行归类主要是按照各个省市不同时间段分开归类。
S13:将S12中预处理后的数据划分一部分作为训练集,用来对情感分析模型进行训练,构建能够判断文本对于环境质量的情感倾向的模型。本文对此次分类模型采用的是目前分类算法中比较好的支持向量机算法,训练过程只需要找到一个超平面就能实现情感倾向的预测。而在实现寻找情感倾向的超平面过程中我们使用的是SMO算法,因为每次只是做一维优化,所以每个循环中的优化过程的效率很高。
S14:采用S13中得到的情感预测模型,用来计算环境质量指数,通过分析各个地区各个时间段中大量的数据,我们使用EQI来代表环境质量指数,其计算公式如下:
其中,t代表时间段;c代表地区;T代表文本;E(T)代表使用情感倾向模型预测文本T的值;S(c,t)是地区c时间段t中的所有文本信息。
通过以下公式来计算环境质量指数值s:
其中,F(t)代表一个省份中通过情感预测模型预测的所有数据的和的复数,C代表所有省份的所有数据集;s用来表示每个省份的环境质量,s越大说明环境质量越好。
需要说明的是,系统通过高效的预测性能,来分析各个地区不同时间段的情感倾向,最终通过环境质量指数计算公式来计算环境质量指数EQI,最终通过比较EQI来达到监测不同地区不同时间段的环境质量的效果。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (3)
1.基于大数据分析技术对环境质量进行监测的方法,其特征在于,包括以下步骤:
S1:选择数据获取手段对社交媒体上的信息进行获取;
S2:对获取的数据进行清洗和按照地区和时间段进行归类;
S3:选取训练集和测试集构建高效的情感预测模型;
S4:使用情感预测模型对每条数据进行关于环境的情感倾向预测,并计算出各个省份的环境质量指数。
2.根据权利要求1所述的基于大数据分析技术对环境质量进行监测的方法,其特征在于,通过支持向量机模型实现媒体数据关于环境的情感倾向预测,以分析不同地区不同时间的环境质量。
3.根据权利要求1所述的基于大数据分析技术对环境质量进行监测的方法,其特征在于,应用于其他领域的情感倾向预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010056897.5A CN111275318A (zh) | 2020-01-16 | 2020-01-16 | 基于大数据分析技术对环境质量进行监测的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010056897.5A CN111275318A (zh) | 2020-01-16 | 2020-01-16 | 基于大数据分析技术对环境质量进行监测的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111275318A true CN111275318A (zh) | 2020-06-12 |
Family
ID=71001727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010056897.5A Pending CN111275318A (zh) | 2020-01-16 | 2020-01-16 | 基于大数据分析技术对环境质量进行监测的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111275318A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893352A (zh) * | 2016-04-15 | 2016-08-24 | 苏州爱诺信信息科技有限公司 | 一种基于社交网络大数据的空气质量预警和监测分析系统 |
US20170124575A1 (en) * | 2015-11-03 | 2017-05-04 | International Business Machines Corporation | Analyzing sentiment in product reviews |
CN106776982A (zh) * | 2016-12-02 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种采用机器学习的社交媒体情感分析方法 |
CN107341518A (zh) * | 2017-07-07 | 2017-11-10 | 东华理工大学 | 一种基于卷积神经网络的图像分类方法 |
-
2020
- 2020-01-16 CN CN202010056897.5A patent/CN111275318A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170124575A1 (en) * | 2015-11-03 | 2017-05-04 | International Business Machines Corporation | Analyzing sentiment in product reviews |
CN105893352A (zh) * | 2016-04-15 | 2016-08-24 | 苏州爱诺信信息科技有限公司 | 一种基于社交网络大数据的空气质量预警和监测分析系统 |
CN106776982A (zh) * | 2016-12-02 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种采用机器学习的社交媒体情感分析方法 |
CN107341518A (zh) * | 2017-07-07 | 2017-11-10 | 东华理工大学 | 一种基于卷积神经网络的图像分类方法 |
Non-Patent Citations (1)
Title |
---|
阿塔夫•法辛达等: "《社交媒体自然语言处理 第2版》", 中国宇航出版社 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
Aghababaei et al. | Mining social media content for crime prediction | |
US20170200125A1 (en) | Information visualization method and intelligent visual analysis system based on text curriculum vitae information | |
Tanwar et al. | Unravelling unstructured data: A wealth of information in big data | |
CN108334591A (zh) | 基于聚焦爬虫技术的行业分析方法及系统 | |
CN108717408A (zh) | 一种敏感词实时监控方法、电子设备、存储介质及系统 | |
CN104809108A (zh) | 信息监测分析系统 | |
CN107895008B (zh) | 基于大数据平台的情报信息热点发现方法 | |
CN116150509B (zh) | 社交媒体网络的威胁情报识别方法、系统、设备及介质 | |
CN113537040A (zh) | 一种基于半监督学习的时序行为检测方法及系统 | |
CN111538931A (zh) | 基于大数据的舆情监控方法、装置、计算机设备及介质 | |
CN115713715A (zh) | 一种基于深度学习的人体行为识别方法及识别系统 | |
Liu et al. | Detecting collusive spamming activities in community question answering | |
KR101575779B1 (ko) | 시청자 의견의 감정 분석을 통한 프로그램 시청률 예측 방법 및 장치 | |
Chen et al. | Novelty paper recommendation using citation authority diffusion | |
CN111275318A (zh) | 基于大数据分析技术对环境质量进行监测的方法 | |
Aghababaei et al. | Temporal topic inference for trend prediction | |
Wang et al. | AdaNS: Adaptive negative sampling for unsupervised graph representation learning | |
CN104809253A (zh) | 互联网数据分析系统 | |
Hours et al. | Link prediction in the twitter mention network: impacts of local structure and similarity of interest | |
CN109033133A (zh) | 基于特征项权重增长趋势的事件检测与跟踪方法 | |
Liu et al. | HMM-based state prediction for Internet hot topic | |
CN113378023A (zh) | 民生舆情及新闻信息挖掘比对可视化系统 | |
Anishaa et al. | Identifying similar question pairs using machine learning techniques | |
CN111291198A (zh) | 基于大数据的经济形势指数分析方法、系统及计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200612 |