CN105893352A - 一种基于社交网络大数据的空气质量预警和监测分析系统 - Google Patents
一种基于社交网络大数据的空气质量预警和监测分析系统 Download PDFInfo
- Publication number
- CN105893352A CN105893352A CN201610234831.4A CN201610234831A CN105893352A CN 105893352 A CN105893352 A CN 105893352A CN 201610234831 A CN201610234831 A CN 201610234831A CN 105893352 A CN105893352 A CN 105893352A
- Authority
- CN
- China
- Prior art keywords
- air quality
- text message
- word
- data
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种空气质量预警和监测分析系统,对社交网络中的文本信息进行收集和分词,与空气质量词库进行对比分类计算,再进行信息的情绪判断,计算情感系数;通过文本的地理位置信息选定该位置范围内的空气监测站的数据作为真值,对比该位置范围内的文本信息的情感系数,建立两者之间的映射关系,达到分析和预警整个城市的空气质量的目的。本发明中公开的空气质量预警和监测分析系统采用了带有地理信息的社交网络数据,大大地降低了监测成本,并且监测覆盖面广,反应迅速,预测精确度高。
Description
技术领域
本发明涉及一种空气质量预警和监测分析系统。
背景技术
空气质量信息(如PM2.5的浓度)对控制污染和保护人们身体健康有着重要的意义,在一个城市里,通常通过有限的空气质量监测站的监测数据对空气质量进行预警和监测分析,然而,空气质量在城市空间的非线性变化取决于多种因素,如气象、交通量和土地使用等。
现有的空气质量监测分析方法包括线性法、高斯插值法、经典的扩散模型,著名分类模型如决策树和线性随机条件场(CRF),神经网络,数据来源都是空气监测站的数据。
以上监测分析系统通常只基于监测站的数据,而监测站由于其建设成本和维修成本高(约200000美元的建设费和每年30000美元的维护费),并且需要占用了不少的土地和人力资源(如北京只有22个站,占了50*50千米),使其覆盖率受到了限制,无法覆盖到城市的每个区域,并且城市空气质量的空间变化是非线性的,受多种因素影响;因此,传统的仅依赖于监测站数据的监测分析系统无法精确地反应城市各个区域的空气质量。
发明内容
本发明的目的在于克服现有技术中存在的缺陷,提供一种基于社交网络大数据的空气质量预警和监测分析系统,这种分析系统能够弥补现有的空气质量监测分析和预警方法中存在的数据覆盖面的缺陷,为空气质量监测分析系统提供更多的数据源以提供更细颗粒度的监测数据分析。
为实现上述目的,本发明的设计方案如下:
一种基于社交网络数据的空气质量预警和监测分析系统,包括以下步骤:
1、收集社交网络中监控目标在一段时间内的文本信息I,并将所收集的文本信息I按时间标记,数据形式为(I,时间戳)。
2、对所得的文本信息I进行预处理,具体为:利用中文分词系统对所有社交文本信息进行分词,如对于待测社交信息I,采用中文分词系统,获得长度大于等于2的名词、动词和名动词序列I=(I1,I2,...,Im),并且标记识别情感词、程度词和否定词。
3、判断社交文本信息是否具有地理信息,包括社交网站提供的地理信息戳和分词结果,有地理信息的进行下一步处理。
4、基于空气质量词库(词库由先期经验和专家评定产生)的分类计算,从而构建信息聚类模型:计算待测社交信息I属于空气质量类的类别值I|C,C表示空气质量相关词的集合,可表示为:C=(K1,W1;K2,W2;K3,W3;…;Ki,Wi;…),其中Ki表示C中的第i个关键词,Wi表示Ki在C中的权重,i=1,2,……,n;
设T(I)为相关阈值,若I|C≥T(I),则待测社交信息为相关数据;若I|C<T(I),则待测社交信息I为非相关数据;
5、对相关信息进行情绪因素判断,采用基于中国台湾大学情感词库NTUSD的方法,判断社交信息表现出的情绪是否消极,消极情绪是否累积与叠加,具体包括下列步骤:
(1)定义每条言论的总情感值为emotionValue,简称eV;
(2)定义一条言论中一句话的情感值为sonEmotionValue,简称sV;
(3)词语匹配,具体为:
a.匹配情感词:有一个消极词汇sV减1,有一个积极词汇sV加1,中性词sV值不变;
b.匹配否定词:有奇数个否定词sV正负号取反,有偶数个否定词sV符号不变;
c.匹配程度词:有一个程度词,sV符号不变,绝对值加1;
(4)计算eV,每条言论的总情感值eV等于言论中m句话的sV求和;
6、根据上述内容建立向量空间模型来表示每个相关信息,相关信息RI:(I,地理位置,时间戳,情感系数eV)
7、定义地理区块:将一个城市分割成区块(如为1km*1km的网格),假定空气质量在一个区块是均匀的(在不同的区块可能会有不同的结果)。每个区块g都有一个地理坐标g.loc和一个AQI(Air Quality Index,空气质量指数)标签g.Q以及相关信息的集合{g.RIi},g.Q可以被推测或者关联一个已有的空气监测站的位置,将这个空气检测站的数据作为该网格的空气质量真值。
8、将相关信息向量输入基于监测站数据的学习预测模型:将在空气监测站所在区块的相关信息作为标记数据,标记数据中随机选取90%的信息归类为训练信息样本;剩下的10%的信息归类为测试信息样本。由于对应的AQI是已知的,可通过CRF分类器监督学习建立信息数据g.RI和空气质量g.Q的映射关系g.Q=f({g.RIi})。
9、使用非标记数据代入学习预测模型得出的映射关系g.Q=f({g.RIi}),分析推断出整个城市各个地理区块的空气质量。
10、对空气质量进行预警处理。监控每一个地理区块的情感系数{g.RIi.eV},通过均值和方差按照3σ原则确定合理区间,当某一区块的瞬时变化率超过合理区间时进行预警。
本发明的优点和有益效果在于:本发明通过社交网络的大数据, 只用了很少的空气质量自动监测站和社交网络数据集推测出了细颗粒度的空气质量。传统的空气质量检测分析与预测只基于空气质量检测站的数据,比如,北京有22个站点,每天产生528个检验值,每周有3696个检验值。而社交数据如微博,在2013年第一分钟微博的发布量高达729571条。1天的社交数据可达10^8数量级。使用社交数据不需要高额成本,且对空气质量反应比较迅速,能够通过覆盖面和数据量的增加来提高空气质量预测的精确度。同时由于分析颗粒度的细化和社交数据的及时性,能够对重大空气污染及时准确的提供警示位置。
附图说明
图1为本发明的分析流程图;
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例
1、从微博和朋友圈随机获取10万条发送的微博或朋友圈文本为实例数据,每个数据都根据它的发送时间设定时间戳,同时获得该信息的地理位置信息(如签到位置等)。
2、利用中文分词系统对实例数据中的信息进行分词,对于待测社交信息I,采用中文信息预处理,获得长度大于2的名词、动词和名动词序列I=(I1,I2,...,Im)。例如:
数据1:“今天去上海世博园玩,真开心”,分词结果为“今天,上海,世博园,真开心”;
数据2:“空气真差,我都不能去跑步了,真讨厌”,签到地址: 上南路55号,分词结果为“空气,真差,不能去,跑步,真讨厌”;
数据3:“雾霾又来咯,天安门这里什么都看不到啦”,分词结果为“雾霾,又来了,天安门,这里,什么都,看不到啦”。
3、判断是否具有地理信息,包括社交网站提供的地理信息戳和分词结果,假设10万条实例数据中有5万条具有地理信息,有地理信息的进行下一步处理。在上述三条举例数据中都具有地理信息,对这三条数据进行下一步处理。
4、将5万条数据通过空气质量信息词库比对,假设5万条中有1万条为相关数据。在上述三条举例数据中,数据1归为非相关数据,数据2和3因为“空气,真差,雾霾,看不到”等分词结果归为相关数据。
5、对1万条相关信息进行情绪因素判断,例如数据2根据“真差,真讨厌”负面词存在而评分为-4分,数据3根据“什么都,看不到”评分为-3分。
6、对1万条相关信息建立向量空间模型表示每个相关信息。
相关信息RIi:(I,地理位置,时间戳,eV)
7、定义地理区块:将目标城市分割成区块(本实验为1km*1km的网格),假定空气质量在一个网格是均匀的(在不同的网格可能会有不同的结果)。每个区块g都有一个地理坐标g.loc和一个AQI标签g.Q。g.Q可以推测或者关联一个已有的空气监测站,将这个空气检测站的数据作为该网格的空气质量真值。
8、将在空气监测站所在区块的相关信息作为标记数据,假设1万条实验数据中有2000条可作为标记数据,其中随机选取90%的信息归类为训练信息样本;剩下的10%的信息归类为测试信息样本。
通过CRF分类器监督学习建立信息数据g.RI和空气质量g.Q的映 射关系g.Q=f({g.RIi}),例如映射关系为g.Q=500-2∑g.eV。
9、将剩余8000条非标记数据根据地理区块,带入学习预测模型得出的映射关系g.Q=500-2∑g.eV,分析推断出整个城市各个地理区块的空气质量。例如某区块∑g.eV为30,则该地理区块的g.Q推测为440。
10、对空气质量进行预警处理。监控每一个地理区块的情感系数变化率,通过均值和方差按照3σ原则确定合理区间,当某一区块的瞬时变化率超过合理区间时进行预警。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (3)
1.一种基于社交网络数据的空气质量预警和监测分析系统,其特征在于,包括以下步骤:
1)收集社交网络中监控目标在一段时间内的文本信息I,并将所述的文本信息I按时间标记,数据形式为(I,时间戳);
2)利用中文分词系统对所述的文本信息I进行分词,获得长度大于等于2的名词、动词和名动词序列,以及识别情感词、程度词和否定词;
3)判断所述的文本信息I是否带有地理信息,所述的地理信息包括社交网站提供的地理信息戳和步骤2)中的分词结果,对带有地理信息的所述文本信息I进行下一步处理;
4)基于空气质量词库的分类计算,对所述的文本信息I构建信息聚类模型,确定与空气质量相关的文本信息I;
5)采用NTUSD法对所述相关的文本信息I进行情绪因素判断,计算情感系数eV值;
6)建立向量空间模型来表示每个所述相关的文本信息,表示为RI:(I,地理位置,时间戳,情感系数eV)
7)定义地理区块:将一个城市分割成若干区块,每个所述的区块都有一个地理坐标g.loc、一个AQI标签g.Q和所述相关的文本信息集合{g.RIi},并且将每个所述的区块关联一个已有的空气监测站的位置,将所述的空气检测站的数据作为所述的区块的空气质量真值。
8)将所述相关的文本信息向量输入基于监测站数据的学习预测模型,将在所述的空气监测站所在区块的相关文本信息作为标记数据,所述的标记数据中随机选取90%的信息归类为训练信息样本;剩下的10%的信息归类为测试信息样本,通过CRF分类器监督学习,建立信息数据g.RI和空气质量g.Q的映射关系g.Q=f({g.RIi})。
9)使用非标记数据代入所述的学习预测模型,应用映射关系g.Q=f({g.RIi}),分析出整个城市各个地理区块的空气质量。
10)对空气质量进行预警处理,监控每一个地理区块的情感系数{g.RIi.eV},通过均值和方差按照3σ原则确定合理区间,当某一区块的瞬时变化率超过合理区间时进行预警。
2.根据权利要求1中所述的基于社交网络数据的空气质量预警和监测分析系统,其特征在于,所述的信息聚类模型构建的具体步骤为:计算所述的文本信息I属于空气质量类的类别值I|C,
C表示空气质量相关词的集合,可表示为C=(K1,W1;K2,W2;K3,W3;…;Ki,Wi;…),Ki表示C中的第i个关键词,Wi表示Ki在C中的权重,i=1,2,……,n;
设T(I)为相关阈值,若I|C≥T(I),则所述的文本信息I为相关数据;若I|C<T(I),则所述的文本信息I为非相关数据。
3.根据权利要求2中所述的基于社交网络数据的空气质量预警和监测分析系统,其特征在于,所述的情感系数eV值的计算步骤为:
1)定义所述的文本信息的情感系数为eV;
2)定义所述的文本信息中一句话的情感值为sV;
3)词语匹配:
a)匹配情感词:有一个消极词汇sV减1,有一个积极词汇sV加1,中性词sV值不变;
b)匹配否定词:有奇数个否定词sV正负号取反,有偶数个否定词sV符号不变;
c)匹配程度词:有一个程度词,sV符号不变,绝对值加1;
4)计算情感系数eV,情感系数eV等于所述的文本信息的中每句话的sV求和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610234831.4A CN105893352A (zh) | 2016-04-15 | 2016-04-15 | 一种基于社交网络大数据的空气质量预警和监测分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610234831.4A CN105893352A (zh) | 2016-04-15 | 2016-04-15 | 一种基于社交网络大数据的空气质量预警和监测分析系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105893352A true CN105893352A (zh) | 2016-08-24 |
Family
ID=56703812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610234831.4A Pending CN105893352A (zh) | 2016-04-15 | 2016-04-15 | 一种基于社交网络大数据的空气质量预警和监测分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105893352A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108120661A (zh) * | 2017-12-19 | 2018-06-05 | 北京理工大学 | 一种城市空气中颗粒物含量时空分布测定方法 |
CN111275318A (zh) * | 2020-01-16 | 2020-06-12 | 东华理工大学 | 基于大数据分析技术对环境质量进行监测的方法 |
CN112085163A (zh) * | 2020-08-26 | 2020-12-15 | 哈尔滨工程大学 | 一种基于注意力增强图卷积神经网络agc和门控循环单元gru的空气质量预测方法 |
CN113641918A (zh) * | 2021-08-16 | 2021-11-12 | 江苏云居检测技术有限公司 | 一种基于大数据的区域空气环境质量监测系统及方法 |
CN113792544A (zh) * | 2021-07-06 | 2021-12-14 | 中国地质大学(武汉) | 顾及地理空间分布的文本情感分类方法及装置 |
CN116818685A (zh) * | 2023-08-28 | 2023-09-29 | 福建榕基软件股份有限公司 | 一种基于大数据的环境监测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050186035A1 (en) * | 2003-05-22 | 2005-08-25 | Yong-Hyun Kim | Rapid-set injection system using high-speed jet fluid |
CN103176983A (zh) * | 2011-12-20 | 2013-06-26 | 中国科学院计算机网络信息中心 | 一种基于互联网信息的事件预警方法 |
CN104200103A (zh) * | 2014-09-04 | 2014-12-10 | 浙江鸿程计算机系统有限公司 | 一种基于多领域特征的城市空气质量等级预测方法 |
-
2016
- 2016-04-15 CN CN201610234831.4A patent/CN105893352A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050186035A1 (en) * | 2003-05-22 | 2005-08-25 | Yong-Hyun Kim | Rapid-set injection system using high-speed jet fluid |
CN103176983A (zh) * | 2011-12-20 | 2013-06-26 | 中国科学院计算机网络信息中心 | 一种基于互联网信息的事件预警方法 |
CN104200103A (zh) * | 2014-09-04 | 2014-12-10 | 浙江鸿程计算机系统有限公司 | 一种基于多领域特征的城市空气质量等级预测方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108120661A (zh) * | 2017-12-19 | 2018-06-05 | 北京理工大学 | 一种城市空气中颗粒物含量时空分布测定方法 |
CN111275318A (zh) * | 2020-01-16 | 2020-06-12 | 东华理工大学 | 基于大数据分析技术对环境质量进行监测的方法 |
CN112085163A (zh) * | 2020-08-26 | 2020-12-15 | 哈尔滨工程大学 | 一种基于注意力增强图卷积神经网络agc和门控循环单元gru的空气质量预测方法 |
CN113792544A (zh) * | 2021-07-06 | 2021-12-14 | 中国地质大学(武汉) | 顾及地理空间分布的文本情感分类方法及装置 |
CN113792544B (zh) * | 2021-07-06 | 2023-08-29 | 中国地质大学(武汉) | 顾及地理空间分布的文本情感分类方法及装置 |
CN113641918A (zh) * | 2021-08-16 | 2021-11-12 | 江苏云居检测技术有限公司 | 一种基于大数据的区域空气环境质量监测系统及方法 |
CN113641918B (zh) * | 2021-08-16 | 2022-07-19 | 江苏云居检测技术有限公司 | 一种基于大数据的区域空气环境质量监测系统及方法 |
CN116818685A (zh) * | 2023-08-28 | 2023-09-29 | 福建榕基软件股份有限公司 | 一种基于大数据的环境监测方法及系统 |
CN116818685B (zh) * | 2023-08-28 | 2023-11-07 | 福建榕基软件股份有限公司 | 一种基于大数据的环境监测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105893352A (zh) | 一种基于社交网络大数据的空气质量预警和监测分析系统 | |
CN106096631B (zh) | 一种基于手机大数据的流动人口分类识别分析方法 | |
CN104699818B (zh) | 一种多源异构的多属性poi融合方法 | |
CN106600960A (zh) | 基于时空聚类分析算法的交通出行起讫点识别方法 | |
CN112133090A (zh) | 一种基于手机信令数据的多方式交通分布模型构建方法 | |
CN104484993A (zh) | 用于交通小区划分的手机信令信息的处理方法 | |
CN108170793A (zh) | 基于车辆语义轨迹数据的停留点分析方法及其系统 | |
CN105493109A (zh) | 使用多个数据源的空气质量推断 | |
CN104217593B (zh) | 一种面向手机移动速度的路况信息实时获取方法 | |
Yu et al. | Extracting and predicting taxi hotspots in spatiotemporal dimensions using conditional generative adversarial neural networks | |
CN107230350A (zh) | 一种基于卡口与手机流量话单数据的城市交通量获取方法 | |
CN111524353A (zh) | 一种交通文本数据用于速度预测及行程规划方法 | |
CN109410576A (zh) | 多源数据融合的路况分析方法、装置、存储介质及系统 | |
Qin et al. | Prediction of air quality based on KNN-LSTM | |
Zhang et al. | Social media meets big urban data: A case study of urban waterlogging analysis | |
Wang et al. | Vehicle reidentification with self-adaptive time windows for real-time travel time estimation | |
Ji et al. | Research on classification and influencing factors of metro commuting patterns by combining smart card data and household travel survey data | |
CN112801181B (zh) | 城市信令交通流用户分类、预测方法、存储介质及系统 | |
CN115510056B (zh) | 一种利用手机信令数据进行宏观经济分析的数据处理系统 | |
CN109636194B (zh) | 一种输变电项目重大变动多源协同检测方法与系统 | |
Tan et al. | Statistical analysis and prediction of regional bus passenger flows | |
Chung et al. | Information extraction methodology by web scraping for smart cities | |
Huu et al. | Modeling land-use changes using logistic regression in Western Highlands of Vietnam: A case study of Lam Dong province | |
AT&T | ||
Jiang et al. | Improved F-DBSCAN for trip end identification using mobile phone data in combination with base station density |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160824 |
|
RJ01 | Rejection of invention patent application after publication |