CN115329862A - 基于dbscan和随机森林算法的半监督气体识别方法 - Google Patents
基于dbscan和随机森林算法的半监督气体识别方法 Download PDFInfo
- Publication number
- CN115329862A CN115329862A CN202210960308.5A CN202210960308A CN115329862A CN 115329862 A CN115329862 A CN 115329862A CN 202210960308 A CN202210960308 A CN 202210960308A CN 115329862 A CN115329862 A CN 115329862A
- Authority
- CN
- China
- Prior art keywords
- gas
- environment
- data
- random forest
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 60
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000002159 abnormal effect Effects 0.000 claims abstract description 40
- 230000007613 environmental effect Effects 0.000 claims abstract description 9
- 238000010801 machine learning Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 abstract description 10
- 239000007789 gas Substances 0.000 description 184
- 238000012544 monitoring process Methods 0.000 description 9
- 238000003066 decision tree Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 210000001331 nose Anatomy 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000035943 smell Effects 0.000 description 3
- 241000894007 species Species 0.000 description 3
- QGZKDVFQNNGYKY-UHFFFAOYSA-N Ammonia Chemical compound N QGZKDVFQNNGYKY-UHFFFAOYSA-N 0.000 description 2
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000002485 combustion reaction Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000009776 industrial production Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000012528 membrane Substances 0.000 description 2
- 235000019645 odor Nutrition 0.000 description 2
- 239000001301 oxygen Substances 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000013106 supervised machine learning method Methods 0.000 description 2
- 239000012855 volatile organic compound Substances 0.000 description 2
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 229910021529 ammonia Inorganic materials 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 235000019504 cigarettes Nutrition 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 229910000037 hydrogen sulfide Inorganic materials 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000008786 sensory perception of smell Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000001179 sorption measurement Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/0004—Gaseous mixtures, e.g. polluted air
- G01N33/0009—General constructional details of gas analysers, e.g. portable test equipment
- G01N33/0062—General constructional details of gas analysers, e.g. portable test equipment concerning the measuring method or the display, e.g. intermittent measurement or digital display
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/0004—Gaseous mixtures, e.g. polluted air
- G01N33/0009—General constructional details of gas analysers, e.g. portable test equipment
- G01N33/0062—General constructional details of gas analysers, e.g. portable test equipment concerning the measuring method or the display, e.g. intermittent measurement or digital display
- G01N33/0068—General constructional details of gas analysers, e.g. portable test equipment concerning the measuring method or the display, e.g. intermittent measurement or digital display using a computer specifically programmed
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Combustion & Propulsion (AREA)
- Food Science & Technology (AREA)
- Pathology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Immunology (AREA)
- Biochemistry (AREA)
- Analytical Chemistry (AREA)
- Medicinal Chemistry (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Emergency Alarm Devices (AREA)
Abstract
本发明公开了一种基于DBSCAN和随机森林算法的半监督气体识别方法:测量有机气体指标、pm2.5指标、环境温度数据,根据数据复杂度和该地点是否标记过气体类别,判定属于已知稳定或未知复杂气体环境;若为已知稳定气体环境,使用随机森林算法得到气体识别结果和已知异常气体预警;否则联合随机森林算法和DBSCAN算法进行气体分类识别,随机森林算法有标签结果中,若标签中某类气体为异常气体,把该类气体分为异常气体,DBSCAN算法无标签结果中,若某聚类数据偏离设定阈值,标记为异常气体,将两者气体分类结果通过重合度交叉验证,将有标签结果具体类别实现有标签结果和无标签结果对应,实现异常气体检测和气体分类。本发明适用于工业系统的局部复杂气体环境识别。
Description
技术领域
本发明属于工业大数据和机器学习领域,更具体的说,是涉及一种基于DBSCAN和随机森林算法的半监督气体识别方法。
背景技术
由于信息技术的迅猛发展,在安全检查、工业生产等很多的领域当中都出现了机器学习的影子。许多相关的技术都随之产生,为人类的生活带来了方便。随着制造业的迅速发展,工业系统变得越来越复杂。对气体环境变化不及时的响应可能会引发产品损失和,甚至是灾难性事故。作为确保生产效率和操作安全的有效工具,故障诊断是工业物联网特别关注的领域。近年来,随着传感技术的发展,监控系统产生了大量的工业数据,这使得数据驱动的异常气体识别成为可能。电子鼻可用来检测鉴别和分析各种各样气味的气体,其作为机器嗅觉的典型应用,已经渗入到各行各业之中,在安全检查、工业生产、环境保护、医疗诊断等领域中,气体识别系统应用尤其广泛[1-3]。文献[4]表明传统的气体识别方法基于使用各种信号处理技术提取的特征来识别不同的气体类别。气体识别系统采用一种较为复杂的时间序列信号,而文献[5]考虑到这种信号由敏感膜材料因被气体分子吸附而震动所出现。敏感膜材料、外界的环境因素、包括气体的种类和密度都会影响到这种信号的产生。文献[6]介绍了目前传感器阵列采集数据的优越性和准确度,但现有传感器阵列价格高昂,且覆盖范围较小,文献[7]说明了目前结合深度学习虽然气体识别效果好,但是结果可解释性差。
相关中国专利,申请号02111043.8“一种嗅觉模拟装置及嗅觉模拟测试方法”,申请号02111963.5“便携式智能电子鼻及其制备方法”,申请号0127299.3“电子鼻报警控制器”。由于工业环境中气体种类多、密度变化大,以上几种所述的发明用来识别工业环境中的气体有以下几个问题:(1)特征提取简单,只停留在时域范围内取特征值,有的只取稳定值,这样会浪费大量有用信息。(2)气体传感器的环境敏感度极高,工业复杂环境中的成分、温度、湿度、氧分变化剧烈,这样传感器阵列对同一气体采集的数据昼夜变化极大,更不用说冬天和夏天的差异了,甚至在不同的地点,空气环境中的氧分压不同、成分不同,也会导致数据差异,这样的数据难以进行进一步分析,致使识别结果鲁棒性差。(3)需要大量的标注数据,只能识别几种差异性大的简单气体,不适于工业环境中复杂气体的识别。
相关美国专利,专利号为:6,496,813,专利名称为:“Classifying apparatususinga combination of statistical methods and neuronal networks,designed inparticular for odourrecognition(专用于气味识别的统计方法和神经网络相结合的分类装置)”,该专利主要注重传感器数据分析方法上,所用的统计方法和神经网络数据处理结果不是很好。
电子鼻可用来检测鉴别和分析各种各样气味的气体,作为传感器阵列的一种,它识别效果好反应速度快,但缺点在于价格昂贵且识别范围相对较小。而收集气体数据特征后,文献[8]基于DL的方法面对数十种或数百种识别气体时,其识别气体性能将迅速下降。虽然深度学习(Deep Learning,DL)方法非常有效,但它们在气体识别分类中仍然存在严重问题。文献[9]说明在传统的DL方法中,不同的气体类型共享同一个用来进行特征提取和气体识别深度网络。这种设计在单种气体识别可能是有效的,但在复杂系统的气体检测中会出现问题。这是由于不同气体混合导致气体环境多样性不断增加,将导致特征空间中气体类内/类间距离不平衡问题。或者说,同种气体之间的特征距离很小并且难以区分,而不同气体之间的特征距离则存在显著差异因此可以很容易被区分。因此,在这种大数据环境中,某些气体的特征的类间距离甚至可以小于某些气体的类内距离,这可能会使学习过程偏离全局最优解。综上所述,对工业中复杂气体低成本智能识别和异常气体检测,需要考虑以下三点:(1)如何充分利用少量已标注和大量未标注的气体数据;(2)如何在增强鲁棒性的同时保证准确率;(3)由于多种气体类型在不同特征中出现类内/类间距离不平衡和局部极小问题,如何实现工业环境中复杂气体识别。以上三点都是在气体识别中难以克服的问题。
发明内容
本发明的目的是为了克服现有技术中的不足,提出了一种基于DBSCAN和随机森林算法的半监督气体识别方法,能够在标注数据较少的情况下智能地进行工业系统的异常气体识别。
本发明的目的是通过以下技术方案实现的。
本发明基于DBSCAN和随机森林算法的半监督气体识别方法,包括以下过程:
第一步:在待测地点测量一段时间内的有机气体指标、pm2.5指标、环境温度数据,建立数据库,根据数据库中数据的复杂度和该地点是否标记过气体类别,判定待测地点的气体环境属于已知稳定气体环境或未知复杂气体环境;若为已知稳定气体环境,只需要执行第二步使用随机森林算法进行处理;若为未知复杂气体环境,执行后续第二步至第四步进行处理;
第二步:使用随机森林算法,鉴别出已在数据库中的气体种类,完成对待测地点特定场景已知气体的精准识别,得到有标签分类结果,若任务标记某已知气体为异常气体,则识别该气体时标记为异常气体;
第三步:使用DBSCAN算法,完成对未知气体环境气体进行自适应无监督机器学习,通过调节间隔参数获得最佳气体种类区分,得到无标签分类结果,若有标签分类结果中某聚类数据偏离设定的阈值,则标记为异常气体;
第四步:将有标签分类结果和无标签分类结果加上各自的异常气体数据进行重合度验证,重合率高的数据归为同一类,将有标签结果的具体气体种类赋予无标签结果,标记具体气体种类后,以无标签分类结果为准,完成气体分类,同时完成异常气体预警。
第一步中若数据简单且标记过主要气体类别,则为已知稳定气体环境,若数据复杂或未标记气体类别,则为未知复杂气体环境。
与现有技术相比,本发明的技术方案所带来的有益效果是:
本发明基于DBSCAN和随机森林算法的半监督气体识别方法,该方法能够有策略且智能地进行工业系统的异常气体识别。
一方面,使用随机森林算法和DBSCAN算法将传统传感器得到的PM2.5、温度、有机气体指标等数据进行结构化分析,充分利用了时域范围的气体数据,并在复杂环境中始终保持高精确度,且能有效识别复杂气体环境成分;另一方面,由于采用传统传感器,在复杂环境中稳定性强,价格低廉且覆盖范围更大,因此使用该方法在同等水平识别能力下节省更多成本。因此,基于DBSCAN和随机森林算法的半监督气体识别方法使智能地解决大规模工业气体识别任务成为可能。
附图说明
图1为本发明基于DBSCAN和随机森林算法的半监督气体识别方法流程图;
图2为基于随机森林算法的气体检测识别结果;
图3为基于DBSCAN算法的气体检测识别结果。
具体实施方式
下面结合附图对本发明作进一步的描述。
现有的基于深度学习的方法通常通过从传感器阵列气体信息建模而直接计算出最精细的诊断结果,而忽略每个气体特征的物理属性,且需要大量的标注数据。例如,文献[10]中给定一个医院系统的气体监控数据集,根据深度学习较容易分辨出环境中气体种类数量,但是可解释性差,无法描述气体环境的具体情况,不利于分析异常气体成因。
因此,本发明通过探索和利用多种气体物理属性的多层次关系,高效准确提取特征辅助分类,以解决工业中的低成本复杂气体智能识别问题。利用传统传感器收集汇总数据提取特征,根据相关数据的复杂度和该地点是否标记过气体类别判断气体环境后,若为简单稳定环境,则只需使用随机森林算法完成后续气体分类识别,若为复杂未知环境,则联合随机森林算法和DBSCAN算法进行气体分类识别,在随机森林算法的有标签结果中,若标签中某一类气体为异常气体,则把该类气体分类为异常气体,在DBSCAN算法的无标签结果中,偏离大部分结果且不符合聚类条件的气体数据,也被标记为异常气体,随后将两者气体分类结果通过重合度交叉验证,将有标签结果的具体类别实现有标签结果和无标签结果对应,最终实现异常气体检测和气体分类。
如图1所示,本发明基于DBSCAN和随机森林算法的半监督气体识别方法,包括以下过程:
第一步:在待测地点测量一段时间内的有机气体指标、pm2.5指标、环境温度等相关数据,建立数据库,分析数据复杂度(数据分布分散或者数据波动大标记为高复杂度数据),根据数据库中数据的复杂度和该地点是否标记过气体类别,判定待测地点的气体环境属于已知稳定气体环境还是未知复杂气体环境。若数据简单且标记过主要气体类别,则为已知稳定气体环境,只需要执行第二步使用随机森林算法进行处理。若数据复杂或未标记气体类别,则为未知复杂气体环境,执行后续第二步至第四步进行处理。
在测量数据库数据时,会使用到传统的传感器,包括监测有机气体的传感器、监测PM含量的传感器、监测环境温度的传感器。监测有机气体的传感器,体积小、功耗低、使用寿命长、对低浓度有机气体有较高的检测灵敏度,可用于检测氨、硫化氢、VOC挥发气体等。监测PM含量的传感器,利用激光散射原理对悬浮颗粒物实现精准监测,最小分辨粒径为0.3μm,体积小,抗干扰能力强,支持实时响应和连续数据采集,具有零错误报警率的优点。监测环境温度的传感器,测温精度为0.5℃,测温范围为-55℃~+125℃,具有防水防潮、体积小的优点。在本发明所研究的工业场景气体智能识别任务中,以上所述的传统传感器价格低廉,作用范围广,可以在复杂环境中稳定地实时监测有机气体、PM含量、环境温度,采集的数据能给算法的分类结果提供坚实基础。
第二步:使用随机森林算法,鉴别出已在数据库中的气体种类,完成对待测地点特定场景已知气体的精准识别,得到有标签分类结果,若任务标记某已知气体为异常气体,则识别该气体时标记为异常气体。
本发明使用监督机器学习方法——随机森林算法(Random Forest)进行已知气体识别。文献[11]证明了随机森林算法在气体分类任务上有很好的表现,随机森林算法属于机器学习算法中集成学习方法,集成学习的主要思想是将多个弱分类器联合起来,得到一个在各方面表现都较好的强分类器,在部分弱分类器预测错误时可以通过其他弱分类器来纠正,因此有很好的抗噪声能力。
文献[12]说明随机森林就是通过集成学习的思想将多颗树集成的一种算法,它的基本单元是决策树(Decision Tree),每一个决策树均是一个分类器,对于1个输入样本,N棵决策树会有N个分类结果,随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出。
决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每一个分支代表一个判断结果的输出,每一个叶子节点代表一个分类结果。决策树的生成算法有ID3,C4.5,C5.0,CART等,选择CART算法,CART为分类回归树(Classification And RegressionTree),既可以用于分类问题,也可以用于回归问题,CART最终构造的是一颗二叉树,每个内部节点有两个分支,在分裂节点的时候,用基尼系数(Gini)来选择合适的特征进行分裂。
上式中,pk表示抽取第k个样本类别的概率,基尼系数Gini(D)的含义表示为从包含K个类别的数据集D中随机抽取两个样本类别不同的概率,其反映了信息的纯度,基尼系数越小,数据纯度越高,越容易分类,因此在构造决策树的过程中每个节点均选择基尼系数最小的特征进行分裂。
通过上述所述的随机森林算法可以有效地解决计算分类,在针对酒精、香烟、线缆燃烧、燃香、油烟、木材燃烧六种气体的实验中,随机森林算法气体识别准确率为93.7%,如图2所示。完成识别具体气体种类后,保留气体数据识别标签,以便后续识别分类使用,任务标记某已知气体为异常气体,则识别该气体时标记为异常气体。
第三步:使用DBSCAN算法,完成对未知气体环境气体进行自适应无监督机器学习,通过调节间隔参数获得最佳气体种类区分,得到无标签分类结果,若有标签分类结果中某聚类数据偏离设定的阈值,则标记为异常气体。
文献[13]表明在未知场景或者已知场景中均有可能出现未知种类的气体,这些气体没有通过实验采集相关的数据,无法通过有监督的机器学习方法进行识别。无监督学习方法可以从无标签的训练数据中得出结论,因此不需要提前采集需识别气体的数据,其根据数据的自身特征进行分类。
本发明中通过聚类进行气体识别。聚类是一种典型的无监督学习方法,其可以将未知类别的样本进行划分,将相似性高的样本划分为一类。常见的聚类方法分为划分式聚类方法、基于密度的聚类方法、层次化聚类方法和基于模型的聚类方法。
在气体识别中,可以使用聚类方法对未知气体进行分类,然后对分类的结果进行解释,将聚类结果和具体的气体类型联系起来。此外,通过一些聚类方法(例如DBSCAN)还可以识别特定场景中的小概率气体,实现对异常气体的检测。
DBSCAN(Density-Based Spatial Clustering ofApplications with Noise)是一个比较有代表性的基于密度的聚类算法。
文献[14]中说明了,与划分和层次聚类方法不同,DBSCAN将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。
在此,为解释DBSCAN算法做出如下定义:
Ε邻域:给定对象半径为Ε内的区域称为该对象的Ε邻域;
核心对象:如果给定对象Ε邻域内的样本点数大于等于MinPts,则称该对象为核心对象;
直接密度可达:对于样本集合D,如果样本点q在p的Ε邻域内,并且p为核心对象,那么对象q从对象p直接密度可达。
密度可达:对于样本集合D,给定一串样本点p1,p2…pn,p=p1,q=pn,假如对象pi从pi-1直接密度可达,那么对象q从对象p密度可达。
密度相连:存在样本集合D中的一点o,如果对象o到对象p和对象q都是密度可达的,那么p和q密度相联。
可以发现,密度可达是直接密度可达的传递闭包,并且这种关系是非对称的。密度相连是对称关系。DBSCAN目的是找到密度相连对象的最大集合。
DBSCAN需要二个参数:扫描半径(eps)和最小包含点数(minPts)。任选一个未被访问(unvisited)的点开始,找出与其距离在eps之内(包括eps)的所有附近点。如果附近点的数量≥minPts,则当前点与其附近点形成一个簇,并且出发点被标记为已访问(visited)。然后递归,以相同的方法处理该簇内所有未被标记为已访问(visited)的点,从而对簇进行扩展。如果附近点的数量<minPts,则该点暂时被标记作为噪声点。如果簇充分地被扩展,即簇内的所有点被标记为已访问,然后用同样的算法去处理未被访问的点。
通过DBSCAN算法,调节合适的minPts可以有效识别出在复杂气体分布中的异常危险气体,调节合适的eps可以得到正确的气体种类分布,自适应性强,鲁棒性高,准确率高。
在未知气体环境下,该算法划分出正常气体中不同气体分布,并将偏离其他种类过大的气体种类标记为异常危险气体,同时标记为不一样颜色,实现异常气体预警。效果如图3所示。
第四步:将有标签分类结果和无标签分类结果加上各自的异常气体数据进行重合度验证,两者分类结果中数据重合率最高的数据归为同一类,将有标签结果的具体气体种类赋予无标签结果,标记具体气体种类后,以无标签分类结果为准,完成气体分类,分类结果可以表格或图形的形式展示出来,同时完成异常气体预警。
综上所述本发明判断气体环境类型后,根据传统传感器数据提取特征,并作为复杂气体识别的基础。然后根据气体环境复杂程度,已知稳定气体环境仅使用随机森林算法进行识别,得到气体识别结果和已知异常气体预警,而未知复杂气体环境,则联合随机森林算法和DBSCAN算法进行气体分类识别,在随机森林算法的有标签结果中,若标签中某一类气体为异常气体,则把该类气体分类为异常气体,在DBSCAN算法的无标签结果中,偏离大部分结果且不符合聚类条件的气体数据,也被标记为异常气体,随后将两者气体分类结果通过重合度交叉验证,将有标签结果的具体类别实现有标签结果和无标签结果对应,最终实现异常气体检测和气体分类。
尽管上面结合附图对本发明的功能及工作过程进行了描述,但本发明并不局限于上述的具体功能和工作过程,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可以做出很多形式,这些均属于本发明的保护之内。
参考文献
[1]Zee,Frank,and Jack W.Judy."Micromachined polymer-based chemicalgas sensor array."Sensors andActuators B:Chemical 72.2(2001):120-128.
[2]Nylander,Claes,Bo Liedberg,and Tommy Lind."Gas detection by meansof surface plasmon resonance."Sensors andActuators 3(1982):79-88.
[3]Lu,Ganhua,Leonidas E.Ocola,and Junhong Chen."Gas detection usinglow-temperature reduced graphene oxide sheets."Applied Physics Letters 94.8(2009):083111.
[4]Khalaf,Walaa,Calogero Pace,and Manlio Gaudioso."Gas detection viamachine learning."Int.J.Comput.Electr.Autom.Control Inf.Eng 2.1(2008):61-65.
[5]Tanaka,Y.,T.Nakamoto,and T.Moriizumi."Study ofhighly sensitivesmell sensing system using gas detector tube combined with optical sensor."Sensors and Actuators B:Chemical 119.1(2006):84-88.
[6]Matz,G.,T.Hunte,and W.Schroeder."Hand-portable gas-detector array(GDA)for rapid field detection and identification of chemical threat."FieldAnalytical Chemistry&Technology 4.4(2000):195-203.
[7]Peng,Pai,et al."Gas classification using deep convolutional neuralnetworks."Sensors 18.1(2018):157.
[8]Liu,Qihe,et al."Gas recognition under sensor drift by using deeplearning."International Journal ofIntelligent Systems 30.8(2015):907-922.
[9]Wang,Syuan-He,et al."Using a hybrid deep neural network for gasclassification."IEEE Sensors Journal 21.5(2020):6401-6407.
[10]Kumar,Jambi Ratna Raja,Rahul K.Pandey,and Biplab K.Sarkar."Pollutant gases detection using the machine learning on benchmark researchdatasets."Procedia Computer Science 152(2019):360-366.
[11]Wei,Guangfen,et al."An effective gas sensor array optimizationmethod based on random forest."2018 IEEE SENSORS.IEEE,2018.
[12]Biau,Gérard,and Erwan Scornet."A random forest guided tour."Test25.2(2016):197-227.
[13]Zhang,Yulu,et al."Proposal of unsupervised gas classification bymultimode microresonator."IEEE Photonics Journal 13.2(2021):1-11.
[14]Khan,Kamran,et al."DBSCAN:Past,present and future."The fifthinternational conference on the applications of digital information and webtechnologies(ICADIWT 2014).IEEE,2014.
Claims (2)
1.一种基于DBSCAN和随机森林算法的半监督气体识别方法,其特征在于,包括以下过程:
第一步:在待测地点测量一段时间内的有机气体指标、pm2.5指标、环境温度数据,建立数据库,根据数据库中数据的复杂度和该地点是否标记过气体类别,判定待测地点的气体环境属于已知稳定气体环境或未知复杂气体环境;若为已知稳定气体环境,只需要执行第二步使用随机森林算法进行处理;若为未知复杂气体环境,执行后续第二步至第四步进行处理;
第二步:使用随机森林算法,鉴别出已在数据库中的气体种类,完成对待测地点特定场景已知气体的精准识别,得到有标签分类结果,若任务标记某已知气体为异常气体,则识别该气体时标记为异常气体;
第三步:使用DBSCAN算法,完成对未知气体环境气体进行自适应无监督机器学习,通过调节间隔参数获得最佳气体种类区分,得到无标签分类结果,若有标签分类结果中某聚类数据偏离设定的阈值,则标记为异常气体;
第四步:将有标签分类结果和无标签分类结果加上各自的异常气体数据进行重合度验证,重合率高的数据归为同一类,将有标签结果的具体气体种类赋予无标签结果,标记具体气体种类后,以无标签分类结果为准,完成气体分类,同时完成异常气体预警。
2.根据权利要求1所述的基于DBSCAN和随机森林算法的半监督气体识别方法,其特征在于,第一步中若数据简单且标记过主要气体类别,则为已知稳定气体环境,若数据复杂或未标记气体类别,则为未知复杂气体环境。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210960308.5A CN115329862A (zh) | 2022-08-11 | 2022-08-11 | 基于dbscan和随机森林算法的半监督气体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210960308.5A CN115329862A (zh) | 2022-08-11 | 2022-08-11 | 基于dbscan和随机森林算法的半监督气体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115329862A true CN115329862A (zh) | 2022-11-11 |
Family
ID=83922054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210960308.5A Pending CN115329862A (zh) | 2022-08-11 | 2022-08-11 | 基于dbscan和随机森林算法的半监督气体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115329862A (zh) |
-
2022
- 2022-08-11 CN CN202210960308.5A patent/CN115329862A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103901162B (zh) | 一种便携式车内气体检测系统及方法 | |
WO2023024463A1 (zh) | 一种水体有机污染智能化溯源方法及系统 | |
CN1453584A (zh) | 基于气体传感器阵列技术的食品气味快速无损检测方法及装置 | |
Christopoulos et al. | A machine learning approach to aerosol classification for single-particle mass spectrometry | |
CN113008559B (zh) | 基于稀疏自编码器和Softmax的轴承故障诊断方法及系统 | |
Nicolas et al. | Establishing the limit of detection and the resolution limits of odorous sources in the environment for an array of metal oxide gas sensors | |
CN103868955A (zh) | 一种便携式车内气体检测系统及方法 | |
CN115563546A (zh) | 一种气体嗅觉智能识别方法、系统、介质、设备及终端 | |
Yin et al. | Identification and classification of atmospheric particles based on SEM images using convolutional neural network with attention mechanism | |
CN109784390B (zh) | 一种人工智能嗅觉动态响应图谱气体检测识别方法 | |
CN115659195A (zh) | 一种大气污染在线识别方法 | |
CN115329862A (zh) | 基于dbscan和随机森林算法的半监督气体识别方法 | |
CN112270203A (zh) | 一种基于熵权法的风机特征优选方法 | |
WO2022241883A1 (zh) | 基于三维液相色谱指纹的污染源识别方法及装置 | |
De Stefano et al. | Evolutionary computation to implement an IoT-based system for water pollution detection | |
CN201382934Y (zh) | 一种气体探测传感装置 | |
CN115508322A (zh) | 一种水污染源多维度溯源方法及装置 | |
CN113791062A (zh) | 一种基于拉曼光谱判断固定物质类别的方法 | |
CN115392109A (zh) | 一种基于生成模型的lstm多变量时间序列异常检测方法 | |
CN114219157A (zh) | 一种基于最优决策和动态分析的烷烃气体红外光谱测量方法 | |
Litvinenko et al. | Optical addressing electronic tongue based on low selective photovoltaic transducer with nanoporous silicon layer | |
CN113033623A (zh) | 基于紫外-可见吸收光谱的污染源识别方法及系统 | |
Yin et al. | Open-set recognition for unknown organic pollutants in drinking water with three-dimensional fluorescence spectroscopy | |
CN113516162A (zh) | 一种基于OCSVM和K-means算法的工控系统流量异常检测方法与系统 | |
CN115479976A (zh) | 基于pnn神经网络的复合型气体传感器的气体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |