CN116628598A - 一种基于大数据和nmf模型的二噁英来源解析方法及系统 - Google Patents
一种基于大数据和nmf模型的二噁英来源解析方法及系统 Download PDFInfo
- Publication number
- CN116628598A CN116628598A CN202310548898.5A CN202310548898A CN116628598A CN 116628598 A CN116628598 A CN 116628598A CN 202310548898 A CN202310548898 A CN 202310548898A CN 116628598 A CN116628598 A CN 116628598A
- Authority
- CN
- China
- Prior art keywords
- dioxin
- data
- source
- matrix
- nmf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- HGUFODBRKLSHSI-UHFFFAOYSA-N 2,3,7,8-tetrachloro-dibenzo-p-dioxin Chemical compound O1C2=CC(Cl)=C(Cl)C=C2OC2=C1C=C(Cl)C(Cl)=C2 HGUFODBRKLSHSI-UHFFFAOYSA-N 0.000 title claims abstract description 177
- 238000004458 analytical method Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 22
- 238000007637 random forest analysis Methods 0.000 claims abstract description 20
- 230000007613 environmental effect Effects 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 79
- 238000012549 training Methods 0.000 claims description 25
- 238000010276 construction Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000012952 Resampling Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 238000011423 initialization method Methods 0.000 claims description 5
- FOIBFBMSLDGNHL-UHFFFAOYSA-N 1,2,3,4,6,7,8,9-Octachlorodibenzo-p-dioxin Chemical compound ClC1=C(Cl)C(Cl)=C2OC3=C(Cl)C(Cl)=C(Cl)C(Cl)=C3OC2=C1Cl FOIBFBMSLDGNHL-UHFFFAOYSA-N 0.000 claims description 4
- RHIROFAGUQOFLU-UHFFFAOYSA-N 1,2,3,4,6,7,8,9-Octachlorodibenzofuran Chemical compound ClC1=C(Cl)C(Cl)=C2C3=C(Cl)C(Cl)=C(Cl)C(Cl)=C3OC2=C1Cl RHIROFAGUQOFLU-UHFFFAOYSA-N 0.000 claims description 4
- WCLNVRQZUKYVAI-UHFFFAOYSA-N 1,2,3,4,6,7,8-Heptachlorodibenzodioxin Chemical compound O1C2=C(Cl)C(Cl)=C(Cl)C(Cl)=C2OC2=C1C=C(Cl)C(Cl)=C2Cl WCLNVRQZUKYVAI-UHFFFAOYSA-N 0.000 claims description 4
- WDMKCPIVJOGHBF-UHFFFAOYSA-N 1,2,3,4,6,7,8-Heptachlorodibenzofuran Chemical compound ClC1=C(Cl)C(Cl)=C2C(C=C(C(=C3Cl)Cl)Cl)=C3OC2=C1Cl WDMKCPIVJOGHBF-UHFFFAOYSA-N 0.000 claims description 4
- VEZCTZWLJYWARH-UHFFFAOYSA-N 1,2,3,4,7,8,9-Heptachlorodibenzofuran Chemical compound O1C2=C(Cl)C(Cl)=C(Cl)C(Cl)=C2C2=C1C=C(Cl)C(Cl)=C2Cl VEZCTZWLJYWARH-UHFFFAOYSA-N 0.000 claims description 4
- LVYBAQIVPKCOEE-UHFFFAOYSA-N 1,2,3,4,7,8-Hexachlorodibenzofuran Chemical compound O1C2=C(Cl)C(Cl)=C(Cl)C(Cl)=C2C2=C1C=C(Cl)C(Cl)=C2 LVYBAQIVPKCOEE-UHFFFAOYSA-N 0.000 claims description 4
- JEYJJJXOFWNEHN-UHFFFAOYSA-N 1,2,3,6,7,8-Hexachlorodibenzofuran Chemical compound O1C2=C(Cl)C(Cl)=C(Cl)C=C2C2=C1C=C(Cl)C(Cl)=C2Cl JEYJJJXOFWNEHN-UHFFFAOYSA-N 0.000 claims description 4
- PYUSJFJVDVSXIU-UHFFFAOYSA-N 1,2,3,7,8,9-Hexachlorodibenzofuran Chemical compound O1C2=CC(Cl)=C(Cl)C(Cl)=C2C2=C1C=C(Cl)C(Cl)=C2Cl PYUSJFJVDVSXIU-UHFFFAOYSA-N 0.000 claims description 4
- SBMIVUVRFPGOEB-UHFFFAOYSA-N 1,2,3,7,8-Pentachlorodibenzofuran Chemical compound O1C2=CC(Cl)=C(Cl)C(Cl)=C2C2=C1C=C(Cl)C(Cl)=C2 SBMIVUVRFPGOEB-UHFFFAOYSA-N 0.000 claims description 4
- XTAHLACQOVXINQ-UHFFFAOYSA-N 2,3,4,6,7,8-Hexachlorodibenzofuran Chemical compound ClC1=C(Cl)C=C2C(C=C(C(=C3Cl)Cl)Cl)=C3OC2=C1Cl XTAHLACQOVXINQ-UHFFFAOYSA-N 0.000 claims description 4
- OGBQILNBLMPPDP-UHFFFAOYSA-N 2,3,4,7,8-Pentachlorodibenzofuran Chemical compound O1C2=C(Cl)C(Cl)=C(Cl)C=C2C2=C1C=C(Cl)C(Cl)=C2 OGBQILNBLMPPDP-UHFFFAOYSA-N 0.000 claims description 4
- KSMVNVHUTQZITP-UHFFFAOYSA-N 2,3,7,8-Tetrachlorodibenzofuran Chemical compound O1C2=CC(Cl)=C(Cl)C=C2C2=C1C=C(Cl)C(Cl)=C2 KSMVNVHUTQZITP-UHFFFAOYSA-N 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000013501 data transformation Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000007599 discharging Methods 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 abstract description 4
- 230000009467 reduction Effects 0.000 abstract description 4
- 238000004519 manufacturing process Methods 0.000 description 10
- 238000004056 waste incineration Methods 0.000 description 9
- 239000003344 environmental pollutant Substances 0.000 description 7
- 231100000719 pollutant Toxicity 0.000 description 7
- 238000003066 decision tree Methods 0.000 description 6
- 239000002184 metal Substances 0.000 description 6
- 229910052751 metal Inorganic materials 0.000 description 6
- 239000002957 persistent organic pollutant Substances 0.000 description 6
- 239000012080 ambient air Substances 0.000 description 5
- 239000002920 hazardous waste Substances 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 229910000831 Steel Inorganic materials 0.000 description 4
- 239000002585 base Substances 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 239000010959 steel Substances 0.000 description 4
- 231100000419 toxicity Toxicity 0.000 description 4
- 230000001988 toxicity Effects 0.000 description 4
- 239000002906 medical waste Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000004445 quantitative analysis Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 150000004945 aromatic hydrocarbons Chemical class 0.000 description 2
- 239000011324 bead Substances 0.000 description 2
- 125000001309 chloro group Chemical group Cl* 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 150000002013 dioxins Chemical class 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 238000004451 qualitative analysis Methods 0.000 description 2
- 231100001234 toxic pollutant Toxicity 0.000 description 2
- WCYYQNSQJHPVMG-UHFFFAOYSA-N 1,2,3,4,7,8-Hexachlorodibenzodioxin Chemical compound O1C2=C(Cl)C(Cl)=C(Cl)C(Cl)=C2OC2=C1C=C(Cl)C(Cl)=C2 WCYYQNSQJHPVMG-UHFFFAOYSA-N 0.000 description 1
- YCLUIPQDHHPDJJ-UHFFFAOYSA-N 1,2,3,6,7,8-Hexachlorodibenzodioxin Chemical compound O1C2=C(Cl)C(Cl)=C(Cl)C=C2OC2=C1C=C(Cl)C(Cl)=C2Cl YCLUIPQDHHPDJJ-UHFFFAOYSA-N 0.000 description 1
- LGIRBUBHIWTVCK-UHFFFAOYSA-N 1,2,3,7,8,9-Hexachlorodibenzodioxin Chemical compound O1C2=CC(Cl)=C(Cl)C(Cl)=C2OC2=C1C=C(Cl)C(Cl)=C2Cl LGIRBUBHIWTVCK-UHFFFAOYSA-N 0.000 description 1
- FSPZPQQWDODWAU-UHFFFAOYSA-N 1,2,3,7,8-Pentachlorodibenzodioxin Chemical compound O1C2=CC(Cl)=C(Cl)C(Cl)=C2OC2=C1C=C(Cl)C(Cl)=C2 FSPZPQQWDODWAU-UHFFFAOYSA-N 0.000 description 1
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 239000003513 alkali Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000711 cancerogenic effect Effects 0.000 description 1
- 231100000315 carcinogenic Toxicity 0.000 description 1
- 238000011480 coordinate descent method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 150000004827 dibenzo-1,4-dioxins Chemical class 0.000 description 1
- 150000004826 dibenzofurans Chemical class 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 231100000507 endocrine disrupting Toxicity 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 231100000518 lethal Toxicity 0.000 description 1
- 230000001665 lethal effect Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 150000002739 metals Chemical class 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 231100000219 mutagenic Toxicity 0.000 description 1
- 230000003505 mutagenic effect Effects 0.000 description 1
- 150000002926 oxygen Chemical class 0.000 description 1
- NNFCIKHAZHQZJG-UHFFFAOYSA-N potassium cyanide Chemical compound [K+].N#[C-] NNFCIKHAZHQZJG-UHFFFAOYSA-N 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 231100000205 reproductive and developmental toxicity Toxicity 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 231100000378 teratogenic Toxicity 0.000 description 1
- 230000003390 teratogenic effect Effects 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
Abstract
本发明公开了一种基于大数据和NMF模型的二噁英来源解析方法及系统,方法包括以下步骤:获取多源排放二噁英浓度数据,对原始数据进行标准化处理,利用随机森林算法构建二噁英来源识别模型;获取环境介质中二噁英浓度数据,利用NMF对环境介质中二噁英来源进行定量解析;构建判别模型,判别NMF解析出来的源是否为已知源,获得环境介质中二噁英各来源的贡献率。本发明可实现对环境中二噁英来源的精准、定量识别,获得环境介质中二噁英各排放源的贡献率,有效提高二噁英监测监管的针对性、科学性和准确性,提升环境精细化管理水平,大力推动二噁英减排控制,改善环境质量,有效解决二噁英管控难、成本高的问题。
Description
技术领域
本发明涉及有机污染物防治技术领域,具体涉及一种基于大数据和NMF模型的二噁英来源解析方法及系统。
背景技术
近年来,随着经济的高速发展,环境中二噁英的排放量呈逐年上升的趋势。根据全国主要行业持久性有机污染物调查显示,17个主要行业二噁英排放企业有万余家,涉及钢铁、再生有色金属、废弃物焚烧处置、造纸生产、氯碱工业等多个领域。
二噁英通常指具有相似结构和理化特性的一组多氯取代的平面芳烃类化合物,属氯代含氧三环芳烃类化合物,是多氯二苯并对二噁英(PCDDs)和多氯二苯并呋喃(PCDFs)的总称,由于氯原子取代数目和位置不同,构成了75种PCDDs和135种PCDFs的210种同类物,以17种2,3,7,8四个位置被氯原子取代的化合物生物毒性最强,其中又以2,3,7,8-TCDD毒性最大,其毒性相当于氰化钾的1000倍以上,是目前发现的无意识合成的副产品中毒性最强的化合物,被称为“地球上最强的毒物”。二噁英是一类具有急性致死毒性、高致癌、致畸、致突变、内分泌干扰及生殖和发育毒性的持久性有机污染物(POPs),被列入优先控制化学品名录和重点管控新污染物清单。
由于二噁英属于非故意产生的POPs,因此不能通过对其禁产和禁用来达到控制污染的目的,二噁英污染控制的关键是源头减排,但二噁英来源极其广泛,不同源排放的二噁英生成机制与排放状况差异很大,关于二噁英来源解析的研究不多,且大多数研究为定性解析,仅有的少数定量解析研究也存在一定的局限性和不确定性问题,对环境中二噁英来源的精准、定量解析研究更是严重缺乏。
现有技术中,常用的污染物源解析技术有化学质量平衡模型(CMB)、主成分分析(PCA)、正定矩阵因子分解(PMF)模型。
化学质量平衡模型(CMB)是一种在污染物源解析中广泛应用并且发展较为成熟的模型,该模型的基本原理是质量守恒,由于各个污染源的指纹谱有一定的差别,从而可以通过检测受体中各种物质的含量(组成)来确定各种污染源的贡献率。该模型存在以下缺点:1.需要污染源较完整的指纹谱图,不能解析未知源,尤其是对于环境中二噁英等持久性有毒污染物的污染源指纹谱图难以获得,且其成分复杂,如果直接应用会带来较大的误差;2.排放源的选择上存在主观性和经验性;3.对存在共线性的源解析结果较差。因此,CMB模型在应用于二噁英等持久性有毒污染物的源解析时受到一定限制。
主成分分析(PCA)是通过线性变换将多个变量转化为数量较少、两两不相关的新变量(即主成分)的一种多元统计分析方法。该技术为定性分析,无法量化给出各污染源的贡献率。
正定矩阵因子分解(PMF)模型目前常用的污染物源解析方法,它是一个多元因子分析类模型,通过将样本数据的矩阵(X)分解成因子贡献(G)和因子成分谱(F)两个矩阵,通过多线性多次迭代(ME)算法识别因子数量和因子贡献。该模型存在以下缺点:1.目前,该技术在二噁英来源解析方面的应用尚不成熟。由于二噁英组分复杂,实际应用过程中会出现某个或某几个排放源的贡献率为负值,难以解释。因此,该方法对于二噁英的来源解析存在一定的局限性;2.需要通过特定源的指纹图谱来识别潜在的排放源。由于PMF模型计算不需要测量源指纹图谱,即可对污染物来源进行解析。目前许多学者使用PMF模型进行二噁英来源解析时,大都是将PMF模型计算结果与已知的污染源的指纹谱图进行比对,如果其特征跟某个排放源特征相似,就认为来自该排放源,这种人为判别排放源的方式,存在一定的主观性和很大的不确定性。
发明内容
针对现有技术中的上述不足,本发明提供了一种基于大数据和非负矩阵分解(NMF)模型的二噁英来源解析方法及系统,采用随机森林算法构建二噁英来源识别模型,从而精准识别利用NMF模型对二噁英来源进行定量解析的结果,由此解决现有的二噁英来源解析研究中无法进行精准、定量识别的技术问题,为二噁英的排放监管、污染溯源和精细化管控等提供技术支撑,为二噁英污染防治对策的制定提供依据。
为了达到上述发明目的,本发明采用的技术方案为:
第一方面,提供一种基于大数据和NMF模型的二噁英来源解析方法,该方法包括以下步骤:
S1、获取多源排放二噁英浓度数据,进行标准化处理,得到样本数据;
S2、分析不同排放源二噁英特征的关联性,得到影响二噁英来源识别的特征变量;
S3、基于样本数据,利用随机森林算法构建二噁英来源识别模型;
S4、获取环境介质中二噁英浓度数据,利用NMF对环境介质中二噁英来源进行定量解析;
S5、构建判别模型,将NMF解析结果输入到判别模型中,得到识别出的真实数据;
S6、将真实数据输入到二噁英来源识别模型中,获得环境介质中二噁英的各个来源是否为已知来源,结合NMF源解析中的权重矩阵获得二噁英各来源的贡献率。
进一步地,步骤S2中,影响二噁英来源识别的特征变量有18个,具体为:2,3,7,8-TCDF、1,2,3,7,8-PeCDF、2,3,4,7,8-PeCDF、1,2,3,4,7,8-HxCDF、1,2,3,6,7,8-HxCDF、2,3,4,6,7,8-HxCDF、1,2,3,7,8,9-HxCDF、1,2,3,4,6,7,8-HpCDF、1,2,3,4,7,8,9-HpCDF、OCDF、2,3,7,8-TCDD、1,2,3,7,8-PeCDD、1,2,3,4,7,8-HxCDD、1,2,3,6,7,8-HxCDD、1,2,3,7,8,9-HxCDD、1,2,3,4,6,7,8-HpCDD、OCDD、PCDFs/PCDDs。
进一步地,步骤S3具体为:通过自助法重采样技术,从原始训练样本数据集N中有放回地重复随机抽取k个样本数据生成新的训练样本集合,然后根据自助样本数据集生成k个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。
进一步地,步骤S4的方法具体包括以下子步骤:
S4-1、获取环境介质中二噁英浓度数据;
S4-2、应用NMF模型将受体二噁英组分浓度矩阵因子化,分解为一个非负因子矩阵W和一个非负因子矩阵H,初始化矩阵W和矩阵H,采用非负双奇异值分解初始化方法对矩阵进行初始赋值,通过欧式距离的Frobenius范数来最小化目标函数;
S4-3、设置迭代次数上限和误差阈值,采用坐标下降算法优化算法;
S4-4、按照公式:
依次迭代矩阵W和矩阵H,当两次目标函数差小于10-4时停止迭代。
进一步地,步骤S5的方法具体包括以下子步骤:
S5-1、构建随机噪声生成器,生成随机噪声矩阵并将每条数据随机标记为0.7~1,该数据为二噁英假数据;
S5-2、将每条多源排放二噁英大数据随机标注为0~0.3,该数据为二噁英真数据;
S5-3、组合并随机打乱随机噪声矩阵和多源排放二噁英大数据;
S5-4、构建并训练判别网络,得到可以区分真实二噁英数据和随机假数据的判别模型。
第二方面,提供一种基于大数据和NMF模型的二噁英来源解析系统,其包括:
数据获取模块,用于获取多源排放二噁英大数据;
数据标准化模块,用于对获取的多源排放二噁英大数据进行标准化处理,包括数据清洗、数据变换和数据集成,得到样本数据;
分析模块,用于分析不同排放源二噁英特征的关联性,得到影响二噁英来源识别的特征变量;
识别模型构建模块,用于通过随机森林算法构建二噁英来源识别模型;
来源解析模块,用于获取环境介质中二噁英浓度数据,利用NMF对环境介质中二噁英来源进行定量解析;
判别模型构建模块,用于将NMF解析结果输入到判别模型中,得到识别出的真实数据;
来源识别模块,用于将真实数据输入到二噁英来源识别模型中,获得环境介质中二噁英的各个来源是否为已知来源,结合NMF源解析中的权重矩阵获得二噁英各来源的贡献率。
进一步地,识别模型构建模块具体为,用于通过自助法重采样技术,从原始训练样本数据集N中有放回地重复随机抽取k个样本数据生成新的训练样本集合,然后根据自助样本数据集生成k个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。
进一步地,来源解析模块包括:
数据获取子模块,用于获取环境介质中二噁英浓度数据;
赋值子模块,用于应用NMF模型将受体二噁英组分浓度矩阵因子化,分解为一个非负因子矩阵W和一个非负因子矩阵H,初始化矩阵W和矩阵H,采用非负双奇异值分解初始化方法对矩阵进行初始赋值,通过欧式距离的Frobenius范数来最小化目标函数;
迭代子模块,用于设置迭代次数上限和误差阈值,采用坐标下降算法优化算法;
按照公式:
依次迭代矩阵W和矩阵H,当两次目标函数差小于10-4时停止迭代。
进一步地,判别模型构建模块包括:
随机噪声构建子模块,用于构建随机噪声生成器,生成随机噪声矩阵并将每条数据随机标记为0.7~1,该数据为二噁英假数据;
随机标注子模块,用于将每条多源排放二噁英大数据随机标注为0~0.3,该数据为二噁英真数据;
随机组合子模块,用于组合并随机打乱随机噪声矩阵和多源排放二噁英大数据;
判别模型构建子模块,用于构建并训练判别网络,得到可以区分真实二噁英数据和随机假数据的判别模型。
第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,处理器执行计算机程序时实现二噁英来源解析方法的步骤。
本发明的有益效果为:
1.通过本发明方法或系统可获得环境介质中二噁英各排放源的贡献率,有效提高二噁英监测监管的针对性、科学性和准确性,提升环境精细化管理水平,大力推动二噁英减排控制,改善环境质量。
2.本发明方法或系统可为二噁英污染防治对策的制定提供依据,有效解决二噁英管控难、成本高的问题,减少二噁英监测的高额费用,也为企业节约运行成本。
附图说明
图1为本发明方法流程图;
图2为本发明二噁英来源识别模型权重示意图;
图3为珠三角环境空气中二噁英来源解析示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1:
参照图1,一种基于大数据和非负矩阵分解(NMF)模型的二噁英来源解析方法,该方法具体包括以下步骤:
(1)获取生活垃圾焚烧、危险废物焚烧、医疗废物焚烧、殡葬、钢铁生产和再生有色金属生产等6个典型行业近10年的排放二噁英数据。
(2)对获取的6个典型行业二噁英数据进行标准化处理,包括数据清洗、数据变换和数据集成,得到可以分析的样本数据。确定样品数量,获取数据集样本组成如表1所示:
表1数据集样本组成
行业名称 | 样本数 |
生活垃圾焚烧行业 | 210 |
危险废物焚烧行业 | 227 |
医疗废物焚烧行业 | 166 |
殡葬行业 | 206 |
钢铁生产行业 | 49 |
再生有色金属生产 | 83 |
(3)分析不同排放源二噁英特征的关联性,得到影响二噁英来源识别的18个特征变量,具体为:2,3,7,8-TCDF、1,2,3,7,8-PeCDF、2,3,4,7,8-PeCDF、1,2,3,4,7,8-HxCDF、1,2,3,6,7,8-HxCDF、2,3,4,6,7,8-HxCDF、1,2,3,7,8,9-HxCDF、1,2,3,4,6,7,8-HpCDF、1,2,3,4,7,8,9-HpCDF、OCDF、2,3,7,8-TCDD、1,2,3,7,8-PeCDD、1,2,3,4,7,8-HxCDD、1,2,3,6,7,8-HxCDD、1,2,3,7,8,9-HxCDD、1,2,3,4,6,7,8-HpCDD、OCDD、PCDFs/PCDDs。
(4)构建二噁英来源识别模型,通过自助法(bootstrap)重采样技术,从原始训练样本数据集N中有放回地重复随机抽取k个样本数据生成新的训练样本集合,然后根据自助样本数据集生成k个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定,建立的模型结果如表2所示,模型权重如图2所示。该模型准确率为74%。
表2基于随机森林的二噁英来源识别模型结果
名称 | precision | recall | f1-score | support |
生活垃圾焚烧行业 | 0.94 | 0.94 | 0.94 | 209 |
危险废物焚烧行业 | 0.93 | 0.91 | 0.92 | 232 |
医疗废物焚烧行业 | 0.96 | 0.95 | 0.95 | 167 |
殡葬行业 | 0.96 | 0.93 | 0.95 | 212 |
钢铁生产行业 | 0.9 | 1 | 0.95 | 44 |
再生有色金属生产 | 0.92 | 0.99 | 0.95 | 77 |
accuracy | / | / | 0.94 | 941 |
macro avg | 0.93 | 0.95 | 0.94 | 941 |
weighted avg | 0.94 | 0.94 | 0.94 | 941 |
具体地说,决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别,常见的决策树算法有C4.5、ID3和CART,其中CART可用于分类与回归。本发明选择CART决策树算法作为随机森林内分类树的构建方法,CART决策树通过基尼指数(公示(1))选择最优特征,同时决定该特征的最优二值切分点。基尼指数越大,样本集合不确定性越大,反之越小。
CART决策树生成:
①设结点的训练数据集为N,计算现有特征对该数据集的基尼指数。此时,对于每个特征,每次取其中一个每个可能取得值,根据样本点对该值的测试结果为”是”或”否”将N分成2部分,并计算基尼指数。
②在所有可能的特征,以及他们所有可能的切分点中,选择基尼指数最小的特征,该选择的特征为最优特征,该特征中的切分点为最优切分点,依照最优特征和最优切分点生成二叉树,并把训练数据集分配到子节点中。
③对两个子节点递归调用①、②,直至满足停止条件。
④生成CART决策树。
随机森林实现过程:
随机森林中的每一棵分类树为二叉树,生成遵循自顶向下的递归分裂原则,即从根节点开始依次对训练集进行划分;在二叉树中,根节点包含全部训练数据,按照节点纯度最小原则,分裂为左节点和右节点,它们分别包含训练数据的一个子集,按照同样的规则节点继续分裂,直到满足分支停止规则而停止生长,若节点n上的分类数据全部来自于同一类别,则此节点的纯度I(n)=0,纯度度量方法是Gini准则,即假设P(Xj)是节点n上属于Xj类样本个数占训练,具体实现过程如下:
①原始训练集为N,应用bootstrap法有放回地随机抽取k个新的自助样本集合,并由此构建k棵分类树,每次未被抽到的样本组成了k个袋外数据。
②设有mall个变量,则在每一棵树的每个节点处随机抽取mtry个变量(mtry nmall),然后在mtry中选择一个最具有分类能力的变量,变量分类的阈值通过检查每一个分类点确定。
③每棵树最大限度地生长,不做任何修剪。
④将生成的多棵分类树组成随机森林,用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定。
(5)采用非负矩阵分解(NMF)模型对二噁英来源进行定量解析。应用NMF模型将受体二噁英组分浓度矩阵因子化,分解为一个非负因子矩阵W和一个非负因子矩阵H,如公示(2)所示:
Vn×m=Wn×k·Hk×m (2)
具体实现过程如下:
①获取珠三角地区环境空气中二噁英浓度数据44个。
②初始化随机矩阵W和矩阵H。采用非负双奇异值分解(NNDSVD)初始化(更好的稀疏性)方法对矩阵进行初始赋值,通过欧式距离的Frobenius范数来最小化目标函数。
③设置迭代次数上限和误差阈值。采用坐标下降法(Coordinate Descent)优化算法。
④按照公式(1)和公示(2)依次迭代矩阵W和矩阵H,当两次目标函数差小于10-4时停止迭代。
迭代步骤:696;损失值:0.65。
(6)构建判别模型
①构建随机噪声生成器,生成随机噪声矩阵并将每条数据随机标记为0.7~1,该数据为二噁英假数据。
②将每条多源排放二噁英大数据随机标注为0~0.3,该数据为二噁英真数据。
③组合并随机打乱随机噪声矩阵和多源排放二噁英大数据。
④构建并训练判别网络,得到可以区分来真实二噁英数据和随机假数据的判别模型,准确率为85%。
(7)将(5)得出的解析结果输入到通过(6)建立的判别模型中,得出判别器识别出的真实数据,再将该真实数据输入通过(4)建立的二噁英来源识别模型中,获得环境空气中二噁英的各个来源是否为已知来源,结合NMF源解析中的权重矩阵获得二噁英各来源的贡献率。分析结果见表3~表4和图3,表3显示源1~源6分别来源危险废物焚烧行业、殡葬行业、再生有色金属生产、生活垃圾焚烧行业、危险废物焚烧行业、再生有色金属生产。
表3珠三角环境空气中二噁英来源解析结果(源矩阵)
名称 | 源1 | 源2 | 源3 | 源4 | 源5 | 源6 |
2,3,7,8-TCDF | 0 | 0 | 0.43093 | 0.01736 | 0 | 0.80475 |
1,2,3,7,8-PeCDF | 0.00586 | 0.03508 | 0.62541 | 0.03064 | 0.16447 | 0.6349 |
2,3,4,7,8-PeCDF | 0.76352 | 0.10095 | 0.22386 | 0.03733 | 0.11222 | 0.53192 |
1,2,3,4,7,8-HxCDF | 0.0592 | 0.0245 | 0.79713 | 0.06924 | 0.16347 | 0.33859 |
1,2,3,6,7,8-HxCDF | 0.70075 | 0.15569 | 0.57088 | 0.07449 | 0.1747 | 0.40533 |
2,3,4,6,7,8-HxCDF | 0.94361 | 0.1176 | 0 | 0.03399 | 0 | 0.14219 |
1,2,3,7,8,9-HxCDF | 0 | 0.04287 | 1.05131 | 0 | 0 | 0 |
1,2,3,4,6,7,8-HpCDF | 0.49983 | 0.16505 | 0.8758 | 0.10995 | 0.19352 | 0.11246 |
1,2,3,4,7,8,9-HpCDF | 0.14124 | 0.05565 | 0.97566 | 0.01946 | 0.14892 | 0.01371 |
OCDF | 0 | 0.09811 | 0.9937 | 0.08509 | 0.10952 | 0.08032 |
2,3,7,8-TCDD | 0 | 0 | 0 | 1.10518 | 0 | 0 |
1,2,3,7,8-PeCDD | 0.09407 | 0 | 0 | 0 | 0.67439 | 0.31617 |
1,2,3,4,7,8-HxCDD | 0 | 0.27812 | 0.13796 | 0 | 0.75272 | 0.02668 |
1,2,3,6,7,8-HxCDD | 0.21757 | 0.39013 | 0.09284 | 0.02225 | 0.69014 | 0.01638 |
1,2,3,7,8,9-HxCDD | 0.40723 | 0.59456 | 0.0569 | 0 | 0.43779 | 0 |
1,2,3,4,6,7,8-HpCDD | 0.05831 | 0.69954 | 0.01262 | 0.01961 | 0.11823 | 0 |
OCDD | 0 | 0.72378 | 0 | 0.01221 | 0 | 0.00255 |
表4珠三角环境空气中二噁英来源解析结果(贡献矩阵)
实施例2:
实施例2属于实施例1的并列实施例,主要阐述二噁英来源解析系统的结构及功能:
数据获取模块,用于获取多源排放二噁英大数据;
数据标准化模块,用于对获取的多源排放二噁英大数据进行标准化处理,包括数据清洗、数据变换和数据集成,得到样本数据;
分析模块,用于分析不同排放源二噁英特征的关联性,得到影响二噁英来源识别的特征变量;
识别模型构建模块,用于通过随机森林算法构建二噁英来源识别模型;
来源解析模块,用于获取环境介质中二噁英浓度数据,利用NMF对环境介质中二噁英来源进行定量解析;
判别模型构建模块,用于将NMF解析结果输入到判别模型中,得到识别出的真实数据;
来源识别模块,用于将真实数据输入到二噁英来源识别模型中,获得环境介质中二噁英的各个来源是否为已知来源,结合NMF源解析中的权重矩阵获得二噁英各来源的贡献率。
识别模型构建模块具体为,用于通过自助法重采样技术,从原始训练样本数据集N中有放回地重复随机抽取k个样本数据生成新的训练样本集合,然后根据自助样本数据集生成k个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。
来源解析模块包括:
数据获取子模块,用于获取环境介质中二噁英浓度数据;
赋值子模块,用于应用NMF模型将受体二噁英组分浓度矩阵因子化,分解为一个非负因子矩阵W和一个非负因子矩阵H,初始化矩阵W和矩阵H,采用非负双奇异值分解初始化方法对矩阵进行初始赋值,通过欧式距离的Frobenius范数来最小化目标函数;
迭代子模块,用于设置迭代次数上限和误差阈值,采用坐标下降算法优化算法;
按照公式:
依次迭代矩阵W和矩阵H,当两次目标函数差小于10-4时停止迭代。
判别模型构建模块包括:
随机噪声构建子模块,用于构建随机噪声生成器,生成随机噪声矩阵并将每条数据随机标记为0.7~1,该数据为二噁英假数据;
随机标注子模块,用于将每条多源排放二噁英大数据随机标注为0~0.3,该数据为二噁英真数据;
随机组合子模块,用于组合并随机打乱随机噪声矩阵和多源排放二噁英大数据;
判别模型构建子模块,用于构建并训练判别网络,得到可以区分真实二噁英数据和随机假数据的判别模型。
实施例3:
实施例3为实施例1的进一步应用,并具体阐述电子设备的学习内容:包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,处理器执行计算机程序时实现二噁英来源解析方法的步骤。
本发明通过运用大数据分析方法,对近10年典型行业二噁英排放数据进行挖掘,利用随机森林算法和NMF模型构建二噁英来源解析的方法及系统,实现对环境中二噁英来源的精准、定量识别,获得环境介质中二噁英各排放源的贡献率,有效提高二噁英监测监管的针对性、科学性和准确性,提升环境精细化管理水平,大力推动二噁英减排控制,改善环境质量,有效解决二噁英管控难、成本高的问题。
于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (10)
1.一种基于大数据和NMF模型的二噁英来源解析方法,其特征在于,包括以下步骤:
S1、获取多源排放二噁英浓度数据,进行标准化处理,得到样本数据;
S2、分析不同排放源二噁英特征的关联性,得到影响二噁英来源识别的特征变量;
S3、基于样本数据,利用随机森林算法构建二噁英来源识别模型;
S4、获取环境介质中二噁英浓度数据,利用NMF对环境介质中二噁英来源进行定量解析;
S5、构建判别模型,将NMF解析结果输入到判别模型中,得到识别出的真实数据;
S6、将真实数据输入到二噁英来源识别模型中,获得环境介质中二噁英的各个来源是否为已知来源,结合NMF源解析中的权重矩阵获得二噁英各来源的贡献率。
2.根据权利要求1所述的一种基于大数据和NMF模型的二噁英来源解析方法,其特征在于,步骤S2中,影响二噁英来源识别的特征变量有18个,具体为:2,3,7,8-TCDF、1,2,3,7,8-PeCDF、2,3,4,7,8-PeCDF、1,2,3,4,7,8-HxCDF、1,2,3,6,7,8-HxCDF、2,3,4,6,7,8-HxCDF、1,2,3,7,8,9-HxCDF、1,2,3,4,6,7,8-HpCDF、1,2,3,4,7,8,9-HpCDF、OCDF、2,3,7,8-TCDD、1,2,3,7,8-PeCDD、1,2,3,4,7,8-HxCDD、1,2,3,6,7,8-HxCDD、1,2,3,7,8,9-HxCDD、1,2,3,4,6,7,8-HpCDD、OCDD、PCDFs/PCDDs。
3.根据权利要求1所述的一种基于大数据和NMF模型的二噁英来源解析方法,其特征在于,步骤S3具体为:通过自助法重采样技术,从原始训练样本数据集N中有放回地重复随机抽取k个样本数据生成新的训练样本集合,然后根据自助样本数据集生成k个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。
4.根据权利要求1所述的一种基于大数据和NMF模型的二噁英来源解析方法,其特征在于,步骤S4的方法具体包括以下子步骤:
S4-1、获取环境介质中二噁英浓度数据;
S4-2、应用NMF模型将受体二噁英组分浓度矩阵因子化,分解为一个非负因子矩阵W和一个非负因子矩阵H,初始化矩阵W和矩阵H,采用非负双奇异值分解初始化方法对矩阵进行初始赋值,通过欧式距离的Frobenius范数来最小化目标函数;
S4-3、设置迭代次数上限和误差阈值,采用坐标下降算法优化算法;
S4-4、按照公式:
依次迭代矩阵W和矩阵H,当两次目标函数差小于10-4时停止迭代。
5.根据权利要求1所述的一种基于大数据和NMF模型的二噁英来源解析方法,其特征在于,步骤S5的方法具体包括以下子步骤:
S5-1、构建随机噪声生成器,生成随机噪声矩阵并将每条数据随机标记为0.7~1,该数据为二噁英假数据;
S5-2、将每条多源排放二噁英大数据随机标注为0~0.3,该数据为二噁英真数据;
S5-3、组合并随机打乱随机噪声矩阵和多源排放二噁英大数据;
S5-4、构建并训练判别网络,得到可以区分真实二噁英数据和随机假数据的判别模型。
6.一种基于大数据和NMF模型的二噁英来源解析系统,其特征在于,包括:
数据获取模块,用于获取多源排放二噁英大数据;
数据标准化模块,用于对获取的多源排放二噁英大数据进行标准化处理,包括数据清洗、数据变换和数据集成,得到样本数据;
分析模块,用于分析不同排放源二噁英特征的关联性,得到影响二噁英来源识别的特征变量;
识别模型构建模块,用于通过随机森林算法构建二噁英来源识别模型;
来源解析模块,用于获取环境介质中二噁英浓度数据,利用NMF对环境介质中二噁英来源进行定量解析;
判别模型构建模块,用于将NMF解析结果输入到判别模型中,得到识别出的真实数据;
来源识别模块,用于将真实数据输入到二噁英来源识别模型中,获得环境介质中二噁英的各个来源是否为已知来源,结合NMF源解析中的权重矩阵获得二噁英各来源的贡献率。
7.根据权利要求6所述的一种基于大数据和NMF模型的二噁英来源解析系统,其特征在于,识别模型构建模块具体为,用于通过自助法重采样技术,从原始训练样本数据集N中有放回地重复随机抽取k个样本数据生成新的训练样本集合,然后根据自助样本数据集生成k个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。
8.根据权利要求6所述的一种基于大数据和NMF模型的二噁英来源解析系统,其特征在于,来源解析模块包括:
数据获取子模块,用于获取环境介质中二噁英浓度数据;
赋值子模块,用于应用NMF模型将受体二噁英组分浓度矩阵因子化,分解为一个非负因子矩阵W和一个非负因子矩阵H,初始化矩阵W和矩阵H,采用非负双奇异值分解初始化方法对矩阵进行初始赋值,通过欧式距离的Frobenius范数来最小化目标函数;
迭代子模块,用于设置迭代次数上限和误差阈值,采用坐标下降算法优化算法;
按照公式:
依次迭代矩阵W和矩阵H,当两次目标函数差小于10-4时停止迭代。
9.根据权利要求6所述的一种基于大数据和NMF模型的二噁英来源解析系统,其特征在于,判别模型构建模块包括:
随机噪声构建子模块,用于构建随机噪声生成器,生成随机噪声矩阵并将每条数据随机标记为0.7~1,该数据为二噁英假数据;
随机标注子模块,用于将每条多源排放二噁英大数据随机标注为0~0.3,该数据为二噁英真数据;
随机组合子模块,用于组合并随机打乱随机噪声矩阵和多源排放二噁英大数据;
判别模型构建子模块,用于构建并训练判别网络,得到可以区分真实二噁英数据和随机假数据的判别模型。
10.一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述的二噁英来源解析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310548898.5A CN116628598B (zh) | 2023-05-15 | 2023-05-15 | 一种基于大数据和nmf模型的二噁英来源解析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310548898.5A CN116628598B (zh) | 2023-05-15 | 2023-05-15 | 一种基于大数据和nmf模型的二噁英来源解析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116628598A true CN116628598A (zh) | 2023-08-22 |
CN116628598B CN116628598B (zh) | 2024-03-12 |
Family
ID=87609235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310548898.5A Active CN116628598B (zh) | 2023-05-15 | 2023-05-15 | 一种基于大数据和nmf模型的二噁英来源解析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116628598B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140088884A1 (en) * | 2012-05-04 | 2014-03-27 | Battelle Memorial Institute | Methods of source attribution for chemical compounds |
CN105095884A (zh) * | 2015-08-31 | 2015-11-25 | 桂林电子科技大学 | 一种基于随机森林支持向量机的行人识别系统及处理方法 |
US20180060758A1 (en) * | 2016-08-30 | 2018-03-01 | Los Alamos National Security, Llc | Source identification by non-negative matrix factorization combined with semi-supervised clustering |
CN109470667A (zh) * | 2018-11-14 | 2019-03-15 | 华东理工大学 | 一种结合水质参数和三维荧光光谱进行污染物溯源的方法 |
CN111461355A (zh) * | 2020-03-20 | 2020-07-28 | 北京工业大学 | 基于随机森林的二噁英排放浓度迁移学习预测方法 |
CN111797918A (zh) * | 2020-06-29 | 2020-10-20 | 平安国际智慧城市科技股份有限公司 | 大气污染源识别方法、装置、计算机设备及存储介质 |
CN112183709A (zh) * | 2020-09-22 | 2021-01-05 | 生态环境部华南环境科学研究所 | 一种垃圾焚烧废气二噁英超标预测预警方法 |
WO2021056160A1 (zh) * | 2019-09-23 | 2021-04-01 | 广州禾信仪器股份有限公司 | 一种VOCs污染的溯源方法 |
US20210241048A1 (en) * | 2020-01-31 | 2021-08-05 | Illumina, Inc. | Machine Learning-Based Root Cause Analysis of Process Cycle Images |
CN113780383A (zh) * | 2021-08-27 | 2021-12-10 | 北京工业大学 | 基于半监督随机森林和深度森林回归集成的二噁英排放浓度预测方法 |
CN113837436A (zh) * | 2021-08-19 | 2021-12-24 | 成都市环境保护信息中心 | 重点管控区域污染防控管理办法 |
CN114117893A (zh) * | 2021-11-08 | 2022-03-01 | 南开大学 | 一种解析大气降尘污染来源及其评估污染源对降尘边际效应的方法 |
-
2023
- 2023-05-15 CN CN202310548898.5A patent/CN116628598B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140088884A1 (en) * | 2012-05-04 | 2014-03-27 | Battelle Memorial Institute | Methods of source attribution for chemical compounds |
CN105095884A (zh) * | 2015-08-31 | 2015-11-25 | 桂林电子科技大学 | 一种基于随机森林支持向量机的行人识别系统及处理方法 |
US20180060758A1 (en) * | 2016-08-30 | 2018-03-01 | Los Alamos National Security, Llc | Source identification by non-negative matrix factorization combined with semi-supervised clustering |
CN109470667A (zh) * | 2018-11-14 | 2019-03-15 | 华东理工大学 | 一种结合水质参数和三维荧光光谱进行污染物溯源的方法 |
WO2021056160A1 (zh) * | 2019-09-23 | 2021-04-01 | 广州禾信仪器股份有限公司 | 一种VOCs污染的溯源方法 |
US20210241048A1 (en) * | 2020-01-31 | 2021-08-05 | Illumina, Inc. | Machine Learning-Based Root Cause Analysis of Process Cycle Images |
CN111461355A (zh) * | 2020-03-20 | 2020-07-28 | 北京工业大学 | 基于随机森林的二噁英排放浓度迁移学习预测方法 |
CN111797918A (zh) * | 2020-06-29 | 2020-10-20 | 平安国际智慧城市科技股份有限公司 | 大气污染源识别方法、装置、计算机设备及存储介质 |
CN112183709A (zh) * | 2020-09-22 | 2021-01-05 | 生态环境部华南环境科学研究所 | 一种垃圾焚烧废气二噁英超标预测预警方法 |
CN113837436A (zh) * | 2021-08-19 | 2021-12-24 | 成都市环境保护信息中心 | 重点管控区域污染防控管理办法 |
CN113780383A (zh) * | 2021-08-27 | 2021-12-10 | 北京工业大学 | 基于半监督随机森林和深度森林回归集成的二噁英排放浓度预测方法 |
CN114117893A (zh) * | 2021-11-08 | 2022-03-01 | 南开大学 | 一种解析大气降尘污染来源及其评估污染源对降尘边际效应的方法 |
Non-Patent Citations (2)
Title |
---|
JIASHEN FENG等: "An improved nonnegative matrix factorization with the imputation method model for pollution source apportionment during rainstorm events", 《JOURNAL OF ENVIRONMENTAL MANAGEMENT》, pages 1 - 11 * |
宋志廷;赵玉杰;周其文;刘潇威;张铁亮;: "基于地质统计及随机模拟技术的天津武清区土壤重金属源解析", 环境科学, no. 07, pages 351 - 357 * |
Also Published As
Publication number | Publication date |
---|---|
CN116628598B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697162B (zh) | 一种基于开源代码库的软件缺陷自动检测方法 | |
Bansal et al. | Leaving reality to imagination: Robust classification via generated datasets | |
CN107391353B (zh) | 基于日志的复杂软件系统异常行为检测方法 | |
Guevara et al. | diverse: an R Package to Analyze Diversity in Complex Systems. | |
CN112416806B (zh) | 一种基于标准文档分析的js引擎模糊测试方法 | |
CN116363440B (zh) | 基于深度学习的土壤中有色微塑料的识别检测方法及系统 | |
CN105912576A (zh) | 情感分类方法及系统 | |
CN115796181A (zh) | 一种针对化工领域的文本关系抽取方法 | |
CN115277180B (zh) | 一种区块链日志异常检测与溯源系统 | |
CN112102813A (zh) | 基于用户评论中上下文的语音识别测试数据生成方法 | |
CN103679034A (zh) | 一种基于本体的计算机病毒分析系统及其特征提取方法 | |
Nalla et al. | Priority based functional group identification of organic molecules using machine learning | |
Garlapati et al. | Classification of Toxicity in Comments using NLP and LSTM | |
Rao et al. | Search4Code: Code search intent classification using weak supervision | |
CN116628598B (zh) | 一种基于大数据和nmf模型的二噁英来源解析方法及系统 | |
CN116304062B (zh) | 一种基于级联深度学习模型的公平竞争审查方法 | |
Smith | Ecological statistics | |
Aladics et al. | Bug prediction using source code embedding based on Doc2Vec | |
WO2021080735A1 (en) | Automated exception featurization and search | |
CN117170922A (zh) | 日志数据分析方法、装置、终端设备以及存储介质 | |
CN117038074A (zh) | 基于大数据的用户管理方法、装置、设备及存储介质 | |
CN114706769B (zh) | 基于日志的面向回归测试的黑盒测试用例排序方法 | |
CN110502669A (zh) | 基于n边dfs子图的轻量级无监督图表示学习方法及装置 | |
Casale et al. | Composite machine learning algorithm for material sourcing | |
CN110309285B (zh) | 自动问答方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |