CN116340723B - 基于大数据的乡村水污染快速溯源方法及系统 - Google Patents

基于大数据的乡村水污染快速溯源方法及系统 Download PDF

Info

Publication number
CN116340723B
CN116340723B CN202310572564.1A CN202310572564A CN116340723B CN 116340723 B CN116340723 B CN 116340723B CN 202310572564 A CN202310572564 A CN 202310572564A CN 116340723 B CN116340723 B CN 116340723B
Authority
CN
China
Prior art keywords
sequence
sampling point
content
pollutant
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310572564.1A
Other languages
English (en)
Other versions
CN116340723A (zh
Inventor
谢贻富
赵钢
高学贵
张慧敏
李霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ustc Gz Information Technology Co ltd
Original Assignee
Ustc Gz Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ustc Gz Information Technology Co ltd filed Critical Ustc Gz Information Technology Co ltd
Priority to CN202310572564.1A priority Critical patent/CN116340723B/zh
Publication of CN116340723A publication Critical patent/CN116340723A/zh
Application granted granted Critical
Publication of CN116340723B publication Critical patent/CN116340723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/18Water
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N13/00Investigating surface or boundary effects, e.g. wetting power; Investigating diffusion effects; Analysing materials by determining surface, boundary, or diffusion effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N13/00Investigating surface or boundary effects, e.g. wetting power; Investigating diffusion effects; Analysing materials by determining surface, boundary, or diffusion effects
    • G01N2013/003Diffusion; diffusivity between liquids
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/20Controlling water pollution; Waste water treatment

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Mathematical Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Medicinal Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Food Science & Technology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及数据处理技术领域,提出了一种基于大数据的乡村水污染快速溯源方法及系统,包括:根据水污染监测区域设置采样点,采集每个采样点若干次抽取水样的若干种污染物的污染物含量;获取每个采样点每次抽取水样的含量差序列,得到每种污染物的含量突变程度;获取每个采样点每次抽取水样的突变序列并得到每个采样点的特征矩阵及若干成分序列,根据不同采样点的特征矩阵中相同成分序列,获取每个采样点的下游扩散度,得到每个采样点每次抽取水样的污染物浓度序列;根据污染物浓度序列得到污染源定位区域,根据污染源定位区域获取污染源,完成水污染溯源。本发明旨在解决由于水体流动而影响污水快速溯源的问题。

Description

基于大数据的乡村水污染快速溯源方法及系统
技术领域
本发明涉及数据处理领域,具体涉及基于大数据的乡村水污染快速溯源方法及系统。
背景技术
突发性水污染是指由于人的行为使得水资源在短期内恶化速率加大的水污染现象,在村规民约的不断完善过程中,部分群众的用水习惯和畜禽养殖业的发展是导致突发性水资源污染不断加重的主要因素,例如污水乱泼乱倒、养殖业随机处理等现象;而突发性水污染会对人民生命财产安全造成严重威胁,因此要尽量减少突发性水污染事件带来的损失,则需要及时而准确地追溯出污染源并加以处理。
现阶段对水污染溯源方法是通过人为检测污染地水样后,再对各养殖场地的水样进行抽取检测,通过检测结果追溯污染源,然而污水较强的流动性以及地形的复杂性都会影响到溯源结果的可靠性;同时人工检测需要花费较长时间来完成溯源,通过设置采样点并实时监测水体中污染物含量,进而构成不同采样点时序的污染物含量大数据,基于污染物含量的变化完成污水的溯源,提高溯源结果的可靠性及时效性。
发明内容
本发明提供基于大数据的乡村水污染快速溯源方法及系统,以解决现有的由于水体流动而影响污水快速溯源的问题,所采用的技术方案具体如下:
第一方面,本发明一个实施例提供了基于大数据的乡村水污染快速溯源方法,该方法包括以下步骤:
根据水污染监测区域设置采样点,采集每个采样点若干次抽取水样的若干种污染物的污染物含量;
根据每个采样点每次抽取水样的每种污染物的污染物含量,获取每个采样点每次抽取水样的含量差序列,根据含量差序列获取每种污染物的含量突变概率,根据含量差序列获取每种污染物的关键采样点,根据关键采样点的含量差序列及含量突变概率,获取每种污染物的含量突变程度;
根据每个采样点每次抽取水样的每种污染物的污染物含量,以及每种污染物的含量突变程度,获取每个采样点每次抽取水样的突变序列,根据突变序列获取每个采样点的特征矩阵及若干成分序列,根据不同采样点的同种成分序列,获取每个采样点每种成分序列的相似数量,根据相似数量及不同采样点的同种成分序列,获取每个采样点的下游扩散度,根据下游扩散度及突变序列获取每个采样点的污染物浓度序列;
根据污染物浓度序列得到污染源定位区域,根据污染源定位区域获取污染源,完成水污染溯源。
可选的,所述获取每个采样点每次抽取水样的含量差序列,包括的具体方法为:
以任意一个采样点为目标采样点,目标采样点的任意一次抽取水样为目标次抽取水样,计算目标采样点的目标次抽取水样与相邻前一次抽取水样中,每种污染物的污染物含量的差值绝对值,记为目标采样点目标次抽取水样中每种污染物的含量差,将所有含量差从大到小降序排列,得到的序列记为目标采样点目标次抽取水样的含量差序列;
获取目标采样点每次抽取水样的含量差序列,获取每个采样点每次抽取水样的含量差序列。
可选的,所述根据含量差序列获取每种污染物的含量突变概率,包括的具体方法为:
其中,表示第/>种污染物在含量差序列中的次序熵,/>表示含量差序列中的次序数量,/>表示第/>种污染物的含量差在所有采样点的所有含量差序列中排在第/>位的频率,所述频率为第/>种污染物的含量差排在第/>位的含量差序列数量与含量差序列总数量的比值,/>表示以10为底的对数;
其中,表示第/>种污染物的含量突变概率,/>表示所有采样点的所有含量差序列中第/>种污染物的含量差均值,/>表示污染物的种类数,/>表示第/>种污染物在含量差序列中的次序熵,/>表示所有采样点的所有含量差序列中第/>种污染物的含量差均值。
可选的,所述根据含量差序列获取每种污染物的关键采样点,包括的具体方法为:
以任意一个采样点为目标采样点,获取目标采样点所有含量差序列中第种污染物的含量差均值,记为目标采样点第/>种污染物的含量均差;获取每个采样点第/>种污染物的含量均差,将含量均差大于/>的采样点记为第/>种污染物的关键采样点,其中/>表示所有采样点的所有含量差序列中第/>种污染物的含量差均值;
获取每种污染物的关键采样点。
可选的,所述获取每种污染物的含量突变程度,包括的具体方法为:
其中,表示第/>种污染物的含量突变程度,/>表示第/>种污染物的含量突变概率,表示第/>种污染物的关键采样点数量,/>表示抽取水样次数,/>表示每个采样点的含量差序列数量,/>表示第/>个关键采样点的第/>个含量差序列,/>表示第/>个关键采样点的第/>个含量差序列,/>表示求皮尔逊相关系数。
可选的,所述获取每个采样点每次抽取水样的突变序列,包括的具体方法为:
以任意一个采样点为目标采样点,目标采样点的任意一次抽取水样为目标次抽取水样,将目标采样点目标次抽取水样的每种污染物的污染物含量按照含量突变程度的大小关系降序从大到小排列,得到的序列记为目标采样点目标次抽取水样的突变序列;
获取每个采样点每次抽取水样的突变序列。
可选的,所述根据突变序列获取每个采样点的特征矩阵及若干成分序列,包括的具体方法为:
以任意一个采样点为目标采样点,以目标采样点第一次抽取水样的突变序列为矩阵的第一行,目标采样点每次抽取水样的突变序列按照抽取水样次序从小到大作为矩阵的每一行,得到的矩阵记为目标采样点的特征矩阵;
将特征矩阵中第一列所有元素从上到下排列得到的序列,记为目标采样点的第一成分序列,得到目标采样点的第一、第二直到第六成分序列,得到目标采样点的若干成分序列;
获取每个采样点的特征矩阵及若干成分序列。
可选的,所述获取每个采样点每种成分序列的相似数量,包括的具体方法为:
以每个采样点的第一成分序列为例,获取每个第一成分序列中的元素均值,将元素均值最大的第一成分序列作为聚类中心,聚类距离采用不同第一成分序列之间的DTW距离,利用k-shape算法对所有第一成分序列进行聚类,得到的若干类别记为第一类别,对所有第一成分序列聚类得到了若干第一类别;对所有第二成分序列聚类得到若干第二类别,对每种成分序列都进行聚类,得到若干第三类别直到若干第六类别;
以任意一个第一类别为目标第一类别,将目标第一类别中与其他所有第一成分序列的DTW距离均值最小的第一成分序列,作为目标第一类别的类别中心,获取每个类别的类别中心;
获取第个采样点的第一成分序列与所属第一类别的类别中心的DTW距离,记为第/>个采样点的第一成分序列的类内距离;获取第/>个采样点的第一成分序列所属第一类别中其他每个第一成分序列与第/>个采样点的第一成分序列的DTW距离,将DTW距离小于类内距离的第一成分序列记为第/>个采样点的第一成分序列的相似序列,相似序列的数量记为第/>个采样点的第一成分序列的相似数量;
获取每个采样点的每种成分序列的相似数量。
可选的,所述获取每个采样点的下游扩散度,包括的具体方法为:
其中,表示第/>个采样点的下游扩散度,/>表示污染物种类数,即成分序列的种类数,/>表示第/>个采样点第/>种污染物对应成分序列所属类别中成分序列的数量,/>表示第/>个采样点第/>种污染物对应成分序列的相似数量。
第二方面,本发明另一个实施例提供了基于大数据的乡村水污染快速溯源系统,该系统包括:
污染数据采集模块,根据水污染监测区域设置采样点,采集每个采样点若干次抽取水样的若干种污染物的污染物含量;
数据处理分析模块:根据每个采样点每次抽取水样的每种污染物的污染物含量,获取每个采样点每次抽取水样的含量差序列,根据含量差序列获取每种污染物的含量突变概率,根据含量差序列获取每种污染物的关键采样点,根据关键采样点的含量差序列及含量突变概率,获取每种污染物的含量突变程度;
根据每个采样点每次抽取水样的每种污染物的污染物含量,以及每种污染物的含量突变程度,获取每个采样点每次抽取水样的突变序列,根据突变序列获取每个采样点的特征矩阵及若干成分序列,根据不同采样点的同种成分序列,获取每个采样点每种成分序列的相似数量,根据相似数量及不同采样点的同种成分序列,获取每个采样点的下游扩散度,根据下游扩散度及突变序列获取每个采样点的污染物浓度序列;
污染溯源管理模块,根据污染物浓度序列得到污染源定位区域,根据污染源定位区域获取污染源,完成水污染溯源。
本发明的有益效果是:本发明通过采样点对应的含量序列构建含量突变程度,含量突变程度考虑了每个采样点多次抽取水样中污染物含量差的稳定程度,其避免将地形等环境因素导致采样点处污染物含量突变作为误判为突发性水污染导致的现象;根据含量突变程度获取采样点的突变序列,进而得到成分序列并获取下游扩散度,下游扩散度考虑了采样点不同突变程度的污染物成分序列对下游区域的扩散程度,通过对不同成分序列分析计算,更好地对不同采样点中污染物的传播能力进行表达,规避了其余污染源对突发性污水源溯源的影响,提高后续获取污染源定位区域的精度;最后利用Apriori规则算法从污染源定位区域实现对突发性水污染的污染溯源的目的,避免其余污水排放源对溯源精度的影响。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的基于大数据的乡村水污染快速溯源方法流程示意图;
图2为本发明另一个实施例所提供的基于大数据的乡村水污染快速溯源系统结构框图;
图3为本发明中第个采样点的特征矩阵示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例所提供的基于大数据的乡村水污染快速溯源方法流程图,该方法包括以下步骤:
步骤S001、根据水污染监测区域设置采样点,采集每个采样点若干次抽取水样的若干种污染物的污染物含量。
本实施例的目的是根据水体污染物含量的监测大数据进行水污染快速溯源,因此首先需要对水体中不同污染物的污染物含量进行监测;本实施例中首先根据工厂以及畜禽养殖厂等污水排放源的地理位置确定水污染监测区域,间隔固定的距离设置采样点,从每个采样点处抽取相同体积的水样,并分别从监测区域内所有工厂、畜禽养殖厂的排水处抽取与采样点相同体积的水样;本实施例中采样点之间的距离设置为100米,每个采样点及排水处抽取水样的时间间隔设置为2个小时,将采样点的数量记为,每个采样点的水样抽取次数记为/>
进一步的,利用气相色谱仪、三维荧光光谱仪检测每次抽取水样中的污染物含量,其中气相色谱仪能够用于甲苯、有机磷等易挥发污染物含量的检测,三维荧光光谱仪能够用于苯酚、苯二酚等污染物质含量的检测,本实施例中以酸、盐、汞、铅、油脂及磷六种物质作为水样中需要检测的污染物;例如第个采样点第一次抽取水样对应的污染物含量序列,/>、/>、/>、/>、/>及/>分别是第/>个采样点第一次抽取水样中的酸含量、盐含量、汞含量、铅含量、油脂含量及磷含量;则通过对每个采样点每次抽取水样进行污染物含量的监测,可以得到每个采样点若干次抽取水样的若干种污染物的污染物含量;需要说明的是,每种污染物的污染物含量均采用浓度表示,即污染物在抽取水样中的百分比含量。从而保证不同种污染物的量纲相同。
至此,获取到了每个采样点若干次抽取水样的若干种污染物的污染物含量。
步骤S002、根据每个采样点若干次的若干污染物含量,获取每个采样点每次抽取水样的含量差序列,根据含量差序列获取每种污染物的含量突变程度。
需要说明的是,由于污水较强的流动性、地形的复杂性等多种因素的影响,每次抽取水样中的污染物的类型以及含量将会存在一定差异,这些差异也有可能是受到不同距离污水排放源的影响;对于监测区域内的任意一个污水源,其排放的污水会流经多个采样点,随着采样点与污水源的距离越远,采样点抽取水样中污染物的浓度也会逐渐降低;除此之外,不同位置的污水源排放污水导致的突发性水污染事件中,发生突变的污染物种类是不同的,如果采样点中含量突变的污染物是由突发性水污染导致的,那么此采样点抽取水样中含量突变的污染物与其余采样点中含量突变的污染物相同。
具体的,以任意一个采样点为例,计算该采样点任意一次抽取水样与相邻前一次抽取水样中,每种污染物的污染物含量的差值绝对值,记为该采样点该次抽取水样中每种污染物的含量差,将所有含量差从大到小降序排列,得到的序列记为该采样点该次抽取水样的含量差序列;按照上述方法获取该采样点每次抽取水样的含量差序列,其中第一次抽取水样没有含量差序列,则该采样点共得到个含量差序列,其中/>表示抽取水样次数;按照上述方法获取每个采样点每次抽取水样的含量差序列。
进一步的,根据含量差序列获取每种污染物的含量突变程度,以第种污染物为例,获取其含量突变概率/>的计算方法为:
其中,表示第/>种污染物在含量差序列中的次序熵,/>表示含量差序列中的次序数量,由于本实施例采用6种污染物进行叙述,则本实施例中/>,/>表示第/>种污染物的含量差在所有采样点的所有含量差序列中排在第/>位的频率,所述频率即为第/>种污染物的含量差排在第/>位的含量差序列数量与含量差序列总数量的比值,/>表示以10为底的对数;次序熵表示的是次序的复杂程度,次序熵越大,表明第/>种污染物的含量差在不同含量差序列中的次序变化越大,则变化情况越复杂;而次序熵越小,表明第/>种污染物的含量差的次序越稳定,影响第/>种污染物含量变化的因素越少。
其中,表示所有采样点的所有含量差序列中第/>种污染物的含量差均值,/>表示污染物的种类数,本实施例中/>,/>表示第/>种污染物在含量差序列中的次序熵,/>表示所有采样点的所有含量差序列中第/>种污染物的含量差均值;含量差均值越大,同时次序熵越大,表明第/>种污染物的变化情况较为复杂的同时,变化的幅度也较大,因此突变概率越大;而含量差均值越大,第/>种污染物的含量发生变化,受到突发性水污染的可能性越大。
进一步的,以任意一个采样点为例,获取该采样点所有含量差序列中第种污染物的含量差均值,记为该采样点第/>种污染物的含量均差;按照上述方法获取每个采样点第/>种污染物的含量均差,将含量均差大于/>的采样点记为第/>种污染物的关键采样点,其中/>表示所有采样点的所有含量差序列中第/>种污染物的含量差均值;则第/>种污染物的含量突变程度/>的计算方法为:
其中,表示第/>种污染物的含量突变概率,/>表示第/>种污染物的关键采样点数量,/>表示抽取水样次数,/>则表示每个采样点的含量差序列数量,/>表示第/>个关键采样点的第/>个含量差序列,/>表示第/>个关键采样点的第/>个含量差序列,表示求皮尔逊相关系数,需要说明的是,关键采样点的顺序与采样点顺序相同,即第/>种污染物的第/>个关键采样点为第/>个关键采样点的相邻前一个关键采样点;含量突变概率越大,相应的含量突变程度越大,同时相邻关键采样点同一次抽取水样的两个含量差序列相关系数越大,表明其他污染物受影响较小,而第/>种污染物受突发性水污染流经关键采样点导致含量变化的可能性越大,则含量突变程度越大;按照上述方法获取每种污染物的含量突变程度。
至此,获取到了每种污染物的含量突变程度,含量突变程度考虑了每个采样点多次抽取水样中不同种污染物含量差的稳定程度,避免将地形等环境因素导致采样点处污染物的含量突变作为误判为突发性水污染导致的现象。
步骤S003、根据每种污染物的含量突变程度获取每个采样点每次抽取水样的突变序列,根据同一采样点的所有突变序列获取每个采样点的特征矩阵及若干成分序列,根据不同采样点的特征矩阵中相同成分序列,获取每个采样点的下游扩散度,得到每个采样点每次抽取水样的污染物浓度序列。
需要说明的是,获取到每种污染物的含量突变程度后,根据含量突变程度对每个采样点每次抽取水样中不同种污染物的污染物含量进行排列,得到突变序列,并根据突变序列构成特征矩阵,再根据特征矩阵获取每个采样点同种污染物的成分序列,根据不同采样点同种污染物的成分序列,通过聚类获取每个采样点的下游扩散度,进而根据下游扩散度确定每个采样点每次抽取水样的污染物浓度序列。
具体的,以任意一个采样点任意一次抽取水样为例,将该采样点该次抽取水样的每种污染物的污染物含量按照含量突变程度的大小关系降序从大到小排列,即含量突变程度最大的污染物对应的污染物含量排在第一位,并以此类推,得到的序列记为该采样点该次抽取水样的突变序列;按照上述方法获取每个采样点每次抽取水样的突变序列,以任意一个采样点第一次抽取水样的突变序列为矩阵的第一行,该采样点每次抽取水样的突变序列按照抽取水样次序从小到大作为矩阵的每一行,则得到了一个矩阵,记为该采样点的特征矩阵;将特征矩阵中第一列所有元素从上到下排列得到的序列,记为该采样点的第一成分序列,得到该采样点的第一、第二直到第六成分序列,则得到了该采样点的若干成分序列,请参阅图3,其示出了第个采样点即采样点/>的特征矩阵;需要说明的是,由于本实施例中采用6种污染物进行叙述,则每个采样点的成分序列数量均为6,同时同一成分序列中所有元素对应的是同一种污染物在不同次抽取水样中的污染物含量;按照上述方法获取每个采样点的特征矩阵以及若干成分序列。
进一步需要说明的是,如果某个污水源排水处排放的污水流经了多个采样点,则采样点与污水源排水处的距离越远,采样点抽取水样中污染物的含量也会逐渐降低;即如果某个采样点的污染物含量一直居高不下,那么很有可能是距离污染源较近的采样点;除此之外,由于扩散关系,上游采样点的突变序列中的污染物含量会大于下游采样点的突变序列中的次序相同的污染物含量,则需要根据这种关系来获取每个采样点的下游扩散度。
具体的,获取到每个采样点的特征矩阵及若干成分序列后,以每个采样点的第一成分序列为例,获取每个第一成分序列中的元素均值,将元素均值最大的第一成分序列作为聚类中心,值本实施例中采用4进行叙述,聚类距离采用不同第一成分序列之间的DTW距离,利用k-shape算法对所有第一成分序列进行聚类,得到的若干类别记为第一类别,则对所有第一成分序列聚类得到了若干第一类别;按照上述方法对所有第二成分序列聚类得到若干第二类别,对每种成分序列都进行聚类,得到若干第三类别直到若干第六类别。
进一步的,以任意一个第一类别为例,将该第一类别中与其他所有第一成分序列的DTW距离均值最小的第一成分序列,作为该第一类别的类别中心;按照上述方法获取每个类别的类别中心;以第个采样点为例,获取第/>个采样点的第一成分序列与所属第一类别的类别中心的DTW距离,记为第/>个采样点的第一成分序列的类内距离;获取第/>个采样点的第一成分序列所属第一类别中其他每个第一成分序列与第/>个采样点的第一成分序列的DTW距离,将DTW距离小于类内距离的第一成分序列记为第/>个采样点的第一成分序列的相似序列,相似序列的数量记为第/>个采样点的第一成分序列的相似数量;类内距离表示的是第一成分序列在所属第一类别中的离群程度,类内距离越小离群程度越小,以类内距离为基准搜索相似序列并得到相似数量,相似数量越小表明第/>个采样点的第一成分序列的相似序列越少,则第/>个采样点的第一成分序列中元素值与其他第一成分序列的元素值差异较大,第/>个采样点距离污染源的距离可能越小;按照上述方法获取每个采样点的每种成分序列的相似数量。
进一步的,第个采样点的下游扩散度/>的计算方法为:
其中,表示污染物种类数,即成分序列的种类数,本实施例中/>,/>表示第/>个采样点第/>种污染物对应成分序列所属类别中成分序列的数量,/>表示第/>个采样点第/>种污染物对应成分序列的相似数量;某种污染物对应的成分序列的相似数量越小,第/>个采样点与该种污染物的污染源的距离可能越小,则第/>个采样点越可能出现在上游,通过对第个采样点所有种污染物根据相似数量量化并累加,进而得到下游扩散度,则相似数量越小,越可能处于上游,下游扩散度越大;按照上述方法获取每个采样点的下游扩散度;下游扩散度考虑了采样点不同突变程度的污染物成分序列对下游区域的扩散程度,通过对不同成分序列的分析计算,更好的对不同采样点中污染物的传播能力进行表达,规避了其余污染源对突发性污水源溯源的影响。
进一步的,以神经网络模型RNN构建污染物浓度模型,将每个采样点每次抽取采样的突变序列作为污染物浓度模型的训练数据集,同时将每个采样点的下游扩散度作为标签,损失函数采用交叉熵损失函数,优化算法采用adam算法进行训练;将最近一次抽取水样每个采样点的突变序列输入到训练完成的污染物浓度模型中,输出得到每个采样点的污染物浓度序列,污染物浓度序列为对最近一次抽取水样的不同采样点的不同种污染物含量的预测;神经网络训练为公知技术,本实施例不再赘述。
至此,获取到了每个采样点每次抽取水样的污染物浓度序列。
步骤S004、根据污染物浓度序列得到污染源定位区域,根据污染源定位区域获取污染源,完成水污染溯源。
获取每个采样点的污染物浓度序列,根据每种污染物浓度与设定的排放标准浓度进行对比,其中设定的排放标准浓度本实施例不作具体说明,其为现有参数;以任意一种污染物为例,将大于排放标准浓度的采样点作为该种污染物的污染源的近邻采样点,根据所有污染物的若干近邻采样点及连通域提取算法获取近邻采样点构成的连通域,将得到的连通域作为污染源定位区域。
进一步需要说明的是,利用Apriori算法从污染源定位区域获取污水源,如果采样点以及下游采样点/>都是受到同一污水源排放污水导致的污染物含量增加,那么随着污染物种类的增加,污染物含量对应的项目集的支持度也会增加,因此可以通过污染源定位区域内污水排放源与各项目集支持度之间的关联程度确定突发性水污染的污水源。
具体的,分别计算每个近邻采样点的污染物浓度序列与污染源定位区域内污染源的污染物浓度序列之间的皮尔逊相关系数,将每个近邻采样点的皮尔逊相关系数的集合作为一个项集,将所有近邻采样点项集的集合作为输入Apriori算法的事务集,最小支持度阈值设置为2,输出是频繁项集;根据频繁项集中的皮尔逊相关系数确定突发性水污染的污水源,Apriori算法为公知技术,本实施例不再赘述;将污染定位区域和污水源上传至污水管理系统,管理系统将污水源的位置信息和污染物信息发送至相关人员,实现对突发性水污染的污染溯源。
至此,完成了对于突发性水污染的快速溯源。
请参阅图2,其示出了本发明另一个实施例所提供的基于大数据的乡村水污染快速溯源系统结构框图,该系统包括:
污染数据采集模块S101,根据水污染监测区域设置采样点,采集每个采样点若干次抽取水样的若干种污染物的污染物含量。
数据处理分析模块S102:
(1)根据每个采样点若干次的若干污染物含量,获取每个采样点每次抽取水样的含量差序列,根据含量差序列获取每种污染物的含量突变程度;
(2)根据每种污染物的含量突变程度获取每个采样点每次抽取水样的突变序列,根据同一采样点的所有突变序列获取每个采样点的特征矩阵及若干成分序列,根据不同采样点的特征矩阵中相同成分序列,获取每个采样点的下游扩散度,得到每个采样点每次抽取水样的污染物浓度序列。
污染溯源管理模块S103,根据污染物浓度序列得到污染源定位区域,根据污染源定位区域获取污染源,完成水污染溯源。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.基于大数据的乡村水污染快速溯源方法,其特征在于,该方法包括以下步骤:
根据水污染监测区域设置采样点,采集每个采样点若干次抽取水样的若干种污染物的污染物含量;
根据每个采样点每次抽取水样的每种污染物的污染物含量,获取每个采样点每次抽取水样的含量差序列,根据含量差序列获取每种污染物的含量突变概率,根据含量差序列获取每种污染物的关键采样点,根据关键采样点的含量差序列及含量突变概率,获取每种污染物的含量突变程度;
根据每个采样点每次抽取水样的每种污染物的污染物含量,以及每种污染物的含量突变程度,获取每个采样点每次抽取水样的突变序列,根据突变序列获取每个采样点的特征矩阵及若干成分序列,根据不同采样点的同种成分序列,获取每个采样点每种成分序列的相似数量,根据相似数量及不同采样点的同种成分序列,获取每个采样点的下游扩散度,根据下游扩散度及突变序列获取每个采样点的污染物浓度序列;
根据污染物浓度序列得到污染源定位区域,根据污染源定位区域获取污染源,完成水污染溯源;
所述根据含量差序列获取每种污染物的含量突变概率,包括的具体方法为:
其中,表示第/>种污染物在含量差序列中的次序熵,/>表示含量差序列中的次序数量,表示第/>种污染物的含量差在所有采样点的所有含量差序列中排在第/>位的频率,所述频率为第/>种污染物的含量差排在第/>位的含量差序列数量与含量差序列总数量的比值,表示以10为底的对数;
其中,表示第/>种污染物的含量突变概率,/>表示所有采样点的所有含量差序列中第种污染物的含量差均值,/>表示污染物的种类数,/>表示第/>种污染物在含量差序列中的次序熵,/>表示所有采样点的所有含量差序列中第/>种污染物的含量差均值;
所述获取每种污染物的含量突变程度,包括的具体方法为:
其中,表示第/>种污染物的含量突变程度,/>表示第/>种污染物的含量突变概率,/>表示第/>种污染物的关键采样点数量,/>表示抽取水样次数,/>表示每个采样点的含量差序列数量,/>表示第/>个关键采样点的第/>个含量差序列,/>表示第/>个关键采样点的第/>个含量差序列,/>表示求皮尔逊相关系数;
所述获取每个采样点每种成分序列的相似数量,包括的具体方法为:
以每个采样点的第一成分序列为例,获取每个第一成分序列中的元素均值,将元素均值最大的第一成分序列作为聚类中心,聚类距离采用不同第一成分序列之间的DTW距离,利用k-shape算法对所有第一成分序列进行聚类,得到的若干类别记为第一类别,对所有第一成分序列聚类得到了若干第一类别;对所有第二成分序列聚类得到若干第二类别,对每种成分序列都进行聚类,得到若干第三类别直到若干第六类别;
以任意一个第一类别为目标第一类别,将目标第一类别中与其他所有第一成分序列的DTW距离均值最小的第一成分序列,作为目标第一类别的类别中心,获取每个类别的类别中心;
获取第个采样点的第一成分序列与所属第一类别的类别中心的DTW距离,记为第/>个采样点的第一成分序列的类内距离;获取第/>个采样点的第一成分序列所属第一类别中其他每个第一成分序列与第/>个采样点的第一成分序列的DTW距离,将DTW距离小于类内距离的第一成分序列记为第/>个采样点的第一成分序列的相似序列,相似序列的数量记为第/>个采样点的第一成分序列的相似数量;
获取每个采样点的每种成分序列的相似数量;
所述获取每个采样点的下游扩散度,包括的具体方法为:
其中,表示第/>个采样点的下游扩散度,/>表示污染物种类数,即成分序列的种类数,表示第/>个采样点第/>种污染物对应成分序列所属类别中成分序列的数量,/>表示第/>个采样点第/>种污染物对应成分序列的相似数量。
2.根据权利要求1所述的基于大数据的乡村水污染快速溯源方法,其特征在于,所述获取每个采样点每次抽取水样的含量差序列,包括的具体方法为:
以任意一个采样点为目标采样点,目标采样点的任意一次抽取水样为目标次抽取水样,计算目标采样点的目标次抽取水样与相邻前一次抽取水样中,每种污染物的污染物含量的差值绝对值,记为目标采样点目标次抽取水样中每种污染物的含量差,将所有含量差从大到小降序排列,得到的序列记为目标采样点目标次抽取水样的含量差序列;
获取目标采样点每次抽取水样的含量差序列,获取每个采样点每次抽取水样的含量差序列。
3.根据权利要求1所述的基于大数据的乡村水污染快速溯源方法,其特征在于,所述根据含量差序列获取每种污染物的关键采样点,包括的具体方法为:
以任意一个采样点为目标采样点,获取目标采样点所有含量差序列中第种污染物的含量差均值,记为目标采样点第/>种污染物的含量均差;获取每个采样点第/>种污染物的含量均差,将含量均差大于/>的采样点记为第/>种污染物的关键采样点,其中/>表示所有采样点的所有含量差序列中第/>种污染物的含量差均值;
获取每种污染物的关键采样点。
4.根据权利要求1所述的基于大数据的乡村水污染快速溯源方法,其特征在于,所述获取每个采样点每次抽取水样的突变序列,包括的具体方法为:
以任意一个采样点为目标采样点,目标采样点的任意一次抽取水样为目标次抽取水样,将目标采样点目标次抽取水样的每种污染物的污染物含量按照含量突变程度的大小关系降序从大到小排列,得到的序列记为目标采样点目标次抽取水样的突变序列;
获取每个采样点每次抽取水样的突变序列。
5.根据权利要求1所述的基于大数据的乡村水污染快速溯源方法,其特征在于,所述根据突变序列获取每个采样点的特征矩阵及若干成分序列,包括的具体方法为:
以任意一个采样点为目标采样点,以目标采样点第一次抽取水样的突变序列为矩阵的第一行,目标采样点每次抽取水样的突变序列按照抽取水样次序从小到大作为矩阵的每一行,得到的矩阵记为目标采样点的特征矩阵;
将特征矩阵中第一列所有元素从上到下排列得到的序列,记为目标采样点的第一成分序列,得到目标采样点的第一、第二直到第六成分序列,得到目标采样点的若干成分序列;
获取每个采样点的特征矩阵及若干成分序列。
6.基于大数据的乡村水污染快速溯源系统,其特征在于,该系统包括:
污染数据采集模块,根据水污染监测区域设置采样点,采集每个采样点若干次抽取水样的若干种污染物的污染物含量;
数据处理分析模块:根据每个采样点每次抽取水样的每种污染物的污染物含量,获取每个采样点每次抽取水样的含量差序列,根据含量差序列获取每种污染物的含量突变概率,根据含量差序列获取每种污染物的关键采样点,根据关键采样点的含量差序列及含量突变概率,获取每种污染物的含量突变程度;
根据每个采样点每次抽取水样的每种污染物的污染物含量,以及每种污染物的含量突变程度,获取每个采样点每次抽取水样的突变序列,根据突变序列获取每个采样点的特征矩阵及若干成分序列,根据不同采样点的同种成分序列,获取每个采样点每种成分序列的相似数量,根据相似数量及不同采样点的同种成分序列,获取每个采样点的下游扩散度,根据下游扩散度及突变序列获取每个采样点的污染物浓度序列;
污染溯源管理模块,根据污染物浓度序列得到污染源定位区域,根据污染源定位区域获取污染源,完成水污染溯源;
所述根据含量差序列获取每种污染物的含量突变概率,包括的具体方法为:
其中,表示第/>种污染物在含量差序列中的次序熵,/>表示含量差序列中的次序数量,表示第/>种污染物的含量差在所有采样点的所有含量差序列中排在第/>位的频率,所述频率为第/>种污染物的含量差排在第/>位的含量差序列数量与含量差序列总数量的比值,表示以10为底的对数;
其中,表示第/>种污染物的含量突变概率,/>表示所有采样点的所有含量差序列中第种污染物的含量差均值,/>表示污染物的种类数,/>表示第/>种污染物在含量差序列中的次序熵,/>表示所有采样点的所有含量差序列中第/>种污染物的含量差均值;
所述获取每种污染物的含量突变程度,包括的具体方法为:
其中,表示第/>种污染物的含量突变程度,/>表示第/>种污染物的含量突变概率,/>表示第/>种污染物的关键采样点数量,/>表示抽取水样次数,/>表示每个采样点的含量差序列数量,/>表示第/>个关键采样点的第/>个含量差序列,/>表示第/>个关键采样点的第/>个含量差序列,/>表示求皮尔逊相关系数;
所述获取每个采样点每种成分序列的相似数量,包括的具体方法为:
以每个采样点的第一成分序列为例,获取每个第一成分序列中的元素均值,将元素均值最大的第一成分序列作为聚类中心,聚类距离采用不同第一成分序列之间的DTW距离,利用k-shape算法对所有第一成分序列进行聚类,得到的若干类别记为第一类别,对所有第一成分序列聚类得到了若干第一类别;对所有第二成分序列聚类得到若干第二类别,对每种成分序列都进行聚类,得到若干第三类别直到若干第六类别;
以任意一个第一类别为目标第一类别,将目标第一类别中与其他所有第一成分序列的DTW距离均值最小的第一成分序列,作为目标第一类别的类别中心,获取每个类别的类别中心;
获取第个采样点的第一成分序列与所属第一类别的类别中心的DTW距离,记为第/>个采样点的第一成分序列的类内距离;获取第/>个采样点的第一成分序列所属第一类别中其他每个第一成分序列与第/>个采样点的第一成分序列的DTW距离,将DTW距离小于类内距离的第一成分序列记为第/>个采样点的第一成分序列的相似序列,相似序列的数量记为第/>个采样点的第一成分序列的相似数量;
获取每个采样点的每种成分序列的相似数量;
所述获取每个采样点的下游扩散度,包括的具体方法为:
其中,表示第/>个采样点的下游扩散度,/>表示污染物种类数,即成分序列的种类数,表示第/>个采样点第/>种污染物对应成分序列所属类别中成分序列的数量,/>表示第/>个采样点第/>种污染物对应成分序列的相似数量。
CN202310572564.1A 2023-05-22 2023-05-22 基于大数据的乡村水污染快速溯源方法及系统 Active CN116340723B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310572564.1A CN116340723B (zh) 2023-05-22 2023-05-22 基于大数据的乡村水污染快速溯源方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310572564.1A CN116340723B (zh) 2023-05-22 2023-05-22 基于大数据的乡村水污染快速溯源方法及系统

Publications (2)

Publication Number Publication Date
CN116340723A CN116340723A (zh) 2023-06-27
CN116340723B true CN116340723B (zh) 2023-08-01

Family

ID=86893263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310572564.1A Active CN116340723B (zh) 2023-05-22 2023-05-22 基于大数据的乡村水污染快速溯源方法及系统

Country Status (1)

Country Link
CN (1) CN116340723B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116499938B (zh) * 2023-06-29 2023-09-15 天津市疾病预防控制中心 一种职业工作场所气溶胶悬浮物智能监测方法
CN117195135B (zh) * 2023-11-01 2024-02-27 潍坊德瑞生物科技有限公司 一种水污染异常溯源检测方法及系统
CN117634178B (zh) * 2023-11-24 2024-05-28 广东省环境科学研究院 一种高效溯源水质污染源的系统及方法
CN117408440B (zh) * 2023-12-15 2024-03-08 湖南蒙拓环境科技有限公司 基于多维传感器的河道排污口污水智能处理方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926172A (zh) * 2019-12-06 2021-06-08 中国科学院沈阳计算技术研究所有限公司 一种突发性重金属水污染追踪溯源的方法
WO2023024463A1 (zh) * 2021-12-30 2023-03-02 南京大学 一种水体有机污染智能化溯源方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6426190B1 (en) * 1995-04-20 2002-07-30 Carnegie Mellon University Difference detection methods using matched multiple dyes
US20050120775A1 (en) * 2003-12-03 2005-06-09 Extraction Systems, Inc. Systems and methods for detecting contaminants
FI20086260A (fi) * 2008-12-31 2010-09-02 Teknillinen Korkeakoulu Menetelmä hahmon löytämiseksi ja tunnistamiseksi
CN105527432B (zh) * 2015-12-28 2018-08-10 重庆医科大学 一种均相定量比较未纯化酶及其突变体比活性的方法
CN107764960A (zh) * 2017-09-15 2018-03-06 国家电网公司 基于同位素示踪技术测抽水蓄能电站地下厂房渗水来源法
CN112131336B (zh) * 2020-11-25 2021-02-09 成都飞英思特科技有限公司 一种污染源定位方法、装置、计算机设备及存储介质
CN113128129B (zh) * 2021-05-07 2023-03-24 大连理工大学 一种突发水污染正逆耦合溯源方法及系统
CN114862249A (zh) * 2022-05-25 2022-08-05 中国农业科学院农业资源与农业区划研究所 一种基于关键景观指标的流域面源污染防控方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926172A (zh) * 2019-12-06 2021-06-08 中国科学院沈阳计算技术研究所有限公司 一种突发性重金属水污染追踪溯源的方法
WO2023024463A1 (zh) * 2021-12-30 2023-03-02 南京大学 一种水体有机污染智能化溯源方法及系统

Also Published As

Publication number Publication date
CN116340723A (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN116340723B (zh) 基于大数据的乡村水污染快速溯源方法及系统
Rota et al. Does accounting for imperfect detection improve species distribution models?
CN104820873A (zh) 一种基于金属定量构效关系的淡水急性基准预测方法
Steffen et al. A comparison of data quality control protocols for atmospheric mercury speciation measurements
CN116186566A (zh) 基于深度学习的扩散预测方法及系统
CN110675036B (zh) 一种基于随机森林优化微生物指数的高原河流生态健康评价方法
CN116362570B (zh) 一种基于大数据平台的多维度污染分析方法及系统
Estrada-Carmona et al. Quantifying model uncertainty to improve watershed-level ecosystem service quantification: a global sensitivity analysis of the RUSLE
Bennett et al. Optimizing taxonomic resolution and sampling effort to design cost‐effective ecological models for environmental assessment
CN112348264A (zh) 一种基于随机森林算法的碳钢腐蚀速率预测方法
CN113109533B (zh) 基于物联网和大数据的水质在线智能监测分析处理方法
CN113836808A (zh) 一种基于重污染特征约束的pm2.5深度学习预测方法
Monnet et al. WOODIV, a database of occurrences, functional traits, and phylogenetic data for all Euro-Mediterranean trees
Mächler et al. Environmental DNA simultaneously informs hydrological and biodiversity characterization of an Alpine catchment
CN115659195A (zh) 一种大气污染在线识别方法
CN116308963A (zh) 一种政务数据分析方法及系统
CN116499938A (zh) 一种职业工作场所气溶胶悬浮物智能监测方法
CN104915563A (zh) 基于金属定量构效关系的淡水慢性基准预测方法
CN105447248A (zh) 基于金属定量构效关系的海水急性基准预测方法
Kim et al. Enhanced monitoring of water quality variation in Nakdong River downstream using multivariate statistical techniques
CN117171128A (zh) 一种基于四水耦合模型的水生生物保护阈值识别方法
Cao et al. Measuring and controlling data quality in biological assemblage surveys with special reference to stream benthic macroinvertebrates
CN111007220B (zh) 一种生猪养殖污水水质敏捷监测的方法
CN116187861A (zh) 基于同位素的水质溯源监测方法及相关装置
CN115879594A (zh) 一种基于地理探测器的城市定居人口分布趋势预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant