CN114547322A

CN114547322A - 一种用于识别水环境污染的知识图谱方法

Info

Publication number: CN114547322A
Application number: CN202111615110.5A
Authority: CN
Inventors: 余游; 刘德绍; 陈双扣; 邵景安; 刘海涵; 刘晓
Original assignee: Chongqing Ecological Environment Big Data Application Center
Current assignee: Chongqing Ecological Environment Big Data Application Center
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-05-27

Abstract

本发明公开了一种用于识别水环境污染的知识图谱方法。所述方法包括：确定水环境区域；收集所述水环境区域的污染资料，所述污染资料包括来自于污染源普查收集到的污染源数据和各类污染源的负荷计算数据；选择适用于表达致污信息的数据库，所述数据库为Neo4j图数据，其具有自然伸展特性和非结构化的数据格式，可根据需求增加新的节点、关系或者属性；基于所述污染源数据、各类污染源的负荷计算数据以及水环境区域的实体信息，利用所述Neo4j图数据，构建致污知识图谱；基于所述致污知识图谱，进行知识检索和知识更新，得到致污知识；根据所述致污知识，识别所述水环境的污染类型和污染源，对污染源解析结果定位。

Description

一种用于识别水环境污染的知识图谱方法

技术领域

本发明涉及流域水环境污染治理技术领域，具体而言，涉及一种用于识别水环境污染的知识图谱方法。本发明申请人的同日申请，标题为“一种用于估算入河污染源排放量的方法”、“一种精准识别断面尺度入河污染源类型的方法”全文引用并结合到本文中。

背景技术

我国境内河流众多，地形地貌复杂，生态环境脆弱，加上地区水资源的禀赋和经济发展空间匹配差异较大，不同流域存在不同程度的水环境压力，水污染原因复杂，水环境管理面临诸多困难。水环境的自然属性决定了水环境质量改善必须从流域尺度，统筹考虑点源和非点源污染传输全过程，综合分析水(降水、地表径流、壤中流等)、土壤、地形、植被、受纳水体的生态功能等多种要素对水环境质量的相互影响。现有技术中，水环境问题发现不及时、不全面的问题普遍存在，难以满足快速发现环境问题的需求。而且，以往水环境问题多重视水质超标，对水质恶化、临界超标等的原因追溯问题识别较少。

水域的复杂多变，传感手段和遥感技术的广泛使用，造成海量的水域环境信息。然而，这些知识信息具有结构化、半结构化或非结构化的不同数据表示方法，储存结构、关联形式、处理模式也各不相同，资源信息杂乱无章、分布涣散，这都严重地阻碍了水环境智慧发展建设的效率和进度。如何有效整合多源和多模态结构的海量离散信息，发掘大规模数据的价值，为水环境安全高效生产服务，已成为目前智慧水环境系统建设需解决的迫切问题之一。通过对知识图谱的研究，面对水环境污染冗余、分散、多源的海量知识，构建污染知识图谱将是解决上述问题的一个有效途径。

发明内容

本发明旨在针对现有技术存在问题，提出一种用于识别水环境污染的知识图谱方法，包括：本发明公开了一种用于识别水环境污染的知识图谱方法。所述方法包括：确定水环境区域；收集所述水环境区域的污染资料，所述污染资料包括来自于污染源普查收集到的污染源数据和各类污染源的负荷计算数据；选择适用于表达致污信息的数据库，所述数据库为Neo4j图数据，其具有自然伸展特性和非结构化的数据格式，可根据需求增加新的节点、关系或者属性；基于所述污染源数据、各类污染源的负荷计算数据以及水环境区域的实体信息，利用所述Neo4j图数据，构建致污知识图谱；基于所述致污知识图谱，进行知识检索和知识更新，得到致污知识；根据所述致污知识，识别所述水环境的污染类型和污染源，对污染源解析结果定位。

优选地是，所述构建致污知识图谱的过程包括：对所述污染资料进行分析，以便设计知识图谱结构；所述知识图谱结构包括：致污知识范围、节点定义、节点标签、实体定义以及关系定义；进行致污知识抽取，形成知识图谱所需要的数据；存储知识图谱；进行可视化操作与查询。

优选地是，所述致污知识抽取包括：节点数据抽取和关系数据抽取。

优选地是，通过所述节点数据抽取和关系数据抽取形成知识图谱所需数据，通过所述所需数据，明确知识图谱的相关定义和相关概念，明确图谱的定位。

优选地是，所述存储知识图谱包括：根据所述污染源数据、各类污染源的负荷计算数据以及水环境区域的实体信息提取节点数据和关系数据；使用Neo4j本身的import工具，将提取出的所述节点数据和关系数据一一导入，以存储到所述知识图谱中。

优选地是，所述节点定义是将各个污染源的名称作为一种节点，这种节点具有日期属性；各个污染源的描述作为另一种节点，用于解释相关信息没有属性；所述节点标签是将各个节点分类保存，同一类型的污染的所有节点的节点标签是相同的；所述关系定义用来描述污染源节点和属性值节点之间的关系。

优选地是，所述可视化操作与查询操作包括：污染源知识可视化和污染源知识查找。

优选地是，所述污染源知识查找包括：查询所有的关系类型、查询指定节点的关系、查看污染源节点之间的关系。

优选地是，所述污染源解析结果定位包括：根据污染源对于污染因子的贡献率，定位污染源，通过基于Neo4j数据的知识图谱节点关系，找到相应污染源的具体致污地点。

优选地是，所述污染源解析结果定位包括：查看某一时间段指定污染物的入河量整体情况。

采用本发明的方法，可以避免大量的样品采集所带来的资金等方面的压力。能够检测出是否遗漏了某重要源，还可以检验其他方法的适用性。可以定量分析得到贡献率和不确定度，所得到的研究结果可以支撑后续的智能算法研究。

附图说明

本公开的各种实施例或样例(“示例”)在以下的具体实施方式和附图中得以公开。没必要将附图按比例绘制。一般而言，除非在权利要求中另有规定，否则可以任意顺序执行本发明所公开方法的操作。附图中：

图1示出了根据本发明的图1知识图谱结构图；

图2示出了根据本发明的Neo4j的存储方式；

图3为根据本发明的水域环境致污知识图谱的构建过程；

图4为根据本发明的致污知识图谱的结构示意图；

图5为根据本发明的Neo4j可视化知识图谱界面图；

图6为图5所示的可视知识图谱界面的部分知识图谱放大展示；

图7为水土流失污染中河边镇2015年1月的可视化图谱；

图8为根据本发明的致污知识图谱各个污染源之间的关系；

图9为示例性流域中城市地表径流2015年1月TP贡献情况；

图10为示例性流域中水土流失污染2015年1月TP贡献情况；

图11为示例性流域中农村生活垃圾污染2015年1月TP贡献情况；

图12为示例性流域中农村生活污水污染2015年1月TP贡献情况

图13为示例性流域中农田面源污染2015年1月TP贡献情况

图14为示例性流域中城镇生活污水污染2015年1月NH3-N贡献情况；

图15为示例性流域中城镇生活垃圾污染2015年1月NH3-N贡献情况；

图16为示例性流域中2015年1月所有污染源的总磷排放可视化。

具体实施方式

在详细解释本公开的一个或多个实施例之前，应当理解，实施例不限于它们具体应用中的构造细节，以及下文实施方式或附图所提出步骤或方法。

构建知识图谱可以将碎片化的数据信息有机整合，提升为具备系统、严谨结构的污染源知识库，用户基于此可查询学习知识概念，还可以推理某些潜在的联系，从而拓展用户的知识面和理解深度。

为此对璧南河流域的污染源历史统计数据进行知识分析、抽取，采用图谱的形式构建、存储及可视化实体及其关系，并进一步为用户提供了准确、智能的知识查询服务，有助于环境部门对于各个污染源的管理，以及为源解析工作提供指导。

(1)选择并确定图数据库Neo4j

随着图数据库的迅速发展，图数据库类别日益增多，对其中常见的多个热门图数据库进行性能比较，包括Neo4j、InfiniteGrapH、DEX、InfoGrid、Hyper-GrapH-DB、Trinity以及AllegroGrapH等，在遵从图形理论的基础上，不同图数据库的系统开销、性能、结构等特征都不尽相同。针对上述图数据库进行了操作文档质量、免费与否、便携性等多个方面的优劣性比较，具体如表1所示。

表1主流图数据库对比

由上表可知，图数据库Neo4j操作文档详细，便携性优良，扩展性好，可存储数百亿个实体和关系，Neo4j图数据库的优势如下：

高效的查询性能：Neo4j利用了图的遍历算法设计，采用邻近查询的方法查找数据。这种查找数据的方法始终是对有限的局部数据进行查找，不会受数据量大小的影响。当查询溯源结果时，Neo4j的使用提高了效率。

Neo4j具有自然伸展特性和非结构化的数据格式：当需求发生变化，需要增加新的节点、边(关系)或者属性时，对于原来数据的正常使用并不影响。当产生新的数据，需要增加数据信息时，也很便捷。

Neo4j能很好地适应需求变化，降低了业务人员与设计人员之间的沟通成本，并且能在低成本服务器和存储设备组成的网络上运行，具有开发的敏捷性。

在Neo4j的存储结构中包含两种数据存储方式：

节点(Node)：表示知识库中的实体(Entity)，可以附带多个以key-value对形式存在的属性(Property)，其没有特殊的类型要求，而根据每个节点的相应标签(Label)来区分节点的不同类型。

关系(Relationship)：和节点相似，关系也拥有自己的属性和类型标记，还有开始节点和结束节点的ID。

Neo4j底层存储结构设计能够支持高效的、本地化的图存储以及支持任意图算法的快速遍历。其免索引链接机制使每个节点都会维护与它相邻节点的引用，保证了快速高效的图遍历能力，同时避免了使用全局索引的资源消耗。而且连接两个节点的关系存在两个列表关系，一个属于起始节点的列表关系，另一个属于结束节点的列表关系。每一个列表都是双向链表，故可以在任何一个方向上进行快速遍历和高效地插入和删除，如图2所示。

(2)致污知识图谱的构建

水污染知识图谱的构建过程按照如图3所示的步骤，主要由如下5个步骤构成：

进行资料的收集并进行分析；

通过分析收集到的数据来设计知识图谱结构，明确相关定义和相关概念，明确图谱的定位；

进行知识的提取，形成知识图谱所需要的数据，主要是实体、属性和关系数据；

将数据导入到Neo4j图数据库中进行存储，导入时可根据实际情况选择不同的方式；

利用制作好的图库进行可视化操作，如知识查找、知识关系深度分析等操作。

下面将结合图3所示的水污染知识图谱的构建过程，详细说明各个步骤的内容。

1)污染源资料收集

根据以往污染源普查以及从各个部门收集到的污染源数据，以及本发明人的、标题为“一种用于估算入河污染源排放量的方法”的同日申请所记载的负荷计算数据，将污染源数据分为四个类型进行图谱构建，包括养殖污染、工业污染、城镇污染和面源污染。通过初步数据预处理后，形成各个污染源的数据表2所示。

表2污染源数据文件

2)致污知识图谱结构构建

根据对数据的分析，设计的致污知识图谱结构示意图如图4所示。

节点(Node)定义：(1)将各个污染源的名称作为一种节点，这种节点具有一个日期的属性值，用于后期只是查找时对于日期的检索。如污染源类型的名称(养殖污染、城镇污染、工业污染等)、各类污染源细分的名称(水产养殖、农村生活污水污染、城市地表径流等)、各类污染源的现实名称；(2)将对各个污染源的描述作为另一种节点，这种节点用于解释相关信息，没有属性值。

节点的标签(label):label用于将各个节点分类保存，如养殖污染的所有节点的label都是养殖污染。

关系(Relationship)定义：关系用于描述污染源节点和属性值节点之间的关系，数据形式为三元组(<主语，谓语，宾语>)。

3)知识抽取

知识抽取包括节点数据抽取和关系数据抽取。其中：

节点数据提取:

以城镇生活垃圾污染为例，第一种节点就是城镇的名称，具有日期属性，这里对城镇的名称加上日期用于区分不同月份，其他文件作相同处理，部分节点如下表所示。

表3城镇生活垃圾污染部分节点

第二种节点就是除了城镇的名称和日期以外的信息，没有属性，其他污染源的文件作相同处理。

关系数据抽取:

关系本身就是各个污染源的统计项目名称，如污染源类型、城镇常住人口(人)、垃圾产生量t、化学需氧量产生量t等。以城镇生活垃圾污染为例，提取出来的部分关系如表4所示。由于不同污染源普查时记录的项目不相同，那么不同污染源所提取出的关系也是不同的。

表4城镇生活垃圾污染部分节点关系

4)知识图谱存储

根据原始数据提取出的节点数据和关系数据来进行图谱的构建。可以使用Neo4j本身的import工具，将提取出的数据一一导入，这样操作比较麻烦。Neo4j知识图谱非常功能强大，支持多种接口，这里采用Python的py2neo模块编写程序进行自动化导入。

5)致污知识图谱可视化

在浏览器中打开链接http://localhost:7474/，即可进入Neo4j的可视化主界面。以璧南河流域2015年的污染数据为例，建立的可视化知识图谱如图5所示，从左侧的数据库信息中可以看到对建立了4361个节点，6400条节点关系。在左侧可以手动选择需要查看的节点和关系，在顶部框内可以使用CypHer语句进行知识检索。

(3)知识查找

第一、查询所有的关系类型:

语句：CALLdb.relationshipTypes()

如表5所示，在图谱中使用这些关系来描述节点之间的联系，共有13种关系。

表5所有的节点关系

污染源类型	城镇常住人口(人)	耕地面积(亩)
			污水产生量(t/a)	化学需氧量产生量(t/a)	氨氮产生量(t/a)
总磷产生量(t/a)	化学需氧量入河量(t/a)	氨氮入河量(t/a)
			总磷入河量(t/a)	水土流失面积(km<sup>2</sup>)	垃圾入河量(t/a)
垃圾产生量(t/a)

第二、查询指定节点的关系:

查询水土流失污染中的河边镇2015年1月的具体信息，结果如图6所示。

语句：MATCH(pollution:水土流失污染{name:'河边镇2015年1月'})-[]->(value)RETURNpollution,value。

第三、查看污染源节点之间的关系：

语句：MATCHp＝()-[r:`包括`]->()RETURNp LIMIT 25

污染源节点之间如图8所示，其结构与图4所示的致污知识图谱的结构示意图一致。

(4)污染源解析结果定位

以两河口2015年1月源解析结果为例，如表6所示。

表6两河口2015年1月解析结果

一、根据污染源对于污染因子的贡献率，定位污染源，通过基于Neo4j数据的知识图谱节点关系，找到相应污染源的具体致污地点。

如表6所示，面源污染对于TP的贡献特别高，达到了65％。因此可以在Neo4j数据可中查询2015年1月的面源情况，面源污染包括了水土流失污染、城市地表径流、农村生活垃圾污染、农村生活污水污染、农田面源污染，需要查询这几个污染源的2015年1月的TP排出情况。综合图图9-13的知识查找结果来看，城市地表径流和农田面源污染是TP的主要来源。2015年1月的TP污染需要重点关注的是：①城市地表径流污染中的壁城街道(0.486t)，如下面第一张图所示；②农田面源中最多的是大兴镇(1.31t)和丁家街道(1.07t)，如下面最后一张图所示。

参考语句：MATCH(pollution:城市地表径流{date:'2015年1月'})-[:`总磷入河量(t/a)`|:`污染源类型`]->(value)RETURNpollution,value

Neo4j还支持文本方式显示，如图11所示。

再如表6所示，城镇污染对于NH₃-N的贡献特别高，达到了50.2％。因此可以在Neo4j数据可中查询2015年1月的城镇污染情况，城镇污染包括了城镇生活污水污染和城镇生活垃圾污染，需要查询这两种污染源的2015年1月的NH₃-N排出情况。综合图14和图15的知识查找结果来看，城镇生活污水污染是NH₃-N的主要来源。2015年1月城镇生活污水污染中最多的是碧泉街道(22.42t)、碧城街道(19.03t)和青杠街道(8.94t),需要重点关注。

参考语句：MATCH(pollution:城镇生活污水污染{date:'2015年1月'})-[:`氨氮入河量(t/a)`|:`污染源类型`]->(value)RETURN pollution,value

二、查看某一时间段指定污染物的入河量整体情况

如查看2015年1月所有污染源的总磷入河量情况。

语句：MATCH(pollution{date:'2015年1月'})-[r:`总磷入河量(t/a)`|:`污染源类型`|:`包括`]-(value)RETURNpollution,r,value

结果如图16所示。可见，致污知识图谱研究通过对流域中各污染源在不同月份的污染源负荷(产生量、入河排放量)、人口、耕地面积等碎片化的数据信息进行有机整合，使用Neo4j图数据库进行存储，将原始数据提升为具备系统、严谨结构的致污知识数据库。基于Neo4j图数据库可查询污染源信息，可以结合CMB源解析结果的贡献率数据，推理为何在某一月份、某一地点致污的原因，从而拓展用户的对于流域污染源的认识，特别是在致污知识图谱中可以根据需要来查找相关信息，对于污染源溯源也有一定辅助作用，可以为污染源的定位提供一种路径。

Claims

1.一种用于识别水环境污染的知识图谱方法，包括：

确定水环境区域；

收集所述水环境区域的污染资料，所述污染资料包括来自于污染源普查收集到的污染源数据和各类污染源的负荷计算数据；

选择适用于表达致污信息的数据库，所述数据库为Neo4j图数据，其具有自然伸展特性和非结构化的数据格式，可根据需求增加新的节点、关系或者属性；

基于所述污染源数据、各类污染源的负荷计算数据以及水环境区域的实体信息，利用所述Neo4j图数据，构建致污知识图谱；

基于所述致污知识图谱，进行知识检索和知识更新，得到致污知识；

根据所述致污知识，识别所述水环境的污染类型和污染源，对污染源解析结果定位。

2.根据权利要求1所述的用于识别水环境污染的知识图谱方法，其特征在于，所述构建致污知识图谱的过程包括：

对所述污染资料进行分析，以便设计知识图谱结构；所述知识图谱结构包括：致污知识范围、节点定义、节点标签、实体定义以及关系定义；

进行致污知识抽取，形成知识图谱所需要的数据；

存储知识图谱；

进行可视化操作与查询。

3.根据权利要求2所述的用于识别水环境污染的知识图谱方法，其特征在于，所述致污知识抽取包括：节点数据抽取和关系数据抽取。

4.根据权利要求3所述的用于识别水环境污染的知识图谱方法，其特征在于，通过所述节点数据抽取和关系数据抽取形成知识图谱所需数据，通过所述所需数据，明确知识图谱的相关定义和相关概念，明确图谱的定位。

5.根据权利要求2所述的用于识别水环境污染的知识图谱方法，其特征在于，所述存储知识图谱包括：根据所述污染源数据、各类污染源的负荷计算数据以及水环境区域的实体信息提取节点数据和关系数据；使用Neo4j本身的import工具，将提取出的所述节点数据和关系数据一一导入，以存储到所述知识图谱中。

6.根据权利要求3所述的用于识别水环境污染的知识图谱方法，其特征在于，所述节点定义是将各个污染源的名称作为一种节点，这种节点具有日期属性；各个污染源的描述作为另一种节点，用于解释相关信息没有属性；所述节点标签是将各个节点分类保存，同一类型的污染的所有节点的节点标签是相同的；所述关系定义用来描述污染源节点和属性值节点之间的关系。

7.根据权利要求3所述的用于识别水环境污染的知识图谱方法，其特征在于，所述可视化操作与查询操作包括：污染源知识可视化和污染源知识查找。

8.根据权利要求7所述的用于识别水环境污染的知识图谱方法，其特征在于，所述污染源知识查找包括：查询所有的关系类型、查询指定节点的关系、查看污染源节点之间的关系。

9.根据权利要求1所述的用于识别水环境污染的知识图谱方法，其特征在于，所述污染源解析结果定位包括：根据污染源对于污染因子的贡献率，定位污染源，通过基于Neo4j数据的知识图谱节点关系，找到相应污染源的具体致污地点。

10.根据权利要求1所述的用于识别水环境污染的知识图谱方法，其特征在于，所述污染源解析结果定位包括：查看某一时间段指定污染物的入河量整体情况。