CN117131184B

CN117131184B - 一种基于知识图谱的场地土壤污染问答系统及问答方法

Info

Publication number: CN117131184B
Application number: CN202311407148.2A
Authority: CN
Inventors: 刘永强; 周永章; 王维曦; 王汉雨; 贺炬翔; 许娅婷; 曹伟
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-02-13
Anticipated expiration: 2043-10-27
Also published as: CN117131184A

Abstract

本发明公开了一种基于知识图谱的场地土壤污染问答系统及问答方法，包括：数据整合模块，用于从若干数据源中收集与场地土壤污染相关的文本数据，并通过自然语言处理技术进行处理和分析，以提取场地土壤污染数据；图谱构建模块，用于根据场地土壤污染数据构建场地土壤污染知识图谱，并将其存储在图数据库中；问答引擎模块，用于对目标问题进行语义理解和意图识别，然后在场地土壤污染知识图谱中进行语义匹配和数据检索，获取目标实体、目标属性和目标关系，并生成对应的目标答案；用户交互模块，用于获取用户输入的目标问题，以及将目标答案返回给用户。本发明能够通过智能问答的方式提供准确及时全面的场地土壤污染相关信息。

Description

一种基于知识图谱的场地土壤污染问答系统及问答方法

技术领域

本发明涉及知识图谱和问答系统技术领域，尤其是涉及一种基于知识图谱的场地土壤污染问答系统及问答方法。

背景技术

在土地开发和利用过程中，场地土壤污染是一个重要的环境问题。准确了解场地土壤污染的性质、治理方法以及评估标准对于有效地进行土壤修复和保护环境至关重要。目前，虽然已经存在一些场地土壤污染相关的数据库和信息系统，但存在信息分散、专业知识要求高和查询效率低的缺点。现有的场地土壤污染信息散布在各种数据库、文献和专家知识中，获取和整合这些信息非常困难。而且对于非专业人员或初学者而言，理解和利用现有场地土壤污染信息的难度较大。另外，传统的查询方式需要人工参与，效率低下。

发明内容

为克服相关技术中存在的问题，本发明提供一种基于知识图谱的场地土壤污染问答系统及问答方法，用以解决相关技术中的缺陷。

根据本发明的第一方面，提供一种基于知识图谱的场地土壤污染问答系统，所述系统包括：

数据整合模块，用于从若干数据源中收集与场地土壤污染相关的文本数据，并通过自然语言处理技术对所述文本数据进行处理和分析，以提取场地土壤污染数据；其中，所述数据源至少包括科研论文数据库、环境监测数据库、场地土壤污染调查报告和专家经验；

图谱构建模块，用于根据所述场地土壤污染数据构建场地土壤污染知识图谱，以及将所述场地土壤污染知识图谱存储在图数据库中；其中，所述场地土壤污染知识图谱包括场地土壤污染实体、场地土壤污染属性和场地土壤污染关系；

问答引擎模块，用于对目标问题进行语义理解和意图识别，然后在所述场地土壤污染知识图谱中进行语义匹配和数据检索，获取目标实体、目标属性和目标关系，并生成对应所述目标问题的目标答案；

用户交互模块，用于获取用户输入的目标问题，以及将所述目标答案返回给所述用户。

优选地，所述通过自然语言处理技术对所述文本数据进行处理和分析，以提取场地土壤污染数据，具体包括：

通过分词、词性标注和构建词典，对所述文本数据进行格式转换；

将所述文本数据中的每个词标注为其所属的实体类型；

基于预训练的语义信息，通过BERT提取词的特征，将每个词转化为对应的BERT词向量，形成词向量序列；

通过双向长短时记忆网络对所述词向量序列进行编码，并基于注意力机制和上下文依赖关系，获取所述文本数据中的上下文信息；

基于标签依赖关系和所述上下文信息，通过条件随机场序列模型，生成实体标注序列；

基于所述实体标注序列，提取所述文本数据中的场地土壤污染数据，所述场地土壤污染数据包括场地土壤污染实体、场地土壤污染属性和场地土壤污染关系。

优选地，所述场地土壤污染知识图谱包括模式层和数据层；其中，所述模式层用于定义概念节点，包括概念实体和概念属性，以及概念节点间的层级语义关系与约束规则；所述数据层用于基于所述场地土壤污染数据获取场地土壤污染实例的具体要素，所述具体要素包括实体类型、实体属性和实体关系，并建立所述具体要素与对应的概念节点之间的映射；

所述图谱构建模块具体用于：构建所述场地土壤污染知识图谱的模式层；以及构建所述场地土壤污染知识图谱的数据层。

优选地，所述构建所述场地土壤污染知识图谱的模式层，具体包括：

定义所述模式层中所包含的核心概念；所述核心概念至少包括场地、污染、场地相关概念和污染相关概念；

通过本体建模语言构建所述核心概念的概念节点；所述概念节点包括概念实体和概念属性；

在所述概念节点中，确定所述概念节点之间的层次关系、语义关系和属性关系。

优选地，所述场地相关概念至少包括场地性质、环境敏感目标、地质环境、气候气象信息、产污情况、潜在污染区域、地下水样点信息、土壤样点信息、污染企业信息和综合评估结论；

所述污染相关概念至少包括污染类型、监测手段、评估方法、多重污染、现象、生态影响、人体健康风险、修复技术、专家建议和防治措施。

优选地，所述构建所述场地土壤污染知识图谱的数据层，具体包括：

基于所述场地土壤污染数据提取场地土壤污染实例的实体属性和实体关系，并识别实体类型；

建立所述实体属性、所述实体关系和所述实体类型与所述核心概念之间的属性关系、语义关系和层次关系之间的映射，形成所述模式层到所述数据层的映射。

优选地，所述图数据库为Neo4j图数据库。

优选地，所述数据整合模块还用于从所述若干数据源中定期收集与场地土壤污染相关的新文本数据，并从所述新文本数据提取新场地土壤污染数据；

所述图谱构建模块还用于根据所述新场地土壤污染数据，更新所述图数据库中存储的所述场地土壤污染知识图谱。

优选地，所述问答引擎模块具体包括：

问题处理模块，用于对所述目标问题进行信息抽取，以提取关键信息，以及根据所述关键信息确定用户意图；

问题匹配模块，用于基于所述用户意图，通过预先训练的问题分类器确定所述目标问题所属的问题类别，以及根据所述问题类别生成问题模板；

答案生成模块，用于根据所述问题模板和所述关键信息构建查询语句，以及根据所述查询语句从所述图数据库中查找与所述目标问题对应的目标实体、目标属性和目标关系，以及根据所述目标实体、所述目标属性和所述目标关系生成所述目标答案。

根据本发明的第二方面，提供一种基于知识图谱的场地土壤污染问答方法，所述方法包括：

获取用户输入的目标问题；

对所述目标问题进行语义理解和意图识别，获取所述目标问题的关键信息和用户意图；

根据所述关键信息和用户意图在预先构建的场地土壤污染知识图谱中进行语义匹配和数据检索，获取与所述目标问题对应的目标实体、目标属性和目标关系；

根据所述目标实体、所述目标属性和所述目标关系，生成对应所述目标问题的目标答案；

将所述目标答案返回给用户；

其中，所述场地土壤污染知识图谱包括场地土壤污染实体、场地土壤污染属性和场地土壤污染关系；所述场地土壤污染知识图谱根据场地土壤污染数据构建，并存储在图数据库中；所述场地土壤污染数据根据从若干数据源中收集与场地土壤污染相关的文本数据，并通过自然语言处理技术对所述文本数据进行处理和分析，以提取获得；所述数据源至少包括科研论文数据库、环境监测数据库、场地土壤污染调查报告和专家经验。

本发明公开了一种基于知识图谱的场地土壤污染问答系统及问答方法，该系统利用人工智能技术，通过智能问答的方式提供准确、及时、全面的场地土壤污染相关信息；使得用户可以通过问答系统快速准确地获取关于场地土壤污染的问题解答和相关知识，而且构建的知识图谱可作为一个综合性的场地土壤污染知识库，促进场地土壤污染领域地知识的共享和交流；另外，相关部门和专业人员也可以利用该系统获取场地土壤污染领域的问题解答和决策支持，有助于场地土壤污染治理和管理工作的开展。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

图1是本发明根据一实施例示出的一种基于知识图谱的场地土壤污染问答系统的结构示意图。

图2是本发明根据一实施例示出的一种构建场地土壤污染知识图谱的模式层和数据层的示意图。

图3是本发明根据一实施例示出的一种场地土壤污染知识图谱的模式层的示意图。

图4是本发明根据一实施例示出的一种问答引擎模块的结构示意图。

图5是本发明根据一实施例示出的一种场地土壤污染问答实施例的流程图。

图6是本发明根据一实施例示出的一种基于知识图谱的场地土壤污染问答方法的流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面结合附图和具体实施方式对本发明做详细描述。

本发明旨在提供一种场地土壤污染智能问答系统，以解决现有技术中信息分散、专业知识要求高和查询效率低的问题。该系统利用人工智能技术，通过智能问答的方式提供准确、及时、全面的场地土壤污染相关信息。

如图1所示，图1是本发明根据一实施例示出的一种基于知识图谱的场地土壤污染问答系统的结构示意图，包括以下模块：

数据整合模块110，用于从若干数据源中收集与场地土壤污染相关的文本数据，并通过自然语言处理技术对文本数据进行处理和分析，以提取场地土壤污染数据；其中，数据源至少包括科研论文数据库、环境监测数据库、场地土壤污染调查报告和专家经验；

图谱构建模块120，用于根据场地土壤污染数据构建场地土壤污染知识图谱，以及将场地土壤污染知识图谱存储在图数据库中；其中，场地土壤污染知识图谱包括场地土壤污染实体、场地土壤污染属性和场地土壤污染关系；

问答引擎模块130，用于对目标问题进行语义理解和意图识别，然后在场地土壤污染知识图谱中进行语义匹配和数据检索，获取目标实体、目标属性和目标关系，并生成对应目标问题的目标答案；

用户交互模块140，用于获取用户输入的目标问题，以及将目标答案返回给用户。

在本发明中，场地土壤污染问答系统可以包括硬件设备和软件实现。其中，硬件设备可以包括服务器、存储设备和用户终端等。而软件实现主要包括数据整合模块110、图谱构建模块120、问答引擎模块130和用户交互模块140四个部分。

其中，数据整合模块110负责收集场地土壤污染领域的相关数据和知识。场地土壤污染问答系统首先从多个数据源收集场地土壤污染领域相关的文本数据，例如科研论文数据库、环境监测数据库、场地土壤污染调查报告、专家经验等。然后，采用自然语言处理技术对文本数据进行处理和分析，提取出关键信息作为场地土壤污染数据，如实体、属性和关系，并进行标注和分类，以便后续的知识图谱构建。具体地，在一些实施例中，场地土壤污染相关的文本数据还可以从除了研论文数据库、环境监测数据库、场地土壤污染调查报告和专家经验之外的其他数据源获取，本发明对此不作限制。

图谱构建模块120则负责基于数据整合模块110得到的场地土壤污染数据，构建一个包含场地土壤污染领域相关实体、属性和关系的知识图谱，即构建包括有场地土壤污染实体、场地土壤污染属性合场地土壤污染关系的场地土壤污染知识图谱。同时可以采用图数据库来存储和管理场地土壤污染知识图谱，并利用自然语言处理技术对场地土壤污染数据进行语义分析和实体关系抽取。

问答引擎模块130是本发明的场地土壤污染问答系统的核心部分，其能够利用自然语言处理和机器学习技术，实现场地土壤污染问题的快速准确解答。在用户输入目标问题后，问题解答引擎首先对目标问题进行语义理解和意图识别，然后在场地土壤污染知识图谱中进行语义匹配、推理和检索，找到相关的目标实体、目标属性合目标关系，并生成准确的目标答案和解决方案。

用户交互模块140则提供了一个用户友好的界面，用户可以通过输入目标问题或浏览相关主题来获取场地土壤污染的问题解答和知识。具体地，用户界面可以设计为一个网页应用或移动应用，通过图形化界面展示问题解答结果，并提供交互功能，如搜索、导航和反馈等。

通过上述具体实施例，本发明的场地土壤污染问答系统能够高效地收集、整理和利用场地土壤污染领域的知识，为用户提供快速准确的问题解答和相关知识服务，有助于推动场地土壤污染治理和管理的发展。具体地，本发明的场地土壤污染问答系统能够提供快速准确的场地土壤污染问题解答，用户可以通过问答系统快速获取关于场地土壤污染的问题解答和相关知识；本发明的场地土壤污染问答系统还可以促进场地土壤污染领域的知识共享，其中构建的场地土壤污染知识图谱可作为一个综合性的场地土壤污染知识库，促进知识的共享和交流；本发明的场地土壤污染问答系统还有助于辅助决策和管理，相关部门和专业人员可以利用该系统获取场地土壤污染领域的问题解答和决策支持，有助于场地土壤污染治理和管理工作的开展。

具体地，在一些实施例中，数据整合模块110中通过自然语言处理技术对文本数据进行处理和分析，以提取场地土壤污染数据的步骤，具体可以包括：首先通过分词、词性标注和构建词典，对所述文本数据进行格式转换；然后将所述文本数据中的每个词标注为其所属的实体类型；接着，基于预训练的语义信息，通过BERT提取词的特征，将每个词转化为对应的BERT词向量，形成词向量序列；然后，通过双向长短时记忆网络对所述词向量序列进行编码，并基于注意力机制和上下文依赖关系，获取所述文本数据中的上下文信息；再基于标签依赖关系和所述上下文信息，通过条件随机场序列模型，生成实体标注序列；最后，基于所述实体标注序列，提取所述文本数据中的场地土壤污染数据，所述场地土壤污染数据包括场地土壤污染实体、场地土壤污染属性和场地土壤污染关系。

具体地，在本发明中，当涉及到将文本数据中的实体、关系和属性值进行抽取时，通常可以采用序列标注（Sequence Labeling）的方法，结合深度学习模型，如BERT-BiLSTM-Attention-CRF，来识别和标注文本中的实体和关系。

其中，首先，需要将文本数据进行预处理，将其转化为适合模型处理的格式。这包括分词、词性标注、构建词典等步骤。

然后则进行实体标注，即在实体抽取时，可以将文本中的每个词标注为其所属的实体类型。其中，对词进行标注的方式可以是BIO标注。例如，对于句子“在地点A发现了重金属污染”，可能会标注为“在地点B-地点发现了重金属污染B-污染性质”。这里的“B-地点”和“B-污染性质”表示对应的实体类型，“B”表示该实体类型的开始。

接着进行BERT特征提取，即将每个词转化为对应的BERT词向量，这些向量保留了词的语义信息。其中，BERT代表来自Transformer的双向编码器表示（BidirectionalEncoder Representations from Transformers），BERT模型可以在预训练的基础上对这些词向量进行微调。

接着使用BiLSTM和Attention来捕捉上下文信息，即使用双向长短时记忆网络（Bi-directional Long Short-Term Memory，BiLSTM）对序列进行编码，这有助于捕捉上下文信息。之后，应用注意力机制（Attention）来聚焦于关键部分，帮助模型集中处理和理解与实体抽取相关的上下文。

然后再通过CRF层获得实体标注序列。条件随机场（Conditional Random Fields，CRF）是一种序列模型，可以在序列标注任务中帮助考虑标签之间的依赖关系。CRF层可以根据模型的输出和上下文信息来优化标签的分布，从而得到更加合理的实体标注序列。

通过这些步骤，BERT-BiLSTM-Attention-CRF模型可以识别和标注文本中的实体，这些实体可能是场地、污染性质、地理位置等。此外，模型还可以识别和标注实体之间的关系，例如场地和污染之间的关系。

BERT-BiLSTM-Attention-CRF模型在实体抽取任务中结合了预训练的语义信息、上下文依赖关系和标签依赖关系，能够有效地从文本中提取出实体、关系和属性值信息，用于构建知识图谱数据层。

另外，通过上述的BERT-BiLSTM-Attention-CRF模型进行实体抽取的方式还可以应用在其他模块中。

在一些实施例中，本发明所构建的场地土壤污染知识图谱可以包括模式层和数据层；其中，模式层用于定义概念节点，包括概念实体和概念属性，以及概念节点间的层级语义关系与约束规则；数据层则用于基于场地土壤污染数据获取场地土壤污染实例的具体要素，该具体要素包括实体类型、实体属性和实体关系，并建立具体要素与对应的概念节点之间的映射；而图谱构建模块120具体可以用于构建场地土壤污染知识图谱的模式层；以及构建场地土壤污染知识图谱的数据层。

如图2所示，图2是本发明根据一实施例示出的一种构建场地土壤污染知识图谱的模式层和数据层的示意图。其中，场地土壤污染知识图谱的构建以场地与污染两部分的本体设计为基础，针对场地和污染领域实体结构统一、信息内容及语义关联多样化特点，通过自顶向下与自底而上相结合的方法构建场地土壤污染知识图谱。即模式层自顶向下定义概念实体及其属性、层级语义关系与约束规则等，构建准确、结构层次分明的概念体系架构。数据层则自底而上，对基础地理信息数据、统计年鉴、环境统计年报、场地土壤污染调查报告、文献报告、互联网泛在文本等不同数据，抽取实体信息及语义关联，对不同来源知识进行对齐与融合，并将场地性质、地质环境、污染类型及防治措施等的具体实例要素进行分解，建立具体要素与相关概念节点间的映射，形成模式层到数据层的映射，构建综合化的场地土壤污染知识图谱，并以图数据库的形式存储。

具体地，在一些实施例中，构建场地土壤污染知识图谱的模式层的方式具体可以包括：首先定义模式层中所包含的核心概念；该核心概念至少包括场地、污染、场地相关概念和污染相关概念；接着，通过本体建模语言构建核心概念的概念节点；其中，概念节点包括概念实体和概念属性；最后，在概念节点中，确定概念节点之间的层次关系、语义关系和属性关系。

具体地，按照本发明所呈现的自顶向下场地土壤污染知识图谱构建方法，首先构建场地土壤污染知识图谱模式层，首先可以构建包含场地、污染、场地相关概念和污染相关概念，例如场地性质、地质环境、污染类型及防治措施等核心要素的场地土壤污染本体，同时对本体概念间层次关系、要素属性关系及概念间语义关系进行形式化定义，最终构建模式层。

具体地，首先进行概念设计，明确定义模式层所需的核心概念，这些概念包括场地性质、地质环境、污染类型、防治措施等。需要确定这些概念之间的层次关系、属性关系和语义关系。

然后，进行本体建模。基于概念设计，可以使用本体建模语言（如OWL）来实际构建本体。具体包括创建类（概念）、属性（特征）以及定义它们之间的关系。例如，创建一个“场地性质”类，定义它的属性如“土壤类型”、“地理位置”、“土地利用现状”、“历史使用情况”等。

然后，再进行概念层次关系定义。在本体中，需要明确定义概念之间的关系。这可能包括子类关系、实例关系、属性关系等。例如，某个“污染类型”可能是“重金属污染”的子类，具有特定的属性。

然后，进行语义关系建立。为了使模式层具有更强的语义表达能力，需要定义概念之间的语义关系，如同义关系、反义关系等。这可以帮助系统更好地理解和推理概念之间的关联。

最后，在构建完上述的概念层次体系后，可以构建数据层进行实例化，即将现实世界中的具体实例映射到本体中的概念。例如，特定地理位置上的土壤样本可以被实例化为“土壤样本”类的一个实例。

另外，在完成实例化之后，还可以进行本体验证与迭代，即构建后的本体需要进行验证，确保其在描述场地土壤污染领域时准确无误。然后可以进行多次迭代，根据专家意见和实际数据进行调整和完善。

在本发明中，构建模式层的过程中涉及了从概念设计到本体建模的一系列步骤，旨在将场地土壤污染领域的知识形式化为计算机可理解的结构。其实际的实现过程涉及使用本体编辑工具、编写本体描述语言代码等任务，以创建出一个能够准确描述场地土壤污染领域的知识图谱模式层。其具体步骤和结果可以根据项目需求和工具的选择而有所不同，本发明对此不作限制。

具体地，在一些实施例中，在构建模式层的过程中，在定义核心概念时，核心概念中的场地相关概念至少可以包括场地性质（例如地理位置、范围、用地性质、历史使用情况、面积等）、环境敏感目标（例如方位、距离、性质等）、地质环境、气候气象信息、产污情况、潜在污染区域、地下水样点信息、土壤样点信息、污染企业信息和综合评估结论等；而污染相关概念则至少可以包括污染类型（例如种类、简介、预防措施、污染源、易污染介质、污染途径等）、监测手段、评估方法、多重污染、现象、生态影响、人体健康风险、修复技术、专家建议和防治措施等。而在模式层中可以通过场地与污染两实体将这些信息链接起来。

如图3所示，图3是本发明根据一实施例示出的一种场地土壤污染知识图谱的模式层的示意图。从图中可以看出，所构建的场地土壤污染模式层能够对场地土壤污染时空演化过程及场地土壤污染事件进行完整性描述，同时也能够将地质环境、防治措施等之间语义关系进行表达，形成对场地土壤污染的整体描述，理清各场地土壤污染事件之间的成因关系、相互转化机理和潜在风险，查明并掌握其发生、发展和转换等演变规则，可为场地土壤污染治理提供可靠的理论依据和技术支撑，以提高场地土壤污染的防治水平。

具体地，在一些实施例中，构建场地土壤污染知识图谱的数据层的方式具体可以包括：首先基于场地土壤污染数据提取场地土壤污染实例的实体属性和实体关系，并识别实体类型；再建立实体属性、实体关系和实体类型与核心概念之间的属性关系、语义关系和层次关系之间的映射，形成模式层到数据层的映射。

具体地，模式层到数据层的映射主要是通过建立场地土壤污染实体、语义关系和自然语言描述对照词典实现关联，如拓扑相离关系和拓扑包含关系对应方位词，拓扑相交关系对应空间动词。基于自底向上的方法从基础地理信息、统计年鉴、环境统计年报、场地土壤污染调查报告、文献报告、互联网泛在文本等不同数据获取多源数据，按照场地土壤污染本体结构，从多源数据中获取了场地土壤污染发生的位置、地质环境、地块历史使用情况、土壤样点信息、现象、产污情况、周边污染企业分布等，对场地土壤污染实例基于上面所述的基于BERT-BiLSTM-Attention-CRF的方法进行实体、关系及属性值的抽取。最后再利用图数据库存储上述抽取实体及关系。

具体地，在一些实施例中，本发明所使用的图数据库可以是Neo4j图数据库。Neo4j是一个开源的NoSQL图形数据库，是目前世界上最先进的图数据库之一，提供原生的图数据存储，检索和处理；其采用了属性图模型，极大的完善和丰富图数据模型；而且其具有专属查询语言Cypher，具有直观高效的优点。在一些实施例中，也可以使用其他的图数据库存储场地土壤污染知识图谱，例如NebulaGraph和Amazon Neptune，本发明对此不作限制。

由于场地土壤污染领域的知识不断演化，新的污染类型、治理技术和法规可能会不断出现。因此，还可以设计一个有效的知识图谱拓展和更新机制，以确保系统始终能够提供最新的信息。具体地，在一些实施例中，数据整合模块110还可以用于从若干数据源中定期收集与场地土壤污染相关的新文本数据，并从新文本数据提取新场地土壤污染数据；然后图谱构建模块120还用于根据新场地土壤污染数据，更新图数据库中存储的所述场地土壤污染知识图谱。

具体地，在一些实施例中，如图4所示，图4是本发明根据一实施例示出的一种问答引擎模块130的结构示意图，本发明所述场地土壤污染问答系统的问答引擎模块130具体可以包括以下模块：

问题处理模块1301，用于对目标问题进行信息抽取，以提取关键信息，以及根据关键信息确定用户意图；

问题匹配模块1302，用于基于用户意图，通过预先训练的问题分类器确定目标问题所属的问题类别，以及根据问题类别生成问题模板；

答案生成模块1303，用于根据问题模板和关键信息构建查询语句，以及根据查询语句从图数据库中查找与目标问题对应的目标实体、目标属性和目标关系，以及根据目标实体、目标属性和目标关系生成目标答案。

本发明的问答引擎模块130中是基于机器学习和自然语言处理技术设计的，能够根据用户的问题提供准确的答案或建议。

其中，问题处理模块1301负责自然语言问句的处理，一方面，通过对目标问题中的自然语言问句进行信息抽取，获取问句中的询问主体对象和关键信息；另一方面，则可以根据前面获得的关键信息确定用户意图，具体地，可以使用sklearn中的TF-IDF工具来了解用户意图，进行语义解析。

在问题匹配模块1302中，可以首先通过设计的问题数据集训练问题分类器，并设计用户提问的语句，并抽象为分类问题，进而对各个类别的问题进行抽象，得到了用户各种问题的模板。在这个阶段中，可以将根据问题分类器的分类结果，对每个问题类别设计一个问题模板，用于抽象用户提问的目标问题。首先，可以使用训练好的问题分类器，将用户的提问归类到特定的问题类别；然后再针对每个问题类别，设计一个问题模板，将通用的问题内容进行抽象。例如，对于类别“污染查询”，问题模板可能是“查询地点X是否存在Y类型的污染？”。最后，将设计好的问题模板与对应的问题类别进行关联，以便后续使用。而问题匹配模块1302则可以基于用户意图，通过预先训练的问题分类器确定目标问题所属的问题类别，以及根据问题类别生成问题模板。

在答案生成模块1303中，根据数据检索模块生成的问题模板，在存储场地土壤污染知识图谱的图数据库中通过查询语句检索与问题相关的实体节点或是关系边，从而得到目标答案返回给用户。具体地，当所使用的图数据库为Neo4j图数据库时，其所构建的查询语句可以是Cypher语句。

具体地，在本发明的问答引擎模块130中，可以利用自然语言处理技术对用户提出的问题进行语义解析和理解，将问题转化为机器可处理的形式。

其中，在问题处理模块1301中可以利用自然语言处理技术对目标问题文本进行预处理，具体可以包括意图识别、命名实体识别和意图推理三个部分。其中，意图识别用于对输入的问句按照意图进行分类，判断问句是的具体意图（例如‘pollution_block’代表查找xx场地的xx污染或者xx污染是否存在于xx场地）；命名实体识别则用于识别专业意图的问句中的专业命名实体；意图推理则用于识别专业意图问句的具体细分意图。

具体地，意图识别旨在将用户的输入问句分类到预定义的意图类别中，从而确定用户询问的目的。一种常见的方法是使用文本分类技术，包括：数据准备：收集一组标注好的问句，每个问句都标有对应的意图类别，而且这些数据还将用于训练和评估模型；特征提取：将文本数据转化为机器学习可用的数值表示形式，常见的方法包括词袋模型、TF-IDF向量、词嵌入等；模型训练：使用标注好的数据训练一个分类模型，如支持向量机（SVM）、朴素贝叶斯、深度学习模型等；进行模型评估：使用预留的测试数据评估模型的性能，通常使用准确率、召回率、F1分数等指标进行评估。

具体地，命名实体识别旨在从用户的问句中识别并标注出专业领域中的命名实体，如地点、污染类型等，具体包括：数据准备：类似于意图识别，需要标注好的数据，其中命名实体应该被标注出来；特征提取：类似于意图识别，将文本数据转化为模型可用的表示形式；模型训练：使用标注好的数据训练一个序列标注模型，如循环神经网络（RNN）、BiLSTM等；模型评估：使用测试数据评估模型的性能，评估指标通常包括实体级别的准确率、召回率、F1分数。

具体地，意图推理旨在进一步细分意图，以便更准确地理解用户的意图。这通常需要根据用户问题的背景和上下文来进行判断，包括：规则定义：预先定义一组规则，这些规则基于问题的关键词、特定模式等，以识别细分意图；模型训练：使用监督学习方法，将问题的上下文作为输入，细分意图作为标签，训练一个分类模型，本系统微调预训练的BERT模型，添加适当的输出层来执行细分意图的分类；模型评估：使用测试数据评估模型的性能，通常关注准确率等指标。

而在问题匹配模块1302中，可以根据命名实体和细分意图匹配问题模板，并通过槽位填充方式生成查询语句；而在答案生成模块1303中，则可以将查询语句在图数据库中进行查询，并将查询结果通过文本生成模型转换为自然语言形式的句子。

接下来，本发明将通过一个场地土壤污染问答的具体实施例来体现本发明所述的基于知识图谱的场地土壤污染问答系统的应用方式和操作流程。

如图5所示，图5是本发明根据一实施例示出的一种场地土壤污染问答实施例的流程图，包括以下步骤：

步骤S501，用户输入问题：“请问在场地A有没有场地土壤污染问题？”；

步骤S502，信息抽取：从问句中抽取关键信息（场地：场地A，问题：场地土壤污染）；

步骤S503，语义解析：分析关键词，确定用户意图（意图：场地土壤污染查询）；

步骤S504，问题分类器：将问句分类为“场地土壤污染查询”；

步骤S505，选择问题模板：“查询场地X是否存在Y类型地污染？”；

步骤S506，构建Cypher查询语句：“MATCH (site:Site {name: '场地A'})-[has:HAS]->(pollution:Pollution {type: '场地土壤污染'}) RETURN site, pollution”；

步骤S507，执行查询，在Neo4j中检索相关信息；

步骤S508，生成答案：“在场地A存在场地土壤污染问题，具体信息如下XXX”；

步骤S509，返回答案给用户。

其中，步骤S502和S502在问题处理模块1301中执行，步骤S503和S504则在问题匹配模块1302中执行，步骤S505、S506和S507则在答案生成模块1303中执行。

具体地，用户交互模块140，可以是用户友好的界面，使用户可以方便地提出问题、获取答案，并提供相关的可视化展示。

本发明所述的基于知识图谱的场地土壤污染问答系统能够增强对问题的理解和解析，传统问答系统可能在理解复杂领域特定问题时存在困难，而本发明引入了针对场地土壤污染的问题领域的专业化问题理解和解析模块，确保系统能够准确理解用户的查询。本发明所述的基于知识图谱的场地土壤污染问答系统还针对场地土壤污染领域的特点，深度整合了相关领域的知识，包括土壤化学、环境法规、污染源等方面的知识，从而提供更全面准确的答案。本发明所述的基于知识图谱的场地土壤污染问答系统能够在回答用户查询时，不仅仅是返回一般性的答案，还能够生成与场地土壤污染情境相关的具体解释和建议。

另外，针对场地土壤污染涉及多个交叉学科，涵盖化学、环境科学、地质学等领域，将这些领域的专业知识整合到一个系统中比较困难的问题，可以通过在系统开发过程中，邀请场地土壤污染领域的专家参与，以确保系统能够准确地理解和回答专业问题。而对于场地土壤污染数据可能来自不同的来源，可能存在不一致性和不确定性，则可以利用自然语言处理和数据挖掘技术，从基础地理信息、统计年鉴、环境统计年报、场地土壤污染调查报告、文献报告等大量数据中自动提取和更新领域知识，保持知识图谱的时效性。另外，用户可能会提出各种不同类型的问题，涵盖诊断、治理建议、法规解释等，而本发明所述场地土壤污染问答系统可以开发语境感知型的答案生成模块1303，能够根据用户的问题和背景信息生成更具体、有针对性的答案。进一步地，还可以在用户交互模块140中引入用户反馈环节，持续改进系统的准确性和用户满意度。

综上所述，本发明在场地土壤污染领域将知识图谱和问答系统相结合，通过专业化问题理解、领域知识整合、特定领域答案生成以及知识图谱的拓展与更新等创新，解决了专业领域复杂性和数据不确定性等挑战，为用户提供了准确、全面的智能问答服务。

与前文所述的基于知识图谱的场地土壤污染问答系统实施例相对应，本发明还提供一种基于知识图谱的场地土壤污染问答方法。

如图6所示，图6是本发明根据一实施例示出的一种基于知识图谱的场地土壤污染问答方法的流程图，包括如下步骤：

步骤S601，获取用户输入的目标问题；

步骤S602，对目标问题进行语义理解和意图识别，获取目标问题的关键信息和用户意图；

步骤S603，根据关键信息和用户意图在预先构建的场地土壤污染知识图谱中进行语义匹配和数据检索，获取与目标问题对应的目标实体、目标属性和目标关系；

步骤S604，根据目标实体、目标属性和目标关系，生成对应目标问题的目标答案；

步骤S605，将目标答案返回给用户。

其中，场地土壤污染知识图谱包括场地土壤污染实体、场地土壤污染属性和场地土壤污染关系；场地土壤污染知识图谱根据场地土壤污染数据构建，并存储在图数据库中；场地土壤污染数据根据从若干数据源中收集与场地土壤污染相关的文本数据，并通过自然语言处理技术对文本数据进行处理和分析，以提取获得；数据源至少包括科研论文数据库、环境监测数据库、场地土壤污染调查报告和专家经验。

优选地，上述通过自然语言处理技术对文本数据进行处理和分析，以提取获得场地土壤污染数据，具体可以包括：

通过分词、词性标注和构建词典，对文本数据进行格式转换；

将文本数据中的每个词标注为其所属的实体类型；

通过双向长短时记忆网络对词向量序列进行编码，并基于注意力机制和上下文依赖关系，获取文本数据中的上下文信息；

基于标签依赖关系和上下文信息，通过条件随机场序列模型，生成实体标注序列；

基于实体标注序列，提取文本数据中的场地土壤污染数据，场地土壤污染数据包括场地土壤污染实体、场地土壤污染属性和场地土壤污染关系。

优选地，上述场地土壤污染知识图谱可以包括模式层和数据层；其中，模式层用于定义概念节点，包括概念实体和概念属性，以及概念节点间的层级语义关系与约束规则；数据层用于基于场地土壤污染数据获取场地土壤污染实例的具体要素，具体要素包括实体类型、实体属性和实体关系，并建立具体要素与对应的概念节点之间的映射。

优选地，在构建所述场地土壤污染知识图谱的模式层时，具体可以包括：

定义模式层中所包含的核心概念；核心概念至少包括场地、污染、场地相关概念和污染相关概念；

通过本体建模语言构建核心概念的概念节点；概念节点包括概念实体和概念属性；

在概念节点中，确定概念节点之间的层次关系、语义关系和属性关系。

优选地，上述场地相关概念至少可以包括场地性质、环境敏感目标、地质环境、气候气象信息、产污情况、潜在污染区域、地下水样点信息、土壤样点信息、污染企业信息和综合评估结论；

上述污染相关概念至少可以包括污染类型、监测手段、评估方法、多重污染、现象、生态影响、人体健康风险、修复技术、专家建议和防治措施。

优选地，在构建所述场地土壤污染知识图谱的数据层时，具体可以包括：

基于场地土壤污染数据提取场地土壤污染实例的实体属性和实体关系，并识别实体类型；

建立实体属性、实体关系和实体类型与核心概念之间的属性关系、语义关系和层次关系之间的映射，形成模式层到数据层的映射。

优选地，上述图数据库可以为Neo4j图数据库。

优选地，还可以从若干数据源中定期收集与场地土壤污染相关的新文本数据，并从新文本数据提取新场地土壤污染数据；

再根据新场地土壤污染数据，更新图数据库中存储的场地土壤污染知识图谱。

上述方法中各个步骤的功能和作用的实现过程具体详见上述系统中对应模块的具体功能，在此不再赘述。

对于方法实施例而言，由于其基本对应于系统实施例，所以相关之处参见系统实施例的部分说明即可。而本发明所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本发明方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于知识图谱的场地土壤污染问答系统，其特征在于，所述系统包括：

图谱构建模块，用于根据所述场地土壤污染数据构建场地土壤污染知识图谱，以及将所述场地土壤污染知识图谱存储在图数据库中；其中，所述场地土壤污染知识图谱包括场地土壤污染实体、场地土壤污染属性和场地土壤污染关系；所述场地土壤污染知识图谱包括模式层和数据层；其中，所述模式层用于定义概念节点，包括概念实体和概念属性，以及概念节点间的层级语义关系与约束规则；所述数据层用于基于所述场地土壤污染数据获取场地土壤污染实例的具体要素，所述具体要素包括实体类型、实体属性和实体关系，并建立所述具体要素与对应的概念节点之间的映射；

用户交互模块，用于获取用户输入的目标问题，以及将所述目标答案返回给所述用户；

其中，所述图谱构建模块具体用于：

构建所述场地土壤污染知识图谱的模式层，具体包括：

在所述概念节点中，确定所述概念节点之间的层次关系、语义关系和属性关系；

以及构建所述场地土壤污染知识图谱的数据层，具体包括：

建立所述实体属性、所述实体关系和所述实体类型与所述核心概念之间的属性关系、语义关系和层次关系之间的映射，形成所述模式层到所述数据层的映射；

其中，所述问答引擎模块具体包括：

问题处理模块，用于对所述目标问题进行信息抽取，以提取关键信息，以及根据所述关键信息确定用户意图；具体用于通过文本分类技术对所述目标问题进行意图识别，以及从所述目标问题中识别命名实体，以及通过预先训练的有监督学习分类模型进行意图推理，确定所述用户意图；

2.根据权利要求1所述的系统，其特征在于，所述通过自然语言处理技术对所述文本数据进行处理和分析，以提取场地土壤污染数据，具体包括：

将所述文本数据中的每个词标注为其所属的实体类型；

3.根据权利要求1所述的系统，其特征在于，所述场地相关概念至少包括场地性质、环境敏感目标、地质环境、气候气象信息、产污情况、潜在污染区域、地下水样点信息、土壤样点信息、污染企业信息和综合评估结论；

4.根据权利要求1所述的系统，其特征在于，所述图数据库为Neo4j图数据库。

5.根据权利要求1所述的系统，其特征在于，所述数据整合模块还用于从所述若干数据源中定期收集与场地土壤污染相关的新文本数据，并从所述新文本数据提取新场地土壤污染数据；

6.一种基于知识图谱的场地土壤污染问答方法，其特征在于，所述方法包括：

获取用户输入的目标问题；

对所述目标问题进行语义理解和意图识别，获取所述目标问题的关键信息和用户意图；其中包括对所述目标问题进行信息抽取，以提取关键信息，以及根据所述关键信息确定用户意图；其中包括通过文本分类技术对所述目标问题进行意图识别，以及从所述目标问题中识别命名实体，以及通过预先训练的有监督学习分类模型进行意图推理，确定所述用户意图；

根据所述关键信息和用户意图在预先根据场地土壤污染数据构建并存储在图数据库中的场地土壤污染知识图谱中进行语义匹配和数据检索，获取与所述目标问题对应的目标实体、目标属性和目标关系；其中包括基于所述用户意图，通过预先训练的问题分类器确定所述目标问题所属的问题类别，以及根据所述问题类别生成问题模板；以及根据所述问题模板和所述关键信息构建查询语句，以及根据所述查询语句从所述图数据库中查找与所述目标问题对应的目标实体、目标属性和目标关系；

将所述目标答案返回给用户；

其中，所述场地土壤污染知识图谱包括场地土壤污染实体、场地土壤污染属性和场地土壤污染关系；所述场地土壤污染数据根据从若干数据源中收集与场地土壤污染相关的文本数据，并通过自然语言处理技术对所述文本数据进行处理和分析，以提取获得；所述数据源至少包括科研论文数据库、环境监测数据库、场地土壤污染调查报告和专家经验；

所述场地土壤污染知识图谱包括模式层和数据层；其中，所述模式层用于定义概念节点，包括概念实体和概念属性，以及概念节点间的层级语义关系与约束规则；所述数据层用于基于所述场地土壤污染数据获取场地土壤污染实例的具体要素，所述具体要素包括实体类型、实体属性和实体关系，并建立所述具体要素与对应的概念节点之间的映射；

其中，所述模式层基于以下方法构建：

所述数据层基于以下方法构建：