CN118152525A

CN118152525A - 基于知识图谱技术的水利知识服务系统

Info

Publication number: CN118152525A
Application number: CN202311232450.9A
Authority: CN
Inventors: 胡万元; 郭龙; 郭少青; 张晓波; 张新雨; 傅明月
Original assignee: Zhongshui Culture Technology Zhengzhou Co ltd
Current assignee: Zhongshui Culture Technology Zhengzhou Co ltd
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2024-06-07

Abstract

本申请公开了一种基于知识图谱技术的水利知识服务系统，其通过从水利领域的文本、数据库、专家等多种数据源中抽取实体、属性和关系，构建水利领域的本体模型，并将本体模型实例化为水利知识图谱，形成一个包含丰富水利知识的大规模图数据库。这样，在进行水利知识检索问答的过程中，通过自然语言处理和语义搜索等技术，对用户输入的自然语言问题和知识图谱中的答案进行语义理解和匹配，从而根据用户的输入问题匹配适配度更高的答案语义。这样，能够为用户提供智能化的水利知识检索、推荐和问答等服务，提高用户问题回答的准确性和可信度，保证水利知识的服务质量，提高水利知识服务系统的智能化水平和用户满意度。

Description

基于知识图谱技术的水利知识服务系统

技术领域

本申请涉及水利领域，且更为具体地，涉及一种基于知识图谱技术的水利知识服务系统。

背景技术

知识图谱是一种用于表示和存储知识的结构化数据模型，其能够表达实体、属性和关系等多维度的信息，可以将复杂的知识以图的形式进行组织和管理，从而提高知识的可理解性和可利用性。水利知识图谱数据来自预案库、业务规则库、专家经验库、历史场景模式库等知识库。水利知识服务系统是一种基于知识图谱技术的智能系统，它能够通过构建水利领域的知识图谱，实现对水利知识的组织、管理和应用，为水利领域的用户提供高效、准确、个性化的知识服务。

然而，传统的水利知识服务系统主要依赖于关键词匹配和规则模板等方法来实现水利知识的检索、推荐和问答等功能，无法有效地理解用户的真实需求，导致检索结果与用户需求不一致或不准确。并且，传统系统也无法充分地利用水利领域的专业知识和背景信息，导致推荐内容缺乏针对性和深度。同时，这种方式也不能灵活地处理复杂和多样的水利方面问题，导致问答效果不理想或无法回答。

因此，为了提高水利知识服务系统的智能化水平，期望一种优化的基于知识图谱技术的水利知识服务系统。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于知识图谱技术的水利知识服务系统，其通过从水利领域的文本、数据库、专家等多种数据源中抽取实体、属性和关系，构建水利领域的本体模型，并将本体模型实例化为水利知识图谱，形成一个包含丰富水利知识的大规模图数据库。这样，在进行水利知识检索问答的过程中，通过自然语言处理和语义搜索等技术，对用户输入的自然语言问题和知识图谱中的答案进行语义理解和匹配，从而根据用户的输入问题匹配适配度更高的答案语义。这样，能够为用户提供智能化的水利知识检索、推荐和问答等服务，提高用户问题回答的准确性和可信度，保证水利知识的服务质量，提高水利知识服务系统的智能化水平和用户满意度。

根据本申请的一个方面，提供了一种基于知识图谱技术的水利知识服务系统，其包括：

水利问题采集模块，用于获取用户输入的水利方面问题；

问题语义理解模块，用于对所述水利方面问题进行语义完善和语义理解以得到水利方面问题语义编码特征；

备选答案提取模块，用于从水利知识图谱提取第一备选答案；

备选答案语义理解模块，用于对所述第一备选答案进行语义理解以得到第一备选答案语义编码特征；

问题-答案语义交互关联编码模块，用于对所述水利方面问题语义编码特征和所述第一备选答案语义编码特征进行特征级注意力交互关联编码以得到水利问题-答案语义交互特征；

问题-答案适配度评估模块，用于基于所述水利问题-答案语义交互特征，确定所述水利方面问题与所述第一备选答案之间的适配度是否超过预定阈值。

与现有技术相比，本申请提供的一种基于知识图谱技术的水利知识服务系统，其通过从水利领域的文本、数据库、专家等多种数据源中抽取实体、属性和关系，构建水利领域的本体模型，并将本体模型实例化为水利知识图谱，形成一个包含丰富水利知识的大规模图数据库。这样，在进行水利知识检索问答的过程中，通过自然语言处理和语义搜索等技术，对用户输入的自然语言问题和知识图谱中的答案进行语义理解和匹配，从而根据用户的输入问题匹配适配度更高的答案语义。这样，能够为用户提供智能化的水利知识检索、推荐和问答等服务，提高用户问题回答的准确性和可信度，保证水利知识的服务质量，提高水利知识服务系统的智能化水平和用户满意度。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的基于知识图谱技术的水利知识服务系统的框图；

图2为根据本申请实施例的基于知识图谱技术的水利知识服务系统的系统架构图；

图3为根据本申请实施例的基于知识图谱技术的水利知识服务系统的训练阶段的框图；

图4为根据本申请实施例的基于知识图谱技术的水利知识服务系统中问题语义理解模块的框图；

图5为智慧水利总体框架图；

图6为数字孪生流域建设框架图；

图7为水利知识平台建设框架图；

图8为水利知识图谱构建流程图；

图9为实体链接流程图；

图10为非结构化数据抽取图；

图11为知识融合的整体流程图；

图12为三元组表示法是示意图；

图13为RDFS表示法示意图；

图14为业务规则库内容结构示意图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

传统的水利知识服务系统主要依赖于关键词匹配和规则模板等方法来实现水利知识的检索、推荐和问答等功能，无法有效地理解用户的真实需求，导致检索结果与用户需求不一致或不准确。并且，传统系统也无法充分地利用水利领域的专业知识和背景信息，导致推荐内容缺乏针对性和深度。同时，这种方式也不能灵活地处理复杂和多样的水利方面问题，导致问答效果不理想或无法回答。因此，为了提高水利知识服务系统的智能化水平，期望一种优化的基于知识图谱技术的水利知识服务系统。

在本申请的技术方案中，提出了一种基于知识图谱技术的水利知识服务系统。图1为根据本申请实施例的基于知识图谱技术的水利知识服务系统的框图。图2为根据本申请实施例的基于知识图谱技术的水利知识服务系统的系统架构图。如图1和图2所示，根据本申请的实施例的基于知识图谱技术的水利知识服务系统300，包括：水利问题采集模块310，用于获取用户输入的水利方面问题；问题语义理解模块320，用于对所述水利方面问题进行语义完善和语义理解以得到水利方面问题语义编码特征；备选答案提取模块330，用于从水利知识图谱提取第一备选答案；备选答案语义理解模块340，用于对所述第一备选答案进行语义理解以得到第一备选答案语义编码特征；问题-答案语义交互关联编码模块350，用于对所述水利方面问题语义编码特征和所述第一备选答案语义编码特征进行特征级注意力交互关联编码以得到水利问题-答案语义交互特征；问题-答案适配度评估模块360，用于基于所述水利问题-答案语义交互特征，确定所述水利方面问题与所述第一备选答案之间的适配度是否超过预定阈值。

特别地，所述水利问题采集模块310，用于获取用户输入的水利方面问题。其中，所述水利方面问题包括水资源管理问题、水文问题、水环境问题等等。

特别地，所述问题语义理解模块320，用于对所述水利方面问题进行语义完善和语义理解以得到水利方面问题语义编码特征。特别地，在本申请的一个具体示例中，如图4所示，所述问题语义理解模块320，包括：问题语义完善单元321，用于将所述水利方面问题通过基于AIGC模型的问题语义完善器以得到语义优化水利方面问题；水利问题语义编码单元322，用于使用第一语义编码器对所述语义优化水利方面问题进行语义编码以得到水利方面问题语义编码特征向量作为所述水利方面问题语义编码特征。

具体地，所述问题语义完善单元321，用于将所述水利方面问题通过基于AIGC模型的问题语义完善器以得到语义优化水利方面问题。考虑到每个用户的语言习惯和表达方式可能有所不同，会导致输入的水利方面问题产生错误、语病或遗漏等问题，因此，为了能够对所述水利方面问题进行更为准确地语义理解和语义匹配，在本申请的技术方案中，进一步将所述水利方面问题通过基于AI GC模型的问题语义完善器以得到语义优化水利方面问题。应可以理解，通过所述基于AIGC模型的问题语义完善器，可以对所述水利方面问题进行语义优化，以得到更好的问题表达。也就是说，通过语义优化，可以更好地理解有关于用户输入的所述水利方面问题，并将其转化为更准确、更具表达力的问题。这有助于提高系统对用户输入的理解能力，从而提高系统回答用户问题的准确性和质量。

具体地，所述水利问题语义编码单元322，用于使用第一语义编码器对所述语义优化水利方面问题进行语义编码以得到水利方面问题语义编码特征向量作为所述水利方面问题语义编码特征。也就是，在本申请的技术方案中，为了能够对用户输入的所述语义优化水利方面问题进行语义理解，在本申请的技术方案中，进一步使用第一语义编码器来对所述语义优化水利方面问题进行语义编码以得到水利方面问题语义编码特征向量。这样，通过对所述语义优化水利方面问题进行语义编码，可以将用户提出的问题转化为特征向量的形式，以更好地表示该问题的语义理解特征信息，有助于提高系统对用户输入问题的语义理解能力，从而提高系统回答用户问题的准确性和质量。在一个示例中，对所述语义优化水利方面问题进行分词处理以将所述语义优化水利方面问题转化为由多个词组成的词序列；使用所述第一语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列；使用所述第一语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量；以及，将所述多个全局上下文语义特征向量进行级联以得到所述水利方面问题语义编码特征向量。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式对所述水利方面问题进行语义完善和语义理解以得到水利方面问题语义编码特征，例如：明确讨论的水利方面问题的范围，例如水资源管理、水文问题、水环境问题等；对每个问题概念进行定义和解释，确保对其含义和关键要素的准确理解；确定每个问题概念所涵盖的子概念，即相关的具体概念或主题。例如，水资源管理可以包括水资源评估、水资源规划、水资源调度等子概念；识别每个问题概念的属性和特征，包括关键指标、影响因素、相关数据等。例如，水文问题的属性可以包括降水量、径流量、地下水位等；建立问题概念之间的语义关联，确定它们之间的层次关系、依赖关系和交互作用。例如，水资源管理和水环境问题之间存在相互影响的关系；利用知识图谱或本体的方式，将问题概念、子概念、属性和特征以及语义关联进行编码和组织，形成结构化的知识表示；从知识图谱或本体中提取语义编码特征，可以是基于概念的特征向量、关系图谱的表示或者其他形式的编码特征；利用语义编码特征进行语义理解和推理，可以通过知识图谱查询、语义相似度计算等方法，实现对问题的深入理解和推断。

特别地，所述备选答案提取模块330，用于从水利知识图谱提取第一备选答案。也就是，在对于用户输入的水利方面问题进行语义理解后，还需要进行备选答案的语义理解，以此来从水利知识图谱中匹配语义相似度较高的备选答案。因此，在本申请的技术方案中，为了更好地表示备选答案的语义特征信息，需要进一步从水利知识图谱提取第一备选答案。值得一提的是，水利知识图谱是一种基于图谱技术构建的专门用于表示和组织水利领域知识的数据结构。它通过将水利领域的概念、实体、属性和关系进行编码和链接，形成一个结构化的知识网络，以便于对水利领域知识进行存储、查询和推理。

特别地，所述备选答案语义理解模块340，用于对所述第一备选答案进行语义理解以得到第一备选答案语义编码特征。特别地，在本申请的一个具体示例中，利用第二语义编码器对所述第一备选答案进行语义编码以得到第一备选答案语义编码特征向量。这样，通过对所述第一备选答案进行语义编码，可以将答案转化为特征向量的形式，从而有利于更为充分和准确地进行所述第一备选答案的语义理解，以便于更好地与水利方面问题进行语义比较和匹配。具体地，对所述第一备选答案进行分词处理以将所述第一备选答案转化为由多个词组成的词序列；使用所述第二语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列；使用所述第二语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量；以及，将所述多个全局上下文语义特征向量进行级联以得到所述第一备选答案语义编码特征向量。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式对所述第一备选答案进行语义理解以得到第一备选答案语义编码特征，例如：理解用户要求对第一备选答案进行语义理解以得到语义编码特征；识别第一备选答案中的关键信息，例如水利知识图谱、构建步骤、概念、实体、属性、关系等；从第一备选答案中提取出水利知识图谱中的概念和实体，例如水资源、水文、水环境、水灾害、水工程等；从第一备选答案中提取出水利知识图谱中的属性和关系，例如水资源的评估指标、水文数据的测量方法、水环境的污染因子等；根据提取的概念、实体、属性和关系，构建语义编码特征，可以使用结构化的数据表示形式，如图谱、关系数据库或其他合适的形式；将提取的语义编码特征组织成一个结构化的数据结构，以便于后续的应用和分析。

特别地，所述问题-答案语义交互关联编码模块350，用于对所述水利方面问题语义编码特征和所述第一备选答案语义编码特征进行特征级注意力交互关联编码以得到水利问题-答案语义交互特征。特别地，在本申请的一个具体示例中，使用特征间注意力层对所述第一备选答案语义编码特征向量和所述水利方面问题语义编码特征向量进行特征级注意力交互以得到水利问题-答案语义交互特征向量，以此来捕捉所述第一备选答案的语义理解特征和所述水利方面问题的语义理解特征之间的关联和相互影响。应可以理解，由于传统的注意力机制的目标是学习一个注意力权重矩阵，将较大的权重赋予重要的特征，较小的权重赋予次要的特征，从而选择出对当前任务目标更关键的信息。这种方式更侧重于对各个特征的重要性进行加权，而忽略了特征之间的依赖关系。而所述特征间注意力层能够通过基于注意力机制的特征交互，可以捕捉到所述第一备选答案的语义理解特征和所述水利方面问题的语义理解特征之间的相关性和相互影响，可以学习到不同特征之间的依赖关系，并根据这些依赖关系对特征进行交互和整合，从而得到水利问题-答案语义交互特征向量。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式对所述水利方面问题语义编码特征和所述第一备选答案语义编码特征进行特征级注意力交互关联编码以得到水利问题-答案语义交互特征，例如：根据问题和第一备选答案，将它们分别转化为对应的语义编码特征；问题语义编码特征和第一备选答案语义编码特征进行特征级的注意力交互，以捕捉它们之间的关联信息。可以使用注意力机制，计算问题特征与答案特征之间的注意力权重；将注意力权重应用于问题特征和答案特征，通过加权求和或其他方式，将问题特征和答案特征进行关联编码，得到水利问题-答案的语义交互特征；将得到的水利问题-答案语义交互特征组织成一个结构化的数据结构，以便于后续的应用和分析。

特别地，所述问题-答案适配度评估模块360，用于基于所述水利问题-答案语义交互特征，确定所述水利方面问题与所述第一备选答案之间的适配度是否超过预定阈值。在本申请的一个具体示例中，将所述水利问题-答案语义交互特征向量通过分类器以得到分类结果，所述分类结果用于表示所述水利方面问题与所述第一备选答案之间的适配度是否超过预定阈值。也就是说，将所述第一备选答案的语义理解特征和所述水利方面问题的语义理解特征之间的语义交互关联特征来进行分类处理，从而对于所述水利方面问题与所述第一备选答案之间的适配度进行评估判断。具体地，如果超过阈值，则返回所述第一备选答案给用户；如果不超过阈值，则继续从所述水利知识图谱中提取下一个备选答案，并重复上述过程，直到找到合适的答案或者达到最大尝试次数为止。通过这种方式，该系统可以实现对用户问题的深层理解和精准回复，提高水利知识服务系统的智能化水平和用户满意度。具体地，使用所述分类器的多个全连接层对所述水利问题-答案语义交互特征向量进行全连接编码以得到编码分类特征向量；以及，将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

分类器是指一种机器学习模型或算法，用于将输入数据分为不同的类别或标签。分类器是监督学习的一部分，它通过学习从输入数据到输出类别的映射关系来进行分类任务。

全连接层是神经网络中常见的一种层类型。在全连接层中，每个神经元都与上一层的所有神经元相连接，每个连接都有一个权重。这意味着全连接层中的每个神经元都接收来自上一层所有神经元的输入，并通过权重对这些输入进行加权求和，然后将结果传递给下一层。

Softmax分类函数是一种常用的激活函数，用于多分类问题。它将输入向量的每个元素转化为一个介于0和1之间的概率值，并且这些概率值的和等于1。Softmax函数常用于神经网络的输出层，特别适用于多分类问题，因为它能够将网络输出映射为各个类别的概率分布。在训练过程中，Softmax函数的输出可以用于计算损失函数，并通过反向传播算法来更新网络参数。值得注意的是，Softmax函数的输出并不会改变元素之间的相对大小关系，只是对其进行了归一化处理。因此，Softmax函数并不改变输入向量的特性，只是将其转化为概率分布形式。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式基于所述水利问题-答案语义交互特征，确定所述水利方面问题与所述第一备选答案之间的适配度是否超过预定阈值，例如：确定用于衡量水利问题与第一备选答案之间适配度的度量指标，例如相似度、相关性或其他适当的度量方式；根据所选的度量指标，计算水利问题与第一备选答案之间的适配度度量值。这可以通过比较水利问题-答案语义交互特征中的相关特征、相似性度量或其他方法来完成；将计算得到的适配度度量值与预定的阈值进行比较。如果适配度度量值超过预定阈值，则认为水利问题与第一备选答案适配度较高；如果适配度度量值低于或等于预定阈值，则认为适配度较低；根据比较的结果，判断水利问题与第一备选答案之间的适配度是否超过预定阈值。如果超过阈值，可以认为第一备选答案较为匹配；如果未超过阈值，则可能需要考虑其他备选答案或进一步改进匹配方法。

应可以理解，在利用上述神经网络模型进行推断之前，需要对所述第一语义编码器、所述第二语义编码器、所述特征间注意力层和所述分类器进行训练。也就是说，在本申请的基于知识图谱技术的水利知识服务系统300中，还包括训练阶段400，用于对所述第一语义编码器、所述第二语义编码器、所述特征间注意力层和所述分类器进行训练。

图3为根据本申请实施例的基于知识图谱技术的水利知识服务系统的训练阶段的框图。如图3所示，根据本申请实施例的基于知识图谱技术的水利知识服务系统300，包括：训练阶段400，包括：训练数据采集单元410，用于获取训练数据，所述训练数据包括用户输入的训练水利方面问题，从所述水利知识图谱提取训练第一备选答案，以及，所述训练水利方面问题与所述训练第一备选答案之间的适配度是否超过预定阈值的真实值；训练问题语义优化单元420，用于将所述训练水利方面问题通过所述基于AIGC模型的问题语义完善器以得到训练语义优化水利方面问题；训练问题语义编码单元430，用于使用所述第一语义编码器对所述训练语义优化水利方面问题进行语义编码以得到训练水利方面问题语义编码特征向量；训练答案语义编码单元440，用于使用所述第二语义编码器对所述训练第一备选答案进行语义编码以得到训练第一备选答案语义编码特征向量；训练问题-答案语义特征交互单元450，用于使用所述特征间注意力层对所述训练第一备选答案语义编码特征向量和所述训练水利方面问题语义编码特征向量进行特征级注意力交互以得到训练水利问题-答案语义交互特征向量；分类损失单元460，用于将所述训练水利问题-答案语义交互特征向量通过所述分类器以得到分类损失函数值；模型训练单元470，用于基于所述分类损失函数值并通过梯度下降的方向传播来对所述第一语义编码器、所述第二语义编码器、所述特征间注意力层和所述分类器进行训练，其中，在所述训练的每次迭代时，对所述训练水利问题-答案语义交互特征向量进行权重空间迭代递归的定向提议化优化。

特别地，在本申请的技术方案中，所述第一备选答案语义编码特征向量和所述水利方面问题语义编码特征向量分别表达所述第一备选答案和所述水利方面问题的文本语义编码特征，由此，在使用特征间注意力层对所述第一备选答案语义编码特征向量和所述水利方面问题语义编码特征向量进行特征级注意力交互，所得到的所述水利问题-答案语义交互特征向量可以表达所述第一备选答案和所述水利方面问题的文本语义编码特征之间的依赖关系特征，由此所述水利问题-答案语义交互特征向量同时包含了文本语义特征和文本语义关系特征，从而在提升所述水利问题-答案语义交互特征向量在文本语义空间的空间内-空间交互尺度下的特征表达效果，但是，这也会使得所述水利问题-答案语义交互特征向量在通过分类器进行分类时，所述分类器的权重矩阵相对于归属于预定文本语义空间尺度的类标签的收敛困难，影响分类器的训练效果。因此，本申请的申请人在将所述水利问题-答案语义交互特征向量通过分类器进行分类时，在每个迭代时，对所述水利问题-答案语义交互特征向量进行权重空间迭代递归的定向提议化优化，具体表示为：

V'_c＝[V₁⊙exp(V₁)]⊕[V₂⊙exp(V₂)]

其中M₁和M₂分别是上次和本次迭代的权重矩阵，V_c是所述训练水利问题-答案语义交互特征向量，表示矩阵乘法，⊙表示按位置点乘，exp(·)表示向量的指数运算，所述向量的指数运算表示计算以向量中的各个位置的特征值为幂的自然指数函数值，V'_c表示所述优化训练水利问题-答案语义交互特征向量。这里，所述权重空间迭代递归的定向提议化优化可以通过将初始的待分类的所述水利问题-答案语义交互特征向量V_c作为锚点，来在权重空间内基于权重矩阵迭代的对应于所述水利问题-答案语义交互特征向量V_c的不同文本语义空间尺度方向获得不同文本语义特征分布维度下的锚点足迹(anchor footprint)，以作为在权重空间迭代递归的定向提议(oriented proposal)，从而基于预测提议地提升权重矩阵收敛的类置信度和局部精确性，以提升所述水利问题-答案语义交互特征向量通过分类器的训练效果。这样，能够为用户提供智能化的水利知识检索、推荐和问答等服务，提高用户问题回答的准确性和可信度，从而可以有效地解决水利领域用户在获取和使用水利知识方面遇到的问题，保证水利知识的服务质量，提高水利知识服务系统的智能化水平和用户满意度。

如上所述，根据本申请实施例的基于知识图谱技术的水利知识服务系统300可以实现在各种无线终端中，例如具有基于知识图谱技术的水利知识服务算法的服务器等。在一种可能的实现方式中，根据本申请实施例的基于知识图谱技术的水利知识服务系统300可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如，该基于知识图谱技术的水利知识服务系统300可以是该无线终端的操作系统中的一个软件模块，或者可以是针对于该无线终端所开发的一个应用程序；当然，该基于知识图谱技术的水利知识服务系统300同样可以是该无线终端的众多硬件模块之一。

替换地，在另一示例中，该基于知识图谱技术的水利知识服务系统300与该无线终端也可以是分立的设备，并且该基于知识图谱技术的水利知识服务系统300可以通过有线和/或无线网络连接到该无线终端，并且按照约定的数据格式来传输交互信息。

在一个具体示例中，图5为智慧水利总体框架图。如图5所示，智慧水利建设实施方案明确提出，要按照“需求牵引、应用至上、数字赋能、提升能力”要求，以数字化、网络化、智能化为主线，以数字化场景、智慧化模拟、精准化决策为路径，以构建数字孪生流域为核心，全面推进算据、算法、算力建设，加快构建具有预报、预警、预演、预案功能的智慧水利体系。数字孪生流域是智慧水利建设的核心，是以物理流域为单元、时空数据为底座、数学模型为核心、水利知识为驱动，对物理流域全要素和水利治理管理活动全过程进行数字映射、智能模拟、前瞻预演，与物理流域同步仿真运行、虛实交互、迭代优化，实现对物理流域的实时监控、发现问题、优化调度的新型基础设施。其中，图6为数字孪生流域建设框架图。数字孪生平台是数字孪生流域建设的基础，平台基于信息化基础设施，利用云计算、物联网、大数据、人工智能、遥感、数字仿真等技术，对物理流域全要素和水利治理管理活动全过程进行数字映射、智能模拟和前瞻预演，支撑水利业务“四预”功能实现。数字孪生平台主要由数据底板、模型平台和知识平台等构成，数据、模型、知识等资源及管理、表达、驱动这些资源的引擎组成的服务平台，提供在网络空间虚拟再现真实水利工程能力，为工程安全智能分析预警、防洪兴利智能调度等业务应用提供支撑。其中，数据底板的作用是汇聚水利信息网传输的各类数据，经处理后为模型平台和知识平台提供数据服务。知识平台是汇聚数据底板产生的相关数据、模型平台的分析计算结果，经水利知识引擎处理形成知识图谱服务水利业务应用。

水利知识平合利用知识图谱和机器学习等技术实现对水利对象关联关系和水利规律等知识的抽取、管理和组合应用，为数字孪生流域提供智能内核，支撑正向智能推理和反向溯因分析，主要包括水利知识和水利知识引擎。其中，水利知识提供描述原理、规律、规则、经验、技能、方法等的信息，水利知识引擎是组织知识、进行推理的技术工具，水利知识经知识引擎组织、推理后形成支撑研判、决策的信息。知识平台应关联到可视化模型和模拟仿真引擎，实现各类知识和推理结果的可视化。图7为水利知识平台建设框架图。知识平台主要由水利知识和水利知识引擎两大部分组成。

(1)水利知识。

水利知识为决策分析提供支撑信息，包括水利对象关联关系、业务规则、历史场景、专家经验和预报调度方案等。

水利对象关联关系用于描述物理流域中的江河湖泊、水利工程和水利对象治理管理活动等实体、概念及其关系，是其他水利知识融合的基础，对数据资源进行抽取、对齐、融合等处理，并进行结构化分类和关联，便于水利知识的快速检索和定位。

业务规则用于描述一系列可组合应用的结构化规则集。将相关法律法规、规章制度、技术标准、管理办法、规范规程等文档内容进行结构化处理，通过对业务规则的抽取、表示和管理，支撑新业务场景的规则适配，规范和约束水利业务管理行为。历史场景用于描述历史事件发展过程及时空特征属性的相关事实。通过对数据表格或文本记录的历史场景数据进行典型时空属性及特征指标的抽取、融合、挖掘和结构化存储，支撑历史场景发生的关键过程及主要应对措施的复盘，对历史场景下的调度执行方案数字化和暴雨洪水特征等进行挖掘，为相似事件的精准决策提供知识化依据。

预报调度方案用于存储特定场景下的预报调度方案相关知识。根据物理流域特点、水利工程设计参数、影响区域范围等，结合气象预报、水文预报、水文监测、工程安全监测等信息，基于对历史典型洪水预报、水利工程调度过程记录或以文本形式存储的预报调度预案进行知识抽取、融合等处理，形成特定场景下预报模型运行设置和水利工程调度方案等知识，支撑预报调度方案的智能决策。

专家经验用于描述特定业务场景决策时的专家经验。通过文字、公式、图形图像等形式固化专家经验，进行抽取、融合、挖掘和结构化处理等，支撑专家经验的有效复用和持续积累。

(2)水利知识引擎。

水利知识引擎主要实现水利知识表示、抽取、融合、推理和存储等功能。知识表示利用人机协同的方式构建水利领域基础本体和业务本体，实现陈述性和过程性知识表示；知识抽取采用统计模型和监督学习等方法，结合场景配置需求和数据供给条件，构建实体—关系三元组知识，并抽取各类水利对象实体的属性，对水利领域实体类别及相互关系、领域活动和规律进行全方位描述；知识融合针对多源知识的同一性与异构性，构建实体连接、属性映射、关系映射等融合能力；知识推理通过监督学习、半监督学习、无监督学习和强化学习等算法，构建水利推理性知识；知识存储采用图计算引擎管理和驱动水利知识，实现超大规模数据存储。

(3)水利知识应用

利用机器学习等技术感知水利对象和认知水利规律，为数字孪生工程提供智能内核，支撑事件正向智能推理和反向溯因分析，满足数据分析、专业模型、机器视觉、学习算法等不同应用场景需求，开发知识总览、知识可视化、智能问答、业务规则库、历史场景等功能，支撑新一代水利业务应用的创新。

从水利知识库数据出发，采用一系列自动或半自动的技术手段，从水利知识库中提取出水利知识要素，并将其存入知识库的数据层和模式层，以便于对其进行查看和调用。其主要工作内容应包括：水利知识抽取、水利知识融合、水利知识加工、水利知识存储等。图8为水利知识图谱构建流程图。

水利知识的来源包括数字孪生流域数据底板、水利专业模型计算成果数据、历史资料、互联网等，为了对知识进行合理的组织，更好地描述知识本身与知识之间的关联，需要对知识图谱的模式进行良好的定义。

知识建模通常采用两种方式：一种是自顶向下(Top-Down)，即首先为知识图谱定义数据模式，数据模式从最顶层概念构建，逐步向下细化，形成结构良好的分类学层次，然后再将实体添加到概念中，比如水利知识可分为水利设施和水利业务，其中水利设施中又可分为水库、大坝、堰、水电站等，而水利业务又可分为预报、调度、巡查、养护等。

另一种则是自底向上(Bottom-Up)的方法，即首先对实体进行归纳组织，形成底层概念，然后逐步往上抽象，形成上层概念。该方法可基于高质量的水利数据源映射生成。水利知识建模采用“自顶向下”和“自底向上”相结合的方式构建水利知识库。

知识图谱中的知识建模包含本体层和实例层，本体通常手工构建，实例层通常自动化抽取。构建本体的目的是为了确定知识图谱能描述的知识。目前最流行的自由开源建模工具Protégé，可用于构建域模型与基于知识的本体化。它提供了大量的知识模型架构与动作，用于创建、可视化、操作各种表现形式的本体。

水利知识图谱数据来自预案库、业务规则库、专家经验库、历史场景模式库等知识库。每个知识库中的水利相关知识常常以分散、异构、自治的形式存在，另外还具有冗余、噪音、不确定、非完备的特点，清洗并不能解决这些问题，因此从这些知识出发，通常需要融合和验证的步骤，来将不同源不同结构的数据融合成统一的知识图谱，以保证知识的一致性。可以根据数据类型分为结构化数据、半结构化数据和非结构化数据。根据不同的数据类型，采用不同的方法进行处理。

1)结构化数据处理

针对结构化数据，通常是关系型数据库的数据，如业务数据、矢量数据，数据结构清晰，利用数据转换工具将关系型数据库中的数据转换为RDF三元组形式。

主要有两种方式：

一种是直接映射，映射规则如下：

数据库的表作为本体中的类(Class)。

表的列作为属性(Property)。

表的行作为实例/资源。

表的单元格值为字面量

如果单元格所在的列是外键，那么其值为IRI，或者说实体/资源。

在实际应用中我们很少用到这种方法，尽管它是最便捷的方式，但却不能把数据库的数据映射到我们自己定义的本体上。

另一种是R2RML(RDB to RDF Mapping Language)RDB到RDF映射工具(如D2RQ和SPIDER)使用一种语言来提供从关系数据库到RDF的在线映射，这意味着数据可以即时转换为RDF。数据可以直接转换而无需任何用户自定义，或者用户应相应地指定列和映射谓词。前者称为有向映射，通常用于简单的RDB数据库，但对于具有复杂结构的关系数据库，R2RML语言用于映射。

结构化数据抽取是基于知识建模成果，直接将关系型数据库表中的结构化数据转化成知识图谱中的实体、属性及关系，主要采用D2RQ工具将其转化成RDF(ResourceDescription Framework，资源描述框架)格式。使用Apache Jena中的Fuseki组件将RDF(Resource Description Framework，资源描述框架)数据直接导入到Jena的TDB进行存储。涉及到具体映射流程如下：

根据本体建模的成果，定义结构化数据库与本体概念、属性、关系的之间的映射规则，主要映射规则包括：

(1)将结构化数据库的数据表映射成水利本体中的概念。

(2)将结构化数据库的数据表中的列数据映射为属性及关系；

(3)将结构化数据库的数据表中的行数据映射成水利对象实体；

(4)将结构化数据库的数据表的单元格值为字面量；若单元格所在列为外键，那么其值为IRI。

2)半结构化数据处理

半结构化数据，主要是指那些具有一定的数据结构，但需要进一步提取整理的数据。比如洪水相关网络舆情数据、历史洪灾报导等。对于这类数据，需要将数据从HTML网页中抽取出来,并且将它们还原为结构化的数据。

对于一般的有规律的页面，我们可以使用正则表达式的方式写出XPath和CSS选择器表达式来提取网页中的元素。对于无明显规律的页面，也可以通过监督学习的方法,自动的从标注好的训练样例集合中学习数据抽取规则,用于从其他相同标记或相同网页模板抽取目标数据。

包装器是一个能够将数据从HTML网页中抽取出来，并且将它们还原为结构化的数据的程序，其提取信息流程为：

3)非结构化数据处理

对于非结构化的数据，如文档资料、图片等，抽取的知识包括实体、关系、属性。实体抽取，也称为命名实体识别，此处的实体包括概念，人物，组织，地名，时间等等。关系抽取，也就是实体和实体之间的关系，也是文本中的重要知识，需要采用一定的技术手段将关系信息提取出来。属性抽取，也就是实体的属性信息，和关系比较类似，关系反映实体的外部联系，属性体现实体的内部特征。实体识别即识别出句子或文本中的实体，链接则是将该实体与知识库中的对应实体进行链接。其中涉及到了实体的识别与消岐技术。

实体链接的流程如图9所示。首先输入的是非结构化的文本数据，经由命名实体识别或词典匹配技术进行实体的指称识别。由于刚刚识别出来的实体可能是实体的部分表示或另类表示，因此需要结合表层名字扩展、搜索引擎、构建查询实体引用表等技术来对候选实体进行生成。经过该步骤生成的实体可能有多个候选项，因此需要对候选实体进行消岐，此处可使用基于图的方法、基于概率生成模型、基于主题模型或基于深度学习的方法。经过实体消岐后得到的唯一实体候选后就可以与知识库中的实体进行连接。

非结构化数据的抽取技术不尽相同，主要有基于模版和机器学习等方法。基于模板的方法：一种是基于触发词/字符串、一种是基于依存句法。模板的方法一般都是在小规模数据集上容易实现且构建简单，缺点为难以维护、可移植性差、模板有可能需要专家构建。深度学习的方法则更加灵活，将两个实体，他们的关系，以及出处的句子作为训练数据，训练出一个模型，然后对于测试数据进行关系抽取，测试数据需要提供两个实体和出处的句子，模型在训练得到的已知关系中查找，得出测试数据中两个实体之间的关系。利用深度学习进行关系抽取又存在两大分支，一个是Pipeline的方法，即我们必须先进行实体识别，然后再做关系抽取。而另一个就是Joint Model的方法，即把实体识别和关系抽取两个任务同时建模，在训练的过程中同时优化。

如图10所示。对于防洪预案、调度规则、历史场景等非结构化文本数据，采用基于深度学习的抽取方法，将XX流域以及XX流域中防汛调度预案、流域区域规划、历史经验等相关的文本数据中实体，实体间的关系，以及出处的句子作为训练数据，基于BERT框架进行深度学习训练后输出面向水利场景的BERT模型，然后对于非结构化文本数据进行实体、关系抽取，非结构化文本数据需要提供两个实体和出处的句子，模型在训练得到的已知关系中查找，从而得出非结构化文本数据中两个实体之间的关系。

另外，系统还支持以人工智能算法为基础进行知识单元的辅助标注。通过利用文本自动分割、依存句法分析、信息抽取、自动分类相结合的技术，自动标注出语句当中的实体以及实体之间的关系，并提供对标注信息依据本体模型进行人工调整能力，以助力业务标注人员，实现快速高效进行知识标注，对知识质量提供有力的监控保障。

如图11所示，通过知识抽取，实现从非结构化、半结构化及结构化数据中获取实体、关系以及实体属性信息的目标，然而，知识抽取的来源是多渠道的，每个系统都会根据自身的业务需求去定义和建设数据库，这会造成同一知识领域中存在不同业务知识体系，知识体系和知识实例的缺失、冲突、歧义等问题，比如数据的描述的维度和粒度不尽相同、不同来源的数据可能包含大量的冗余和错误信息、数据之间的关系也是扁平化的，缺乏层次性和逻辑性，因此有必要对其进行清理和整合。采用语义融合与结构融合算法，针对多源知识的同一性与异构性，构建实体连接、属性映射、关系映射等融合能力，高效准确地解决知识语言层、模型层、实例层不匹配的问题，推动多来源的知识融合。

知识融合的整体流程，包括初始化融合、增量融合、融合过滤、知识校验。

(1)初始化融合：指通过聚类的方式构建实体的融合库。

(2)增量融合：指对新的实体与已经融合的实体进行相似度计算。

(3)融合过滤：指对已有的融合库进行审核、过滤和修复。

(4)知识校验：指根据知识来源的可信度进行评估和打分。

知识融合需要在初始化融合、增量融合的过程中，实现从知识模式对齐与实例对齐的迭代，才能进入融合过滤流程。

如图12和图13所示，人们构建的知识库通常表示为网络形式，节点代表实体，连边代表实体间的关系。RDF(Resource Description Framework，资源描述框架)恰好提供了一个灵活的数据模型，它的基础构件是(资源，属性，属性值)三元组。资源可以被认为是一个对象或实体，属性描述资源之间的关系，属性值可以是一个资源，也可以是一个字面量，如<沂河，源于，田庄水库>表达的意思就是“沂河来源于田庄水库”。RDF用到了实体、属性描述个体之间的关系。这些实体和属性由模式(Schema)定义。RDFS(RDF Schema，资源描述框架模式)提供了最基本的对类和属性的描述元语。如指定类的父类(rdfs:subClassOf)、指定属性的父属性(rdfs:subPropertyOf)、指定属性的定义域(rdfs:domain)等。通过RDF(S)可以表示一些简单的语义，但在更复杂的场景下，RDF(S)还缺少常用的特征。OWL是一个更丰富的词汇描述语言，可以刻画诸如类间关系(如不相交性)、类的基数(如“恰有一个”)、相等、更丰富的属性类型、属性的特征(如对称性)和枚举类等，比如河流和水库这两个类是不相交的、某个水库只有一个主坝，有3个副坝。

通过信息抽取，从原始语料中提取出了实体、关系与属性等知识要素，并且经过知识融合，消除实体指称项与实体对象之间的歧义，得到一系列基本的事实表达。然而事实本身并不等于知识。要想最终获得结构化，网络化的知识体系，还需要经历知识加工的过程。知识加工主要包括3方面内容：知识推理、知识运维和质量评估。

面向水利知识图谱的推理主要围绕关系的推理展开，即基于图谱中已有的水利事实或关系推断出未知的事实或关系，一般着重考察实体、关系和图谱结构三个方面的特征信息。具体来说，知识图谱推理主要能够辅助推理出新的事实、新的关系、新的公理以及新的规则等。推理任务主要有：通过规则挖掘对知识图谱进行补全(Knowledge BaseCompletion,KBC)与质量校验、链接预测、关联关系推理与冲突检测等。主要的方法包含基于逻辑规则的推理、基于图结构的推理、基于分布式表示学习的推理、基于神经网络的推理以及混合推理。

知识图谱根据使用场景不同以两种形式进行存储：一种是以jena为代表的基于RDF的存储；另一种是以neo4j为代表的基于图数据库的存储。RDF一个重要的设计原则是数据的易发布以及共享，图数据库则把重点放在了高效的图查询和搜索上。本体构建包含了RDF、RDFS和OWL几种标准的语义表示语言，它们在逻辑上存在一定的上下位关系，最底层的表述都是RDF，即将知识表述为SPO三元组。同时还有一种原生的表示方式就是图，图也可以分成有向图、属性图、树状图等。由于RDF的SPO表示方式天然地等价于有向图中的一条边，故RDF的表述方式也天然地等价于有向图的表示方式。属性图则是当前被图数据库广泛采用的一种图数据模型，其由节点集和边集组成，且满足如下性质：1)每个节点具有唯一的id；2)每个节点具有一组属性，每个属性是一个键值对；3)每条边具有唯一的id；4)每条边具有一个标签，表示联系；5)每条边具有一组属性，每个属性是一个键值对。通过综合使用RDF和图数据库技术，管理和驱动水利知识，实现超大规模数据存储，对外提供高性能的原生查询接口，无缝对接上层业务应用。

业务规则用于描述一系列可组合应用的结构化规则集。将相关法律法规、规章制度、技术标准、管理办法、规范规程等文档内容进行结构化处理，通过对业务规则的抽取、表示和管理，支撑新业务场景的规则适配，规范和约束水利业务管理行为。业务规则库建设，重点采集、存储、管理主要业务的预警研判规则，为复杂场景、多目标控制下的防洪、取用水和用水总量监管、河湖生态与地下水保护恢复等业务的预警研判提供支持，支撑实现水利管理预警的智能化。

(1)业务规则库建设内容

如图14所示，本项目业务规则库建设的主要内容包括：构建业务规则知识库的知识本体，抽取、存储、管理业务规则的相关知识，包括：防洪安全预警研判规则、取用水与用水总量监管预警研判规则、水资源保护预警研判规则等知识。为复杂场景、多目标控制下的防洪、取用水和用水总量监管、河湖生态与地下水保护恢复等业务的预警研判提供支持。

1)防洪安全预警研判规则

包括一定监测或预报情况对应的防洪保护目标洪水风险预警研判规则。数据来源于防洪预案文件的抽取。

2)取用水与用水总量监管研判规则

包括一定监测、来水与需水预报条件对应的取用水行为、区域用水总量监管研判预警规则等。数据来源于取用水管理制度文件、水量分配方案文件抽取、取水许可业务数据转换。

3)水资源保护预警研判规则

包括一定监测或预报情景对应的水资源保护预警研判规则。数据来源于生态流量监管制度文件、生态流量控制方案文件的抽取、录入。

4)工程调度规则

提取各工程调度规则，包括特征水位-调度指令对应表、闸上下水位差-调度指令对应表、运行情况-调度指令对应表等。分析各闸站工程历史调度运行数据，年度水量调度计划，实时工程调度指令等历史资料，提取工程调度运行的一般规则形式，构建工程闸站调度规则的一般描述方法，并据此构建工程调度规则引擎，以实现任意工程调度规则的配置与验证。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于知识图谱技术的水利知识服务系统，其特征在于，包括：

水利问题采集模块，用于获取用户输入的水利方面问题；

2.根据权利要求1所述的基于知识图谱技术的水利知识服务系统，其特征在于，所述问题语义理解模块，包括：

问题语义完善单元，用于将所述水利方面问题通过基于AIGC模型的问题语义完善器以得到语义优化水利方面问题；

水利问题语义编码单元，用于使用第一语义编码器对所述语义优化水利方面问题进行语义编码以得到水利方面问题语义编码特征向量作为所述水利方面问题语义编码特征。

3.根据权利要求2所述的基于知识图谱技术的水利知识服务系统，其特征在于，所述备选答案语义理解模块，用于：使用第二语义编码器对所述第一备选答案进行语义编码以得到第一备选答案语义编码特征向量作为所述第一备选答案语义编码特征。

4.根据权利要求3所述的基于知识图谱技术的水利知识服务系统，其特征在于，所述问题-答案语义交互关联编码模块，用于：使用特征间注意力层对所述第一备选答案语义编码特征向量和所述水利方面问题语义编码特征向量进行特征级注意力交互以得到水利问题-答案语义交互特征向量作为所述水利问题-答案语义交互特征。

5.根据权利要求4所述的基于知识图谱技术的水利知识服务系统，其特征在于，所述问题-答案适配度评估模块，用于：将所述水利问题-答案语义交互特征向量通过分类器以得到分类结果，所述分类结果用于表示所述水利方面问题与所述第一备选答案之间的适配度是否超过预定阈值。

6.根据权利要求5所述的基于知识图谱技术的水利知识服务系统，其特征在于，还包括用于对所述第一语义编码器、所述第二语义编码器、所述特征间注意力层和所述分类器进行训练的训练模块。

7.根据权利要求6所述的基于知识图谱技术的水利知识服务系统，其特征在于，所述训练模块，包括：

训练数据采集单元，用于获取训练数据，所述训练数据包括用户输入的训练水利方面问题，从所述水利知识图谱提取训练第一备选答案，以及，所述训练水利方面问题与所述训练第一备选答案之间的适配度是否超过预定阈值的真实值；

训练问题语义优化单元，用于将所述训练水利方面问题通过所述基于AIGC模型的问题语义完善器以得到训练语义优化水利方面问题；

训练问题语义编码单元，用于使用所述第一语义编码器对所述训练语义优化水利方面问题进行语义编码以得到训练水利方面问题语义编码特征向量；

训练答案语义编码单元，用于使用所述第二语义编码器对所述训练第一备选答案进行语义编码以得到训练第一备选答案语义编码特征向量；

训练问题-答案语义特征交互单元，用于使用所述特征间注意力层对所述训练第一备选答案语义编码特征向量和所述训练水利方面问题语义编码特征向量进行特征级注意力交互以得到训练水利问题-答案语义交互特征向量；

分类损失单元，用于将所述训练水利问题-答案语义交互特征向量通过所述分类器以得到分类损失函数值；

模型训练单元，用于基于所述分类损失函数值并通过梯度下降的方向传播来对所述第一语义编码器、所述第二语义编码器、所述特征间注意力层和所述分类器进行训练，其中，在所述训练的每次迭代时，对所述训练水利问题-答案语义交互特征向量进行权重空间迭代递归的定向提议化优化。

8.根据权利要求7所述的基于知识图谱技术的水利知识服务系统，其特征在于，在所述训练的每次迭代时，以如下优化公式对所述训练水利问题-答案语义交互特征向量进行权重空间迭代递归的定向提议化优化以得到优化训练水利问题-答案语义交互特征向量；

其中，所述优化公式为：

V'_c＝[V₁⊙exp(V₁)]⊕[V₂⊙exp(V₂)]

其中M₁和M₂分别是上次和本次迭代的权重矩阵，V_c是所述训练水利问题-答案语义交互特征向量，表示矩阵乘法，⊙表示按位置点乘，exp(·)表示向量的指数运算，所述向量的指数运算表示计算以向量中的各个位置的特征值为幂的自然指数函数值，V'_c表示所述优化训练水利问题-答案语义交互特征向量。