CN116955558A

CN116955558A - 基于知识图谱推理的地学数据集问答方法及系统

Info

Publication number: CN116955558A
Application number: CN202310893387.7A
Authority: CN
Inventors: 赵泽; 卢彬; 吴律文; 何亦农; 甘小莺; 傅洛伊; 王新兵
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-10-27

Abstract

本发明提供了一种基于知识图谱推理的地学数据集问答方法及系统，包括：根据地学数据集信息构建地学知识图谱；围绕地学数据集问句的关键意图，训练命名实体识别模型进行问句语义理解与信息抽取；融合文本信息与时空信息对地理实体进行实体对齐；基于知识图谱的实体关系结构，开展知识图谱嵌入，捕获跨实体的潜在关系与全局信息，实现从地学显式数据到深层知识的知识推理；融合对齐结果与推理结果进行多域检索，得到数据集答案。本发明构建了全新的知识图谱智能问答系统，相比于现有问答系统可以提高答案查全性，同时具备知识推理能力，能够通过显式地学数据挖掘隐式内在关联，能够帮助地学专家快速准确地寻找目标数据集。

Description

基于知识图谱推理的地学数据集问答方法及系统

技术领域

本发明涉及知识图谱技术领域，具体地，涉及一种基于知识图谱推理的地学数据集问答方法及系统。

背景技术

开放互联网散落着海量数据，然而由于其分布散乱、质量参差，为科学研究者搜集可用的科研数据造成了困扰。与此同时，在大数据时代，以地球科学为代表的基础学科亟待获取准确、高质量的科学数据。为此，如何帮助研究者快速找到目标数据成为一项重要议题，而基于知识图谱的地学数据集问答系统提供了一种灵活便捷、可交互的解决途径。

传统知识图谱问答系统需要大量人工制作的语义解析器，但自然语言问句丰富多样，人工制作难以覆盖多元化的询问方式，并且成本高昂效率低下。随着人工智能技术的逐步完善和计算机算力的提升，机器学习的方法逐步取代人工，基于机器学习与深度学习的知识图谱问答取得了较好的表现，但是目前主流的知识图谱问答系统存在着两个问题：实体链接困难以及图谱知识利用不全。

虽然知识图谱中保存着问答所需的实体及关系，但由于自然语言表达的多样性，问句和图谱中的实体均会出现多词一义的现象，在对问句实体与图谱实体进行链接时会产生一系列问题，不利于答案的查准与查全。传统知识图谱问答系统通过模糊匹配对抽取实体和图谱实体进行链接，但基于字符距离的模糊匹配无法应对复杂多样的实体文本，同时容易出现字符距离相近但实际语义迥异的错误，为此本发明将文本利用地球科学的学科特点，将描述信息与时空信息融合对地学图谱的关键实体地理实体进行对齐。

主流的问答系统方法仅依靠知识图谱的显式信息进行问答，只提供描述型的知识服务，但知识图谱实体与实体之间的网络结构包含着深层次的知识，为推理型知识服务提供了可能。知识图谱嵌入是将知识图谱从语义网络映射到潜层空间的方法，近年来在机器学习领域得到了快速的发展，围绕图谱实体嵌入表征的数据挖掘也是当前知识图谱领域的研究热点。

因此搭建一个可交互的帮助研究者快速找到目标数据的问答系统是很有意义且必要的，应用实体对齐、知识图谱嵌入与推理融合的基于知识图谱的问答方法及系统是可行并具有重要研究价值的。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于知识图谱推理的地学数据集问答方法及系统。

根据本发明提供的一种基于知识图谱推理的地学数据集问答方法，包括：

步骤S1：根据地学数据集信息构建地学知识图谱；

步骤S2：围绕地学数据集问句的关键意图，训练命名实体识别模型进行问句语义理解与信息抽取，得到对应的抽取结果；

步骤S3：融合所述抽取结果中的地理实体名称所对应的文本信息与时空信息，对所述抽取结果中的地理实体进行实体对齐，得到对应的对齐结果；

步骤S4：基于地学知识图谱的实体关系结构，开展知识图谱嵌入，捕获跨实体的潜在关系与全局信息，从地学显式数据到深层知识的知识推理，得到对应的推理结果；

步骤S5：融合抽取结果、对齐结果与推理结果进行多域检索，得到数据集答案。

优选地，构建地学知识图谱包括概念层搭建步骤和实例层搭建步骤：

所述地学知识图谱的概念层搭建包括：针对地学知识的元数据信息，通过知识图谱进行描述与表达，完成图谱概念层的搭建，确定实体种类与关系种类，并将不易进行连接的信息作为实体属性，完成图谱架构；

所述地学知识图谱的实例层搭建包括：对地学数据集的元数据进行整理、清洗及去重，完成地学知识图谱的实例化，通过三元组将地学数据集信息完整表现并相互连接。

优选地，所述步骤S2包括以下步骤：

步骤S2.1：构建训练数据集；

步骤S2.2：对所述训练数据集中的文本进行预处理，并将文本向量化表示；

步骤S2.3：利用向量化的文本表示训练命名实体识别模型，公式如下：

其中，表示损失函数，D表示训练的语料数据集，x表示所输入的文本向量，s表示信息抽取的结构提示，θ_e,θ_d分别代表编码器和解码器参数，通过交叉熵损失优化模型，去抽取对应的结果y。

优选地，步骤S3包括以下步骤：

步骤S3.1：将原始地学知识图谱中多种表述的地理位置实体进行信息补全，得到补全的地理实体信息；

步骤S3.2：将所述补全的地理实体信息转换为对应的描述文本，并将所述描述文本向量化，得到对应的文本信息；

步骤S3.3：对地理实体的经纬度范围信息和时间信息进行编码，得到地理实体的时空信息；

步骤S3.4：将所述文本信息和所述时空信息相融合，利用融合表征进行地理实体对齐，公式如下：

其中，A_{i,j}表示第i个地理实体和第j个地理实体之间的对齐矩阵，p_i代表第i个地理实体的向量表征，表示第j个地理实体的向量表征的转置，Score_i,j表示计算得到的不同表征间的相似度，threshold表示所设定的相似度阈值；

根据设定的阈值来判断地理实体是否对齐，为可以对齐的地理实体在知识图谱中添加连边关系；当不同表征间的相似度大于阈值时表示对齐，当不同表征间的相似度小于等于阈值时表示没有对齐。

优选地，所述步骤S4包括以下步骤：

步骤S4.1：知识图谱预处理，对相同名称但不同类别实体进行额外消歧，并为知识图谱中每一个实体和关系赋予随机独立ID，建立图谱字符串到ID的映射关系，图谱按照三元组(h，r，t)形式存储，构成事实的集合F：

F＝{(h₁,r₁,t₁),(h₂,r₂,t₂),……,(h_n,r_n,t_n)}

步骤S4.2：图谱嵌入初始化，为每一个随机独立ID进行随机嵌入，建立起实体集E与关系集R：

E＝{(e₁,b₁),(e₂,b₂),……,(e_|E|,b_|E|)}.

R＝{r₁,r₂,……,r_|n|}.

其中，每一个实体的表征由两部分e_i和b_i组成，分别代表实体的基本位置嵌入和平移变量，每一个关系r则被编码为轴对称的超矩形，每一个向量的维度为256维；

步骤S4.3：图谱嵌入建模，为了建模复杂实体关系，每一个实体在不同的事实中会有不同表征，对任一事实f＝(e_i,r_k,e_j)，在关系r_k下对应的最终的实体表征为：

其中，b_j表示实体j的平移变量；

步骤S4.4：根据图谱嵌入选择合适评价函数，包括通过如下距离函数作为评分函数计算：

其中，x^k表示矩形框的中心点，w^k表示矩形框的宽度，k表示与宽度相关的偏置，当实体的嵌入点位于目标矩形中，距离与矩形的大小成反比，给予较低的更新权值使得点始终保持在框内；嵌入点位于目标矩形外时，矩形的大小与距离线性相关，基于更高权值作为惩戒项，总的评分函数定义为所有n个实体和关系框中距离的2阶范数之和，公式如下：

步骤S4.5：在建模完成后对图谱嵌入进行训练，通过逻辑斯蒂损失对实体和关系的嵌入进行不断优化：

当三元组为正例时，y_hrt取1，当三元组为负例时，y_hrt取-1；

步骤S4.6：利用嵌入表征实现从显式地学数据到深层地学知识的知识推理，公式如下：

其中，e_ai表示某作者的嵌入表征，e_kj表示某关键词的嵌入表征，寻找地学数据集的类似数据集、通过对不同实体的嵌入表征计算相似度，公式如下：

则对任意数据集i的所有数据集相似度为：

通过排序并取最高的k个值，推理出对应的最相关的k个数据集。

根据本发明提供的一种基于知识图谱推理的地学数据集问答系统，包括：

模块M1：根据地学数据集信息构建地学知识图谱；

模块M2：围绕地学数据集问句的关键意图，训练命名实体识别模型进行问句语义理解与信息抽取，得到对应的抽取结果；

模块M3：融合所述抽取结果中的地理实体名称所对应的文本信息与时空信息，对所述抽取结果中的地理实体进行实体对齐，得到对应的对齐结果；

模块M4：基于地学知识图谱的实体关系结构，开展知识图谱嵌入，捕获跨实体的潜在关系与全局信息，从地学显式数据到深层知识的知识推理，得到对应的推理结果；

模块M5：融合抽取结果、对齐结果与推理结果进行多域检索，得到数据集答案。

优选地，构建地学知识图谱包括概念层搭建模块和实例层搭建模块：

优选地，所述模块M2包括以下模块：

模块M2.1：构建训练数据集；

模块M2.2：对所述训练数据集中的文本进行预处理，并将文本向量化表示；

模块M2.3：利用向量化的文本表示训练命名实体识别模型，公式如下：

其中，表示模型的损失函数，D表示训练的预料数据集，x表示所输入的文本向量，s表示信息抽取的结构提示，θ_e,θ_d分别代表编码器和解码器参数，通过交叉熵损失优化模型，去抽取对应的结果y。

优选地，模块M3包括以下模块：

模块M3.1：将原始地学知识图谱中多种表述的地理位置实体进行信息补全，得到补全的地理实体信息；

模块M3.2：将所述补全的地理实体信息转换为对应的描述文本，并将所述描述文本向量化，得到对应的文本信息；

模块M3.3：对地理实体的经纬度范围信息和时间信息进行编码，得到地理实体的时空信息；

模块M3.4：将所述文本信息和所述时空信息相融合，利用融合表征进行地理实体对齐，公式如下：

优选地，所述模块M4包括以下模块：

模块M4.1：知识图谱预处理，对相同名称但不同类别实体进行额外消歧，并为知识图谱中每一个实体和关系赋予随机独立ID，建立图谱字符串到ID的映射关系，图谱按照三元组(h，r，t)形式存储，构成事实的集合F：

F＝{(h₁,r₁,t₁),(h₂,r₂,t₂),……,(h_n,r_n,t_n)}

模块M4.2：图谱嵌入初始化，为每一个随机独立ID进行随机嵌入，建立起实体集E与关系集R：

E＝{(e₁,b₁),(e₂,b₂),……,(e_|E|,b_|E|)}.

R＝{r₁,r₂,……,r_|n|}.

模块M4.3：图谱嵌入建模，为了建模复杂实体关系，每一个实体在不同的事实中会有不同表征，对任一事实f＝(e_i,r_k,e_j)，在关系r_k下对应的最终的实体表征为：

其中，b_j表示实体j的平移变量；

模块M4.4：根据图谱嵌入选择合适评价函数，包括通过如下距离函数作为评分函数计算：

其中，c^k表示矩形框的中心点，w^k表示矩形框的宽度，k表示与宽度相关的偏置，当实体的嵌入点位于目标矩形中，距离与矩形的大小成反比，给予较低的更新权值使得点始终保持在框内；嵌入点位于目标矩形外时，矩形的大小与距离线性相关，基于更高权值作为惩戒项，总的评分函数定义为所有n个实体和关系框中距离的2阶范数之和，公式如下：

模块M4.5：在建模完成后对图谱嵌入进行训练，通过逻辑斯蒂损失对实体和关系的嵌入进行不断优化：

当三元组为正例时，y_hrt取1，当三元组为负例时，y_hrt取-1；

模块M4.6：利用嵌入表征实现从显式地学数据到深层地学知识的知识推理，公式如下：

则对任意数据集i的所有数据集相似度为：

与现有技术相比，本发明具有如下的有益效果：

本发明构建了全新的知识图谱智能问答系统，相比于现有问答系统提高了答案查全性，同时具备知识推理能力，能够通过显式地学数据挖掘隐式内在关联，能够帮助地学专家快速准确地寻找目标数据集。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的方法流程图。

图2为本发明的地学数据集知识图谱框架图。

图3为本发明地理实体对齐算法流程图。

图4为本发明知识图谱知识推理算法流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明聚焦于开放网络的地学数据问答推理，利用机器学习和深度学习相结合的方法进行研究，提出了基于知识图谱推理的地学数据集问答系统：问答系统利用预训练的语言模型对用户意图进行理解并提取，并利用实体对齐的正则化方式在知识图谱执行多域检索，实现数据检索；其次，为了进一步向用户推荐启发式的关联知识，问答系统通过知识图谱嵌入学习捕获跨实体的隐层关系与全局信息，从而做到打通社区壁垒，实现知识推理问答。

本发明涉及地学知识图谱构建及实例化、基于语言模型的文本表示、命名实体识别模型的建模训练及参数优化、地理实体信息及文本的特征融合、实体对齐、知识图谱嵌入建模、嵌入训练及优化、知识图谱推理。

根据本发明提供的一种基于知识图谱推理的地学数据集问答方法，如图1所示，包括：

步骤S1：根据地学数据集信息构建地学知识图谱。构建地学知识图谱包括概念层搭建步骤和实例层搭建步骤。地学知识图谱的概念层搭建包括：针对地学知识的元数据信息，通过知识图谱进行描述与表达，完成图谱概念层的搭建，确定实体种类与关系种类，并将不易进行连接的信息作为实体属性，完成图谱架构。如图2所示，构建了知识图谱的完整框架，表现出图谱的各类实体信息及相互之间的关联关系。地学知识图谱的实例层搭建包括：对地学数据集的元数据进行整理、清洗及去重，完成地学知识图谱的实例化，通过三元组将地学数据集信息完整表现并相互连接，也就是说，将原本存储在爬取表中的数据集元数据转换为知识图谱的形式。

步骤S2：围绕地学数据集问句的关键意图，训练命名实体识别模型进行问句语义理解与信息抽取，得到对应的抽取结果。该步骤实现了对用户自然语言问句的意义理解，实现问答系统的基本要求，具体地，步骤S2包括以下步骤：

步骤S2.1：构建训练数据集。从数据库的数据集元信息爬取表中提取数据集的描述性文本和关键词、地理位置字段信息，并通过随机的问句模板，通过随机抽取的方式将其拼接为自然语言问句作为训练数据集使用。

步骤S2.2：对训练数据集中的文本进行预处理，并将文本向量化表示。具体地，对中英文文本进行分词处理，并对文本实体进行抽取信息标注，标注信息包括问句中的地理位置、关键词以及时间范围。

步骤S2.3：利用向量化的文本表示训练命名实体识别模型，其中向量化表示的方式包括利用Transformer和预训练的大语言模型T5模型，将文本信息转换为计算机可理解、可计算的向量表示。训练命名实体识别模型的公式如下：

其中，表示模型损失函数，D表示训练的语料数据集，x表示所输入的文本向量，s表示信息抽取的结构提示，θ_e,θ_d分别代表编码器和解码器参数，通过交叉熵损失优化模型，去抽取对应的结果y。该结果y包括地理实体名称，例如珠穆朗玛峰、青藏高原，而地理实体名称所对应的文本信息、时空信息则是根据实体名称进行检索得到，之后再将其转为向量化的特征。

步骤S3：融合所述抽取结果中的地理实体名称所对应的文本信息与时空信息，对所述抽取结果中的地理实体进行实体对齐，得到对应的对齐结果。对地理实体融合文本信息与时空信息进行实体链接与对齐，能够克服传统知识图谱问答中由于问句表达多样化造成的实体链接困难和问答检索困难。其中，通过抽取结果y中的地理实体文本来检索所述文本信息以及时空信息。具体地，如图3所示，步骤S3包括以下步骤：

步骤S3.1：地理实体信息补全，将原始地学知识图谱中多种表述的地理位置实体进行信息补全，获取地理实体的规范化表述、类型以及其从属信息，得到补全的地理实体信息。

步骤S3.2：将补全的地理实体信息转换为对应的描述文本，并将描述文本向量化，代表每一个地理实体的文本信息，得到对应的文本信息。其中文本向量化的方式可以利用步骤S2.3实现。

步骤S3.3：对地理实体的经纬度范围信息和时间信息进行编码，得到地理实体的时空信息。

步骤S3.4：将文本信息和时空信息相融合，利用融合表征进行地理实体对齐，公式如下：

其中，A_{i,j}表示第i个地理实体和第j个地理实体之间的对齐矩阵，p_i代表第i个地理实体的向量表征，表示第j个地理实体的向量表征的转置，Score_i,j表示计算得到的不同表征间的相似度，threshold表示所设定的相似度阈值。根据设定的阈值来判断地理实体是否对齐，为可以对齐的地理实体在知识图谱中添加连边关系；当不同表征间的相似度大于阈值时表示对齐，当不同表征间的相似度小于等于阈值时表示没有对齐。

步骤S4：基于地学知识图谱的实体关系结构，开展知识图谱嵌入，捕获跨实体的潜在关系与全局信息，从地学显式数据到深层知识的知识推理，也就是说，实现对地学研究领域与地学数据集的知识推理，得到对应的推理结果。具体地，主要是对y中获取的关键词信息、地理实体信息以及作者信息进行推理，如图4所示，步骤S4包括以下步骤：

步骤S4.1：知识图谱预处理，对相同名称但不同类别实体进行额外消歧，并将以属性图形式保存的知识图谱转为RDF资源描述框架为图谱中每一个实体赋予随机独立ID，建立图谱字符串到ID的映射关系，图谱按照三元组(h，r，t)形式存储，构成事实的集合F：

F＝{(h₁,r₁,t₁),(h₂,r₂,t₂),……,(h_n,r_n,t_n)}

步骤S4.2：图谱嵌入初始化，即图谱嵌入预处理，为每一个随机独立ID进行随机嵌入，建立起实体集E与关系集R：

E＝{(e₁,b₁),(e₂,b₂),……,(e_|E|,b_|E|)}.

R＝{r₁,r₂,……,r_|n|}.

其中，每一个实体的表征由两部分e_i和b_i组成，分别代表实体的基本位置嵌入和平移变量，每一个关系r则被编码为轴对称的超矩形，每一个向量的维度为256维。

其中，b_j表示实体j的平移变量；b的存在能够以有效的方式对实体之间的复杂交互进行建模，可以根据需要将实体嵌入到各自的关系框r_k中。

步骤S4.4：根据图谱嵌入选择合适评价函数，为充分反应嵌入建模效果，通过适当的评价函数使得真实存在的事实得分更高，虚假构建的事实得分降低。通过如下距离函数作为评分函数计算：

步骤S4.5：在建模完成后对图谱嵌入进行训练，在开放世界假设下进行训练，通过逻辑斯蒂损失对实体和关系的嵌入进行不断优化：

当三元组为正例时，y_hrt取1，当三元组为负例时，y_hrt取-1。

步骤S4.6：根据所获得的嵌入表征实现从显式地学数据到深层地学知识的知识推理，通过图谱嵌入可以发现跨实体的潜在关系与全局信息，因此，其嵌入表征可以用来进行知识推理。即，寻找关键词的相关关键词、寻找数据集的类似数据集等。公式如下：

则对任意数据集i的所有数据集相似度为：

通过排序并取最高的k个值，推理出对应的最相关的k个数据集。实现从数据集到数据集的知识推理。并依次推理出关键词的相关关键词，特定关键词领域的专业学者，通过隐含深层信息的知识图谱嵌入表征实现知识发现与知识推理。

步骤S5：融合抽取结果、对齐结果与推理结果进行多域检索，得到数据集答案。具体地，得到最终的实体对齐与知识推理结果进行整理，在知识图谱中加入对应知识信息。搭建基于实体对齐与知识推理的问答系统，其输入为自然语言问句，系统首先经过实体抽取模型进行语义理解与抽取，并对抽取结果按照所保存的对齐实体进行实体链接与实体对齐，在图谱上进行多域检索，返回答案。

本发明还提供了一种基于知识图谱推理的地学数据集问答系统，本领域技术人员可以通过执行所述基于知识图谱推理的地学数据集问答方法的步骤流程实现所述基于知识图谱推理的地学数据集问答系统，即可以将所述基于知识图谱推理的地学数据集问答方法理解为所述基于知识图谱推理的地学数据集问答系统的优选实施方式。

模块M1：根据地学数据集信息构建地学知识图谱。构建地学知识图谱包括概念层搭建模块和实例层搭建模块。地学知识图谱的概念层搭建包括：针对地学知识的元数据信息，通过知识图谱进行描述与表达，完成图谱概念层的搭建，确定实体种类与关系种类，并将不易进行连接的信息作为实体属性，完成图谱架构。地学知识图谱的实例层搭建包括：对地学数据集的元数据进行整理、清洗及去重，完成地学知识图谱的实例化，通过三元组将地学数据集信息完整表现并相互连接。

模块M2：围绕地学数据集问句的关键意图，训练命名实体识别模型进行问句语义理解与信息抽取，得到对应的抽取结果。模块M2包括以下模块：模块M2.1：构建训练数据集。模块M2.2：对训练数据集中的文本进行预处理，并将文本向量化表示。模块M2.3：利用向量化的文本表示训练命名实体识别模型，公式如下：

其中，表示模型的损失函数，D表示训练的语料数据集，x表示所输入的文本向量，s表示信息抽取的结构提示，θ_e,θ_d分别代表编码器和解码器参数，通过交叉熵损失优化模型，去抽取对应的结果y。

模块M3：融合所述抽取结果中的地理实体名称所对应的文本信息与时空信息，对所述抽取结果中的地理实体进行实体对齐，得到对应的对齐结果。模块M3包括以下模块：模块M3.1：将原始地学知识图谱中多种表述的地理位置实体进行信息补全，得到补全的地理实体信息。模块M3.2：将补全的地理实体信息转换为对应的描述文本，并将描述文本向量化，得到对应的文本信息。模块M3.3：对地理实体的经纬度范围信息和时间信息进行编码，得到地理实体的时空信息。模块M3.4：将文本信息和时空信息相融合，利用融合表征进行地理实体对齐，公式如下：

模块M4：基于地学知识图谱的实体关系结构，开展知识图谱嵌入，捕获跨实体的潜在关系与全局信息，从地学显式数据到深层知识的知识推理，得到对应的推理结果。模块M4包括以下模块：

F＝{(h₁,r₁,t₁),(h₂,r₂,t₂),……,(h_n,r_n,t_n)}

E＝{(e₁,b₁),(e₂,b₂),……,(e_|E|,b_|E|)}.

R＝{r₁,r₂,……,r_|n|}.

其中，b_j表示实体j的平移变量；

当三元组为正例时，y_hrt取1，当三元组为负例时，y_hrt取-1；

则对任意数据集i的所有数据集相似度为：

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于知识图谱推理的地学数据集问答方法，其特征在于，包括：

步骤S1：根据地学数据集信息构建地学知识图谱；

2.根据权利要求1所述的基于知识图谱推理的地学数据集问答方法，其特征在于，构建地学知识图谱包括概念层搭建步骤和实例层搭建步骤：

3.根据权利要求1所述的基于知识图谱推理的地学数据集问答方法，其特征在于，所述步骤S2包括以下步骤：

步骤S2.1：构建训练数据集；

其中，表示模型的损失函数，D表示训练语料数据集，x表示所输入的文本向量，s表示信息抽取的结构提示，θ_e,θ_d分别代表编码器和解码器参数，通过交叉熵损失优化模型，去抽取对应的结果y。

4.根据权利要求3所述的基于知识图谱推理的地学数据集问答方法，其特征在于，步骤S3包括以下步骤：

5.根据权利要求1所述的基于知识图谱推理的地学数据集问答方法，其特征在于，所述步骤S4包括以下步骤：

F＝{(h₁,r₁,t₁),(h₂,r₂,t₂),……,(h_n,r_n,t_n)}

E＝{(e₁,b₁),(e₂,b₂),……,(e_|E|,b_|E|)}.

R＝{r₁,r₂,……,r_|n|}.

步骤S4.3：图谱嵌入建模，为了建模复杂实体关系，每一个实体在不同的事实中会有不同表征，对任一事实f＝(e_i，r_k，e_j)，在关系r_k下对应的最终的实体表征为：

其中，b_j表示第j个实体的平移变量；

当三元组为正例时，y_hrt取1，当三元组为负例时，y_hrt取-1；

则对任意数据集i的所有数据集相似度为：

6.一种基于知识图谱推理的地学数据集问答系统，其特征在于，包括：

模块M1：根据地学数据集信息构建地学知识图谱；

7.根据权利要求6所述的基于知识图谱推理的地学数据集问答系统，其特征在于，构建地学知识图谱包括概念层搭建模块和实例层搭建模块：

8.根据权利要求6所述的基于知识图谱推理的地学数据集问答系统，其特征在于，所述模块M2包括以下模块：

模块M2.1：构建训练数据集；

9.根据权利要求8所述的基于知识图谱推理的地学数据集问答系统，其特征在于，模块M3包括以下模块：

10.根据权利要求6所述的基于知识图谱推理的地学数据集问答系统，其特征在于，所述模块M4包括以下模块：

F＝{(h₁,r₁,t₁),(h₂,r₂,t₂),……,(h_n,r_n,t_n)}

E＝{(e₁,b₁),(e₂,b₂),……,(e_|E|,b_|E|)}.

R＝{r₁,r₂,……,r_|n|}.

其中，b_j表示实体j的平移变量；

当三元组为正例时，y_hrt取1，当三元组为负例时，y_hrt取-1；

则对任意数据集i的所有数据集相似度为：