CN116955558A - 基于知识图谱推理的地学数据集问答方法及系统 - Google Patents

基于知识图谱推理的地学数据集问答方法及系统 Download PDF

Info

Publication number
CN116955558A
CN116955558A CN202310893387.7A CN202310893387A CN116955558A CN 116955558 A CN116955558 A CN 116955558A CN 202310893387 A CN202310893387 A CN 202310893387A CN 116955558 A CN116955558 A CN 116955558A
Authority
CN
China
Prior art keywords
entity
knowledge
information
representing
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310893387.7A
Other languages
English (en)
Inventor
赵泽
卢彬
吴律文
何亦农
甘小莺
傅洛伊
王新兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202310893387.7A priority Critical patent/CN116955558A/zh
Publication of CN116955558A publication Critical patent/CN116955558A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于知识图谱推理的地学数据集问答方法及系统,包括:根据地学数据集信息构建地学知识图谱;围绕地学数据集问句的关键意图,训练命名实体识别模型进行问句语义理解与信息抽取;融合文本信息与时空信息对地理实体进行实体对齐;基于知识图谱的实体关系结构,开展知识图谱嵌入,捕获跨实体的潜在关系与全局信息,实现从地学显式数据到深层知识的知识推理;融合对齐结果与推理结果进行多域检索,得到数据集答案。本发明构建了全新的知识图谱智能问答系统,相比于现有问答系统可以提高答案查全性,同时具备知识推理能力,能够通过显式地学数据挖掘隐式内在关联,能够帮助地学专家快速准确地寻找目标数据集。

Description

基于知识图谱推理的地学数据集问答方法及系统
技术领域
本发明涉及知识图谱技术领域,具体地,涉及一种基于知识图谱推理的地学数据集问答方法及系统。
背景技术
开放互联网散落着海量数据,然而由于其分布散乱、质量参差,为科学研究者搜集可用的科研数据造成了困扰。与此同时,在大数据时代,以地球科学为代表的基础学科亟待获取准确、高质量的科学数据。为此,如何帮助研究者快速找到目标数据成为一项重要议题,而基于知识图谱的地学数据集问答系统提供了一种灵活便捷、可交互的解决途径。
传统知识图谱问答系统需要大量人工制作的语义解析器,但自然语言问句丰富多样,人工制作难以覆盖多元化的询问方式,并且成本高昂效率低下。随着人工智能技术的逐步完善和计算机算力的提升,机器学习的方法逐步取代人工,基于机器学习与深度学习的知识图谱问答取得了较好的表现,但是目前主流的知识图谱问答系统存在着两个问题:实体链接困难以及图谱知识利用不全。
虽然知识图谱中保存着问答所需的实体及关系,但由于自然语言表达的多样性,问句和图谱中的实体均会出现多词一义的现象,在对问句实体与图谱实体进行链接时会产生一系列问题,不利于答案的查准与查全。传统知识图谱问答系统通过模糊匹配对抽取实体和图谱实体进行链接,但基于字符距离的模糊匹配无法应对复杂多样的实体文本,同时容易出现字符距离相近但实际语义迥异的错误,为此本发明将文本利用地球科学的学科特点,将描述信息与时空信息融合对地学图谱的关键实体地理实体进行对齐。
主流的问答系统方法仅依靠知识图谱的显式信息进行问答,只提供描述型的知识服务,但知识图谱实体与实体之间的网络结构包含着深层次的知识,为推理型知识服务提供了可能。知识图谱嵌入是将知识图谱从语义网络映射到潜层空间的方法,近年来在机器学习领域得到了快速的发展,围绕图谱实体嵌入表征的数据挖掘也是当前知识图谱领域的研究热点。
因此搭建一个可交互的帮助研究者快速找到目标数据的问答系统是很有意义且必要的,应用实体对齐、知识图谱嵌入与推理融合的基于知识图谱的问答方法及系统是可行并具有重要研究价值的。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于知识图谱推理的地学数据集问答方法及系统。
根据本发明提供的一种基于知识图谱推理的地学数据集问答方法,包括:
步骤S1:根据地学数据集信息构建地学知识图谱;
步骤S2:围绕地学数据集问句的关键意图,训练命名实体识别模型进行问句语义理解与信息抽取,得到对应的抽取结果;
步骤S3:融合所述抽取结果中的地理实体名称所对应的文本信息与时空信息,对所述抽取结果中的地理实体进行实体对齐,得到对应的对齐结果;
步骤S4:基于地学知识图谱的实体关系结构,开展知识图谱嵌入,捕获跨实体的潜在关系与全局信息,从地学显式数据到深层知识的知识推理,得到对应的推理结果;
步骤S5:融合抽取结果、对齐结果与推理结果进行多域检索,得到数据集答案。
优选地,构建地学知识图谱包括概念层搭建步骤和实例层搭建步骤:
所述地学知识图谱的概念层搭建包括:针对地学知识的元数据信息,通过知识图谱进行描述与表达,完成图谱概念层的搭建,确定实体种类与关系种类,并将不易进行连接的信息作为实体属性,完成图谱架构;
所述地学知识图谱的实例层搭建包括:对地学数据集的元数据进行整理、清洗及去重,完成地学知识图谱的实例化,通过三元组将地学数据集信息完整表现并相互连接。
优选地,所述步骤S2包括以下步骤:
步骤S2.1:构建训练数据集;
步骤S2.2:对所述训练数据集中的文本进行预处理,并将文本向量化表示;
步骤S2.3:利用向量化的文本表示训练命名实体识别模型,公式如下:
其中,表示损失函数,D表示训练的语料数据集,x表示所输入的文本向量,s表示信息抽取的结构提示,θed分别代表编码器和解码器参数,通过交叉熵损失优化模型,去抽取对应的结果y。
优选地,步骤S3包括以下步骤:
步骤S3.1:将原始地学知识图谱中多种表述的地理位置实体进行信息补全,得到补全的地理实体信息;
步骤S3.2:将所述补全的地理实体信息转换为对应的描述文本,并将所述描述文本向量化,得到对应的文本信息;
步骤S3.3:对地理实体的经纬度范围信息和时间信息进行编码,得到地理实体的时空信息;
步骤S3.4:将所述文本信息和所述时空信息相融合,利用融合表征进行地理实体对齐,公式如下:
其中,A{i,j}表示第i个地理实体和第j个地理实体之间的对齐矩阵,pi代表第i个地理实体的向量表征,表示第j个地理实体的向量表征的转置,Scorei,j表示计算得到的不同表征间的相似度,threshold表示所设定的相似度阈值;
根据设定的阈值来判断地理实体是否对齐,为可以对齐的地理实体在知识图谱中添加连边关系;当不同表征间的相似度大于阈值时表示对齐,当不同表征间的相似度小于等于阈值时表示没有对齐。
优选地,所述步骤S4包括以下步骤:
步骤S4.1:知识图谱预处理,对相同名称但不同类别实体进行额外消歧,并为知识图谱中每一个实体和关系赋予随机独立ID,建立图谱字符串到ID的映射关系,图谱按照三元组(h,r,t)形式存储,构成事实的集合F:
F={(h1,r1,t1),(h2,r2,t2),……,(hn,rn,tn)}
步骤S4.2:图谱嵌入初始化,为每一个随机独立ID进行随机嵌入,建立起实体集E与关系集R:
E={(e1,b1),(e2,b2),……,(e|E|,b|E|)}.
R={r1,r2,……,r|n|}.
其中,每一个实体的表征由两部分ei和bi组成,分别代表实体的基本位置嵌入和平移变量,每一个关系r则被编码为轴对称的超矩形,每一个向量的维度为256维;
步骤S4.3:图谱嵌入建模,为了建模复杂实体关系,每一个实体在不同的事实中会有不同表征,对任一事实f=(ei,rk,ej),在关系rk下对应的最终的实体表征为:
其中,bj表示实体j的平移变量;
步骤S4.4:根据图谱嵌入选择合适评价函数,包括通过如下距离函数作为评分函数计算:
其中,xk表示矩形框的中心点,wk表示矩形框的宽度,k表示与宽度相关的偏置,当实体的嵌入点位于目标矩形中,距离与矩形的大小成反比,给予较低的更新权值使得点始终保持在框内;嵌入点位于目标矩形外时,矩形的大小与距离线性相关,基于更高权值作为惩戒项,总的评分函数定义为所有n个实体和关系框中距离的2阶范数之和,公式如下:
步骤S4.5:在建模完成后对图谱嵌入进行训练,通过逻辑斯蒂损失对实体和关系的嵌入进行不断优化:
当三元组为正例时,yhrt取1,当三元组为负例时,yhrt取-1;
步骤S4.6:利用嵌入表征实现从显式地学数据到深层地学知识的知识推理,公式如下:
其中,eai表示某作者的嵌入表征,ekj表示某关键词的嵌入表征,寻找地学数据集的类似数据集、通过对不同实体的嵌入表征计算相似度,公式如下:
则对任意数据集i的所有数据集相似度为:
通过排序并取最高的k个值,推理出对应的最相关的k个数据集。
根据本发明提供的一种基于知识图谱推理的地学数据集问答系统,包括:
模块M1:根据地学数据集信息构建地学知识图谱;
模块M2:围绕地学数据集问句的关键意图,训练命名实体识别模型进行问句语义理解与信息抽取,得到对应的抽取结果;
模块M3:融合所述抽取结果中的地理实体名称所对应的文本信息与时空信息,对所述抽取结果中的地理实体进行实体对齐,得到对应的对齐结果;
模块M4:基于地学知识图谱的实体关系结构,开展知识图谱嵌入,捕获跨实体的潜在关系与全局信息,从地学显式数据到深层知识的知识推理,得到对应的推理结果;
模块M5:融合抽取结果、对齐结果与推理结果进行多域检索,得到数据集答案。
优选地,构建地学知识图谱包括概念层搭建模块和实例层搭建模块:
所述地学知识图谱的概念层搭建包括:针对地学知识的元数据信息,通过知识图谱进行描述与表达,完成图谱概念层的搭建,确定实体种类与关系种类,并将不易进行连接的信息作为实体属性,完成图谱架构;
所述地学知识图谱的实例层搭建包括:对地学数据集的元数据进行整理、清洗及去重,完成地学知识图谱的实例化,通过三元组将地学数据集信息完整表现并相互连接。
优选地,所述模块M2包括以下模块:
模块M2.1:构建训练数据集;
模块M2.2:对所述训练数据集中的文本进行预处理,并将文本向量化表示;
模块M2.3:利用向量化的文本表示训练命名实体识别模型,公式如下:
其中,表示模型的损失函数,D表示训练的预料数据集,x表示所输入的文本向量,s表示信息抽取的结构提示,θed分别代表编码器和解码器参数,通过交叉熵损失优化模型,去抽取对应的结果y。
优选地,模块M3包括以下模块:
模块M3.1:将原始地学知识图谱中多种表述的地理位置实体进行信息补全,得到补全的地理实体信息;
模块M3.2:将所述补全的地理实体信息转换为对应的描述文本,并将所述描述文本向量化,得到对应的文本信息;
模块M3.3:对地理实体的经纬度范围信息和时间信息进行编码,得到地理实体的时空信息;
模块M3.4:将所述文本信息和所述时空信息相融合,利用融合表征进行地理实体对齐,公式如下:
其中,A{i,j}表示第i个地理实体和第j个地理实体之间的对齐矩阵,pi代表第i个地理实体的向量表征,表示第j个地理实体的向量表征的转置,Scorei,j表示计算得到的不同表征间的相似度,threshold表示所设定的相似度阈值;
根据设定的阈值来判断地理实体是否对齐,为可以对齐的地理实体在知识图谱中添加连边关系;当不同表征间的相似度大于阈值时表示对齐,当不同表征间的相似度小于等于阈值时表示没有对齐。
优选地,所述模块M4包括以下模块:
模块M4.1:知识图谱预处理,对相同名称但不同类别实体进行额外消歧,并为知识图谱中每一个实体和关系赋予随机独立ID,建立图谱字符串到ID的映射关系,图谱按照三元组(h,r,t)形式存储,构成事实的集合F:
F={(h1,r1,t1),(h2,r2,t2),……,(hn,rn,tn)}
模块M4.2:图谱嵌入初始化,为每一个随机独立ID进行随机嵌入,建立起实体集E与关系集R:
E={(e1,b1),(e2,b2),……,(e|E|,b|E|)}.
R={r1,r2,……,r|n|}.
其中,每一个实体的表征由两部分ei和bi组成,分别代表实体的基本位置嵌入和平移变量,每一个关系r则被编码为轴对称的超矩形,每一个向量的维度为256维;
模块M4.3:图谱嵌入建模,为了建模复杂实体关系,每一个实体在不同的事实中会有不同表征,对任一事实f=(ei,rk,ej),在关系rk下对应的最终的实体表征为:
其中,bj表示实体j的平移变量;
模块M4.4:根据图谱嵌入选择合适评价函数,包括通过如下距离函数作为评分函数计算:
其中,ck表示矩形框的中心点,wk表示矩形框的宽度,k表示与宽度相关的偏置,当实体的嵌入点位于目标矩形中,距离与矩形的大小成反比,给予较低的更新权值使得点始终保持在框内;嵌入点位于目标矩形外时,矩形的大小与距离线性相关,基于更高权值作为惩戒项,总的评分函数定义为所有n个实体和关系框中距离的2阶范数之和,公式如下:
模块M4.5:在建模完成后对图谱嵌入进行训练,通过逻辑斯蒂损失对实体和关系的嵌入进行不断优化:
当三元组为正例时,yhrt取1,当三元组为负例时,yhrt取-1;
模块M4.6:利用嵌入表征实现从显式地学数据到深层地学知识的知识推理,公式如下:
其中,eai表示某作者的嵌入表征,ekj表示某关键词的嵌入表征,寻找地学数据集的类似数据集、通过对不同实体的嵌入表征计算相似度,公式如下:
则对任意数据集i的所有数据集相似度为:
通过排序并取最高的k个值,推理出对应的最相关的k个数据集。
与现有技术相比,本发明具有如下的有益效果:
本发明构建了全新的知识图谱智能问答系统,相比于现有问答系统提高了答案查全性,同时具备知识推理能力,能够通过显式地学数据挖掘隐式内在关联,能够帮助地学专家快速准确地寻找目标数据集。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的方法流程图。
图2为本发明的地学数据集知识图谱框架图。
图3为本发明地理实体对齐算法流程图。
图4为本发明知识图谱知识推理算法流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明聚焦于开放网络的地学数据问答推理,利用机器学习和深度学习相结合的方法进行研究,提出了基于知识图谱推理的地学数据集问答系统:问答系统利用预训练的语言模型对用户意图进行理解并提取,并利用实体对齐的正则化方式在知识图谱执行多域检索,实现数据检索;其次,为了进一步向用户推荐启发式的关联知识,问答系统通过知识图谱嵌入学习捕获跨实体的隐层关系与全局信息,从而做到打通社区壁垒,实现知识推理问答。
本发明涉及地学知识图谱构建及实例化、基于语言模型的文本表示、命名实体识别模型的建模训练及参数优化、地理实体信息及文本的特征融合、实体对齐、知识图谱嵌入建模、嵌入训练及优化、知识图谱推理。
根据本发明提供的一种基于知识图谱推理的地学数据集问答方法,如图1所示,包括:
步骤S1:根据地学数据集信息构建地学知识图谱。构建地学知识图谱包括概念层搭建步骤和实例层搭建步骤。地学知识图谱的概念层搭建包括:针对地学知识的元数据信息,通过知识图谱进行描述与表达,完成图谱概念层的搭建,确定实体种类与关系种类,并将不易进行连接的信息作为实体属性,完成图谱架构。如图2所示,构建了知识图谱的完整框架,表现出图谱的各类实体信息及相互之间的关联关系。地学知识图谱的实例层搭建包括:对地学数据集的元数据进行整理、清洗及去重,完成地学知识图谱的实例化,通过三元组将地学数据集信息完整表现并相互连接,也就是说,将原本存储在爬取表中的数据集元数据转换为知识图谱的形式。
步骤S2:围绕地学数据集问句的关键意图,训练命名实体识别模型进行问句语义理解与信息抽取,得到对应的抽取结果。该步骤实现了对用户自然语言问句的意义理解,实现问答系统的基本要求,具体地,步骤S2包括以下步骤:
步骤S2.1:构建训练数据集。从数据库的数据集元信息爬取表中提取数据集的描述性文本和关键词、地理位置字段信息,并通过随机的问句模板,通过随机抽取的方式将其拼接为自然语言问句作为训练数据集使用。
步骤S2.2:对训练数据集中的文本进行预处理,并将文本向量化表示。具体地,对中英文文本进行分词处理,并对文本实体进行抽取信息标注,标注信息包括问句中的地理位置、关键词以及时间范围。
步骤S2.3:利用向量化的文本表示训练命名实体识别模型,其中向量化表示的方式包括利用Transformer和预训练的大语言模型T5模型,将文本信息转换为计算机可理解、可计算的向量表示。训练命名实体识别模型的公式如下:
其中,表示模型损失函数,D表示训练的语料数据集,x表示所输入的文本向量,s表示信息抽取的结构提示,θed分别代表编码器和解码器参数,通过交叉熵损失优化模型,去抽取对应的结果y。该结果y包括地理实体名称,例如珠穆朗玛峰、青藏高原,而地理实体名称所对应的文本信息、时空信息则是根据实体名称进行检索得到,之后再将其转为向量化的特征。
步骤S3:融合所述抽取结果中的地理实体名称所对应的文本信息与时空信息,对所述抽取结果中的地理实体进行实体对齐,得到对应的对齐结果。对地理实体融合文本信息与时空信息进行实体链接与对齐,能够克服传统知识图谱问答中由于问句表达多样化造成的实体链接困难和问答检索困难。其中,通过抽取结果y中的地理实体文本来检索所述文本信息以及时空信息。具体地,如图3所示,步骤S3包括以下步骤:
步骤S3.1:地理实体信息补全,将原始地学知识图谱中多种表述的地理位置实体进行信息补全,获取地理实体的规范化表述、类型以及其从属信息,得到补全的地理实体信息。
步骤S3.2:将补全的地理实体信息转换为对应的描述文本,并将描述文本向量化,代表每一个地理实体的文本信息,得到对应的文本信息。其中文本向量化的方式可以利用步骤S2.3实现。
步骤S3.3:对地理实体的经纬度范围信息和时间信息进行编码,得到地理实体的时空信息。
步骤S3.4:将文本信息和时空信息相融合,利用融合表征进行地理实体对齐,公式如下:
其中,A{i,j}表示第i个地理实体和第j个地理实体之间的对齐矩阵,pi代表第i个地理实体的向量表征,表示第j个地理实体的向量表征的转置,Scorei,j表示计算得到的不同表征间的相似度,threshold表示所设定的相似度阈值。根据设定的阈值来判断地理实体是否对齐,为可以对齐的地理实体在知识图谱中添加连边关系;当不同表征间的相似度大于阈值时表示对齐,当不同表征间的相似度小于等于阈值时表示没有对齐。
步骤S4:基于地学知识图谱的实体关系结构,开展知识图谱嵌入,捕获跨实体的潜在关系与全局信息,从地学显式数据到深层知识的知识推理,也就是说,实现对地学研究领域与地学数据集的知识推理,得到对应的推理结果。具体地,主要是对y中获取的关键词信息、地理实体信息以及作者信息进行推理,如图4所示,步骤S4包括以下步骤:
步骤S4.1:知识图谱预处理,对相同名称但不同类别实体进行额外消歧,并将以属性图形式保存的知识图谱转为RDF资源描述框架为图谱中每一个实体赋予随机独立ID,建立图谱字符串到ID的映射关系,图谱按照三元组(h,r,t)形式存储,构成事实的集合F:
F={(h1,r1,t1),(h2,r2,t2),……,(hn,rn,tn)}
步骤S4.2:图谱嵌入初始化,即图谱嵌入预处理,为每一个随机独立ID进行随机嵌入,建立起实体集E与关系集R:
E={(e1,b1),(e2,b2),……,(e|E|,b|E|)}.
R={r1,r2,……,r|n|}.
其中,每一个实体的表征由两部分ei和bi组成,分别代表实体的基本位置嵌入和平移变量,每一个关系r则被编码为轴对称的超矩形,每一个向量的维度为256维。
步骤S4.3:图谱嵌入建模,为了建模复杂实体关系,每一个实体在不同的事实中会有不同表征,对任一事实f=(ei,rk,ej),在关系rk下对应的最终的实体表征为:
其中,bj表示实体j的平移变量;b的存在能够以有效的方式对实体之间的复杂交互进行建模,可以根据需要将实体嵌入到各自的关系框rk中。
步骤S4.4:根据图谱嵌入选择合适评价函数,为充分反应嵌入建模效果,通过适当的评价函数使得真实存在的事实得分更高,虚假构建的事实得分降低。通过如下距离函数作为评分函数计算:
其中,ck表示矩形框的中心点,wk表示矩形框的宽度,k表示与宽度相关的偏置,当实体的嵌入点位于目标矩形中,距离与矩形的大小成反比,给予较低的更新权值使得点始终保持在框内;嵌入点位于目标矩形外时,矩形的大小与距离线性相关,基于更高权值作为惩戒项,总的评分函数定义为所有n个实体和关系框中距离的2阶范数之和,公式如下:
步骤S4.5:在建模完成后对图谱嵌入进行训练,在开放世界假设下进行训练,通过逻辑斯蒂损失对实体和关系的嵌入进行不断优化:
当三元组为正例时,yhrt取1,当三元组为负例时,yhrt取-1。
步骤S4.6:根据所获得的嵌入表征实现从显式地学数据到深层地学知识的知识推理,通过图谱嵌入可以发现跨实体的潜在关系与全局信息,因此,其嵌入表征可以用来进行知识推理。即,寻找关键词的相关关键词、寻找数据集的类似数据集等。公式如下:
其中,eai表示某作者的嵌入表征,ekj表示某关键词的嵌入表征,寻找地学数据集的类似数据集、通过对不同实体的嵌入表征计算相似度,公式如下:
则对任意数据集i的所有数据集相似度为:
通过排序并取最高的k个值,推理出对应的最相关的k个数据集。实现从数据集到数据集的知识推理。并依次推理出关键词的相关关键词,特定关键词领域的专业学者,通过隐含深层信息的知识图谱嵌入表征实现知识发现与知识推理。
步骤S5:融合抽取结果、对齐结果与推理结果进行多域检索,得到数据集答案。具体地,得到最终的实体对齐与知识推理结果进行整理,在知识图谱中加入对应知识信息。搭建基于实体对齐与知识推理的问答系统,其输入为自然语言问句,系统首先经过实体抽取模型进行语义理解与抽取,并对抽取结果按照所保存的对齐实体进行实体链接与实体对齐,在图谱上进行多域检索,返回答案。
本发明还提供了一种基于知识图谱推理的地学数据集问答系统,本领域技术人员可以通过执行所述基于知识图谱推理的地学数据集问答方法的步骤流程实现所述基于知识图谱推理的地学数据集问答系统,即可以将所述基于知识图谱推理的地学数据集问答方法理解为所述基于知识图谱推理的地学数据集问答系统的优选实施方式。
根据本发明提供的一种基于知识图谱推理的地学数据集问答系统,包括:
模块M1:根据地学数据集信息构建地学知识图谱。构建地学知识图谱包括概念层搭建模块和实例层搭建模块。地学知识图谱的概念层搭建包括:针对地学知识的元数据信息,通过知识图谱进行描述与表达,完成图谱概念层的搭建,确定实体种类与关系种类,并将不易进行连接的信息作为实体属性,完成图谱架构。地学知识图谱的实例层搭建包括:对地学数据集的元数据进行整理、清洗及去重,完成地学知识图谱的实例化,通过三元组将地学数据集信息完整表现并相互连接。
模块M2:围绕地学数据集问句的关键意图,训练命名实体识别模型进行问句语义理解与信息抽取,得到对应的抽取结果。模块M2包括以下模块:模块M2.1:构建训练数据集。模块M2.2:对训练数据集中的文本进行预处理,并将文本向量化表示。模块M2.3:利用向量化的文本表示训练命名实体识别模型,公式如下:
其中,表示模型的损失函数,D表示训练的语料数据集,x表示所输入的文本向量,s表示信息抽取的结构提示,θed分别代表编码器和解码器参数,通过交叉熵损失优化模型,去抽取对应的结果y。
模块M3:融合所述抽取结果中的地理实体名称所对应的文本信息与时空信息,对所述抽取结果中的地理实体进行实体对齐,得到对应的对齐结果。模块M3包括以下模块:模块M3.1:将原始地学知识图谱中多种表述的地理位置实体进行信息补全,得到补全的地理实体信息。模块M3.2:将补全的地理实体信息转换为对应的描述文本,并将描述文本向量化,得到对应的文本信息。模块M3.3:对地理实体的经纬度范围信息和时间信息进行编码,得到地理实体的时空信息。模块M3.4:将文本信息和时空信息相融合,利用融合表征进行地理实体对齐,公式如下:
其中,A{i,j}表示第i个地理实体和第j个地理实体之间的对齐矩阵,pi代表第i个地理实体的向量表征,表示第j个地理实体的向量表征的转置,Scorei,j表示计算得到的不同表征间的相似度,threshold表示所设定的相似度阈值。根据设定的阈值来判断地理实体是否对齐,为可以对齐的地理实体在知识图谱中添加连边关系;当不同表征间的相似度大于阈值时表示对齐,当不同表征间的相似度小于等于阈值时表示没有对齐。
模块M4:基于地学知识图谱的实体关系结构,开展知识图谱嵌入,捕获跨实体的潜在关系与全局信息,从地学显式数据到深层知识的知识推理,得到对应的推理结果。模块M4包括以下模块:
模块M4.1:知识图谱预处理,对相同名称但不同类别实体进行额外消歧,并为知识图谱中每一个实体和关系赋予随机独立ID,建立图谱字符串到ID的映射关系,图谱按照三元组(h,r,t)形式存储,构成事实的集合F:
F={(h1,r1,t1),(h2,r2,t2),……,(hn,rn,tn)}
模块M4.2:图谱嵌入初始化,为每一个随机独立ID进行随机嵌入,建立起实体集E与关系集R:
E={(e1,b1),(e2,b2),……,(e|E|,b|E|)}.
R={r1,r2,……,r|n|}.
其中,每一个实体的表征由两部分ei和bi组成,分别代表实体的基本位置嵌入和平移变量,每一个关系r则被编码为轴对称的超矩形,每一个向量的维度为256维。
模块M4.3:图谱嵌入建模,为了建模复杂实体关系,每一个实体在不同的事实中会有不同表征,对任一事实f=(ei,rk,ej),在关系rk下对应的最终的实体表征为:
其中,bj表示实体j的平移变量;
模块M4.4:根据图谱嵌入选择合适评价函数,包括通过如下距离函数作为评分函数计算:
其中,ck表示矩形框的中心点,wk表示矩形框的宽度,k表示与宽度相关的偏置,当实体的嵌入点位于目标矩形中,距离与矩形的大小成反比,给予较低的更新权值使得点始终保持在框内;嵌入点位于目标矩形外时,矩形的大小与距离线性相关,基于更高权值作为惩戒项,总的评分函数定义为所有n个实体和关系框中距离的2阶范数之和,公式如下:
模块M4.5:在建模完成后对图谱嵌入进行训练,通过逻辑斯蒂损失对实体和关系的嵌入进行不断优化:
当三元组为正例时,yhrt取1,当三元组为负例时,yhrt取-1;
模块M4.6:利用嵌入表征实现从显式地学数据到深层地学知识的知识推理,公式如下:
其中,eai表示某作者的嵌入表征,ekj表示某关键词的嵌入表征,寻找地学数据集的类似数据集、通过对不同实体的嵌入表征计算相似度,公式如下:
则对任意数据集i的所有数据集相似度为:
通过排序并取最高的k个值,推理出对应的最相关的k个数据集。
模块M5:融合抽取结果、对齐结果与推理结果进行多域检索,得到数据集答案。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于知识图谱推理的地学数据集问答方法,其特征在于,包括:
步骤S1:根据地学数据集信息构建地学知识图谱;
步骤S2:围绕地学数据集问句的关键意图,训练命名实体识别模型进行问句语义理解与信息抽取,得到对应的抽取结果;
步骤S3:融合所述抽取结果中的地理实体名称所对应的文本信息与时空信息,对所述抽取结果中的地理实体进行实体对齐,得到对应的对齐结果;
步骤S4:基于地学知识图谱的实体关系结构,开展知识图谱嵌入,捕获跨实体的潜在关系与全局信息,从地学显式数据到深层知识的知识推理,得到对应的推理结果;
步骤S5:融合抽取结果、对齐结果与推理结果进行多域检索,得到数据集答案。
2.根据权利要求1所述的基于知识图谱推理的地学数据集问答方法,其特征在于,构建地学知识图谱包括概念层搭建步骤和实例层搭建步骤:
所述地学知识图谱的概念层搭建包括:针对地学知识的元数据信息,通过知识图谱进行描述与表达,完成图谱概念层的搭建,确定实体种类与关系种类,并将不易进行连接的信息作为实体属性,完成图谱架构;
所述地学知识图谱的实例层搭建包括:对地学数据集的元数据进行整理、清洗及去重,完成地学知识图谱的实例化,通过三元组将地学数据集信息完整表现并相互连接。
3.根据权利要求1所述的基于知识图谱推理的地学数据集问答方法,其特征在于,所述步骤S2包括以下步骤:
步骤S2.1:构建训练数据集;
步骤S2.2:对所述训练数据集中的文本进行预处理,并将文本向量化表示;
步骤S2.3:利用向量化的文本表示训练命名实体识别模型,公式如下:
其中,表示模型的损失函数,D表示训练语料数据集,x表示所输入的文本向量,s表示信息抽取的结构提示,θed分别代表编码器和解码器参数,通过交叉熵损失优化模型,去抽取对应的结果y。
4.根据权利要求3所述的基于知识图谱推理的地学数据集问答方法,其特征在于,步骤S3包括以下步骤:
步骤S3.1:将原始地学知识图谱中多种表述的地理位置实体进行信息补全,得到补全的地理实体信息;
步骤S3.2:将所述补全的地理实体信息转换为对应的描述文本,并将所述描述文本向量化,得到对应的文本信息;
步骤S3.3:对地理实体的经纬度范围信息和时间信息进行编码,得到地理实体的时空信息;
步骤S3.4:将所述文本信息和所述时空信息相融合,利用融合表征进行地理实体对齐,公式如下:
其中,A{i,j}表示第i个地理实体和第j个地理实体之间的对齐矩阵,pi代表第i个地理实体的向量表征,表示第j个地理实体的向量表征的转置,Scorei,j表示计算得到的不同表征间的相似度,threshold表示所设定的相似度阈值;
根据设定的阈值来判断地理实体是否对齐,为可以对齐的地理实体在知识图谱中添加连边关系;当不同表征间的相似度大于阈值时表示对齐,当不同表征间的相似度小于等于阈值时表示没有对齐。
5.根据权利要求1所述的基于知识图谱推理的地学数据集问答方法,其特征在于,所述步骤S4包括以下步骤:
步骤S4.1:知识图谱预处理,对相同名称但不同类别实体进行额外消歧,并为知识图谱中每一个实体和关系赋予随机独立ID,建立图谱字符串到ID的映射关系,图谱按照三元组(h,r,t)形式存储,构成事实的集合F:
F={(h1,r1,t1),(h2,r2,t2),……,(hn,rn,tn)}
步骤S4.2:图谱嵌入初始化,为每一个随机独立ID进行随机嵌入,建立起实体集E与关系集R:
E={(e1,b1),(e2,b2),……,(e|E|,b|E|)}.
R={r1,r2,……,r|n|}.
其中,每一个实体的表征由两部分ei和bi组成,分别代表实体的基本位置嵌入和平移变量,每一个关系r则被编码为轴对称的超矩形,每一个向量的维度为256维;
步骤S4.3:图谱嵌入建模,为了建模复杂实体关系,每一个实体在不同的事实中会有不同表征,对任一事实f=(ei,rk,ej),在关系rk下对应的最终的实体表征为:
其中,bj表示第j个实体的平移变量;
步骤S4.4:根据图谱嵌入选择合适评价函数,包括通过如下距离函数作为评分函数计算:
其中,ck表示矩形框的中心点,wk表示矩形框的宽度,k表示与宽度相关的偏置,当实体的嵌入点位于目标矩形中,距离与矩形的大小成反比,给予较低的更新权值使得点始终保持在框内;嵌入点位于目标矩形外时,矩形的大小与距离线性相关,基于更高权值作为惩戒项,总的评分函数定义为所有n个实体和关系框中距离的2阶范数之和,公式如下:
步骤S4.5:在建模完成后对图谱嵌入进行训练,通过逻辑斯蒂损失对实体和关系的嵌入进行不断优化:
当三元组为正例时,yhrt取1,当三元组为负例时,yhrt取-1;
步骤S4.6:利用嵌入表征实现从显式地学数据到深层地学知识的知识推理,公式如下:
其中,eai表示某作者的嵌入表征,ekj表示某关键词的嵌入表征,寻找地学数据集的类似数据集、通过对不同实体的嵌入表征计算相似度,公式如下:
则对任意数据集i的所有数据集相似度为:
通过排序并取最高的k个值,推理出对应的最相关的k个数据集。
6.一种基于知识图谱推理的地学数据集问答系统,其特征在于,包括:
模块M1:根据地学数据集信息构建地学知识图谱;
模块M2:围绕地学数据集问句的关键意图,训练命名实体识别模型进行问句语义理解与信息抽取,得到对应的抽取结果;
模块M3:融合所述抽取结果中的地理实体名称所对应的文本信息与时空信息,对所述抽取结果中的地理实体进行实体对齐,得到对应的对齐结果;
模块M4:基于地学知识图谱的实体关系结构,开展知识图谱嵌入,捕获跨实体的潜在关系与全局信息,从地学显式数据到深层知识的知识推理,得到对应的推理结果;
模块M5:融合抽取结果、对齐结果与推理结果进行多域检索,得到数据集答案。
7.根据权利要求6所述的基于知识图谱推理的地学数据集问答系统,其特征在于,构建地学知识图谱包括概念层搭建模块和实例层搭建模块:
所述地学知识图谱的概念层搭建包括:针对地学知识的元数据信息,通过知识图谱进行描述与表达,完成图谱概念层的搭建,确定实体种类与关系种类,并将不易进行连接的信息作为实体属性,完成图谱架构;
所述地学知识图谱的实例层搭建包括:对地学数据集的元数据进行整理、清洗及去重,完成地学知识图谱的实例化,通过三元组将地学数据集信息完整表现并相互连接。
8.根据权利要求6所述的基于知识图谱推理的地学数据集问答系统,其特征在于,所述模块M2包括以下模块:
模块M2.1:构建训练数据集;
模块M2.2:对所述训练数据集中的文本进行预处理,并将文本向量化表示;
模块M2.3:利用向量化的文本表示训练命名实体识别模型,公式如下:
其中,表示模型的损失函数,D表示训练语料数据集,x表示所输入的文本向量,s表示信息抽取的结构提示,θed分别代表编码器和解码器参数,通过交叉熵损失优化模型,去抽取对应的结果y。
9.根据权利要求8所述的基于知识图谱推理的地学数据集问答系统,其特征在于,模块M3包括以下模块:
模块M3.1:将原始地学知识图谱中多种表述的地理位置实体进行信息补全,得到补全的地理实体信息;
模块M3.2:将所述补全的地理实体信息转换为对应的描述文本,并将所述描述文本向量化,得到对应的文本信息;
模块M3.3:对地理实体的经纬度范围信息和时间信息进行编码,得到地理实体的时空信息;
模块M3.4:将所述文本信息和所述时空信息相融合,利用融合表征进行地理实体对齐,公式如下:
其中,A{i,j}表示第i个地理实体和第j个地理实体之间的对齐矩阵,pi代表第i个地理实体的向量表征,表示第j个地理实体的向量表征的转置,Scorei,j表示计算得到的不同表征间的相似度,threshold表示所设定的相似度阈值;
根据设定的阈值来判断地理实体是否对齐,为可以对齐的地理实体在知识图谱中添加连边关系;当不同表征间的相似度大于阈值时表示对齐,当不同表征间的相似度小于等于阈值时表示没有对齐。
10.根据权利要求6所述的基于知识图谱推理的地学数据集问答系统,其特征在于,所述模块M4包括以下模块:
模块M4.1:知识图谱预处理,对相同名称但不同类别实体进行额外消歧,并为知识图谱中每一个实体和关系赋予随机独立ID,建立图谱字符串到ID的映射关系,图谱按照三元组(h,r,t)形式存储,构成事实的集合F:
F={(h1,r1,t1),(h2,r2,t2),……,(hn,rn,tn)}
模块M4.2:图谱嵌入初始化,为每一个随机独立ID进行随机嵌入,建立起实体集E与关系集R:
E={(e1,b1),(e2,b2),……,(e|E|,b|E|)}.
R={r1,r2,……,r|n|}.
其中,每一个实体的表征由两部分ei和bi组成,分别代表实体的基本位置嵌入和平移变量,每一个关系r则被编码为轴对称的超矩形,每一个向量的维度为256维;
模块M4.3:图谱嵌入建模,为了建模复杂实体关系,每一个实体在不同的事实中会有不同表征,对任一事实f=(ei,rk,ej),在关系rk下对应的最终的实体表征为:
其中,bj表示实体j的平移变量;
模块M4.4:根据图谱嵌入选择合适评价函数,包括通过如下距离函数作为评分函数计算:
其中,ck表示矩形框的中心点,wk表示矩形框的宽度,k表示与宽度相关的偏置,当实体的嵌入点位于目标矩形中,距离与矩形的大小成反比,给予较低的更新权值使得点始终保持在框内;嵌入点位于目标矩形外时,矩形的大小与距离线性相关,基于更高权值作为惩戒项,总的评分函数定义为所有n个实体和关系框中距离的2阶范数之和,公式如下:
模块M4.5:在建模完成后对图谱嵌入进行训练,通过逻辑斯蒂损失对实体和关系的嵌入进行不断优化:
当三元组为正例时,yhrt取1,当三元组为负例时,yhrt取-1;
模块M4.6:利用嵌入表征实现从显式地学数据到深层地学知识的知识推理,公式如下:
其中,eai表示某作者的嵌入表征,ekj表示某关键词的嵌入表征,寻找地学数据集的类似数据集、通过对不同实体的嵌入表征计算相似度,公式如下:
则对任意数据集i的所有数据集相似度为:
通过排序并取最高的k个值,推理出对应的最相关的k个数据集。
CN202310893387.7A 2023-07-19 2023-07-19 基于知识图谱推理的地学数据集问答方法及系统 Pending CN116955558A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310893387.7A CN116955558A (zh) 2023-07-19 2023-07-19 基于知识图谱推理的地学数据集问答方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310893387.7A CN116955558A (zh) 2023-07-19 2023-07-19 基于知识图谱推理的地学数据集问答方法及系统

Publications (1)

Publication Number Publication Date
CN116955558A true CN116955558A (zh) 2023-10-27

Family

ID=88457801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310893387.7A Pending CN116955558A (zh) 2023-07-19 2023-07-19 基于知识图谱推理的地学数据集问答方法及系统

Country Status (1)

Country Link
CN (1) CN116955558A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117593757A (zh) * 2023-12-13 2024-02-23 招商基金管理有限公司 扫描件中的文本要素抽取方法、装置及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117593757A (zh) * 2023-12-13 2024-02-23 招商基金管理有限公司 扫描件中的文本要素抽取方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN109271505B (zh) 一种基于问题答案对的问答系统实现方法
CN107239446B (zh) 一种基于神经网络与注意力机制的情报关系提取方法
CN111159223B (zh) 一种基于结构化嵌入的交互式代码搜索方法及装置
CN101630314B (zh) 一种基于领域知识的语义查询扩展方法
CN109255031A (zh) 基于知识图谱的数据处理方法
CN109062939A (zh) 一种面向汉语国际教育的智能导学方法
CN109271506A (zh) 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN112329467A (zh) 地址识别方法、装置、电子设备以及存储介质
CN111831789A (zh) 一种基于多层语义特征提取结构的问答文本匹配方法
CN110795565B (zh) 基于语义识别的别名挖掘方法、装置、介质及电子设备
Simon Artificial Intelligence Systems That Understand.
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN114912449B (zh) 基于代码描述文本的技术特征关键词抽取方法与系统
CN116955558A (zh) 基于知识图谱推理的地学数据集问答方法及系统
CN112883182A (zh) 一种基于机器阅读的问答匹配方法及装置
CN115269899A (zh) 基于遥感知识图谱的遥感影像统筹系统
CN113946686A (zh) 电力营销知识图谱构建方法及系统
CN117312499A (zh) 一种基于语义的大数据分析系统及方法
CN117251455A (zh) 一种基于大模型的智能报表生成方法及其系统
CN117648429B (zh) 基于多模态自适应检索式增强大模型的问答方法及系统
CN114841353A (zh) 一种融合句法信息的量子语言模型建模系统及其应用
CN112417170B (zh) 面向不完备知识图谱的关系链接方法
CN115795018B (zh) 一种面向电网领域的多策略智能搜索问答方法及系统
CN110390050B (zh) 一种基于深度语义理解的软件开发问答信息自动获取方法
CN116244277A (zh) 一种nlp识别与知识库构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination