CN117520568A - 知识图谱属性补全方法、装置、设备及存储介质 - Google Patents

知识图谱属性补全方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117520568A
CN117520568A CN202410011524.4A CN202410011524A CN117520568A CN 117520568 A CN117520568 A CN 117520568A CN 202410011524 A CN202410011524 A CN 202410011524A CN 117520568 A CN117520568 A CN 117520568A
Authority
CN
China
Prior art keywords
attribute
answer
information
complemented
completion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410011524.4A
Other languages
English (en)
Inventor
张向征
刘红宇
魏其学
林伟家
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN202410011524.4A priority Critical patent/CN117520568A/zh
Publication of CN117520568A publication Critical patent/CN117520568A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种知识图谱属性补全方法、装置、设备及存储介质,属于知识图谱技术领域。本发明通过根据待补全元组信息确定属性查询问题;根据所述属性查询问题进行搜索,得到搜索结果;根据所述搜索结果确定答案属性集合;从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性。通过这种方式,实现了通过大模型的引入自动对知识图谱中缺失的属性进行搜索和补全,提高了自动进行属性补全的效率,并且通过搜索和大模型调整的方式提高了补全的属性的准确度。

Description

知识图谱属性补全方法、装置、设备及存储介质
技术领域
本发明涉及知识图谱技术领域,尤其涉及一种知识图谱属性补全方法、装置、设备及存储介质。
背景技术
知识图谱是表示实体之间真实世界关系互连的数据集合,是一种将实体、属性和关系组织在一起的知识表示方法,可用于自然语言处理、信息检索、智能问答等领域。大模型具有很强的语言理解和知识抽取能力,依托大模型从文本中抽取实体的属性信息,可以快速地对知识图谱进行属性补全,以建立完整的知识图谱体系。
但是在已有的知识图谱实体-关系,比如<浙江省,省会,?>,当存在知识图谱中的属性缺失时,需要额外进行手动的修正和补充,但是这种方式会受到主观的影响导致知识图谱的属性补全耗时且不一定准确。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种知识图谱属性补全方法、装置、设备及存储介质,旨在解决现有技术知识图谱中存在属性缺失时补全效率低准确率没有保证的技术问题。
为实现上述目的,本发明提供了一种知识图谱属性补全方法,所述知识图谱属性补全方法包括以下步骤:
根据待补全元组信息确定属性查询问题;
根据所述属性查询问题进行搜索,得到搜索结果;
根据所述搜索结果确定答案属性集合;
从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性。
可选地,所述根据待补全元组信息确定属性查询问题之前,还包括:
获取待补全属性的待补全元组;
将所述待补全元组填充到预设查询模板,得到待补全元组信息。
可选地,所述根据所述属性查询问题进行搜索,得到搜索结果,包括:
将所述属性查询问题输入搜索框进行搜索,得到多个初筛搜索结果;
按照目标结果数量从各初筛搜索结果中选取搜索结果。
可选地,所述根据所述搜索结果确定答案属性集合,包括:
将所述搜索结果进行分段得到文本段落信息;
根据所述文本段落信息确定答案属性集合。
可选地,所述将所述搜索结果进行分段得到文本段落信息,包括:
根据预设分段策略确定分段字数规则、分段段落规则和分段断句规则中的至少一项;
根据所述分段字数规则、分段段落规则和分段断句规则中的至少一项对所述搜索结果进行分段,得到多个文本段落信息。
可选地,所述根据所述文本段落信息确定答案属性集合,包括:
根据所述待补全元组信息确定待补全实体;
根据所述文本段落信息和所述待补全实体确定关系文本;
根据所述待补全实体和所述关系文本调用属性提取大模型,得到答案属性集合。
可选地,所述根据所述待补全实体和所述关系文本调用属性提取大模型,得到答案属性集合,包括:
将所述待补全实体和所述关系文本添加到段落集合;
将所述段落集合填充到预设属性抽取模板,得到属性抽取输入信息;
将所述属性抽取输入信息输入到属性提取大模型,得到答案属性集合。
可选地,所述将所述属性抽取输入信息输入到属性提取大模型,得到答案属性集合,包括:
将所述属性抽取输入信息输入到属性提取大模型,得到模型输出结果;
从所述模型输出结果中抽取所述属性查询问题对应的属性答案;
根据所述属性答案构建答案属性集合。
可选地,所述从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性,包括:
根据所述答案属性集合确定答案数目信息;
根据所述答案数目信息从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性。
可选地,所述根据所述答案数目信息从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性,包括:
根据所述答案数目信息确定所述答案属性集合中的各备选答案对应的数目排序;
根据所述排序结果从各备选答案中选取目标答案;
根据所述目标答案确定补全目标属性。
此外,为实现上述目的,本发明还提出一种知识图谱属性补全装置,所述知识图谱属性补全装置包括:
问题生成模块,用于根据待补全元组信息确定属性查询问题;
问题搜索模块,用于根据所述属性查询问题进行搜索,得到搜索结果;
答案汇总模块,用于根据所述搜索结果确定答案属性集合;
答案选取模块,用于从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性。
所述问题生成模块,还用于获取待补全属性的待补全元组;将所述待补全元组填充到预设查询模板,得到待补全元组信息。
可选地,所述问题搜索模块,还用于将所述属性查询问题输入搜索框进行搜索,得到多个初筛搜索结果;按照目标结果数量从各初筛搜索结果中选取搜索结果。
可选地,所述答案汇总模块,还用于将所述搜索结果进行分段得到文本段落信息;根据所述文本段落信息确定答案属性集合。
可选地,所述答案汇总模块,还用于根据预设分段策略确定分段字数规则、分段段落规则和分段断句规则中的至少一项;根据所述分段字数规则、分段段落规则和分段断句规则中的至少一项对所述搜索结果进行分段,得到多个文本段落信息。
可选地,所述答案汇总模块,还用于根据所述待补全元组信息确定待补全实体;根据所述文本段落信息和所述待补全实体确定关系文本;根据所述待补全实体和所述关系文本调用属性提取大模型,得到答案属性集合。
可选地,所述答案汇总模块,还用于将所述待补全实体和所述关系文本添加到段落集合;将所述段落集合填充到预设属性抽取模板,得到属性抽取输入信息;将所述属性抽取输入信息输入到属性提取大模型,得到答案属性集合。
可选地,所述答案汇总模块,还用于将所述属性抽取输入信息输入到属性提取大模型,得到模型输出结果;从所述模型输出结果中抽取所述属性查询问题对应的属性答案;根据所述属性答案构建答案属性集合。
此外,为实现上述目的,本发明还提出一种知识图谱属性补全设备,所述知识图谱属性补全设备包括:存储器、处理器及存储在所述存储器上并在所述处理器上运行的知识图谱属性补全程序,所述知识图谱属性补全程序配置为实现如上文所述的知识图谱属性补全方法。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有知识图谱属性补全程序,所述知识图谱属性补全程序被处理器执行时实现如上文所述的知识图谱属性补全方法。
本发明根据待补全元组信息确定属性查询问题;根据所述属性查询问题进行搜索,得到搜索结果;根据所述搜索结果确定答案属性集合;从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性。通过这种方式,实现了通过大模型的引入自动对知识图谱中缺失的属性进行搜索和补全,提高了自动进行属性补全的效率,并且通过搜索和大模型调整的方式提高了补全的属性的准确度。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的知识图谱属性补全设备的结构示意图;
图2为本发明知识图谱属性补全方法第一实施例的流程示意图;
图3为本发明知识图谱属性补全方法第二实施例的流程示意图;
图4为本发明知识图谱属性补全方法第三实施例的流程示意图;
图5为本发明知识图谱属性补全装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的知识图谱属性补全设备结构示意图。
如图1所示,该知识图谱属性补全设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对知识图谱属性补全设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及知识图谱属性补全程序。
在图1所示的知识图谱属性补全设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明知识图谱属性补全设备中的处理器1001、存储器1005可以设置在知识图谱属性补全设备中,所述知识图谱属性补全设备通过处理器1001调用存储器1005中存储的知识图谱属性补全程序,并执行本发明实施例提供的知识图谱属性补全方法。
本发明实施例提供了一种知识图谱属性补全方法,参照图2,图2为本发明一种知识图谱属性补全方法第一实施例的流程示意图。
本实施例中,所述知识图谱属性补全方法包括以下步骤:
步骤S10:根据待补全元组信息确定属性查询问题
在本实施例中,本实施例的执行主体可为所述知识图谱属性补全设备,该知识图谱属性补全设备具有数据处理、数据通信及程序运行等功能,所述知识图谱属性补全设备可以为任意能搭载和运行大模型的智能终端,例如任意服务器、计算机或者笔记本电脑。当然,还可为其他具有相似功能的设备,本实施条件对此不加以限制。为便于说明,本实施方式以知识图谱属性补全设备为例进行说明。
需要说明的是,知识图谱是表示实体之间真实世界关系互连的数据集合,是一种将实体、属性和关系组织在一起的知识表示方法,可用于自然语言处理、信息检索、智能问答等领域。大模型具有很强的语言理解和知识抽取能力,依托大模型从文本中抽取实体的属性信息,可以快速地对知识图谱进行属性补全,以建立完整的知识图谱体系。本发明具体来说,根据已有的知识图谱实体-关系,比如<浙江省,省会,?>,首先基于大模型生成属性查询问题,比如上面元组会生成问题:“浙江省的省会在哪里?”。然后将问题作为Query,搜索获知问题对应的答案。最后基于大模型抽取能力,结合属性查询问题,对属性进行抽取,然后补全知识图谱。基于以上诉求,提出了一种基于大模型的知识图谱属性补全方法,该模式可以补齐属性,完善知识图谱建设。
应理解的是,待补全元组信息指的是可以直接输入到大模型的经过处理的缺失属性的三元组的相关信息。
在具体实施中,大模型指的是大语言模型(Large Language Model,LLM),可以对文本语言进行分析、理解和处理的人工智能模型。并且本实施例的方案所使用的大模型为不同类型不同用途的大模型,在步骤S10中的大模型为进行属性查询问题的生成的大模型。
进一步的,为了对缺失属性的元组进行处理,便于输入到大模型,步骤S10之前,还包括:获取待补全属性的待补全元组;将所述待补全元组填充到预设查询模板,得到待补全元组信息。
需要说明的是,首先加载已经构建完成的知识图谱中的待补全属性的<实体,关系,?>元组。将待补全的元组信息填充到预置的生成属性查询问题的Prompt模板中,得到的最终填充完毕的模板即为待补全元组信息,然后将待补全元组信息输入到大模型中,即可得到属性查询问题。
步骤S20:根据所述属性查询问题进行搜索,得到搜索结果。
应理解的是,得到属性查询问题之后,将属性查询问题代入到网络搜索服务中进行搜索,从而确定搜索结果。
进一步的,为了准确的经过搜索得到更为正确的搜索结果,步骤S20包括:将所述属性查询问题输入搜索框进行搜索,得到多个初筛搜索结果;按照目标结果数量从各初筛搜索结果中选取搜索结果。
在具体实施中,将属性查询问题作为Query,请求搜索服务,得到的所有的搜索结果为初筛搜索结果,然后将初筛搜索结果中的TopN的自然结果作为最终的搜索结果。其中,TopN为排名靠前的N个搜索结果,具体N的个数可以任意设定,本实施例对此不加以限定。
步骤S30:根据所述搜索结果确定答案属性集合。
需要说明的是,在得到搜索结果之后,再调用属性提取大模型对搜索结果进行处理,可以得到最终的包含最终答案的答案属性的集合。此处的属性提取大模型为用于进行答案属性的提取的大模型。
步骤S40:从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性。
应理解的是,答案属性集合中包括了多个待选的可能的答案,所以进一步对答案属性集合进行分析,从而可以从答案属性集合选取到待补全元组信息对应的补全目标属性。
本实施例通过根据待补全元组信息确定属性查询问题;根据所述属性查询问题进行搜索,得到搜索结果;根据所述搜索结果确定答案属性集合;从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性。通过这种方式,实现了通过大模型的引入自动对知识图谱中缺失的属性进行搜索和补全,提高了自动进行属性补全的效率,并且通过搜索和大模型调整的方式提高了补全的属性的准确度。
参考图3,图3为本发明一种知识图谱属性补全方法第二实施例的流程示意图。
基于上述第一实施例,本实施例知识图谱属性补全方法在所述步骤S30包括:
步骤S301:将所述搜索结果进行分段得到文本段落信息。
需要说明的是,首先对搜索结果按照预先设定的分段策略进行段落划分,得到文本段落信息。
进一步的,为了将分段后的文本段落信息设定的更为适合大模型的输入,步骤S301包括:根据预设分段策略确定分段字数规则、分段段落规则和分段断句规则中的至少一项;根据所述分段字数规则、分段段落规则和分段断句规则中的至少一项对所述搜索结果进行分段,得到多个文本段落信息。
需要说明的是,首先调用预设分段策略,确定具体的三个规则,分别为分段字数规则、分段段落规则和分段断句规则,然后通过分段字数规则、分段段落规则和分段断句规则对目标文本进行分段处理,得到了多个分段完毕的文本段落信息。
应理解的是,按照分段策略对文本进行分段,得到PARAGRAPH_SET,也就是文本段落信息。其中预设分段策略如下:分段字数规则:限制在某些字数,200字左右为宜;分段段落规则:分段避免分到两个自然段落,尽量保持在一个段落内;分段断句规则:分段结束位置在一个句子中间,就将该句子包含进来。避免将一个自然句切开。
步骤S302:根据所述文本段落信息确定答案属性集合。
在具体实施中,在得到文本段落信息之后,再调用大模型对处理后的文本段落信息进行输入和处理,从而得到答案属性集合。
进一步的,为了结合待补全实体和关系文本,从而更好的利用大模型进行文本处理和整理,步骤S302包括:根据所述待补全元组信息确定待补全实体;根据所述文本段落信息和所述待补全实体确定关系文本;根据所述待补全实体和所述关系文本调用属性提取大模型,得到答案属性集合。
需要说明的是,首先根据待补全元组信息进行提取,确定待补全实体,然后将待补全实体与文本段落信息进行比较,从而确定各个文本段落信息中存在关联的关系文本。
应理解的是,在得到待补全实体和关系文本之后,将待补全实体与关系文本进行处理得到输入到属性提取大模型的数据和信息,从而调用属性提取大模型进行答案属性集合的整理。
进一步的,为了调用大模型进行答案属性集合的整理,根据所述待补全实体和所述关系文本调用属性提取大模型,得到答案属性集合的步骤包括:将所述待补全实体和所述关系文本添加到段落集合;将所述段落集合填充到预设属性抽取模板,得到属性抽取输入信息;将所述属性抽取输入信息输入到属性提取大模型,得到答案属性集合。
在具体实施中,首先将包含待补全实体和关系文本的段落,添加到段落集合(PARAGRAPH_SET集合)中,再进行模板填充输入到大模型中,从而得到答案属性集合。将PARAGRAPTH_SET集合中每一段文本结合Query,分别填充到预置的属性抽取Prompt模版中。将填充后的Prompt输入给大模型,得到属性抽取输入信息。
进一步的,为了准确的通过大模型的输出结果对答案属性集合进行筛选和构建,将所述属性抽取输入信息输入到属性提取大模型,得到答案属性集合的步骤包括:将所述属性抽取输入信息输入到属性提取大模型,得到模型输出结果;从所述模型输出结果中抽取所述属性查询问题对应的属性答案;根据所述属性答案构建答案属性集合。
需要说明的是,首先将填充完毕模板的属性抽取输入信息输入到大模型中,得到模型输出结果。
应理解的是,在得到模型输出结果之后,从模型输出结果中抽取问题对应的属性答案,加入属性集合ATTIRBUTE_SET,得到属性答案集合。
本实施例通过将所述搜索结果进行分段得到文本段落信息;根据所述文本段落信息确定答案属性集合。通过这种方式,实现了对搜索结果进行分段的预处理,然后借助大模型进行答案属性的提取和汇总,提高了知识图谱的属性补全的效率和准确度。
参考图4,图4为本发明一种知识图谱属性补全方法第三实施例的流程示意图。
基于上述第一实施例,本实施例知识图谱属性补全方法在所述步骤S40包括:
步骤S401:根据所述答案属性集合确定答案数目信息。
需要说明的是,首先根据答案属性集合确定所有的答案属性的数目信息,即统计相同的答案属性在答案属性集合中出现的次数。
步骤S402:根据所述答案数目信息从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性。
应理解的是,首先根据答案书目信息确定所有的备选答案的数目并进行排序,从而根据排序结果选取补全目标属性。
进一步的,为了准确的确定补全目标属性,步骤S402包括:根据所述答案数目信息确定所述答案属性集合中的各备选答案对应的数目排序;根据所述排序结果从各备选答案中选取目标答案;根据所述目标答案确定补全目标属性。
在具体实施中,首先根据答案数目信息确定答案属性集合中所有的备选答案的数目,然后按照数目从高到低进行排序,根据排序结果选取排序最高的备选答案作为目标答案,然后根据目标答案确定最终填充到知识图谱中的补全目标属性。
本实施例通过根据所述答案属性集合确定答案数目信息;根据所述答案数目信息从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性。通过这种方式,实现了通过对所有的答案属性进行数目统计,然后基于统计结果进行最终的补全目标属性的选取,提高了最终确定的补全目标属性的准确性。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有知识图谱属性补全程序,所述知识图谱属性补全程序被处理器执行时实现如上文所述的知识图谱属性补全方法的步骤。
由于本存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
参照图5,图5为本发明知识图谱属性补全装置第一实施例的结构框图。
如图5所示,本发明实施例提出的知识图谱属性补全装置包括:
问题生成模块10,用于根据待补全元组信息确定属性查询问题。
问题搜索模块20,用于根据所述属性查询问题进行搜索,得到搜索结果。
答案汇总模块30,用于根据所述搜索结果确定答案属性集合。
答案选取模块40,用于从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性。
本实施例根据待补全元组信息确定属性查询问题;根据所述属性查询问题进行搜索,得到搜索结果;根据所述搜索结果确定答案属性集合;从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性。通过这种方式,实现了通过大模型的引入自动对知识图谱中缺失的属性进行搜索和补全,提高了自动进行属性补全的效率,并且通过搜索和大模型调整的方式提高了补全的属性的准确度。
在一实施例中,所述问题生成模块10,还用于获取待补全属性的待补全元组;将所述待补全元组填充到预设查询模板,得到待补全元组信息。
在一实施例中,所述问题搜索模块20,还用于将所述属性查询问题输入搜索框进行搜索,得到多个初筛搜索结果;按照目标结果数量从各初筛搜索结果中选取搜索结果。
在一实施例中,所述答案汇总模块30,还用于将所述搜索结果进行分段得到文本段落信息;根据所述文本段落信息确定答案属性集合。
在一实施例中,所述答案汇总模块30,还用于根据预设分段策略确定分段字数规则、分段段落规则和分段断句规则中的至少一项;根据所述分段字数规则、分段段落规则和分段断句规则中的至少一项对所述搜索结果进行分段,得到多个文本段落信息。
在一实施例中,所述答案汇总模块30,还用于根据所述待补全元组信息确定待补全实体;根据所述文本段落信息和所述待补全实体确定关系文本;根据所述待补全实体和所述关系文本调用属性提取大模型,得到答案属性集合。
在一实施例中,所述答案汇总模块30,还用于将所述待补全实体和所述关系文本添加到段落集合;将所述段落集合填充到预设属性抽取模板,得到属性抽取输入信息;将所述属性抽取输入信息输入到属性提取大模型,得到答案属性集合。
在一实施例中,所述答案汇总模块30,还用于将所述属性抽取输入信息输入到属性提取大模型,得到模型输出结果;从所述模型输出结果中抽取所述属性查询问题对应的属性答案;根据所述属性答案构建答案属性集合。
在一实施例中,所述答案汇总模块30,还用于将所述属性抽取输入信息输入到属性提取大模型,得到模型输出结果;从所述模型输出结果中抽取所述属性查询问题对应的属性答案;根据所述属性答案构建答案属性集合。
在一实施例中,所述答案选取模块40,还用于根据所述答案属性集合确定答案数目信息;根据所述答案数目信息从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性。
在一实施例中,所述答案选取模块40,还用于根据所述答案数目信息确定所述答案属性集合中的各备选答案对应的数目排序;根据所述排序结果从各备选答案中选取目标答案;根据所述目标答案确定补全目标属性。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的知识图谱属性补全方法,此处不再赘述。
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的 技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
本发明公开了A1、一种知识图谱属性补全方法,所述知识图谱属性补全方法包括:
根据待补全元组信息确定属性查询问题;
根据所述属性查询问题进行搜索,得到搜索结果;
根据所述搜索结果确定答案属性集合;
从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性。
A2、如A1所述的知识图谱属性补全方法,所述根据待补全元组信息确定属性查询问题之前,还包括:
获取待补全属性的待补全元组;
将所述待补全元组填充到预设查询模板,得到待补全元组信息。
A3、如A1所述的知识图谱属性补全方法,所述根据所述属性查询问题进行搜索,得到搜索结果,包括:
将所述属性查询问题输入搜索框进行搜索,得到多个初筛搜索结果;
按照目标结果数量从各初筛搜索结果中选取搜索结果。
A4、如A1所述的知识图谱属性补全方法,所述根据所述搜索结果确定答案属性集合,包括:
将所述搜索结果进行分段得到文本段落信息;
根据所述文本段落信息确定答案属性集合。
A5、如A4所述的知识图谱属性补全方法,所述将所述搜索结果进行分段得到文本段落信息,包括:
根据预设分段策略确定分段字数规则、分段段落规则和分段断句规则中的至少一项;
根据所述分段字数规则、分段段落规则和分段断句规则中的至少一项对所述搜索结果进行分段,得到多个文本段落信息。
A6、如A4所述的知识图谱属性补全方法,所述根据所述文本段落信息确定答案属性集合,包括:
根据所述待补全元组信息确定待补全实体;
根据所述文本段落信息和所述待补全实体确定关系文本;
根据所述待补全实体和所述关系文本调用属性提取大模型,得到答案属性集合。
A7、如A6所述的知识图谱属性补全方法,所述根据所述待补全实体和所述关系文本调用属性提取大模型,得到答案属性集合,包括:
将所述待补全实体和所述关系文本添加到段落集合;
将所述段落集合填充到预设属性抽取模板,得到属性抽取输入信息;
将所述属性抽取输入信息输入到属性提取大模型,得到答案属性集合。
A8、如A7所述的知识图谱属性补全方法,所述将所述属性抽取输入信息输入到属性提取大模型,得到答案属性集合,包括:
将所述属性抽取输入信息输入到属性提取大模型,得到模型输出结果;
从所述模型输出结果中抽取所述属性查询问题对应的属性答案;
根据所述属性答案构建答案属性集合。
A9、如A1所述的知识图谱属性补全方法,所述从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性,包括:
根据所述答案属性集合确定答案数目信息;
根据所述答案数目信息从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性。
A10、如A9所述的知识图谱属性补全方法,所述根据所述答案数目信息从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性,包括:
根据所述答案数目信息确定所述答案属性集合中的各备选答案对应的数目排序;
根据所述排序结果从各备选答案中选取目标答案;
根据所述目标答案确定补全目标属性。
本发明还公开了B11、一种知识图谱属性补全装置,所述知识图谱属性补全装置包括:
问题生成模块,用于根据待补全元组信息确定属性查询问题;
问题搜索模块,用于根据所述属性查询问题进行搜索,得到搜索结果;
答案汇总模块,用于根据所述搜索结果确定答案属性集合;
答案选取模块,用于从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性。
B12、如B11所述的知识图谱属性补全装置,所述问题生成模块,还用于获取待补全属性的待补全元组;将所述待补全元组填充到预设查询模板,得到待补全元组信息。
B13、如B11所述的知识图谱属性补全装置,所述问题搜索模块,还用于将所述属性查询问题输入搜索框进行搜索,得到多个初筛搜索结果;按照目标结果数量从各初筛搜索结果中选取搜索结果。
B14、如B11所述的知识图谱属性补全装置,所述答案汇总模块,还用于将所述搜索结果进行分段得到文本段落信息;根据所述文本段落信息确定答案属性集合。
B15、如B14所述的知识图谱属性补全装置,所述答案汇总模块,还用于根据预设分段策略确定分段字数规则、分段段落规则和分段断句规则中的至少一项;根据所述分段字数规则、分段段落规则和分段断句规则中的至少一项对所述搜索结果进行分段,得到多个文本段落信息。
B16、如B14所述的知识图谱属性补全装置,所述答案汇总模块,还用于根据所述待补全元组信息确定待补全实体;根据所述文本段落信息和所述待补全实体确定关系文本;根据所述待补全实体和所述关系文本调用属性提取大模型,得到答案属性集合。
B17、如B16所述的知识图谱属性补全装置,所述答案汇总模块,还用于将所述待补全实体和所述关系文本添加到段落集合;将所述段落集合填充到预设属性抽取模板,得到属性抽取输入信息;将所述属性抽取输入信息输入到属性提取大模型,得到答案属性集合。
B18、如B17所述的知识图谱属性补全装置,所述答案汇总模块,还用于将所述属性抽取输入信息输入到属性提取大模型,得到模型输出结果;从所述模型输出结果中抽取所述属性查询问题对应的属性答案;根据所述属性答案构建答案属性集合。
本发明还公开了C19、一种知识图谱属性补全设备,所述知识图谱属性补全设备包括:存储器、处理器及存储在所述存储器上并在所述处理器上运行的知识图谱属性补全程序,所述知识图谱属性补全程序配置为实现如上所述的知识图谱属性补全方法。
本发明还公开了D20、一种存储介质,所述存储介质上存储有知识图谱属性补全程序,所述知识图谱属性补全程序被处理器执行时实现如上所述的知识图谱属性补全方法。

Claims (10)

1.一种知识图谱属性补全方法,其特征在于,所述知识图谱属性补全方法包括:
根据待补全元组信息确定属性查询问题;
根据所述属性查询问题进行搜索,得到搜索结果;
根据所述搜索结果确定答案属性集合;
从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性。
2.如权利要求1所述的知识图谱属性补全方法,其特征在于,所述根据所述搜索结果确定答案属性集合,包括:
将所述搜索结果进行分段得到文本段落信息;
根据所述文本段落信息确定答案属性集合。
3.如权利要求2所述的知识图谱属性补全方法,其特征在于,所述将所述搜索结果进行分段得到文本段落信息,包括:
根据预设分段策略确定分段字数规则、分段段落规则和分段断句规则中的至少一项;
根据所述分段字数规则、分段段落规则和分段断句规则中的至少一项对所述搜索结果进行分段,得到多个文本段落信息。
4.如权利要求2所述的知识图谱属性补全方法,其特征在于,所述根据所述文本段落信息确定答案属性集合,包括:
根据所述待补全元组信息确定待补全实体;
根据所述文本段落信息和所述待补全实体确定关系文本;
根据所述待补全实体和所述关系文本调用属性提取大模型,得到答案属性集合。
5.如权利要求4所述的知识图谱属性补全方法,其特征在于,所述根据所述待补全实体和所述关系文本调用属性提取大模型,得到答案属性集合,包括:
将所述待补全实体和所述关系文本添加到段落集合;
将所述段落集合填充到预设属性抽取模板,得到属性抽取输入信息;
将所述属性抽取输入信息输入到属性提取大模型,得到答案属性集合。
6.如权利要求5所述的知识图谱属性补全方法,其特征在于,所述将所述属性抽取输入信息输入到属性提取大模型,得到答案属性集合,包括:
将所述属性抽取输入信息输入到属性提取大模型,得到模型输出结果;
从所述模型输出结果中抽取所述属性查询问题对应的属性答案;
根据所述属性答案构建答案属性集合。
7.如权利要求1所述的知识图谱属性补全方法,其特征在于,所述从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性,包括:
根据所述答案属性集合确定答案数目信息;
根据所述答案数目信息从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性。
8.一种知识图谱属性补全装置,其特征在于,所述知识图谱属性补全装置包括:
问题生成模块,用于根据待补全元组信息确定属性查询问题;
问题搜索模块,用于根据所述属性查询问题进行搜索,得到搜索结果;
答案汇总模块,用于根据所述搜索结果确定答案属性集合;
答案选取模块,用于从所述答案属性集合中选取所述待补全元组信息对应的补全目标属性。
9.一种知识图谱属性补全设备,其特征在于,所述知识图谱属性补全设备包括:存储器、处理器及存储在所述存储器上并在所述处理器上运行的知识图谱属性补全程序,所述知识图谱属性补全程序配置为实现如权利要求1至7中任一项所述的知识图谱属性补全方法。
10.一种存储介质,其特征在于,所述存储介质上存储有知识图谱属性补全程序,所述知识图谱属性补全程序被处理器执行时实现如权利要求1至7任一项所述的知识图谱属性补全方法。
CN202410011524.4A 2024-01-04 2024-01-04 知识图谱属性补全方法、装置、设备及存储介质 Pending CN117520568A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410011524.4A CN117520568A (zh) 2024-01-04 2024-01-04 知识图谱属性补全方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410011524.4A CN117520568A (zh) 2024-01-04 2024-01-04 知识图谱属性补全方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117520568A true CN117520568A (zh) 2024-02-06

Family

ID=89753467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410011524.4A Pending CN117520568A (zh) 2024-01-04 2024-01-04 知识图谱属性补全方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117520568A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268300A1 (en) * 2017-03-15 2018-09-20 International Business Machines Corporation Generating natural language answers automatically
CN109508420A (zh) * 2018-11-26 2019-03-22 北京羽扇智信息科技有限公司 一种知识图谱属性的清洗方法及装置
CN111694967A (zh) * 2020-06-11 2020-09-22 腾讯科技(深圳)有限公司 属性抽取方法、装置、电子设备及介质
US20210149900A1 (en) * 2019-11-15 2021-05-20 42 Maru Inc. Method, system and computer program for semantic triple-based knowledge extension
CN113934847A (zh) * 2021-10-21 2022-01-14 山大地纬软件股份有限公司 一种基于非结构化信息的知识图谱补全方法及系统
CN114547343A (zh) * 2022-03-22 2022-05-27 腾讯科技(深圳)有限公司 知识图谱补全的方法、装置、设备、存储介质和程序产品
CN115033706A (zh) * 2022-05-17 2022-09-09 哈尔滨工程大学 一种知识图谱自动补全和更新的方法
CN117033571A (zh) * 2023-06-27 2023-11-10 山东新一代信息产业技术研究院有限公司 知识问答系统构建方法及系统
CN117171360A (zh) * 2023-09-05 2023-12-05 北京智谱华章科技有限公司 一种基于大模型和知识图谱的课程交叉重组系统及方法
CN117271753A (zh) * 2023-11-20 2023-12-22 深圳市数商时代科技有限公司 智慧物业问答方法及相关产品

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268300A1 (en) * 2017-03-15 2018-09-20 International Business Machines Corporation Generating natural language answers automatically
CN109508420A (zh) * 2018-11-26 2019-03-22 北京羽扇智信息科技有限公司 一种知识图谱属性的清洗方法及装置
US20210149900A1 (en) * 2019-11-15 2021-05-20 42 Maru Inc. Method, system and computer program for semantic triple-based knowledge extension
CN111694967A (zh) * 2020-06-11 2020-09-22 腾讯科技(深圳)有限公司 属性抽取方法、装置、电子设备及介质
CN113934847A (zh) * 2021-10-21 2022-01-14 山大地纬软件股份有限公司 一种基于非结构化信息的知识图谱补全方法及系统
CN114547343A (zh) * 2022-03-22 2022-05-27 腾讯科技(深圳)有限公司 知识图谱补全的方法、装置、设备、存储介质和程序产品
CN115033706A (zh) * 2022-05-17 2022-09-09 哈尔滨工程大学 一种知识图谱自动补全和更新的方法
CN117033571A (zh) * 2023-06-27 2023-11-10 山东新一代信息产业技术研究院有限公司 知识问答系统构建方法及系统
CN117171360A (zh) * 2023-09-05 2023-12-05 北京智谱华章科技有限公司 一种基于大模型和知识图谱的课程交叉重组系统及方法
CN117271753A (zh) * 2023-11-20 2023-12-22 深圳市数商时代科技有限公司 智慧物业问答方法及相关产品

Similar Documents

Publication Publication Date Title
CN114416927B (zh) 智能问答方法、装置、设备及存储介质
CN109284363A (zh) 一种问答方法、装置、电子设备及存储介质
CN111666401B (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
CN111368042A (zh) 智能问答方法、装置、计算机设备及计算机存储介质
WO2019169858A1 (zh) 一种基于搜索引擎技术的数据分析方法及系统
US11113275B2 (en) Verifying text summaries of relational data sets
CN112328489B (zh) 测试用例生成方法、装置、终端设备和存储介质
CN114610845B (zh) 基于多系统的智能问答方法、装置和设备
CN112883030A (zh) 数据收集方法、装置、计算机设备和存储介质
US20090234852A1 (en) Sub-linear approximate string match
Yu et al. Design and implementation of curriculum system based on knowledge graph
CN117708270A (zh) 企业数据查询方法、装置、设备及存储介质
CN117312531A (zh) 知识图谱增强的基于大语言模型配电网故障归因分析方法
JP2013174988A (ja) 類似文書検索支援装置及び類似文書検索支援プログラム
CN116629215A (zh) 教学文档生成方法、装置、电子设备、存储介质
CN117112727A (zh) 适用于云计算业务的大语言模型微调指令集构建方法
CN117112595A (zh) 一种信息查询方法、装置、电子设备及存储介质
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN116628303A (zh) 一种基于提示学习的半结构化网页属性值抽取方法和系统
CN110688559A (zh) 一种检索方法及装置
CN109918661A (zh) 同义词获取方法及装置
CN117520568A (zh) 知识图谱属性补全方法、装置、设备及存储介质
Machová et al. Ontology evaluation based on the visualization methods, context and summaries
CN117874218A (zh) 基于大模型的摘要生成方法、装置、设备及存储介质
CN118132757A (zh) 知识图谱构建方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination