CN117094395B - 对知识图谱进行补全的方法、装置和计算机存储介质 - Google Patents
对知识图谱进行补全的方法、装置和计算机存储介质 Download PDFInfo
- Publication number
- CN117094395B CN117094395B CN202311357393.7A CN202311357393A CN117094395B CN 117094395 B CN117094395 B CN 117094395B CN 202311357393 A CN202311357393 A CN 202311357393A CN 117094395 B CN117094395 B CN 117094395B
- Authority
- CN
- China
- Prior art keywords
- entity
- complemented
- triplet
- triples
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000012545 processing Methods 0.000 claims description 18
- 238000001228 spectrum Methods 0.000 claims description 11
- 230000000295 complement effect Effects 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 7
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 18
- 239000013598 vector Substances 0.000 description 14
- 238000013473 artificial intelligence Methods 0.000 description 11
- 206010012289 Dementia Diseases 0.000 description 10
- 206010012601 diabetes mellitus Diseases 0.000 description 9
- 208000012902 Nervous system disease Diseases 0.000 description 8
- 238000013459 approach Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 208000024891 symptom Diseases 0.000 description 5
- 208000028017 Psychotic disease Diseases 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000006996 mental state Effects 0.000 description 4
- 206010035664 Pneumonia Diseases 0.000 description 3
- 206010039085 Rhinitis allergic Diseases 0.000 description 3
- 201000010105 allergic rhinitis Diseases 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 206010039083 rhinitis Diseases 0.000 description 3
- 208000002249 Diabetes Complications Diseases 0.000 description 2
- 206010012655 Diabetic complications Diseases 0.000 description 2
- 206010052437 Nasal discomfort Diseases 0.000 description 2
- 206010028741 Nasal inflammation Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 208000000044 Amnesia Diseases 0.000 description 1
- 208000031091 Amnestic disease Diseases 0.000 description 1
- 206010018429 Glucose tolerance impaired Diseases 0.000 description 1
- 208000004547 Hallucinations Diseases 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 208000003251 Pruritus Diseases 0.000 description 1
- 230000006986 amnesia Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000007803 itching Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 206010027175 memory impairment Diseases 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 201000001119 neuropathy Diseases 0.000 description 1
- 230000007823 neuropathy Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 208000033808 peripheral neuropathy Diseases 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种用于对知识图谱进行补全的方法、装置和计算机介质。该方法包括:接收待补全三元组,待补全三元组包括第一实体、第二实体和待补全第三实体;基于待补全三元组从实体集合中检索,召回候选集合,候选集合包括至少一个预测的待补全第三实体;针对至少一个预测的待补全第三实体中的每一个,基于第一实体和该预测的待补全第三实体从知识图谱中取得子图谱;抽取子图谱中的全部三元组;将所抽取的三元组和候选三元组输入第一语言模型,候选三元组包括第一实体、第二实体和该预测的待补全第三实体;从第一语言模型输出针对该预测的待补全第三实体的预测结果,基于预测结果待补全三元组,和基于待补全三元组对知识图谱进行补全。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及对知识图谱进行补全的方法、及其装置和计算机存储介质。
背景技术
在一个大规模的知识图谱中,可能存在大量缺失信息。例如缺少某些实体、关系或属性等。这些缺失的信息会影响知识图谱的应用效果和价值。图谱补全在诸如自然语言处理、信息检索、智能问答等领域有广泛的应用。图谱补全能辅助人们更好地理解和利用知识图谱中的信息,从而提高各种应用的效果和价值。
在相关的图谱补全技术中,通常基于特定知识图谱对补全模型进行训练,这导致在对于在训练过程中未出现过的关系和实体难以建模,缺乏良好的迁移能力。此外,当前补全方法对于一些需要复杂推理的模式和关系效果不佳。
发明内容
有鉴于此,本发明实施例提供了一种对知识图谱进行补全的方法及其装置和计算机存储介质,能够利用大语言模型的推理能力来完成图谱补全,并且能够减少产生不合理补全的问题。该技术方案如下:
根据本发明的第一方面,提供了一种用于对知识图谱进行补全的方法,该方法包括:接收待补全三元组,待补全三元组包括第一实体、第二实体和待补全第三实体;基于待补全三元组从预先存储的实体集合中检索,召回候选集合,候选集合包括至少一个预测的待补全第三实体;针对至少一个预测的待补全第三实体中的每一个,基于第一实体和该预测的待补全第三实体从预先存储的知识图谱中取得子图谱;抽取子图谱中的全部三元组;将所抽取的三元组和候选三元组输入第一语言模型,候选三元组包括第一实体、第二实体和该预测的待补全第三实体;从第一语言模型输出针对该预测的待补全第三实体的预测结果,基于预测结果确定待补全三元组,和基于待补全三元组对知识图谱进行补全。
在一些实施例中,基于待补全三元组从预先存储的实体集合中检索包括:通过检索器计算待补全三元组与预先存储的实体集合中三元组的相似度;对计算出的相似度排序;取排序前N个三元组,N为正整数;基于排序前N个三元组各自包括的第三实体构建候选集合。
在一些实施例中,针对至少一个预测的待补全第三实体中的每一个,基于第一实体和该预测的待补全第三实体从预先存储的知识图谱中取得子图谱包括:从预先存储的知识图谱中取得从第一实体到该预测的待补全第三实体的长度小于预定阈值的路径,和将取由这些路径构成的封闭区域作为子图谱。
在一些实施例中,该预定阈值为知识图谱中的K跳,K为超参数且为2-4之间的整数。
在一些实施例中,将所抽取的三元组和候选三元组输入第一语言模型包括:对所抽取的三元组进行线性化,得到线性化后的文本作为待补全三元组的上下文;对候选三元组进行线性化,得到候选三元组的自然语言文本;将待补全三元组的上下文和候选三元组的自然语言文本输入第一语言模型。
在一些实施例中,将待补全三元组的上下文和候选三元组的自然语言文本输入第一语言模型包括:将待补全三元组的上下文和候选三元组的自然语言文本输入第一语言模型包含展示容器的文本展示模板中;将待补全三元组的上下文输入文本展示模板的第一展示容器中,和将候选三元组的自然语言文本输入文本展示模板的第二展示容器中。
在一些实施例中,该方法还包括:响应于预测结果为“是”,将该预测的待补全第三实体对待补全实体进行补全;响应于预测结果为“否”,从候选集合中删除该预测的待补全第三实体。
在一些实施例中,第二实体被配置用于描述第一实体和第三实体在知识图谱中的连接关系。
在一些实施例中,该方法还包括:响应于基于预测结果确定的待补全三元组已经被包括在预先存储的知识图谱中,删除确定的待补全三元组。
根据本发明的第二方面,提供了一种用于对知识图谱进行补全的装置,包括:接收模块,被配置成接收待补全三元组,待补全三元组包括第一实体、第二实体和待补全第三实体;候选集合构建模块,被配置成基于待补全三元组从预先存储的实体集合中检索,召回候选集合,候选集合包括至少一个预测的待补全第三实体;子图谱构建模块,被配置成针对至少一个预测的待补全第三实体中的每一个,基于第一实体和该预测的待补全第三实体从预先存储的知识图谱中取得子图谱;三元组抽取模块,被配置成抽取子图谱中的全部三元组;输入模块,被配置成将所抽取的三元组和候选三元组输入第一语言模型,候选三元组包括第一实体、第二实体和该预测的待补全第三实体;预测模块,被配置成从第一语言模型输出针对该预测的待补全第三实体的预测结果,基于预测结果确定待补全三元组,和基于待补全三元组对知识图谱进行补全。
在一些实施例中,针对至少一个预测的待补全第三实体中的每一个,基于第一实体和该预测的待补全第三实体从预先存储的知识图谱中取得子图谱包括:从预先存储的知识图谱中取得从第一实体到该预测的待补全第三实体的长度小于预定阈值的路径,和将由这些路径构成的封闭区域作为子图谱。
在一些实施例中,将所抽取的三元组和候选三元组输入第一语言模型包括:对所抽取的三元组进行线性化,得到线性化后的文本作为待补全三元组的上下文;对候选三元组进行线性化,得到候选三元组的自然语言文本;将待补全三元组的上下文和候选三元组的自然语言文本输入第一语言模型。
根据本发明的第三方面,提出了一种计算设备,包括:存储器和处理器,其中存储器中存储有计算机程序,计算机程序在被处理器执行时促使处理器执行根据本发明一些实施例的用于对知识图谱进行补全的方法。
根据本发明的第四方面,提出了一种计算机可读存储介质,其上存储计算机可读指令,计算机可读指令在被执行时实现根据本发明一些实施例的用于对知识图谱进行补全的方法。
根据本发明的第五方面,提出了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据本发明一些实施例的用于对知识图谱进行补全的方法。
本发明实施例提供的技术方案可以实现以下有益效果中的一个或多个:本发明将知识图谱和大语言模型结合,一方面利用大语言模型的推理能力自动完成图谱的补全,将图谱补全转化为知识问答(KBQA)任务,提升了模型的泛化性;另一方面,利用图谱的知识反向提供给大语言模型,引入了更多的上下文知识提供给大语言模型作为参考,而非仅凭借自身参数知识进行推断,减少生成不合理不正确的答案。
与根据在下文中所描述的实施例,本发明的这些和其它方面将是清楚明白的,并且将参考在下文中所描述的实施例而被阐明。
附图说明
在下面结合附图对于示例性实施例的描述中,本发明的更多细节、特征和优点被公开,在附图中:
图1示意性示出了基于一个知识图谱训练的模型示意图;
图2示意性示出了基于另一知识图谱进行训练的模型示意图;
图3示意性示出了基于大语言模型的问答界面示意图;
图4示意性示出了本发明一个实施例提供的实施环境的示意图;
图5示意性示出了医疗知识图谱中的实体相关子图的可视化示意图;
图6示意性示出了一个示例性实施例提供的对知识图谱进行补全的方法的框架示意图;
图7示意性示出了一个示例性实施例提供的检索器示意图;
图8A示意性示出了三跳封闭子图示意图;
图8B示意性示出了四跳封闭子图示意图;
图9A示意性示出了固定模板的示意图;
图9B示意性示出了将三元组上下文和候选三元组展示在展示模板中的示意图;
图10示出了根据本发明一个示例利用大语言模型进行图谱补全判断的示意图;
图11示出了根据本发明另一个示例利用大语言模型进行图谱补全判断的示意图;
图12示意性示出了根据本发明一个实施例的对知识图谱进行补全的方法的流程图;
图13示意性示出了根据本发明一个实施例的对知识图谱进行补全的装置的框图;以及
图14是本发明一个示例性实施例提供的计算设备的示例框图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚和完整的描述。所描述的实施例仅仅是本发明的一部分实施例,而不是全部实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例都属于本发明保护的范围。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通、自动控制等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、主动学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
在详细介绍本发明的实施例之前,首先对一些相关的概念进行解释。
1. 知识图谱(Knowledge Graph, KG):指的是关系的最有效表达方式,把所有不同种类的信息连接在一起而得到的一个关系网络。
2. 知识问答(Knowledge-Based Question Answering, KBQA):指的是利用机器对自然语言分析与处理能力,理解用户所提出的问题,并利用知识图谱中的结构化知识进行查询、推理,找到解决该问题的精准答案并反馈给用户,协助用户解决不同类型的问题。
3. 大型语言模型(Large Language Model, LLM):指的是一种基于深度学习的自然语言处理模型,它能够学习到自然语言的语法和语义,从而可以生成人类可读的文本,LLM通常基于神经网络模型,使用大规模的语料库进行训练, 比如使用互联网上的海量文本数据,这些模型通常拥有数十亿到数万亿个参数,能够处理各种自然语言处理任务,如自然语言生成、文本分类、文本摘要、机器翻译、语音识别等。
4. 图谱补全(Knowledge Graph Completion, KGC)指的是在已知知识图谱中,自动推断出缺失的实体、关系或属性,并将其添加到图谱中的过程。图谱补全是知识图谱领域中的一个重要任务,旨在提高知识图谱的完整性和准确性。
在知识图谱补全中,给定一个头实体和关系对其尾实体进行预测,或者给定一个尾实体和关系对头实体进行预测。例如,给定(肺炎,并发症,),头实体为肺炎,关系为并发症,预测其尾实体。在一个方法中,图谱补全方法可以是基于嵌入表示学习,将实体和关系均表示为嵌入向量,并在向量中间中保持其语义关系。在另一方法中,利用预训练模型BERT中包含的丰富知识作为知识库。通过将三元组序列化得到三元组的文本表示,以此继续微调预训练模型。这与第一方法中基于嵌入表示的方法相比,有明显的性能提升。然而,这两种方法都是基于特定知识图谱进行训练的,导致对于训练过程中从未出现过的关系和实体难以进行建模,缺乏良好的迁移能力。图1示意性示出了基于一个知识图谱训练的模型示意图,图2示意性示出了基于另一知识图谱进行训练的模型示意图。对于在图1中训练完成的模型,无法对于在图2中关系“疾病人群”或实体“老人”、“隐性糖尿病”进行预测。当前的补全方法对于一些需要复杂推理的模式和关系效果不佳。
大语言模型(LLM)已经在自然语言处理领域引起了大量关注。这些模型在各种任务中表现出色。例如,智能问答、聊天对话、文本翻译和自动生成摘要等。大语言模型具有强大的意图理解和自然流畅的语言生成能力,能够提供更智能化、自然化的语言交互体验。大语言模型利用大量参数和大规模语料进行训练,使得大语言模型能够学习到原始词汇的丰富表达,从而具有更强的泛化能力。大语言模型能够根据其在预训练期间存储在参数中的内部知识,完成封闭式问答任务。在本发明中,将大语言模型扩展应用到自动完成知识图谱的补全中。例如,对知识图谱中的三元组(糖尿病,下位词,)的尾实体进行预测。图3示意性示出了基于大语言模型的问答界面示意图。在图3中,大语言模型输出了不合理、不正确的答案“糖尿病并发症”。 “糖尿病并发症”不是一个具体的实体。大语言模型中的知识可能是不完整、不充分、不正确或过时的。因此,会出现产生事实上错误的答案,即所谓的幻觉(hallucination)。而知识图谱中定义了丰富的关系和实体之间的知识,本发明进一步将知识图谱与大语言模型结合,促进知识图谱的假设和完善。
此外,在相关图谱补全方法中,通常对知识图谱中的每个三元组在向量空间中的合理性进行衡量。通过对损失函数进行优化来使得三元组的总合理性最大化。在基于知识图谱的嵌入类型的方法中,利用知识图谱嵌入技术来推断缺失的实体、关系或属性。将关系视为三元组的头实体到尾实体的空间变换。采用距离来度量三元组成立的合理性。这类方法的优点在于可以将实体和关系嵌入低维向量空间中,从而便于计算和推断,也可以对一些大规模的图谱数据进行处理。然而,这种类型的方法难以处理复杂的逻辑关系和语义关系。
在基于深度学习类型的方法中,通过将实体和关系设计成查询对,构建查询对和实体、关系之间的匹配关系。通过深度神经网络(例如CNN,RNN或Transformer等)得到推理的合理性得分来进行推理和判断。这类方法的优点在于可以自动学习特征和模型,但模型的可解释性差,难以解释模型的推断过程。上述两种方法仅利用了知识图谱的图结构,难以表示稀疏实体,也忽略了实体的上下文信息。
在基于预训练模型类型的方法中,认为预训练模型中也包含了丰富的文本信息和知识,可以用来对知识图谱中的三元组进行编码。例如,知识图双向编码器表示(KG-BERT)将实体、关系和三元组作为文本序列,并将知识图谱补全转化为序列分类问题。接下来,在这些序列上对BERT模型进行微调,以预测三元组或关系的合理性。
如上所述,相关图谱补全方法对于复杂模式和语义关系处理不佳,难以进行复杂的多跳推理。针对不同的知识图谱需要重新训练,缺少迁移和泛化能力。然而,大语言模型能够在预训练期间在大量参数中存储内部知识,完成自动问答、聊天对话、摘要生成等多项生成任务。大语言模型具备出色的泛化能力。
在本发明中,将图谱补全转换为问答任务。比如,对于(糖尿病,下位词语,),即需要填补出糖尿病的下位词,转化成口语化的文本表达是“糖尿病的下位词是什么”。从而利用大语言模型生成相关答案。然而,仍然存在产生不正确不合适的答案(也称为“幻觉”)的问题。这是因为大语言模型生成的答案可能是不完整、不正确或过时的,可能产生事实上错误的知识。另外,知识图谱中定义的实体通常是经过标准化的、更规范专业,大语言模型可能产生口语化的表达,导致需要进一步将生成的答案进行标准化,增加了计算量。
针对上述问题,本发明提出了基于KBQA范式的图谱补全方法,其将大语言模型和知识图谱充分结合。具体地,将图谱补全转化为知识问答(KBQA)任务,相比于传统QA任务,KBQA需要结合图谱中的知识来进行回答。这样的好处在于:不仅仅凭借自身的参数知识进行推断,而是引入了更多的上下文知识提供给大语言模型,从而有效缓解了幻觉问题。针对大语言模型的生成结果口语化的问题,本发明进一步将任务限定为分类任务,要求大语言模型根给定的上下文和三元组知识判定所述三元组知识是否成立,而不是直接填补出空缺的实体。避免直接生成口语化实体,减小了对答案进行标准化的工作量,使得生成的内容在限定范围内。
图4示意性示出了可以应用本公开的实施例提供的可视化数据的呈现的示例场景400。
如图4中所示,场景400包括计算设备401。本公开的实施例所提供的第一语言模型可以部署于计算设备401,并用于确定待补全三元组。第一语言模型至少包括使用文本数据集合进行训练的深度学习模型,其能够生成自然语言文本和/或理解自然语言文本。计算设备401可以包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。本公开的实施例可以应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
示例性地,用户402可以通过计算设备401使用对知识图谱进行补全服务。例如,用户402可以通过计算设备401提供的用户接口来输入指令,例如通过相关实体或虚拟按键、通过文本、语音或手势指令等,以便启动部署于计算设备401和/或服务器403上的知识图谱补全服务等。
场景400还可以包括服务器403。可选地,本公开的实施例提供的可视化数据的呈现方法也可以部署在服务器403上。或者,可选地,本公开的实施例提供的可视化数据的呈现方法也可以部署于计算设备401和服务器403的组合上。本公开在此方面不做具体限定。例如,用户402可以通过计算设备401经由网络405访问服务器403,以便获取服务器403所提供的服务。
服务器403可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。此外,应理解,服务器403仅作为示例被示出,实际上,也可以替代地或附加地使用其他具有计算能力及存储能力的设备或设备的组合来提供相应的服务。
可选地,计算设备401和/或服务器403可以经由网络405与数据库404相链接,以便例如从数据库404获取文本生成模型的相关数据等。示例性地,数据库404可以是独立的数据存储设备或设备群,或者也可以是与其他在线服务相关的后端数据存储设备或设备群。本文提出的用于对知识图谱进行补全的方法可以被应用于诸如向量图形编辑软件、矢量绘图应用、图像处理软件等应用程序。第一语言模型是以插件的形式在上述应用程序中运行的一种大语言模型,用于根据用户的需要信息生成需求分析文本。用户在使用上述诸如向量图形编辑软件、矢量绘图应用、图像处理软件等应用程序时,可以经由应用程序的用户接口调用该文本生成模型。例如用户在上述应用程序的需求输入框中输入需求描述信息,基于需求描述信息在应用程序中调用文本生成模型的插件;获得所述文本生成模型插件基于所述需求描述信息生成的需求分析文本。
此外,在本公开中,网络405可以是经由诸如电缆、光纤等连接的有线网络,也可以是诸如2G、3G、4G、5G、Wi-Fi、蓝牙、ZigBee、Li-Fi等的无线网络,还可以是一个或几个设备的内部连接线路等。
图5示意性示出了医疗知识图谱中的实体相关子图的可视化示意图500。在医疗领域中,知识图谱是一种非常重要的工具,能够帮助医生和研究人员更好地理解和利用医疗数据。图5中以肺炎为例展示了医疗知识图谱中的实体相关子图的可视化展示。然而,由于医疗数据的复杂性和多样性,知识图谱中的实体和关系往往是不完整的,需要使用例如本发明提出的图谱补全技术来补充缺失信息。图谱补全在医疗知识图谱场景下的应用和意义非常广泛。它可以帮助医疗机构更好地管理和利用医疗数据,提高医疗服务质量和效率。
知识图谱的定义通常为G=(E,R,T),其中E,R,T分别表示实体集合、关系集合以及三元组集合。对于三元组集合T,,其中h,r,t分别表示三元组的头实体、关系实体和尾实体。在一个示例中,图谱补全的目标是给定头实体h和关系实体r推断其尾实体t。如果用问号表示待补全的实体,则待补全的三元组可以表示为(h,r,),其中尾实体的候选集合是实体集合E。在另一个示例中,待补全的实体也可以是头实体。在这种情况下,给定关系r和尾实体t,推断其头实体h,即待补全的三元组可以表示为(,r,t),其中头实体的候选集合为实体集合E。
图6是本发明一个示例性实施例提供的对知识图谱进行补全的方法的框架600示意图。在图6中以填补尾实体为例,将需要填补的三元组(h,r,)作为查询输入601(Query)。因为需要补全的尾实体来自图谱的所有实体的集合E,候选空间过大。这会使得后续步骤复杂度高,计算量大。因此,这里首先利用检索器602从实体集合E召回少量候选集,以减小后续大语言模型LLM的计算量。关于检索器,在图7中进行进一步描述。在一个示例中,检索器可以是传统的基于嵌入学习方法检索器,例如TransE。在另一个示例中,检索器可以利用将知识图谱线性化成自然语言本文,计算文本之间相似度的检索方法。检索器602可以使填补的实体范围缩小在一个小范围内,比如N个实体(N为自然数,并且N远小于实体集合的大小|E|)。在603处,依次枚举每个候选实体组成候选三元组604。选择检索器602枚举出的候选待补全尾实体中,根据候选概率排序前K个尾实体,K为大于等于1的自然数。下面判断每个候选三元组是否成立,在成立的情况下即可将该三元组作为用于对知识图谱进行补全的实体。将候选三元组604中的头实体和尾实体组成K跳封闭子图谱605。K与上文提及的K相同,是一个超参数。如本领域技术人员所理解的,在K越大的情况下,召回的知识越多,计算量也随之越大。这里,以头实体“痴呆”和尾实体“器质性神经紊乱”组成3跳封闭子图谱605为例。在606处,提取该K跳封闭子图谱605中的全部三元组。对提取出的三元组进行线性化,得到线性化文本607作为该候选三元组的上下文信息。最后,将上下文607和候选三元组604的自然语言文本一并组合作为大语言模型LLM 609的输入。
在一个示例中,将K跳封闭子图谱605中的全部三元组进线性化是通过下述方法进行的。针对给定三元组(h,r,t),线性化操作指的是将该三元组知识转化为自然语言文本的形式。比如,针对三元组(糖尿病,下位词,二型糖尿病)对应的知识表达可以是“糖尿病的下位词是二型糖尿病”。通常,可以用下述模板进行自动转换,例如三元组(h,r,t)可以转换成h的r是t。如本领域技术人员理解的,模板可以灵活设置,也可以根据不同关系而定义不同的模板。经过线性化处理的每条三元组知识都转化成一段文本。将知识图谱中每条三元组进行线性化后可以构成知识库S,知识库中的每条知识可以作为一段文本供后续检索器使用。
图7是本发明一个示例性实施例提供的检索器700的示意图。针对给定的待补全三元组(h,r,),检索器702的目的是从所有候选实体集E中快速召回N个候选实体,以便减小后续LLM的计算量。在一个示例中,可以采用传统的基于嵌入学习的方法作为检索器。例如,TransE模型(来自论文Translating Embeddings for Modeling Multi-relational Data,2013)、TransH模型(来自论文Knowledge Graph Embedding by Translating on Hyperplanes,2014)、RotatE模型(来自论文RotatE: Knowledge Graph Embedding by Relational Rotation in Complex Space,2019)等。基于诸如上述方法的检索易于进行数值化计算和并行计算,具有良好的计算效率。在另一个示例中,也可以采用基于文本向量相似度的检索方法。知识图谱中的每个三元组701都可以被表示为文本形式。通过预先训练的模型(例如,图中的编码器BERT)得到每个三元组知识的向量表示。同时对于查询词702(Query)也进行线性化703并查询词的向量表示704。通过计算查询词向量表示704和知识库S 705中向量表示706的余弦相似度来得到相似度最高的N条知识。将N条知识中包含的头实体和尾实体作为候选集。值得注意的是,存在检索到的实体是图谱中已经存在的知识的情况。在这种情况下,需要将已经存在的知识过滤掉而不作为候选集。例如,图谱中已经存在一条知识(痴呆,上位词,器质性精神病状态)。对于查询词(痴呆,上位词,)召回了实体“器质性精神病状态”,则需要将该实体去掉。原因在于该知识是图谱中已经存在的知识,不能用于再次补全。
图8A-8B示意性示出了三元组上下文构建的示意图。在针对待补全的三元组(h,r,)召回N个候选实体时,依次枚举每个候选尾实体构建得到的候选三元组(h,r,t n ),需要判断该三元组是否能够成立。在直接将线性化文本输入到大语言模型进行判断的情况下,由于上文提及的幻觉问题会产生不合理/错误的答案。在这种情况下,需要将更多的信息提供给大语言模型。通常,判断一个三元组是否成立,可以根据其周围的关系和实体来判断,因此对于需要预测的三元组(h,r,t n ),本发明抽取由h和t n 组成的不超过K跳的封闭子图作为线索,即抽取所有h到t n 长度小于阈值K的路径,将这些路径组成封闭子图,作为该三元组(h,r,t n )预测的上下文依据。图8A示意性示出了预测三元组(鼻炎症,典型症状,鼻痒)的三跳封闭子图。图中虚线连接的两个节点表示需要判断的三元组。图8B示意性示出了预测三元组(记忆力障碍,典型症状,遗忘症)的四跳封闭子图。通过将如图8A-8B所示的K跳中每条三元组进行线性化得到对应的自然语言文本,并将所有文本合并起来作为三元组(h,r,t n )的上下文信息。
在一个实施例中,将所述待补全三元组的上下文和候选三元组的自然语言文本输入第一语言模型包括:将所述待补全三元组的上下文和候选三元组的自然语言文本输入第一语言模型包含展示容器的文本展示模板中;将所述待补全三元组的上下文输入所述文本展示模板的第一展示容器中,和将所述候选三元组的自然语言文本输入所述文本展示模板的第二展示容器中。图9A示意性示出了固定模板的示意图。图9B示意性示出了将三元组上下文和候选三元组展示在展示模板中的示意图。这里,第一展示容器901中展示所述待补全三元组的上下文,第二展示容器902中展示候选三元组的自然语言文本。在图9B的示例中,待补全三元组的上下文是:1.器质性精神病状态的上位词是器质性神经紊乱;2. 器质性神经病状态的上位词是神经障碍…N.神经障碍的并发症是痴呆。候选三元组的自然语言文本是通过将(痴呆,上位词,器质性神经紊乱)填充到模板“h的r是t n”中得到的“痴呆的上位词是器质性神经紊乱”。
这样,通过将构建好的文本输入大语言模型中进行预测,在文本中指定大语言模型的输出格式要求,直接输出“是”或“否”。“是”代表该三元组成立,可以作为待补全的对象。针对候选尾实体中的每一个,依次获得对应的答案。
图10示出了根据本发明一个示例利用大语言模型进行图谱补全判断的示意图。在图10中,给定下述上下文信息:1.器质性精神病状态的上位词是器质性神经紊乱,2.器质性精神病状态的上位词是精神障碍,3.神经障碍的并发症是痴呆。大语言模型基于该上下文信息,对“痴呆的上位词是器质性神经紊乱”的判断为肯定答案“是”。
图11示出了根据本发明另一个示例利用大语言模型进行图谱补全判断的示意图。在图11中,给定下述上下文信息:1.鼻炎症的下位词是过敏性鼻炎,2. 鼻炎症的下位词是变应性鼻炎,3.变异性鼻炎的典型症状是鼻痒,4. 过敏性鼻炎的典型症状是鼻痒。大语言模型基于上述上下文信息,对“鼻炎症的典型症状是鼻痒”的判断为肯定答案“是”。
图12示意性示出了根据本发明一个实施例用于对知识图谱进行补全的方法1200的流程图。在步骤1201中,接收待补全三元组,所述待补全三元组包括第一实体、第二实体和待补全第三实体。所述第二实体被配置用于描述所述第一实体和所述第三实体在所述知识图谱中的连接关系。知识图谱的定义通常为G=(E,R,T),其中E,R,T分别表示实体集合、关系集合以及三元组集合。对于三元组集合T,,其中h,r,t分别表示三元组的头实体、关系实体和尾实体。在一个示例中,图谱补全的目标是给定头实体h和关系实体r推断其尾实体t。如果用问号表示待补全的实体,则待补全的三元组可以表示为(h,r,),其中尾实体的候选集合是实体集合E。在另一个示例中,待补全的实体也可以是头实体。在这种情况下,给定关系r和尾实体t,推断其头实体h,即待补全的三元组可以表示为(,r,t),其中头实体的候选集合为实体集合E。
在步骤1202中,基于所述待补全三元组从预先存储的实体集合中检索,召回候选集合,所述候选集合包括至少一个预测的所述待补全第三实体。因为需要补全的尾实体来自图谱的所有实体的集合E,候选空间过大。这会使得后续步骤复杂度高,计算量大。因此,这里首先利用检索器从实体集合E召回少量候选集,以减小后续大语言模型LLM的计算量。在一个示例中,检索器可以是传统的基于嵌入学习方法检索器,例如TransE。在另一个示例中,检索器可以是将知识图谱线性化成自然语言本文,计算文本之间相似度的检索方法。检索器可以使填补的实体范围缩小在一个小范围内,比如N个实体(N为自然数,并且N远小于实体集合的大小|E|)。
针对给定的待补全三元组(h,r,),检索器的目的是从所有候选实体集E中快速召回N个候选实体,以便减小后续LLM的计算量。在一个示例中,可以采用传统的基于嵌入学习的方法作为检索器。例如,TransE模型、TransH模型、RotatE模型等。基于诸如上述方法的检索易于进行数值化计算和并行计算,具有良好的计算效率。在另一个示例中,也可以采用基于文本向量相似度的检索方法。在一个示例中,所述基于所述待补全三元组从预先存储的实体集合中检索包括:通过检索器计算所述待补全三元组与所述预先存储的实体集合中三元组的相似度;对计算出的所述相似度排序;取排序前N个三元组,N为正整数;基于排序前N个三元组各自包括的第三实体构建候选集合。
在步骤1203中,针对所述至少一个预测的所述待补全第三实体中的每一个,基于所述第一实体和该预测的所述待补全第三实体从预先存储的所述知识图谱中取得子图谱。在一个实施例中,所述针对所述至少一个预测的所述待补全第三实体中的每一个,基于所述第一实体和该预测的所述待补全第三实体从预先存储的所述知识图谱中取得子图谱包括:从预先存储的所述知识图谱中取得从所述第一实体到该预测的所述待补全第三实体的长度小于预定阈值的路径,和将由这些路径构成的封闭区域作为所述子图谱。将候选三元组中的头实体和尾实体组成K跳封闭子图谱。K是一个超参数。如本领域技术人员所理解的,在K越大的情况下,召回的知识越多,计算量也随之越大。预定阈值为所述知识图谱中的K跳,K为超参数且为2-4之间的整数。
在步骤1204中,抽取所述子图谱中的全部三元组。提取上述K跳封闭子图谱中的全部三元组。本发明抽取由h和t n 组成的不超过K跳的封闭子图作为线索,即抽取所有h到t n 长度小于阈值K的路径,将这些路径组成封闭子图,作为该待预测三元组(h,r,t n )预测的上下文依据。
在步骤1205中,将所抽取的三元组和候选三元组输入第一语言模型,所述候选三元组包括所述第一实体、所述第二实体和该预测的所述待补全第三实体。大语言模型利用大量参数和大规模语料进行训练,使得大语言模型能够学习到原始词汇的丰富表达,从而具有更强的泛化能力。大语言模型能够根据其在预训练期间存储在参数中的内部知识,完成封闭式问答任务。在本发明中,将大语言模型扩展应用到自动完成知识图谱的补全中。例如,对知识图谱中的三元组(糖尿病,下位词,)的尾实体进行预测。这里,第一语言模型指的是大语言模型。
这里,对所抽取的三元组进行线性化,得到线性化后的文本作为所述待补全三元组的上下文;对所述候选三元组进行线性化,得到候选三元组的自然语言文本;和将所述待补全三元组的上下文和候选三元组的自然语言文本输入第一语言模型。在一个实施例中,所述将所述待补全三元组的上下文和候选三元组的自然语言文本输入第一语言模型包括:将所述待补全三元组的上下文和候选三元组的自然语言文本输入第一语言模型包含展示容器的文本展示模板中;将所述待补全三元组的上下文输入所述文本展示模板的第一展示容器中,和将所述候选三元组的自然语言文本输入所述文本展示模板的第二展示容器中。第一语言模型的输出结果可以为“是”或“否”。在一个示例中,响应于所述预测结果为“是”,将该预测的所述待补全第三实体对所述待补全实体进行补全,响应于所述预测结果为“否”,从所述候选集合中删除该预测的所述待补全第三实体。
最后,在步骤1206中,从所述第一语言模型输出针对该预测的所述待补全第三实体的预测结果,基于所述预测结果确定所述待补全三元组,和基于所述待补全三元组对所述知识图谱进行补全。值得注意的是,存在检索到的实体是图谱中已经存在的知识的情况。在这种情况下,需要将已经存在的知识过滤掉而不作为候选集。例如,图谱中已经存在一条知识(痴呆,上位词,器质性精神病状态)。对于查询词(痴呆,上位词,)召回了实体“器质性精神病状态”,则需要将该实体去掉。原因在于该知识是图谱中已经存在的知识,不能用于再次补全。
该方法将知识图谱和大语言模型结合,一方面利用大语言模型的推理能力自动完成图谱的补全,将图谱补全转化为知识问答(KBQA)任务,提升了模型的泛化性;另一方面,利用图谱的知识反向提供给大语言模型,引入了更多的上下文知识提供给大语言模型作为参考,而不仅仅是凭借自身参数知识进行推断,减少生成不合理不正确答案。
图13示意性示出了根据本发明一个实施例用于对知识图谱进行补全的装置1300的框图。用于对知识图谱进行补全的装置1300包括:接收模块1301,被配置成接收待补全三元组,待补全三元组包括第一实体、第二实体和待补全第三实体;候选集合构建模块1302,被配置成基于待补全三元组从预先存储的实体集合中检索,召回候选集合,候选集合包括至少一个预测的待补全第三实体;子图谱构建模块1303,被配置成针对至少一个预测的待补全第三实体中的每一个,基于第一实体和该预测的待补全第三实体从预先存储的知识图谱中取得子图谱;三元组抽取模块1304,被配置成抽取子图谱中的全部三元组;输入模块1305,被配置成将所抽取的三元组和候选三元组输入第一语言模型,候选三元组包括第一实体、第二实体和该预测的待补全第三实体;预测模块1306,被配置成从第一语言模型输出针对该预测的待补全第三实体的预测结果,基于预测结果确定待补全三元组,和基于待补全三元组对知识图谱进行补全。
应理解,用于对知识图谱进行补全的装置1300可以以软件、硬件或软硬件相结合的方式实现该装置中的多个不同模块可以在同一软件或硬件结构中实现,或者一个模块可以由多个不同的软件或硬件结构实现。
此外,用于对知识图谱进行补全的装置1300可以用于实施前文所描述的用于对知识图谱进行补全的方法1200,其相关细节已经在前文中详细描述,为简洁起见,这里不再赘述。另外,这些装置可以具有与对应方法描述的相同的特征和优势。
在本发明中,涉及到的知识图谱(或其他生物特征)识别技术,在本发明以上实施例运用到具体产品或技术中时,相关数据收集、使用和处理过程应该遵守国家法律法规要求,收集人脸信息前应该告知信息处理规则并征求目标对象的单独同意(或具备合法性基础)并严格遵照法律法规要求和个人信息处理规则处理人脸信息,采取技术措施保障相关数据安全。
图14图示了示例系统1400,其包括代表可以实现本文描述的各种方法的一个或多个系统和/或设备的示例计算设备1410。计算设备1410可以是例如服务提供商的服务器、与服务器相关联的设备、片上系统、和/或任何其它合适的计算设备或计算系统。上面参照图13描述的用于对知识图谱进行补全的装置1300可以采取计算设备1410的形式。替换地,图13描述的用于对知识图谱进行补全的装置1300可以以应用1416的形式被实现为计算机程序。
如图示的示例计算设备1410包括彼此通信耦合的处理系统1411、一个或多个计算机可读介质1412以及一个或多个I/O接口1413。尽管未示出,但是计算设备1410还可以包括系统总线或其他数据和命令传送系统,其将各种组件彼此耦合。系统总线可以包括不同总线结构的任何一个或组合,总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例,诸如控制和数据线。
处理系统1411代表使用硬件执行一个或多个操作的功能。因此,处理系统1411被图示为包括可被配置成处理器、功能块等的硬件元件1414。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件1414不受其形成的材料或其中采用的处理机构的限制。例如,处理器可以由(多个)半导体和/或晶体管(例如,电子集成电路(IC))组成。在这样的上下文中,处理器可执行指令可以是电子可执行指令。
计算机可读介质1412被图示为包括存储器/存储装置1415。存储器/存储装置1415表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置1415可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储装置1415可以包括固定介质(例如,RAM、ROM、固定硬盘驱动器等)以及可移动介质(例如,闪存、可移动硬盘驱动器、光盘等)。计算机可读介质1412可以以下面进一步描述的各种其他方式进行配置。
一个或多个I/O接口1413代表允许用户使用各种输入设备向计算设备1410输入命令和信息并且可选地还允许使用各种输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备(例如,鼠标)、麦克风(例如,用于语音输入)、扫描仪、触摸功能(例如,被配置成检测物理触摸的容性或其他传感器)、相机(例如,可以采用可见或不可见的波长(诸如红外频率)将不涉及触摸的运动检测为手势)等等。输出设备的示例包括显示设备、扬声器、打印机、网卡、触觉响应设备等。因此,计算设备1410可以以下面进一步描述的各种方式进行配置以支持用户交互。
计算设备1410还包括应用1416。应用1416可以例如是用于图13描述的用于对知识图谱进行补全的装置1300的软件实例,并且与计算设备1410中的其他元件相组合地实现本文描述的技术。
本发明提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算设备执行上述各种可选实现方式中提供的可视化数据的呈现方法。
本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地,这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”,“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的,意味着这些技术可以在具有各种处理器的各种计算平台上实现。
所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备1410访问的各种介质。作为示例而非限制,计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。
与单纯的信号传输、载波或信号本身相反,“计算机可读存储介质”是指能够持久存储信息的介质和/或设备,和/或有形的存储装置。因此,计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息(诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据)的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、硬盘、盒式磁带、磁带,磁盘存储装置或其他磁存储设备,或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。
“计算机可读信号介质”是指被配置成诸如经由网络将指令发送到计算设备1410的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指这样的信号,该信号的特征中的一个或多个被设置或改变,从而将信息编码到该信号中。作为示例而非限制,通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。
如前,硬件元件1414和计算机可读介质1412代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑,其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅中的其它实现或其他硬件设备的组件。在这种上下文中,硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备,以及用于存储用于执行的指令的硬件设备,例如,先前描述的计算机可读存储介质。
前述的组合也可以用于实现本文的各种技术和模块。因此,可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件1414体现的一个或多个指令和/或逻辑。计算设备1410可以被配置成实现与软件和/或硬件模块相对应的特定指令和/或功能。因此,例如通过使用处理系统的计算机可读存储介质和/或硬件元件1414,可以至少部分地以硬件来实现将模块实现为可由计算设备1410作为软件执行的模块。指令和/或功能可以由一个或多个制品(例如,一个或多个计算设备1410和/或处理系统1411)可执行/可操作以实现本文所述的技术、模块和示例。
在各种实施方式中,计算设备1410可以采用各种不同的配置。例如,计算设备1410可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备1410还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备1410还可以实现为电视类设备,其包括具有或连接到休闲观看环境中的一般地较大屏幕的设备。这些设备包括电视、机顶盒、游戏机等。
本文描述的技术可以由计算设备1410的这些各种配置来支持,并且不限于本文所描述的技术的具体示例。功能还可以通过使用分布式系统、诸如通过如下所述的平台1422而在“云”1420上全部或部分地实现。
云1420包括和/或代表用于资源1424的平台1422。平台1422云1420的硬件(例如,服务器)和软件资源的底层功能。资源1424可以包括在远离计算设备1410的服务器上执行计算机处理时可以使用的应用和/或数据。资源1424还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。
平台1422可以抽象资源和功能以将计算设备1410与其他计算设备连接。平台1422还可以用于抽象资源的分级以提供遇到的对于经由平台1422实现的资源1424的需求的相应水平的分级。因此,在互连设备实施例中,本文描述的功能的实现可以分布在整个系统1400内。例如,功能可以部分地在计算设备1410上以及通过抽象云1420的功能的平台1422来实现。
应当理解,为清楚起见,参考不同的功能单元对本发明的实施例进行了描述。然而,将明显的是,在不偏离本发明的情况下,每个功能单元的功能性可以被实施在单个单元中、实施在多个单元中或作为其它功能单元的一部分被实施。例如,被说明成由单个单元执行的功能性可以由多个不同的单元来执行。因此,对特定功能单元的参考仅被视为对用于提供所描述的功能性的适当单元的参考,而不是表明严格的逻辑或物理结构或组织。因此,本发明可以被实施在单个单元中,或者可以在物理上和功能上被分布在不同的单元和电路之间。
尽管已经结合一些实施例描述了本发明,但是其不旨在被限于在本文中所阐述的特定形式。相反,本发明的范围仅由所附权利要求来限制。附加地,尽管单独的特征可以被包括在不同的权利要求中,但是这些可以可能地被有利地组合,并且包括在不同权利要求中不暗示特征的组合不是可行的和/或有利的。特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序。此外,在权利要求中,词“包括”不排除其它元件,并且术语“一”或“一个”不排除多个。权利要求中的附图标记仅作为明确的示例被提供,不应该被解释为以任何方式限制权利要求的范围。
可以理解的是,在本发明的具体实施方式中,涉及到实体的违约信息等实体相关的数据。当本发明以上实施例运用到具体产品或技术中时,要求获得用户许可或者同意,且相关数据的收集、使用和处理要求遵守相关国家和地区的相关法律法规和标准。
Claims (14)
1.一种用于对知识图谱进行补全的方法,其特征在于,包括:
接收待补全三元组,所述待补全三元组包括第一实体、第二实体和待补全第三实体;
基于所述待补全三元组从预先存储的实体集合中检索,召回候选集合,所述候选集合包括至少一个预测的所述待补全第三实体;
针对所述至少一个预测的所述待补全第三实体中的每一个,基于所述第一实体和该预测的所述待补全第三实体从预先存储的所述知识图谱中取得子图谱;
抽取所述子图谱中的全部三元组;
将所抽取的三元组和候选三元组输入第一语言模型,所述候选三元组包括所述第一实体、所述第二实体和该预测的所述待补全第三实体;
从所述第一语言模型输出针对该预测的所述待补全第三实体的预测结果,基于所述预测结果确定所述待补全三元组,和基于所述待补全三元组对所述知识图谱进行补全。
2.根据权利要求1所述的方法,其特征在于,所述基于所述待补全三元组从预先存储的实体集合中检索包括:
通过检索器计算所述待补全三元组与所述预先存储的实体集合中三元组的相似度;
对计算出的所述相似度排序;
取排序前N个三元组,N为正整数;
基于排序前N个三元组各自包括的第三实体构建候选集合。
3.根据权利要求1所述的方法,其特征在于,所述针对所述至少一个预测的所述待补全第三实体中的每一个,基于所述第一实体和该预测的所述待补全第三实体从预先存储的所述知识图谱中取得子图谱包括:
从预先存储的所述知识图谱中取得从所述第一实体到该预测的所述待补全第三实体的长度小于预定阈值的路径;以及
将由这些路径构成的封闭区域作为所述子图谱。
4.根据权利要求3所述的方法,其特征在于,所述预定阈值为所述知识图谱中的K跳,K为预定参数且为2-4之间的整数。
5.根据权利要求1所述的方法,其特征在于,所述将所抽取的三元组和候选三元组输入第一语言模型包括:
对所抽取的三元组进行线性化,得到线性化后的文本作为所述待补全三元组的上下文;
对所述候选三元组进行线性化,得到候选三元组的自然语言文本;
将所述待补全三元组的上下文和候选三元组的自然语言文本输入第一语言模型。
6.根据权利要求5所述的方法,其特征在于,所述将所述待补全三元组的上下文和候选三元组的自然语言文本输入第一语言模型包括:
将所述待补全三元组的上下文和候选三元组的自然语言文本输入展示模板中,所述展示模板被包括在所述第一语言模型中;
将所述待补全三元组的上下文输入文本展示模板的第一展示容器中,和将所述候选三元组的自然语言文本输入所述文本展示模板的第二展示容器中。
7.根据权利要求6所述的方法,其特征在于,还包括:
响应于所述预测结果为“是”,将该预测的所述待补全第三实体对所述待补全第三实体进行补全,
响应于所述预测结果为“否”,从所述候选集合中删除该预测的所述待补全第三实体。
8.根据权利要求1所述的方法,其特征在于,还包括:
响应于基于所述预测结果确定的所述待补全三元组已经被包括在所述预先存储的所述知识图谱中,删除所述确定的所述待补全三元组。
9.根据权利要求1所述的方法,其特征在于,所述第二实体被配置用于描述所述第一实体和所述第三实体在所述知识图谱中的连接关系。
10.一种用于对知识图谱进行补全的装置,其特征在于,包括:
接收模块,被配置成接收待补全三元组,待补全三元组包括第一实体、第二实体和待补全第三实体;
候选集合构建模块,被配置成基于所述待补全三元组从预先存储的实体集合中检索,召回候选集合,所述候选集合包括至少一个预测的所述待补全第三实体;
子图谱构建模块,被配置成针对所述至少一个预测的所述待补全第三实体中的每一个,基于所述第一实体和该预测的所述待补全第三实体从预先存储的所述知识图谱中取得子图谱;
三元组抽取模块,被配置成抽取所述子图谱中的全部三元组;
输入模块,被配置成将所抽取的三元组和候选三元组输入第一语言模型,所述候选三元组包括所述第一实体、所述第二实体和该预测的所述待补全第三实体;
预测模块,被配置成从所述第一语言模型输出针对该预测的所述待补全第三实体的预测结果,基于所述预测结果确定所述待补全三元组,和基于所述待补全三元组对所述知识图谱进行补全。
11.根据权利要求10所述的装置,其特征在于,所述针对所述至少一个预测的所述待补全第三实体中的每一个,基于所述第一实体和该预测的所述待补全第三实体从预先存储的所述知识图谱中取得子图谱包括:
从预先存储的所述知识图谱中取得从所述第一实体到该预测的所述待补全第三实体的长度小于预定阈值的路径;以及
将由这些路径构成的封闭区域作为所述子图谱。
12.根据权利要求10所述的装置,其特征在于,所述将所抽取的三元组和候选三元组输入第一语言模型包括:
对所抽取的三元组进行线性化,得到线性化后的文本作为所述待补全三元组的上下文;
对所述候选三元组进行线性化,得到候选三元组的自然语言文本;
将所述待补全三元组的上下文和候选三元组的自然语言文本输入第一语言模型。
13.一种计算设备,其特征在于,所述计算设备包括:
存储器,其被配置成存储计算机可执行指令;
处理器,其被配置成当所述计算机可执行指令被处理器执行时执行如权利要求1-9中的任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行如权利要求1-9中的任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311357393.7A CN117094395B (zh) | 2023-10-19 | 2023-10-19 | 对知识图谱进行补全的方法、装置和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311357393.7A CN117094395B (zh) | 2023-10-19 | 2023-10-19 | 对知识图谱进行补全的方法、装置和计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117094395A CN117094395A (zh) | 2023-11-21 |
CN117094395B true CN117094395B (zh) | 2024-02-09 |
Family
ID=88777374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311357393.7A Active CN117094395B (zh) | 2023-10-19 | 2023-10-19 | 对知识图谱进行补全的方法、装置和计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117094395B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648448A (zh) * | 2024-01-29 | 2024-03-05 | 南京众智维信息科技有限公司 | 基于大语言模型的网络安全应急响应知识图谱补全方法 |
CN118396118A (zh) * | 2024-05-11 | 2024-07-26 | 上海云阙智能科技有限公司 | 大语言模型输出幻觉矫正方法、系统、介质、电子设备 |
CN118350379B (zh) * | 2024-06-18 | 2024-09-17 | 中国科学技术大学 | 提升知识系统中自然语言处理准确性的方法、设备及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112000815A (zh) * | 2020-10-28 | 2020-11-27 | 科大讯飞(苏州)科技有限公司 | 知识图谱补全方法、装置、电子设备及存储介质 |
CN113360675A (zh) * | 2021-06-25 | 2021-09-07 | 中关村智慧城市产业技术创新战略联盟 | 一种基于互联网开放世界的知识图谱特定关系补全方法 |
CN114064912A (zh) * | 2021-10-15 | 2022-02-18 | 上海浦东发展银行股份有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN115831379A (zh) * | 2022-11-24 | 2023-03-21 | 东软集团股份有限公司 | 知识图谱补全方法、装置、存储介质及电子设备 |
WO2023071845A1 (zh) * | 2021-10-25 | 2023-05-04 | 支付宝(杭州)信息技术有限公司 | 知识图谱处理 |
WO2023115761A1 (zh) * | 2021-12-20 | 2023-06-29 | 北京邮电大学 | 基于时序知识图谱的事件检测方法和装置 |
CN116701647A (zh) * | 2023-05-17 | 2023-09-05 | 中国电子科技南湖研究院 | 基于嵌入向量与迁移学习融合的知识图谱补全方法及装置 |
CN116860987A (zh) * | 2023-06-13 | 2023-10-10 | 中电通商数字技术(上海)有限公司 | 基于生成式大语言模型的领域知识图谱构建方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11727243B2 (en) * | 2019-01-30 | 2023-08-15 | Baidu Usa Llc | Knowledge-graph-embedding-based question answering |
US11531817B2 (en) * | 2019-10-17 | 2022-12-20 | Adobe Inc. | Creating a knowledge graph based on text-based knowledge corpora |
-
2023
- 2023-10-19 CN CN202311357393.7A patent/CN117094395B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112000815A (zh) * | 2020-10-28 | 2020-11-27 | 科大讯飞(苏州)科技有限公司 | 知识图谱补全方法、装置、电子设备及存储介质 |
CN113360675A (zh) * | 2021-06-25 | 2021-09-07 | 中关村智慧城市产业技术创新战略联盟 | 一种基于互联网开放世界的知识图谱特定关系补全方法 |
CN114064912A (zh) * | 2021-10-15 | 2022-02-18 | 上海浦东发展银行股份有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
WO2023071845A1 (zh) * | 2021-10-25 | 2023-05-04 | 支付宝(杭州)信息技术有限公司 | 知识图谱处理 |
WO2023115761A1 (zh) * | 2021-12-20 | 2023-06-29 | 北京邮电大学 | 基于时序知识图谱的事件检测方法和装置 |
CN115831379A (zh) * | 2022-11-24 | 2023-03-21 | 东软集团股份有限公司 | 知识图谱补全方法、装置、存储介质及电子设备 |
CN116701647A (zh) * | 2023-05-17 | 2023-09-05 | 中国电子科技南湖研究院 | 基于嵌入向量与迁移学习融合的知识图谱补全方法及装置 |
CN116860987A (zh) * | 2023-06-13 | 2023-10-10 | 中电通商数字技术(上海)有限公司 | 基于生成式大语言模型的领域知识图谱构建方法和系统 |
Non-Patent Citations (1)
Title |
---|
胶囊网络在知识图谱补全中的应用;陈恒 等;《计算机工程与应用》;第56卷(第8期);第110-116页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117094395A (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020228376A1 (zh) | 文本处理方法、模型训练方法和装置 | |
CN110309267B (zh) | 基于预训练模型的语义检索方法和系统 | |
US10534863B2 (en) | Systems and methods for automatic semantic token tagging | |
CN117094395B (zh) | 对知识图谱进行补全的方法、装置和计算机存储介质 | |
US20160350653A1 (en) | Dynamic Memory Network | |
CA3022998A1 (en) | Method and device for generative adversarial network training | |
CN112818676A (zh) | 一种医学实体关系联合抽取方法 | |
WO2021082086A1 (zh) | 机器阅读方法、系统、装置及存储介质 | |
CN117216194B (zh) | 文博领域知识问答方法及装置、设备和介质 | |
CN113707299A (zh) | 基于问诊会话的辅助诊断方法、装置及计算机设备 | |
WO2024164616A1 (zh) | 一种视觉问答方法、装置及电子设备和存储介质 | |
CN117648429B (zh) | 基于多模态自适应检索式增强大模型的问答方法及系统 | |
CN114282528A (zh) | 一种关键词提取方法、装置、设备及存储介质 | |
CN113761153A (zh) | 基于图片的问答处理方法、装置、可读介质及电子设备 | |
CN116882450B (zh) | 问答模型的编辑方法、装置、电子设备和存储介质 | |
CN116975218A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN117786086A (zh) | 答复文本生成方法、装置、计算机设备和可读存储介质 | |
Suissa et al. | Question answering with deep neural networks for semi-structured heterogeneous genealogical knowledge graphs | |
CN110889505A (zh) | 一种图文序列匹配的跨媒体综合推理方法和系统 | |
CN113704481B (zh) | 一种文本处理方法、装置、设备及存储介质 | |
CN114372454B (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 | |
CN116028613B (zh) | 常识问答方法、系统、计算机设备和存储介质 | |
CN116975221A (zh) | 文本阅读理解方法、装置、设备及存储介质 | |
CN110826341A (zh) | 一种基于seq2seq模型的语义相似度计算方法 | |
CN114331932A (zh) | 目标图像生成方法和装置、计算设备以及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |