CN116955646A - 知识图谱的生成方法和装置、存储介质及电子设备 - Google Patents
知识图谱的生成方法和装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN116955646A CN116955646A CN202310803471.5A CN202310803471A CN116955646A CN 116955646 A CN116955646 A CN 116955646A CN 202310803471 A CN202310803471 A CN 202310803471A CN 116955646 A CN116955646 A CN 116955646A
- Authority
- CN
- China
- Prior art keywords
- entity
- task
- text
- relation
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000003058 natural language processing Methods 0.000 claims abstract description 70
- 238000012549 training Methods 0.000 claims abstract description 67
- 230000006870 function Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 abstract description 31
- 238000005516 engineering process Methods 0.000 abstract description 9
- 201000010099 disease Diseases 0.000 description 101
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 101
- 238000010586 diagram Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 5
- 208000026350 Inborn Genetic disease Diseases 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 208000028782 Hereditary disease Diseases 0.000 description 2
- 208000024556 Mendelian disease Diseases 0.000 description 2
- 238000009960 carding Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 208000016361 genetic disease Diseases 0.000 description 2
- 208000008035 Back Pain Diseases 0.000 description 1
- 208000008930 Low Back Pain Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种知识图谱的生成方法和装置、存储介质及电子设备。该方法包括:获取任务提示信息,任务提示信息中包括实体识别任务的任务描述信息以及目标文本;通过基于自然语言处理模型所构建的实体识别模型,对目标文本进行实体识别以得到目标文本中包含的对象实体及对象实体之间的关联关系,实体识别模型是利用任务文本语料对初始化的自然语言处理模型进行训练得到的,任务文本语料中包括用于确定对象实体之间不同的关联关系的任务指令;基于从目标文本中识别出的对象实体及对象实体之间的关联关系,生成与目标文本匹配的知识图。本申请解决了采用相关技术所生成的知识图谱依赖固有的构建框架,导致生成的知识图谱的应用灵活性较差的问题。
Description
技术领域
本申请涉及计算机领域,具体而言,涉及一种知识图谱的生成方法和装置、存储介质及电子设备。
背景技术
在传统的知识图谱构建过程中,通常是基于pipeline框架来实现。具体地,对不同来源的知识文本语料进行统一处理,再对处理后的语料进行实体识别,得到知识图谱中的实体对象。然后,利用关系抽取模型来提取文本语料中实体对象之间的对应关系。最后再对上述识别提取得到的结果(即多个异源异构的知识子图谱)进行知识图谱融合,从而得到更大规模、更广覆盖度的知识图谱。
然而,上述基于pipeline框架来构建知识图谱的方式中,构建步骤之间具有一定依赖性。即,在基于语料识别出的实体对象出现错误的话,后续抽取出的实体对象之间的对应关系也会出现错误,这样整个知识图谱构建过程将会出现错误传递并累积的情况,导致所构建出的知识图谱的质量难以保证。进一步,如果想要对上述出错的知识图谱进行纠错,则需对整个知识图谱进行重新梳理调整,存在纠错成本较高的问题。
也就是说,基于目前相关技术提供的生成方式得到的知识图谱依赖固有的构建框架,从而导致所生成的知识图谱的应用灵活性较差的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种知识图谱的生成方法和装置、存储介质及电子设备,以至少解决采用相关技术所生成的知识图谱依赖固有的构建框架,导致生成的知识图谱的应用灵活性较差的技术问题。
根据本申请实施例的一个方面,提供了一种知识图谱的生成方法,包括:获取任务提示信息,其中,上述任务提示信息中包括实体识别任务的任务描述信息,以及将要执行上述实体识别任务的目标文本;通过基于自然语言处理模型所构建的实体识别模型,对上述目标文本进行实体识别,以得到上述目标文本中包含的对象实体及上述对象实体之间的关联关系,其中,上述实体识别模型是利用任务文本语料对初始化的上述自然语言处理模型进行训练得到的,上述任务文本语料中包括用于确定对象实体之间不同的关联关系的任务指令;基于从上述目标文本中识别出的上述对象实体及上述对象实体之间的关联关系,生成与上述目标文本匹配的知识图谱。
根据本申请实施例的另一方面,还提供了一种知识图谱的生成装置,包括:获取单元,用于获取任务提示信息,其中,上述任务提示信息中包括实体识别任务的任务描述信息,以及将要执行上述实体识别任务的目标文本;识别单元,用于通过基于自然语言处理模型所构建的实体识别模型,对上述目标文本进行实体识别,以得到上述目标文本中包含的对象实体及上述对象实体之间的关联关系,其中,上述实体识别模型是利用任务文本语料对初始化的上述自然语言处理模型进行训练得到的,上述任务文本语料中包括用于确定对象实体之间不同的关联关系的任务指令;生成单元,用于基于从上述目标文本中识别出的上述对象实体及上述对象实体之间的关联关系,生成与上述目标文本匹配的知识图谱。
根据本申请实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述知识图谱的生成方法。
根据本申请实施例的又一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上知识图谱的生成方法。
根据本申请实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过上述计算机程序执行上述的知识图谱的生成方法。
在本申请实施例中,获取任务提示信息,其中,任务提示信息中包括实体识别任务的任务描述信息,以及将要执行实体识别任务的目标文本;通过基于自然语言处理模型所构建的实体识别模型,对目标文本进行实体识别,以得到目标文本中包含的对象实体及对象实体之间的关联关系,其中,实体识别模型是利用任务文本语料对初始化的自然语言处理模型进行训练得到的,任务文本语料中包括用于确定对象实体之间不同的关联关系的任务指令;基于从目标文本中识别出的对象实体及对象实体之间的关联关系,生成与目标文本匹配的知识图谱。换言之,在本申请实施例中基于通过基于自然语言处理模型所构建的实体识别模型,即可参考任务描述信息对将要执行实体识别任务的目标文本进行识别,以得到目标文本中包含的对象实体及对象实体之间的关联关系。进而基于对象实体及对象实体之间的关联关系生成与目标文本匹配的知识图谱。而并非依赖于传统的线型pipeline框架来生成知识图谱,从而在源头上避免了整个知识图谱构建过程出现错误传递并累积的情况。从而解决了采用相关技术所生成的知识图谱依赖固有的构建框架,导致生成的知识图谱的应用灵活性较差的技术问题。实现了提高生成的知识图谱的应用灵活性的技术效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的知识图谱的生成方法的应用环境的示意图;
图2是根据本申请实施例的一种可选的知识图谱的生成方法的示意图;
图3是根据本申请实施例的另一种可选的知识图谱的生成方法的示意图;
图4是根据本申请实施例的又一种可选的知识图谱的生成方法的示意图;
图5是根据本申请实施例的又一种可选的知识图谱的生成方法的示意图;
图6是根据本申请实施例的又一种可选的知识图谱的生成方法的示意图;
图7是根据本申请实施例的又一种可选的知识图谱的生成方法的示意图;
图8是根据本申请实施例的又一种可选的知识图谱的生成方法的示意图;
图9是根据本申请实施例的又一种可选的知识图谱的生成方法的示意图;
图10是根据本申请实施例的又一种可选的知识图谱的生成方法的示意图;
图11是根据本申请实施例的又一种可选的知识图谱的生成方法的示意图;
图12是根据本申请实施例的又一种可选的知识图谱的生成方法的示意图;
图13是根据本申请实施例的又一种可选的知识图谱的生成方法的示意图;
图14是根据本申请实施例的一种可选的知识图谱的生成装置的结构示意图;
图15是根据本申请实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种知识图谱的生成方法,可选地,作为一种可选的实施方式,上述知识图谱的生成方法可以但不限于应用于如图1所示的环境中。如图1所示,终端设备102包括了存储器104,用于存储终端设备102运行过程中产生的各项数据、处理器106,用于处理运算上述各项数据、显示器108,用于显示任务提示信息以及与目标文本匹配的知识图谱。终端设备102可以通过网络110与服务器112之间进行数据交互。服务器112与数据库114相连,数据库114用于存储各项数据。终端设备102可以运行用于获取目标文本匹配的知识图谱的客户端。
进一步地,上述方法在图1所示环境中对应的具体应用过程,如以下步骤所示:执行步骤S102,终端设备102通过网络110将任务提示信息发送给服务器112。接着执行步骤S104-S106,服务器112在接收到上述任务提示信息的情况下,通过基于自然语言处理模型所构建的实体识别模型,对目标文本进行实体识别,以得到目标文本中包含的对象实体及对象实体之间的关联关系,其中,实体识别模型是利用任务文本语料对初始化的自然语言处理模型进行训练得到的,任务文本语料中包括用于确定对象实体之间不同的关联关系的任务指令。服务器112基于从目标文本中识别出的对象实体及对象实体之间的关联关系,生成与目标文本匹配的知识图谱;进而执行步骤S108,服务器112通过网络110将与目标文本匹配的知识图谱发送给终端设备102。
在本申请实施例中基于通过基于自然语言处理模型所构建的实体识别模型,即可参考任务描述信息对将要执行实体识别任务的目标文本进行识别,以得到目标文本中包含的对象实体及对象实体之间的关联关系。进而基于对象实体及对象实体之间的关联关系生成与目标文本匹配的知识图谱。而并非依赖于传统的线型pipeline框架来生成知识图谱,从而在源头上避免了整个知识图谱构建过程出现错误传递并累积的情况。从而解决了采用相关技术所生成的知识图谱依赖固有的构建框架,导致生成的知识图谱的应用灵活性较差的技术问题。实现了提高生成的知识图谱的应用灵活性的技术效果。
可选地,在本实施例中,上述终端设备可以是配置有目标客户端的终端设备,可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。上述仅是一种示例,本实施例中对此不作任何限定。
可选地,作为一种可选的实施方式,如图2所示,上述知识图谱的生成方法包括:
S202,获取任务提示信息,其中,任务提示信息中包括实体识别任务的任务描述信息,以及将要执行实体识别任务的目标文本;
可选地,上述知识图谱的生成方法可以但不限于应用于知识图谱的构建场景当中。需要说明的是,知识图谱是一种揭示实体之间关系的语义网络,也是一种基于图的数据结构。
进一步地,上述任务描述信息可以但不限于用于指示提示工程Prompt,具体地,Prompt实际上就是一种与人工智能进行交流时输入的短文本提示词。如,请抽取下文中所有医学实体及实体间的医学关系。
上述目标文本可以但不限于用于指示一段文本信息,该文本信息中包括多个实体(即,特定词汇),不同的实体之间存在着对应的关联关系。但是由于该文本信息可能内容较多且不存在有序的结构,因而基于人工并不能高效地、准确地从上述文本信息中提取出实体以及实体之间的关系。
S204,通过基于自然语言处理模型所构建的实体识别模型,对目标文本进行实体识别,以得到目标文本中包含的对象实体及对象实体之间的关联关系,其中,实体识别模型是利用任务文本语料对初始化的自然语言处理模型进行训练得到的,任务文本语料中包括用于确定对象实体之间不同的关联关系的任务指令;
可选地,上述自然语言处理模型可以但不限于为大规模语言模型(LargeLanguage Model,简称LLM)。具体地,LLM是一种深度学习算法,可以根据从海量数据集中获得的知识来识别、总结、翻译、预测和生成文本和其他内容。
进一步地,上述实体识别模型是基于对初始化的LLM进行预训练、微调后得到的。上述任务文本语料中包括对初始化的LLM进行预训练以及微调的训练样本数据。
上述任务指令可以但不限于用于指示一段人类能够理解的有关实体识别任务识别的表述。任务指令可以但不限于与任务标注数据相关联,具体而言,任务标注数据可以但不限于包括:一段输入信息以及与上述输入信息相关联的答复信息。
举例而言,假设任务指令为:以下两个医学诊断含义是否一致?,与上述任务指令关联的任务标注数据中的输入可以为:腰痛病、腰痛,上述任务标注数据中的答复信息为:含义一致。
进一步地,任务指令可以但不限于包括多种指令类型,其中包括:相似类型的任务指令(例如,“以下两个词汇的相似性为”),问答类型的任务指令(例如,“以下两个医学诊断含义是否一致?”),分类类型的任务指令(例如,“以下疾病的类别为”)。
S206,基于从目标文本中识别出的对象实体及对象实体之间的关联关系,生成与目标文本匹配的知识图谱。
需要说明的是,对象实体与对象实体之间存在的关联关系与上述实体识别模型所对应的领域有关。举例而言,假设实体识别模型所对应的领域为医学领域,那么上述关联关系则用于指示对象实体与对象实体之间的医学关系,如,药物与疾病之间的关联关系为治疗。
进一步需要说明的是,LLM具有强大的zero-shot能力,即,简单地将任务文本输入LLM并要求其返回输出数据的能力。此外,LLM还具有one-shot和few-shot的方式,其中,one-shot方式用于指示在输入的Prompt中携带一个有关实体识别任务的示例样本数据,并要求其返回输出数据。few-shot方式用于指示即在输入prompt中携带两个或两个以上该任务的示例样本数据,并要求其返回输出数据。因而,在本申请实施例中,可以但不限于基于通过LLM训练得到的实体识别模型所对应的zero-shot方式、one-shot方式以及few-shot方式中的任意一种,进行实体识别和图谱的构建,在本实施例中对此不进行任何限定。
举例而言,如图3中所示,输入的Prompt为“请抽取下文中所有医学实体以及实体间的医学关系”,在Prompt中并未携带示例样本数据。该Prompt遵循的是LLM的zero–shot设定。
如图4中所示,输入的Prompt中包括一个样本数据,即,三元组“<头实体,关系,尾实体>”。也就是说,该Prompt的遵循的是LLM的one-shot设定。
如图5中所示,输入的Prompt中包括多个样本数据,即,三元组“<头实体1,关系1,尾实体1>”以及“<头实体2,关系2,尾实体2>”。也就是说,该Prompt的遵循的是LLM的few-shot设定。
作为一种可选的实施例,假设这里的知识图谱的生成方法应用于知识图谱的构建场景当中,以上述实体识别模型为医学领域的实体识别模型为例,由如下步骤对上述方法进行进一步的解释说明:
获取任务提示信息,其中,如图6中(a)所示,任务提示信息中包括任务描述信息(即,图6中(a)中所示的“已知<A疾病,下位词,A1疾病>,请抽取下文中所有实体与实体之间的医学关系;”),待执行实体识别任务的目标文本(即,图6中(a)中所示的“A疾病包括如下几类,第一,A1疾病,也称为B1疾病,属于常见的遗传性疾病;第二,A2疾病,也称为B2疾病或C2疾病”)。
接着,将上述任务提示信息输入至通过基于自然语言处理模型所构建的实体识别模型当中,以得到如图6中(b)所示的目标文本中包含的对象实体及对象实体之间的关联关系。
进一步地,基于从目标文本中识别出的对象实体及对象实体之间的关联关系,生成如图6中(c)所示的与目标文本匹配的知识图谱。
作为又一种可选的实施例,假设这里的知识图谱的生成方法应用于知识图谱的构建场景当中,以上述实体识别模型为医学领域的实体识别模型为例,由如下步骤对上述方法进行进一步的解释说明:
获取任务提示信息,其中,如图7中(a)所示,任务提示信息中包括任务描述信息(即,图7中(a)中所示的“定义实体间的“治疗”关系,是指某些药物可以治疗某种疾病,请抽取下文中所有实体及实体间的医学关系:”),待执行实体识别任务的目标文本(即,图7中(a)中所示的“在C疾病的预防以及治疗中,最常见的药物为B药物。为什么B药物能够治疗C疾病呢?那是因为C疾病主要是由C1疾病以及C2疾病引起的,B药物能够有效的抑制C1疾病以及C2疾病的产生。”)。
接着,将上述任务提示信息输入至通过基于自然语言处理模型所构建的实体识别模型当中,以得到如图7中(b)所示的目标文本中包含的对象实体及对象实体之间的关联关系。
进一步地,基于从目标文本中识别出的对象实体及对象实体之间的关联关系,生成如图7中(c)所示的与目标文本匹配的知识图谱。
在本申请实施例中,获取任务提示信息,其中,任务提示信息中包括实体识别任务的任务描述信息,以及将要执行实体识别任务的目标文本;通过基于自然语言处理模型所构建的实体识别模型,对目标文本进行实体识别,以得到目标文本中包含的对象实体及对象实体之间的关联关系,其中,实体识别模型是利用任务文本语料对初始化的自然语言处理模型进行训练得到的,任务文本语料中包括用于确定对象实体之间不同的关联关系的任务指令;基于从目标文本中识别出的对象实体及对象实体之间的关联关系,生成与目标文本匹配的知识图谱。换言之,在本申请实施例中基于通过基于自然语言处理模型所构建的实体识别模型,即可参考任务描述信息对将要执行实体识别任务的目标文本进行识别,以得到目标文本中包含的对象实体及对象实体之间的关联关系。进而基于对象实体及对象实体之间的关联关系生成与目标文本匹配的知识图谱。而并非依赖于传统的线型pipeline框架来生成知识图谱,从而在源头上避免了整个知识图谱构建过程出现错误传递并累积的情况。从而解决了采用相关技术所生成的知识图谱依赖固有的构建框架,导致生成的知识图谱的应用灵活性较差的技术问题。实现了提高生成的知识图谱的应用灵活性的技术效果。
可选地,通过基于自然语言处理模型所构建的实体识别模型,对目标文本进行实体识别,以得到目标文本中包含的对象实体及对象实体之间的关联关系包括:
S1,在实体识别模型中识别出目标文本中所包含的对象实体;
S2,在识别出的对象实体的数量大于等于2的情况下,在实体识别模型中识别出对象实体之间的关联关系;
S3,基于识别出的对象实体及关联关系,构建实体关系三元组,得到与目标文本相匹配的实体关系集;
S4,将实体关系集作为实体识别模型的输出结果。
需要说明的是,目标文本中所包含的对象实体可以但不限于用于指示目标文本中包含的特定词汇。
作为一种可选的实施方式,如图6中(a)所示,假设目标文本为“A疾病包括如下几类,第一,A1疾病,也称为B1疾病,属于常见的遗传性疾病;第二,A2疾病,也称为B2疾病或C2疾病”。在实体识别模型中识别出目标文本中所包含的对象实体包括:A疾病、A1疾病、B1疾病、遗传性疾病、A2疾病,B2疾病、C2疾病”。
进一步,在实体识别模型中识别出对象实体之间的关联关系,并生成用于表示关联关系的关系表征文本,其中,上述关系表征文本包括:类别、下位词、别名。
接着,利用识别出的对象实体(即,A疾病、A1疾病、B1疾病、遗传性疾病、A2疾病,B2疾病、C2疾病)及关系表征文本(即,类别、下位词、别名),构建实体关系三元组,得到如图6中(b)所示的与目标文本相匹配的实体关系集。
然后,将实体关系集作为实体识别模型的输出结果。
在本申请实施例中,在实体识别模型中识别出目标文本中所包含的对象实体;在识别出的对象实体的数量大于等于2的情况下,在实体识别模型中识别出对象实体之间的关联关系;基于识别出的对象实体及关联关系,构建实体关系三元组,得到与目标文本相匹配的实体关系集;将实体关系集作为实体识别模型的输出结果。。换句话说,在本申请实施例中基于实体识别模型自动识别出目标文本中所包含的对象实体,以及对象实体之间的关联关系。以生成用于表示关联关系的关系表征文本。从而利用对象实体构建实体关系三元组,得到与目标文本相匹配的实体关系集,并将实体关系集作为实体识别模型的输出结果,以便于利用上述输入结果执行构建知识图谱。从而实现了提升知识图谱构建效率的技术效果。
可选地,基于从目标文本中识别出的对象实体及对象实体之间的关联关系,生成与目标文本匹配的知识图谱包括:
为识别出的对象实体创建各自对应的图谱节点;
将识别出的对象实体依次作为当前对象实体,并对当前对象实体执行以下操作:
从实体关系集中确定出包含当前对象实体的N个实体关系三元组,其中,N为大于等于1的正整数;
按照N个实体关系三元组各自所指示的关联关系,连接当前对象实体对应的图谱节点和与当前对象实体具有关联关系的候选对象实体对应的候选图谱节点;
在当前对象实体并非识别出的对象实体中的最后一个对象实体的情况下,获取下一个对象实体作为当前对象实体;
在当前对象实体为识别出的对象实体中的最后一个对象实体的情况下,确定生成与目标文本匹配的知识图谱。
以上述实体识别模型输出实体对象包括:A疾病、A1疾病、B1疾病、A2疾病,实体识别模型输出的实体关系集包括:<A疾病,下位词,A1疾病>、<A1疾病,别名,B1疾病>、<A疾病,下位词,A2疾病>、<A2疾病,别名,B2疾病>为例。对上述方法进行详细的解释说明:
如图8中(a)所示,为识别出的对象实体(即,A疾病、A1疾病、B1疾病、A2疾病,B2疾病)创建各自对应的图谱节点。
然后,将A疾病、A1疾病、B1疾病、A2疾病中的每一个对象实体依次作为当前对象执行以下操作:
以当前对象为A疾病为例,确定上述实体关系集中包括A疾病的实体关系三元组有<A疾病,下位词,A1疾病>和<A疾病,下位词,A2疾病>;
接着,如图8中(b)所示,按照<A疾病,下位词,A1疾病>和<A疾病,下位词,A2疾病>所指示的关联关系,连接A疾病对应的图谱节点和与A疾病具有关联关系的候选对象实体对应的候选图谱节点(即,A1疾病、A2疾病);
获取下一个对象实体作为当前对象实体。
以此类推,对A疾病、A1疾病、B1疾病、A2疾病中的每个对象实体都执行以上操作,直至遍历上述对象实体中的所有对象实体,在本实施例中,不再进行赘述。
在本申请实施例中,为识别出的对象实体创建各自对应的图谱节点;将识别出的对象实体依次作为当前对象实体,并对当前对象实体执行以下操作:从实体关系集中确定出包含当前对象实体的N个实体关系三元组,其中,N为大于等于1的正整数;按照N个实体关系三元组各自所指示的关联关系,连接当前对象实体对应的图谱节点和与当前对象实体具有关联关系的候选对象实体对应的候选图谱节点;在当前对象实体并非识别出的对象实体中的最后一个对象实体的情况下,获取下一个对象实体作为当前对象实体;在当前对象实体为识别出的对象实体中的最后一个对象实体的情况下,确定生成与目标文本匹配的知识图谱。。换言之,在本申请实施例中,基于识别出的对象实体以对象实体之间的关系表征文本,快速地生成是与目标文本匹配的知识图谱。从而实现了提高知识图谱的构建效率的技术效果。
可选地,按照N个实体关系三元组各自所指示的关联关系,连接当前对象实体对应的图谱节点和与当前对象实体具有关联关系的候选对象实体所对应的候选图谱节点包括:
S1,将N个实体关系三元组中的每个实体关系三元组依次作为当前实体关系三元组,并执行以下操作;
S2,在当前对象实体对应的当前图谱节点与候选对象实体对应的候选图谱节点之间尚未被添加关系连线的情况下,在当前图谱节点与候选图谱节点之间添加关系连线,并在关系连线上标记出当前实体关系三元组中包含的当前关系表征文本,其中,当前关系表征文本用于表示当前对象实体与候选对象实体之间的当前关联关系;
S3,在当前对象实体对应的当前图谱节点与候选对象实体对应的候选图谱节点之间已被添加关系连线的情况下,从N个实体关系三元组中获取下一个实体关系三元组作为当前实体关系三元组。
作为一种可选的实施例,假设当前对象为A1疾病,包括A1疾病的实体关系三元组为<A疾病,下位词,A1疾病>和<A1疾病,别名,B1疾病>;
假设当前实体关系三元组为<A疾病,下位词,A1疾病>,如图9中(a)所示,确定A1疾病对应的当前图谱节点与候选对象实体(即,A疾病)对应的候选图谱节点之间已被添加关系连线,获取下一个实体关系三元组(即,<A1疾病,别名,B1疾病>)作为当前实体关系三元组。
如图9中(a)所示,确定A1疾病对应的当前图谱节点与候选对象实体(即,B1疾病)对应的候选图谱节点之间未被添加关系连线,如图9中(b)所示,在A1疾病对应的当前图谱节点与候选图谱节点(即,B1疾病)之间添加关系连线,并在上述关系连线上标记出当前实体关系三元组(即,<A1疾病,别名,B1疾病>)中包含的当前关系表征文本(即,别名)。
在本申请实施例中,将N个实体关系三元组中的每个实体关系三元组依次作为当前实体关系三元组,并执行以下操作;在当前对象实体对应的当前图谱节点与候选对象实体对应的候选图谱节点之间尚未被添加关系连线的情况下,在当前图谱节点与候选图谱节点之间添加关系连线,并在关系连线上标记出当前实体关系三元组中包含的当前关系表征文本,其中,当前关系表征文本用于表示当前对象实体与候选对象实体之间的当前关联关系;在当前对象实体对应的当前图谱节点与候选对象实体对应的候选图谱节点之间已被添加关系连线的情况下,从N个实体关系三元组中获取下一个实体关系三元组作为当前实体关系三元组。换言之,在本申请实施例中,基于识别出的对象实体以对象实体之间的关系表征文本,快速地生成是与目标文本匹配的知识图谱。从而实现了提高知识图谱的构建效率、提高知识图谱构建的灵活性的技术效果。
可选地,在连接当前对象实体对应的图谱节点和与当前对象实体具有关联关系的候选对象实体对应的候选图谱节点关系连线上标记出关联关系对应的关系表征文本时,还包括:
S1,确定当前对象实体与候选对象具有关联关系的两个对象实体之间的关系指向;
S2,在关系连线上标记出与关系指向相匹配的指向箭头。
作为一种可选的实施例,以当前对象为A疾病,当前实体关系三元组为<A疾病,下位词,A1疾病>为例,如图10中(a)所示,在确定A疾病对应的图谱节点与A1疾病对应的图谱节点之间不存在关系连线的情况下,在A疾病对应的图谱节点与A1疾病对应的图谱节点之间添加关系连线。
在连接A疾病对应的图谱节点和与A1疾病对应的实体节点之间添加关系连线的同时,确定A疾病与A1疾病之间的关联关系指向是A1疾病是A疾病的下位词,为A疾病与A1疾病之间添加箭头指向,并在关系连线上标记出A疾病与A1疾病之间的关系表征文本(即,下位词)。
在本申请实施例中,通过确定当前对象实体与候选对象具有关联关系的两个对象实体之间的关系指向的方式,确定具当前对象实体与候选对象之间的关系指向,进而在关系连线上标记出与关系指向相匹配的指向箭头。使得生成的知识图谱结构更加清晰,且有利于理解。进而达到了提高生成的知识图谱的应用灵活性的技术效果。
可选地,在获取任务提示信息之前,还包括:
S1,获取用于训练自然语言处理模型的训练文本语料,其中,训练文本语料包括任务文本语料以及领域文本语料;
可选地,这里自然语言处理模型可以但不限于用于指示LLM,具体地,在本实施例中,需要基于训练语料对初始化的LLM进行训练才能得到实体识别模型。
S2,利用领域文本语料中的第一领域文本语料对初始化的自然语言处理模型进行训练,直至达到第一收敛条件,其中,第一领域文本语料中包含多个领域中采集到的文本语料,第一收敛条件指示自然语言处理模型对应的第一目标函数达到第一目标值;
需要说明的是,上述利用领域文本语料中的第一领域文本语料对初始化的自然语言处理模型进行训练,直至达到第一收敛条件的过程,可以但不限于用于指示对LLM进行无监督的预训练的过程。具体而言,基于第一领域文本语料,也即大规模的通用领域语料,以根据文本中前N-1个字符token预测出第N个token。
举例而言,这里以属于LLM的基于Decoder-only架构的生成式与训练模型GPT为例,假设给定T=t1,t2,t3……tn,其中,T为一条无监督训练语料(如,一句话),t1,t2,t3……tn为组成无监督训练语料的字符。那么LLM给出这样一个序列的条件概率P(T)为:
上述训练过程的目标为使得如下所示的第一目标函数L(T)最大化:
L(T)=∑ip(ti|t1,t2,…,ti-1;Θ)
其中,Θ为给定的模型参数(即,随机初始化的解码器中的权重,也即条件概率P(T)的参数),p为条件概率。
也就是说,在本实施例中,需要基于第一领域文本语料,也即大规模的通用领域语料,对LLM进行不断地训练,以不断地调整条件概率的参数Θ,进而使得第一目标函数L(T)达到第一目标值。从而生成已达到了第一收敛条件的LLM。
S3,利用领域文本语料中的第二领域文本语料对达到第一收敛条件的自然语言处理模型进行训练,直至达到第二收敛条件,其中,第二领域文本语料中为目标领域下采集到的文本语料,第二收敛条件指示自然语言处理模型对应的第二目标函数达到第二目标值;
需要说明的是,上述利用领域文本语料中的第二领域文本语料对达到第一收敛条件的自然语言处理模型进行训练,直至达到第二收敛条件的过程,可以但不限于用于指示对已完成预训练的LLM进行无监督微调(Unsupervised Fine-tuning)的过程。
具体而言,无监督微调的过程与上述无监督预训练的过程相同。也即,在给定模型参数Θ(即,无监督预训练结束时的参数Θ)的基础上,利用目标领域的文本语料(即,第二领域文本语料)对已完成预训练的LLM进行训练,并不断调整参数Θ使得一下第二目标函数达到第二目标值:
L(T)=∑ip(ti|t1,t2,…,ti-1;Θ)
其中,上述p为目标领域的文本语料(即,第二领域文本语料)的条件概率,t1,t2,t3……tn为组成文本语料的字符,上述目标领域的可以但不限于用于指示医学领域、科技领域、文学领域,或其他任意一种领域,在本实施例中对此不进行任何限定。
S4,利用任务文本语料对达到第二收敛条件的自然语言处理模型进行训练,直至达到第三收敛条件,其中,第三收敛条件指示自然语言处理模型对应的第三目标函数达到第三目标值;
可选地,作为一种可选的实施方式,上述利用任务文本语料对达到第二收敛条件的自然语言处理模型进行训练,直至达到第三收敛条件的过程,可以但不限于用于指示对已完成无监督微调的LLM进行有监督微调(Supervised Fine-tuning)的过程。
具体而言,在给定模型参数Θ(即,无监督微调结束时的参数Θ)的基础上,通过包括任务指令及与所述任务指令相匹配的任务标注数据的任务文本语料,以及归属于目标领域的第二领域文本语料对已完成无监督微调的LLM进行训练。进而不断调整参数Θ,以使得以下第三目标函数达到第三目标值:
L(C)=∑ip(y|c1,c2,…,ci-1;Θ)
其中,上述p为目标领域的文本语料(即,第二领域文本语料)的条件概率,c1,c2,…,ci-1为输入的第二领域文本语料与任务文本语料,y为训练数据的标注记录(如,任务文本语料的类型标签等)。
S5,将达到第三收敛条件的自然语言处理模型,确定为实体识别模型。
在本申请实施例中,获取用于训练自然语言处理模型的训练文本语料,其中,训练文本语料包括任务文本语料以及领域文本语料;利用领域文本语料中的第一领域文本语料对初始化的自然语言处理模型进行训练,直至达到第一收敛条件,其中,第一领域文本语料中包含多个领域中采集到的文本语料,第一收敛条件指示自然语言处理模型对应的第一目标函数达到第一目标值;利用领域文本语料中的第二领域文本语料对达到第一收敛条件的自然语言处理模型进行训练,直至达到第二收敛条件,其中,第二领域文本语料中为目标领域下采集到的文本语料,第二收敛条件指示自然语言处理模型对应的第二目标函数达到第二目标值;利用任务文本语料对达到第二收敛条件的自然语言处理模型进行训练,直至达到第三收敛条件,其中,第三收敛条件指示自然语言处理模型对应的第三目标函数达到第三目标值;将达到第三收敛条件的自然语言处理模型,确定为实体识别模型。换言之,在本实施例中,通过对初始化的LLM进行预训练、有监督微调、无监督微调的方式,使得生成的用于识别对象实体及对象实体之间的关联关系的实体识别模型更加精准。此外,基于以上方式训练处的实体识别模型,并未依赖于传统的线型pipeline框架来生成知识图谱,从而在源头上避免了整个知识图谱构建过程出现错误传递并累积的情况。从而解决了采用相关技术所生成的知识图谱依赖固有的构建框架,导致生成的知识图谱的应用灵活性较差的技术问题。实现了提高生成的知识图谱的应用灵活性的技术效果。
可选地,获取用于训练自然语言处理模型的训练文本语料包括:
S1,从多个领域的文本语料中采集到第一领域文本语料;
S2,从目标领域的文本语料中采集到第二领域文本语料;
S3,基于与实体识别任务相匹配的任务指令的指令类型,构建任务文本语料,其中,任务文本语料中包括任务指令,及与任务指令相匹配的任务标注数据。
可选地,需要说明的是,上述任务指令可以但不限于用于指示一段人类能够理解的有关实体识别任务识别的表述。任务指令可以但不限于与任务标注数据相关联,具体而言,任务标注数据可以但不限于包括:一段输入信息以及与上述输入信息相关联的答复信息。
作为一种可选的实施方式,假设任务指令为:“以下两个医学诊断含义是否一致?”,与上述任务指令关联的任务标注数据中的输入可以为:“腰痛病、腰痛”,上述任务标注数据中的答复信息为:“含义一致”。
进一步地,任务指令可以但不限于包括多种指令类型,其中包括:相似类型的任务指令(例如,“以下两个词汇的相似性为”),问答类型的任务指令(例如,“以下两个医学诊断含义是否一致?”),分类类型的任务指令(例如,“以下疾病的类别为”)。
进一步需要说明的是,假设某些领域中已经存在与实体识别任务相关的文本语料,在本实施例中,也可以在以上现有的文本语料中提取出可用的任务文本语料。
在本申请实施例中,从多个领域的文本语料中采集到第一领域文本语料;从目标领域的文本语料中采集到第二领域文本语料;基于与实体识别任务相匹配的任务指令的指令类型,构建任务文本语料,其中,任务文本语料中包括任务指令,及与任务指令相匹配的任务标注数据。从而从多个维度获取到多种训练数据,从而使得基于以上训练数据训练得出的实体识别模型更加准确。
可选地,基于与实体识别任务相匹配的任务指令的指令类型,构建任务文本语料包括:
S1,确定与实体识别任务相匹配的任务指令的指令类型,其中,指令类型包括以下之一:问答指令、相似性判断指令、分类指令;
S2,基于与指令类型相匹配的指令表达逻辑,生成任务指令;
S3,获取与任务指令对应的任务回复文本,作为任务标注数据;
S4,基于任务指令与任务标注数据构建任务文本语料。
可选地,上述问答指令可以但不限于用于指示问答逻辑类型指令,基于问答指令生成的任务指令可以对应于疑问句式,如“以下两个医学诊断含义是否一致?”。
进一步地,上述相似性判断指令可以但不限于用于指示相似性判断逻辑类型指令,基于相似性判断指令生成的任务指令可以为相似性判断句式,如“以下两个词汇的相似性为”。
再进一步地,上述分类指令可以但不限于用于指示分类逻辑类型指令,基于分类指令生成的任务指令可以为分类句式,如“以下疾病的类别为”。
在本申请实施例中,确定与实体识别任务相匹配的任务指令的指令类型,其中,指令类型包括以下之一:问答指令、相似性判断指令、分类指令;基于与指令类型相匹配的指令表达逻辑,生成任务指令;获取与任务指令对应的任务回复文本,作为任务标注数据;基于任务指令与任务标注数据构建任务文本语料。换言之,在本实施例中,基于与任务指令匹配的指令类型的表达逻辑生成的任务指令,以及与任务指令对应的任务回复文本来构建任务文本语料。进而使得基于任务文本语料进行有监督微调所生成的实体识别模型的语义特征,更加有利于后续知识图谱的生成。
可选地,在任务提示信息中还包括至少一个样本实体关系组的情况下,在基于从目标文本中识别出的对象实体及对象实体之间的关联关系,生成与目标文本匹配的知识图谱之后,还包括:
S1,更新任务提示信息中的样本实体关系组,得到更新后的任务提示信息;
S2,基于更新后的任务提示信息,通过实体识别模型从目标文本中识别出更新后的对象实体及更新后的对象实体之间的更新关联关系;
S3,基于更新后的对象实体及更新关联关系生成更新后的知识图谱。
需要说明的是,LLM具有强大的zero-shot能力,即,简单地将任务文本输入LLM并要求其返回输出数据的能力。此外,LLM还具有one-shot和few-shot的方式,其中,one-shot方式用于指示在输入的Prompt中携带一个有关实体识别任务的示例样本数据,并要求其返回输出数据。few-shot方式用于指示即在输入prompt中携带两个或两个以上该任务的示例样本数据,并要求其返回输出数据。因而,在本申请实施例中,可以但不限于基于通过LLM训练得到的实体识别模型所对应的zero-shot方式、one-shot方式以及few-shot方式中的任意一种,进行实体识别和图谱的构建,在本实施例中对此不进行任何限定。
上述样本实体关系组可以但不限于用于指示上述Prompt中的有关实体识别任务的示例样本数据,上述Prompt即为任务描述信息。任务提示信息可以但不限于由任务描述信息、目标文本组成,也可以由任务描述信息、目标文本、样本实体关系组组成,在本实施例中对此不进行任何限定。具体地,样本实体关系组可以为一个实体与实体之间的关系三元组,如“<头实体,关系,尾实体>”。
需要说明的是,样本实体关系组能够帮助实体识别模型更有效地识别出Prompt的意图。
在本申请实施例中,更新任务提示信息中的样本实体关系组,得到更新后的任务提示信息;基于更新后的任务提示信息,通过实体识别模型从目标文本中识别出更新后的对象实体及更新后的对象实体之间的更新关联关系;基于更新后的对象实体及更新关联关系生成更新后的知识图谱。换句话说,在本申请实施例中,通过对任务提示信息中的样本实体关系组进行更新的方式,即可调整基于实体识别模型生成的对象实体及对象实体之间的关联关系,以得到新的知识图谱。也就是说,在本申请实施例中,在需要对已生成的知识图谱进行更新的情况下,通过调整任务提示信息中的样本实体关系组就可以获取更新后的知识图谱。而无需对整个知识图谱进行重新梳理调整。从而解决了采用相关技术所生成的知识图谱依赖固有的构建框架,导致生成的知识图谱的应用灵活性较差的技术问题。实现了提高生成的知识图谱的应用灵活性的技术效果。
作为一种可选的实施方案,由如图11所示的,由以下步骤对上述知识图谱的生成方法进行完整的解释说明:
步骤S1102,基于通用领域文本语料(即上文中第一领域文本语料)对初始化的LLM进行预训练;
需要说明的是,在执行步骤S1102之前,在本实施例中需要将多个可信来源的领域文本语料进行预处理(如,对文本语料进行大小写、分隔符/回车符/空格添加等格式的统一调整)、合并(如,按数据来源、任务形式、备注、时间等分类本语料进行合并),以生成通用领域文本语料,并将其统一存储在数据库中。
步骤S1104,基于目标领域的文本语料(即,上文中的第二领域文本语料),对已完成预训练的LLM进行无监督的微调。
步骤S1106,基于任务文本语料和目标领域的文本语料对已完成无监督的微调的LLM进行有监督微调,以生成实体识别模型。举例而言,上述基于任务文本语料和目标领域的文本语料对已完成无监督的微调的LLM进行有监督微调的过程如图12所示,将任务文本语料和目标领域的文本语料输入至完成无监督的微调的LLM,然后输出与任务文本语料和目标领域的文本语料相关的回复信息。需要说明的是,有监督微调通常是基于多任务文本语料进行的,这样的设定可以让模型更加鲁棒,泛化性更好,同时也有利于模型更快收敛。
步骤S1108,结合Prompt来应用实体识别模型。具体而言,如图13所示,在接收到实体的输入并检测到查询按钮被点击的情况下,生成与输入的实体相关的Prompt以及示例样本数据。并获取预先存储的与上述实体属于相同领域的文本语料(即,目标文本)。进而将上述目标文本、Prompt以及示例样本数据输入至实体识别模型中,以获取与上述输入的实体相关的多个实体以及上述多个实体之间的关联关系。进而根据上述多个实体以及上述多个实体之间的关联关系,生成如图13中所示的知识图谱。
在本实施例中,通过对初始化的LLM进行预训练、有监督微调、无监督微调的方式,使得生成的用于识别对象实体及对象实体之间的关联关系的实体识别模型更加精准。此外,基于以上方式训练处的实体识别模型,并未依赖于传统的线型pipeline框架来生成知识图谱,从而在源头上避免了整个知识图谱构建过程出现错误传递并累积的情况。从而解决了采用相关技术所生成的知识图谱依赖固有的构建框架,导致生成的知识图谱的应用灵活性较差的技术问题。实现了提高生成的知识图谱的应用灵活性的技术效果。此外,在本实施例中在需要对已生成的知识图谱进行更新的情况下,通过调整输入至实体识别模型的示例样本数据,即可获取更新后的知识图谱。而无需对整个知识图谱进行重新梳理调整。从而解决了采用相关技术所生成的知识图谱依赖固有的构建框架,导致生成的知识图谱的应用灵活性较差的技术问题。实现了提高生成的知识图谱的应用灵活性的技术效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
根据本申请实施例的另一个方面,还提供了一种用于实施上述知识图谱的生成方法的知识图谱的生成装置。如图14所示,该装置包括:
获取单元1402,用于获取任务提示信息,其中,任务提示信息中包括实体识别任务的任务描述信息,以及将要执行实体识别任务的目标文本;
识别单元1404,用于通过基于自然语言处理模型所构建的实体识别模型,对目标文本进行实体识别,以得到目标文本中包含的对象实体及对象实体之间的关联关系,其中,实体识别模型是利用任务文本语料对初始化的自然语言处理模型进行训练得到的,任务文本语料中包括用于确定对象实体之间不同的关联关系的任务指令;
生成单元1406,用于基于从目标文本中识别出的对象实体及对象实体之间的关联关系,生成与目标文本匹配的知识图谱。
可选地,上述识别单元包括:
第一识别模块,用于在实体识别模型中识别出目标文本中所包含的对象实体;
第二识别模块,在识别出的对象实体的数量大于等于2的情况下,在实体识别模型中识别出对象实体之间的关联关系;
第一构建模块,用于基于识别出的对象实体及关联关系,构建实体关系三元组,得到与目标文本相匹配的实体关系集;
第一确定模块,用于将实体关系集作为实体识别模型的输出结果。
可选地,上述生成单元还用于:为识别出的对象实体创建各自对应的图谱节点;将识别出的对象实体依次作为当前对象实体,并对当前对象实体执行以下操作:从实体关系集中确定出包含当前对象实体的N个实体关系三元组,其中,N为大于等于1的正整数;按照N个实体关系三元组各自所指示的关联关系,连接当前对象实体对应的图谱节点和与当前对象实体具有关联关系的候选对象实体对应的候选图谱节点;在当前对象实体并非识别出的对象实体中的最后一个对象实体的情况下,获取下一个对象实体作为当前对象实体;在当前对象实体为识别出的对象实体中的最后一个对象实体的情况下,确定生成与目标文本匹配的知识图谱。
可选地,上述生成单元还用于:将N个实体关系三元组中的每个实体关系三元组依次作为当前实体关系三元组,并执行以下操作;在当前对象实体对应的当前图谱节点与候选对象实体对应的候选图谱节点之间尚未被添加关系连线的情况下,在当前图谱节点与候选图谱节点之间添加关系连线,并在关系连线上标记出当前实体关系三元组中包含的当前关系表征文本,其中,当前关系表征文本用于表示当前对象实体与候选对象实体之间的当前关联关系;在当前对象实体对应的当前图谱节点与候选对象实体对应的候选图谱节点之间已被添加关系连线的情况下,从N个实体关系三元组中获取下一个实体关系三元组作为当前实体关系三元组。
可选地,上述生成单元还用于:确定当前对象实体与候选对象之间的关系指向;在关系连线上标记出与关系指向相匹配的指向箭头。
可选地,上述装置还包括:
第一获取单元,用于获取用于训练自然语言处理模型的训练文本语料,其中,训练文本语料包括任务文本语料以及领域文本语料;
第一训练单元,用于利用领域文本语料中的第一领域文本语料对初始化的自然语言处理模型进行训练,直至达到第一收敛条件,其中,第一领域文本语料中包含多个领域中采集到的文本语料,第一收敛条件指示自然语言处理模型对应的第一目标函数达到第一目标值;
第二训练单元,用于利用领域文本语料中的第二领域文本语料对达到第一收敛条件的自然语言处理模型进行训练,直至达到第二收敛条件,其中,第二领域文本语料中为目标领域下采集到的文本语料,第二收敛条件指示自然语言处理模型对应的第二目标函数达到第二目标值;
第三训练单元,用于利用任务文本语料对达到第二收敛条件的自然语言处理模型进行训练,直至达到第三收敛条件,其中,第三收敛条件指示自然语言处理模型对应的第三目标函数达到第三目标值;
第一确定单元,用于将达到第三收敛条件的自然语言处理模型,确定为实体识别模型。
可选地,第一获取单元包括:
第一采集模块,用于从多个领域的文本语料中采集到第一领域文本语料;
第二采集模块,用于从目标领域的文本语料中采集到第二领域文本语料;
第三构建模块,用于基于与实体识别任务相匹配的任务指令的指令类型,构建任务文本语料,其中,任务文本语料中包括任务指令,及与任务指令相匹配的任务标注数据。
可选地,上述第三构建模块还用于:确定与实体识别任务相匹配的任务指令的指令类型,其中,指令类型包括以下之一:问答指令、相似性判断指令、分类指令;基于与指令类型相匹配的指令表达逻辑,生成任务指令;获取与任务指令对应的任务回复文本,作为任务标注数据;基于任务指令与任务标注数据构建任务文本语料。
可选地,上述装置还包括:
第一更新单元,用于更新任务提示信息中的样本实体关系组,得到更新后的任务提示信息;
第一识别单元,用于基于更新后的任务提示信息,通过实体识别模型从目标文本中识别出更新后的对象实体及更新后的对象实体之间的更新关联关系;
第一生成单元,用于基于更新后的对象实体及更新关联关系生成更新后的知识图谱。
具体实施例可以参考上述知识图谱的生成方法中所示实例,本实施例在此不再赘述。
根据本申请实施例的又一个方面,还提供了一种用于实施上述知识图谱的生成方法的电子设备,该电子设备可以是图1所示的服务器。本实施例以该电子设备为服务器为例来说明。如图15所示,该电子设备包括存储器1502和处理器1504,该存储器1502中存储有计算机程序,该处理器1504被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取任务提示信息,其中,任务提示信息中包括实体识别任务的任务描述信息,以及将要执行实体识别任务的目标文本;
S2,通过基于自然语言处理模型所构建的实体识别模型,对目标文本进行实体识别,以得到目标文本中包含的对象实体及对象实体之间的关联关系,其中,实体识别模型是利用任务文本语料对初始化的自然语言处理模型进行训练得到的,任务文本语料中包括用于确定对象实体之间不同的关联关系的任务指令;
S3,基于从目标文本中识别出的对象实体及对象实体之间的关联关系,生成与目标文本匹配的知识图谱。
可选地,本领域普通技术人员可以理解,图15所示的结构仅为示意,电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图15其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图15中所示更多或者更少的组件(如网络接口等),或者具有与图15所示不同的配置。
其中,存储器1502可用于存储软件程序以及模块,如本申请实施例中的知识图谱的生成方法和装置对应的程序指令/模块,处理器1504通过运行存储在存储器1502内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的知识图谱的生成方法。存储器1502可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1502可进一步包括相对于处理器1504远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1502具体可以但不限于用于存储目标文本等信息。作为一种示例,如图15所示,上述存储器1502中可以但不限于包括上述知识图谱的生成装置中的获取单元1402、识别单元1404、生成单元1406。此外,还可以包括但不限于上述知识图谱的生成装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1506用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1506包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1506为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器1508;和连接总线1510,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序/指令,该计算机程序/指令包含用于执行上述方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时,执行本申请实施例提供的各种功能。
根据本申请的一个方面,提供了一种计算机可读存储介质,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述知识图谱的生成方法。
可选地,在本实施例中,上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取任务提示信息,其中,任务提示信息中包括实体识别任务的任务描述信息,以及将要执行实体识别任务的目标文本;
S2,通过基于自然语言处理模型所构建的实体识别模型,对目标文本进行实体识别,以得到目标文本中包含的对象实体及对象实体之间的关联关系,其中,实体识别模型是利用任务文本语料对初始化的自然语言处理模型进行训练得到的,任务文本语料中包括用于确定对象实体之间不同的关联关系的任务指令;
S3,基于从目标文本中识别出的对象实体及对象实体之间的关联关系,生成与目标文本匹配的知识图谱。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (13)
1.一种知识图谱的生成方法,其特征在于,包括:
获取任务提示信息,其中,所述任务提示信息中包括实体识别任务的任务描述信息,以及将要执行所述实体识别任务的目标文本;
通过基于自然语言处理模型所构建的实体识别模型,对所述目标文本进行实体识别,以得到所述目标文本中包含的对象实体及所述对象实体之间的关联关系,其中,所述实体识别模型是利用任务文本语料对初始化的所述自然语言处理模型进行训练得到的,所述任务文本语料中包括用于确定对象实体之间不同的关联关系的任务指令;
基于从所述目标文本中识别出的所述对象实体及所述对象实体之间的关联关系,生成与所述目标文本匹配的知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述通过基于自然语言处理模型所构建的实体识别模型,对所述目标文本进行实体识别,以得到所述目标文本中包含的对象实体及所述对象实体之间的关联关系包括:
在所述实体识别模型中识别出所述目标文本中所包含的所述对象实体;
在识别出的所述对象实体的数量大于等于2的情况下,在所述实体识别模型中识别出所述对象实体之间的所述关联关系;
基于识别出的所述对象实体及所述关联关系,构建实体关系三元组,得到与所述目标文本相匹配的实体关系集;
将所述实体关系集作为所述实体识别模型的输出结果。
3.根据权利要求2所述的方法,其特征在于,所述基于从所述目标文本中识别出的所述对象实体及所述对象实体之间的关联关系,生成与所述目标文本匹配的知识图谱包括:
为识别出的所述对象实体创建各自对应的图谱节点;
将识别出的所述对象实体依次作为当前对象实体,并对所述当前对象实体执行以下操作:
从所述实体关系集中确定出包含所述当前对象实体的N个实体关系三元组,其中,所述N为大于等于1的正整数;
按照所述N个实体关系三元组各自所指示的所述关联关系,连接所述当前对象实体对应的图谱节点和与所述当前对象实体具有所述关联关系的候选对象实体对应的候选图谱节点;
在所述当前对象实体并非识别出的所述对象实体中的最后一个对象实体的情况下,获取下一个对象实体作为所述当前对象实体;
在所述当前对象实体为识别出的所述对象实体中的最后一个对象实体的情况下,确定生成与所述目标文本匹配的所述知识图谱。
4.根据权利要求3所述的方法,其特征在于,所述按照所述N个实体关系三元组各自所指示的关联关系,连接所述当前对象实体对应的图谱节点和与所述当前对象实体具有所述关联关系的候选对象实体所对应的候选图谱节点包括:
将所述N个实体关系三元组中的每个实体关系三元组依次作为当前实体关系三元组,并执行以下操作;
在所述当前对象实体对应的当前图谱节点与所述候选对象实体对应的所述候选图谱节点之间尚未被添加关系连线的情况下,在所述当前图谱节点与所述候选图谱节点之间添加所述关系连线,并在所述关系连线上标记出所述当前实体关系三元组中包含的当前关系表征文本,其中,所述当前关系表征文本用于表示所述当前对象实体与所述候选对象实体之间的当前关联关系;
在所述当前对象实体对应的当前图谱节点与所述候选对象实体对应的所述候选图谱节点之间已被添加关系连线的情况下,从所述N个实体关系三元组中获取下一个实体关系三元组作为所述当前实体关系三元组。
5.根据权利要求3所述的方法,其特征在于,在连接所述当前对象实体对应的图谱节点和与所述当前对象实体具有所述关联关系的候选对象实体对应的候选图谱节点时,还包括:
确定所述当前对象实体与所述候选对象之间的关系指向;
在关系连线上标记出与所述关系指向相匹配的指向箭头。
6.根据权利要求2所述的方法,其特征在于,在所述获取任务提示信息之前,还包括:
获取用于训练所述自然语言处理模型的训练文本语料,其中,所述训练文本语料包括所述任务文本语料以及领域文本语料;
利用所述领域文本语料中的第一领域文本语料对初始化的所述自然语言处理模型进行训练,直至达到第一收敛条件,其中,所述第一领域文本语料中包含多个领域中采集到的文本语料,所述第一收敛条件指示所述自然语言处理模型对应的第一目标函数达到第一目标值;
利用所述领域文本语料中的第二领域文本语料对达到所述第一收敛条件的所述自然语言处理模型进行训练,直至达到第二收敛条件,其中,所述第二领域文本语料中为目标领域下采集到的文本语料,所述第二收敛条件指示所述自然语言处理模型对应的第二目标函数达到第二目标值;
利用所述任务文本语料对达到所述第二收敛条件的所述自然语言处理模型进行训练,直至达到第三收敛条件,其中,所述第三收敛条件指示所述自然语言处理模型对应的第三目标函数达到第三目标值;
将达到所述第三收敛条件的所述自然语言处理模型,确定为所述实体识别模型。
7.根据权利要求6所述的方法,其特征在于,所述获取用于训练所述自然语言处理模型的训练文本语料包括:
从所述多个领域的文本语料中采集到所述第一领域文本语料;
从所述目标领域的文本语料中采集到所述第二领域文本语料;
基于与所述实体识别任务相匹配的任务指令的指令类型,构建所述任务文本语料,其中,所述任务文本语料中包括所述任务指令,及
与所述任务指令相匹配的任务标注数据。
8.根据权利要求7所述的方法,其特征在于,所述基于与所述实体识别任务相匹配的任务指令的指令类型,构建所述任务文本语料包括:
确定与所述实体识别任务相匹配的任务指令的指令类型,其中,所述指令类型包括以下之一:问答指令、相似性判断指令、分类指令;
基于与所述指令类型相匹配的指令表达逻辑,生成所述任务指令;
获取与所述任务指令对应的任务回复文本,作为所述任务标注数据;
基于所述任务指令与所述任务标注数据构建所述任务文本语料。
9.根据权利要求1至8中任一项所述的方法,其特征在于,在所述任务提示信息中还包括至少一个样本实体关系组的情况下,在所述基于从所述目标文本中识别出的所述对象实体及所述对象实体之间的关联关系,生成与所述目标文本匹配的知识图谱之后,还包括:
更新所述任务提示信息中的样本实体关系组,得到更新后的任务提示信息;
基于所述更新后的任务提示信息,通过所述实体识别模型从所述目标文本中识别出更新后的对象实体及所述更新后的对象实体之间的更新关联关系;
基于所述更新后的对象实体及所述更新关联关系生成更新后的知识图谱。
10.一种知识图谱的生成装置,其特征在于,包括:
获取单元,用于获取任务提示信息,其中,所述任务提示信息中包括实体识别任务的任务描述信息,以及将要执行所述实体识别任务的目标文本;
识别单元,用于通过基于自然语言处理模型所构建的实体识别模型,对所述目标文本进行实体识别,以得到所述目标文本中包含的对象实体及所述对象实体之间的关联关系,其中,所述实体识别模型是利用任务文本语料对初始化的所述自然语言处理模型进行训练得到的,所述任务文本语料中包括用于确定对象实体之间不同的关联关系的任务指令;
生成单元,用于基于从所述目标文本中识别出的所述对象实体及所述对象实体之间的关联关系,生成与所述目标文本匹配的知识图谱。
11.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序被处理器运行时执行所述权利要求1至9任一项中所述的方法。
12.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至9任一项所述方法的步骤。
13.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至9任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310803471.5A CN116955646A (zh) | 2023-06-30 | 2023-06-30 | 知识图谱的生成方法和装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310803471.5A CN116955646A (zh) | 2023-06-30 | 2023-06-30 | 知识图谱的生成方法和装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116955646A true CN116955646A (zh) | 2023-10-27 |
Family
ID=88448477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310803471.5A Pending CN116955646A (zh) | 2023-06-30 | 2023-06-30 | 知识图谱的生成方法和装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116955646A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117436441A (zh) * | 2023-12-14 | 2024-01-23 | 浙江口碑网络技术有限公司 | 基于大语言模型的文本结构识别方法 |
-
2023
- 2023-06-30 CN CN202310803471.5A patent/CN116955646A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117436441A (zh) * | 2023-12-14 | 2024-01-23 | 浙江口碑网络技术有限公司 | 基于大语言模型的文本结构识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200301954A1 (en) | Reply information obtaining method and apparatus | |
US11507748B2 (en) | Method and apparatus for outputting information | |
CN107346336B (zh) | 基于人工智能的信息处理方法和装置 | |
US20180365209A1 (en) | Artificial intelligence based method and apparatus for segmenting sentence | |
US11636936B2 (en) | Method and apparatus for verifying medical fact | |
CN110298029B (zh) | 基于用户语料的好友推荐方法、装置、设备及介质 | |
CN110263916B (zh) | 数据处理方法和装置、存储介质及电子装置 | |
US11030405B2 (en) | Method and device for generating statement | |
CN108304376B (zh) | 文本向量的确定方法、装置、存储介质及电子装置 | |
CN113761220A (zh) | 信息获取方法、装置、设备及存储介质 | |
CN116955646A (zh) | 知识图谱的生成方法和装置、存储介质及电子设备 | |
US11036996B2 (en) | Method and apparatus for determining (raw) video materials for news | |
CN111368552B (zh) | 一种面向特定领域的网络用户群组划分方法及装置 | |
WO2021077834A1 (zh) | 一种基于对话系统对用户问句提出反问的方法和装置 | |
CN113821587A (zh) | 文本相关性确定方法、模型训练方法、装置及存储介质 | |
CN111931503A (zh) | 信息抽取方法及装置、设备、计算机可读存储介质 | |
CN116821301A (zh) | 基于知识图谱的问题应答方法、装置、介质及计算机设备 | |
CN113836284A (zh) | 知识库构建、生成应答语句的方法和装置 | |
CN117851835B (zh) | 一种深度学习的物联网识别系统及方法 | |
RISQULLAH et al. | PRODUCT RECOMMENDATION SYSTEM DESIGN USING GRAPH DATABASE | |
CN108038230B (zh) | 基于人工智能的信息生成方法和装置 | |
CN117273167A (zh) | 医疗模型的训练方法、医疗方法、装置、设备及存储介质 | |
CN118136211A (zh) | 数据推荐方法及装置 | |
CN117171309A (zh) | 针对医学问询提供应答信息的方法、设备和介质 | |
Sabah et al. | Social Media Data Analytics Using Deep Learning for Business Intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |