CN116860987A - 基于生成式大语言模型的领域知识图谱构建方法和系统 - Google Patents
基于生成式大语言模型的领域知识图谱构建方法和系统 Download PDFInfo
- Publication number
- CN116860987A CN116860987A CN202310701347.8A CN202310701347A CN116860987A CN 116860987 A CN116860987 A CN 116860987A CN 202310701347 A CN202310701347 A CN 202310701347A CN 116860987 A CN116860987 A CN 116860987A
- Authority
- CN
- China
- Prior art keywords
- language model
- entity
- domain knowledge
- knowledge graph
- large language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 12
- 238000013500 data storage Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 7
- 238000004519 manufacturing process Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 19
- 239000000284 extract Substances 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 210000000544 articulatio talocruralis Anatomy 0.000 description 4
- 210000003141 lower extremity Anatomy 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 210000003423 ankle Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种基于生成式大语言模型的领域知识图谱构建方法、系统、设备和存储介质,包括:步骤S1:构建生成式大语言模型,生成式大语言模型通过大语言模型训练模块预训练生成步骤;S2:分析该领域知识图谱的使用需求,构建领域知识图谱的三元组模板;步骤S3:预先对领域知识进行理解,并基于领域知识,收集待生成领域知识图谱的实体信息,并生成实体清单;步骤S4:将模板作为生成式大语言模型的提示信息,并与实体清单一起输入生成式大语言模型,以获得实体清单上每个实体基于模板的知识描述信息;步骤S5:导出知识描述信息进行存储,并生成领域知识图谱。本申请实施例能够有效地解决知识提取难的问题,从而降低领域知识图谱的创建难度门槛。
Description
技术领域
本申请涉及互联网技术领域,具体而言,本申请涉及一种基于生成式大语言模型的领域知识图谱构建方法、系统、电子设备和存储介质。
背景技术
知识图谱是信息的结构化表示,允许以人类可读和机器可读的方式表示实体及其属性之间的复杂关系。这使得它非常适合表示大量的知识,并支持对这些知识的有效查询和分析。由于开放的知识图谱融合了多领域多学科的知识,尽管这样的知识图谱具有通识性,但专业领域的应用上,知识深度远远不够。基于此,各行业都在积极探索在垂直领域上构建领域知识图谱。
以往,构建一个知识图谱的基本步骤包括知识抽取、知识表示、知识融合等。在这过程中,知识抽取是从海量的数据中提取有用的知识;知识表示将实体、属性和关系等信息通过可视化的方式表示出来,以便于在图谱中进行存储、查询和分析。知识融合则是将不同领域、不同来源的知识进行整合和融合,以形成更加完整、准确的知识图谱;由此看来,知识图谱的构建是一个复杂的数据处理过程。因此,要想构造一个完整可用的领域知识图谱需要从海量行业数据中提取有用的知识。然而,对海量行业数据做知识抽取是一项费时费力的艰巨任务。因此,如何简化知识抽取任务的工作量,成为了业界亟待解决的技术瓶颈。
其中,一种解决方案是通过对部分语料进行人工标注,利用深度学习算法对标注过的语料进行有监督训练以生成实体关系抽取模型,从而对剩余语料进行命名实体识别、关系属性提取。然而,为了强化模型的预测效果,势必要尽可能多的对语料进行标注,以覆盖各种命名实体识别的样例,这样就导致人工标注的任务依然繁重。此外,对于人工标注,还需要通过冗余标注的方式进行互相监督,从而降低人工标注的错误率。这就导致原本需要标注的语料数据量翻倍,给知识图谱生成提高了人工成本。
发明内容
有鉴于此,本申请各实施例提出了一种基于生成式大语言模型的领域知识图谱构建方法、系统、电子设备和存储介质,利用生成式大语言模型对领域知识图谱的三元组提示信息进行学习,从而基于预先对百科语料数据的学习,以自动领会基于该领域知识图谱构建所需的三元组表达式的提示信息,从而能快捷生成该领域三元组信息,以避免繁重的人工标注工作。技术方案如下:
根据本申请实施例的一个方面,基于生成式大语言模型的领域知识图谱构建方法,包括:步骤S1:构建生成式大语言模型,生成式大语言模型通过大语言模型训练模块预训练生成;步骤S2:分析领域知识图谱的使用需求,构建领域知识图谱的三元组模板;步骤S3:预先对领域知识进行理解,并基于领域知识,收集待生成领域知识图谱的实体信息,并生成实体清单;步骤S4:将模板作为生成式大语言模型的提示信息,并与实体清单一起输入生成式大语言模型,以获得实体清单上每个实体基于模板的知识描述信息;步骤S5:导出知识描述信息进行存储,并生成领域知识图谱。
在一示例性实施方式中,三元组模板包括实体关系类三元组模板和实体属性类三元组模板;分析领域知识图谱的应用场景,将实体清单中的实体按照待生成实体关系类三元组和待生成实体属性类三元组进行分类,并对应适用所属类别的三元组模板作为提示信息。
在一示例性实施方式中,知识描述信息包括:实体描述信息、关系描述信息和属性描述信息。
在一示例性实施方式中,导出知识描述信息进行存储,具体包括:步骤51:将导出的知识描述信息存储在中间数据存储模块;步骤52:从中间数据存储模块中提取实体清单中每个实体的实体关系或实体属性的三元组信息;步骤53:将三元组信息及对应的描述信息以结构化方式存入图数据库。在一示例性实施方式中,基于存入图数据库的三元组信息生成领域知识图谱。
在一示例性实施方式中,生成式大语言模型的构建方法,具体包括:步骤11:收集领域知识作为语料库;步骤12:对语料库的数据进行预处理,预处理包括对数据进行分词、去除无效数据、标点符号;步骤13:对分词进行编码,并构建基于编码的分词表;步骤14:选用Transformer模型构建生成式大语言模型的初始模型;步骤15:使用经过编码的语料对生成式大语言模型进行训练并调优,以获得生成式大语言模型。
在一示例性实施方式中,生成式大语言模型为GPT模型。
根据本申请实施例的另一个方面,提供了一种基于生成式大语言模型的领域知识图谱构建系统,包括:大语言模型生成模块,三元组模板构建模块、实体信息收集模块、知识描述信息生成模块和知识图谱构建模块;大语言模型生成模块,用于利用测试语料对候选生成式大语言模型进行测试和调参,以获得具有领域知识的生成式大语言模型。三元组模板构建模块,用于分析知识图谱的使用需求,构建领域知识图谱的三元组模板;实体信息收集模块,用于预先对领域知识进行理解,并基于领域知识,收集待生成领域知识图谱的实体信息,并生成实体清单;知识描述信息生成模块,用于将模板作为生成式大语言模型的提示信息,并与实体清单一起输入生成式大语言模型,以获得实体清单上每个实体基于模板的知识描述信息;知识图谱构建模块,用于导出知识描述信息进行存储,并生成领域知识图谱。
在一示例性实施方式中,还包括:三元组模板包括实体关系类三元组模板和实体属性类三元组模板;三元组模板构建模块,还用于分析领域知识图谱的应用场景,将实体清单中的实体按照待生成实体关系类三元组和待生成实体属性类三元组进行分类,并对应适用所属类别的三元组模板作为提示信息。
在一示例性实施方式中,知识图谱构建模块,还用于将导出的知识描述信息存储在中间数据存储模块;从中间数据存储模块中提取实体清单中每个实体的实体关系或实体属性的三元组信息;将三元组信息及对应的描述信息以结构化方式存入图数据库,并基于存入图数据库的三元组信息生成领域知识图谱。
在一示例性实施方式中,大语言模型生成模块,还用于收集领域知识作为语料库;对语料库的数据进行预处理,预处理包括对数据进行分词、去除无效数据、标点符号;对分词进行编码,并构建基于编码的分词表;选用Transformer模型构建生成式大语言模型的初始模型;使用经过编码的语料对生成式大语言模型进行训练并调优,以获得生成式大语言模型。
在一示例性实施方式中,生成式大语言模型为GPT模型。
根据本申请实施例的另一个方面,提供了一种电子设备,包括:至少一个处理器、至少一个存储器、以及至少一条通信总线,其中,该存储器上存储有计算机程序,该处理器通过该通信总线读取该存储器中的该计算机程序;该计算机程序被该处理器运行时实现上述基于生成式大语言模型的领域知识图谱构建方法。
根据本申请实施例的另一个方面,提供了一种存储介质,其上存储有计算机程序,计算机程序被计算机的处理器运行时实现上述基于生成式大语言模型的领域知识图谱构建方法。
本申请提供的技术方案带来的有益效果是:
1、利用生成式大语言模型自动并且大规模生成该领域知识图谱的三元组信息,从而避免了人工手段对待生成的该领域知识图谱的数据进行标注或提取。
2、利用生成式大语言模型学习领域知识,不仅可以生成知识图谱的三元组信息,还可以生成三元组信息的实体描述,从而填充到该领域知识图谱中,以提高该领域知识图谱的可解释性和可用性;
3、选用经过百科语料作为训练集进行预训练后的生成式大语言模型作为基线模型,再利用该领域的语料进行领域迁移,可以提高该垂直领域下的三元组的完整性和准确性。
4、本申请采用的GPT模型提取实体关系时,能够依靠预训练时对语料的上下文信息学习,推断实体之间隐含关系,以克服现有技术仅能从文本中提取明确记载的实体间关系,而无法抽取隐含关系及隐含知识。
5、由于能够实现对隐含关系和隐含知识的抽取,从而极大补充了领域知识图谱的完整性,提高了该领域知识图谱对知识推理能力的底层支持。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1是本申请一示例性示出基于生成式大语言模型的领域知识图谱构建方法流程图;
图2是本申请一示例性示出的基于生成式大语言模型的领域知识图谱构建系统框架图;
图3是根据一示例性实施例示出的一种电子设备示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多相关联的列出项的全部或任一单元和全部组合。
所谓领域知识图谱,是指针对某一特定领域(如医疗、金融、法律等),收集该领域中的信息、知识和规则,并通过可视化的方式呈现出来,以帮助用户更好地理解和应用该领域的知识。正如前所述,要想构造一个可用的领域知识图谱需要从海量行业数据中提取有用的知识。其中,知识提取需要借助人工手段对语料进行标注;由于领域的专业性,对语料标注工作识别需要业内专业人士完成,才能确保标注结果准确。因此,知识抽取工作开展难度大,成为领域知识图谱的技术发展瓶颈。
为此,本申请的实施例提供了一种基于生成式大语言模型的领域知识图谱构建的方法,以重点解决该领域知识图谱构建过程中知识抽取难的问题。相应地,基于生成式大语言模型的领域知识图谱构建方法和基于该方法的系统也可部署于电子设备,该电子设备可以是配置冯诺依曼体系结构的计算机设备,例如,该计算机设备可以是台式电脑、笔记本电脑、服务器等;与此同时,基于生成式大语言模型的领域知识图谱构建的方法和系统还可以存储在存储介质内,该存储介质可以是硬盘、CD-ROM、云存储等。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
该基于生成式大语言模型的领域知识图谱构建方法部署于电子设备中,为了说明的方便,本实施例将以该电子设备为具有计算功能的云存储服务器为例进行介绍。
请参阅图1,本申请一示例性实施例提供的基于生成式大语言模型的领域知识图谱构建方法,包括以下步骤:
步骤S1:构建生成式大语言模型,该生成式大语言模型通过大语言模型训练模块预训练生成;其中,该生成式大语言模型为GPT模型。
所谓生成式语言模型(Generative Language Model)是一种自然语言处理模型,它可以根据历史数据来学习语言的结构和规律,再利用这些规律生成新的语言内容。现有的生成式语言模型包括BERT、GPT等。为了减少训练成本,本申请一示例性实施例通过大语言模型训练模块对生成式语言模型进行预训练,预训练采用的训练集为来自互联网的海量百科语料。一种可选的实施方式是选取GPT3.5版本及以上模型作为构建生成式大语言模型的基线模型。为了便于解释,本申请一示例性实施例,以GPT3.5模型为例继续进行说明。
由于GPT3.5模型经过海量百科语料的预训练,因此,在大多数领域适配上,自带了天然的先验知识。因此在垂直领域上应用时,仅需要少量的测试语料对模型进行测试和调优,既可获得理想的生成效果。由于只需要少量的测试语料,相比于现有技术实现三元组提取模型训练时的语料准备任务,其效果是能大幅度降低任务量,从而减少资源开销。因此,该生成式大语言模型的构建方法,具体步骤包括:
步骤11:收集领域知识作为语料库;
步骤12:对该语料库的数据进行预处理,该预处理包括对数据进行分词、去除无效数据、标点符号;
步骤13:对该分词进行编码,并构建基于该编码的分词表;
步骤14:选用Transformer模型构建该生成式大语言模型的初始模型;
步骤15:使用经过编码的语料对该生成式大语言模型进行训练并调优,以生成该生成式大语言模型。
步骤S2:分析该领域知识图谱的使用需求,构建该领域知识图谱的三元组模板。
具体的,知识图谱的三元组类型包括:【实体-关系-实体】、【实体-属性-值】等。在不同领域中,基于知识图谱的构建需求的差异性,需要采用不同的三元组类型来表示实体及其关系。例如,在医疗健康领域中,实体包括医疗机构、医生、患者、药品、疾病等;医生和患者之间可能存在诊断、治疗等关系,医生和医疗机构之间可能存在隶属关系等。因此,在医疗健康领域中,【实体-关系-实体】三元组是一种常见的表示实体及其关系的三元组类型。而在金融领域中,实体包括银行、证券、保险、投资等金融机构、产品和服务等;银行和证券之间可能存在资金融通的关系,银行和保险之间可能存在客户关系管理的关系等,则在金融领域中,【实体-属性-值】三元组是一种常见的表示实体及其关系的三元组类型。因此,在构建领域知识图谱之前,首先要基于该领域的应用场景,对该知识图谱的使用需求进行分析,从而确定可能需要构建的三元组的类型,并基于所确定的三元组类型,构建该领域知识图谱的三元组模板。该三元组模板将作为该生成式大语言模型的提示信息来引导该生成式大语言模型生成目标三元组信息。一种可能的实施方式是:该三元组模板的构建方法可以是三元组范例。例如:在医疗领域,要想对医疗检查项目“踝关节正侧位”做三元组提取,可以将模板构造成:
一级部位:下肢;
二级部位:踝关节;
检查方法:正侧位;
则在此后的三元组提取中,仅需要输入下一个实体,即下一个“一级部位”;该生成式大语言模型就可以依照该模板,自动生成该实体的三元组信息。
步骤S3:预先对该领域知识进行理解,并基于该领域知识,收集待生成该领域知识图谱的实体信息,并生成实体清单。
具体的,预先对该领域知识进行理解,并基于该领域知识,收集待生成该领域知识图谱的实体信息,并生成实体清单。具体步骤包括:
步骤31:收集该领域的业务数据,该领域业务数据包括文本类数据,例如:如果是法律领域,则重点收集法律条文及权威网站发布的判例和裁判文书;如果是医疗领域,则重点收集医疗机构的病患信息和诊疗、检查信息。
步骤32:分析构建该领域知识图谱应用场景,确定实体筛选维度;例如,对于医疗领域的知识图谱,其应用场景可能是疾病辅助诊断或者是药物辅助推荐,因此,在选择实体时,可以将疾病类实体、症状类实体、体征类实体、检查类实体、治疗手段类实体以及药物实体作为筛选维度。
步骤33:基于实体的筛选维度,对该领域业务数据进行语义理解,并提取待生成该领域知识图谱的实体信息,归集整理后生成实体清单。
另一种可能的实施方式是:这部分工作也可以基于现有的结构化数据库来实现;例如,有些系统从前端采集到业务数据,经过数据治理后,存储在结构化数据库中,这样就可以从结构化数据库中收集实体,构建实体清单。
此外,由于三元组模板包括实体关系类三元组模板和实体属性类三元组模板;因此,需要分析领域知识图谱的应用场景,将实体清单中的实体按照待生成实体关系类三元组和待生成实体属性类三元组进行分类,并对应适用所属类别的三元组模板作为提示信息。例如:对于体征类实体【下肢】,想要构建可以查询下肢的下一级体征的知识图谱节点,则应当将【下肢】归类到【实体-关系-实体】的三元组模板类型中,则当知识图谱节点建立完毕,则呈现的效果应该是【下肢->二级部位->踝关节】的有向节点。对于体征类实体【踝关节】,想要构建可以查询踝关节的检查方式的知识图谱节点,则应当将【踝关节】归类到【实体-属性-值】的三元组模板类型中,则当知识图谱节点建立完毕,则呈现的效果应该是【踝关节-检查方法-正侧位】的无向节点。
步骤S4:将该模板作为该生成式大语言模型的提示信息,并与该实体清单一起输入该生成式大语言模型,以获得该实体清单上每个实体基于该模板的知识描述信息。
具体的,根据实体清单适配的模板类型,将模板作为提示信息(Prompt)输入该生成式大语言模型,然后再依次输入该实体清单的命名实体,从而获得该实体清单上每个实体基于该模板的知识描述信息。基于使用的模板类型不同,该知识描述信息包括:实体描述信息、关系描述信息和属性描述信息。该知识描述信息的数据类型可以是包含三元组信息的文本描述(即类结构化数据),也可以是依照模板格式生成的三元组信息(结构化数据)。
步骤S5:导出该知识描述信息进行存储,并生成该领域知识图谱。
具体的,该知识描述信息的数据类型若是包含三元组信息的文本描述信息,则导出该知识描述信息进行存储,生成该领域知识图谱的具体步骤包括:
步骤51:将导出的该知识描述信息存储在中间数据存储模块;
步骤52:从该中间数据存储模块中提取该实体清单中每个实体的实体关系或实体属性的三元组信息;
步骤53:将该三元组信息及对应的描述信息以结构化方式存入图数据库;
步骤54:基于存入该图数据库的该三元组信息生成该领域知识图谱。
请参考图2,本申请一示例性实施例揭示的一种基于生成式大语言模型的领域知识图谱构建系统200,包括:大语言模型生成模块210、三元组模板构建模块220、实体信息收集模块230、知识描述信息生成模块240和知识图谱构建模块250。
其中,该大语言模型生成模块210,用于利用测试语料对候选生成式大语言模型进行测试和调参,以获得具有领域知识的生成式大语言模型260。具体而言,该大语言模型生成模块210,还用于收集领域知识作为语料库;对语料库的数据进行预处理,预处理包括对数据进行分词、去除无效数据、标点符号;对分词进行编码,并构建基于编码的分词表;选用Transformer模型构建生成式大语言模型的初始模型;使用经过编码的语料对生成式大语言模型进行训练并调优,以获得生成式大语言模型。一种可能的实施方式是生成式大语言模型选用GPT模型。
该三元组模板构建模块220,用于分析该领域知识图谱的使用需求,构建该领域知识图谱的三元组模板。一种可能的实施方式是:三元组模板包括实体关系类三元组模板和实体属性类三元组模板;三元组模板构建模块,还用于分析该领域知识图谱的应用场景,将实体清单中的实体按照待生成实体关系类三元组和待生成实体属性类三元组进行分类,并对应适用所属类别的三元组模板作为提示信息。
该实体信息收集模块230,用于预先对领域知识进行理解,并基于领域知识,收集待生成该领域知识图谱的实体信息,并生成实体清单。
该知识描述信息生成模块240,用于将模板作为生成式大语言模型的提示信息,并与实体清单一起输入生成式大语言模型,以获得实体清单上每个实体基于模板的知识描述信息。
该知识图谱构建模块250,用于导出知识描述信息进行存储,并生成领域知识图谱。具体而言,该知识图谱构建模块250还用于将导出的知识描述信息存储在中间数据存储模块;从中间数据存储模块中提取实体清单中每个实体的实体关系或实体属性的三元组信息;将三元组信息及对应的描述信息以结构化方式存入图数据库,并基于存入图数据库的三元组信息生成领域知识图谱。
综上该,本申请的实施例提供的技术方案带来的有益效果包括:利用生成式大语言模型自动生成该领域知识图谱的三元组信息,从而避免了人工手段对待生成领域知识图谱的数据进行标注或提取。利用生成式大语言模型学习领域知识,不仅可以生成该领域知识图谱的三元组信息,还可以生成三元组信息的实体描述,从而填充到该领域知识图谱中,以提高该领域知识图谱的可解释性和可用性;选用经过百科语料作为训练集进行预训练后的生成式大语言模型作为基线模型,在利用领域语料进行领域迁移,可以提高垂直领域下的三元组的完整性和准确性。此外,本申请采用的GPT模型提取实体关系时,能够依靠预训练时对语料的上下文信息学习,推断实体之间隐含关系,以克服现有技术仅能从文本中提取明确记载的实体间关系,而无法抽取隐含关系及隐含知识。由于能够实现对隐含关系和隐含知识的抽取,从而极大补充了领域知识图谱的完整性,提高了该领域知识图谱对知识推理能力的底层支持。
请参阅图3,本申请一示例性实施例中提供了一种电子设备4000,该电子设备400可以是:计算机、服务器、虚拟机等等。在图3中,该电子设备4000包括至少一个处理器4001、至少一条通信总线4002以及至少一个存储器4003。其中,处理器4001和存储器4003相连,如通过通信总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。该存储器4003上存储有计算机程序,该处理器4001通过该通信总线读取该存储器4003中的该计算机程序;该计算机程序被该处理器4001执行时实现上述基于生成式大语言模型的领域知识图谱构建方法。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
此外,本申请另一示例性中提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的基于生成式模型的领域知识图谱构建方法。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上该仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (14)
1.基于生成式大语言模型的领域知识图谱构建方法,其特征在于,包括:
步骤S1:构建生成式大语言模型,所述生成式大语言模型通过大语言模型训练模块预训练生成;
步骤S2:分析所述领域知识图谱的使用需求,构建所述领域知识图谱的三元组模板;
步骤S3:预先对所述领域知识进行理解,并基于所述领域知识,收集待生成所述领域知识图谱的实体信息,并生成实体清单;
步骤S4:将所述模板作为所述生成式大语言模型的提示信息,并与所述实体清单一起输入所述生成式大语言模型,以获得所述实体清单上每个实体基于所述模板的知识描述信息;
步骤S5:导出所述知识描述信息进行存储,并生成所述领域知识图谱。
2.如权利要求1所述的基于生成式大语言模型的领域知识图谱构建方法,其特征在于,所述三元组模板包括实体关系类三元组模板和实体属性类三元组模板;分析所述领域知识图谱的应用场景,将所述实体清单中的实体按照待生成实体关系类三元组和待生成实体属性类三元组进行分类,并对应适用所属类别的所述三元组模板作为提示信息。
3.权利要求1所述的基于生成式大语言模型的领域知识图谱构建方法,其特征在于,所述知识描述信息包括:实体描述信息、关系描述信息和属性描述信息。
4.如权利要求1所述的基于生成式大语言模型的领域知识图谱构建方法,其特征在于,所述导出所述知识描述信息进行存储,具体包括:
步骤51:将导出的所述知识描述信息存储在中间数据存储模块;
步骤52:从所述中间数据存储模块中提取所述实体清单中每个实体的实体关系或实体属性的三元组信息;
步骤53:将所述三元组信息及对应的描述信息以结构化方式存入图数据库。
5.如权利要求4所述的基于生成式大语言模型的领域知识图谱构建方法,其特征在于:基于存入所述图数据库的所述三元组信息生成所述领域知识图谱。
6.如权利要求1所述的基于生成式大语言模型的领域知识图谱构建方法,其特征在于,所述生成式大语言模型的构建方法,具体包括:
步骤11:收集领域知识作为语料库;
步骤12:对所述语料库的数据进行预处理,所述预处理包括对数据进行分词、去除无效数据、标点符号;
步骤13:对所述分词进行编码,并构建基于所述编码的分词表;
步骤14:选用Transformer模型构建所述生成式大语言模型的初始模型;
步骤15:使用经过编码的语料对所述生成式大语言模型进行训练并调优,以生成所述生成式大语言模型。
7.如权利要求1所述的基于生成式大语言模型的领域知识图谱构建方法,其特征在于,所述生成式大语言模型为GPT模型。
8.一种基于生成式大语言模型的领域知识图谱构建系统,其特征在于,包括:大语言模型生成模块,三元组模板构建模块、实体信息收集模块、知识描述信息生成模块和知识图谱构建模块;
所述大语言模型生成模块,用于利用测试语料对所述候选生成式大语言模型进行测试和调参,以获得具有领域知识的生成式大语言模型。
所述三元组模板构建模块,用于分析所述领域知识图谱的使用需求,构建所述领域知识图谱的三元组模板;
所述实体信息收集模块,用于预先对所述领域知识进行理解,并基于所述领域知识,收集待生成所述领域知识图谱的实体信息,并生成实体清单;
所述知识描述信息生成模块,用于将所述模板作为所述生成式大语言模型的提示信息,并与所述实体清单一起输入所述生成式大语言模型,以获得所述实体清单上每个实体基于所述模板的知识描述信息;
所述知识图谱构建模块,用于导出所述知识描述信息进行存储,并生成所述领域知识图谱。
9.如权利要求8所述的基于生成式大语言模型的领域知识图谱构建系统,其特征在于,还包括:所述三元组模板包括实体关系类三元组模板和实体属性类三元组模板;所述三元组模板构建模块,还用于分析所述领域知识图谱的应用场景,将所述实体清单中的实体按照待生成实体关系类三元组和待生成实体属性类三元组进行分类,并对应适用所属类别的所述三元组模板作为提示信息。
10.如权利要求8所述的基于生成式大语言模型的领域知识图谱构建系统,其特征在于,所述知识图谱构建模块,还用于将导出的所述知识描述信息存储在中间数据存储模块;从所述中间数据存储模块中提取所述实体清单中每个实体的实体关系或实体属性的三元组信息;将所述三元组信息及对应的描述信息以结构化方式存入图数据库,并基于存入所述图数据库的所述三元组信息生成所述领域知识图谱。
11.如权利要求8所述的基于生成式大语言模型的领域知识图谱构建系统,其特征在于,所述大语言模型生成模块,还用于收集领域知识作为语料库;对所述语料库的数据进行预处理,所述预处理包括对数据进行分词、去除无效数据、标点符号;对所述分词进行编码,并构建基于所述编码的分词表;选用Transformer模型构建所述生成式大语言模型的初始模型;使用经过编码的语料对所述生成式大语言模型进行训练并调优,以生成所述生成式大语言模型。
12.如权利要求8所述的基于生成式大语言模型的领域知识图谱构建系统,其特征在于,所述生成式大语言模型为GPT模型。
13.一种电子设备,其特征在于,包括:至少一个处理器、至少一个存储器、以及至少一条通信总线,其中,所述存储器上存储有计算机程序,所述处理器通过所述通信总线读取所述存储器中的所述计算机程序;所述计算机程序被所述处理器执行时实现如权利要求1至7任一项所述的基于生成式大语言模型的领域知识图谱构建方法。
14.一种存储介质,其特征在于,包括:其上存储有计算机程序,计算机程序被计算机处理器执行时实现如权利要求1至7任一项所述的基于生成式大语言模型的领域知识图谱构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310701347.8A CN116860987A (zh) | 2023-06-13 | 2023-06-13 | 基于生成式大语言模型的领域知识图谱构建方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310701347.8A CN116860987A (zh) | 2023-06-13 | 2023-06-13 | 基于生成式大语言模型的领域知识图谱构建方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116860987A true CN116860987A (zh) | 2023-10-10 |
Family
ID=88227681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310701347.8A Pending CN116860987A (zh) | 2023-06-13 | 2023-06-13 | 基于生成式大语言模型的领域知识图谱构建方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116860987A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117094395A (zh) * | 2023-10-19 | 2023-11-21 | 腾讯科技(深圳)有限公司 | 对知识图谱进行补全的方法、装置和计算机存储介质 |
CN117391192A (zh) * | 2023-12-08 | 2024-01-12 | 杭州悦数科技有限公司 | 基于图数据库的利用llm从pdf构建知识图谱的方法及装置 |
CN117421415A (zh) * | 2023-12-18 | 2024-01-19 | 北京海纳数聚科技有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN117436441A (zh) * | 2023-12-14 | 2024-01-23 | 浙江口碑网络技术有限公司 | 基于大语言模型的文本结构识别方法 |
CN117556054A (zh) * | 2023-11-14 | 2024-02-13 | 哈尔滨工业大学 | 一种基于大型语言模型的知识图谱构建方法与管理系统 |
CN118014072A (zh) * | 2024-04-10 | 2024-05-10 | 中国电建集团昆明勘测设计研究院有限公司 | 水利水电工程用知识图谱的构建方法及系统 |
-
2023
- 2023-06-13 CN CN202310701347.8A patent/CN116860987A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117094395A (zh) * | 2023-10-19 | 2023-11-21 | 腾讯科技(深圳)有限公司 | 对知识图谱进行补全的方法、装置和计算机存储介质 |
CN117094395B (zh) * | 2023-10-19 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 对知识图谱进行补全的方法、装置和计算机存储介质 |
CN117556054A (zh) * | 2023-11-14 | 2024-02-13 | 哈尔滨工业大学 | 一种基于大型语言模型的知识图谱构建方法与管理系统 |
CN117391192A (zh) * | 2023-12-08 | 2024-01-12 | 杭州悦数科技有限公司 | 基于图数据库的利用llm从pdf构建知识图谱的方法及装置 |
CN117391192B (zh) * | 2023-12-08 | 2024-03-15 | 杭州悦数科技有限公司 | 基于图数据库的利用llm从pdf构建知识图谱的方法及装置 |
CN117436441A (zh) * | 2023-12-14 | 2024-01-23 | 浙江口碑网络技术有限公司 | 基于大语言模型的文本结构识别方法 |
CN117421415A (zh) * | 2023-12-18 | 2024-01-19 | 北京海纳数聚科技有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN118014072A (zh) * | 2024-04-10 | 2024-05-10 | 中国电建集团昆明勘测设计研究院有限公司 | 水利水电工程用知识图谱的构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
García-Peñalvo | Developing robust state-of-the-art reports: Systematic Literature Reviews | |
CN116860987A (zh) | 基于生成式大语言模型的领域知识图谱构建方法和系统 | |
Arora et al. | Automated extraction and clustering of requirements glossary terms | |
EP3522078A1 (en) | Explainable artificial intelligence | |
Ding et al. | Knowledge-based approaches in software documentation: A systematic literature review | |
CN106776711A (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
Landhäußer et al. | From requirements to UML models and back: how automatic processing of text can support requirements engineering | |
CN112542223A (zh) | 一种从中文电子病历构建医疗知识图谱的半监督学习方法 | |
Khusro et al. | On methods and tools of table detection, extraction and annotation in PDF documents | |
CN106682411A (zh) | 一种将体检诊断数据转化为疾病标签的方法 | |
CN112149414A (zh) | 文本相似度确定方法、装置、设备及存储介质 | |
CN110750540A (zh) | 构建医疗业务知识库的方法、获得医疗业务语义模型的方法及系统、介质 | |
Chen et al. | Automatically detecting the scopes of source code comments | |
Dalpiaz et al. | Conceptualizing requirements using user stories and use cases: a controlled experiment | |
CN115687647A (zh) | 公证文书生成方法、装置、电子设备及存储介质 | |
Jian et al. | An end-to-end algorithm for solving circuit problems | |
US9881004B2 (en) | Gender and name translation from a first to a second language | |
CN113343680A (zh) | 一种基于多类型病历文本的结构化信息提取方法 | |
CN117577254A (zh) | 医疗领域语言模型构建及电子病历文本结构化方法、系统 | |
Chen et al. | Leveraging deep learning for automatic literature screening in intelligent bibliometrics | |
CN111724873B (zh) | 一种数据处理方法及装置 | |
Wang et al. | Detecting coreferent entities in natural language requirements | |
Iyengar et al. | Big data analytics in healthcare using spreadsheets | |
Fawei et al. | An Adaptable Ontology for Easy and Efficient University Data Management in Niger Delta University | |
CN117852637B (zh) | 一种基于定义的学科概念知识体系自动构建方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |