CN116881471A - 一种基于知识图谱的大语言模型微调方法及装置 - Google Patents
一种基于知识图谱的大语言模型微调方法及装置 Download PDFInfo
- Publication number
- CN116881471A CN116881471A CN202310831021.7A CN202310831021A CN116881471A CN 116881471 A CN116881471 A CN 116881471A CN 202310831021 A CN202310831021 A CN 202310831021A CN 116881471 A CN116881471 A CN 116881471A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- entity
- text
- text data
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012512 characterization method Methods 0.000 claims abstract description 40
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000004590 computer program Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于知识图谱的大语言模型微调方法及装置,方法包括:获取第一文本数据、知识图谱数据以及大语言模型;对第一文本数据进行实体抽取,得到文本实体集合;将文本实体集合中的多个实体在知识图谱中进行匹配,根据匹配结果确定知识图谱的知识子图;使用第一编码器对第一文本数据对应的词语序列进行编码,得到文本表征序列;使用第二编码器对知识子图中的实体进行编码,得到实体表征序列;根据文本表征序列和实体表征序列之间的相似度匹配结果,从知识子图中确定若干目标知识点;将若干目标知识点转化为文本,添加到第一文本数据中,得到增强的第二文本数据;使用第二文本数据对大语言模型进行微调,得到微调后的大语言模型。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于知识图谱的大语言模型微调方法及装置。
背景技术
大语言模型是一种具有极高参数数量的自然语言处理模型。与传统的基于统计方法的语言模型相比,大语言模型通过深度学习技术,可以学习到更加复杂的语言模式和结构,从而在自然语言处理领域取得了非常显著的成果。
大语言模型有许多种,其中最著名的是OpenAI的GPT(Generative Pre-trainedTransformer)系列和谷歌的BERT(Bidirectional Encoder Representations fromTransformers)系列。这些模型都是基于深度神经网络的,具有数十亿甚至上百亿个参数,可以处理大量的自然语言文本,并且在预测文本中缺失的部分、生成文本等任务上表现出色。
对大语言模型的微调(fine-tuning),是指在已经训练好的大语言模型上进一步进行少量的有监督学习,以适应特定的自然语言处理任务。目前微调的方式往往只使用文本数据,然而,这些文本数据存在来源杂乱、可信度差、噪声较多的情况,如果直接使用这类文本数据对大语言模型进行微调,效果会不尽如人意。
发明内容
本说明书一个或多个实施例描述了一种基于知识图谱的大语言模型微调方法及装置,基于知识图谱中包含的置信度较高、噪声少的可靠的知识对微调大语言模型的文本数据进行增强,从而得到更好的微调的效果。
第一方面,提供了一种基于知识图谱的大语言模型微调方法,包括:
获取第一文本数据、知识图谱数据以及大语言模型;
对所述第一文本数据进行实体抽取,得到文本实体集合;
将所述文本实体集合中的多个实体在所述知识图谱中进行匹配,根据匹配结果确定所述知识图谱的知识子图;
使用第一编码器对所述第一文本数据对应的词语序列进行编码,得到文本表征序列;
使用第二编码器对所述知识子图中的实体进行编码,得到实体表征序列;
根据所述文本表征序列和实体表征序列之间的相似度匹配结果,从所述知识子图中确定若干目标知识点,所述目标知识点包括所述第一文本数据中不具有的新增实体或新增关系;
将所述若干目标知识点转化为文本,添加到所述第一文本数据中,得到增强的第二文本数据;
使用所述第二文本数据对所述大语言模型进行微调,得到微调后的大语言模型。
在一种可能的实施方式中,将所述文本实体集合中的多个实体在所述知识图谱中进行匹配,根据匹配结果确定所述知识图谱的知识子图,包括:
对于所述文本实体集合中的任一目标实体,如果所述知识图谱中包含所述目标实体,则将所述知识图谱中包含所述目标实体的多个知识点添加到所述知识子图中,其中,所述知识点由两个实体以及它们之间的关系组成。
在一种可能的实施方式中,所述第一文本数据对应的词语序列通过以下方法确定:
对所述第一文本数据进行分词处理,得到所述词语序列。
在一种可能的实施方式中,所述第一编码器为双向编码的Transformer模型的编码器。
在一种可能的实施方式中,使用第二编码器对所述知识子图中的实体进行编码,包括:将所述知识子图中的关系路径作为提示,输入BERT模型,得到所述实体表征序列。
在一种可能的实施方式中,所述第一编码器和第二编码器经过联合预训练,使得其编码结果位于相同的表征空间中。
在一种可能的实施方式中,从所述知识子图中确定若干目标知识点,包括:
对所述文本表征序列中的第一文本表征,从所述实体表征序列中确定与其相似度大于第一阈值的第一实体表征;
根据所述第一实体表征在所述知识子图中确定对应的第一实体;
从所述知识子图中确定第一知识点归入所述目标知识点,所述第一知识点由第一实体,第二实体及其间的第一关系构成,所述第二实体或第一关系没有包含在所述第一文本数据中。
在一种可能的实施方式中,所述文本表征与实体表征之间的相似度由余弦相似度确定。
第二方面,提供了一种基于知识图谱的大语言模型微调装置,包括:
获取单元,配置为,获取第一文本数据、知识图谱数据以及大语言模型;
实体抽取单元,配置为,对所述第一文本数据进行实体抽取,得到文本实体集合;
匹配单元,配置为,将所述文本实体集合中的多个实体在所述知识图谱中进行匹配,根据匹配结果确定所述知识图谱的知识子图;
第一编码单元,配置为,使用第一编码器对所述第一文本数据对应的词语序列进行编码,得到文本表征序列;
第二编码单元,配置为,使用第二编码器对所述知识子图中的实体进行编码,得到实体表征序列;
确定单元,配置为,根据所述文本表征序列和实体表征序列之间的相似度匹配结果,从所述知识子图中确定若干目标知识点,所述目标知识点包括所述第一文本数据中不具有的新增实体或新增关系;
文本增强单元,配置为,将所述若干目标知识点转化为文本,添加到所述第一文本数据中,得到增强的第二文本数据;
微调单元,配置为,使用所述第二文本数据对所述大语言模型进行微调,得到微调后的大语言模型。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
本发明提出的一种基于知识图谱的大语言模型微调方法,基于知识图谱中包含的置信度较高、噪声少的可靠的知识对微调大语言模型的文本数据进行增强,从而得到更好的微调的效果。
附图说明
为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例公开的一种基于知识图谱的大语言模型微调方法的框架图;
图2为本发明实施例公开的一种基于知识图谱的大语言模型微调方法的流程图;
图3为本发明实施例公开的一种基于知识图谱的大语言模型微调装置的示意性框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据一个实施例,图1示出一种基于知识图谱的大语言模型微调方法的框架图。如图1所示,首先获取待增强的第一文本数据以及用于增强文本的知识图谱数据,对第一文本数据进行实体抽取,得到第一文本对应的文本实体集合。然后将文本实体集合中的实体在知识图谱中进行依次查询,将查询到的部分对应的图谱数据提取出来,得到知识子图。
然后,对第一文本数据进行分词,得到对应的词语序列。对词语序列中的词语进行编码,得到文本表征序列;对知识子图中的实体进行编码,得到实体表征序列。将文本表征序列和实体表征序列进行相似度匹配,从知识子图中确定若干目标知识点,所述目标知识点包括所述第一文本数据中不具有的新增实体或新增关系。将若干目标知识点转化为文本,添加到所述第一文本数据中,得到文本增强的第二文本数据,并使用所述第二文本数据对所述大语言模型进行微调,得到微调后的大语言模型。
以下将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
图2为本发明实施例公开的一种基于知识图谱的大语言模型微调方法的流程图。如图2所示,所述方法至少包括:步骤201,获取第一文本数据、知识图谱数据以及大语言模型;步骤202,对所述第一文本数据进行实体抽取,得到文本实体集合;步骤203,将所述文本实体集合中的多个实体在所述知识图谱中进行匹配,根据匹配结果确定所述知识图谱的知识子图;步骤204,使用第一编码器对所述第一文本数据对应的词语序列进行编码,得到文本表征序列;步骤205,使用第二编码器对所述知识子图中的实体进行编码,得到实体表征序列;步骤206,根据所述文本表征序列和实体表征序列之间的相似度匹配结果,从所述知识子图中确定若干目标知识点,所述目标知识点包括所述第一文本数据中不具有的新增实体或新增关系;步骤207,将所述若干目标知识点转化为文本,添加到所述第一文本数据中,得到增强的第二文本数据;步骤208,使用所述第二文本数据对所述大语言模型进行微调,得到微调后的大语言模型。
在步骤201,获取第一文本数据、知识图谱数据以及大语言模型。
所述大语言模型可以是任意支持微调的大语言模型,例如BERT、GPT等等,这里不做限定。
在步骤202,对所述第一文本数据进行实体抽取,得到文本实体集合。
可以使用多种方法对第一文本数据进行实体抽取,例如,可以使用基于规则的实体抽取:通过匹配正则表达式、查找特定的词汇组合等方式,来识别文本中的实体;还可以使用基于机器学习的实体抽取,通过诸如命名实体识别(Named Entity Recognition,NER)的方法进行实体抽取。这里不做限定。
在步骤203,将所述文本实体集合中的多个实体在所述知识图谱中进行匹配,根据匹配结果确定所述知识图谱的知识子图。
具体地,对于所述文本实体集合中的任一目标实体,如果所述知识图谱中包含所述目标实体,则将所述知识图谱中包含所述目标实体的多个知识点添加到所述知识子图中,其中,所述知识点由两个实体以及它们之间的关系组成。即,对于任意一个知识点,如果它对应的两个实体中有一个实体与文本实体集合中的目标实体的相匹配,则将该知识点添加到所述知识子图中。
在步骤204,使用第一编码器对所述第一文本数据对应的词语序列进行编码,得到文本表征序列。
所述第一文本数据对应的词语序列,可以通过对所述第一文本数据进行分词处理得到。
在一个实施例中,第一编码器为双向编码的Transformer模型的编码器。训练第一编码器的方法与训练BERT编码器的方法类似,这里不再赘述。
在步骤205,使用第二编码器对所述知识子图中的实体进行编码,得到实体表征序列。
具体地,将所述知识子图中的关系路径作为提示(prompt),输入BERT模型,得到所述实体表征序列。由于在知识图谱中,两个实体之间可能存在多条关系路径,在使用常规的对知识图谱的编码方法例如TransE(Translating Embedding)时,对于一堆多关系的编码效果不好。所以本发明使用基于关系路径的BERT模型,学习知识图谱中两个实体之间的多条关系路径,在使用训练好的BERT模型对知识子图中的实体进行编码时,效果更好。
前述第一编码器和第二编码器经过联合预训练,使得其编码结果位于相同的表征空间中,以便在后续的步骤206中进行相似度匹配。
在步骤206,根据所述文本表征序列和实体表征序列之间的相似度匹配结果,从所述知识子图中确定若干目标知识点,所述目标知识点包括所述第一文本数据中不具有的新增实体或新增关系。
在一个实施例中,步骤206具体包括:对所述文本表征序列中的第一文本表征,从所述实体表征序列中确定与其相似度大于第一阈值的第一实体表征;根据所述第一实体表征在所述知识子图中确定对应的第一实体,从所述知识子图中确定第一知识点归入所述目标知识点,所述第一知识点由第一实体,第二实体及其间的第一关系构成,所述第二实体或第一关系没有包含在所述第一文本数据中。以此确保知识子图中已经存在与第一文本中的知识,不会被再次添加到第一文本中,造成重复。
由于在步骤203的文本与知识图谱的匹配中,只是简单的字面上的匹配,对于一词多义以及多词一义的情况,难以很好地进行匹配和分辨。所以需要步骤204至步骤206的,基于语义表征进行匹配,以得到更加准确的匹配结果。
在一个实施例中,所述文本表征与实体表征之间的相似度可以通过表征之间的向量点乘结果确定。
在另一个实施例中,所述文本表征与实体表征之间的相似度由余弦相似度确定。
表征X与表征Y之间的余弦相似度的计算方法可以如公式(1)所示:
在步骤207,将所述若干目标知识点转化为文本,添加到所述第一文本数据中,得到增强的第二文本数据。
可以直接将知识点对应的三元组按照主语(subject)、谓语(predicate)和宾语(object)的顺序进行拼接,然后添加到所述第一文本数据中;也可以将知识点输入到预先设置的模板中,根据模板生成对应的文本,然后添加到所述第一文本数据中。这里不做限定。
在步骤208,使用所述第二文本数据对所述大语言模型进行微调,得到微调后的大语言模型。
使用基于文本增强后的第二文本数据对大语言模型进行微调,可以得到更加好的微调效果。
根据另一方面的实施例,还提供一种基于知识图谱的大语言模型微调装置。图3示出根据一个实施例的低认知负荷的知识图谱交互展示装置的示意性框图,该装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。如图3所示,该装置300包括:
获取单元301,配置为,获取第一文本数据、知识图谱数据以及大语言模型;
实体抽取单元302,配置为,对所述第一文本数据进行实体抽取,得到文本实体集合;
匹配单元303,配置为,将所述文本实体集合中的多个实体在所述知识图谱中进行匹配,根据匹配结果确定所述知识图谱的知识子图;
第一编码单元304,配置为,使用第一编码器对所述第一文本数据对应的词语序列进行编码,得到文本表征序列;
第二编码单元305,配置为,使用第二编码器对所述知识子图中的实体进行编码,得到实体表征序列;
确定单元306,配置为,根据所述文本表征序列和实体表征序列之间的相似度匹配结果,从所述知识子图中确定若干目标知识点,所述目标知识点包括所述第一文本数据中不具有的新增实体或新增关系;
文本增强单元307,配置为,将所述若干目标知识点转化为文本,添加到所述第一文本数据中,得到增强的第二文本数据;
微调单元308,配置为,使用所述第二文本数据对所述大语言模型进行微调,得到微调后的大语言模型。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一实施例所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一实施例所描述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于知识图谱的大语言模型微调方法,其特征在于,所述方法包括:
获取第一文本数据、知识图谱数据以及大语言模型;
对所述第一文本数据进行实体抽取,得到文本实体集合;
将所述文本实体集合中的多个实体在所述知识图谱中进行匹配,根据匹配结果确定所述知识图谱的知识子图;
使用第一编码器对所述第一文本数据对应的词语序列进行编码,得到文本表征序列;
使用第二编码器对所述知识子图中的实体进行编码,得到实体表征序列;
根据所述文本表征序列和实体表征序列之间的相似度匹配结果,从所述知识子图中确定若干目标知识点,所述目标知识点包括所述第一文本数据中不具有的新增实体或新增关系;
将所述若干目标知识点转化为文本,添加到所述第一文本数据中,得到增强的第二文本数据;
使用所述第二文本数据对所述大语言模型进行微调,得到微调后的大语言模型。
2.根据权利要求1所述的方法,其特征在于,将所述文本实体集合中的多个实体在所述知识图谱中进行匹配,根据匹配结果确定所述知识图谱的知识子图,包括:
对于所述文本实体集合中的任一目标实体,如果所述知识图谱中包含所述目标实体,则将所述知识图谱中包含所述目标实体的多个知识点添加到所述知识子图中,其中,所述知识点由两个实体以及它们之间的关系组成。
3.根据权利要求1所述的方法,其特征在于,所述第一文本数据对应的词语序列通过以下方法确定:
对所述第一文本数据进行分词处理,得到所述词语序列。
4.根据权利要求1所述的方法,其特征在于,所述第一编码器为双向编码的Transformer模型的编码器。
5.根据权利要求1所述的方法,其特征在于,使用第二编码器对所述知识子图中的实体进行编码,包括:将所述知识子图中的关系路径作为提示,输入BERT模型,得到所述实体表征序列。
6.根据权利要求1所述的方法,其特征在于,所述第一编码器和第二编码器经过联合预训练,使得其编码结果位于相同的表征空间中。
7.根据权利要求1所述的方法,其特征在于,从所述知识子图中确定若干目标知识点,包括:
对所述文本表征序列中的第一文本表征,从所述实体表征序列中确定与其相似度大于第一阈值的第一实体表征;
根据所述第一实体表征在所述知识子图中确定对应的第一实体;
从所述知识子图中确定第一知识点归入所述目标知识点,所述第一知识点由第一实体,第二实体及其间的第一关系构成,所述第二实体或第一关系没有包含在所述第一文本数据中。
8.根据权利要求7所述的方法,其特征在于,所述文本表征与实体表征之间的相似度由余弦相似度确定。
9.一种基于知识图谱的大语言模型微调装置,其特征在于,所述装置包括:
获取单元,配置为,获取第一文本数据、知识图谱数据以及大语言模型;
实体抽取单元,配置为,对所述第一文本数据进行实体抽取,得到文本实体集合;
匹配单元,配置为,将所述文本实体集合中的多个实体在所述知识图谱中进行匹配,根据匹配结果确定所述知识图谱的知识子图;
第一编码单元,配置为,使用第一编码器对所述第一文本数据对应的词语序列进行编码,得到文本表征序列;
第二编码单元,配置为,使用第二编码器对所述知识子图中的实体进行编码,得到实体表征序列;
确定单元,配置为,根据所述文本表征序列和实体表征序列之间的相似度匹配结果,从所述知识子图中确定若干目标知识点,所述目标知识点包括所述第一文本数据中不具有的新增实体或新增关系;
文本增强单元,配置为,将所述若干目标知识点转化为文本,添加到所述第一文本数据中,得到增强的第二文本数据;
微调单元,配置为,使用所述第二文本数据对所述大语言模型进行微调,得到微调后的大语言模型。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项的所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310831021.7A CN116881471B (zh) | 2023-07-07 | 2023-07-07 | 一种基于知识图谱的大语言模型微调方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310831021.7A CN116881471B (zh) | 2023-07-07 | 2023-07-07 | 一种基于知识图谱的大语言模型微调方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116881471A true CN116881471A (zh) | 2023-10-13 |
CN116881471B CN116881471B (zh) | 2024-06-04 |
Family
ID=88259732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310831021.7A Active CN116881471B (zh) | 2023-07-07 | 2023-07-07 | 一种基于知识图谱的大语言模型微调方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116881471B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934032A (zh) * | 2017-03-14 | 2017-07-07 | 软通动力信息技术(集团)有限公司 | 一种城市知识图谱构建方法及装置 |
CN113139383A (zh) * | 2021-04-20 | 2021-07-20 | 北京明略昭辉科技有限公司 | 一种文档排序方法、系统、电子设备及存储介质 |
CN113360751A (zh) * | 2020-03-06 | 2021-09-07 | 百度在线网络技术(北京)有限公司 | 意图识别方法、装置、设备和介质 |
WO2021212682A1 (zh) * | 2020-04-21 | 2021-10-28 | 平安国际智慧城市科技股份有限公司 | 知识抽取方法、装置、电子设备及存储介质 |
WO2022057669A1 (zh) * | 2020-09-16 | 2022-03-24 | 浙江大学 | 基于结构化上下文信息的知识图谱预训练方法 |
WO2022222300A1 (zh) * | 2021-04-21 | 2022-10-27 | 深圳壹账通智能科技有限公司 | 开放关系抽取方法、装置、电子设备及存储介质 |
CN115422369A (zh) * | 2022-08-30 | 2022-12-02 | 中国人民解放军国防科技大学 | 基于改进TextRank的知识图谱补全方法和装置 |
CN115759254A (zh) * | 2022-11-14 | 2023-03-07 | 中山大学 | 基于知识增强生成式语言模型的问答方法、系统及介质 |
CN116090558A (zh) * | 2023-02-03 | 2023-05-09 | 深圳智现未来工业软件有限公司 | 一种基于spc数值序列数据生成知识点的方法 |
US20230153534A1 (en) * | 2021-11-15 | 2023-05-18 | Adobe Inc. | Generating commonsense context for text using knowledge graphs |
CN116244416A (zh) * | 2023-03-03 | 2023-06-09 | 北京百度网讯科技有限公司 | 生成式大语言模型训练方法、基于模型的人机语音交互方法 |
-
2023
- 2023-07-07 CN CN202310831021.7A patent/CN116881471B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934032A (zh) * | 2017-03-14 | 2017-07-07 | 软通动力信息技术(集团)有限公司 | 一种城市知识图谱构建方法及装置 |
CN113360751A (zh) * | 2020-03-06 | 2021-09-07 | 百度在线网络技术(北京)有限公司 | 意图识别方法、装置、设备和介质 |
WO2021212682A1 (zh) * | 2020-04-21 | 2021-10-28 | 平安国际智慧城市科技股份有限公司 | 知识抽取方法、装置、电子设备及存储介质 |
WO2022057669A1 (zh) * | 2020-09-16 | 2022-03-24 | 浙江大学 | 基于结构化上下文信息的知识图谱预训练方法 |
CN113139383A (zh) * | 2021-04-20 | 2021-07-20 | 北京明略昭辉科技有限公司 | 一种文档排序方法、系统、电子设备及存储介质 |
WO2022222300A1 (zh) * | 2021-04-21 | 2022-10-27 | 深圳壹账通智能科技有限公司 | 开放关系抽取方法、装置、电子设备及存储介质 |
US20230153534A1 (en) * | 2021-11-15 | 2023-05-18 | Adobe Inc. | Generating commonsense context for text using knowledge graphs |
CN115422369A (zh) * | 2022-08-30 | 2022-12-02 | 中国人民解放军国防科技大学 | 基于改进TextRank的知识图谱补全方法和装置 |
CN115759254A (zh) * | 2022-11-14 | 2023-03-07 | 中山大学 | 基于知识增强生成式语言模型的问答方法、系统及介质 |
CN116090558A (zh) * | 2023-02-03 | 2023-05-09 | 深圳智现未来工业软件有限公司 | 一种基于spc数值序列数据生成知识点的方法 |
CN116244416A (zh) * | 2023-03-03 | 2023-06-09 | 北京百度网讯科技有限公司 | 生成式大语言模型训练方法、基于模型的人机语音交互方法 |
Non-Patent Citations (3)
Title |
---|
ZHENGYAN ZHANG: "CPM: A large-scale generative Chinese Pre-trained language model", AI OPEN, 15 July 2021 (2021-07-15), pages 93 - 99 * |
管健: "基于城市安全知识图谱的多关键词流式并行检索算法", 计算机科学, 15 February 2019 (2019-02-15), pages 35 - 41 * |
马满福;刘元喆;李勇;王霞;贾海;史彦斌;张小康;: "基于LCN的医疗知识问答模型", 西南大学学报(自然科学版), no. 10, 20 October 2020 (2020-10-20), pages 30 - 41 * |
Also Published As
Publication number | Publication date |
---|---|
CN116881471B (zh) | 2024-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110737758B (zh) | 用于生成模型的方法和装置 | |
CN111831789B (zh) | 一种基于多层语义特征提取结构的问答文本匹配方法 | |
CN112487812B (zh) | 一种基于边界识别的嵌套实体识别方法及系统 | |
CN111930914B (zh) | 问题生成方法和装置、电子设备以及计算机可读存储介质 | |
CN110390049B (zh) | 一种面向软件开发问题的答案自动生成方法 | |
CN109344242B (zh) | 一种对话问答方法、装置、设备及存储介质 | |
CN112528637A (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN110909144A (zh) | 问答对话方法、装置、电子设备及计算机可读存储介质 | |
CN116719520B (zh) | 代码生成方法及装置 | |
WO2021034941A1 (en) | A method for multi-modal retrieval and clustering using deep cca and active pairwise queries | |
US20220114340A1 (en) | System and method for an automatic search and comparison tool | |
CN112581327B (zh) | 基于知识图谱的法律推荐方法、装置和电子设备 | |
CN112183104B (zh) | 编码推荐方法、系统及相应设备和存储介质 | |
CN116881470A (zh) | 一种生成问答对的方法及装置 | |
CN115658846A (zh) | 一种适用于开源软件供应链的智能搜索方法及装置 | |
CN112464655A (zh) | 中文字符和拼音相结合的词向量表示方法、装置、介质 | |
CN115759254A (zh) | 基于知识增强生成式语言模型的问答方法、系统及介质 | |
CN113779190B (zh) | 事件因果关系识别方法、装置、电子设备与存储介质 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
KR102277787B1 (ko) | 신경망 기반 자연어로부터 sql 질의 번역 시 사용되는 컬럼 및 테이블을 예측하는 방법 | |
CN117131204A (zh) | 一种大语言模型协同知识图谱的推理方法及装置 | |
CN116881471B (zh) | 一种基于知识图谱的大语言模型微调方法及装置 | |
CN114254622B (zh) | 一种意图识别方法和装置 | |
CN115879480A (zh) | 语义约束机器翻译方法、装置、电子设备及存储介质 | |
CN115203206A (zh) | 数据内容搜索方法、装置、计算机设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |