CN114661913A - 一种基于预训练语言模型的实体关系抽取方法及装置 - Google Patents
一种基于预训练语言模型的实体关系抽取方法及装置 Download PDFInfo
- Publication number
- CN114661913A CN114661913A CN202210161990.1A CN202210161990A CN114661913A CN 114661913 A CN114661913 A CN 114661913A CN 202210161990 A CN202210161990 A CN 202210161990A CN 114661913 A CN114661913 A CN 114661913A
- Authority
- CN
- China
- Prior art keywords
- prompt
- knowledge
- template
- entity
- mining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 59
- 238000000605 extraction Methods 0.000 title claims abstract description 42
- 238000005065 mining Methods 0.000 claims abstract description 90
- 238000012545 processing Methods 0.000 claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000012216 screening Methods 0.000 claims abstract description 24
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012163 sequencing technique Methods 0.000 claims description 9
- 235000019013 Viburnum opulus Nutrition 0.000 claims description 5
- 244000071378 Viburnum opulus Species 0.000 claims description 5
- 238000002372 labelling Methods 0.000 abstract description 4
- 125000004122 cyclic group Chemical group 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 208000024827 Alzheimer disease Diseases 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 1
- 101000779415 Homo sapiens Alanine aminotransferase 2 Proteins 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于预训练语言模型的实体关系抽取方法及装置。该方法包括:基于种子知识从待抽取知识文本库获取相应的候选模板;对所述候选模板进行排序及筛选,确定Prompt模板;基于所述Prompt模板生成的提示文本、预训练语言模型以及Prompt Tuning方式对原始输入信息进行实体知识挖掘,获得相应的实体知识;将所述实体知识作为新的种子知识,利用所述新的种子知识进行挖掘以产生新的候选模板,并基于所述新的候选模板进行循环迭代处理,获得循环迭代处理过程中输出的知识挖掘结果。本发明提供的基于预训练语言模型的实体关系抽取方法,能够降低Prompt模板的标注成本,有效提高知识挖掘的效率。
Description
技术领域
本发明涉及数据分析技术领域,具体涉及一种基于预训练语言模型的实体关系抽取方法及装置。另外,还涉及一种电子设备及处理器可读存储介质。
背景技术
近年来,随着预训练语言模型(Pre-trained Language Model,PLM)在自然语言处理(Natural Language Processing,NLP)的各个领域的应用越来越广泛,自然语言处理也获得了长足发展。但是,随着预训练模型参数量的加大,对其进行微调(fine-tuning)的硬件要求和数据标注成本越来越高,周期长的问题也逐渐凸显,因此本领域技术人员急需一种更有效的Prompt-tuning方案来提高基于预训练语言模型的知识挖掘效率。然而,现有的基于预训练语言模型的知识挖掘方案中使用的Prompt模板通常需要人工进行标注,费时费力,且导致知识挖掘的效果受制于人工Prompt模版的好坏。因此,如何提供一种高效的基于大规模预训练语言模型和自动Prompt模版挖掘的知识挖掘方案成为亟待解决的难题。
发明内容
为此,本发明提供一种基于预训练语言模型的实体关系抽取方法及装置,以解决现有技术中存在的基于知识挖掘方案中Prompt模板标注需要人工参与,从而导致知识挖掘效率较差的缺陷。
第一方面,本发明提供标注一种基于预训练语言模型的实体关系抽取方法,包括:
基于种子知识从待抽取知识文本库获取相应的候选模板;对所述候选模板进行排序及筛选,确定Prompt模板;
基于所述Prompt模板生成的提示文本、预训练语言模型以及Prompt Tuning方式对原始输入信息进行实体知识挖掘,获得相应的实体知识;
将所述实体知识作为新的种子知识,利用所述新的种子知识进行挖掘以产生新的候选模板,并基于所述新的候选模板进行循环迭代处理,获得循环迭代处理过程中输出的知识挖掘结果。
进一步的,所述利用所述新的种子知识进行挖掘以产生新的候选模板,并基于所述新的候选模板进行循环迭代处理,获得循环迭代处理过程中输出的知识挖掘结果,具体包括:
基于Prompt-Snowball方式循环挖掘所述新的种子知识对应的新的候选模板,并对所述新的候选模板进行再次排序及筛选,确定新的Prompt模板;基于所述新的Prompt模板生成的提示文本,并利用所述预训练语言模型以及Prompt Tuning方式对原始输入信息进行实体知识挖掘,获得循环迭代处理过程中输出的知识挖掘结果。
进一步的,所述对所述候选模板进行排序及筛选,确定Prompt模板,具体包括:
根据所述候选模板的文本匹配频率或所述候选模板的字节长度对所述候选模板进行排序及筛选,确定Prompt模板。
进一步的,所述的基于预训练语言模型的实体关系抽取方法,还包括:基于所述Prompt模板生成提示文本;基于所述Prompt模板生成提示文本,具体包括:根据所述Prompt模板对所述待抽取知识文本库中的文本进行分析,以提取出与所述Prompt模板对应的实体名称,并基于所述实体名称和所述Prompt模板获得相应的提示文本。
进一步的,所述Prompt-Snowball为基于Snowball关系抽取算法确定的用于对知识文本进行挖掘的循环迭代处理策略。
第二方面,本发明还提供一种基于预训练语言模型的实体关系抽取装置,包括:
模板确定单元,用于基于种子知识从待抽取知识文本库获取相应的候选模板;对所述候选模板进行排序及筛选,确定Prompt模板;
知识挖掘单元,用于基于所述Prompt模板生成的提示文本、预训练语言模型以及Prompt Tuning方式对原始输入信息进行实体知识挖掘,获得相应的实体知识;
循环迭代处理单元,用于将所述实体知识作为新的种子知识,利用所述新的种子知识进行挖掘以产生新的候选模板,并基于所述新的候选模板进行循环迭代处理,获得循环迭代处理过程中输出的知识挖掘结果。
进一步的,所述循环迭代处理单元,具体用于:基于Prompt-Snowball方式循环挖掘所述新的种子知识对应的新的候选模板,并对所述新的候选模板进行再次排序及筛选,确定新的Prompt模板;基于所述新的Prompt模板生成的提示文本,并利用所述预训练语言模型以及Prompt Tuning方式对原始输入信息进行实体知识挖掘,获得循环迭代处理过程中输出的知识挖掘结果。
进一步的,所述模板确定单元,具体用于:根据所述候选模板的文本匹配频率或所述候选模板的字节长度对所述候选模板进行排序及筛选,确定Prompt模板。
进一步的,所述基于预训练语言模型的实体关系抽取装置,还包括:提示文本生成单元;所述提示文本生成单元,具体用于:根据所述Prompt模板对所述待抽取知识文本库中的文本进行分析,以提取出与所述Prompt模板对应的实体名称,并基于所述实体名称和所述Prompt模板获得相应的提示文本。
进一步的,所述Prompt-Snowball为基于Snowball关系抽取算法确定的用于对知识文本进行挖掘的循环迭代处理策略。
第三方面,本发明还提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述计算机程序时实现如上述任意一项所述的基于预训练语言模型的实体关系抽取方法的步骤。
第四方面,本发明还提供一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如上述任意一项所述的基于预训练语言模型的实体关系抽取方法的步骤。
本发明提供的基于预训练语言模型的实体关系抽取方法,通过基于种子知识从待抽取知识文本库获取相应的候选模板,并对所述候选模板进行排序及筛选以确定相应的Prompt模板;然后基于所述Prompt模板生成的提示文本、预设训练语言模型以及PromptTuning方式对原始输入信息进行实体知识挖掘,获得相应的实体知识;将所述实体知识作为新的种子知识,对所述新的种子知识进行挖掘以产生新的候选模板进行循环迭代处理,获得循环迭代处理过程中输出的知识挖掘结果,能够降低Prompt模板的标注成本,从而有效提高知识挖掘的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1是本发明实施例提供的基于预训练语言模型的实体关系抽取方法的流程示意图;
图2是本发明实施例提供的基于预训练语言模型的实体关系抽取方法的应用示意图;
图3是本发明实施例提供的基于预训练语言模型的实体关系抽取方法的完整流程示意图;
图4是本发明实施例提供的基于预训练语言模型的实体关系抽取装置的结构示意图;
图5是本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
下面基于本发明所述的基于预训练语言模型的实体关系抽取方法,对其实施例进行详细描述。如图1所示,其为本发明实施例提供的基于预训练语言模型的实体关系抽取方法的流程示意图,具体实现过程包括以下步骤:
步骤101:基于种子知识从待抽取知识文本库获取相应的候选模板;对所述候选模板进行排序及筛选,确定Prompt模板。
在本发明实施例中,需要预先确定待抽取的知识文本库,并利用少量实例作为初始的种子知识,基于所述种子知识从所述知识文本库确定相应的候选模板,通过预设方式对所述候选模板进行排序及筛选以将目标候选模板确定为相应的Prompt模板。其中,所述通过预设方式对所述候选模板进行排序及筛选以确定相应的Prompt模板,对应的具体实现过程包括:通过比较所述候选模板的文本匹配频率或所述候选模板的字节长度等特征对所述候选模板进行排序及筛选,以将文本匹配频率和字节长度等特征满足预设条件的候选模板确定为Prompt模板。比如所述预设条件可以是文本匹配频率达到或超过预设频率阈值或者候选模板的字节长度低于预设长度阈值的条件,同样在此不做具体限定。另外,所述方式还可通过其他现有排序及筛选技术实现,在此也不做具体限定。
步骤102:基于所述Prompt模板生成的提示文本、预设训练语言模型以及PromptTuning方式对原始输入信息进行实体知识挖掘,获得相应的实体知识。
在本发明实施例中,还包括:预先基于所述Prompt模板生成实体知识提示文本。具体的,根据所述Prompt模板对所述待抽取知识文本库中的文本进行分析,以提取出与所述Prompt模板对应的实体名称,并基于所述实体名称和所述Prompt模板获得相应的实体知识提示文本。所述预训练语言模型可采用现有技术中成熟的预训练语言模型;Prompt Tuning方式是指通过在原始输入信息中添加额外的实体知识提示文本以更好的利用预训练模型的技术,在此不再详细赘述。
如图2所示,以医药领域知识文本为例,“In the decades,since Aβand tua wereidentified development of therapies for AD has primarily focused on Aβ.”为原始输入信息。将tau基因(taugene)以及tau基因导致的阿尔兹海默症(ADdisease)这种疾病作为种子知识。其中,《taugene,ADdisea》包含的是相应的实体名称。“…can treat…(…可以用来治疗…)”、“…is the taget of…(…是…的靶点)”等实体关系为候选模板。通过对所述候选模板进行排序及筛选来确定需要的Prompt模板,比如确定Prompt模板为“…is thetaget of…”。根据所述Prompt模板和所述实体名称确定相应的实体知识提示文本,比如确定的实体知识提示文本可以是“tua is the taget of AD(tua是AD的靶点)”。其中,tua即为tau基因,AD即为阿尔兹海默症。
在具体实施过程中,基于候选模板中确定的Prompt模板对所述待抽取知识文本库中的文本进行挖掘,即通过文本蕴含推理的方式来计算原始输入信息和基于prompt模版产生的提示文本之间的语义关系来挖掘,抽取出与所述Prompt模板对应的实体知识提示文本。将包含所述提示文本的信息输入到预训练语言模型,利用Prompt Tuning方式进行知识挖掘,获得相应的实体知识。在一个可行的实施例中,可将基于所述Prompt模板生成的包含掩码(MASK)的提示文本结合初始信息,得到包含所述提示文本的信息;通过将该信息输入到预训练语言模型中进行知识挖掘,从而抽取出相应的实体知识。
步骤103:将所述实体知识作为新的种子知识,利用所述新的种子知识进行挖掘以产生新的候选模板,并基于所述新的候选模板进行循环迭代处理,获得循环迭代处理过程中输出的知识挖掘结果。
在本发明实施例中,在步骤103中将所述实体知识作为新的种子知识,继续循环上述步骤101-步骤102的处理过程。所述利用所述新的种子知识进行挖掘以产生新的候选模板,并基于所述新的候选模板进行循环迭代处理,获得循环迭代处理过程中输出的知识挖掘结果,对应实现过程如图3所示,具体包括:将新的种子知识作为起点,通过Promt-Snowball方式,利用所述新的种子知识进行挖掘以产生新的候选模板,通过对所述新的候选模板进行再次排序及筛选确定新的Prompt模板,并基于所述新的Prompt模板生成的提示文本,利用所述预训练语言模型以及Prompt Tuning方式对原始输入信息进行实体知识挖掘,能够获得循环迭代处理过程中输出的知识挖掘结果。其中,Promt-Snowball是基于Snowball关系抽取算法确定的用于对知识文本进行挖掘的循环迭代处理策略。利用Prompt-Snowball的方式能够进行循环迭代挖掘以不断得到新的prompt模版,无需人工进行标注。
本发明实施例中,所述预训练语言模型可利用现有的知识挖掘架构实现,比如该预训练语言模型可以是LM(GPT2,GPT3)、Mask LM(BERT)等。采用Prompt Tuning的方式能够冻结预训练语言模型只微调连续的提示模板部分(即提示文本),大大减少了训练时每个任务的存储和内存使用。所述知识挖掘结果可包括对待抽取的知识文本库中文本进行循环迭代知识挖掘处理产生的实体知识及在循环迭代过程中确定的对应所述实体知识的Prompt模板等,在此不做具体限定。
采用本发明实施例所述的基于预训练语言模型的实体关系抽取方法,通过基于种子知识从待抽取知识文本库获取相应的候选模板,并对所述候选模板进行排序及筛选以确定相应的Prompt模板;然后基于所述Prompt模板生成的提示文本、预设训练语言模型以及Prompt Tuning方式对原始输入信息进行实体知识挖掘,获得相应的实体知识;将所述实体知识作为新的种子知识,对所述新的种子知识进行挖掘以产生新的候选模板进行循环迭代处理,获得循环迭代处理过程中输出的知识挖掘结果,能够降低Prompt模板的标注成本,从而有效提高知识挖掘的效率。
与上述提供的一种基于预训练语言模型的实体关系抽取方法相对应,本发明还提供一种基于预训练语言模型的实体关系抽取装置。由于该装置的实施例相似于上述方法实施例,所以描述得比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的基于预训练语言模型的实体关系抽取装置的实施例仅是示意性的。请参考图4所示,其为本发明实施例提供的一种基于预训练语言模型的实体关系抽取装置的结构示意图。
本发明所述的基于预训练语言模型的实体关系抽取装置,具体包括如下部分:
模板确定单元401,用于基于种子知识从待抽取知识文本库获取相应的候选模板;对所述候选模板进行排序及筛选,确定Prompt模板;
知识挖掘单元402,用于根据预训练语言模型和Prompt Tuning的方式对基于所述Prompt模板得到的输入信息进行实体知识挖掘,获得相应的实体知识;
循环迭代处理单元403,用于将所述实体知识作为新的种子知识,对所述新的种子知识进行挖掘以产生新的候选模板进行循环迭代处理,获得循环迭代处理过程中输出的知识挖掘结果。所述知识挖掘结果包括:对文本进行循环迭代知识挖掘处理产生的实体知识以及基于实体知识确定的Prompt模板。
进一步的,所述循环迭代处理单元,具体用于:基于Prompt-Snowball方式循环挖掘所述新的种子知识对应的新的候选模板,并对所述新的候选模板进行再次排序及筛选,确定新的Prompt模板;基于所述新的Prompt模板生成的提示文本,并利用所述预训练语言模型以及Prompt Tuning方式对原始输入信息进行实体知识挖掘,获得循环迭代处理过程中输出的知识挖掘结果。所述Prompt-Snowball为基于Snowball关系抽取算法确定的用于对知识文本进行挖掘的循环迭代处理策略。
进一步的,所述模板确定单元,具体用于:根据所述候选模板的文本匹配频率或所述候选模板的字节长度等特征对所述候选模板进行排序及筛选,确定满足预设条件的Prompt模板。
进一步的,所述基于预训练语言模型的实体关系抽取装置,还包括:提示文本生成单元;所述提示文本生成单元,具体用于:根据所述Prompt模板对所述待抽取知识文本库中的文本进行分析,以提取出与所述Prompt模板对应的实体名称,并基于所述实体名称和所述Prompt模板获得相应的提示文本。
采用本发明实施例所述的基于预训练语言模型的实体关系抽取装置,通过基于种子知识从待抽取知识文本库获取相应的候选模板,并对所述候选模板进行排序及筛选以确定相应的Prompt模板;然后基于所述Prompt模板生成的提示文本、预设训练语言模型以及Prompt Tuning方式对原始输入信息进行实体知识挖掘,获得相应的实体知识;将所述实体知识作为新的种子知识,对所述新的种子知识进行挖掘以产生新的候选模板进行循环迭代处理,获得循环迭代处理过程中输出的知识挖掘结果,能够降低Prompt模板的标注成本,从而有效提高知识挖掘的效率。
与上述提供的基于预训练语言模型的实体关系抽取方法相对应,本发明还提供一种电子设备。由于该电子设备的实施例相似于上述方法实施例,所以描述得比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的电子设备仅是示意性的。如图5所示,其为本发明实施例公开的一种电子设备的实体结构示意图。该电子设备可以包括:处理器(processor)501、存储器(memory)502和通信总线503,其中,处理器501,存储器502通过通信总线503完成相互间的通信,通过通信接口504与外部进行通信。处理器501可以调用存储器502中的逻辑指令,以执行基于预训练语言模型的实体关系抽取方法,该方法包括:基于种子知识从待抽取知识文本库获取相应的候选模板;对所述候选模板进行排序及筛选,确定Prompt模板;基于所述Prompt模板生成的提示文本、预训练语言模型以及PromptTuning方式对原始输入信息进行实体知识挖掘,获得相应的实体知识;将所述实体知识作为新的种子知识,利用所述新的种子知识进行挖掘以产生新的候选模板,并基于所述新的候选模板进行循环迭代处理,获得循环迭代处理过程中输出的知识挖掘结果。
此外,上述的存储器502中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:存储芯片、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在处理器可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的基于预训练语言模型的实体关系抽取方法。该方法包括:基于种子知识从待抽取知识文本库获取相应的候选模板;对所述候选模板进行排序及筛选,确定Prompt模板;基于所述Prompt模板生成的提示文本、预训练语言模型以及Prompt Tuning方式对原始输入信息进行实体知识挖掘,获得相应的实体知识;将所述实体知识作为新的种子知识,利用所述新的种子知识进行挖掘以产生新的候选模板,并基于所述新的候选模板进行循环迭代处理,获得循环迭代处理过程中输出的知识挖掘结果。
又一方面,本发明实施例还提供一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于预训练语言模型的实体关系抽取方法。该方法包括:基于种子知识从待抽取知识文本库获取相应的候选模板;对所述候选模板进行排序及筛选,确定Prompt模板;基于所述Prompt模板生成的提示文本、预训练语言模型以及Prompt Tuning方式对原始输入信息进行实体知识挖掘,获得相应的实体知识;将所述实体知识作为新的种子知识,利用所述新的种子知识进行挖掘以产生新的候选模板,并基于所述新的候选模板进行循环迭代处理,获得循环迭代处理过程中输出的知识挖掘结果。
所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于预训练语言模型的实体关系抽取方法,其特征在于,包括:
基于种子知识从待抽取知识文本库获取相应的候选模板;对所述候选模板进行排序及筛选,确定Prompt模板;
基于所述Prompt模板生成的提示文本、预训练语言模型以及Prompt Tuning方式对原始输入信息进行实体知识挖掘,获得相应的实体知识;
将所述实体知识作为新的种子知识,利用所述新的种子知识进行挖掘以产生新的候选模板,并基于所述新的候选模板进行循环迭代处理,获得循环迭代处理过程中输出的知识挖掘结果。
2.根据权利要求1所述的基于预训练语言模型的实体关系抽取方法,其特征在于,利用所述新的种子知识进行挖掘以产生新的候选模板,并基于所述新的候选模板进行循环迭代处理,获得循环迭代处理过程中输出的知识挖掘结果,具体包括:
基于Prompt-Snowball方式循环挖掘所述新的种子知识对应的新的候选模板,并对所述新的候选模板进行再次排序及筛选,确定新的Prompt模板;基于所述新的Prompt模板生成的提示文本,并利用所述预训练语言模型以及Prompt Tuning方式对原始输入信息进行实体知识挖掘,获得循环迭代处理过程中输出的知识挖掘结果。
3.根据权利要求1所述的基于预训练语言模型的实体关系抽取方法,其特征在于,所述对所述候选模板进行排序及筛选,确定Prompt模板,具体包括:
根据所述候选模板的文本匹配频率或所述候选模板的字节长度对所述候选模板进行排序及筛选,确定Prompt模板。
4.根据权利要求1所述的基于预训练语言模型的实体关系抽取方法,其特征在于,还包括:基于所述Prompt模板生成提示文本;基于所述Prompt模板生成提示文本,具体包括:
根据所述Prompt模板对所述待抽取知识文本库中的文本进行分析,以提取出与所述Prompt模板对应的实体名称,并基于所述实体名称和所述Prompt模板获得相应的提示文本。
5.根据权利要求2所述的基于预训练语言模型的实体关系抽取方法,其特征在于,所述Prompt-Snowball为基于Snowball关系抽取算法确定的用于对知识文本进行挖掘的循环迭代处理策略。
6.一种基于预训练语言模型的实体关系抽取装置,其特征在于,包括:
模板确定单元,用于基于种子知识从待抽取知识文本库获取相应的候选模板;对所述候选模板进行排序及筛选,确定Prompt模板;
知识挖掘单元,用于基于所述Prompt模板生成的提示文本、预训练语言模型以及Prompt Tuning方式对原始输入信息进行实体知识挖掘,获得相应的实体知识;
循环迭代处理单元,用于将所述实体知识作为新的种子知识,利用所述新的种子知识进行挖掘以产生新的候选模板,并基于所述新的候选模板进行循环迭代处理,获得循环迭代处理过程中输出的知识挖掘结果。
7.根据权利要求6所述的基于预训练语言模型的实体关系抽取装置,其特征在于,所述循环迭代处理单元,具体用于:基于Prompt-Snowball方式循环挖掘所述新的种子知识对应的新的候选模板,并对所述新的候选模板进行再次排序及筛选,确定新的Prompt模板;基于所述新的Prompt模板生成的提示文本,并利用所述预训练语言模型以及Prompt Tuning方式对原始输入信息进行实体知识挖掘,获得循环迭代处理过程中输出的知识挖掘结果。
8.根据权利要求6所述的基于预训练语言模型的实体关系抽取装置,其特征在于,还包括:提示文本生成单元;所述提示文本生成单元,具体用于:根据所述Prompt模板对所述待抽取知识文本库中的文本进行分析,以提取出与所述Prompt模板对应的实体名称,并基于所述实体名称和所述Prompt模板获得相应的提示文本。
9.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任意一项所述的基于预训练语言模型的实体关系抽取方法的步骤。
10.一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任意一项所述的基于预训练语言模型的实体关系抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210161990.1A CN114661913B (zh) | 2022-02-22 | 2022-02-22 | 一种基于预训练语言模型的实体关系抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210161990.1A CN114661913B (zh) | 2022-02-22 | 2022-02-22 | 一种基于预训练语言模型的实体关系抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114661913A true CN114661913A (zh) | 2022-06-24 |
CN114661913B CN114661913B (zh) | 2024-09-10 |
Family
ID=82026666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210161990.1A Active CN114661913B (zh) | 2022-02-22 | 2022-02-22 | 一种基于预训练语言模型的实体关系抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114661913B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402164A (zh) * | 2023-06-06 | 2023-07-07 | 之江实验室 | 基于预训练语言模型的机器人任务生成方法、装置及介质 |
CN116861014A (zh) * | 2023-09-05 | 2023-10-10 | 联通在线信息科技有限公司 | 一种基于预训练语言模型的图像信息抽取方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395425A (zh) * | 2020-10-27 | 2021-02-23 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备以及可读存储介质 |
CN113343702A (zh) * | 2021-08-03 | 2021-09-03 | 杭州费尔斯通科技有限公司 | 一种基于无标注语料的实体匹配方法和系统 |
CN113868380A (zh) * | 2021-06-21 | 2021-12-31 | 四川启睿克科技有限公司 | 一种少样本意图识别方法及装置 |
CN114036300A (zh) * | 2021-11-18 | 2022-02-11 | 阳光保险集团股份有限公司 | 一种语言模型的训练方法、装置、电子设备及存储介质 |
-
2022
- 2022-02-22 CN CN202210161990.1A patent/CN114661913B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395425A (zh) * | 2020-10-27 | 2021-02-23 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备以及可读存储介质 |
CN113868380A (zh) * | 2021-06-21 | 2021-12-31 | 四川启睿克科技有限公司 | 一种少样本意图识别方法及装置 |
CN113343702A (zh) * | 2021-08-03 | 2021-09-03 | 杭州费尔斯通科技有限公司 | 一种基于无标注语料的实体匹配方法和系统 |
CN114036300A (zh) * | 2021-11-18 | 2022-02-11 | 阳光保险集团股份有限公司 | 一种语言模型的训练方法、装置、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
ZHENGBAO JING 等: "How can we know what language models know?", TRANSACTIONS OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 31 December 2020 (2020-12-31) * |
张素香;李蕾;秦颖;钟义信;: "基于Boot Strapping的中文实体关系自动生成", 微电子学与计算机, no. 12, 20 December 2006 (2006-12-20) * |
王辉;陈光;: "基于Bootstrapping的英文产品评论属性词抽取方法", 山东大学学报(理学版), no. 12, 31 December 2014 (2014-12-31) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402164A (zh) * | 2023-06-06 | 2023-07-07 | 之江实验室 | 基于预训练语言模型的机器人任务生成方法、装置及介质 |
CN116402164B (zh) * | 2023-06-06 | 2023-09-05 | 之江实验室 | 基于预训练语言模型的机器人任务生成方法、装置及介质 |
CN116861014A (zh) * | 2023-09-05 | 2023-10-10 | 联通在线信息科技有限公司 | 一种基于预训练语言模型的图像信息抽取方法及装置 |
CN116861014B (zh) * | 2023-09-05 | 2024-01-26 | 联通在线信息科技有限公司 | 一种基于预训练语言模型的图像信息抽取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114661913B (zh) | 2024-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8812299B1 (en) | Class-based language model and use | |
CN113496315B (zh) | 基于分位数梯度提升决策树的负荷区间预测方法及系统 | |
CN107491432B (zh) | 基于人工智能的低质量文章识别方法及装置、设备及介质 | |
CN114661913A (zh) | 一种基于预训练语言模型的实体关系抽取方法及装置 | |
US20220156583A1 (en) | Method of generating classifier by using small number of labeled images | |
CN111159414B (zh) | 文本分类方法及系统、电子设备、计算机可读存储介质 | |
CN110532353A (zh) | 基于深度学习的文本实体匹配方法、系统、装置 | |
CN108897829A (zh) | 数据标签的修正方法、装置和存储介质 | |
US20180276105A1 (en) | Active learning source code review framework | |
RU2638634C2 (ru) | Автоматическое обучение программы синтаксического и семантического анализа с использованием генетического алгоритма | |
CN110674306B (zh) | 知识图谱的构建方法、装置、电子设备 | |
CN109902290B (zh) | 一种基于文本信息的术语提取方法、系统和设备 | |
CN110990563A (zh) | 一种基于人工智能的传统文化素材库构建方法及系统 | |
CN112861519B (zh) | 医疗文本纠错方法、装置以及存储介质 | |
US20200334557A1 (en) | Chained influence scores for improving synthetic data generation | |
CN110414005A (zh) | 意图识别方法、电子设备及存储介质 | |
CN110852076B (zh) | 一种自动化疾病编码转换的方法及装置 | |
CN117851826A (zh) | 模型构建方法、模型构建装置、设备以及存储介质 | |
CN117457017B (zh) | 语音数据的清洗方法及电子设备 | |
CN117369796A (zh) | 代码构建方法、模型微调方法、设备及存储介质 | |
CN115495578A (zh) | 基于最大熵损失的文本预训练模型后门消除方法、系统及介质 | |
CN116502617A (zh) | 安全测试报告的生成方法及装置 | |
CN114300097A (zh) | 一种超声检查报告生成方法、装置及电子设备和存储介质 | |
CN114003722A (zh) | 用于确定文本数据的标签的方法和设备 | |
JP7044642B2 (ja) | 評価装置、評価方法および評価プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |