CN114969372A - 关系抽取方法、系统、设备及存储介质 - Google Patents

关系抽取方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN114969372A
CN114969372A CN202210616979.XA CN202210616979A CN114969372A CN 114969372 A CN114969372 A CN 114969372A CN 202210616979 A CN202210616979 A CN 202210616979A CN 114969372 A CN114969372 A CN 114969372A
Authority
CN
China
Prior art keywords
sample
entity
text
template
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210616979.XA
Other languages
English (en)
Inventor
徐芳
蔡超
武学敏
杨万征
王雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glabal Tone Communication Technology Co ltd
Original Assignee
Glabal Tone Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glabal Tone Communication Technology Co ltd filed Critical Glabal Tone Communication Technology Co ltd
Priority to CN202210616979.XA priority Critical patent/CN114969372A/zh
Publication of CN114969372A publication Critical patent/CN114969372A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种关系抽取方法、系统、设备及存储介质,该方法包括:获取待抽取目标文本;将所述待抽取目标文本输入到关系抽取模型中,获取所述待抽取目标文本对应的实体关系,其中,所述关系抽取模型为神经网络模型,所述关系抽取模型通过样本文本和样本标签进行训练得到,所述关系抽取模型在训练过程中构建的模板实体关系进行部分掩码。本发明采用对prompt进行部分掩码掉的操作可以有效的降低预训练模型微调和训练过程中的误差,同时对prompt和原始文本构建句子对原始一条文本数据构建出多条数据的方式可以解决微调语料不足的情况,将已有知识进行最大化利用,提高本发明实施例中关系抽取方法的准确性。

Description

关系抽取方法、系统、设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种关系抽取方法、系统、设备及存储介质。
背景技术
目前关系抽取任务集较少,关系抽取任务集中包括标注实体和实体之间对应的文本,比如老秦是小琴的爸爸,那么老秦和小琴之间的关系就是父女关系,A是B公司的员工,A与B公司之间的关系就是雇佣关系;另,由于一对实体可能存在多种关系,比如C某和D某是班上令人羡慕的一对情侣,那么实体C某和D某之间的关系就有两种,一种是同学,一种是情侣,由于存在同对实体对多关系等情况问题,关系抽取任务需要根据句子语义信息推测实体间的关系,是构建知识图谱不可或缺的一步。
近几年,随着神经网络的发展,为关系抽取任务带来了诸多新的突破,但在实际工作中,关系抽取仍旧面临很多挑战,例如,构建大规模知识图谱需要对大规模数据进行关系抽取,但人工精准去标注句子中的实体和关系需要消耗大量人力和物力,对数以万计的实体对、数以百计或数以千计的关系,依靠人工标注几乎不可能完成。同时,往往存在大量的实体对之间的关系在关系集合中占比较小的情况,使得神经网络模型无法学习到有用的规律,并且,由于复杂语境的问题,使得现有的模型对多句抽取、重叠实体和实体对多关系的情况难以表现的尽如人意。
BERT(Bidirectional Encoder Representations for Transformers,来自变换器的双向编码器表征量)用作下游任务数据微调预训练模型已经成为目前NLP(NaturalLanguage Processing,自然语言处理)领域常见的做法。
但是,在关系抽取任务中,通常采用预训练模型在编码过程中对句子进行向量化,然后再使用解码模型去预测实体关系,且由于BERT的训练是带有掩码的训练方法,而关系抽取任务进行微调时并不会采用掩码的方式,因此会造成微调和训练不一致的问题。
发明内容
本发明提供一种关系抽取方法,其主要目的在于克服现有关系抽取方法中微调和训练不一致的问题,有效提高关系抽取方法的准确率
第一方面,本发明实施例提供一种关系抽取方法,包括:
获取待抽取目标文本;
将所述待抽取目标文本输入到关系抽取模型中,获取所述待抽取目标文本对应的实体关系,其中,所述关系抽取模型为神经网络模型,所述关系抽取模型通过样本文本和样本标签进行训练得到,所述关系抽取模型在训练过程中构建的模板实体关系进行部分掩码。
优选地,所述关系抽取模型通过样本文本和样本标签进行训练得到,通过如下步骤得到:
对所述样本文本进行特征提取,获取所述样本文本中的样本实体;
根据所述样本实体,基于预设实体关系模板,对所述样本实体构建模板样本文本,所述模板样本文本包括正模板样本文本和负模板样本文本;
利用所述模板样本文本对BERT中的句子对预测任务构建模型进行训练;
对所述正模板样本文本中表征关系的词语进行掩码,并利用掩码后的正模板样本文本和所述样本标签对BERT的掩码语言模型进行训练,获取训练后的BERT模型,将训练后的BERT模型作为所述关系抽取模型。
优选地,所述对所述样本文本进行特征提取,获取所述样本文本中的样本实体,包括:
利用机器学习,对所述样本文本进行识别,获取样本实体。
优选地,所述根据所述样本实体,基于预设实体关系模板,对所述样本实体构建模板样本文本,包括:
对于所述样本实体中第一样本实体和第二样本实体,对于所述预设实体关系模板中的每一预设实体关系,构造出所有能表达所述第一样本实体和所述第二样本实体为预设实体关系的语句,构造成的语句即为模板样本文本。
优选地,所述对所述正模板样本文本中表征关系的词语进行掩码,包括:
保留所述正模板样本文本中的实体字样,对所述正模板样本文本中的关系字样进行掩码。
第二方面,本发明实施例提供一种关系抽取系统,包括:
获取模块,用于获取待抽取目标文本;
抽取模块,用于将所述待抽取目标文本输入到关系抽取模型中,获取所述待抽取目标文本对应的实体关系,其中,所述关系抽取模型为神经网络模型,所述关系抽取模型通过样本文本和样本标签进行训练得到,所述关系抽取模型在训练过程中构建的模板实体关系进行部分掩码。
优选地,所述抽取模块包括特征提取单元、样本构建单元、第一训练单元、第二训练单元
所述特征提取单元用于对所述样本文本进行特征提取,获取所述样本文本中的样本实体;
所述样本构建单元用于根据所述样本实体,基于预设实体关系模板,对所述样本实体构建模板样本文本,所述模板样本文本包括正模板样本文本和负模板样本文本;
所述第一训练单元用于利用所述模板样本文本对BERT中的句子对预测任务构建模型进行训练;
所述第二训练单元用于对所述正模板样本文本中表征关系的词语进行掩码,并利用掩码后的正模板样本文本和所述样本标签对BERT的掩码语言模型进行训练,获取训练后的BERT模型,将训练后的BERT模型作为所述关系抽取模型。
优选地,所述样本构建单元包括样本构建子单元,其中:
所述样本构建子单元用于对于所述样本实体中第一样本实体和第二样本实体,对于所述预设实体关系模板中的每一预设实体关系,构造出所有能表达所述第一样本实体和所述第二样本实体为预设实体关系的语句,构造成的语句即为模板样本文本。
第三方面,本发明实施例提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述关系抽取方法的步骤。
第四方面,本发明实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述关系抽取方法的步骤。
本发明提出的一种关系抽取方法、系统、设备及存储介质,可以有效的利用预训练语言模型的优点,提高关系抽取的效果,原始关系抽取任务中,对于文本会直接进行向量化(没有mask掉句子中某些词的操作),而在BERT在训练中是通过一定的概率选择了某个词进行mask后再进行向量化的,由于mask掉的词也是会对句子语义产生影响的,这就使得传统方法中直接使用BERT模型进行文本向量化时会和BERT训练时存在一定的误差,因此本发明采用对prompt进行部分mask掉(类似于完形填空任务)的操作可以有效的降低预训练模型微调和训练过程中的误差,同时对prompt和原始文本构建句子对原始一条文本数据构建出多条数据的方式可以解决微调语料不足的情况,将已有知识进行最大化利用,提高本发明实施例中关系抽取方法的准确性。
附图说明
图1为本发明实施例提供的一种关系抽取方法的使用场景图;
图2为本发明实施例提供的一种关系抽取方法的流程图;
图3为本发明实施例提供的一种关系抽取系统的结构示意图;
图4为本发明实施例中提供的一种计算机设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为本发明实施例提供的一种关系抽取方法的使用场景图,如图1所示,用户在客户端提供的页面上输入待抽取目标文本,客户端接收到该待抽取目标文本后,将该待抽取目标文本发送给服务器,服务器接收到该待抽取目标文本后,执行该一种关系抽取方法,获取所述待抽取目标文本对应的实体关系。
需要说明的是,服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。客户端可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。客户端和服务端可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者其他通讯连接方式进行连接,本发明实施例在此不做限制。
图2为本发明实施例提供的一种关系抽取方法的流程图,如图2所示,该方法包括:
S210,获取待抽取目标文本;
S220,将所述待抽取目标文本输入到关系抽取模型中,获取所述待抽取目标文本对应的实体关系,其中,所述关系抽取模型为神经网络模型,所述关系抽取模型通过样本文本和样本标签进行训练得到,所述关系抽取模型在训练过程中构建的模板实体关系进行部分掩码。
本发明实施例旨在解决目前关系抽取无法很好的利用预训练模型的问题,同时又保证了预训练模型在训练和微调阶段的一致性。
本发明一种基于prompt的关系抽取方法流程中,先对关系抽取模型进行训练,然后利用训练后的关系抽取模型对待抽取目标文本进行关系提取,得到待抽取目标文本对应的实体关系。
所述关系抽取模型通过样本文本和样本标签进行训练得到,通过如下步骤得到:
对所述样本文本进行特征提取,获取所述样本文本中的样本实体;
根据所述样本实体,基于预设实体关系模板,对所述样本实体构建模板样本文本,所述模板样本文本包括正模板样本文本和负模板样本文本;
利用所述模板样本文本对BERT中的句子对预测任务构建模型进行训练;
对所述正模板样本文本中表征关系的词语进行掩码,并利用掩码后的正模板样本文本和所述样本标签对BERT的掩码语言模型进行训练,获取训练后的BERT模型,将训练后的BERT模型作为所述关系抽取模型。
第一,先对输入样本文本进行特征提取,主要采用基于深度学习的方法,例如BERT、循环神经网络(Recurrent Neural Network,RNN)等对样本文本进行向量化,向量化是指将一段中文文本用数值向量来表示。
第二,使用目前已有的实体识别方法对输入的样本文本进行实体识别,例如,A某和B某是班上令人羡煞的一对情侣,那么实体识别的结果就是识别出A某和B某这两个实体。
第三,构建模板样本文本,即构建prompt,对抽取出的实体构建prompt,构建的方法主要是基于模板进行构建,对于数据集中的已有预设实体关系已经通过人工构建了模板,例如:预设实体关系是“同学”关系,人工模板主要有:实体1是实体2的同学,实体1和实体2在同一个班上读书,实体1和实体2是同桌;预设实体关系是“出生于”关系,人工模板主要有:实体1在实体2出生,实体1从小就在实体2生活等;预设实体关系是“情侣”关系,人工模板主要有:实体1和实体2正在谈恋爱,实体1是实体2的情侣,实体1和实体2是一对。对于上述输入样本文本,会构建A某是B某的同学、A某和B某在同一个班上读书、A某和B某是同桌(多个模板随机选择一个生成),A某在B某出生、A某从小就在B某生活,A某和B某正在谈恋爱、A某是B某的情侣,A某和B某是一对。
第四,将原始文本和构建好的prompt都进行特征抽取,特征抽取方法为第一步中的方法;其次,对抽取的特征融合,融合方法主要有:
对于一个原始输入文本,会生成若干prompt,挑选其中正确的prompt作为正例,错误的prompt作为负例;(其中针对“A某和B某是班上令人羡煞的一对情侣”,关系抽取数据集中会给定A某和B某的关系是同学和情侣,那么针对同学和情侣关系生成的prompt都是正确的,其余都是错误的);根据原始句子和正例、原始句子和负例对构建出若干个句子对,这些句子对通过BERT中的句子对预测任务Next Sentence Prediction(NSP)构建模型。
同时,对于正确的prompt,通过掩码的方式对句子中的非实体的其他词进行掩码,例如:A某和B某正在谈恋爱,而A某和B某是抽取得到的实体,利用这两个实体构建的prompt,因此进行掩码时会避开这两个实体,那么构造的掩码可能是:A某和B某正在XXX(XXX表示使用特殊字符对原始文本进行了遮盖),然后通过BERT的Masked Language Model(MLM)任务对遮盖住的谈恋爱进行预测,预测为谈恋爱则认为正确,预测为打游戏等其他词则认为错误。
通过将关系抽取任务改造为适应BERT的MLM和NSP任务,然后通过BERT模型进行模型的训练,模型其他部分和BERT保持一致。
第五、构建完模型进行训练,训练完某后可以对文本进行关系抽取得到三元组,例如上述待抽取目标文本“A某和B某是班上令人羡煞的一对情侣”,得到的三元组为:(A某,情侣,B某),(A某,同学,B某)
本发明提出的一种关系抽取方法,可以有效的利用预训练语言模型的优点,提高关系抽取的效果,原始关系抽取任务中,对于文本会直接进行向量化(没有mask掉句子中某些词的操作),而在BERT在训练中是通过一定的概率选择了某个词进行mask后再进行向量化的,由于mask掉的词也是会对句子语义产生影响的,这就使得传统方法中直接使用BERT模型进行文本向量化时会和BERT训练时存在一定的误差,因此本发明采用对prompt进行部分mask掉(类似于完形填空任务)的操作可以有效的降低预训练模型微调和训练过程中的误差,同时对prompt和原始文本构建句子对原始一条文本数据构建出多条数据的方式可以解决微调语料不足的情况,将已有知识进行最大化利用,提高本发明实施例中关系抽取方法的准确性。
本发明采用prompt learning将关系抽取进行转化,可以有效的利用目前大规模的预训练语言模型蕴含的丰富的知识,同时采用“完形填空”的方式进行实体和关系的预测在预训练模型上进行微调,保证了微调阶段和训练阶段的一致性,避免了因语料不足而带来的微调困难等问题。
图3为本发明实施例提供的一种关系抽取系统的结构示意图,如图3所示,该系统包括获取模块310和抽取模块320,其中:
获取模块310用于获取待抽取目标文本;
抽取模块320用于将所述待抽取目标文本输入到关系抽取模型中,获取所述待抽取目标文本对应的实体关系,其中,所述关系抽取模型为神经网络模型,所述关系抽取模型通过样本文本和样本标签进行训练得到,所述关系抽取模型在训练过程中构建的模板实体关系进行部分掩码。
本实施例为与上述方法相对应的系统实施例,详情请参考上述方法实施例,本系统实施例在此不再赘述。
在上述实施例的基础上,优选地,所述抽取模块包括特征提取单元、样本构建单元、第一训练单元、第二训练单元
所述特征提取单元用于对所述样本文本进行特征提取,获取所述样本文本中的样本实体;
所述样本构建单元用于根据所述样本实体,基于预设实体关系模板,对所述样本实体构建模板样本文本,所述模板样本文本包括正模板样本文本和负模板样本文本;
所述第一训练单元用于利用所述模板样本文本对BERT中的句子对预测任务构建模型进行训练;
所述第二训练单元用于对所述正模板样本文本中表征关系的词语进行掩码,并利用掩码后的正模板样本文本和所述样本标签对BERT的掩码语言模型进行训练,获取训练后的BERT模型,将训练后的BERT模型作为所述关系抽取模型。
在上述实施例的基础上,优选地,所述样本构建单元包括样本构建子单元,其中:
所述样本构建子单元用于对于所述样本实体中第一样本实体和第二样本实体,对于所述预设实体关系模板中的每一预设实体关系,构造出所有能表达所述第一样本实体和所述第二样本实体为预设实体关系的语句,构造成的语句即为模板样本文本。
上述关系抽取系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图4为本发明实施例中提供的一种计算机设备的结构示意图,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机存储介质、内存储器。该计算机存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行关系抽取方法过程中生成或获取的数据,如待抽取目标文本。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种关系抽取方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的关系抽取方法的步骤。或者,处理器执行计算机程序时实现关系抽取系统这一实施例中的各模块/单元的功能。
在一实施例中,提供一计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中关系抽取方法的步骤。或者,该计算机程序被处理器执行时实现上述关系抽取系统这一实施例中的各模块/单元的功能。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种关系抽取方法,其特征在于,包括:
获取待抽取目标文本;
将所述待抽取目标文本输入到关系抽取模型中,获取所述待抽取目标文本对应的实体关系,其中,所述关系抽取模型为神经网络模型,所述关系抽取模型通过样本文本和样本标签进行训练得到,所述关系抽取模型在训练过程中构建的模板实体关系进行部分掩码。
2.根据权利要求1所述的关系抽取方法,其特征在于,所述关系抽取模型通过样本文本和样本标签进行训练得到,通过如下步骤得到:
对所述样本文本进行特征提取,获取所述样本文本中的样本实体;
根据所述样本实体,基于预设实体关系模板,对所述样本实体构建模板样本文本,所述模板样本文本包括正模板样本文本和负模板样本文本;
利用所述模板样本文本对BERT中的句子对预测任务构建模型进行训练;
对所述正模板样本文本中表征关系的词语进行掩码,并利用掩码后的正模板样本文本和所述样本标签对BERT的掩码语言模型进行训练,获取训练后的BERT模型,将训练后的BERT模型作为所述关系抽取模型。
3.根据权利要求2所述的关系抽取方法,其特征在于,所述对所述样本文本进行特征提取,获取所述样本文本中的样本实体,包括:
利用机器学习,对所述样本文本进行识别,获取样本实体。
4.根据权利要求2所述的关系抽取方法,其特征在于,所述根据所述样本实体,基于预设实体关系模板,对所述样本实体构建模板样本文本,包括:
对于所述样本实体中第一样本实体和第二样本实体,对于所述预设实体关系模板中的每一预设实体关系,构造出所有能表达所述第一样本实体和所述第二样本实体为预设实体关系的语句,构造成的语句即为模板样本文本。
5.根据权利要求3所述的关系抽取方法,其特征在于,所述对所述正模板样本文本中表征关系的词语进行掩码,包括:
保留所述正模板样本文本中的实体字样,对所述正模板样本文本中的关系字样进行掩码。
6.一种关系抽取系统,其特征在于,包括:
获取模块,用于获取待抽取目标文本;
抽取模块,用于将所述待抽取目标文本输入到关系抽取模型中,获取所述待抽取目标文本对应的实体关系,其中,所述关系抽取模型为神经网络模型,所述关系抽取模型通过样本文本和样本标签进行训练得到,所述关系抽取模型在训练过程中构建的模板实体关系进行部分掩码。
7.根据权利要求6所述的关系抽取系统,其特征在于,所述抽取模块包括特征提取单元、样本构建单元、第一训练单元、第二训练单元
所述特征提取单元用于对所述样本文本进行特征提取,获取所述样本文本中的样本实体;
所述样本构建单元用于根据所述样本实体,基于预设实体关系模板,对所述样本实体构建模板样本文本,所述模板样本文本包括正模板样本文本和负模板样本文本;
所述第一训练单元用于利用所述模板样本文本对BERT中的句子对预测任务构建模型进行训练;
所述第二训练单元用于对所述正模板样本文本中表征关系的词语进行掩码,并利用掩码后的正模板样本文本和所述样本标签对BERT的掩码语言模型进行训练,获取训练后的BERT模型,将训练后的BERT模型作为所述关系抽取模型。
8.根据权利要求7所述的关系抽取系统,其特征在于,所述样本构建单元包括样本构建子单元,其中:
所述样本构建子单元用于对于所述样本实体中第一样本实体和第二样本实体,对于所述预设实体关系模板中的每一预设实体关系,构造出所有能表达所述第一样本实体和所述第二样本实体为预设实体关系的语句,构造成的语句即为模板样本文本。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述关系抽取方法的步骤。
10.一种计算机存储介质,所述计算机存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述关系抽取方法的步骤。
CN202210616979.XA 2022-06-01 2022-06-01 关系抽取方法、系统、设备及存储介质 Pending CN114969372A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210616979.XA CN114969372A (zh) 2022-06-01 2022-06-01 关系抽取方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210616979.XA CN114969372A (zh) 2022-06-01 2022-06-01 关系抽取方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114969372A true CN114969372A (zh) 2022-08-30

Family

ID=82960290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210616979.XA Pending CN114969372A (zh) 2022-06-01 2022-06-01 关系抽取方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114969372A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117763169A (zh) * 2023-12-29 2024-03-26 航天科工(北京)空间信息应用股份有限公司 态势分析领域的知识抽取方法、装置、设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117763169A (zh) * 2023-12-29 2024-03-26 航天科工(北京)空间信息应用股份有限公司 态势分析领域的知识抽取方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN111177326B (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
CN110321432B (zh) 文本事件信息提取方法、电子装置和非易失性存储介质
CN109829155B (zh) 关键词的确定方法、自动评分方法、装置、设备及介质
CN112016319B (zh) 预训练模型获取、疾病实体标注方法、装置及存储介质
WO2022226716A1 (zh) 基于深度学习的Java程序内部注释的生成方法及系统
US12073181B2 (en) Systems and methods for natural language processing (NLP) model robustness determination
CN106030568B (zh) 自然语言处理系统、自然语言处理方法、以及自然语言处理程序
CN112002323A (zh) 语音数据处理方法、装置、计算机设备及存储介质
CN110781673B (zh) 文档验收方法、装置、计算机设备及存储介质
CN111125295A (zh) 一种基于lstm的获取食品安全问题答案的方法及系统
US11790170B2 (en) Converting unstructured technical reports to structured technical reports using machine learning
CN113312899A (zh) 文本分类方法、装置和电子设备
CN115757695A (zh) 一种日志语言模型训练方法及系统
CN114969372A (zh) 关系抽取方法、系统、设备及存储介质
CN114896382A (zh) 人工智能问答模型生成方法、问答方法、装置及存储介质
CN110969005A (zh) 一种确定实体语料之间的相似性的方法及装置
CN116187353A (zh) 翻译方法、装置、计算机设备及其存储介质
CN114638229A (zh) 笔录数据的实体识别方法、装置、介质及设备
CN111090720B (zh) 一种热词的添加方法和装置
CN114238603B (zh) 基于人工智能的问答方法、装置、计算机设备及介质
CN115905500B (zh) 问答对数据的生成方法及装置
CN118468822B (zh) 一种目标领域文本生成方法和系统
CN115495541B (zh) 语料数据库、语料数据库的维护方法、装置、设备和介质
CN115600580B (zh) 文本匹配方法、装置、设备及存储介质
Sandhiyasa et al. Transliteration of Latin Letters to Bali Characters Based on Unicode for Mobile Devices using Finite State Automata and Levenshtein Distance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination