CN112989813A

CN112989813A - 一种基于预训练语言模型的科技资源关系抽取方法及装置

Info

Publication number: CN112989813A
Application number: CN202110251129.XA
Authority: CN
Inventors: 张辉; 王本成; 葛胤池; 金盛豪; 王德庆
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2021-06-18

Abstract

本发明公开了一种基于预训练语言模型的科技资源关系抽取方法及装置。该方法包括如下步骤：将待关系分类的科技资源语句，输入到基于预训练语言模型训练好的科技资源关系抽取模型中；科技资源关系抽取模型输出的结果为该科技资源语句中两个实体之间的关系类别。本发明基于海量无监督数据训练的预训练语言模型，可以提供更加高效的语言特征学习能力，同时避免了使用外部预训练词向量带来的多义词问题。并且，结合度量学习方法，将科技资源关系抽取问题与小样本学习问题相结合，旨在通过学习少量的训练数据，实现较强的关系抽取能力，在标注数据较为匮乏的情况下也可以达到不错的关系分类效果。

Description

一种基于预训练语言模型的科技资源关系抽取方法及装置

技术领域

本发明涉及一种基于预训练语言模型的科技资源关系抽取方法，同时也涉及相应的科技资源关系抽取装置，属于自然语言处理技术领域。

背景技术

在科技资源知识图谱的构建过程中，需要从大量文本中抽取有用的知识，主要是文本中的实体以及实体间的关系。命名实体识别是信息抽取的一个子任务，旨在从文本数据中识别特定意义的实体，通常包含人名、地名、机构名、领域名词等。关系抽取是在识别出文本中的相关实体之后，信息抽取任务还需要抽取任意两个实体之间的语义关系，例如：

In the morning，the President traveled to Detroit.

其中，实体“President”和“Detroit”在语义上属于实体-目的地的关系。文本中含有已标注的实体(entity)，可分别记为e1＝"President",e2＝"Detroit"。对于该文本，关系抽取任务的目标是自动识别出其表达的是e1与e2之间的“实体-目的地关系”。

目前，已有很多模型用以实现实体关系抽取任务，包括基于特征的传统机器学习模型和深度学习模型。传统机器学习模型严重依赖特征的质量，并且特征工程费时费力。深度学习模型的效果受训练数据的规模大小的影响，然而在关系抽取领域所存在的数据集的规模都较小，精确标注训练数据的工作量同样巨大。

发明内容

本发明所要解决的首要技术问题在于提供一种基于预训练语言模型的科技资源关系抽取方法。

本发明所要解决的另一技术问题在于提供一种基于预训练语言模型的科技资源关系抽取装置。

为了实现上述目的，本发明采用下述的技术方案：

根据本发明实施例的第一方面，提供一种基于预训练语言模型的科技资源关系抽取方法，包括如下步骤：

步骤S1、将待关系分类的科技资源语句，输入到基于预训练语言模型训练好的科技资源关系抽取模型中；

步骤S2、所述科技资源关系抽取模型输出的结果为所述科技资源语句中两个实体之间的关系类别。

其中较优地，所述科技资源关系抽取模型通过如下步骤得到；

步骤S11、构建科技资源数据集，其中，所述科技资源数据集包括多个关系类别，每个所述关系类别包括多个符合条件的语句；

步骤S12、通过C-Way K-shot算法从所述科技资源数据集中采样得到支持集和查询集；

步骤S13、将所述支持集中的语句逐个输入到预训练语言模型中，得到各个关系类别中的语句映射到低维嵌入空间中的向量表示序列，并根据该向量表示序列，计算出各个关系类别的原型中心；

步骤S14、将所述查询集中的语句逐个输入到所述预训练语言模型中，得到其映射到低维嵌入空间中的向量表示后，计算每个语句对应的预训练语言模型的损失函数值，并根据损失函数值更新预训练语言模型的参数；

步骤S15、循环执行步骤S12～S14,直到达到终止训练条件时，结束训练并得到所述科技资源关系抽取模型。

其中较优地，每个所述关系类别中的符合条件的语句为根据由论文的关键词和输入法的领域词库组成的实体词集合和关系匹配模板，标注实体对以及实体对之间的关系的语句。

其中较优地，各个关系类别的原型中心为相应关系类别的向量表示序列的向量表示平均值。

其中较优地，步骤S14中，将所述查询集中每个关系类别的语句逐个输入到所述预训练语言模型中，得到每个语句在所述支持集各个关系类别所在的低维嵌入空间中的向量表示。

其中较优地，步骤S14中，根据如下预训练语言模型的损失函数表达式，计算所述查询集中每个所述语句对应的所述预训练语言模型的损失函数值；

上式中，m⁺和m^-表示边距参数，γ表示缩放因子，

表示在查询集的一个语句实体关系属于支持集各个关系类别的概率中，该语句所属的正确关系类别对应的概率；

表示在查询集的一个语句实体关系属于支持集各个关系类别的概率中，除了该语句实际所属的正确关系分类对应的概率之外的最高概率；β表示正则因子，θ表示所述预训练语言模型的参数集合。

其中较优地，根据如下SoftMax函数的公式表达式，计算所述查询集的一个语句实体关系属于所述支持集各个关系类别的概率；

上式中，θ表示所述预训练语言模型的参数集合，c_k表示所述支持集中当前关系类别的原型中心，

表示所述查询集中某个语句输入到所述预训练语言模型后得到的在低维嵌入空间中的向量表示，d表示所述当前关系类别的原型中心与某个语句在低维嵌入空间中的向量表示之间的欧氏距离。

其中较优地，于步骤S15中，终止训练条件为每一轮训练得到的所述查询集各个语句对应的所述预训练语言模型的损失函数值降幅小，使得所述损失数达到收敛。

根据本发明实施例的第二方面，提供一种基于预训练语言模型的科技资源关系抽取装置，包括处理器和存储器，所述处理器读取所述存储器中的计算机程序或指令，用于执行以下操作：

将待关系分类的科技资源语句，输入到基于预训练语言模型训练好的科技资源关系抽取模型中；

所述科技资源关系抽取模型输出的结果为所述科技资源语句中两个实体之间的关系类别。

本发明所提供的基于预训练语言模型的科技资源关系抽取方法及装置基于海量无监督数据训练的预训练语言模型，可以提供更加高效的语言特征学习能力，同时避免了使用外部预训练词向量带来的多义词问题。并且，结合度量学习方法，将科技资源关系抽取问题与小样本学习问题相结合，旨在通过学习少量的训练数据，实现较强的关系抽取能力，在标注数据较为匮乏的情况下也可以达到不错的关系分类效果。

附图说明

图1为本发明实施例提供的基于预训练语言模型的科技资源关系抽取方法的流程图；

图2为本发明实施例提供的基于预训练语言模型的科技资源关系抽取方法中，科技资源关系抽取模型的训练过程示意图；

图3为本发明实施例提供的基于预训练语言模型的科技资源关系抽取方法中，预训练语言模型对输入的文本语句的处理过程示意图；

图4为本发明实施例提供的基于预训练语言模型的科技资源关系抽取方法中，在同一个低维嵌入空间中，各个关系类别的原型中心与待分类的语句的向量之间的距离示意图；

图5为本发明实施例提供的基于预训练语言模型的科技资源关系抽取装置的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术内容做进一步的详细说明。

如图1所示，本发明实施例提供的基于预训练语言模型的科技资源关系抽取方法，包括如下步骤：

步骤S1、将待关系分类的科技资源语句，输入到基于预训练语言模型训练好的科技资源关系抽取模型中。

待关系分类的科技资源语句是指从任意领域的论文信息中提取至少一个语句，将每个语句进行分词后，根据由论文的关键词和输入法的领域词库组成的实体词集合，进行实体对(两个实体)标注后的语句。其中，论文信息包括论文题目、摘要、关键字等。

基于预训练语言模型训练好的科技资源关系抽取模型通过如下步骤得到。

步骤S11、构建科技资源数据集，其中，科技资源数据集包括多个关系类别，每个关系类别包括多个符合条件的语句。

通过爬虫技术从知识数据库中爬取各个领域的论文信息，包括论文题目、摘要、关键字等。例如，从知网、万方爬取的论文信息。

将爬取的论文信息划分成单个语句的形式，逐个语句进行分词后，根据由论文的关键词和输入法的领域词库组成的实体词集合，进行实体对(两个实体)标注，并且还根据关系匹配模板来标注实体对之间的关系。将预设数量的可以标注出实体对以及实体对之间的关系的语句进行存储，并将存储的各个语句按照关系类别进行归类，使得每个关系类别包括多个符合条件的语句，从而组成科技资源数据集。

本发明中，通过观察中文科技资源语料发现，语句中描述实体之间的关系的通常是一个或几个关键词，比如决定两个实体之间的因果关系的关键词可能有“导致”“引起”等。由此通过总结各种实体关系中常见的关键词来标注它们之间的关系。通常来说，关系抽取任务是转化为关系分类任务，这样就需要将关系类型预先设置，本发明根据语料信息与科技领域论文的特点，主要选取了6种不同的关系：因果关系，描述关系，部分与整体关系，地理位置关系、来自产出关系以及医药疾病关系。本发明所选择的对应的关系匹配模板举例如下表1所示。

表1模型训练语料匹配模板

语义关系	训练语料匹配模板
		因果关系	(.？)<Entity>(.+？)</Entity>(.？)导致(.？)<Entity>(.+？)</Entity>(.)
地理位置	(.？)<Entity>(.+？)</Entity>位于<Entity>(.+？)</Entity>(.)
		指示描述	(.？)<Entity>(.+？)</Entity>(.？)是一种(.？)<Entity>(.+？)</Entity>(.)
部分整体	(.？)<Entity>(.+？)</Entity>(.？)含有<Entity>(.+？)</Entity>(.*)
		来自产出	(.？)<Entity>(.+？)</Entity>(.+？)来源于(.？)<Entity>(.+？)</Entity>(.*)
医药疾病	(.？)<Entity>(.+？)</Entity>(.+？)(.？)治疗(.？)<Entity>(.+？)</Entity>(.)

由表1可以看到，关系匹配模板通过正则表达式的形式表示，通过对相应语句进行匹配，可将符合条件的语句进行存储(在实体识别中，本发明将所有的实体都使用“<Entity>”和“</Entity>”来标记实体的开始与结束)。其中，符合条件是指语句中的实体关系中常见的关键词与关系匹配模板相匹配。

步骤S12、通过C-Way K-shot算法从科技资源数据集中采样得到支持集和查询集。

从科技资源数据集中随机抽取C个关系类别，每个关系类别的各个语句中随机抽取K个语句，作为科技资源关系抽取模型训练的支持集；再从这C个关系类别中剩余的语句中，将每个关系类别的各个语句中同样随机抽取K个语句，作为科技资源关系抽取模型训练的查询集。在本发明中，支持集和查询集的数据用于科技资源关系抽取模型从中学会如何区分C个关系类别。例如，科技资源数据集中的6个关系类别，每个关系类别包括20个符合条件的语句；那么可以从科技资源数据集中随机抽取3个关系类别(如图2所示的关系类别A、B、C)，每个关系类别的各个语句中随机抽取5个语句(如图2所示的关系类别A、B、C对应的句子集合)，作为科技资源关系抽取模型训练的支持集；再从这3个关系类别中剩余的45个语句中，将每个关系类别剩余的15个语句中同样随机抽取5个语句，作为科技资源关系抽取模型训练的查询集。

步骤S13、将支持集中的语句逐个输入到预训练语言模型中，得到各个关系类别中的语句映射到低维嵌入空间中的向量表示序列，并根据该向量表示序列，计算出各个关系类别的原型中心。

在本发明中，利用预训练语言模型的编码器(Encoder)将输入的文本语句映射到新的向量空间中，通过不断地学习，让属于同一类关系类别的文本语句在新的向量空间中相互靠近，异类关系类别的文本语句在其中相互远离。具体实现过程如图3所示，首先将支持集中每个关系类别的语句逐个输入到预训练语言模型的编码器中，利用该模型自带的分词工具，对每个语句进行分词处理，将对应的Token Embeddings(词向量)、SegmentEmbeddings(句子向量)和Position Embeddings(位置向量)对应位置相加，最终得到输入到预训练语言模型的多层Transformer编码器的向量。然后经过多层的Transformer编码器层之后，得到每个语句在新的低维嵌入空间(多维向量空间)中的向量表示。支持集每个关系类别中的所有语句在新的低维嵌入空间中的向量表示，组成该关系类别的向量表示序列。

其中，将每个语句转换成输入到预训练语言模型的多层Transformer编码器的向量时，对于语句中的第一个实体词，会在其前后插入‘$’符号，在第二个实体词的前后，插入‘#’符号。同时在一个语句的起始位置插入‘[CLS]’符号，在结束位置插入‘[SEP]’符号。对于输入的句子为“<Entity>大港滩海区</Entity>是<Entity>渤海湾盆地</Entity>主要组成部分。”，处理完后的结果是[CLS]#大港滩海区#是$渤海湾盆地$主要组成部分。[SEP]。然后预训练语言模型会加载自己的词典，将上一步处理完的问题转化成数字ids；最后将构造好的特征(文本id,input_mask,segment_ids,entity_pos1,entity_pos2等)输入到模型的编码器进行学习，最终输出对应位置的词在新的低维嵌入空间(多维向量空间)中的向量表示。

逐个关系类别计算其向量表示序列的向量表示平均值，得到各个关系类别在新的低维嵌入空间中的原型中心，称为类的原型。例如，如图2和图4所示，将关系类别A的5语句对应的在新的低维嵌入空间中的向量表示求平均值，得到该关系类别A在新的低维嵌入空间中的原型中心；采用与得到关系类别A的原型中心相同的方法，分别得到关系类别B和C在新的低维嵌入空间中的原型中心。

步骤S14、将查询集中的语句逐个输入到预训练语言模型中，得到其映射到低维嵌入空间中的向量表示后，计算每个语句对应的预训练语言模型的损失函数值，并根据损失函数值更新预训练语言模型的参数；

将查询集中每个关系类别的语句逐个输入到预训练语言模型的编码器中，得到每个语句在支持集各个关系类别所在的低维嵌入空间中的向量表示(如图4所示的某个待分类语句X在的低维嵌入空间中的向量表示)。

在相同低维嵌入空间中，逐个计算查询集中每个语句的向量表示分别与支持集中各个关系类别的原型中心之间的欧式距离(如图2所示的空心圆代表的查询集中某个语句的向量表示与各个实心圆代表的相应关系类别的原型中心之间的距离)，并将计算的每个欧式距离逐个输入到SoftMax函数中，得到查询集中每个语句中实体关系属于支持集中各个关系类别的概率。对于查询集中某个语句，其距离关系类别的原型中心越近，通过SoftMax函数计算的该语句中实体关系属于支持集中关系类别的概率越高，反之，概率会越低。其中，SoftMax函数的公式表达式如下。

上式中，θ表示预训练语言模型的参数集合，c_k表示支持集中当前关系类别的原型中心，

表示查询集中某个语句输入到预训练语言模型后得到的在低维嵌入空间中的向量表示，d表示当前关系类别的原型中心与某个语句在低维嵌入空间中的向量表示之间的欧氏距离。

每得到查询集中一个语句的实体关系属于支持集中各个关系类别的概率后，根据如下预训练语言模型的损失函数表达式，计算该语句对应的预训练语言模型的损失函数值L。

上式中，m⁺和m^-表示边距参数，它们决定了正确类别与错误类别概率的间距大小，γ表示缩放因子，用于放大或缩小边距与概率的差异；

表示在查询集的一个语句实体关系属于支持集各个关系类别的概率中，除了该语句实际所属的正确关系分类对应的概率之外的最高概率；β表示正则因子。本发明中，将非正确关系分类以外的其它关系类别的最高概率作为此项概率来优化模型参数；这样做的好处是可以在最大化正确关系类别概率的同时，将该关系类别与其它关系类别的间距拉到最大，使不同的关系类别间相似度降低。

步骤S15、循环执行步骤S12～S14,直到达到终止训练条件时，结束训练并得到科技资源关系抽取模型。

对每一轮训练得到的查询集的各个语句对应的预训练语言模型的损失函数值进行分析，若损失函数变化降幅大，则调整预训练语言模型的参数后，继续执行步骤S12～S14,直到损失函数变化降幅小，损失函数达到收敛时，结束模型训练，确定科技资源关系抽取模型的最优参数，从而得到科技资源关系抽取模型。

步骤S2、科技资源关系抽取模型输出的结果为该科技资源语句中两个实体之间的关系类别。

待关系分类的科技资源语句输入到训练好的科技资源关系抽取模型中，该模型会将计算的该语句中实体关系属于预设各个关系类别的概率中概率最高对应的关系类别，作为该语句中实体关系属于的关系类别，并将该分类结果进行输出。

此外，如图5所示，本发明实施例还提供一种基于预训练语言模型的科技资源关系抽取装置，包括处理器32和存储器31，还可以根据实际需要进一步包括通信组件、传感器组件、电源组件、多媒体组件及输入/输出接口。其中，存储器、通信组件、传感器组件、电源组件、多媒体组件及输入/输出接口均与该处理器32连接。前已述及，存储器31可以是静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器等；处理器32可以是中央处理器(CPU)、图形处理器(GPU)、现场可编程逻辑门阵列(FPGA)、专用集成电路(ASIC)、数字信号处理(DSP)芯片等。其它通信组件、传感器组件、电源组件、多媒体组件等均可以采用现有智能手机中的通用部件实现，在此就不具体说明了。

另外，本发明实施例提供的基于预训练语言模型的科技资源关系抽取装置，包括处理器32和存储器31，处理器32读取所述存储器31中的计算机程序或指令，用于执行以下操作：

将待关系分类的科技资源语句，输入到基于预训练语言模型训练好的科技资源关系抽取模型中。

科技资源关系抽取模型输出的结果为该科技资源语句中两个实体之间的关系类别。

另外，本发明实施例还提供一种计算机可读存储介质，所述可读存储介质上存储有指令，当其在计算机上运行时，使得所述计算机执行如上述图1所述的基于预训练语言模型的科技资源关系抽取方法，此处不再赘述其具体实现方式。

另外，本发明实施例还提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行如上述图1所述的基于预训练语言模型的科技资源关系抽取方法，此处不再赘述其具体实现方式。

以上对本发明所提供的基于预训练语言模型的科技资源关系抽取方法及装置进行了详细的说明。对本领域的一般技术人员而言，在不背离本发明实质内容的前提下对它所做的任何显而易见的改动，都将属于本发明专利权的保护范围。