CN116362247A

CN116362247A - 一种基于mrc框架的实体抽取方法

Info

Publication number: CN116362247A
Application number: CN202310157203.0A
Authority: CN
Inventors: 贝毅君; 高克威
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2023-06-30

Abstract

本发明公开了一种基于MRC框架的实体抽取方法，该方法包括：首先根据设备维护手册获取目标句子，根据实体类型的定义生成相应的问题，将目标句子和问题进行拼接以获取语料；然后采用分词工具对语料进行分词，并进行编码后输入BERT模型获取目标句子的词嵌入表示；其次将目标句子的词嵌入表示通过句子分类模块获取句子级别特征；再将句子级别特征和目标句子的词嵌入表示相结合以整合到实体抽取模块；最后将句子分类模块和实体抽取模块相结合，并对二者共同训练，根据训练完成的两个模块完成实体抽取。本发明能够将句子级别的信息用于实体抽取任务中，有助于提高实体抽取的精度，很好地解决了设备维护文档中实体的抽取问题。

Description

一种基于MRC框架的实体抽取方法

技术领域

本发明涉及工业设备维护领域，尤其涉及一种基于MRC(Machine ReadingComprehension，机器阅读理解)框架的实体抽取方法。

背景技术

数控机床设备是生产活动的物质技术基础，保证设备健康持续地运行，减少风险和故障的发生，是每一个制造业企业能够正常运行的前提。但是随着经济全球化的发展，企业之间的竞争在不断地加大，设备也变得越来越机械化、自动化和智能化。与此同时，设备系统结构复杂性日益增加，设备的故障检测、诊断、预测和日常综合维护等工作难度也不断的加大。系统中任何一个部件出现故障，都将影响整个设备系统的正常运行。在近十几年快速发展的工业中，国内外由于机械部件故障而导致的灾难性事件也时有发生。

数控机床设备维护技术和工业生产的发展相互促进，随着传统工业生产的发展，其存在不足与局限性：由于数据分散、繁杂，传统的设备管理系统信息检索效果非常不理想；各个数据之间其实是存在关联的，如设备和各个故障维修方法，两者是存在着紧密联系，而传统的系统对于这些数据没有进行一定的关联，导致数据与数据之间关联性较差；传统的设备维护大部分都是依赖维护人员的经验知识以及维护文档，知识非常零散，当设备出现故障时，维护工作难以快速、有效的展开。

由于这些的不足，数控机床设备维护的技术方法需要不断的提高，同时数控机床设备维护知识图谱存在缺失的问题，使得遇到一些问题难以快速展开。而命名实体识别是知识图谱构建过程中的重要步骤。本发明旨在提出一种面向设备维护领域的实体抽取方法，以用于知识图谱在数控机床设备维护领域的构建。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于MRC框架的实体抽取方法。

本发明的目的是通过以下技术方案来实现的：一种基于MRC框架的实体抽取方法，包括以下步骤：

(1)根据设备维护手册获取目标句子，根据实体类型的定义生成相应的问题，将所述目标句子和所述问题进行拼接以获取语料；

(2)采用分词工具对所述步骤(1)获得的语料进行分词，并对分词后的语料进行编码，将编码后的语料输入BERT模型，以获取目标句子的词嵌入表示；

(3)根据所述步骤(2)获取的目标句子的词嵌入表示获取句子级别特征；

(4)将所述步骤(3)获取的句子级别特征按照权重结合到所述步骤(2)获取的目标句子的词嵌入表示中，以获取新的目标句子词嵌入；根据新的目标句子词嵌入预测可能作为开端的词，以获取词头集合；根据新的目标句子词嵌入预测可能作为结尾的词，以获取词尾集合；并将词头集合和词尾集合中的词进行匹配；

(5)根据所述步骤(4)中匹配后的结果完成实体抽取。

可选地，所述步骤(2)中，分词工具为WordpieceTokenizer；通过bert-embedding对分词后的语料进行编码。

可选地，所述步骤(3)中，根据所述步骤(2)获取的目标句子的词嵌入表示获取句子级别特征具体为：将所述步骤(2)获取的目标句子的词嵌入表示通过多头注意力机制层，并将多头注意力机制层的输出进行最大池化处理以获取目标句子嵌入，根据目标句子嵌入预测句子类型。

可选地，所述目标句子嵌入为句子级别特征。

可选地，所述根据目标句子嵌入预测句子类型具体为：将目标句子嵌入通过线性映射层以获取未归一化的对数概率；将该对数概率进行softmax函数归一化处理，以获取句子类型的预测分布，根据该预测分布预测句子类型；

根据所述预测分布和实际分布之间的交叉熵获取句子类型预测的损失函数

可选地，所述步骤(4)中，将所述步骤(3)获取的句子级别特征按照权重结合到所述步骤(2)获取的目标句子的词嵌入表示中的方法具体为：首先根据句子类型和实体类型同时出现的概率计算不同句子类型和实体类型之间的相关程度矩阵；然后将相关程度矩阵对应的值作为初始化权重；最后根据初始化权重将目标句子嵌入加到每个目标句子的词嵌入表示中。

可选地，所述步骤(4)中，所述获取词头集合的方法具体为：首先将目标句子词嵌入通过线性映射层，得到未归一化的对数概率；然后将未归一化的对数概率进行softmax函数归一化处理，得到各词预测为实体开端的概率分布；最后选取作为实体开端的概率大于0.5的词为可能作为开端的词集合，即为词头集合；

根据预测的所述实体开端的概率分布和实际分布之间的交叉熵获取开端坐标预测的损失函数

可选地，所述步骤(4)中，所述获取词尾集合的方法具体为：首先将目标句子词嵌入通过线性映射层，得到未归一化的对数概率；然后将未归一化的对数概率进行softmax函数归一化处理，得到各词预测为实体结尾的概率分布；最后选取作为实体结尾的概率大于0.5的词为可能作为结尾的词集合，即为词尾集合；

根据预测的所述实体结尾的概率分布和实际分布之间的交叉熵获取结尾坐标预测的损失函数

可选地，所述步骤(4)中，所述将词头集合和词尾集合中的词进行匹配的方法具体为：首先将词头集合中候选开端的词和词尾集合中候选结尾的词的嵌入表示进行结合；然后将结合后的词嵌入通过线性映射层，得到未归一化的对数概率；最后将未归一化的对数概率进行softmax函数归一化处理，得到对应的预测匹配概率分布；

根据所述预测匹配概率分布和实际分布的交叉熵获取开端坐标和结尾坐标匹配的损失函数

可选地，所述步骤(5)中，根据所述步骤(4)中匹配后的结果完成实体抽取具体为：基于所述步骤(4)中匹配后的结果生成开端坐标预测的损失函数

结尾坐标预测的损失函数/>

开端坐标和结尾坐标匹配的损失函数/>

同时结合句子类型预测的损失函数/>

给每个损失函数赋予不同的权重，对其求和以获取最终的损失函数，根据最终的损失函数进行训练，以完成实体抽取。

本发明的有益效果是，本发明将知识图谱技术引入制造业企业的设备管理与维护业务，实现设备管理与维护信息化，帮助生产企业优化决策管理，构建了更有效的信息检索方式；本发明能够更好地凸显设备数据之间的联系，构建有效的知识网络；本发明整合了设备制造数据，形成了完整的知识脉络；本发明在抽取时能够较高准确率地将实体抽取出来，有助于提高实体抽取的精度。

附图说明

图1是本发明的整体流程图；

图2是基于MRC框架的多任务实体抽取模型的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本发明的基于MRC框架的实体抽取方法，可以通过引入句子级别信息来提高实体抽取模型的性能，该实体抽取方法包括以下步骤：

(1)根据设备维护手册获取目标句子，根据实体类型的定义生成相应的问题，将所述目标句子和所述问题进行拼接以获取语料。

本实施例中，可以将实体抽取问题建模为一类机器阅读理解问题，不同的实体类型可以生成相应的问题。

需要说明的是，工业设备包括多种设备，例如数控机床、车床、钻床等，相对应的，不同的工业设备会有相对应的设备维护手册，从该设备维护手册中即可获取目标句子。

本实施例中，以数控机床的设备维护手册为例，例如，中国知识出版社出版的《实用数控机床故障诊断及维修技术500例》，从该书的案例中可以获取具体的目标句子。

具体地，对数据进行标注，该标注包括实体类型标注和句子类别标注。对于实体类型，根据数控机床设备维护领域的特点，可以分为：系统、部件、报警等n_e个不同类型。对于句子类别，根据数控机床设备维护文档格式严谨、专业区分跨度大的特点，分类包括多层次，首先根据案例文档的格式进行分配，比如故障现象、分析处理过程等；之后根据案例所属的故障类别进行分类，比如CNC故障、伺服进给系统故障、伺服驱动系统故障等。然后将实体类型和句子类别这两类标签进行两两组合，可以得到最终n_l个语料标签。

问题的生成有很多种方式，本实施例中将实体类型的定义作为问题。示例性地，如图2所示，实体类型为“数控系统”，对应的问题为“数控系统是数字控制系统的简称，根据计算机存储器中存储的控制程序，执行部分或全部数值控制功能，并配有接口电路和伺服驱动装置的专用计算机系统”。将问题序列记作Q{q₁,q₂,…,q_k}，其中k代表的是问题的词数量；目标句子记作W{w₁,w₂,…,w_n}，其中n代表的是输入序列的长度。将Q和W进行拼接，得到最终的语料，记为{[CLS],q₁,q₂,…,q_k,{SEP},w₁,w₂,…,w_n}，将拼接后的语料作为一条数据输入到BERT模型中。

(2)采用分词工具对步骤(1)获得的语料进行分词，并对分词后的语料进行编码，将编码后的语料输入BERT模型(Bidirectional Encoder Representation fromTransformers)，以获取目标句子的词嵌入表示。

应当理解的是，BERT模型通过训练无监督任务来获取目标句子的词嵌入表示，故将编码后的语料输入到BERT模型中即可获取目标句子的词嵌入表示。

本实施例中，需要将问题和目标句子即语料同时输入到BERT模型中，另外，由于对每一个汉字进行编码成本很大，且效果不好，所以需要先采用分词工具对语料进行分词，将较长的语料划分为具体的小单元，然后再进行编码，编码后再输入到BERT模型中，以获取目标句子的词嵌入表示。

具体地，采用分词工具如WordpieceTokenizer将输入语料进行分词，通过预训练的词嵌入bert-embedding对分词后的语料进行编码，并且同时加入了分段嵌入SegmentEmbedding来区分问题和目标句子，也加入了位置嵌入Position Embedding来表示位置信息。之后进入到BERT模型，BERT模型用两个无监督模型Masked Language Model和NextSentence Prediction来进行预训练。其中，Masked Language Model的训练任务为：通过去掉部分单词的句子来预测被去掉的单词，其倾向于获取token层次的表征；而NextSentence Prediction的训练任务为：预测给定句子是否为目标句子的下一句，其更倾向于句子层次的表征。如图1所示，BERT模型最终输出的目标句子的词嵌入表示为

其中U＝u₁,u₂,…,u_k}是问题的预训练嵌入，H＝h₁,h₂,…,h_n}是输入目标句子的预训练嵌入。因为BERT模型是一个双向深度模型，通过训练，H中各词的嵌入表示已经包含了问题以及上下文的信息，因此直接用H来执行之后的任务。

应当理解的是，因为中文NLP已经发展了一段时间，目前已经有很多预训练好的embedding了，与字典类似，一个词语对应一个编码。

(3)根据步骤(2)获取的目标句子的词嵌入表示获取句子级别特征。

本实施例中，如图2所示，根据步骤(2)获取的目标句子的词嵌入表示获取句子级别特征具体为：将步骤(2)获取的目标句子的词嵌入表示通过多头注意力机制(Multi-headAttention)层，并将多头注意力机制层的输出进行最大池化处理以获取目标句子嵌入，根据目标句子嵌入预测句子类型。

需要说明的是，句子级别特征即为目标句子嵌入。

本实施例中，句子分类模块执行的是句子分类任务，将步骤(2)获取的目标句子的词嵌入表示通过该模块即可获取句子级别特征。具体地，首先将BERT模型中获得的目标句子的词嵌入表示即H通过一个Multi-head Attention层，过程如下：

head_j＝attention(Q_j,K_j,V_j)

Q_j,K_i,V_j＝HW_j ^Q,HW_j ^K,HW_i ^v

其中，

都是需要训练的权重。其中，n_h代表的是head数量。

进一步地，attention函数的计算如下所示：

其中，softmax指的是归一指数化函数。这里选用Transformer中的标准点积attention，选择

本实施例中，如图2所示，根据目标句子嵌入预测句子类型具体为：将目标句子嵌入通过线性映射层以获取未归一化的对数概率；将该对数概率进行softmax函数归一化处理，以获取句子类型的预测分布，根据该预测分布预测句子类型。

具体地，通过多头注意力机制(Multi-head Attention)层的输出定义为H′＝{h′₁,h′₂,…h′_n}，

之后将H′通过最大池化层得到/>

之后将h^*通过线性映射层得到非归一化的对数概率，将其输入到softmax函数中实现归一化，得到句子分类模块的预测/>

本实施例中，根据预测分布和实际分布之间的交叉熵作为句子类型预测的损失函数

将训练数据中的真实句子类别分布定义为R_l，该损失函数/>

的表达式为：

其中，上标(i)代表的是第i个输入样本，符号“·”代表的是点积，M代表样本量。

(4)将步骤(3)获取的句子级别特征按照权重结合到步骤(2)获取的目标句子的词嵌入表示中，以获取新的目标句子词嵌入；根据新的目标句子词嵌入预测可能作为开端的词，以获取词头集合；根据新的目标句子词嵌入预测可能作为结尾的词，以获取词尾集合；并将词头集合和词尾集合中的词进行匹配。

本实施例中，实体抽取模块执行的是实体抽取任务，通过实体抽取模块即可执行上述步骤，不同的实体类型和不同的句子类型之间存在着一定的关联性，为了将句子类别用于辅助提升实体抽取任务的表现，本实施例将句子级别特征用于实体抽取任务中，因此这里并不直接将H用于执行实体抽取任务，而是将句子级别特征添加到H中，这里用h^*代表句子级别特征。

将句子级别特征按照权重结合到目标句子的词嵌入表示中的方法具体为：首先根据句子类型和实体类型同时出现的概率计算不同句子类型和实体类型之间的相关程度矩阵；然后将相关程度矩阵对应的值作为初始化权重；最后根据初始化权重将目标句子嵌入加到每个目标句子的词嵌入表示中。

示例性地，以第i类实体的识别过程为例，具体的结合方式如下：

首先根据不同的句子类别和实体类别同时出现的概率，计算不同句子类别和实体类别之间的匹配程度矩阵

其中n_l代表的是句子类别的数量，n_e代表的是实体类别的数量，接下来根据匹配程度矩阵M，将h^*结合到输入句子的嵌入表示H上。

H″＝H+λ{h^*,h^*,…h^*}

λ₀＝M⁽ⁱ⁾·P_sen

其中，λ是需要训练的参数，λ₀是λ的初始化值，M⁽ⁱ⁾为步骤(1)中的关联度匹配模型M的第i列，

由于输入属于同一个句子，它们有相同的句子级别特征，所以将h^*以相同的方式结合到H的每一个词嵌入上。最终得到含有句子级别信息的输入句子嵌入表示

本实施例中，得到词头集合的方法具体为：首先将目标句子词嵌入(即目标句子的各词的嵌入)通过线性映射层，得到未归一化的对数概率；然后将未归一化的对数概率进行softmax函数归一化处理，得到各词预测为实体开端的概率分布；最后选取作为实体开端的概率大于0.5的词为可能作为开端的词集合，即为词头集合。

本实施例中，得到词尾集合的方法具体为：首先将目标句子词嵌入(目标句子的各词的嵌入)通过线性映射层，得到未归一化的对数概率；然后将未归一化的对数概率进行softmax函数归一化处理，得到各词预测为实体结尾的概率分布；最后选取作为实体结尾的概率大于0.5的词为可能作为结尾的词集合，即为词尾集合。

具体地，因为一个句子中都能存在多个命名实体，所以每个单词都有可能是命名实体的开头，同样也都有可能是命名实体的结尾。因此在计算在预测命名实体的过程中，我们分别预测每个单词作为命名实体开端的概率分布P_start，以及作为实体结尾的概率分布P_end。P_start和P_end的计算过程如下：

上述公式中，T_start,

是在训练过程中需要学习的参数。以P_start为例，为了得到每个单词是命名实体开头的概率分布，赋予每个单词一个二元数组表示未归一化的对数概率分布，之后通过softmax函数进行归一化，输出代表了每个单词作为命名实体开头的概率分布，如/>

是一个二元数组，表示的是第i个单词作为实体开端的概率分布，该二元数组中第一个元素代表的是作为开端的概率，第二个元素代表的是不是作为开端的概率。P_end的计算过程也是同上。

接下来获取作为开端的候选词的坐标集合S_s，以及作为结尾的候选词的坐标集合S_e。获取P_start中预测为开端概率大于0.5的词的坐标集合S_s，同样的，将P_end中预测为结尾概率大于0.5的词的坐标集合定义为S_e。

本实施例中，将词头集合和词尾集合中的词进行匹配的方法具体为：首先将词头集合中候选开端的词和词尾集合中候选结尾的词的嵌入表示进行结合；然后将结合后的词嵌入通过线性映射层，得到未归一化的对数概率；最后将未归一化的对数概率进行softmax函数归一化处理，得到对应的预测匹配概率分布。

具体地，由于考虑命名实体之间可能存在嵌套的情况，无法直接通过就近原则来匹配开头坐标和结尾坐标。因此需要将候选的开端集合S_s中的坐标和候选的结尾集合S_e中的坐标进行匹配。将候选开端词的嵌入和候选结尾词的嵌入进行拼接，将拼接得到的嵌入表示用于计算匹配的概率。

对于候选开端词的坐标i_start∈S_s，候选结尾词的坐标i_end∈S_e，我们有匹配概率：

其中，

是需要学习的权重；sigmod(·)表示逻辑斯蒂函数；/>

表示候选开端词的嵌入表示；/>

表示候选结尾词的嵌入表示。

本实施例中，实体抽取任务的损失函数由三部分组成，分别是实体开端坐标预测的损失函数

实体结尾坐标预测的损失函数/>

以及开端坐标和结尾坐标匹配的损失函数/>

具体地，将开端的预测分布和实际分布之间的交叉熵作为开端坐标预测的损失函数

将结尾的预测分布和实际分布之间的交叉熵作为结尾坐标预测的损失函数/>

将预测匹配概率分布和实际分布的交叉熵作为开端坐标和结尾坐标匹配的损失函数

另外，用R表示真实数据的分布，相对应地，则有：

其中，

代表的是交叉熵，/>

代表的是不同的开端坐标和不同的结尾坐标之间的匹配概率。

(5)根据步骤(4)中匹配后的结果完成实体抽取。

本实施例中，BERT模型需要执行句子分类以及实体抽取这两个任务，且需要协同进行，相应地，句子分类模块和实体抽取模块需要共同训练，因此需要将句子分类任务的损失函数和实体抽取的损失函数相结合，即可获取最终的损失函数。

具体地，基于步骤(4)中匹配后的结果生成开端坐标预测的损失函数、结尾坐标预测的损失函数、开端坐标和结尾坐标匹配的损失函数，同时结合句子类型预测的损失函数，根据结合的损失函数对句子分类模块和实体抽取模块共同训练，根据训练完成的句子分类模块和实体抽取模块以完成实体抽取。

本实施例中，将句子分类模块和实体抽取模块的损失函数结合的方法具体为：将句子类型预测的损失函数

作为句子分类模块的损失函数；将开端坐标预测的损失函数

结尾坐标预测的损失函数/>

开端坐标和结尾坐标匹配的损失函数/>

作为实体抽取模块的损失函数；给每个损失函数赋予不同的权重，对其求和以获取最终的损失函数。

最终的损失函数的表达式为：

其中，α,β,γ,δ∈[0,1]是超参，代表了不同任务在整个训练过程中的权重。

通过上述步骤的实施，可以在数控机床设备维护文档中抽取出预先定义类型的实体类型。且由于句子分类模块的协同，将句子级别特征来辅助实体抽取，能够有效的提升实体抽取方法的有效性。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于MRC框架的实体抽取方法，其特征在于，包括以下步骤：

(5)根据所述步骤(4)中匹配后的结果完成实体抽取。

2.根据权利要求1所述的基于MRC框架的实体抽取方法，其特征在于，所述步骤(2)中，分词工具为WordpieceTokenizer；通过bert-embedding对分词后的语料进行编码。

3.根据权利要求1所述的基于MRC框架的实体抽取方法，其特征在于，所述步骤(3)中，根据所述步骤(2)获取的目标句子的词嵌入表示获取句子级别特征具体为：将所述步骤(2)获取的目标句子的词嵌入表示通过多头注意力机制层，并将多头注意力机制层的输出进行最大池化处理以获取目标句子嵌入，根据目标句子嵌入预测句子类型。

4.根据权利要求3所述的基于MRC框架的实体抽取方法，其特征在于，所述目标句子嵌入为句子级别特征。

5.根据权利要求3所述的基于MRC框架的实体抽取方法，其特征在于，所述根据目标句子嵌入预测句子类型具体为：将目标句子嵌入通过线性映射层以获取未归一化的对数概率；将该对数概率进行softmax函数归一化处理，以获取句子类型的预测分布，根据该预测分布预测句子类型；

6.根据权利要求1所述的基于MRC框架的实体抽取方法，其特征在于，所述步骤(4)中，将所述步骤(3)获取的句子级别特征按照权重结合到所述步骤(2)获取的目标句子的词嵌入表示中的方法具体为：首先根据句子类型和实体类型同时出现的概率计算不同句子类型和实体类型之间的相关程度矩阵；然后将相关程度矩阵对应的值作为初始化权重；最后根据初始化权重将目标句子嵌入加到每个目标句子的词嵌入表示中。

7.根据权利要求1所述的基于MRC框架的实体抽取方法，其特征在于，所述步骤(4)中，所述获取词头集合的方法具体为：首先将目标句子词嵌入通过线性映射层，得到未归一化的对数概率；然后将未归一化的对数概率进行softmax函数归一化处理，得到各词预测为实体开端的概率分布；最后选取作为实体开端的概率大于0.5的词为可能作为开端的词集合，即为词头集合；

8.根据权利要求1所述的基于MRC框架的实体抽取方法，其特征在于，所述步骤(4)中，所述获取词尾集合的方法具体为：首先将目标句子词嵌入通过线性映射层，得到未归一化的对数概率；然后将未归一化的对数概率进行softmax函数归一化处理，得到各词预测为实体结尾的概率分布；最后选取作为实体结尾的概率大于0.5的词为可能作为结尾的词集合，即为词尾集合；

9.根据权利要求1所述的基于MRC框架的实体抽取方法，其特征在于，所述步骤(4)中，所述将词头集合和词尾集合中的词进行匹配的方法具体为：首先将词头集合中候选开端的词和词尾集合中候选结尾的词的嵌入表示进行结合；然后将结合后的词嵌入通过线性映射层，得到未归一化的对数概率；最后将未归一化的对数概率进行softmax函数归一化处理，得到对应的预测匹配概率分布；

10.根据权利要求1所述的基于MRC框架的实体抽取方法，其特征在于，所述步骤(5)中，根据所述步骤(4)中匹配后的结果完成实体抽取具体为：基于所述步骤(4)中匹配后的结果生成开端坐标预测的损失函数

结尾坐标预测的损失函数/>

开端坐标和结尾坐标匹配的损失函数/>

同时结合句子类型预测的损失函数/>