CN115688789A

CN115688789A - 一种基于动态标签的实体关系抽取模型训练方法及系统

Info

Publication number: CN115688789A
Application number: CN202211433871.3A
Authority: CN
Inventors: 白洋; 张彤; 徐锋; 李帅衡; 王海鑫; 隋悦; 姚帅; 贺婧媛; 汪伟峰
Original assignee: Beijing Jinghang Computing Communication Research Institute
Current assignee: Beijing Jinghang Computing Communication Research Institute
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2023-02-03
Anticipated expiration: 2042-11-16
Also published as: CN115688789B

Abstract

本发明涉及一种基于动态标签的实体关系抽取模型训练方法及系统，属于数据处理技术领域，解决了现有技术中样本不均衡时关系抽取模型准确率低的问题。包括预处理历史质量问题分析报告，构建样本集，将样本集划分为训练集和测试集；构建PCNN模型，基于训练集训练PCNN模型，根据当前训练结果动态更新各训练样本对应的各关系类别标签值，直至训练结束，得到训练好的PCNN模型；基于测试集验证PCNN模型，当模型准确率小于阈值，根据验证结果更新各关系类别的样本权重，并根据更新后的各关系类别的样本权重扩充训练集，基于扩充后的训练集再次训练PCNN模型，直至模型准确率不小于阈值，得到优化的PCNN模型，作为实体关系抽取模型。实现了关系抽取模型的高准确率。

Description

一种基于动态标签的实体关系抽取模型训练方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于动态标签的实体关系抽取模型训练方法及系统。

背景技术

关系抽取作为信息抽取、自然语言理解、信息检索等领域的核心任务和重要环节，能够从非结构化文本中抽取实体对间的语义关系，实现语义理解与解析，相应的研究成果广泛应用于文本摘要、智能问答和知识图谱等技术领域。

传统的关系抽取方法主要为基于特征向量与核函数的方法。其中基于特征向量的关系抽取方法的核心是利用词、词性序列、上下文、依存句法、句法树等构建特征工程提取数据的显式直观特征，通过启发式的方法选取特征集合，使用多层次的语言特征构造向量，关系抽取的速度较快。由于很难找出适合关系抽取任务的新特征，该类方法性能难以提升，因此方法的应用有局限性。基于核函数的关系抽取方法不需要人为构造显性的特征空间，直接文本的字符串或者句法分析的树结构作为输入，是利用卷积核、树核等核函数计算方式，自动提取数据的隐式高维特征，通过计算输入实例之间的相似度训练分类模型。基于核函数的方法可以利用文本的长距离特征，从而在理论上具有高维特征空间，关系抽取的结果优于基于特征向量的方法。但是由于核函数方法利用隐性方式表示特征，从而可能引入噪声信息，不利于判断特征有效性。

随着近年来深度学习的崛起，深度学习也逐渐应用于实体关系抽取任务中。深度学习的关系抽取任务能避免方法中人工特征选择等步骤，减少并改善特征抽取过程中的误差积累问题。对比传统方法，深度学习的关系抽取方法依靠大量数据集进行算法模型的训练，关系抽取模型的准确率较传统方法有较大的提升。但是，模型对样本数据集具有依赖性，当样本量越充足时，模型的学习和关系表达能力越强，关系抽取也越精准。但是在一些存在样本不均衡特性的领域，比如制造领域，现有关系抽取模型很难得到精准应用，且不具备跨领域泛化能力。因此，在样本不均衡的情况下现有关系抽取模型的能力不足、精度不高，无法满足实际工程应用需要。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种基于动态标签的实体关系抽取模型训练方法，用以解决现有样本不均衡时关系抽取模型准确率低的问题。

一方面，本发明实施例提供了一种基于动态标签的实体关系抽取模型训练方法，包括如下步骤：

预处理历史质量问题分析报告，构建样本集，将样本集划分为训练集和测试集；

构建PCNN模型，基于训练集训练PCNN模型，根据当前训练结果动态更新各训练样本对应的各关系类别标签值，直至训练结束，得到训练好的PCNN模型；

基于测试集验证PCNN模型，当模型准确率小于阈值，根据验证结果更新各关系类别的样本权重，并根据更新后的各关系类别的样本权重扩充训练集，基于扩充后的训练集再次训练PCNN模型，直至模型准确率不小于阈值，得到优化的PCNN模型，作为实体关系抽取模型。

基于上述方法的进一步改进，预处理历史质量问题分析报告，构建样本集，包括：选取历史质量问题分析报告中的信息，作为待处理数据；对待处理数据中的语句标注出实体和关系，得到标注信息，并对语句进行分词处理，将分词结果和标注信息放入样本集中；语句中实体数量大于1且实体之间存在关系。

基于上述方法的进一步改进，根据当前训练结果动态更新各训练样本对应的各关系类别标签值，采用如下公式：

其中，lable_i为在当前训练结果中当前训练样本第i个关系类别的动态标签值，i＝1,2,...,K，K为关系类别总个数，ε为超参数，detect_i为在当前训练结果中当前训练样本被预测出的关系类别，ps_pos为被预测出的关系类别对应的概率。

基于上述方法的进一步改进，根据验证结果更新各关系类别的样本权重，包括：

根据训练集中各关系类别的样本数量，得到各关系类别的初始样本权重；

根据验证结果，统计测试集中各关系类别的样本中被预测错误的样本数量，计算各关系类别的样本权重调节因子；

各关系类别的初始样本权重分别乘以对应的样本权重调节因子，得到各关系类别更新后的样本权重。

基于上述方法的进一步改进，根据训练集中各关系类别的样本数量，得到各关系类别的初始样本权重，通过下式计算得到：

其中，w_i≥0(i＝1,2,…,K)为训练集中第i个关系类别的初始样本权重，K为关系类别数，X_max为训练集中样本数量最多的关系类别的样本数量，X_i为第i个关系类别的样本数量。

基于上述方法的进一步改进，测试集中各关系类别的样本中被预测错误的样本数量包括：负样本被预测为正样本的样本数量、正样本被预测为负样本的样本数量和被漏判的样本数量。

基于上述方法的进一步改进，各关系类别的样本权重调节因子，通过下式计算得到：

其中，s_i≥0(i＝1,2,…,K)为训练集中第i个关系类别的样本权重调节因子，K为关系类别数，Y_ri为测试集中第i个关系类别的样本中被预测错误的样本数量，Y_i为测试集中第i个关系类别的样本数量。

基于上述方法的进一步改进，根据更新后的各关系类别的样本权重扩充训练集，包括：将当前训练集中各关系类别的样本数量分别乘以对应的更新后的样本权重，得到各关系类别的新样本数量；根据随机排列组合方法，将当前训练集中各关系类别的样本数量扩充至对应的新样本数量。

基于上述方法的进一步改进，PCNN模型包括输入映射层、卷积层、分段最大池化和全连接层。

另一方面，本发明实施例提供了一种基于动态标签的实体关系抽取模型训练系统，包括：

样本集生成模块，用于预处理历史质量问题分析报告，构建样本集，将样本集划分为训练集和测试集；

模型训练模块，用于构建PCNN模型，基于训练集训练PCNN模型，根据当前训练结果动态更新各训练样本对应的各关系类别标签值，直至训练结束，得到训练好的PCNN模型；

模型优化模块，用于基于测试集验证PCNN模型，当模型准确率小于阈值，根据验证结果更新各关系类别的样本权重，并根据更新后的各关系类别的样本权重扩充训练集，基于扩充后的训练集再次训练PCNN模型，直至模型准确率不小于阈值，得到优化的PCNN模型，作为实体关系抽取模型。

与现有技术相比，本发明至少可实现如下有益效果之一：

1、考虑到网络模型对于正样本的推理值包含类内信息，将实时的类间精度差异信息引入标签平滑，缓解类间精度差异过大，利用网络的实时推理信息自适应补全不同关系类别的类内信息，强化了对类内信息的识别，充分学习和提取不同类别的关键特征，提高样本不均衡条件下关系抽取模型的准确率。

2、对于样本不充足的关系类别，在样本集中增加权重因子，依据抽取结果，对于漏检和误检的关系类别，加大权重因子的的值，以扩充模型训练时该类关系在样本集中的占比，修正样本集分布，解决样本不均衡的问题，提高样本不充足的关系类别抽取模型的准确率，适用于样本不均衡的类别之间关系抽取。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例1中一种基于动态标签的实体关系抽取模型训练方法流程图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

实施例1

本发明的一个具体实施例，公开了一种基于动态标签的实体关系抽取模型训练方法，如图1所示，包括如下步骤：

S11：预处理历史质量问题分析报告，构建样本集，将样本集划分为训练集和测试集。

需要说明的是，本实施例基于知识库中已经构建的实体和语料库，对历史质量问题报告进行预处理，构建样本集，包括：

①选取历史质量问题分析报告中的信息，作为待处理数据；

需要说明的是，历史质量问题分析报告中涉及很多信息，根据实际情况选取所需内容合并为文本，作为待处理数据。示例性地，选取质量问题分析报告中的质量问题责任单位、质量问题现象、质量问题分析、质量问题故障定位和质量改进措施，作为待处理数据。

②对待处理数据中的语句标注出实体和关系，得到标注信息，并对语句进行分词处理，将分词结果和标注信息放入样本集中。

需要说明的是，对待处理数据中的语句标注出实体和关系，得到标注信息，包括：识别出待处理数据中每一句中对应实体的词组，如果词组数量大于1且词组对应的实体间存在关系，则将句子标识，词组与实体，以及实体间的关系，存储为标注信息；

对存储了标注信息的语句进行分词处理，得到分词结果，根据句子标识关联标注信息，放入样本集中。优选地，在分词结果中去除无意义的停用词。

需要说明的是，对待处理数据中的语句标注出实体和关系，可以采用人工标注，也可以自动和人工结合标注，比如：先对待处理数据中的每一句进行分词处理后，将每个分词结果作为实体名称，通过名称相似度获取匹配的实体，或者通过训练好的word2vec模型识别出分词结果匹配的实体，再进行人工标注实体间的关系。

示例性地，质量问题分析报告中质量问题故障定位的内容是：“发动机转速下降的原因是燃油系统的油压过低”，其中词组“发动机”对应实体“产品”，词组“燃油系统”对应实体“系统”，实体间关系为“故障原因定位”。

优选地，有些应用领域的质量问题报告中的关系数据存在不均衡、多样性的特性，因此考虑到样本不均衡的情况，构建样本集时，同步考虑每类关系中词组的位置特征，以此保证模型训练时能学习到关系的所有特征。

示例性地，对“发动机转速下降的原因是燃油系统的油压过低”的样本，增加“燃油系统油压过低造成了发动机转速下降”和“发动机的燃油系统油压过低导致了转速下降”对应的分词结果和标注信息。

将样本集划分为训练集和测试集，包括：按照标注信息中的关系设置关系类别，并根据关系类别将样本集划分为多类样本数据集，从每类样本数据集中抽取样本数据分别放入训练集和测试集中，确保测试集中包括每类关系的样本。最终训练集和测试集的比例为7:3。

S12：构建PCNN模型，基于训练集训练PCNN模型，根据当前训练结果动态更新各训练样本对应的各关系类别标签值，直至训练结束，得到训练好的PCNN模型。

需要说明的是，本实施例采用PCNN(Piece-Wise-CNN)神经网络进行关系抽取，考虑到PCNN在网络训练时对中文会以字为粒度随机掩盖(mask)掉句子中的文字，从而导致语义缺失，影响后续关系抽取的精度，在步骤S11中构建的样本集中每条样本是采用分词工具分词后的结果，以便PCNN可以按照词为粒度实现随机掩盖。

需要说明的是，PCNN模型包括输入映射层、卷积层、分段最大池化和全连接层。其中，输入映射层在输入的训练样本中嵌入位置信息，转换为对应的向量，包括：首先，利用word2vec将训练样本中每个词的文本信息向量化得到词向量，同时按照各个词相对于各实体的位置进行位置编码，得到和训练样本长度相同的位置编码向量，拼接词向量和位置编码向量，得到输入向量。然后，对训练样本中每个实体所在位置进行切分，相应地对输入向量进行切分，作为多组特征向量。

卷积层通过卷积操作对特征向量进行特征提取，得到特征矩阵。

提取出来的特征矩阵通过最大池化层之后在全连接层拼接后送入分类器，分类器计算训练样本中实体属于每一种关系类别的概率，取最大概率对应的关系类别为训练中推理出的关系类别。

对于分类问题，通常采用one-hot编码的标签向量，即：针对一条样本，当分类器推理结果与标注的实际结果一致时，则为正样本，标签值为1；当分类器推理结果与标注的实际结果不一致，则为负样本，标签值为0。这种方式对于正确标签过于自信，当样本不均衡时样本量少的类别极易出现混淆的情况。对标签平滑处理，可以让不同类别之间的簇更加紧凑，增加类间距离，减少类内距离，但根据固定参数平滑的标签忽略了类内信息的差异，导致类内信息的损失，不利于对关系抽取准确率的提升，并且由于数据集不平衡的原因，容易导致不同类的检测精度差异较大。

本实施例利用模型网络的实时推理信息自适应补全类内信息，考虑到模型网络对于正样本的预测值包含类内信息，将实时的类间精度差异信息引入标签平滑，通过动态标签平滑来缓解类间精度差异过大的问题。

具体来说，通过以下公式设置每条样本各关系类别的动态标签值：

其中，lable_i为在当前训练结果中当前训练样本第i个关系类别的动态标签值，i＝1,2,...,K，K为关系类别数，ε为超参数，ε取0.1，detect_i为在当前训练结果中当前训练样本被预测出的关系类别，ps_pos为被预测出的关系类别对应的概率；i＝detect_i表示当前训练样本中被标注的关系对应的关系类别i与被预测出的关系类别detect_i相等。

本实施例的方法将实时的类内精度信息反馈到标签类，强化了对类内信息的识别，因此可以自适应补全类内信息，大大减少分类的类内信息损失，充分学习和提取不同类别的关键特征，提高样本不均衡条件下关系抽取的准确率。

在每轮PCNN模型训练中，根据训练结果计算出动态标签值替换传统的one-hot标签值，结合交叉熵函数计算损失值，通过反向传播更新PCNN模型参数，使PCNN模型学习类内信息的识别，当损失值减少到阈值或达到最大训练次数时，训练结束，得到训练好的关系抽取模型。

S13：基于测试集验证PCNN模型，当模型准确率小于阈值，根据验证结果更新各关系类别的样本权重，并根据更新后的各关系类别的样本权重扩充训练集，基于扩充后的训练集再次训练PCNN模型，直至模型准确率不小于阈值，得到优化的PCNN模型，作为实体关系抽取模型。

需要说明的是，利用测试集来验证通过训练集得到的优化的关系抽取模型对于实体关系抽取的准确率，将测试集中的样本数据作为输入，计算两个实体之间的关系类别概率，取最大概率对应的关系类别为测试样本中两个实体之间的关系类别，并记录该概率值以及关系类别标签值(即动态标签值)，将测试集中标注的真实标签值与模型预测的关系类别标签值进行比对，以准确率作为评估标准，当准确率小于阈值，重新训练模型。

本实施例根据验证结果动态计算训练集中各关系类别的样本的权重调节因子，根据调节后的各关系类别的权重将各关系类别的样本依据随机排列组合的方法形成新的样本，从而扩大训练集的样本量，再利用调整后的训练集重新训练模型，直到基于测试集验证得到的关系抽取准确率满足需要。

具体来说，通过以下步骤更新各关系类别的样本权重：

①根据训练集中各关系类别的样本数量，得到各关系类别的初始样本权重。

定义w_i≥0(i＝1,2,…,K)为训练集中第i个关系类别的初始样本权重，则：

其中，X_max为训练集中样本数量最多的关系类别的样本数量，X_i为第i个关系类别的样本数量。

②根据验证结果，统计测试集中各关系类别的样本中被预测错误的样本数量，计算各关系类别的样本权重调节因子。

定义s_i≥0(i＝1,2,…,K)为训练集中第i个关系类别的样本权重调节因子，则：

其中，Y_ri为测试集中第i个关系类别的样本中被预测错误的样本数量，Y_i为测试集中第i个关系类别的样本数量。

公式(3)表明被预测错误的样本数量越多，样本权重调节因子越大，那么下一次训练时所对应的关系类别的样本数量扩充得越多。

需要说明的是，测试集中各关系类别的样本中被预测错误的样本数量包括误检和漏检的样本数量，其中误检的样本数量包括：负样本被预测为正样本的数量和正样本被预测为负样本的数量；漏检的样本数量是被漏判的样本数量。

③各类类别的初始样本权重分别乘以对应的样本权重调节因子，得到各关系类别更新后的样本权重。

定义p_i≥0(i＝1,2,…,K)为训练集中第i个关系类别更新后的样本权重，则：

p_i＝w_is_i 公式(4)

根据更新后的各关系类别的样本权重扩充训练集，包括：将当前训练集中各关系类别的样本数量分别乘以对应的更新后的样本权重，得到各关系类别的新样本数量；根据随机排列组合方法，将当前训练集中各关系类别的样本数量扩充至对应的新样本数量。

需要说明的是，训练集中每条样本是由分词后的词组组成，随机排列组合方法就是随机选择样本，对所选择的样本重新排列词组顺序，并关联所选择的样本的标注信息，得到新的样本。

示例性地，有三类实体关系类别，第一次训练的模型准确率小于阈值，当前训练集中这三个关系类别的样本数量分别为150条、200条和25条，则初始样本权重分别为：200/150＝1.33，200/200＝1，200/25＝8；测试集中这三个关系类别的样本数量分别为38条、50条和6条，使用测试集验证模型，从得到的验证结果中得到各关系类别的样本被预测错误的数量分别为5条、8条和2条，则样本权重调节因子分别为38/33，50/42，6/4；根据初始样本权重和样本权重调节因子，得到训练集中各关系类别更新后的样本权重分别为：1.53、1.19和12，则迭代进行下一次训练时，将训练集中各关系类别的样本数量分别扩展为：150×1.53＝230条、200×1.19＝238条和25×12＝300条。

与现有技术相比，本实施例对于样本不充足的关系类别，在训练集中增加权重因子，依据测试集的验证结果，对于漏检和误检的关系类别，加大权重因子的值，以扩充模型训练时该类关系在训练集中的占比，修正训练集分布，解决样本不均衡的问题，提高样本不充足的关系类别抽取的准确率，降低样本不均衡的类别之间关系抽取准确率的差距，保证每类关系都能被准确抽取。

进行实际关系抽取时，从待抽取关系的质量问题分析报告中获取待推理信息，预处理待推理信息后输入优化后的关系抽取模型，推理出所有实体间的关系。

需要说明的是，选取待抽取关系的质量问题分析报告中的质量问题责任单位、质量问题现象、质量问题分析、质量问题故障定位和质量改进措施，转换为文本格式作为待推理信息。

预处理待推理信息，包括：对待推理信息中的每一句进行分词处理，根据每一句的分词结果识别出其中的实体，如果该句中的实体数量小于2，则删除该句。将最后剩余语句的分词结果输入优化后的实体关系抽取模型，推理出所有实体间存在的关系。

与现有技术相比，本实施例提供的一种基于动态标签的实体关系抽取模型训练方法，考虑到网络模型对于正样本的推理值包含类内信息，将实时的类间精度差异信息引入标签平滑，缓解类间精度差异过大，利用网络的实时推理信息自适应补全不同关系类别的类内信息，强化了对类内信息的识别，充分学习和提取不同类别的关键特征，提高样本不均衡条件下关系抽取模型的准确率。对于样本不充足的关系类别，在样本集中增加权重因子，依据抽取结果，对于漏检和误检的关系类别，加大权重因子的的值，以扩充模型训练时该类关系在样本集中的占比，修正样本集分布，解决样本不均衡的问题，提高样本不充足的关系类别抽取模型的准确率，适用于样本不均衡的类别之间关系抽取。

实施例2

本发明的另一个实施例，公开了一种基于动态标签的实体关系抽取模型训练系统，从而实现实施例1中的基于动态标签的实体关系抽取模型训练方法。各模块的具体实现方式参照实施例1中的相应描述。该系统包括：

由于本实施例中基于动态标签的实体关系抽取模型训练系统与前述基于动态标签的实体关系抽取模型训练方法相关之处可相互借鉴，此处为重复描述，故这里不再赘述。由于本系统实施例与上述方法实施例原理相同，所以本系统实施例也具有上述方法实施例相应的技术效果。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于动态标签的实体关系抽取模型训练方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于动态标签的实体关系抽取模型训练方法，其特征在于，所述预处理历史质量问题分析报告，构建样本集，包括：选取历史质量问题分析报告中的信息，作为待处理数据；对待处理数据中的语句标注出实体和关系，得到标注信息，并对语句进行分词处理，将分词结果和标注信息放入样本集中；所述语句中实体数量大于1且实体之间存在关系。

3.根据权利要求1所述的基于动态标签的实体关系抽取模型训练方法，其特征在于，所述根据当前训练结果动态更新各训练样本对应的各关系类别标签值，采用如下公式：

4.根据权利要求3所述的基于动态标签的实体关系抽取模型训练方法，其特征在于，所述根据验证结果更新各关系类别的样本权重，包括：

5.根据权利要求4所述的基于动态标签的实体关系抽取模型训练方法，其特征在于，所述根据训练集中各关系类别的样本数量，得到各关系类别的初始样本权重，通过下式计算得到：

6.根据权利要求4所述的基于动态标签的实体关系抽取模型训练方法，其特征在于，所述测试集中各关系类别的样本中被预测错误的样本数量包括：负样本被预测为正样本的样本数量、正样本被预测为负样本的样本数量和被漏判的样本数量。

7.根据权利要求6所述的基于动态标签的实体关系抽取模型训练方法，其特征在于，所述各关系类别的样本权重调节因子，通过下式计算得到：

8.根据权利要求4所述的基于动态标签的实体关系抽取模型训练方法，其特征在于，所述根据更新后的各关系类别的样本权重扩充训练集，包括：将当前训练集中各关系类别的样本数量分别乘以对应的更新后的样本权重，得到各关系类别的新样本数量；根据随机排列组合方法，将当前训练集中各关系类别的样本数量扩充至对应的新样本数量。

9.根据权利要求1所述的基于动态标签的实体关系抽取模型训练方法，其特征在于，所述PCNN模型包括输入映射层、卷积层、分段最大池化和全连接层。

10.一种基于动态标签的实体关系抽取模型训练系统，其特征在于，包括：