CN115033702B

CN115033702B - 一种基于集成学习的变电站选址知识抽取方法

Info

Publication number: CN115033702B
Application number: CN202210206991.3A
Authority: CN
Inventors: 彭军; 王立; 孙斌; 来传剑; 周海; 杨杰; 李雪凌; 李阳
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Filing date: 2022-03-04
Publication date: 2024-06-04
Anticipated expiration: 2042-03-04

Abstract

本发明公开了一种基于集成学习的变电站选址知识抽取方法，包括如下步骤，采集变电站工程选址相关标准和规范，作为训练集数据；将LSTM‑LSTM‑Bias模型和BERT‑BIGRU‑CRF模型进行结合改进，形成BcBERT‑BiGRU‑LSTM模型；利用训练数据集和bagging算法训练依次对LSTM‑LSTM‑Bias模型、BERT‑BIGRU‑CRF模型和BcBERT‑BiGRU‑LSTM模型进行数据训练得到三个个体学习器和三种预测实体关系集合；使用投票方式将三个个体学习器进行组合，投票结果则为最终的预测结果，即获得实体关系集合；对获得的实体集合进行属性抽取。本发明所述方法将集成学习中的bagging算法应用于知识图谱中的实体关系联合抽取技术中，提高系统的泛化能力，减少整体的错误率，提高对变电站规范文本中实体和关系的识别效果。

Description

一种基于集成学习的变电站选址知识抽取方法

技术领域

本发明涉及变电站选址技术领域，特别是一种基于集成学习的变电站选址知识抽取方法。

背景技术

目前，常用的变电站选址知识抽取方法有用于实体抽取的基于规则和词典的方法，基于统计的方法，基于深度学习的方法等，有用于关系抽取的基于模板的关系抽取方法，基于监督学习的关系抽取方法等，而实体关系联合抽取技术广泛应用深度学习技术，实体关系联合抽取模型广泛应用的LSTM-LSTM-Bias模型，BERT-BIGRU-CRF模型等均应用了深度学习技术。而集成学习也是一种十分强大的学习模型，通过将多个学习器组合起来成为一个强学习器，进而提高系统的性能，在许多学科和工程领域得到了应用。若将集成学习中的bagging算法应用于知识提取中可以有效提升实体识别的识别效果，在数据集上也将有更好地预测性能。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述和/或现有的基于集成学习的变电站选址知识抽取方法中存在的问题，提出了本发明。

因此，本发明所要解决的问题在于如何提供一种基于集成学习的变电站选址知识抽取方法。

为解决上述技术问题，本发明提供如下技术方案：一种基于集成学习的变电站选址知识抽取方法，其包括，采集变电站工程选址相关标准和规范，作为训练集数据；将LSTM-LSTM-Bias模型和BERT-BIGRU-CRF模型进行结合改进，形成BcBERT-BiGRU-LSTM模型；利用训练数据集和bagging算法训练依次对LSTM-LSTM-Bias模型、BERT-BIGRU-CRF模型和BcBERT-BiGRU-LSTM模型进行数据训练得到三个个体学习器和三种预测实体关系集合；使用投票方式将三个个体学习器进行组合，投票结果则为最终的预测结果，即获得实体关系集合；对获得的实体集合进行属性抽取，至此获得训练数据集的实体、关系和属性集合，即完成知识抽取工作。

作为本发明所述基于集成学习的变电站选址知识抽取方法的一种优选方案，其中：创建BcBERT-BiGRU-LSTM模型包括如下步骤：构造词嵌入层，该层由变电站知识选址知识文本和通用领域BERT组成，将单词转化成词嵌入向量；构造编码层，其由两个并行的GRU组成；构造解码层，其由一个LSTM网络层构成，用于产生标记序列；构造output-software层，将解码层的输出向量进行归一化处理，创建BcBERT-BiGRU-LSTM模型。

作为本发明所述基于集成学习的变电站选址知识抽取方法的一种优选方案，其中：获得三个不同的个体学习器和三种预测实体关系集合包括如下步骤，用训练数据集和bagging算法训练训练BcBERT-BiGRU-LSTM模型得到个体学习器1，并获得个体学习器1的预测实体关系集合entity-relat1；用训练数据集和bagging算法训练训练LSTM-LSTM-Bias模型得到个体学习器2，并获得个体学习器2的预测实体关系集合entity-relat2；用训练数据集和bagging算法训练训练BERT-BIGRU-CRF模型得到个体学习器3，并获得个体学习器3的预测实体关系集合entity-relat3。

作为本发明所述基于集成学习的变电站选址知识抽取方法的一种优选方案，其中：所述bagging算法中，输入样本集D＝{(x₁，y₁)，(x₂，y₂)，....，(x_m，y_m)}，弱分类器迭代次数T，最终输出强分类器f(x)，对训练集进行t次随机采样，其中t＝1，2，...，T，共采样n次，得到采样集Dt，通过采样集Dt训练三种模型。

作为本发明所述基于集成学习的变电站选址知识抽取方法的一种优选方案，其中：获得实体关系集合包括如下步骤，对entity—relat1和entity—relat2进行投票，将其中相同的元素保留下来，并将其存放于公共集合entity_all当中；对entity—relat2和entity—relat3进行投票，将其中相同的元素保留下来，同时判断集合entity_all中是否存在这些元素，已存在的元素不再重复添加，将集合entity_all中不存在的元素添加到集合entity_all中；对entity—relat1和entity—relat3进行投票，将其中相同的元素保留下来，同时判断集合entity_all中是否存在这些元素，已存在的元素不再重复添加，将集合entity_all中不存在的元素添加到集合entity_all中。

作为本发明所述基于集成学习的变电站选址知识抽取方法的一种优选方案，其中：对获得的实体集合进行属性抽取时，采用BiLSTM-CRF模型进行抽取。

作为本发明所述基于集成学习的变电站选址知识抽取方法的一种优选方案，其中：使用BiLSTM-CRF模型对所述实体集合进行所述训练集数据的属性抽取，并得到属性集合包括以下步骤：使用skip-gram和CBOW方法获得词向量；对获得的词向量进行双向信息读取，从而更好地获取上下文信息；对获得的上下文信息进行序列标注和分词任务，进而可以抽取出属性和属性值。

作为本发明所述基于集成学习的变电站选址知识抽取方法的一种优选方案，其中：构造词嵌入层时，一个句子表示为长度为L的序列，每个单词用多维的向量w_i表示，即W＝{w₁，...，w_n}。

作为本发明所述基于集成学习的变电站选址知识抽取方法的一种优选方案，其中：构造编码层时，根据当前时刻输入量w_i、前一个时刻记忆单元输出向量y_t-1、前一个时刻隐藏层的状态h_t-1的共同作用得到当前隐藏层的状态向量h_t。

作为本发明所述基于集成学习的变电站选址知识抽取方法的一种优选方案，其中：构造解码层时，根据前一个时刻的记忆单元输出的向量y_t-1、预测的结果T_t-1、隐藏层状态h_t-1和当前时刻的隐藏层状态h_t计算出当前时刻隐藏层状态。

本发明有益效果为：将集成学习中的bagging算法应用于知识图谱中的实体关系联合抽取技术中，提高系统的泛化能力，减少整体的错误率，提高对变电站规范文本中实体和关系的识别效果，对提高变电站选址知识图谱的覆盖率具有重要意义和良好的使用价值。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为基于集成学习的变电站选址知识抽取方法的流程图图。

图2为基于集成学习的变电站选址知识抽取方法的BcBERT-BiGRU-LSTM模型图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

实施例1

参照图1和图2，为本发明第一个实施例，该实施例提供了一种基于集成学习的变电站选址知识抽取方法，基于集成学习的变电站选址知识抽取方法包括如下步骤，

S1：采集变电站工程选址相关标准和规范，作为训练集数据；

S2：将LSTM-LSTM-Bias模型和BERT-BIGRU-CRF模型进行结合改进，形成BcBERT-BiGRU-LSTM模型；

S3：利用训练数据集和bagging算法训练依次对LSTM-LSTM-Bias模型、BERT-BIGRU-CRF模型和BcBERT-BiGRU-LSTM模型进行数据训练得到三个个体学习器和三种预测实体关系集合；

S4：使用投票方式将三个个体学习器进行组合，投票结果则为最终的预测结果，即获得实体关系集合；

S5：对获得的实体集合进行属性抽取，至此获得训练数据集的实体、关系和属性集合，即完成知识抽取工作。

具体的，在步骤S2中，经搜索关于实体关系联合抽取的资料，得知目前广泛使用的实体关系联合抽取模型为LSTM-LSTM-Bias和BERT-BIGRU-CRF，故而采用上述两个模型。

进一步的，步骤S2中，BcBERT-BiGRU-LSTM模型的创建包括如下步骤，

S21：构造词嵌入层，该层由变电站知识选址知识文本和通用领域BERT组成，将单词转化成词嵌入向量，一个句子表示为长度为L的序列，每个单词用多维的向量w_i表示，即W＝{w₁，...，w_n}；

S22：构造编码层，其由两个并行的GRU组成，并且两个GRU分别为前向GRU层和后向GRU层，根据当前时刻输入量w_i、前一个时刻记忆单元输出向量y_t-1、前一个时刻隐藏层的状态h_t-1的共同作用得到当前隐藏层的状态向量h_t；

S23：构造解码层，其由一个LSTM网络层构成，用于产生标记序列，解码层根据前一个时刻的记忆单元输出的向量y_t-1、预测的结果T_t-1、隐藏层状态h_t-1和当前时刻的隐藏层状态h_t计算出当前时刻隐藏层状态；

S24：构造output-software层，将解码层的输出向量进行归一化处理，至此构造出改进的实体关系联合抽取模型BcBERT-BiGRU-LSTM。

进一步的，在步骤S3中，获得三个不同的个体学习器和三种预测实体关系集合包括如下步骤，

S31：用训练数据集和bagging算法训练训练BcBERT-BiGRU-LSTM模型得到个体学习器1，并获得个体学习器1的预测实体关系集合entity-relat1；

S32：用训练数据集和bagging算法训练训练LSTM-LSTM-Bias模型得到个体学习器2，并获得个体学习器2的预测实体关系集合entity-relat2；

S33：用训练数据集和bagging算法训练训练BERT-BIGRU-CRF模型得到个体学习器3，并获得个体学习器3的预测实体关系集合entity-relat3；

在bagging算法中，输入样本集D＝{(x₁，y₁)，(x₂，y₂)，....，(x_m，y_m)}，弱分类器迭代次数T，最终输出强分类器f(x)，对训练集进行t次随机采样，其中t＝1，2，...，T，共采样n次，得到采样集Dt，通过采样集Dt训练三种模型。采样集中的样本是用来训练弱学习器的，如果没有采样集则训练弱学习器的样本太多，工作量太大。采样集中的各样本是独立的，采用上述方法得到的采样集相对独立，各个数据不相互影响。

在步骤S4中，获得实体关系集合包括如下步骤，

S41：对entity—relat1和entity—relat2进行投票，将其中相同的元素保留下来，并将其存放于公共集合entity_all当中；

S42：对entity—relat2和entity—relat3进行投票，将其中相同的元素保留下来，同时判断集合entity_all中是否存在这些元素，已存在的元素不再重复添加，将集合entity_all中不存在的元素添加到集合entity_all中；

S43：对entity—relat1和entity—relat3进行投票，将其中相同的元素保留下来，同时判断集合entity_all中是否存在这些元素，已存在的元素不再重复添加，将集合entity_all中不存在的元素添加到集合entity_all中。

在步骤S5中，使用BiLSTM-CRF模型对所述实体集合进行所述训练集数据的属性抽取，具体包括以下步骤，

S51：使用skip-gram和CBOW方法获得词向量；

S52：对获得的词向量进行双向信息读取，从而更好地获取上下文信息；

S53：对获得的上下文信息进行序列标注和分词任务，进而可以抽取出属性和属性值。

综上所述，本发明将集成学习中的bagging算法应用于知识图谱中的实体关系联合抽取技术中，提高系统的泛化能力，减少整体的错误率，提高对变电站规范文本中实体和关系的识别效果，对提高变电站选址知识图谱的覆盖率具有重要意义和良好的使用价值。

实施例2

本发明第二个实施例提供了一种基于集成学习的变电站选址知识抽取方法的具体示例。

具体的，将变电站选址相关规范、标准等资料进行处理，按照其中实体与关系的类别，筛选出其中38360条与变电站选址领域密切相关的语句作为变电站选址领域的数据集，用以检验本文提出的模型在变电站选址实体关系抽取的表现，将数据集的数据按照2：1的比例随机划分为训练集和测试集，该数据集的具体信息如表1示。

表1变电站选址领域的数据集

为了验证本发明提出的集成学习模型在变电站选址数据集上的有效性，对不同模型进行对比实验，测试命名实体识别、关系抽取的Precision、Recall以及F1值，具体结果如表2所示。

表2对比实验结果

在评价变电站选址领域的实体关系抽取效果时，若实体边界被模型标记正确,则认为实体识别结果正确；若实体边界及所属关系类别均标记正确,即三元组抽取正确,则判定关系抽取结果正确。通过准确率(Precision)、召回率(Recall)以及F1值这3项指标来评价模型的性能,其中Precision＝Nr/Nt，Recall＝Nr/NA,F1＝2*Precision*Recall/(Precision+Recall)。Nr为抽取的正确三元组的数量，NA为测试集中标记的三元组的数量，Nt为抽取的三元组数量。将F1值作为评价模型性能的综合性指标，属性抽取结果如表3所示。

表3 BiLSTM-CRF模型的属性抽取结果

训练数据集中出现的属性个数	19126
		抽取出来的属性	11651
正确抽取的属性	4710
		测试集中属性的个数	9330
Precision	40.43％
		Recall	50.48％

本发明提出的集成学习模型在实体识别和关系抽取任务上都取得最高的F1值，说明该模型能有效地抽取变电站领域的实体和关系。与LSTM-LSTM-Bias模型和BERT-BIGRU-CRF模型相比BcBERT-BiGRU-LSTM模型提前进行了变电站文本深度训练，使得预训练语言模型具备一定的领域适配性，更适合实体识别任务，其命名实体识别和关系抽取的F1均为最高值。集成学习模型则通过bagging算法将三种模型巧妙地结合在一起，F1值在实体识别和关系抽取任务上相较于BcBERT-BiGRU-LSTM模型分别提升了2.8％和7.2％，综合性能优于前三种独立模型，该实验证明了集成学习更加适合变电站工程选址领域实体识别和关系抽取的任务。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于集成学习的变电站选址知识抽取方法，其特征在于：包括如下步骤，

采集变电站工程选址相关标准和规范，作为训练集数据；

将LSTM-LSTM-Bias模型和BERT-BIGRU-CRF模型进行结合改进，形成BcBERT-BiGRU-LSTM模型；

利用训练数据集和bagging算法训练依次对LSTM-LSTM-Bias模型、BERT-BIGRU-CRF模型和BcBERT-BiGRU-LSTM模型进行数据训练得到三个个体学习器和三种预测实体关系集合；

使用投票方式将三个个体学习器进行组合，投票结果则为最终的预测结果，即获得实体关系集合；

对获得的实体集合进行属性抽取，至此获得训练数据集的实体、关系和属性集合，即完成知识抽取工作；

创建BcBERT-BiGRU-LSTM模型包括如下步骤：

构造词嵌入层，该层由变电站知识选址知识文本和通用领域BERT组成，将单词转化成词嵌入向量；

构造编码层，其由两个并行的GRU组成；

构造解码层，其由一个LSTM网络层构成，用于产生标记序列；

构造output-software层，将解码层的输出向量进行归一化处理，创建BcBERT-BiGRU-LSTM模型；

获得三个不同的个体学习器和三种预测实体关系集合包括如下步骤，

用训练数据集和bagging算法训练训练BcBERT-BiGRU-LSTM模型得到个体学习器1，并获得个体学习器1的预测实体关系集合entity-relat1；

用训练数据集和bagging算法训练训练LSTM-LSTM-Bias模型得到个体学习器2，并获得个体学习器2的预测实体关系集合entity-relat2；

用训练数据集和bagging算法训练训练BERT-BIGRU-CRF模型得到个体学习器3，并获得个体学习器3的预测实体关系集合entity-relat3；

所述bagging算法中，输入样本集D={（x₁，y₁），（x₂，y₂），....，（x_m，y_m）}，弱分类器迭代次数T，最终输出强分类器f(x)，对训练集进行t次随机采样，其中t=1，2，...，T，共采样n次，得到采样集Dt，通过采样集Dt训练三种模型；

获得实体关系集合包括如下步骤，

对entity—relat1和entity—relat2进行投票，将其中相同的元素保留下来，并将其存放于公共集合entity_all当中；

对entity—relat2和entity—relat3进行投票，将其中相同的元素保留下来，同时判断集合entity_all中是否存在这些元素，已存在的元素不再重复添加，将集合entity_all中不存在的元素添加到集合entity_all中；

对entity—relat1和entity—relat3进行投票，将其中相同的元素保留下来，同时判断集合entity_all中是否存在这些元素，已存在的元素不再重复添加，将集合entity_all中不存在的元素添加到集合entity_all中。

2.如权利要求1所述的基于集成学习的变电站选址知识抽取方法，其特征在于：对获得的实体集合进行属性抽取时，采用BiLSTM-CRF模型进行抽取。

3.如权利要求2所述的基于集成学习的变电站选址知识抽取方法，其特征在于：使用BiLSTM-CRF模型对所述实体集合进行所述训练集数据的属性抽取，并得到属性集合包括以下步骤：

使用skip-gram和CBOW方法获得词向量；

对获得的词向量进行双向信息读取，从而更好地获取上下文信息；

对获得的上下文信息进行序列标注和分词任务，进而可以抽取出属性和属性值。

4.如权利要求1所述的基于集成学习的变电站选址知识抽取方法，其特征在于：构造词嵌入层时，一个句子表示为长度为L的序列，每个单词用多维的向量w_i表示，即W={w₁，...，w_n}。

5.如权利要求4所述的基于集成学习的变电站选址知识抽取方法，其特征在于：构造编码层时，根据当前时刻输入量w_i、前一个时刻记忆单元输出向量y_t-1、前一个时刻隐藏层的状态h_t-1的共同作用得到当前隐藏层的状态向量h_t。

6.如权利要求5所述的基于集成学习的变电站选址知识抽取方法，其特征在于：构造解码层时，根据前一个时刻的记忆单元输出的向量y_t-1、预测的结果T_t-1、隐藏层状态h_t-1和当前时刻的隐藏层状态h_t计算出当前时刻隐藏层状态。