CN114648029A

CN114648029A - 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法

Info

Publication number: CN114648029A
Application number: CN202210352753.3A
Authority: CN
Inventors: 刘凡; 朱江北; 蒋郭鑫; 许峰
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-06-21

Abstract

本发明涉及一种电力领域命名实体识别方法，具体涉及一种基于BiLSTM‑CRF模型的电力领域命名实体识别方法，属于自然语言处理技术领域。包括如下步骤：获取电力领域数据集；通过CNN‑BiLSTM‑Attention‑CRF算法模型对电力领域的数据集中的训练集进行训，根据相关评价指标的值，即准确率、召回率和F1值得到此模型训练好的算法模型；将电力领域的数据集分为训练集和测试集，利用步骤2训练好的算法模型对测试集进行命名实体识别并标注测试的结果。以一种高效、高准确度和可信的方式实现电力领域数据的命名实体识别。

Description

一种基于BiLSTM-CRF模型的电力领域命名实体识别方法

技术领域

本发明涉及一种电力领域命名实体识别方法，具体涉及一种基于BiLSTM-CRF模型的电力领域命名实体识别方法，属于自然语言处理技术领域。

背景技术

电力领域作为一种资产庞杂、知识密集的电能生产与消费领域，数据量呈爆炸式增长，使得数据成为越来越重要的生产要素，构成了当今学术与工业界共同关注的电力大数据。目前在电力领域的大多研究通常针对的是结构化数据，例如：故障故障案例、设备缺陷与消缺案例，一般都是电力巡路工作人员用文本的形式记录下来，内容包含设备部件与状态描述、部件缺陷描述等专业信息。

由于电力领域数据具有复杂性和特殊性的特点，并且相关的实体信息具有领域性，仅用BiLSTM-CRF无法取得较好的效果，而命名实体识别的结果不准确将无法开展后续的工作，例如在实体关系的联合抽取中，实体识别的结果将直接影响到关系抽取的结果；命名实体识别的结果将影响知识图谱构建的实体的标注；命名实体识别的结果对问答系统中用户问句的分类将产生影响。因此，以此为出发点需要对BiLSTM-CRF算法模型进行改进以提升命名实体识别的精度，从而满足后续工作中各项评价指标的提升，减小命名实体识别的结果对相关工作的影响，因此，对BiLSTM-CRF算法模型改进的命名实体识别方法十分重要。

发明内容

本发明所要解决的技术问题是：提供一种基于BiLSTM-CRF模型的电力领域命名实体识别方法，构建一套高效可用的电力领域命名实体识别模型，方便后续从相关数据集、用户问句中识别命名实体，以提升知识图谱构建的精度和问答系统平台的准确度。

为了解决上述问题，本发明是采取以下技术方案实现的。

一种基于BiLSTM-CRF模型的电力领域命名实体识别方法，包括如下步骤：

步骤1，获取电力领域数据集；

步骤2，通过CNN-BiLSTM-Attention-CRF算法模型对电力领域的数据集中的训练集进行训，根据相关评价指标的值，即准确率、召回率和F1值得到此模型训练好的算法模型；

步骤3，将电力领域的数据集分为训练集和测试集，利用步骤2训练好的算法模型对测试集进行命名实体识别并标注测试的结果。

作为本发明的一个进一步方案，该识别方法还包括步骤4，利用相似度计算的方法解决在命名实体识别过程中出现的有误识别问题，即如果通过训练好的算法模型对数据集进行命名实体识别时，识别的结果与标注的结果不一致，则通过标记和相似度计算的方式判别结果的误差范围，能进一步确定是否为标注错误或识别错误。

所述步骤1的具体过程如下：

步骤1-1，所述的电力领域数据集包括采用网络爬虫技术从百度百科、国家能源局上开放的有关电力信息爬取相关数据集，和从电力领域的相关书籍中获得的数据等，其中数据包含电力客服、电力检修、电力常识和电力知识；

步骤1-2，通过人工的方式从电力相关的书籍中获取数据，例如《电气工程概论》、《电力系统分析》、《继电保护》等，此部分数据为电力相关的知识；

步骤1-3，根据数据集中的实体信息，通常是主语，例如变压器、营业厅、元件、电压等，通过对所述电力领域数据集的分析，将实体部分按照知识图谱的应用需求分为元件、元器件、系统、地点、软件、物理量、状态、操作、组织、时间、设施、数字、现象、协议和定理十五类，即之后的识别过程中将实体区分到对应的类别中；

步骤1-4，对步骤1-1和步骤1-2中获得的数据集进行预处理，即采用BIEOS标注法标注数据集中的实体，根据步骤1-3中定义的实体类型进行标注。

步骤1-4的标注中，“B-实体类型”表示该实体类型的首字符，“I-实体类型”表示该实体类型的中间部分，“E-实体类型”表示该实体类型的结束字符，“O”表示非实体。

所述步骤2的具体过程如下：

步骤2-1，利用步骤1-4中定义好的命名实体类别作为特征词典，对汉字部首结构进行拆分，从而获得部首结构序列，将拆分之后的部首序列利用CNN(卷积神经网络)进行嵌入、卷积操作获得该汉字的部首序列向量；

步骤2-2，将步骤2-1的结果结合字符嵌入向量送入到BiLSTM模型中获取上下文特征信息；

步骤2-3，将步骤2-2的结果连接注意力机制(Attention)为向量添加权重信息，以显著增强实体的特征信息；

步骤2-4，将步骤2-3的结果送入到CRF模型中，该模型有特征转移矩阵，可以考虑输出标签之间的顺序性，有效约束标签之间的依赖关系，从而获取全局最优序列。

本发明深刻考虑到目前的BiLSTM模型的训练和运行速度较慢、电力领域的相关数据具有领域性和复杂性、电力相关实体数据区分度较大等问题或因素，在命名实体识别的既有方法上大胆创新，对各循环神经网络加以研究和测试，同时考虑到与电力领域的命名实体相结合构造领域词典作为附加词特征等方法，以一种高效、高准确度和可信的方式实现电力领域数据的命名实体识别。

附图说明

图1是本发明基于BiLSTM-CRF模型的电力领域命名实体识别方法的步骤流程图。

图2是本发明基于BiLSTM-CRF模型的电力领域命名实体识别方法的模型结构图。

图3是本发明的算法模型中LSTM的内部结构示意图。

图4是本发明的算法模型中CNN的使用方式。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例图在附图中已示出。下面通过参考附图的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

如图1所示，为本发明基于BiLSTM-CRF模型的电力领域命名实体识别方法的步骤流程图，包括以下步骤：

1、获取电力领域数据集：通过获取大量的电力领域相关数据来支持后续工作，包括以四个步骤：

(1)采用网路爬虫技术从百度百科、国家电网数据平台爬取相关数据集，具体步骤如下：

启动多个线程，通过分析百度百科、国家电网数据平台等平台的页面结构，分析页面的步骤和整体样式结构，获取网页中标签的URL地址，采用正则表达式与Xpath相结合的方式批量爬取网页中所需数据，例如电力客服、电力检修和电力常识等，最后将文本结果保存在本地存储。

在线程启动前设定页面下载出错时的处理策略，以实现页面下载效率高、数据无差错和内容完整等目标。其中，对于出错部分的处理方式是根据页面出错类型和页面反爬反馈结果等状态设定重试次数，在重试超过一定阈值之后，将此页面的URL记录下来，在所有内容全部爬取完毕之后在重新爬取该页面的内容，倘若仍旧无法处理，则通过人工的方式检测该页面是否存在结构、样式等修改的问题。

(2)关于电力相关的基本知识是无法从相关的网站获取的，需要人工查阅与此相关的书籍进行抄录，所以这部分的数据需要消耗一定的人工成本，在本发明中对于此部分的数据样本占比较少。

(3)在得到所需的电力领域数据集之后，将上述不同处理方式获得的样本进行汇总，根据数据集中的实体信息，通过对所述电力领域数据集的分析，将实体部分分为十五类，分别表示为元件、元器件、系统、地点、软件、物理量、状态、操作、组织、时间、设施、数字、现象、协议和定理，考虑到实体标注的复杂性，所以使用字母表示，分别为A、B、C、……和O；

(4)通过人工的方式对数据集中的样本进行标注，考虑到命名实体的识别过程中的完整性和准确性，本发明在对命名实体进行标注的时候采用BIEOS标注法。

IOB标注法是最先开始采用的标注法，其含义是：I表示实体的内部，O表示实体的外部，B表示实体的开始，如果文本数据集中某个词标注B/I-XXX，则B/I表示这个词属于命名识别的开始或内部，即该词是命名实体的一部分，XXX表示命名实体的类型。当词标注O则表示属于命名识别的外部，即它不是一个命名实体。

BIEOS标注法是在IOB标注法的基础上进行拓展的，其在命名实体的标注中更加标准和完备，其中B表示一个字为实体开始，I表示实体的内部，O表示实体的外部，E表示这个字作为实体的结束，S表示这个字作为单独的一个实体部分，此方法目前在命名实体的标注中最通用。根据已有的电力领域实体的分类情况，采用BIEOS标注法时需要考虑到实体的类型，例如某个实体类型类别为H，则该实体的首字表示为B-H，中间字表示为I-H，结尾字表示为E-H，如果实体的长度为一个字则表示为S-H，非实体表示为O-O。

2、通过CNN-BiLSTM-Attention-CRF算法模型对电力领域的数据集中的训练集进行训练，在算法训练过程中设置初始学习率为0.001，Dropo率设为0.5。根据相关评价指标的值，即准确率、召回率和F1值得到此模型训练好的算法模型。具体步骤如下：

(1)CNN提取部首序列

卷积神经网络在文本中提取局部特征较为高效，本发明通过将CNN引入是为了更好的提取电力相关的实体词语的特征信息，电力相关的实体词语大多是具有针对性的，通过CNN能在模型训练初期就能捕获这些词语的局部特征，对于每个中文汉字的组成可以利用网上的新华字典查找汉字的部首，对其部首结构进行拆分，从而获得部首结构序列，将拆分之后的部首序列利用CNN进行嵌入、卷积操作获得该汉字的部首序列向量。在深度学习中通常采用大量未标记语料库进行预训练的嵌入表示，而不是采用随机初始化的方法。CNN的输入为字符的嵌入，字符嵌入层的维度为100，部首嵌入同样采用预训练的方式，维度为100，将CNN层窗口尺寸设置为3，过滤器个数设置为300，最后输出序列的特征信息输入到网络。

(2)BiLSTM层提取句子特征

将CNN提取的部首序列向量结合字符嵌入向量送入到BiLSTM层，完成句子特征的提取，从而得到线性层。

BiLSTM是由正向和反向的两个LSTM组成的，输出由这两个LSTM的状态共同决定的神经网络模型。在每个时刻，输入会同时提供两个方向相反的LSTM，而输出由这两个LSTM共同决定。LSTM网络目前广泛应用于机器翻译、文本信息、语音语义识别等场景中，该网络的思想是模仿人类大脑的运作方式从而发现序列数据之间的相关性和联系，LSTM是RNN网络的改进版本，其主要解决了RNN网络存在的长短时依赖问题，即如果输出的位置和上文输入信息的位置过远而无法产生依赖，LSTM网络可以利用上文的信息进行相应特征的提取，更好地结合上下文信息。LSTM的内部结构图如图3所示，具体计算公式如下：

其中，在处理语言文本的过程中，通常会存在新代词代替旧代词的情况，所以需要通过遗忘门来完成，其计算公式为：

f_t＝σ(W_f·[h_t-1,X_T]+B_F)；

公式中记x_t为细胞的状态，h_t-1为上一时间的隐层状态，这个隐状态包含之前节点的相关信息，同样也会经过一个线性变幻的过程，W_f为神经元权重，b_f为偏差参数，用于对变量和状态的线性变换，σ为Sigmoid计算方式。

在处理语言文本的过程中，也会存在需要将新的主语内容添加到以往的语句中，则需要输入们和更新细胞的状态，输入门计算公式如下：

i_t＝σ(W_i·[h_t-1,x_t]+b_fi)；

公式中记x_t为细胞的状态，h_t-1为上一时间的隐层状态，这个隐状态包含之前节点的相关信息，同样也会经过一个线性变幻的过程，W_i为神经元权重，b_fi为偏差参数，用于对变量和状态的线性变换，t为当前时间，σ为Sigmoid计算方式，i_t为输入门。

候选记忆细胞的公式如下，其中tanh函数是对候选记忆细胞激活函数进行激活，其值将映射在[-1,1]，计算公式如下：

公式中记x_t为细胞的状态，h_t-1为上一时间的隐层状态，这个隐状态包含之前节点的相关信息，同样也会经过一个线性变幻的过程，W_c为神经元权重，b_C为偏差参数，用于对变量和状态的线性变换，t为当前时间，

为临时细胞状态。

更新完旧细胞状态后，为限制候选记忆细胞进入记忆门的比例，计算公式如下：

公式中当前的细胞状态将从C_t-1更新到C_t，需要完成丢弃旧数据添加新数据，将遗忘门f_t与C_t-1进行加权操作，控制上一时刻的记忆细胞C_t-1的数据通过遗忘门的比例，将输入门i_t与

进行加权，最后通过结合获得_t为细胞状态。

最后需要考虑到结果输出值，输出值的结果基于当前的细胞信息，其计算公式如下：

O_T＝σ(W_O·[h_t-1,x_t]+b_o)；

公式中记x_t为细胞的状态，h_t-1为上一时间的隐层状态，这个隐状态包含之前节点的相关信息，同样也会经过一个线性变幻的过程，W_o为神经元权重，b_o为偏差参数，用于对变量和状态的线性变换，t为当前时间，_t为输出门。

BiLSTM在命名实体识别的使用过程中需要将前向LSTM和后向LSTM拼接，即

和

分别表示前向LSTM和后向LSTM，用于提取上下文特征，之后输入到下一层网络，BiLSTM的层数设为1，维度设为300。

(3)Attention层降维

注意力机制(Attention)层用于降低上一层BiLSTM层输出向量的数据维度，减小在处理高维数据过程中产生的负担，同时由于Attention的存在和CNN提取的部首序列相结合，以提高命名实体在句子向量中的权重。通过多头注意力机制进一步获取上下文的依赖信息，即：

multiHead(Q,K,V)＝concat(head₁,…,head_h)W^O；

其中Q、K、V均为矩阵结果，即BiLSTM的结果，d_k表示Q、K的第二维度，分母的

主要是为了对分子相乘结果过大而进行调节，T为转置，softmax为逻辑回归函数，concat表示多次注意力机制的结果拼接，W_i ^Q、W_i ^k、W_i ^v为不同的参数，i＝1,2，......，h，i表示经过第i次自注意力运算，得到最终的输出向量，输出维度为600。head_i表示使用不同的参数多次重复计算Q、K、V矩阵所得的其中一个注意力层；multiHead(Q,K,V)表示将h个注意力层的输出进行拼接，然后乘以W^O进行线性变换得到多头注意力的输出结果。

(4)CRF层输出实体

条件随机场(CRF)层将Attention层中获得的输出数据作为输入，对于输入的向量需要计算出对应的序列概率值，而根据最大概率值与已定义好的命名实体词典输出高精度的命名实体信息。

(5)获得最佳模型

通过迭代多次上述建立的模型，根据相关评价指标结果，即准确率、召回率和F1值训练得到此模型指标最优结果的算法模型，相关的评价指标相对于BiLSTM-CRF算法模型均有较大提升。

3、将电力领域的数据集分为训练集和测试集，利用训练好的算法模型对测试集进行命名实体识别并标注测试的结果，具体步骤如下：

利用CNN-BiLSTM-Attention-CRF算法模型对测试集样本进行测试，因为已经将样本按照8:1:1的比例区分为训练集、测试集和验证集，所以直接将测试样本送入到模型进行测试，在测试过程中可能出现多种有误的情况，例如命名实体分类不准确、命名实体的标注有误和命名实体未标注等情况，对于上述情况都将在步骤4中进行处理。

4、利用相似度计算的方法解决在命名实体识别过程中出现的有误识别问题，具体步骤如下：

在将测试数据集送入到模型进行测试时，可能存在多种有误的情况，对于存在的有误标注或识别情况本发明采用汉明距离的方式进行处理，而汉明距离通常与simhash相结合。

Simhash表示的是敏感哈希算法在文本特征提取任务中的应用。它会把一篇文档映射为一个长度为64、元素值为0或1的一维向量。这样就可以使用某种距离计算方式来计算两篇文本的距离和相似度，其处理流程为分词、hash、加权、合并和降维，其中分词是得到有效的特征向量并为每个特征向量设置不同的权重，hash是将字符串变成一系列数字，加权是将hash值乘以对应的权重，合并是将各个位置的值累加，降维是将累加结果大于0的置为1，小于0的置为0。

汉明距离是用来比较两段文本的特征向量的每个维度取值是否相等，不相等的维度越多则两段文本的差异就越大，其计算公式如下：

其中，a_i和b_i表示输入的两段文本的第i个字符，将simhash与海明距离相结合用于对文本的相似度进行计算，进而对本发明中的算法模型测试结果的有误情况进行处理，进一步提升算法模型的性能，如果通过训练好的算法模型对数据集进行命名实体识别时，识别的结果与标注的结果不一致，则通过标记和相似度计算的方式判别结果的误差范围，可进一步确定是否为标注错误或识别错误。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于BiLSTM-CRF模型的电力领域命名实体识别方法，其特征在于，包括如下步骤：

步骤1，获取电力领域数据集；

2.根据权利要求1所述的基于BiLSTM-CRF模型的电力领域命名实体识别方法，其特征在于，该识别方法还包括步骤4，利用相似度计算的方法解决在命名实体识别过程中出现的有误识别问题，即如果通过训练好的算法模型对数据集进行命名实体识别时，识别的结果与标注的结果不一致，则通过标记和相似度计算的方式判别结果的误差范围，能进一步确定是否为标注错误或识别错误。

3.根据权利要求1所述的基于BiLSTM-CRF模型的电力领域命名实体识别方法，其特征在于，所述步骤1的具体过程如下：

步骤1-1，所述的电力领域数据集包括采用网络爬虫技术从百度百科、国家能源局上开放的有关电力信息爬取相关数据集，和从电力领域的相关书籍中获得的数据，其中数据包含电力客服、电力检修、电力常识和电力知识；

步骤1-2，从电力相关的书籍中获取数据，此部分数据为电力相关的知识；

4.根据权利要求3所述的基于BiLSTM-CRF模型的电力领域命名实体识别方法，其特征在于，步骤1-2中所述的书籍包括《电气工程概论》、《电力系统分析》和《继电保护》。

5.根据权利要求3所述的基于BiLSTM-CRF模型的电力领域命名实体识别方法，其特征在于，步骤1-4的标注中，“B-实体类型”表示该实体类型的首字符，“I-实体类型”表示该实体类型的中间部分，“E-实体类型”表示该实体类型的结束字符，“O”表示非实体。

6.根据权利要求1所述的基于BiLSTM-CRF模型的电力领域命名实体识别方法，其特征在于，所述步骤2的具体过程如下：

步骤2-3，将步骤2-2的结果连接注意力机制为向量添加权重信息，以显著增强实体的特征信息；

步骤2-4，将步骤2-3的结果送入到CRF模型中，该模型有特征转移矩阵，考虑输出标签之间的顺序性，有效约束标签之间的依赖关系，从而获取全局最优序列。