CN114564950A

CN114564950A - 一种结合字词序列的电力中文命名实体识别方法

Info

Publication number: CN114564950A
Application number: CN202210196459.8A
Authority: CN
Inventors: 王敬东; 杨帅松; 曲广强; 孟凡奇; 李佳
Original assignee: Northeast Dianli University
Current assignee: Northeast Electric Power University
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2022-05-31

Abstract

本发明公开了一种结合字词序列的电力中文命名实体识别方法，包括：构建电力词嵌入词典；结合字词序列特征识别实体。本发明的方法从电力中文语料中识别出的实体中存在更少的错误，自动识别电力实体的可依赖性和实用性得到提高。

Description

一种结合字词序列的电力中文命名实体识别方法

技术领域

本发明涉及电力中文命名实体识别技术，具体涉及一种结合字词序列的电力中文命名实体识别方法。

背景技术

目前，命名实体识别是自然语言处理领域的关键研究内容之一，其目的是识别出文本中的实体。命名实体一般指的是文本中具有特定意义或者指代性强的实体，通常包括人名、地名、组织机构名、日期时间、专有名词等。命名实体识别的研究目标就是从非结构化的输入文本中抽取出上述类型的实体，并且可以按照实际业务需求识别出更多其他类别的实体。因此实体这个概念可以很广，只要是业务需要的特殊文本片段都可以称为实体。命名实体识别作为自然语言处理领域中最底层的一项研究，是信息抽取、信息检索、知识图谱、机器翻译、问答系统等多种自然语言处理高层应用研究中必不可少的重要组成部分。

电力中文命名实体识别是在电力特定领域的实体识别研究，其目的是识别出电力中文文本中蕴含的实体信息。通过抽取出电力文本中的设备、零件、故障、操作等类型的实体，可以为后续电力故障知识图谱的构建研究奠定基础。在电力领域中，相比于现存的少量结构化数据，广泛存在的以文本类型为代表的非结构化数据中蕴含着海量的信息。其中，不仅包含详细表述设备及零件的缺陷情况、缺陷原因的信息，还包含缺陷的处理操作信息。因此，若能有效地从电力故障文本中抽取结构化信息，可为设备的故障诊断及检修提供历史经验，同时也可为相似设备的检修提供借鉴指导。

实体识别任务通常包含两个子任务，一个是识别实体的边界，另一个是将实体正确分类。由于电力领域中的实体长度跨度很大，且因电力故障文本具有较高的专业性而难以被机器理解，所以电力命名实体识别常常是困难的。通过观察数据与前期实验，电力故障文本的实体信息识别存在以下难点：

（1）难以正确地识别出实体的边界。相比电力文本分类，实体识别的对象是文本中特定类型的文本片段。这就使得命名实体识别的目标更加细化，任务更加复杂。同时，由于电力故障文本本身的专业性和复杂性，以及电力实体识别任务中目标的特殊性，导致应用在开放领域的现有实体识别方法对于专业电力术语识别能力不强，存在难以正确地识别出实体边界的问题。

（2）电力文本中存在多形一意现象。电力文本中，描述同一个设备、零件、故障和处理等类型的实体具有多种不同的表述形式，如：“主变”和“主变压器”、“端盖”和“盖板”、“烧伤”和“烧坏”、“降温处理”和“冷却处理”等。以上每组中的两个词都指的是同一个实体，但是存在不同的描述，这可能会影响识别的效果。

（3）研究数据中存在个别的错别字。本次研究的数据主要是通过对电力故障诊断文档采用OCR方式获取的，由于OCR本身的错误会造成少量错别字的现象，如“螺木全”、“力磁机”等，导致信息难以被准确识别。考虑到现场工作人员记录电力信息时偶尔也会出现错字的情况，本项研究未对数据中的少量错别字进行修订，以更符合实际情况。

针对实体识别任务，传统采用基于字典匹配的方法或机器学习的隐马尔可夫(HMM)、条件随机场 (CRF)、支持向量机 (SVM)等方法。此类方法局限于先对词语和语法特征进行人工建模，再进行实体识别的两步流程。人工特征建模需要大量专家来编写模板和规则，费时费力且覆盖的范围有限。

为避免人工提取文本特征的复杂流程并实现自动提取文本特征的目标，研究人员逐渐采取基于深度学习的方法解决NER问题。双向长短时记忆网络 (Bidirectional LongShort Term Memory, Bi-LSTM) 解决了循环神经网络 (Recurrent Neural Network，RNN)存在的梯度消失的问题，通过保留重要文本信息并遗忘不重要信息提取长序列特征，且能对文本进行双向特征提取。CRF可以在训练中自动学习标签之间的约束，以确保最终预测的实体标签序列的有效性。由于Bi-LSTM和CRF各自的特点都非常适合序列标注任务，因此将二者组合起来的BiLSTM-CRF模型成为了处理NER任务的经典模型。后续出现了许多基于BiLSTM-CRF模型的改进模型，它们都是在BiLSTM-CRF的基础上组合其他模型和方法以解决各个领域具体的NER问题。例如在网络安全领域，Ya Qin等提出了FT-CNN-BiLSTM-CRF命名实体识别方法，首先使用特征模板提取局部上下文特征，然后通过神经网络模型自动提取字符特征和文本全局特征，解决了提取的特征不足、难以准确识别中英文混合实体的问题。在生物医药领域，Hao Wei等提出了一个基于Attention的BiLSTM-CRF模型，通过注意力机制改进BiLSTM中的向量表示，设计不同的Attention权重再分配方法并进行融合，有效地防止了特征提取时的重大信息丢失。在电力调度领域，吴超等采用Transformer-BiGRU-CRF模型解决命名实体识别问题，通过Transfomer模型得到语料的字向量，再利用BiGRU-CRF模型进行命名实体识别，该研究为电力调度自动化奠定了基础。

Google在Transformer模型编码模块的基础上，提出了BERT语言模型(Bidirectional Encoder Representation from Transformers)，将多层Transformer串联组合，根据文本上下文语义信息动态生成字向量。经过超大量语料预训练的BERT能使模型达到一个较好的初始化效果，所以在NLP各项任务上BERT都取得了优异表现。目前，BERT-BiLSTM-CRF模型已经成为处理中文NER任务的常见模型，相比于BiLSTM-CRF模型，效果提升明显。在生物医药领域，Yuhang Song等提出一种基于预训练语言模型的BERT-BiLSTM-CRF药物名称识别方法，在实际应用中可以有效地提高新疆地方药名识别的评价指标。在司法领域，Lu Gu等使用BERT预训练语言模型根据单词的上下文生成单词向量，增强单词的语义表示，然后将单词向量序列输入到BiLSTM-CRF中进行训练，实现了司法文书中命名实体的识别，为实现审判自动化奠定基础。在军事领域，针对军事文本中词段分割不准确、形式多样、语料库缺乏等问题，Yiwei Lu等构建BERT-BILSTM-CRF模型处理军事文本语料中的命名实体识别任务，以便后续开展军事情报分析和作战信息化研究。

大规模的预训练语言模型已经在应对NER任务中表现出了良好的效果，尤其是在英文NER任务中。然而中文不同于英文有空格作为天然的分词边界，正确识别实体边界对于中文命名实体识别任务至关重要。现有的多数基于深度学习及预训练语言模型的实体识别方法局限于仅使用字序列特征，而不能有效利用词序列特征。特别是在专业领域文本中，实体、句式都较为复杂，正确识别实体的边界是困难的。因此，有学者在中文命名实体识别任务中加入词序列特征，以增加中文命名实体识别的效果。Na Ye等提出了一种基于提出了一种基于条件随机场的特征词向量融合方法。首先，使用Word2Vec获取相应的字符向量和单词向量字典，并将字向量和对应的词向量相加得到最终向量。其次，将得到的字符字向量作为BiLSTM（双向长短时记忆）网络的输入单元，然后利用CRF（条件随机场）解决标签序列不合理的问题。通过使用该模型，可减少对分词算法准确性的依赖，有效地利用了单词的语义特征。Yue Zhang等研究了一个应用于中文NER的格结构LSTM模型，它编码一系列输入字符以及所有匹配一个词汇的潜在单词。该模型显式地利用了单词和单词序列信息，且不存在词边界分割错误，识别效果优于仅使用词序列特征的方法和仅使用字序列特征的方法。Xiaonan Li等提出了一种适用于中文NER任务的平面格状结构变换器，它将格状结构转换为由跨度组成的平面结构。每个跨度对应一个字符或潜在单词及其在原始晶格中的位置。借助于transformer的强大功能和精心设计的位置编码，FLAT可以充分利用晶格信息，并具有良好的并行能力。解决了因传统网格结构存在复杂性和动态性，造成现有的大多数基于网格的模型难以充分利用gpu的并行计算，推理速度通常较低的问题。

在电力领域中，已开展一些中文NER的研究。如XiaoYong等提出了一种基于联合学习的中文电力计量命名实体识别技术。该技术联合CNN-BLSTM-CRF 模型与整合词典知识的分词模型，使其共享实体类别和置信度；同时将2个模型的先后计算顺序改为并行计算，减少了识别误差累积。实验结果表明，在不需要人工构建特征的情况下，方法的正确率、召回率、F 值等均显著优有所提高。Kaihong Zheng 等提出了一种新的电力中文NER模型AttCNN-BiGRU-CRF，它由以下五层组成。前缀Att表示该模型基于注意机制。基于BERT的联合特征嵌入层将字符嵌入和词嵌入相结合，获得更多的语义信息。卷积注意层结合了局部注意机制和CNN来捕捉局部上下文的关系，BiGRU层提取电能计量文本的高级特征，全局多头注意层优化了句子级信息的处理，CRF层获得输出标签序列。Ruifan Li等采用基于远程监督的人工标注方法来获得伪标注的领域语料库。然后在电力数据集上比较了几种流行的方法，实验表明预训练的神经网络模型和softmax分类器取得了较好的性能。

发明内容

本发明的主要目的在于提供一种结合字词序列的电力中文命名实体识别方法。

本发明采用的技术方案是：一种结合字词序列的电力中文命名实体识别方法，包括：

构建电力词嵌入词典；

结合字词序列特征识别实体。

进一步地，所述构建电力词嵌入词典包括：

采用无监督方法从电力文本中挖掘专业词汇构建电力词汇集；

将构建的电力词汇集导入到分词工具词典包中以优化对电力语料库的

分词结果；

利用Word2Vec模型训练生成电力词嵌词典，以实现向字词序列结合

模型提供词序列信息的数据基础。

更进一步地，所述结合字词序列特征识别实体包括：

对电力语料进行BIO标注，以提供字序列特征；利用改进的Transformer模型将字序列逐字匹配已获得的电力嵌入词典中的词汇，把匹配出来的词放在句末；

通过为所有字和词添加一个开始位置标记和结束位置标记，将字词序列共同编码实现了字词序列特征结合；

将结合的序列传递到BERT-BiLSTM-CRF模型中，并根据实验结果反复修正模型。

更进一步地，所述采用无监督方法从电力文本中挖掘专业词汇构建电力词汇集包括：

利用Jieba分词工具对电力语料进行细粒度分词，得到初始分词结果；

使用N-Gram模型对分词后的相邻词汇进行二阶滑动窗口组合和三阶滑动窗口组合，将组合结果构成候选词汇集；

计算候选词汇的词频、信息熵及互信息等统计指标，根据统计指标及候选词得分情况设置阈值以过滤候选词，并将筛选结果组成电力词汇集。

更进一步地，所述统计指标及候选词得分情况设置阈值包括利用词频、信息熵及互信息这三个指标；

信息熵的公式如式（1）和（2）所示：

式中：

为候选词，N为候选词左侧邻接的字的总数，M为候选词右侧邻接的字的总数，

为候选词左侧一个邻接词占所有左侧邻接词的概率，

为候选词右侧一个邻接词占所有右侧邻接词的概率，

为候选词左侧信息熵值，

为候选词右侧信息熵值；

左右信息熵越大，说明字符串可能的搭配就越丰富，该字符串是一个专业词汇的可能性就越大；

信息熵是候选词的外部指标，仅考虑左右信息熵是不够的，还需要考虑候选词内部的凝聚程度；互信息可以描述这种凝固程度，凝固程度越大说明该词越可能是专业词汇；二阶滑块组合的互信息公式如式（3）所示：

其中，

和

分别为词

和

在文档中出现的概率，

是

和

组合的候选词在文档中出现的概率；如果互信息的值越大，表明

和

组成的候选词是专业词汇的可能性越高；反之，则表明

和

之间存在边界的可能性越高；类似于二阶滑块组合的互信息，给出三阶滑块组合的互信息公式如式（4）所示：

其中，

为

、

组合的候选词在文档中出现的概率，

是

和

组合的候选词在文档中出现的概率，

是

和

组合的候选词在文档中出现的概率，

和

分别为词

和

在文档中出现的概率；

候选词的最终得分公式见式（5）：

计算所有候选词的得分后，按照分值从大到小排序；设置挖掘的电力专业词汇个数为n，将得分排行前n的词构建为电力专业词汇集。

本发明的优点：

本发明的方法的模型的新颖之处在于改进Transformer原有的绝对位置编码为头位置加尾位置共同编码的结构，利用这种结构通过逐字匹配电力嵌入词典可实现字序列和词序列的结合，使模型更充分地利用文本中的特征信息。通过实验发现，这种结合字序列特征与词序列特征的方法在电力中文命名实体识别任务中的各项指标显著优于其他方法，尤其是精确率的提升更为明显。这表明基于此方法从电力中文语料中识别出的实体中存在更少的错误，自动识别电力实体的可依赖性和实用性得到提高。

准确全面地识别电力实体是构建电力故障领域高质量知识图谱的第一步，通过该步骤提供了构建电力故障知识图谱的节点。后续可以开展关系抽取相关的研究，通过自动抽取实体之间的关系以提供连接知识图谱节点的边。通过构建的电力设备故障知识图谱整合电力行业知识，操作人员可以快速响应电力设备故障，及时发现故障及其原因，最终提高故障诊断的准确性和效率。此外，还可以在电力设备故障知识图谱中整合多种来源和类型的数据，如设备实时监测信息、历史故障处理信息等，以更加科学准确地诊断设备故障、评估设备状态，这也是后续研究的方向。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明的方法的整体框架图；

图2是本发明的无监督挖掘电力专业词汇的流程图；

图3是本发明的Word2vec模型结构图；

图4是本发明的模型的总体结构图；

图5是本发明的字词序列结合结构图；

图6是本发明的BERT模型的输入结构图；

图7是本发明的BiLSTM模型的结构图；

图8是本发明的BIO标注示例图；

图9是本发明的不同learning_rate及batch_size下的实验结果图；

图10是本发明的四组实体识别实验的结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的方法整体框架：

现有的研究表明在中文实体识别任务中，基于字序列特征的方法优于基于词序列特征的方法。然而若在利用字序列特征的同时有效地利用词序列中蕴含的特征，将有助于提升中文实体识别的效果。因此，本论文研究结合字词序列特征的电力中文命名实体识别方法。

该方法的整体框架如图1所示，其数据基础为故障诊断报告、缺陷排查日志和调度及操作记录等电力设备故障语料。实现字词序列结合的命名实体识别任务共包含两个主要步骤：构建电力词嵌入词典以及结合字词序列特征识别实体。第一步是为了向第二步中的模型提供词序列信息，在第二步中实现结合字词序列特征识别电力实体。

在第一部分，首先，采用无监督方法从电力文本中抽取专业词汇构建电力词汇集。然后，将构建的电力词汇集导入到分词工具词典包中以优化对电力语料库的分词结果。最后，利用Word2Vec模型训练生成电力词嵌入词典，以实现向字词序列结合模型提供词序列信息的数据基础。

在第二部分，结合字词序列特征识别实体。为训练实体识别模型，首先需要对电力语料进行BIO标注，以提供字序列特征。然后利用改进的Transformer模型将字序列逐字匹配已获得的电力嵌入词典中的词汇，把匹配出来的词放在句末。通过为所有字和词添加一个开始位置标记和结束位置标记，将字词序列共同编码实现了字词序列特征结合。然后将结合的序列传递到BERT-BiLSTM-CRF模型中，并根据实验结果反复修正模型。

构建电力嵌入词典：

为了向实体识别模型提供词序列特征信息，需要利用Word2Vec模型训练生成电力嵌入词典。其中分词是关键的步骤，分词的准确程度影响所训练的预嵌入词典的词汇本身及其映射到空间的位置是否正确。在专业领域内，文本中常常因存在较多分词工具内置的词典包中不包含的专业词汇而造成分词错误。虽然常用的中文分词工具（如jieba等）有新词发现功能，但是为保证分词准确度，依然建议使用自定义词典。因此，需要利用无监督方法从电力文本中挖掘专业词汇。

电力专业词汇挖掘：

无监督挖掘电力专业词汇的步骤如图2所示。首先利用Jieba分词工具对电力语料进行细粒度分词，得到初始分词结果。然后使用N-Gram模型对分词后的相邻词汇进行二阶滑动窗口组合和三阶滑动窗口组合，将组合结果构成候选词汇集。最后计算候选词汇的词频、信息熵及互信息等统计指标，根据统计指标及候选词得分情况设置阈值以过滤候选词，并将筛选结果组成电力词汇集。

专业词汇挖掘方法主要利用词频、信息熵及互信息这三个指标。词频是指候选词出现的次数，当其出现次数较多时该候选词可能是专业词汇。若不设置词频筛选将造成计算时间大大增加，同时在仅出现一次的候选词中的专业词汇占比不高，因此本研究首先筛选出词频大于及等于2的候选词。信息熵用于描述候选词前后邻接字的不确定性，不确定性越大，信息熵就越大，那么该候选词是专业词汇的可能性就越大。信息熵的公式如式（1）和（2）所示。

式中：

为候选词左侧一个邻接词占所有左侧邻接词的概率，

为候选词右侧一个邻接词占所有右侧邻接词的概率，

为候选词左侧信息熵值，

为候选词右侧信息熵值。

左右信息熵越大，说明字符串可能的搭配就越丰富，该字符串是一个专业词汇的可能性就越大。信息熵是候选词的外部指标，仅考虑左右信息熵是不够的，还需要考虑候选词内部的凝聚程度。互信息可以描述这种凝固程度，凝固程度越大说明该词越可能是专业词汇。二阶滑块组合的互信息公式如式（3）所示。

其中，

和

分别为词

和

在文档中出现的概率，

是

和

组合的候选词在文档中出现的概率。如果互信息的值越大，表明

和

组成的候选词是专业词汇的可能性越高。反之，则表明

和

之间存在边界的可能性越高。类似于二阶滑块组合的互信息，给出三阶滑块组合的互信息公式如式（4）所示。

其中，

为

、

、

组合的候选词在文档中出现的概率，

是

和

组合的候选词在文档中出现的概率，

是

和

组合的候选词在文档中出现的概率，

和

分别为词

和

在文档中出现的概率。

候选词的最终得分公式见式（5）：

计算所有候选词的得分后，按照分值从大到小排序。设置挖掘的电力专业词汇个数为n，将得分排行前n的词构建为电力专业词汇集。

训练电力预嵌入词典：

文本中的词是符号形式的，而数学模型只接受数值型输入。所以需要把词转化为某个设定维度的数值形式，转化后的词向量需要在空间上表示原来词的意义和词性等特征。上述过程叫做词嵌入，本文采用的Word2Vec就是当前常用词嵌入模型的一种。Word2vec模型主要包含两个部分，Skip-gram模型和 CBOW 模型。如果是用一个词语作为输入，来预测它周围的上下文，那这个模型叫做Skip-gram 模型。而如果是拿一个词语的上下文作为输入，来预测这个词语本身，则是 CBOW 模型。Word2vec的模型结构如图3所示。

数学模型只接受数值型输入，Word2vec也不例外。因此Word2Vec首先将文本分词后的结果通过one-hot编码映射为N维向量，作为其原始输入。One-hot 编码本质上是用一个只含一个 1、其他都是 0 的向量来唯一表示词语，它的维度N就是所有词的去重个数。图3中的

是V个词的one-hot编码形式的输入，

是在这V个词上输出的概率。利用Skip-gram模型和 CBOW 模型这两种方式经过多轮训练，使模型的输入与输出尽可能与实际情况相同。当模型训练完后，最后得到的其实是神经网络的权重，这个权重作为词对应的向量。比如现在输入一个词语x 的 one-hot编码: [1,0,0,…,0]，则在输入层到隐含层的权重里，只有对应 1 这个位置的权重被激活。这些权重的个数，跟隐含层节点数是一致的，从而这些权重组成一个向量

来表示x，而因为每个词语的 one-hot 编码里面 1 的位置是不同的，所以，这个向量

就可以用来唯一表示 x。词向量的维度（与隐含层节点数一致）一般情况下要远远小于词语总数 V 的大小，所以 Word2vec 本质上是一种降维操作。它把词语从 one-hot 编码形式的表示降维到 Word2vec 形式的表示。

首先将构建的电力专业词汇集导入到Jieba自定义词典包中以辅助修正对电力语料库的分词结果，然后清洗分词结果中的标点符号等无意义字符。同时筛选掉词频极低的词，保留高频词。因为词频极低的词可能是无用的词、分错的词，反应的语言学意义可能不准；而词频越高，捕捉到的上下文信息就越多，通常来说是可信的。最后利用Word2Vec模型训练生成电力领域词嵌入词典。

实体识别模型：

模型的整体结构如图4所示，共分为四层。Transformer层的作用是将输入的字符序列与训练好的嵌入词典匹配，并生成字词序列结合结构。然后利用经大量数据预训练得到的BERT层对字和词映射到向量空间的位置在一定程度上进行修正。BiLSTM层从正向和反向同时学习上下文信息，并具有实现长期依赖的能力。CRF层的作用是通过学习标签的序列规律，按规律约束输出序列的标签。

Transformer

Transformer 模型的编码器结构由6 个相同的基本层堆叠而成，每一个基本层都由两个子层组成，第一个是多头注意力层（Multi-Head Attention），第二个是密集型全连接前馈神经网络层，接着在两个子层中使用一次残差连接，然后进行层归一化操作。解码器结构与编码器结构类似，也是由6 个完全相同的基本层堆叠组成，每一层除了包括多头注意力层和前馈神经网络层外，还有一个隐蔽式多头注意力层，该层用于对编码器层的输出进行多头注意力操作。解码器的每个子层也采用残差连接，然后归一化操作。Transformer模型架构的核心是注意力机制。

注意力机制本质上是一种资源分配模型，在某个特定时刻，将主要注意力集中于事物的关键点。自注意力是针对序列内部不同位置进行的关联计算，具体来说，将输入信息线性映射到3 个不同的空间，并建立查询和打分机制，计算句中字词之间的相关程度，通过偏向性地给重要的字词赋以较高的权重，使得模型更加关注携带重要信息的字词。假设输入为矩阵

，n为序列长度，d为输入的维度，通过3个不同权值矩阵

将A映射到不同的空间

，权值矩阵维度均为

，使用缩放点积进行注意力机制计算的公式如式（6）和（7）。

式中

为自注意力层的维度，

可防止

内积过大。经过自注意力处理之后，某一位置上的向量不仅包含该字本身的信息，还包含与其他字的相关性信息，因此在特征表达上更加丰富。

本论文采用改进的Transforme模型对输入进行字词序列共同编码，其结构如图5所示。通过BIO标注的数据提供字序列，通过将字序列逐字与嵌入词典中的词匹配以提供词序列。如果匹配成功则将所有匹配到的词依次放在句末，并在每个字和词的位置上增加一个开始位置标记和结束位置标记。所有的训练语料都在Transformer模型中被编码为字词序列结合的结构，以实现结合字词序列识别电力中文命名实体。

BERT

BERT通过多层神经网络进行特征提取和训练，并将输入文本转换为词向量，使BiLSTM层能够学习上下文特征。BERT模型将输入序列转换为词嵌入、句子嵌入和位置嵌入三个特征的综合嵌入，然后将它们传递到下一层模型中，如图6所示。

BERT模型最重要的模块是用于特征提取的双向Transformer编码结构，它使用self-Attention机制和全连接层来对输入文本建模。BERT模型训练的动态词向量可以在不同的上下文中表达不同的语义。与传统语言训练模型得到的静态词向量相比，得到的词向量不仅包含词本身的意义，还包含词的上下文。因此，它还可以捕捉句子层面的隐含特征。

BiLSTM

BiLSTM层由两个LSTM层组成，且均与输出层连接，以提取上下文的信息特征的提取，从而输出标注序列，结构如图7所示。

在双向长短期神经网络结构中，可实现对已知的信息及未知的信息的综合考虑。双向长短期神经网络网络结构不仅同时获得了上下文信息，而且又保留了可以解决长期依赖的优势，能够高效完成序列标记任务。例如：前向LSTM神经网络中输入“变压器，发生，接地”得到的向量为(L0, L1, L2)，将文本上文信息考虑其中，反向LSTM神经网络中输入“接地，发生，变压器”得到的向量为(R0, R1, R2),将文本的下文信息考虑其中；通过序列拼接得到向量(L0, R0)，(L1, R1)，(L2, R2)，前向与反向LSTM神经网络相结合，综合考虑了文本的上下文信息。而数据单元通过遗忘门、输入门、输出门三种结构来控制每个单元的状态。遗忘门决定遗忘单元状态中的哪些信息；输入门决定哪些新的信息更新到数据单元状态中；输出门决定输出某一部分信息。在时刻t数据单元的状态更新可由式(8)-(12)得到。

其中，

表示t时刻的输入，

、

、

分别代表LSTM单元的3个门控单元的状态，

表示t时刻该层单元的状态，

表示t时刻的隐藏层输出状态。

、

、

表示输入门、遗忘门、输出门的权重矩阵，

、

、

、

表示对应的偏移向量。

CRF

CRF模型是计算联合概率分布的图模型，通过结合上下文序列标签的相关性，计算整体序列的概率分布，将局部特征归一为全局特征，得到全局最优解，输出最终的标记序列。CRF层在进行标签训练时，能获取到标签的隐藏约束规则。有了约束规则，识别实体正确率将会大幅提升。根据本文的任务和研究数据，可得到标签规则如下：

（1）识别实体词的标签应是以“B”为开头，而不是“I”。例如：若识别出“M -> I-EQ，N -> I-EQ”，就是违反约束规则，应为“M -> B-EQ，N -> I-EQ”；

（2）识别的任一实体词标签应为：“B-label₁，I-label₁，I-label₁”，所识别标签应该属于同一类实体。例如，“B- FAU I- FAU”是合法的序列，但是“B- FAU I- EQ”是非法标签序列；

（3）在一段文本序列中，一定是以标签“B”，“O”作为序列标注的开始。

在利用CRF模型对标签序列进行识别时，并非只选择最高评分函数的序列，而是根据上下文以及隐含标签规则进行选择。

实验验证：

为了验证从电力设备故障语料库中识别出文本中蕴含的各种类型实体的可行性，并分析本论文提出的结合字词序列特征识别实体方法的准确性，进行了四组对比试验。本次实验采用的数据为电力设备故障诊断问答语料，语料大小为335k。首先对该语料进行标注，然后按照6:2:2的比例将其分为训练集、验证集和测试集。

在的电力语料中共有四种类型的实体，分别是设备、零件、故障和操作。用BIO的形式标注该数据集，用的标注工具为YEDDA。标注的示意图如图8所示，每个字符对应一个标签。所有的标签大体上分为两种，实体类标签和非实体类标签。所有的非实体类标签均为“O”，而实体类标签分为两部分，分别是位置标注和类型标注。在位置标注中，“B”代表该字符为实体的开头，“I”代表组成实体的该字符处于实体的非开头位置。并在类型标注中使用“EQ”代表设备类型的实体，“PAR”代表零件类型的实体，“FAU”代表故障类型的实体，“OPE”代表操作类型的实体。

利用预测结果与实际结果组成的混淆矩阵来解释评价实验用到的指标，如表1所示。

表1 预测结果与实际结果组成的混淆矩阵

预测值为1时决定P，即P代表预测结果为阳性；预测值为0时决定N，即N代表预测结果为阴性；如果真实值与预测值相同则得到T，即T代表预测正确；如果真实值与预测值不同则得到F，即F代表预测错误。因此得到该混淆矩阵。在本论文的实验中，TP代表实际为该类型实体并且正确识别出来的部分，FN代表实际为某类型实体但未正确识别出来的部分，FP代表实际为非该类型实体或非实体但识别为该类型实体的部分，TN代表实际为非实体且识别其为非实体的部分。

精确率的公式见式（13），该指标代表预测为某类型的实体中实际确实为该类型的实体所占的比例。精确率反映了模型识别出来的实体中的准确程度，精确率越高说明该模型识别出来的实体越有可能是正确的。

召回率的公式见式（14），该指标代表实际为某类型的实体中，通过模型正确识别出来的部分所占的比例。召回率反映出该模型对于实体的识别能力，召回率越高说明该模型识别出来的实体越全面，越有可能把尽可能多的实体识别出来。

精确率越高越好，召回率也是越高越好。但是实际情况中，这二者之间往往存在一定的制约关系，其中一个指标过大可能会影响另外一个指标，使两个指标很难同时得到较高的数值。因此引入F1值来整合精确率和召回率以综合评价实验的结果，F1值的公式见式（15）。

精确率能体现出模型的正样本结果的预测准确程度，召回率能体现出模型对于正例的查全识别程度，但是仅采用这两个指标用于评价模型性能都是片面的，因此为了综合评判模型的效果，在的论文中最主要采用F1值来综合评价模型的性能。

为了使的模型在电力中文实体识别任务中取得更好的效果，需要确定该模型最优的参数。因此，采用多组不同的batch_size和learning_rate开展了对比试验。当lr分别为6e-3，6e-4，6e-5时，分别在不同的batch_size下开展实验，其实验结果如图9所示。

从图9的对比试验结果可知，当learning_rate取值为6e-3时，模型的效果曲线在一定范围内随着batch_size增大而提升，然后维持在较高的位置；当learning_rate取值为6e-4时，模型在batch_size较小时效果就不错，而且还会随着batch_size增大而有一定提升，然后维持很高的位置；当learning_rate取值为6e-5时，模型的效果在batch_size较小时较好，但在一定范围内随着batch_size增大而减小，然后维持较低的位置。所以可以得到结论，batch_size和learning_rate的取值有较强的相关性。当learning_rate取值较大时，为了得到较好的实验结果，batch_size也需要设置为较大的值。反之，当learning_rate取值较小时，batch_size也需要设置为较小的值，才能得到较好的实验效果。因此，必须选择相匹配的batch_size和learning_rate以优化实验结果。根据对比试验的结果，最终选择learning_rate为6e-4，batch_size为16作为模型隐含层参数。除了learning_rate和batch_size，也通过其他对比实验确定了剩余的参数。模型最终的参数如表2所示。

表2 模型的主要参数

开展了四组实验，通过比较各个模型的效果以验证提出的方法在电力故障领域中文命名实体识别任务中的有效性。实验1采用BiLSTM-CRF模型，实验2采用BERT-BiLSTM-CRF模型，实验3采用Transformer-BERT-BiLSTM-CRF模型但其中不包含词序列信息，实验4采用Transformer-BERT-BiLSTM-CRF模型，同时在实验4的模型中包含字序列信息和词序列信息。在构建电力嵌入词典的步骤中，识别出电力专业词汇13536个，构建的电力嵌入词典共包含2465个词汇，每个词汇可映射到50维的向量空间中。将构建的电力嵌入词典用于实验4中提供词序列信息。评估实验结果的指标为精确率、召回率和F1值，四组实验的结果如图10所示。

首先，比较BiLSTM-CRF模型和BERT-BiLSTM-CRF模型的精确率、召回率和F1值，可知BERT-BiLSTM-CRF模型相比于BiLSTM-CRF模型在这三个指标上分别提升了11.61%，13.45%和12.53%。BiLSTM-CRF模型是实体识别任务中的经典模型，添加BERT模型后可以使实验效果大大提升。这是因为BERT是通过大规模数据预训练而得到的模型，它能很好的学习带有上下语境的词向量和句子的前后顺序。然后，比较Transformer-BERT-BiLSTM-CRF（without word sequence）和BERT-BiLSTM-CRF模型，可知在精确率、召回率和F1值方面的提升分别为8.74%，6.6%和7.66%。这是因为Transformer基于自注意力机制，可以来挖掘文本中的长距离相关依赖。此外，采用头位置加尾位置共同编码的形式，改进了Transformer的绝对位置编码，使其更适用于命名实体识别任务。最后，对比实验4和实验3。当在Transformer-BERT-BiLSTM-CRF模型中加入词序列信息后，精确率、召回率和F1值分别提升了4.65%，1.39%和2.96%。这说明字词序列结合的Transformer-BERT-BiLSTM-CRF模型相对于仅使用词序列信息的该模型能较为显著地提升精确率，能大幅度增加识别实体的准确效果。

通过比较四组实体识别实验的效果，的模型效果显著优于其他三种模型，尤其在精确率方面的提升更为为明显。

为了提高从电力中文技术文献中识别出多种类型实体的效果，提出了结合字词序列的电力中文命名实体识别方法。该模型的新颖之处在于改进Transformer原有的绝对位置编码为头位置加尾位置共同编码的结构，利用这种结构通过逐字匹配电力嵌入词典可实现字序列和词序列的结合，使模型更充分地利用文本中的特征信息。通过实验发现，这种结合字序列特征与词序列特征的方法在电力中文命名实体识别任务中的各项指标显著优于其他方法，尤其是精确率的提升更为明显。这表明基于此方法从电力中文语料中识别出的实体中存在更少的错误，自动识别电力实体的可依赖性和实用性得到提高。

电力中文命名实体识别是构建高质量电力设备故障知识图谱的关键步骤，然而现有的实体识别方法在专业、复杂的电力文本中难以有较好的效果。为了解决这个问题，本发明提出了一种结合字词序列特征的电力中文命名实体识别方法。其创新之处在于利用改进的Transformer结构将字序列与词序列共同编码，进而结合字词序列特征识别电力实体。首先，利用无监督方法构建电力词汇集，并将电力词汇集导入到分词工具自定义词典包中修正分词结果。然后利用Word2Vec训练电力嵌入词典。最后通过基于字词序列结合的实体识别模型识别电力实体。以电气设备故障诊断语料为研究对象，开展了四组实验。实验结果表明的方法相对于常见的BiLSTM-CRF模型和BERT-BiLSTM-CRF模型效果提升明显，而且相对于仅利用字序列特征的对照实验也有较大的提升，尤其是在精确率方面提升更为显著。这证明了提出的方法的有效性。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。