CN113869054A

CN113869054A - 一种基于深度学习的电力领域项目特征识别方法

Info

Publication number: CN113869054A
Application number: CN202111193129.5A
Authority: CN
Inventors: 贾博森; 黄少远; 张恒; 王晓飞; 张宇熙; 彭国政; 赵娟; 朱克平; 谢颖捷
Original assignee: State Grid Economic And Technological Research Institute Co LtdB412 State Grid Office; Tianjin University; Economic and Technological Research Institute of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Economic And Technological Research Institute Co LtdB412 State Grid Office; Tianjin University; Economic and Technological Research Institute of State Grid Zhejiang Electric Power Co Ltd; State Grid Economic and Technological Research Institute
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2021-12-31

Abstract

本发明公开了一种基于深度学习的电力领域项目特征识别方法，包括如下步骤：根据电力项目文档提炼电力领域的项目特征，基于项目特征建立项目业务标签体系；对电力项目文档进行文本预处理；借助文本标注工具对预处理后的电力项目文档进行实体标注，生成电力项目文档所对应的BIO格式数据集；利用ERNIE模型、Bi‑GRU神经网络和CRF模型建立网络学习模型，将BIO格式数据集输入网络学习模型进行训练得到实体识别模型；利用实体识别模型对新的电力项目文档进行特征识别。本发明可以电力项目文档进行精简，有效节省项目文档管理成本，帮助公司合理安排项目计划管理。

Description

一种基于深度学习的电力领域项目特征识别方法

技术领域

本发明属于命名实体识别与深度学习技术领域，具体涉及一种基于深度学习的电力领域项目特征识别方法。

背景技术

信息管理智能化是信息化的更高阶段，延续着信息化管理的工作流程，智能化应用更高层次的IT技术，以解决信息化系统工作流动过程中尚未解决的深层学习、预测、自动判别和决策的科学计算工作。在传统的项目管理信息系统的基础上，通过加入智能化技术手段可以实现项目管理的进一步智能化和信息化，并且可以更精准地挖掘数据背后隐藏的知识。

面对公司持续深化改革发展的新形势，公司综合计划作为战略导向性的总抓手亟须适应性完善，而且项目计划管理的科学合理安排更是重中之重。公司各专项的项目具有不同的特征点与管理标准，如何在公司的海量项目数据中实现特征标签识别与提取，并构建适应各项目特征的标签体系，提出差异化管理策略，是发展完善的难点之一。

无论是外部环境的深刻影响还是内部环境的自我驱动均要求相关电力公司尽快开展适应新形势、新战略体系的项目管理研究。各公司需要基于战略需求和发展定位，研究适应公司新战略、新体系的综合计划项目管理优化提升方案，根据新战略目标对现有项目管理内涵、管理模式、项目储备等进行优化调整，进一步分析项目业务间的关联性，明确适应公司发展投入资源配置的方向，推动公司合理高效的项目投资管控，制定科学的投资策略。

发明内容

针对电网公司各项目特征提取难管理不便的问题，本发明提出了一种基于深度学习的电力领域项目特征识别方法。为解决以上技术问题，本发明所采用的技术方案如下：

一种基于深度学习的电力领域项目特征识别方法，包括如下步骤：

S1，根据电力项目文档提炼电力领域的项目特征，基于项目特征建立项目业务标签体系；

S2，对电力项目文档进行文本预处理；

S3，借助文本标注工具对预处理后的电力项目文档进行实体标注，生成电力项目文档所对应的BIO格式数据集；

S4，利用ERNIE模型、Bi-GRU神经网络和CRF模型建立网络学习模型，将步骤S3得到的BIO格式数据集输入网络学习模型进行训练得到实体识别模型；

S5，利用实体识别模型对新的电力项目文档进行特征识别。

在步骤S1中，所述项目业务标签体系包括一级类别标签和二级实体标签，一级类别标签包括电网基建、产业基建、电网小型基建、生产技改、产业技改、生产辅助技改、零星购置、生产大修、产业大修、生产辅助大修、电力市场营销、电网数字化、研究开发、管理咨询、教育培训和股权投资，二级实体标签包括机构、电网信息化和金额。

在步骤S2中，所述文本预处理的方法为：利用格式转换工具将电力项目文档的PDF文件转换为EXCEL格式后，剔除包括空白页、目录、参考文献及附图的非关键信息，再将剔除后的文件转换为TXT文件。

在步骤S3中，所述BIO格式数据集包括语句和每行语句所对应的标签，所述标签包括通用标签、分隔符和标签具体类别，通用标签即BIO标注，B表示实体起始位置，I表示实体的非第一个字符，O表示非实体，标签具体类别与二级实体标签相对应，采用O代表机构，E代表电网信息化，M代表金额。

所述步骤S4包括如下步骤：

S4.1，将预处理后的BIO格式数据集分为训练集、验证集和测试集；

S4.2，利用ERNIE模型、Bi-GRU神经网络和CRF模型建立网络学习模型；

S4.3，设置验证准确率阈值和预测准确率阈值；

S4.4，利用训练集数据对网络学习模型进行训练得到实体识别模型；

S4.5，利用验证集数据对实体识别模型进行评估，若实体识别模型的识别准确率大于验证准确率，执行步骤S4.6，否则返回步骤S4.4；

S4.6，利用测试集数据对实体识别模型进行测试，若实体识别模型的准确率小于预测准确率阈值，返回步骤S4.4并对网络学习模型的超参数进行调整，否则执行步骤S5。

在步骤S4.2中，所述网络学习模型包括ERNIE模型、Bi-GRU神经网络和 CRF模型，ERNIE模型的输入端与文本标注工具的输出端连接，ERNIE模型的输出端与Bi-GRU神经网络的输入端连接，Bi-GRU神经网络的输出端与CRF 模型的输入端连接。

本发明的有益效果：

本发明利用ERNIE模型代替了原有的词嵌入算法来进行语义编码，利用 Bi-GRU和CRF模型进行解码实现实体识别和结果优化，解决了电力系统的无结构化的项目文档数量庞大且内容繁琐管理难的问题，项目业务标签体系的构建和提取为提出差异化管理策略奠定基础，同时有利于提高项目和业务的管理效率，有利于公司文档的规范化管理和边界的明确，有利于提高公司项目特征识别能力，提高公司业务管理效率及水平，降低相关人员的项目管理成本，节约人力和时间资源。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为DOCCANO操作界面图。

图2为BIO格式数据集示例图。

图3为ERNIE模型屏蔽机制示意图。

图4为ERNIE模型输入示意图。

图5为GRU模型示意图。

图6为本发明模型结构图。

图7为本发明模型损失值随训练轮数变化示意图。

图8为本发明模型识别准确率随训练轮数变化示意图。

图9为本发明模型识别F1值随训练轮数变化示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

命名实体识别(Named Entity Recognition，NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。简单的讲，就是识别自然文本中的实体指称的边界和类别。早期的命名实体识别方法基本都是基于规则的。之后由于基于大规模的语料库的统计方法在自然语言处理各个方面取得不错的效果之后，一大批机器学习的方法也出现在命名实体类识别任务。基于机器学习的命名实体识别方法可以划分为以下几类：

有监督的学习方法：这一类方法需要利用大规模的已标注语料对模型进行参数训练。目前常用的模型或方法包括隐马尔可夫模型、语言模型、最大熵模型、支持向量机、决策树和条件随机场等。值得一提的是，基于条件随机场的方法是命名实体识别中最成功的方法。

半监督的学习方法：这一类方法利用标注的小数据集自举学习。

无监督的学习方法：这一类方法利用词汇资源(如WordNet)等进行上下文聚类。

混合方法：几种模型相结合或利用统计方法和人工总结的知识库。

值得一提的是，由于深度学习在自然语言的广泛应用，基于深度学习的命名实体识别方法也展现出了更佳的效果，此类方法将命名实体识别任务转换成序列标注任务来实现，借助自然语言处理领域优秀的预训练模型和特征提取技术，命名实体识别的算法模型达到了新的高度。

一种基于深度学习的电力领域项目特征识别方法，包括以下步骤：

所述项目业务标签体系包括一级类别标签和二级实体标签，一级类别标签包括电网基建、产业基建、电网小型基建、生产技改、产业技改、生产辅助技改、零星购置、生产大修、产业大修、生产辅助大修、电力市场营销、电网数字化、研究开发、管理咨询、教育培训和股权投资，二级实体标签包括机构、电网信息化、金额等项目特征。二级实体标签是在一级类别标签下建立的，即最终出现在电力项目文档如历史电力项目可研报告中的关键实体名称，一级类别标签基于业务分类建立，二级实体标签基于项目可研报告、公司项目业务特征和具体业务需求确定，具体操作时可以根据实际业务进行相关调整，基于项目业务标签体系对电力项目文档进行分类管理提高了对各历史电力项目文档的管理效率，降低了管理成本。

S2，对电力项目文档进行文本预处理；

所述文本预处理的方法为利用格式转换工具将电力项目文档的PDF文件转换为EXCEL格式后，再剔除空白页、目录、参考文献、附图等非关键信息，再将剔除后的文件转换为TXT文件组成初始语料库，作为文本标注工具的输入，同时保留表格信息。

S3，如图2所示，借助文本标注工具对预处理后的电力项目文档进行实体标注，生成电力项目文档所对应的BIO格式数据集；

本实施例中，所述文本标注工具采用DOCCANO，DOCCANO是一个开源的文本注释工具，它为文本分类、序列标记和序列到序列任务提供注释功能。用户只需创建一个项目，上传数据并开始注释即可为情感分析、命名实体识别、文本摘要等创建标记数据。如图1所示，进入操作界面后，首先需要定义所要标注的实体类别；之后依据各个实体类别对应的快捷键，在左侧文本部分借助快捷键进行标注。标注完毕后即可导出BIO格式数据集。如图2所示，对机构、电网信息化和金额三种二级实体标签进行标注，所述BIO格式数据集包括语句和每行语句所对应的标签，所述标签包括通用标签、分隔符和标签具体类别，通用标签即BIO标注，B表示实体起始位置，I表示实体的非第一个字符，O表示非实体；分隔符采用“-”；标签具体类别中O代表机构，E代表电网信息化， M代表金额。

S4，利用ERNIE模型、Bi-GRU神经网络和CRF模型建立网络学习模型，将步骤S3得到的BIO格式数据集输入网络学习模型进行训练得到实体识别模型，包括如下步骤：

本实施例中，所述训练集、验证集和测试集的数据量比例为7：1：2。

ERNIE模型是百度在2019年提出的语义理解框架，它基于BERT模型做了进一步优化，在中文自然语言处理任务上得到了最佳效果。而BERT模型是谷歌于2018年提出的优秀文本预训练模型，它创新性的使用了双向Transformer 作为特征提取器，并提出了NSP和Mask LM机制进一步加深了模型的特征抽取能力。

Transformer最初是作为机器翻译的Seq2Seq模型提出的。后来的工作表明，基于Transformer的预训练模型可以在各种任务上实现极佳的效果。因此， Transformer，特别是基于Transformer的预训练模型已成为NLP中的首选架构。 Transformer利用了注意力机制将序列中任意两个位置之间的距离缩小为一个常量，从而有效解决了长期依赖的问题，并且抛弃了顺序结构从而拥有了更好的并行性和训练速度。Transformer结构中的多头注意力机制帮助编码器在对每个单词编码时有效的考虑到输入句子的其他单词，并且BERT设置了双向的 Transformer，充分利用了上下文信息，分别从前向和后向进行特征提取，从而极大提升了模型的语义理解能力。

MLM全称为Masked Language Model，即利用Mask屏蔽机制实现模型的监督学习。在BERT模型中，模型会将语料中15％的词语替换为“[mask]”，利用模型预测被屏蔽的词语从而达到学习的效果。但实现过程中，模型是直接对单个token进行随机屏蔽，比如将“哈利波特是罗琳写的小说”中的“利”和“琳”字屏蔽，模型即使很简单的预测出两个字，但并不能学习到“哈利波特”和“罗琳”的关系。而如果将“哈利波特”整体屏蔽掉，模型就可以根据作者预测到小说这个实体。因此可以看到，BERT中的MLM基站很大概率会使短语和实体信息丢失，这点对中文尤其明显。

ERNIE对其进行了改进，采取了带有先验知识的Mask机制。如图3所示， ERNIE的策略是将学习分为了三个阶段：在第一个阶段，采用的是BERT的基础级屏蔽机制，随机屏蔽掉中文中的一个字进行预测，让模型学习基本的字与词语义信息；第二阶段，采用短语级别屏蔽机制，随机屏蔽掉句子中的一部分词组进行预测，从而使模型学习词组信息；第三阶段，采用实体级别屏蔽机制，随机屏蔽人名、机构名、商品名进行预测，通过训练模型也就学习到了这些实体的信息。

此外，ERNIE的训练语料引入了多源数据知识，包括了中文Wiki、百度百科、百度新闻和百度贴吧的数据。其中，对于百度贴吧对话数据的学习是语义表示的重要途径，因为往往相同的回复对应询问语句的语义相似。基于该假设， ERINE采用DLM(Dialogue LanguageModel)建模Query-Response对话结构，将对话对作为输入，引入对话嵌入来标识对话的角色，学习对话的隐式关系，通过该方法建模进一步提升模型语义表示能力。

将数据集输入到ERNIE网络模型中，对于每个字，其输入表示可以通过3 部分的embedding求和组成。3个部分的embedding均是通过模型学习得到，三者求和即为模型语义特征融合的过程，Embedding的可视化表示如图4所示。 Token Embeddings表示的是词向量，在处理中文文本信息是词向量既可以表示一个词语也可以表示一个字，在实体标签提取中所用的是更符合中文特征的字向量；第一个单词是CLS标志，可以用于之后的分类任务，做以两个句子为输入的分类任务时，用Segment Embeddings来区别两种句子；PositionEmbeddings 是通过模型学习得到的位置信息。利用ERNIE模型得到字向量后，将ERNIE 模型的输出输入至Bi-GRU神经网络中，学习上下文特征，输出的是每个词的上下文环境的向量表示。

GRU(Gate RecurrentUnit)是循环神经网络(RecurrentNeural Network,RNN) 的一种，和LSTM(Long-ShortTerm Memory)一样，也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。相较于LSTM模型，GRU模型的门限机制更加轻量化，同时也可以高效的捕获到长依赖特征。

如图5所示，GRU模型包含重置门和更新门两个门限机制，其中重置门机制主要实现选择性忘记，更新门机制则实现信息选择性保留，公式如下：

z_t＝σ(W_zx_t+U_zh_t-1) (1)

r_t＝σ(W_tx_t+U_th_t-1) (2)

其中，σ为sigmoid函数，

代表Hadamard乘积运算，x_t和h_t-1分别为本时刻输出和上一时刻的隐藏层状态，z_t是更新门状态，表示之前的信息是否需要更新。r_t是重置门状态，表示之前的信息是否需要重置。

为经过重置后的隐藏层状态，h_t为新一时刻更新后的隐藏层状态。W_z和U_z表示更新门状态计算中对于x_t和h_t-1的系数矩阵，W_t和U_t表示重置门状态计算中对于x_t和h_t-1的系数矩阵。

对于给定句子(x₁，x₂，...，x_n)，包含n个单词，每个单词都表示为d维向量，如图5所示的GRU可以计算每个单词t的句子上文表示

同理，下文表示

也会包含重要信息，这可以使用反向的GRU读取相同序列实现。正向和反向 GRU统称为双向GRU(Bi-GRU)，两者为具有不同参数的不同网络。使用该模型的单词表示是通过连接其上下文表示

得到的。这样的表示可以有效的包含上下文中的单词表示，对于多标记应用非常有效。

在多分类问题中，常采用SoftMax分类器预测，但是SoftMax分类器在序列标注问题中没有考虑到标签之间的依存关系。本发明采用CRF模型，该方法能考虑标签序列的全局信息，更好地对标签进行预测。

Bi-GRU的优点是能够通过双向特征提取学习到输入序列之间的依赖，在训练过程中，GRU能够根据目标，比如识别实体，自动提取观测序列的特征，但是缺点是无法学习到状态序列，如输出的标注，之间的关系。而在命名实体识别任务中，标注之间是有一定的关系的，比如表示实体的开头的B类标注后面不会再接一个B类标注，所以GRU在解决NER这类序列标注任务时，虽然可以省去很繁杂的特征工程，但是也存在无法学习到标注上下文的缺点。相反， CRF的优点就是能对隐含状态建模，学习状态序列的特点，但它的缺点是需要手动提取序列特征。所以在GRU后面再加一层CRF，可以获得两者的优点。

对于输入语句X＝(x₁，x₂，...，x_n)，Bi-GRU网络输出的分数矩阵为P。P的大小是n*k，其中k是不同标签的个数，P_i，j对应一个句子中第i个单词的第j个标签的得分。对于一系列的预测y＝(y₁，y₂，...，y_n)，其中，y_i(i＝1，2，...，n)代表预测为标签i的分数，分数越高即模型认为结果是该标签的概率越高。我们定义分数为：

其中，A是一个转换得分矩阵，A_i，j表示从标签i到标签j的转换得分，y₀和y_n是一个句子的开始和结束标签，将它们添加到一组可能的标签中，因此A 是一个大小为k+2的矩阵。

SoftMax函数对所有可能的标签序列产生一个序列y的概率：

在训练过程中，最大化正确标签序列的log-probability即对数概率：

其中，Y_X表示一个句子X的所有可能的标记序列。从上面的公式可以明显看出，鼓励网络生成一个有效的输出标记序列。解码时，预测得到最大分值的输出序列为:

如图6所示，为网络学习模型的结构，为ERNIE-Bi-GRU-CRF串接模型，所述模型包括ERNIE模型、Bi-GRU神经网络和CRF模型，Bi-GRU神经网络包括两个GRU模块，分别为前向GRU网络和后向GRU网络。ERNIE模型输入准备好的BIO格式数据集，ERNIE模型的输出端与Bi-GRU神经网络的输入端连接，Bi-GRU神经网络的输出端与CRF模型的输入端连接，由CRF模型输出最后的预测结果。本模型通过使用ERNIE模型作为特征表示层加入到双向 GRU模型中，双向GRU模型对每一个训练序列分别作用一个向前和向后的GRU 网络，并且这两个连接着同一个输出层，这样的一种网络结构可以给输出层提供每一个序列点完整的上下文信息，并且经过CRF模型有效地考虑了序列前后的标签信息。

S4.3，设置验证准确率阈值和预测准确率阈值；

S4.6，利用测试集数据对实体识别模型进行测试，若实体识别模型的准确率小于预测准确率阈值，返回步骤S4.4并对网络学习模型的超参数进行调整，否则执行步骤S5；

S5，利用实体识别模型对新的电力项目文档进行特征识别。

本发明使用的具体流程为：首先下载百度官方的ERNIE模型，选取并导入官方全词覆盖的中文预训练参数配置文件，依据构建的训练集进行训练，其中，学习率设置为10^-3，优化器选择Adam，批尺度设置为128，GRU隐藏单元个数设置为200。每一轮训练结束时，模型会先利用验证集进行评估，即利用评估工具输出识别准确率、模型损失值等关键数据，用于观察模型的收敛情况以及检查是否发生过拟合等问题。验证集的另一个作用则是辅助调整超参数，可以根据几组不同超参数的模型在验证集上的表现，决定哪组超参数对应的模型性能更好。经过验证集评估后，模型将在测试集上进行测试用于评估模型效果。设置预测准确率阈值为95％，即模型对各标签识别准确率在95％以上则训练停止。对于模型在验证集和测试集上的评估工作，我们选择可用于命名实体识别任务的开源序列模型性能评估工具conlleval，该工具会自动输出整体以及各标签的识别准确率、召回率和F1值等信息。

图7至图9为仿真实验的结果，其中，图7展示了模型整体损失值的变化情况，可以看出在第15轮后模型接近收敛。图8展示了模型对电网信息化E、机构O和金额M预测准确率的变化情况，可以看出在第15轮训练后准确率分别在90％、82％和86％左右浮动，接近收敛。图9展示了电网信息化E、机构O 和金额M F1值的变化情况，可以看出在第15轮训练后F1值分别在90、82和 88左右浮动，接近收敛。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的电力领域项目特征识别方法，其特征在于，包括如下步骤：

S2，对电力项目文档进行文本预处理；

S5，利用实体识别模型对新的电力项目文档进行特征识别。

2.根据权利要求1所述的基于深度学习的电力领域项目特征识别方法，其特征在于，在步骤S1中，所述项目业务标签体系包括一级类别标签和二级实体标签，一级类别标签包括电网基建、产业基建、电网小型基建、生产技改、产业技改、生产辅助技改、零星购置、生产大修、产业大修、生产辅助大修、电力市场营销、电网数字化、研究开发、管理咨询、教育培训和股权投资，二级实体标签包括机构、电网信息化和金额。

3.根据权利要求1所述的基于深度学习的电力领域项目特征识别方法，其特征在于，在步骤S2中，所述文本预处理的方法为：利用格式转换工具将电力项目文档的PDF文件转换为EXCEL格式后，剔除包括空白页、目录、参考文献及附图的非关键信息，再将剔除后的文件转换为TXT文件。

4.根据权利要求1所述的基于深度学习的电力领域项目特征识别方法，其特征在于，在步骤S3中，所述BIO格式数据集包括语句和每行语句所对应的标签，所述标签包括通用标签、分隔符和标签具体类别，通用标签即BIO标注，B表示实体起始位置，I表示实体的非第一个字符，O表示非实体，标签具体类别与二级实体标签相对应，采用O代表机构，E代表电网信息化，M代表金额。

5.根据权利要求1所述的基于深度学习的电力领域项目特征识别方法，其特征在于，所述步骤S4包括如下步骤：

S4.3，设置验证准确率阈值和预测准确率阈值；

6.根据权利要求5所述的基于深度学习的电力领域项目特征识别方法，其特征在于，在步骤S4.2中，所述网络学习模型包括ERNIE模型、Bi-GRU神经网络和CRF模型，ERNIE模型的输入端与文本标注工具的输出端连接，ERNIE模型的输出端与Bi-GRU神经网络的输入端连接，Bi-GRU神经网络的输出端与CRF模型的输入端连接。