CN113869055A - 基于深度学习的电网项目特征属性识别方法 - Google Patents
基于深度学习的电网项目特征属性识别方法 Download PDFInfo
- Publication number
- CN113869055A CN113869055A CN202111194442.0A CN202111194442A CN113869055A CN 113869055 A CN113869055 A CN 113869055A CN 202111194442 A CN202111194442 A CN 202111194442A CN 113869055 A CN113869055 A CN 113869055A
- Authority
- CN
- China
- Prior art keywords
- model
- project
- power grid
- entity
- grid project
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000013528 artificial neural network Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000007246 mechanism Effects 0.000 claims description 17
- 238000012795 verification Methods 0.000 claims description 17
- 238000002372 labelling Methods 0.000 claims description 14
- 238000004519 manufacturing process Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 10
- 230000008439 repair process Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000008520 organization Effects 0.000 claims description 4
- 238000012827 research and development Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 6
- 239000013598 vector Substances 0.000 description 23
- 230000002457 bidirectional effect Effects 0.000 description 10
- 238000000605 extraction Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 241000288105 Grus Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习的电网项目特征属性识别方法,包括如下步骤:根据电网项目文档的类别和项目业务管理需求总结项目业务特征,基于项目业务特征建立项目标签体系;基于项目标签体系对电网项目文档进行分类;对分类后的电网项目文档进行文本预处理;借助开源文本标注工具对预处理后的电网项目文档进行实体标注,生成电网项目文档所对应的BIO格式数据集;利用BERT模型、Bi‑GRU神经网络和CRF模型建立网络学习模型,将BIO格式数据集输入网络学习模型进行训练得到实体识别模型;利用实体识别模型对新的电网项目文档进行特征识别。本发明有利于提高项目管理与投资效率,完善识别技术规则,提高公司业务管理效率。
Description
技术领域
本发明属于命名实体识别与深度学习技术领域,具体涉及一种基于深度学习的电网项目特征属性识别方法。
背景技术
电网公司管理中,历史电网项目文档的归纳和汇总重要程度最高,当然难度也是最大的。借助高效的文档项目特征提炼技术,各公司可围绕精准管控、提质升效,从而提出综合计划管理高质量、精益化的发展要求,明晰投资的“盈利点”和“亏损点”,精准把控电网环节投资,减少非必要投入,提高资本投入有效性。文档特征提取环节,更应实现需求精准定位、方案智能筛选、进程准确把握,从而提升项目质量与管理效率。
发明内容
针对现有技术难以满足电网项目文档的高质量精益化管控要求及特征提取难的问题,本发明提出了一种基于深度学习的电网项目特征属性识别方法。为解决以上技术问题,本发明所采用的技术方案如下:
一种基于深度学习的电网项目特征属性识别方法,包括如下步骤:
S1,根据电网项目文档的类别和项目业务管理需求总结项目业务特征,基于项目业务特征建立项目标签体系;
S2,基于项目标签体系对电网项目文档进行分类;
S3,对分类后的电网项目文档进行文本预处理;
S4,借助开源文本标注工具对预处理后的电网项目文档进行实体标注,生成电网项目文档所对应的BIO格式数据集;
S5,利用BERT模型、Bi-GRU神经网络和CRF模型建立网络学习模型,将BIO格式数据集输入网络学习模型进行训练得到实体识别模型;
S6,利用实体识别模型对新的电网项目文档进行特征识别。
在步骤S1中,所述项目标签体系包括一级类别标签和二级实体标签,一级类别标签包括电网基建、产业基建、电网小型基建、生产技改、产业技改、生产辅助技改、零星购置、生产大修、产业大修、生产辅助大修、电力市场营销、电网数字化、研究开发、管理咨询、教育培训和股权投资,二级实体标签包括机构、电网信息化和金额。
在步骤S3中,所述文本预处理的方法为:利用格式转换工具将电网项目文档的PDF文件转换为EXCEL格式后,剔除包括空白页、目录及参考文献的辅助信息,再将剔除后的文件转换为TXT文件。
在步骤S4中,所述BIO格式数据集包括语句和每行语句所对应的标签,所述标签包括通用标签、分隔符和标签具体类别,通用标签即BIO标注,B表示实体起始位置,I表示实体的非第一个字符,O表示非实体,标签具体类别与二级实体标签相对应,采用O代表机构,E代表电网信息化,M代表金额。
所述步骤S5包括如下步骤:
S5.1,将步骤S4得到的BIO格式数据集划分为训练集、验证集和测试集;
S5.2,利用Bert模型、Bi-GRU神经网络和CRF模型建立网络学习模型;
S5.3,设置验证准确率阈值和预测准确率阈值;
S5.4,利用训练集数据对网络学习模型进行训练得到实体识别模型;
S5.5,利用验证集数据对实体识别模型进行评估,若实体识别模型的识别准确率大于验证准确率,执行步骤S5.6,否则返回步骤S5.4;
S5.6,利用测试集数据对实体识别模型进行测试,若实体识别模型的准确率小于预测准确率阈值,返回步骤S5.4并对网络学习模型的超参数进行调整,否则执行步骤S6。
在步骤S5.2中,所述网络学习模型包括BERT模型、Bi-GRU神经网络和CRF模型,BERT模型的输入端与开源文本标注工具的输出端连接,BERT模型的输出端与Bi-GRU神经网络的输入端连接,Bi-GRU神经网络的输出端与CRF 模型的输入端连接。
本发明的有益效果:
本发明利用BERT模型代替了原有的词嵌入算法来进行语义编码,利用 Bi-GRU和CRF模型进行解码实现实体识别和结果优化,解决了电网项目系统的无结构化的文档数量庞大且内容繁琐管理难的问题,项目标签体系的构建,有利于公司项目的规范化管理和项目边界的明确,有利于提高项目管理与投资效率;基于自然语言处理的应用,有利于完善识别技术规则,有利于提高公司业务特征识别能力,提高公司业务管理效率及水平,降低相关人员的项目管理成本,节约人力和时间资源,利于历史存量数据的应用与转化。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为YEDDA操作界面图。
图2为BIO格式数据集示例图。
图3为BERT模型输入示意图。
图4为GRU模型示意图。
图5为本发明模型结构图。
图6为本发明模型损失值随训练轮数变化示意图。
图7为本发明模型识别准确率随训练轮数变化示意图。
图8为本发明模型识别F1值随训练轮数变化示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
命名实体识别(Named Entity Recognition,NER)是自然语言处理(Naturallanguage processing,NLP)领域的子任务,通常解释为从一段非结构化文本中,将那些人类通过历史实践规律认识、熟知或定义的实体识别出来,同时也代表了具有根据现有实体的构成规律发掘广泛文本中新的命名实体的能力。实体是文本中意义丰富的语义单元,识别实体的过程分作两阶段,首先确定实体的边界范围,再将这个实体分配到所属类型中去。
当前命名实体识别的主要技术方法分为:基于规则和词典的方法、基于统计的方法、混合方法和神经网络的方法等。随着深度学习的发展,自然语言的向量表示法横空出世,使得自然语言能够使用深度神经网络进行处理。BERT是深度学习在文本处理领域内的佼佼者,它是当前效果最佳的预训练语言模型。特征提取技术中,最常见的就是RNN(RecurrentNeural Network,循环神经网络) 模型的变种,比如GRU(Gate RecurrentUnit,门控循环单元)等,可以提取文本更长距离的上下文特征信息。结合条件随机场(Conditional Random Field,CRF) 对序列模型进行建模的能力,使用双向门控循环单元(Bi-directional Gated RecurrentUnit,Bi-GRU)提供上下文信息,可以达到更佳的识别效果。
一种基于深度学习的电网项目特征属性识别方法,包括以下步骤:
S1,根据电网项目文档的类别和项目业务管理需求总结项目业务特征,基于项目业务特征建立项目标签体系;
所述项目标签体系包括一级类别标签和二级实体标签,一级类别标签包括电网基建、产业基建、电网小型基建、生产技改、产业技改、生产辅助技改、零星购置、生产大修、产业大修、生产辅助大修、电力市场营销、电网数字化、研究开发、管理咨询、教育培训和股权投资,二级实体标签包括机构、电网信息化、金额等项目业务特征。所述一级类别标签基于各历史电网项目文档的所属业务分类建立,二级实体标签基于公司项目业务和项目业务运营管理需求确定,具体操作时可以根据实际业务进行相关调整,项目标签体系的建立方便了对各历史电网项目文档的管理。
另外,在对电网项目文档进行实际管理时,可以对项目标签体系进行调整,比如可以基于项目类别、项目内容、项目时间段等,项目类别下设大型基建、技改、信息化、营销等,项目内容下设项目名称、项目主要研究内容、项目合同、项目可研报告等,项目时间段下设三年、二年、一年、季度等。
S2,基于项目标签体系对电网项目文档进行分类;
对电网项目文档进行分类有利于对电网项目文档的批量化管理。
S3,对分类后的电网项目文档进行文本预处理;
所述文本预处理的方法为利用格式转换工具将PDF文件转换为EXCEL格式后,再剔除空白页、目录、参考文献等辅助信息,再将剔除后的文件转换为 TXT文件组成初始语料库作为开源文本标注工具的输入,同时保留表格信息。
S4,如图2所示,借助开源文本标注工具对预处理后的电网项目文档进行实体标注,生成电网项目文档所对应的BIO格式数据集;
本实施例中,所述开源文本标注工具采用YEDDA,该工具是使用tkinter 开发的桌面标注工具,在Python2.7环境下运行,其代码已在Github公开。YEDDA 支持chunk(块)、entity(实体)、event(事件)三种标注任务,文本输入支持写入和文件导入两种方式。本发明选用的entity模式即实体识别标注任务。如图 1所示,进入操作界面后,首先需要在界面右侧定义所要标注的实体类别;之后依据各个实体类别对应的快捷键,在左侧文本部分借助快捷键进行标注。经过标注的字词会用不同背景颜色和所属标签进行区分。标注完毕后,点击export 即可导出Ann格式文本。Ann格式为该工具指定的导出标准格式,句子由空行分隔,每行包括未标注文本,标注文本及其标签信息。如图2所示,对机构、电网信息化和金额三种二级实体标签进行标注,所述BIO格式数据集包括语句和每行语句所对应的标签,所述标签包括通用标签、分隔符和标签具体类别,通用标签即BIO标注,B表示实体起始位置,I表示实体的非第一个字符,O表示非实体;分隔符采用“-”;标签具体类别中O代表机构,E代表电网信息化, M代表金额。
S5,利用Bert模型、Bi-GRU神经网络和CRF模型建立网络学习模型,将步骤S4得到的BIO格式数据集输入网络学习模型进行训练得到实体识别模型,包括如下步骤:
S5.1,将预处理后的BIO格式数据集分为训练集、验证集和测试集;
本实施例中,所述训练集、验证集和测试集的数据量比例为7:1:2。
S5.2,利用Bert模型、Bi-GRU神经网络和CRF模型建立网络学习模型;
BERT全称为Bidirectional Encoder Representation from Transformers,即将Transformer作为特征提取器的双向预训练模型,该模型通过前期的大量语料的无监督训练,为下游任务学习大量的先验的语言、句法、词义等信息。对比普通Transformer模型,BERT借鉴了双向LSTM、GPT等优秀模型的特点,采用双向Transformer提取,从而让模型加深对语句顺序及上下文的理解能力,同时使用了NSP和Mask-LM机制进一步加深了模型的特征抽取能力。
NSP全称为Next Sentence Prediction,即为下一句预测,增加该机制是为了让模型理解两个句子之间的联系。许多重要的下游任务,例如问答即QA和自然语言推理即NLI,都是基于理解两个句子之间的关系,进行语言建模并直接获取。为了训练模型使其理解句子关系,在BERT中本发明预训练了下一句预测任务,具体来说,在为每个预训练示例选择句子A和B时,50%几率B是A实际的下一局,标记为IsNext,剩余50%的几率B是来自其他语料库,标记为 NotNext。
Transformer是当前主流的特征提取模型,它改进了RNN令人诟病的训练慢、长期依赖的问题,利用了Attention机制将序列中任意两个位置之间的距离缩小为一个常量,并且抛弃了顺序结构从而拥有了很好的并行性。Transformer本质是一个Encoder-Decoder结构。在Encoder中,第一层结构即为Attention模块。Transformer中提出的Multi-headSelf-Attention机制可以分为两个部分来阐述,分别是Self-Attention机制和Multi-head机制。
Self-Attention模块中,每个单词有3个不同的向量,分别是Query向量, Key向量和Value向量,他们分别是通过嵌入向量X乘以3个不同的系数矩阵WQ、 WK,WV得到的。该模块将组成元素想象成由一系列(Key,Value)数据对组成。这时,给定目标中的一个元素Query,通过计算Query和每个Key之间的相似性或相关性,得到每个Key对应Value的权重系数,然后对该值进行加权求和,就得到了最终的Attention值。所以实质上,Attention机制是对Source中的元素的Value值进行加权求和,Query和Key用于计算相应Value的权重系数。这里, Source中的Key和Value合二为一,也就是输入句子中每个词所对应的语义代码。它可以被改写为以下公式:
其中,Similarity(Qi,Ki)为权重系数,它可以指代任意两个元素的相关性,该权重越大代表该信息越重要,从而使模型在学习的过程中更加侧重重点,N 表示序列元素个数,S表示该序列。权重系数的公式为:
Self-Attention的整体过程为:
1、输入单词转换为嵌入向量X;
2、据嵌入向量X得到Q,K,V三个向量;
3、每个向量计算score=Q·K;
5、将score传入softmax激活函数得到Attention权重系数;
6、Attention权重系数与V向量加权求和,得到输入向量Attention值v;
Multi-head即将h个不同的self-attention集成,Multi-head代表多头,即将模型分为多个头,形成多个子空间,可以让模型去关注不同方面的信息,分别应用Attention机制最后将分别得到的结果进行拼接。多头的注意力有助于模型理解到更丰富的特征/信息。这一步的整体过程为:
1、将嵌入向量X分别输入h个self-attention模块中,得到h个加权后的特征矩阵Zi,i∈{1,2,...,h};
2、将h个特征矩阵拼接,最后将特征矩阵经过全连接层得到输出Z;
Multi-head Self-Attention机制是Transformer模型提出的一大创新点。从本质上来讲,attention也就是从大量的信息中就只有毫无选择地进行筛选和找出少量重要性的信息并将其聚焦到这些重要性的信息上。注意力计算机制的权重计算即为一个带有加权权重求和的计算过程,权重求和系数与平均值公式相乘后的权重求和就可以得到了诸如attention等的结果,其中每个权重求和系数的值代表了给定信息的质量重要性和对给定任务的结果贡献最大程度,而值对应信息。
严格上讲,双向的语言模型比单向模型效果更佳,它可以更好的利用上下文信息预测目标词,从而使模型具有更好的特征提取效果。为了训练双向的 Transformer,本发明给输入的训练语料做随机的屏蔽标记。具体实现中,数据处理过程中会将15%的词语替换为“[mask]”,利用模型预测被屏蔽的词语从而达到学习的效果。为了解决预训练和训练之间“[mask]”不匹配的问题,即如果每次训练某个单词都被屏蔽,那后续微调时模型便不能识别该词,实现过程中并不总是进行替换,生成训练数据时,在15%词语被选中的基础上,80%的词语会执行替换操作,10%的词语保持不变,剩余10%的词语会被替换为其他词语。
BERT模型采用双向Transformer可以充分利用左右两侧的上下文信息,它的特征表示在所有层中共同依赖于左右两侧的上下文。该模型融合了其他模型的优点,并摒弃了它们的缺点,在诸多自然语言处理的后续特定任务上取得了良好的效果。BERT模型需要海量的参数和强大的计算能力才能完成训练,本发明使用谷歌开源的BERT模型对文档进行词嵌入处理。
将数据集输入到BERT网络模型中。对于每个字,其输入表示可以通过3 部分的embedding求和组成。3个部分的embedding均是通过模型学习得到,三者求和即为模型语义特征融合的过程,Embedding的可视化表示如图3所示。 Token Embeddings表示的是词向量,在处理中文文本信息是词向量既可以表示一个词语也可以表示一个字,在实体标签提取中所用的是更符合中文特征的字向量;第一个单词是CLS标志,可以用于之后的分类任务,做以两个句子为输入的分类任务时,用Segment Embeddings来区别两种句子;PositionEmbeddings 是通过模型学习得到的位置信息。得到字向量后,将BERT模型的输出输入至Bi-GRU神经网络中,学习上下文特征,输出的是每个词的上下文环境的向量表示。
RNN是顺序操作序列化的神经网络模型,其不定长、序列化的特点天然适用于NLP任务。尽管RNN理论上可以学习长依赖,但实践中我们更倾向于使用它的变种GRU模型。GRU模型旨在利用门限机制,通过记忆单元来解决梯度消失和梯度爆炸的问题,该模型不仅更加轻量化,而且已被证明可以捕获长依赖特征。
如图4所示,GRU模型包含两个门限机制,其中重置门机制主要实现选择性忘记,更新门机制则实现信息选择性保留,公式如下:
zt=σ(Wzxt+Uzht-1) (3)
rt=σ(Wtxt+Utht-1) (4)
其中,σ为sigmoid函数,°代表Hadamard乘积运算,xt和ht-1分别为本时刻输出和上一时刻的隐藏层状态,zt是更新门状态,表示之前的信息是否需要更新。rt是重置门状态,表示之前的信息是否需要重置。为经过重置后的隐藏层状态,ht为新一时刻更新后的隐藏层状态。Wz和Uz表示更新门状态计算中对于xt和ht-1的系数矩阵,Wt和Ut表示重置门状态计算中对于xt和ht-1的系数矩阵。
对于给定句子(x1,x2,...,xn),包含n个单词,每个单词都表示为d维向量,如图4所示的GRU可以计算每个单词t的句子上文表示同理,下文表示也会包含重要信息,这可以使用反向的GRU读取相同序列实现。正向和反向GRU统称为双向GRU(Bi-GRU),两者为具有不同参数的不同网络。使用该模型的单词表示是通过连接其上下文表示得到的。这样的表示可以有效的包含上下文中的单词表示,对于多标记应用非常有效。
在多分类问题中,常采用SoftMax分类器预测,但是SoftMax分类器在序列标注问题中没有考虑到标签之间的依存关系。本发明采用CRF模型,该方法能考虑标签序列的全局信息,更好地对标签进行预测。
Bi-GRU的优点是能够通过双向特征提取学习到输入序列之间的依赖,在训练过程中,GRU能够根据目标,比如识别实体,自动提取观测序列的特征,但是缺点是无法学习到状态序列,如输出的标注,之间的关系。而在命名实体识别任务中,标注之间是有一定的关系的,比如表示实体的开头的B类标注后面不会再接一个B类标注,所以GRU在解决NER这类序列标注任务时,虽然可以省去很繁杂的特征工程,但是也存在无法学习到标注上下文的缺点。相反, CRF的优点就是能对隐含状态建模,学习状态序列的特点,但它的缺点是需要手动提取序列特征。所以在GRU后面再加一层CRF,可以获得两者的优点。
对于输入语句X=(x1,x2,...,xn),Bi-GRU网络输出的分数矩阵为P。P的大小是n*k,其中k是不同标签的个数,Pi,j对应一个句子中第i个单词的第j个标签的得分。对于一系列的预测y=(y1,y2,...,yn),其中,yi(i=1,2,...,n)代表预测为标签i的分数,分数越高即模型认为结果是该标签的概率越高。我们定义分数为:
其中,A是一个转换得分矩阵,Ai,j表示从标签i到标签j的转换得分,y0和yn是一个句子的开始和结束标签,将它们添加到一组可能的标签中,因此A 是一个大小为k+2的矩阵。
SoftMax函数对所有可能的标签序列产生一个序列y的概率:
在训练过程中,最大化正确标签序列的log-probability即对数概率:
其中,YX表示一个句子X的所有可能的标记序列。从上面的公式可以明显看出,鼓励网络生成一个有效的输出标记序列。解码时,预测得到最大分值的输出序列为:
如图5所示,为网络学习模型的结构,为BERT-Bi-GRU-CRF串接模型,所述模型包括BERT模型、Bi-GRU神经网络和CRF模型,Bi-GRU神经网络包括两个GRU模块,分别为前向GRU网络和后向GRU网络。BERT模型输入准备好的BIO格式数据集,并输出编码后的文字向量。编码后的文字向量输入 Bi-GRU神经网络,并输出进一步的潜在表示向量,随后潜在表示向量输入CRF 模型的,并输出最后的预测结果。本模型通过使用BERT模型作为特征表示层加入到双向GRU模型中,双向GRU模型对每一个训练序列分别作用一个向前和向后的GRU网络,并且这两个连接着同一个输出层,这样的一种网络结构可以给输出层提供每一个序列点完整的上下文信息,并且经过CRF模型有效地考虑了序列前后的标签信息。
S5.3,设置验证准确率阈值和预测准确率阈值;
S5.4,利用训练集数据对网络学习模型进行训练得到实体识别模型;
S5.5,利用验证集数据对实体识别模型进行评估,若实体识别模型的识别准确率大于验证准确率,执行步骤S5.6,否则返回步骤S5.4;
S5.6,利用测试集数据对实体识别模型进行测试,若实体识别模型的准确率小于预测准确率阈值,返回步骤S5.4并对网络学习模型的超参数进行调整,否则执行步骤S6;
S6,利用实体识别模型对新的电网项目文档进行特征识别。
本发明使用的具体流程为:首先下载谷歌官方的BERT-base(uncased)模型,选取并导入官方全词覆盖的中文预训练参数配置文件,依据构建的训练集进行训练,其中,学习率设置为10-3,优化器选择Adam,批尺度设置为128, GRU隐藏单元个数设置为200。每一轮训练结束时,模型会先利用验证集进行评估,即利用评估工具输出识别准确率、模型损失值等关键数据,用于观察模型的收敛情况以及检查是否发生过拟合等问题。验证集的另一个作用则是辅助调整超参数,可以根据几组不同超参数的模型在验证集上的表现,决定哪组超参数对应的模型性能更好。经过验证集评估后,模型将在测试集上进行测试用于评估模型效果。设置预测准确率阈值为95%,即模型对各标签识别准确率在 95%以上则训练停止。对于模型在验证集和测试集上的评估工作,我们选择可用于命名实体识别任务的开源序列模型性能评估工具conlleval,该工具会自动输出整体以及各标签的识别准确率、召回率和F1值等信息。
图6至图8为仿真实验的结果,其中,图6展示了模型整体损失值的变化情况,可以看出在第15轮后模型接近收敛。图7展示了模型对电网信息化E、机构O和金额M预测准确率的变化情况,可以看出在第15轮训练后准确率分别在90%、82%和86%左右浮动,接近收敛。图8展示了电网信息化E、机构O 和金额M F1值的变化情况,可以看出在第15轮训练后F1值分别在90、82和 88左右浮动,接近收敛。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于深度学习的电网项目特征属性识别方法,其特征在于,包括如下步骤:
S1,根据电网项目文档的类别和项目业务管理需求总结项目业务特征,基于项目业务特征建立项目标签体系;
S2,基于项目标签体系对电网项目文档进行分类;
S3,对分类后的电网项目文档进行文本预处理;
S4,借助开源文本标注工具对预处理后的电网项目文档进行实体标注,生成电网项目文档所对应的BIO格式数据集;
S5,利用BERT模型、Bi-GRU神经网络和CRF模型建立网络学习模型,将BIO格式数据集输入网络学习模型进行训练得到实体识别模型;
S6,利用实体识别模型对新的电网项目文档进行特征识别。
2.根据权利要求1所述的基于深度学习的电网项目特征属性识别方法,其特征在于,在步骤S1中,所述项目标签体系包括一级类别标签和二级实体标签,一级类别标签包括电网基建、产业基建、电网小型基建、生产技改、产业技改、生产辅助技改、零星购置、生产大修、产业大修、生产辅助大修、电力市场营销、电网数字化、研究开发、管理咨询、教育培训和股权投资,二级实体标签包括机构、电网信息化和金额。
3.根据权利要求1所述的基于深度学习的电网项目特征属性识别方法,其特征在于,在步骤S3中,所述文本预处理的方法为:利用格式转换工具将电网项目文档的PDF文件转换为EXCEL格式后,剔除包括空白页、目录及参考文献的辅助信息,再将剔除后的文件转换为TXT文件。
4.根据权利要求1所述的基于深度学习的电网项目特征属性识别方法,其特征在于,在步骤S4中,所述BIO格式数据集包括语句和每行语句所对应的标签,所述标签包括通用标签、分隔符和标签具体类别,通用标签即BIO标注,B表示实体起始位置,I表示实体的非第一个字符,O表示非实体,标签具体类别与二级实体标签相对应,采用O代表机构,E代表电网信息化,M代表金额。
5.根据权利要求1所述的基于深度学习的电网项目特征属性识别方法,其特征在于,所述步骤S5包括如下步骤:
S5.1,将步骤S4得到的BIO格式数据集划分为训练集、验证集和测试集;
S5.2,利用Bert模型、Bi-GRU神经网络和CRF模型建立网络学习模型;
S5.3,设置验证准确率阈值和预测准确率阈值;
S5.4,利用训练集数据对网络学习模型进行训练得到实体识别模型;
S5.5,利用验证集数据对实体识别模型进行评估,若实体识别模型的识别准确率大于验证准确率,执行步骤S5.6,否则返回步骤S5.4;
S5.6,利用测试集数据对实体识别模型进行测试,若实体识别模型的准确率小于预测准确率阈值,返回步骤S5.4并对网络学习模型的超参数进行调整,否则执行步骤S6。
6.根据权利要求5所述的基于深度学习的电网项目特征属性识别方法,其特征在于,在步骤S5.2中,所述网络学习模型包括BERT模型、Bi-GRU神经网络和CRF模型,BERT模型的输入端与开源文本标注工具的输出端连接,BERT模型的输出端与Bi-GRU神经网络的输入端连接,Bi-GRU神经网络的输出端与CRF模型的输入端连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111194442.0A CN113869055A (zh) | 2021-10-13 | 2021-10-13 | 基于深度学习的电网项目特征属性识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111194442.0A CN113869055A (zh) | 2021-10-13 | 2021-10-13 | 基于深度学习的电网项目特征属性识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113869055A true CN113869055A (zh) | 2021-12-31 |
Family
ID=78999443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111194442.0A Pending CN113869055A (zh) | 2021-10-13 | 2021-10-13 | 基于深度学习的电网项目特征属性识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113869055A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114818683A (zh) * | 2022-06-30 | 2022-07-29 | 北京宝兰德软件股份有限公司 | 一种基于移动端的运维方法及装置 |
CN116894115A (zh) * | 2023-06-12 | 2023-10-17 | 国网湖北省电力有限公司经济技术研究院 | 一种电网基建档案自动归档方法 |
CN117151117A (zh) * | 2023-10-30 | 2023-12-01 | 国网浙江省电力有限公司营销服务中心 | 电网轻量级非结构化文档内容自动识别方法、装置及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190005020A1 (en) * | 2017-06-30 | 2019-01-03 | Elsevier, Inc. | Systems and methods for extracting funder information from text |
CN111339250A (zh) * | 2020-02-20 | 2020-06-26 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
CN111680511A (zh) * | 2020-04-21 | 2020-09-18 | 华东师范大学 | 一种多神经网络协作的军事领域命名实体识别方法 |
CN112149421A (zh) * | 2020-09-23 | 2020-12-29 | 云南师范大学 | 一种基于bert嵌入的软件编程领域实体识别方法 |
-
2021
- 2021-10-13 CN CN202111194442.0A patent/CN113869055A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190005020A1 (en) * | 2017-06-30 | 2019-01-03 | Elsevier, Inc. | Systems and methods for extracting funder information from text |
CN111339250A (zh) * | 2020-02-20 | 2020-06-26 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
CN111680511A (zh) * | 2020-04-21 | 2020-09-18 | 华东师范大学 | 一种多神经网络协作的军事领域命名实体识别方法 |
CN112149421A (zh) * | 2020-09-23 | 2020-12-29 | 云南师范大学 | 一种基于bert嵌入的软件编程领域实体识别方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114818683A (zh) * | 2022-06-30 | 2022-07-29 | 北京宝兰德软件股份有限公司 | 一种基于移动端的运维方法及装置 |
CN116894115A (zh) * | 2023-06-12 | 2023-10-17 | 国网湖北省电力有限公司经济技术研究院 | 一种电网基建档案自动归档方法 |
CN116894115B (zh) * | 2023-06-12 | 2024-05-24 | 国网湖北省电力有限公司经济技术研究院 | 一种电网基建档案自动归档方法 |
CN117151117A (zh) * | 2023-10-30 | 2023-12-01 | 国网浙江省电力有限公司营销服务中心 | 电网轻量级非结构化文档内容自动识别方法、装置及介质 |
CN117151117B (zh) * | 2023-10-30 | 2024-03-01 | 国网浙江省电力有限公司营销服务中心 | 电网轻量级非结构化文档内容自动识别方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528676B (zh) | 文档级别的事件论元抽取方法 | |
CN113869055A (zh) | 基于深度学习的电网项目特征属性识别方法 | |
CN110807324A (zh) | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 | |
CN109918647A (zh) | 一种安全领域命名实体识别方法及神经网络模型 | |
CN114781392A (zh) | 一种基于bert改进模型的文本情感分析方法 | |
CN114417851B (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN113673254A (zh) | 基于相似度保持的知识蒸馏的立场检测方法 | |
CN111984780A (zh) | 多意图识别模型训练方法和多意图识别方法及相关装置 | |
US20230289528A1 (en) | Method for constructing sentiment classification model based on metaphor identification | |
CN115470871B (zh) | 基于命名实体识别与关系抽取模型的政策匹配方法及系统 | |
CN112364125B (zh) | 一种联合阅读课程学习机制的文本信息抽取系统及方法 | |
CN113254675B (zh) | 基于自适应少样本关系抽取的知识图谱构建方法 | |
CN114637827A (zh) | 一种基于图神经网络的碳交易文本事件抽取方法 | |
CN115062104A (zh) | 融合知识提示的法律文本小样本命名实体识别方法 | |
CN115329088B (zh) | 图神经网络事件检测模型的鲁棒性分析方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN110852089A (zh) | 基于智能分词与深度学习的运维项目管理方法 | |
CN113886562A (zh) | 一种ai简历筛选方法、系统、设备和存储介质 | |
CN115048511A (zh) | 一种基于Bert的护照版面分析方法 | |
CN113836891A (zh) | 基于多元标注策略的结构化信息抽取方法和装置 | |
CN113869054B (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN116663539A (zh) | 基于RoBERTa和指针网络的中文实体与关系联合抽取方法及系统 | |
CN115934883A (zh) | 一种基于语义增强的多特征融合的实体关系联合抽取方法 | |
CN115292490A (zh) | 一种用于政策解读语义的分析算法 | |
CN118313382A (zh) | 一种基于特征金字塔的小样本命名实体识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |