CN114648029A - 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法 - Google Patents
一种基于BiLSTM-CRF模型的电力领域命名实体识别方法 Download PDFInfo
- Publication number
- CN114648029A CN114648029A CN202210352753.3A CN202210352753A CN114648029A CN 114648029 A CN114648029 A CN 114648029A CN 202210352753 A CN202210352753 A CN 202210352753A CN 114648029 A CN114648029 A CN 114648029A
- Authority
- CN
- China
- Prior art keywords
- entity
- bilstm
- model
- power
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000011156 evaluation Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 23
- 238000002372 labelling Methods 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 230000009193 crawling Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000004870 electrical engineering Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 230000008520 organization Effects 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 210000004027 cell Anatomy 0.000 description 11
- 238000012545 processing Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000020411 cell activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Economics (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种电力领域命名实体识别方法,具体涉及一种基于BiLSTM‑CRF模型的电力领域命名实体识别方法,属于自然语言处理技术领域。包括如下步骤:获取电力领域数据集;通过CNN‑BiLSTM‑Attention‑CRF算法模型对电力领域的数据集中的训练集进行训,根据相关评价指标的值,即准确率、召回率和F1值得到此模型训练好的算法模型;将电力领域的数据集分为训练集和测试集,利用步骤2训练好的算法模型对测试集进行命名实体识别并标注测试的结果。以一种高效、高准确度和可信的方式实现电力领域数据的命名实体识别。
Description
技术领域
本发明涉及一种电力领域命名实体识别方法,具体涉及一种基于BiLSTM-CRF模型的电力领域命名实体识别方法,属于自然语言处理技术领域。
背景技术
电力领域作为一种资产庞杂、知识密集的电能生产与消费领域,数据量呈爆炸式增长,使得数据成为越来越重要的生产要素,构成了当今学术与工业界共同关注的电力大数据。目前在电力领域的大多研究通常针对的是结构化数据,例如:故障故障案例、设备缺陷与消缺案例,一般都是电力巡路工作人员用文本的形式记录下来,内容包含设备部件与状态描述、部件缺陷描述等专业信息。
由于电力领域数据具有复杂性和特殊性的特点,并且相关的实体信息具有领域性,仅用BiLSTM-CRF无法取得较好的效果,而命名实体识别的结果不准确将无法开展后续的工作,例如在实体关系的联合抽取中,实体识别的结果将直接影响到关系抽取的结果;命名实体识别的结果将影响知识图谱构建的实体的标注;命名实体识别的结果对问答系统中用户问句的分类将产生影响。因此,以此为出发点需要对BiLSTM-CRF算法模型进行改进以提升命名实体识别的精度,从而满足后续工作中各项评价指标的提升,减小命名实体识别的结果对相关工作的影响,因此,对BiLSTM-CRF算法模型改进的命名实体识别方法十分重要。
发明内容
本发明所要解决的技术问题是:提供一种基于BiLSTM-CRF模型的电力领域命名实体识别方法,构建一套高效可用的电力领域命名实体识别模型,方便后续从相关数据集、用户问句中识别命名实体,以提升知识图谱构建的精度和问答系统平台的准确度。
为了解决上述问题,本发明是采取以下技术方案实现的。
一种基于BiLSTM-CRF模型的电力领域命名实体识别方法,包括如下步骤:
步骤1,获取电力领域数据集;
步骤2,通过CNN-BiLSTM-Attention-CRF算法模型对电力领域的数据集中的训练集进行训,根据相关评价指标的值,即准确率、召回率和F1值得到此模型训练好的算法模型;
步骤3,将电力领域的数据集分为训练集和测试集,利用步骤2训练好的算法模型对测试集进行命名实体识别并标注测试的结果。
作为本发明的一个进一步方案,该识别方法还包括步骤4,利用相似度计算的方法解决在命名实体识别过程中出现的有误识别问题,即如果通过训练好的算法模型对数据集进行命名实体识别时,识别的结果与标注的结果不一致,则通过标记和相似度计算的方式判别结果的误差范围,能进一步确定是否为标注错误或识别错误。
所述步骤1的具体过程如下:
步骤1-1,所述的电力领域数据集包括采用网络爬虫技术从百度百科、国家能源局上开放的有关电力信息爬取相关数据集,和从电力领域的相关书籍中获得的数据等,其中数据包含电力客服、电力检修、电力常识和电力知识;
步骤1-2,通过人工的方式从电力相关的书籍中获取数据,例如《电气工程概论》、《电力系统分析》、《继电保护》等,此部分数据为电力相关的知识;
步骤1-3,根据数据集中的实体信息,通常是主语,例如变压器、营业厅、元件、电压等,通过对所述电力领域数据集的分析,将实体部分按照知识图谱的应用需求分为元件、元器件、系统、地点、软件、物理量、状态、操作、组织、时间、设施、数字、现象、协议和定理十五类,即之后的识别过程中将实体区分到对应的类别中;
步骤1-4,对步骤1-1和步骤1-2中获得的数据集进行预处理,即采用BIEOS标注法标注数据集中的实体,根据步骤1-3中定义的实体类型进行标注。
步骤1-4的标注中,“B-实体类型”表示该实体类型的首字符,“I-实体类型”表示该实体类型的中间部分,“E-实体类型”表示该实体类型的结束字符,“O”表示非实体。
所述步骤2的具体过程如下:
步骤2-1,利用步骤1-4中定义好的命名实体类别作为特征词典,对汉字部首结构进行拆分,从而获得部首结构序列,将拆分之后的部首序列利用CNN(卷积神经网络)进行嵌入、卷积操作获得该汉字的部首序列向量;
步骤2-2,将步骤2-1的结果结合字符嵌入向量送入到BiLSTM模型中获取上下文特征信息;
步骤2-3,将步骤2-2的结果连接注意力机制(Attention)为向量添加权重信息,以显著增强实体的特征信息;
步骤2-4,将步骤2-3的结果送入到CRF模型中,该模型有特征转移矩阵,可以考虑输出标签之间的顺序性,有效约束标签之间的依赖关系,从而获取全局最优序列。
本发明深刻考虑到目前的BiLSTM模型的训练和运行速度较慢、电力领域的相关数据具有领域性和复杂性、电力相关实体数据区分度较大等问题或因素,在命名实体识别的既有方法上大胆创新,对各循环神经网络加以研究和测试,同时考虑到与电力领域的命名实体相结合构造领域词典作为附加词特征等方法,以一种高效、高准确度和可信的方式实现电力领域数据的命名实体识别。
附图说明
图1是本发明基于BiLSTM-CRF模型的电力领域命名实体识别方法的步骤流程图。
图2是本发明基于BiLSTM-CRF模型的电力领域命名实体识别方法的模型结构图。
图3是本发明的算法模型中LSTM的内部结构示意图。
图4是本发明的算法模型中CNN的使用方式。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例图在附图中已示出。下面通过参考附图的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
如图1所示,为本发明基于BiLSTM-CRF模型的电力领域命名实体识别方法的步骤流程图,包括以下步骤:
1、获取电力领域数据集:通过获取大量的电力领域相关数据来支持后续工作,包括以四个步骤:
(1)采用网路爬虫技术从百度百科、国家电网数据平台爬取相关数据集,具体步骤如下:
启动多个线程,通过分析百度百科、国家电网数据平台等平台的页面结构,分析页面的步骤和整体样式结构,获取网页中标签的URL地址,采用正则表达式与Xpath相结合的方式批量爬取网页中所需数据,例如电力客服、电力检修和电力常识等,最后将文本结果保存在本地存储。
在线程启动前设定页面下载出错时的处理策略,以实现页面下载效率高、数据无差错和内容完整等目标。其中,对于出错部分的处理方式是根据页面出错类型和页面反爬反馈结果等状态设定重试次数,在重试超过一定阈值之后,将此页面的URL记录下来,在所有内容全部爬取完毕之后在重新爬取该页面的内容,倘若仍旧无法处理,则通过人工的方式检测该页面是否存在结构、样式等修改的问题。
(2)关于电力相关的基本知识是无法从相关的网站获取的,需要人工查阅与此相关的书籍进行抄录,所以这部分的数据需要消耗一定的人工成本,在本发明中对于此部分的数据样本占比较少。
(3)在得到所需的电力领域数据集之后,将上述不同处理方式获得的样本进行汇总,根据数据集中的实体信息,通过对所述电力领域数据集的分析,将实体部分分为十五类,分别表示为元件、元器件、系统、地点、软件、物理量、状态、操作、组织、时间、设施、数字、现象、协议和定理,考虑到实体标注的复杂性,所以使用字母表示,分别为A、B、C、……和O;
(4)通过人工的方式对数据集中的样本进行标注,考虑到命名实体的识别过程中的完整性和准确性,本发明在对命名实体进行标注的时候采用BIEOS标注法。
IOB标注法是最先开始采用的标注法,其含义是:I表示实体的内部,O表示实体的外部,B表示实体的开始,如果文本数据集中某个词标注B/I-XXX,则B/I表示这个词属于命名识别的开始或内部,即该词是命名实体的一部分,XXX表示命名实体的类型。当词标注O则表示属于命名识别的外部,即它不是一个命名实体。
BIEOS标注法是在IOB标注法的基础上进行拓展的,其在命名实体的标注中更加标准和完备,其中B表示一个字为实体开始,I表示实体的内部,O表示实体的外部,E表示这个字作为实体的结束,S表示这个字作为单独的一个实体部分,此方法目前在命名实体的标注中最通用。根据已有的电力领域实体的分类情况,采用BIEOS标注法时需要考虑到实体的类型,例如某个实体类型类别为H,则该实体的首字表示为B-H,中间字表示为I-H,结尾字表示为E-H,如果实体的长度为一个字则表示为S-H,非实体表示为O-O。
2、通过CNN-BiLSTM-Attention-CRF算法模型对电力领域的数据集中的训练集进行训练,在算法训练过程中设置初始学习率为0.001,Dropo率设为0.5。根据相关评价指标的值,即准确率、召回率和F1值得到此模型训练好的算法模型。具体步骤如下:
(1)CNN提取部首序列
卷积神经网络在文本中提取局部特征较为高效,本发明通过将CNN引入是为了更好的提取电力相关的实体词语的特征信息,电力相关的实体词语大多是具有针对性的,通过CNN能在模型训练初期就能捕获这些词语的局部特征,对于每个中文汉字的组成可以利用网上的新华字典查找汉字的部首,对其部首结构进行拆分,从而获得部首结构序列,将拆分之后的部首序列利用CNN进行嵌入、卷积操作获得该汉字的部首序列向量。在深度学习中通常采用大量未标记语料库进行预训练的嵌入表示,而不是采用随机初始化的方法。CNN的输入为字符的嵌入,字符嵌入层的维度为100,部首嵌入同样采用预训练的方式,维度为100,将CNN层窗口尺寸设置为3,过滤器个数设置为300,最后输出序列的特征信息输入到网络。
(2)BiLSTM层提取句子特征
将CNN提取的部首序列向量结合字符嵌入向量送入到BiLSTM层,完成句子特征的提取,从而得到线性层。
BiLSTM是由正向和反向的两个LSTM组成的,输出由这两个LSTM的状态共同决定的神经网络模型。在每个时刻,输入会同时提供两个方向相反的LSTM,而输出由这两个LSTM共同决定。LSTM网络目前广泛应用于机器翻译、文本信息、语音语义识别等场景中,该网络的思想是模仿人类大脑的运作方式从而发现序列数据之间的相关性和联系,LSTM是RNN网络的改进版本,其主要解决了RNN网络存在的长短时依赖问题,即如果输出的位置和上文输入信息的位置过远而无法产生依赖,LSTM网络可以利用上文的信息进行相应特征的提取,更好地结合上下文信息。LSTM的内部结构图如图3所示,具体计算公式如下:
其中,在处理语言文本的过程中,通常会存在新代词代替旧代词的情况,所以需要通过遗忘门来完成,其计算公式为:
ft=σ(Wf·[ht-1,XT]+BF);
公式中记xt为细胞的状态,ht-1为上一时间的隐层状态,这个隐状态包含之前节点的相关信息,同样也会经过一个线性变幻的过程,Wf为神经元权重,bf为偏差参数,用于对变量和状态的线性变换,σ为Sigmoid计算方式。
在处理语言文本的过程中,也会存在需要将新的主语内容添加到以往的语句中,则需要输入们和更新细胞的状态,输入门计算公式如下:
it=σ(Wi·[ht-1,xt]+bfi);
公式中记xt为细胞的状态,ht-1为上一时间的隐层状态,这个隐状态包含之前节点的相关信息,同样也会经过一个线性变幻的过程,Wi为神经元权重,bfi为偏差参数,用于对变量和状态的线性变换,t为当前时间,σ为Sigmoid计算方式,it为输入门。
候选记忆细胞的公式如下,其中tanh函数是对候选记忆细胞激活函数进行激活,其值将映射在[-1,1],计算公式如下:
公式中记xt为细胞的状态,ht-1为上一时间的隐层状态,这个隐状态包含之前节点的相关信息,同样也会经过一个线性变幻的过程,Wc为神经元权重,bC为偏差参数,用于对变量和状态的线性变换,t为当前时间,为临时细胞状态。
更新完旧细胞状态后,为限制候选记忆细胞进入记忆门的比例,计算公式如下:
公式中当前的细胞状态将从Ct-1更新到Ct,需要完成丢弃旧数据添加新数据,将遗忘门ft与Ct-1进行加权操作,控制上一时刻的记忆细胞Ct-1的数据通过遗忘门的比例,将输入门it与进行加权,最后通过结合获得t为细胞状态。
最后需要考虑到结果输出值,输出值的结果基于当前的细胞信息,其计算公式如下:
OT=σ(WO·[ht-1,xt]+bo);
公式中记xt为细胞的状态,ht-1为上一时间的隐层状态,这个隐状态包含之前节点的相关信息,同样也会经过一个线性变幻的过程,Wo为神经元权重,bo为偏差参数,用于对变量和状态的线性变换,t为当前时间,t为输出门。
BiLSTM在命名实体识别的使用过程中需要将前向LSTM和后向LSTM拼接,即和分别表示前向LSTM和后向LSTM,用于提取上下文特征,之后输入到下一层网络,BiLSTM的层数设为1,维度设为300。
(3)Attention层降维
注意力机制(Attention)层用于降低上一层BiLSTM层输出向量的数据维度,减小在处理高维数据过程中产生的负担,同时由于Attention的存在和CNN提取的部首序列相结合,以提高命名实体在句子向量中的权重。通过多头注意力机制进一步获取上下文的依赖信息,即:
multiHead(Q,K,V)=concat(head1,…,headh)WO;
其中Q、K、V均为矩阵结果,即BiLSTM的结果,dk表示Q、K的第二维度,分母的主要是为了对分子相乘结果过大而进行调节,T为转置,softmax为逻辑回归函数,concat表示多次注意力机制的结果拼接,Wi Q、Wi k、Wi v为不同的参数,i=1,2,......,h,i表示经过第i次自注意力运算,得到最终的输出向量,输出维度为600。headi表示使用不同的参数多次重复计算Q、K、V矩阵所得的其中一个注意力层;multiHead(Q,K,V)表示将h个注意力层的输出进行拼接,然后乘以WO进行线性变换得到多头注意力的输出结果。
(4)CRF层输出实体
条件随机场(CRF)层将Attention层中获得的输出数据作为输入,对于输入的向量需要计算出对应的序列概率值,而根据最大概率值与已定义好的命名实体词典输出高精度的命名实体信息。
(5)获得最佳模型
通过迭代多次上述建立的模型,根据相关评价指标结果,即准确率、召回率和F1值训练得到此模型指标最优结果的算法模型,相关的评价指标相对于BiLSTM-CRF算法模型均有较大提升。
3、将电力领域的数据集分为训练集和测试集,利用训练好的算法模型对测试集进行命名实体识别并标注测试的结果,具体步骤如下:
利用CNN-BiLSTM-Attention-CRF算法模型对测试集样本进行测试,因为已经将样本按照8:1:1的比例区分为训练集、测试集和验证集,所以直接将测试样本送入到模型进行测试,在测试过程中可能出现多种有误的情况,例如命名实体分类不准确、命名实体的标注有误和命名实体未标注等情况,对于上述情况都将在步骤4中进行处理。
4、利用相似度计算的方法解决在命名实体识别过程中出现的有误识别问题,具体步骤如下:
在将测试数据集送入到模型进行测试时,可能存在多种有误的情况,对于存在的有误标注或识别情况本发明采用汉明距离的方式进行处理,而汉明距离通常与simhash相结合。
Simhash表示的是敏感哈希算法在文本特征提取任务中的应用。它会把一篇文档映射为一个长度为64、元素值为0或1的一维向量。这样就可以使用某种距离计算方式来计算两篇文本的距离和相似度,其处理流程为分词、hash、加权、合并和降维,其中分词是得到有效的特征向量并为每个特征向量设置不同的权重,hash是将字符串变成一系列数字,加权是将hash值乘以对应的权重,合并是将各个位置的值累加,降维是将累加结果大于0的置为1,小于0的置为0。
汉明距离是用来比较两段文本的特征向量的每个维度取值是否相等,不相等的维度越多则两段文本的差异就越大,其计算公式如下:
其中,ai和bi表示输入的两段文本的第i个字符,将simhash与海明距离相结合用于对文本的相似度进行计算,进而对本发明中的算法模型测试结果的有误情况进行处理,进一步提升算法模型的性能,如果通过训练好的算法模型对数据集进行命名实体识别时,识别的结果与标注的结果不一致,则通过标记和相似度计算的方式判别结果的误差范围,可进一步确定是否为标注错误或识别错误。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (6)
1.一种基于BiLSTM-CRF模型的电力领域命名实体识别方法,其特征在于,包括如下步骤:
步骤1,获取电力领域数据集;
步骤2,通过CNN-BiLSTM-Attention-CRF算法模型对电力领域的数据集中的训练集进行训,根据相关评价指标的值,即准确率、召回率和F1值得到此模型训练好的算法模型;
步骤3,将电力领域的数据集分为训练集和测试集,利用步骤2训练好的算法模型对测试集进行命名实体识别并标注测试的结果。
2.根据权利要求1所述的基于BiLSTM-CRF模型的电力领域命名实体识别方法,其特征在于,该识别方法还包括步骤4,利用相似度计算的方法解决在命名实体识别过程中出现的有误识别问题,即如果通过训练好的算法模型对数据集进行命名实体识别时,识别的结果与标注的结果不一致,则通过标记和相似度计算的方式判别结果的误差范围,能进一步确定是否为标注错误或识别错误。
3.根据权利要求1所述的基于BiLSTM-CRF模型的电力领域命名实体识别方法,其特征在于,所述步骤1的具体过程如下:
步骤1-1,所述的电力领域数据集包括采用网络爬虫技术从百度百科、国家能源局上开放的有关电力信息爬取相关数据集,和从电力领域的相关书籍中获得的数据,其中数据包含电力客服、电力检修、电力常识和电力知识;
步骤1-2,从电力相关的书籍中获取数据,此部分数据为电力相关的知识;
步骤1-3,根据数据集中的实体信息,通常是主语,例如变压器、营业厅、元件、电压等,通过对所述电力领域数据集的分析,将实体部分按照知识图谱的应用需求分为元件、元器件、系统、地点、软件、物理量、状态、操作、组织、时间、设施、数字、现象、协议和定理十五类,即之后的识别过程中将实体区分到对应的类别中;
步骤1-4,对步骤1-1和步骤1-2中获得的数据集进行预处理,即采用BIEOS标注法标注数据集中的实体,根据步骤1-3中定义的实体类型进行标注。
4.根据权利要求3所述的基于BiLSTM-CRF模型的电力领域命名实体识别方法,其特征在于,步骤1-2中所述的书籍包括《电气工程概论》、《电力系统分析》和《继电保护》。
5.根据权利要求3所述的基于BiLSTM-CRF模型的电力领域命名实体识别方法,其特征在于,步骤1-4的标注中,“B-实体类型”表示该实体类型的首字符,“I-实体类型”表示该实体类型的中间部分,“E-实体类型”表示该实体类型的结束字符,“O”表示非实体。
6.根据权利要求1所述的基于BiLSTM-CRF模型的电力领域命名实体识别方法,其特征在于,所述步骤2的具体过程如下:
步骤2-1,利用步骤1-4中定义好的命名实体类别作为特征词典,对汉字部首结构进行拆分,从而获得部首结构序列,将拆分之后的部首序列利用CNN(卷积神经网络)进行嵌入、卷积操作获得该汉字的部首序列向量;
步骤2-2,将步骤2-1的结果结合字符嵌入向量送入到BiLSTM模型中获取上下文特征信息;
步骤2-3,将步骤2-2的结果连接注意力机制为向量添加权重信息,以显著增强实体的特征信息;
步骤2-4,将步骤2-3的结果送入到CRF模型中,该模型有特征转移矩阵,考虑输出标签之间的顺序性,有效约束标签之间的依赖关系,从而获取全局最优序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210352753.3A CN114648029A (zh) | 2022-03-31 | 2022-03-31 | 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210352753.3A CN114648029A (zh) | 2022-03-31 | 2022-03-31 | 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114648029A true CN114648029A (zh) | 2022-06-21 |
Family
ID=81997219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210352753.3A Pending CN114648029A (zh) | 2022-03-31 | 2022-03-31 | 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114648029A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115759035A (zh) * | 2022-12-09 | 2023-03-07 | 成都明途科技有限公司 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107977361A (zh) * | 2017-12-06 | 2018-05-01 | 哈尔滨工业大学深圳研究生院 | 基于深度语义信息表示的中文临床医疗实体识别方法 |
CN110969020A (zh) * | 2019-11-21 | 2020-04-07 | 中国人民解放军国防科技大学 | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 |
CN111079377A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种面向中文医疗文本命名实体识别的方法 |
CN112101032A (zh) * | 2020-08-31 | 2020-12-18 | 广州探迹科技有限公司 | 一种基于自蒸馏的命名实体识别与纠错方法 |
CN112733541A (zh) * | 2021-01-06 | 2021-04-30 | 重庆邮电大学 | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 |
CN112749562A (zh) * | 2020-12-31 | 2021-05-04 | 合肥工业大学 | 命名实体识别方法、装置、存储介质及电子设备 |
CN113158678A (zh) * | 2021-05-19 | 2021-07-23 | 云南电网有限责任公司电力科学研究院 | 一种应用于电力文本命名实体的识别方法及装置 |
CN113673248A (zh) * | 2021-08-23 | 2021-11-19 | 中国人民解放军32801部队 | 试验鉴定小样本文本的命名实体识别方法 |
-
2022
- 2022-03-31 CN CN202210352753.3A patent/CN114648029A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107977361A (zh) * | 2017-12-06 | 2018-05-01 | 哈尔滨工业大学深圳研究生院 | 基于深度语义信息表示的中文临床医疗实体识别方法 |
CN110969020A (zh) * | 2019-11-21 | 2020-04-07 | 中国人民解放军国防科技大学 | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 |
CN111079377A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种面向中文医疗文本命名实体识别的方法 |
CN112101032A (zh) * | 2020-08-31 | 2020-12-18 | 广州探迹科技有限公司 | 一种基于自蒸馏的命名实体识别与纠错方法 |
CN112749562A (zh) * | 2020-12-31 | 2021-05-04 | 合肥工业大学 | 命名实体识别方法、装置、存储介质及电子设备 |
CN112733541A (zh) * | 2021-01-06 | 2021-04-30 | 重庆邮电大学 | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 |
CN113158678A (zh) * | 2021-05-19 | 2021-07-23 | 云南电网有限责任公司电力科学研究院 | 一种应用于电力文本命名实体的识别方法及装置 |
CN113673248A (zh) * | 2021-08-23 | 2021-11-19 | 中国人民解放军32801部队 | 试验鉴定小样本文本的命名实体识别方法 |
Non-Patent Citations (1)
Title |
---|
肖勇等: "基于联合神经网络学习的中文电力计量命名实体识别", 《浙江大学学报(理学版)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115759035A (zh) * | 2022-12-09 | 2023-03-07 | 成都明途科技有限公司 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444726B (zh) | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 | |
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
CN104615589A (zh) | 训练命名实体识别模型的方法、命名实体识别方法及装置 | |
CN111666758B (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN111581474A (zh) | 基于多头注意力机制的涉案微博评论的评价对象抽取方法 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN113191148A (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN113673254B (zh) | 基于相似度保持的知识蒸馏的立场检测方法 | |
CN113168499A (zh) | 检索专利文档的方法 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN111651983A (zh) | 一种基于自训练与噪声模型的因果事件抽取方法 | |
CN113196277A (zh) | 用于检索自然语言文档的系统 | |
CN113011161A (zh) | 一种基于深度学习与模式匹配的人案物关联关系抽取方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN113836891A (zh) | 基于多元标注策略的结构化信息抽取方法和装置 | |
CN115688784A (zh) | 一种融合字与词语特征的中文命名实体识别方法 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN112800184A (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN115759092A (zh) | 一种基于albert的网络威胁情报命名实体识别方法 | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质 | |
CN115481635A (zh) | 一种地址要素解析方法和系统 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220621 |