CN113836315A - 一种电力标准知识抽取系统 - Google Patents
一种电力标准知识抽取系统 Download PDFInfo
- Publication number
- CN113836315A CN113836315A CN202111116935.2A CN202111116935A CN113836315A CN 113836315 A CN113836315 A CN 113836315A CN 202111116935 A CN202111116935 A CN 202111116935A CN 113836315 A CN113836315 A CN 113836315A
- Authority
- CN
- China
- Prior art keywords
- text
- power standard
- module
- format
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 15
- 230000004048 modification Effects 0.000 claims abstract description 9
- 238000012986 modification Methods 0.000 claims abstract description 9
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 238000000844 transformation Methods 0.000 claims description 4
- 238000012552 review Methods 0.000 claims description 3
- 238000007654 immersion Methods 0.000 description 4
- 239000007788 liquid Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 101150060629 def gene Proteins 0.000 description 2
- 101150005874 DEF1 gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Public Health (AREA)
- Animal Behavior & Ethology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种电力标准知识抽取系统,属于电力专业知识技术领域,用于建立一种高效构建电力标准专业知识图谱;引入电力标准领域数据库以及模型训练模块,模型训练模块从电力标准领域数据库内获取电力标准领域数据,并经过预训练得到BERT预训练模型,获取单位文本数据的文本嵌入式表示,参数修改模块用于修改BERT预训练模型中的下一个句子预测任务,此方式的好处为让输入的单位文本数据更长,使得BERT预训练模型能够学习更长的依赖;同时,参数修改模块将原始BERT预训练模型中的单字符的MASK操作改为连续字符的MASK操作,这样可以在BERT预训练模型中融合更多的实体语义信息,能够更加利于实体识别任务性能的提升。
Description
技术领域
本发明属于电力专业知识技术领域,具体是一种电力标准知识抽取系统。
背景技术
电力标准文档里面蕴含着大量的电力专业知识,当前都是以书本等非结构化数据存在,为了有效利用这些知识,知识图谱是一个不错的途径,如何建立一种高效构建电力标准专业知识图谱成为重要的一个步骤。
因此,本文提出一种针对电力标准文档知识抽取系统。
发明内容
为了解决上述方案存在的问题,本发明提供了一种电力标准知识抽取系统。
本发明的目的可以通过以下技术方案实现:
一种电力标准知识抽取系统,包括特征标注模块以及模型训练模块;所述特征标注模块用于接收单位文本数据,并通过显隐识别单元识别单位文本数据的显隐性,根据显隐性进行不同方式的标注得到知识元组;
所述模型训练模块用于从电力标准领域数据库内获取电力标准领域数据,并经过预训练得到BERT预训练模型,进而获取知识元组的文本嵌入式表示;
利用改进的Transformer对单位文本数据的文本嵌入式表示进行编码,并通过Attention机制计算结果,将结果输入到片段指针网络继续进行计算;
在对每一个中文字符进行编码时,利用滑窗的方法进行局部建模,对于每一个中文字符,对相邻的m个中文字符计算Attention,计算复杂度与文本序列长度n成线性关系,获取相邻中文字符之间存在的宽度w,当片段指针网络的层数为L时,则视野范围为L*m*w。
进一步地,所述单位文本数据为规则分割模块对处理文本文件进行规则分割的结果。
进一步地,还包括文本格式识别模块以及文本转化模块,所述文本格式识别模块用于识别电力标准文本,当文本格式识别模块识别出电力标准文本的格式为PDF数据格式时,文本格式识别模块连接文本转化模块,所述文本转化模块采取文本转化的方式将PDF数据格式转化为文本格式,并将转化后的文本格式文件标记为处理文本文件。
进一步地,所述特征标注模块包括显式标注单元、隐式标注单元以及显隐识别单元;
当特征标注模块接收到单位文本数据后,通过显隐识别单元识别单位文本数据的显隐性。
进一步地,利用改进的Transformer对单位文本数据的文本嵌入式表示进行编码的过程包括以下步骤:
对原始的文本通过不同的线性变换对原文的文本进行编码,然后通过Attention机制计算结果:
headi=Attetion(QWi Q,KWi K,VWi V)
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
其中,headi表示模型包含的一个头实体的计算方法,i代表头实体的索引编号,i为正整数,且i=1,2……h;其中Wi Q、Wi K、Wi V表示原始序列特征维度为dmodel的序列Q、K、V映射为head的三个输入;MultiHead表示将所有头实体的计算结果进行拼接操作,再乘以一个WO的矩阵,最终作为当前层的最终输出结果,再输入到片段指针网络继续进行计算。
进一步地,当文本格式识别模块识别出电力标准文本为非PDF的文本格式时,文本格式识别模块会连接能对该数据格式的电力标准文本进行转化的转化工具,将非PDF的文本格式的电力标准文本转化为文本格式;文本转化模块将转化后的文本格式进行专家审核,将转化后的文本进行整理,最终输出整洁文本,将整洁文本标记为处理文本文件。
进一步地,所述知识元组为单位文本数据通过特征标注模块进行标注后的数据组。
进一步地,还包括参数修改模块,所述参数修改模块用于修改BERT预训练模型中的下一个句子预测任务。
与现有技术相比,本发明的有益效果是:
1.本发明中引入电力标准领域数据库以及模型训练模块,所述模型训练模块从电力标准领域数据库内获取电力标准领域数据,并经过预训练得到BERT预训练模型,进而获取单位文本数据的文本嵌入式表示,且本发明设置有参数修改模块,所述参数修改模块用于修改BERT预训练模型中的下一个句子预测任务,此方式的好处为让输入的单位文本数据更长,使得BERT预训练模型能够学习更长的依赖,这样可以让每个输入的单位文本数据的长度最多都能达到512甚至更长的长度;同时,参数修改模块将原始BERT预训练模型中的单字符的MASK操作改为连续字符的MASK操作,这样可以在BERT预训练模型中融合更多的实体语义信息,能够更加利于实体识别任务性能的提升。
2.我们针对性的提出了片段指针网络的解码方案,在接到上面的Adaptive-Transformer层后面的网络层,区别于传统的CRF解码方案,这里我们提出的解码方案在长文本上的稀疏和嵌入实体上,比CRF的解码方案来说具有更好的效率和更强的针对性,从而缓解人工标注标准不一致和缺失的情况。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种电力标准知识抽取系统的原理图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,一种电力标准知识抽取系统,包括文本格式识别模块,所述文本格式识别模块用于识别电力标准文本,其中,所述电力标准文本的数据格式包含多种,最基本的电力标准文本的数据格式为PDF数据格式,在一些特殊的场合,电力标准文本的格式可能为其他类型的数据格式,当文本格式识别模块识别出电力标准文本的格式为PDF数据格式时,文本格式识别模块连接文本转化模块,所述文本转化模块采取文本转化的方式将PDF数据格式转化为文本格式,并将转化后的文本格式文件标记为处理文本文件;
其中,对PDF数据格式进行转化的转化工具为OCR;
需要说明的是,当文本格式识别模块识别出电力标准文本为非PDF的文本格式时,文本格式识别模块会连接能对该数据格式的电力标准文本进行转化的转化工具,将非PDF的文本格式的电力标准文本转化为文本格式;文本转化模块将转化后的文本格式进行专家审核,将转化后的文本进行整理,最终输出整洁文本,将整洁文本标记为处理文本文件,并将处理文本文件发送至规则分割模块;
需要进行解释说明的是,所述规则分割模块用于对接收的处理文本文件进行规则分割,将处理文本文件分割为若干个单位文本数据,其中,单位文本数据包括正文+标题;然后将单位文本数据发送至特征标注模块;所述特征标注模块包括显式标注单元、隐式标注单元以及显隐识别单元;
当特征标注模块接收到单位文本数据后,通过显隐识别单元识别单位文本数据的显隐性,当显隐识别单元判断单位文本数据为显式关系时,采用如下的标注方式:
例如:“对于液浸式电抗器,参考温度是75℃”,最终的标注为[“液浸式电抗器”,“参考温度”,“75℃”];
其中的标注标准为:
“液浸式电抗器”:start_e1,“参考温度”:rel,“75℃”:end_e1
“start_e1”代表头实体,“rel”代表关系,“end_e1”代表尾实体;
当显隐识别单元判断单位文本数据为隐式关系时,采用如下的标注方式:
“涌流水平/n inrush current level/n电抗器励磁时最大峰值电流与倍额定电流的比值。”,标注形式为[“涌流水平”,“定义”,“电抗器励磁时最大峰值电流与倍额定电流的比值”],[“涌流水平”,“英文”,“inrush current level”];
其中的标注标准为:
需要说明的是,针对显式标注单元或者隐式标注单元标注的结果,都会存在以下问题:
一、输入的文本,数据一般都比较长,并且知识元组的距离也相对来说比较长。
二、头实体、尾实体的长度多样性较强,且存在着稀疏分布的情况;
三、由上面显式关系中举的例子可以看出,不同知识元组之间存在着头实体重叠的情况。
需要进行说明的是,所述知识元组为单位文本数据通过特征标注模块进行标注后的数据组;例如“液浸式电抗器”:start_e1,“参考温度”:rel,“75℃”:end_e1为一个知识元组;
为此,在本发明中引入电力标准领域数据库以及模型训练模块,所述模型训练模块从电力标准领域数据库内获取电力标准领域数据,并经过预训练得到BERT预训练模型,进而获取单位文本数据的文本嵌入式表示,且本发明设置有参数修改模块,所述参数修改模块用于修改BERT预训练模型中的下一个句子预测任务,此方式的好处为让输入的单位文本数据更长,使得BERT预训练模型能够学习更长的依赖,这样可以让每个输入的单位文本数据的长度最多都能达到512甚至更长的长度;
同时,参数修改模块将原始BERT预训练模型中的单字符的MASK操作改为连续字符的MASK操作,这样可以在BERT预训练模型中融合更多的实体语义信息,能够更加利于实体识别任务性能的提升。
同时,本发明利用改进的Transformer进行文本的上下文编码表示:首先对原始的文本通过不同的线性变换对原文的文本进行编码,然后通过Attention机制计算结果:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
其中,headi表示模型包含的一个头实体的计算方法,i代表头实体的索引编号,i为正整数,且i=1,2……h;其中Wi Q、Wi K、Wi V表示原始序列特征维度为dmodel的序列Q、K、V映射为head的三个输入;MultiHead表示将所有头实体的计算结果进行拼接操作,再乘以一个WO的矩阵,最终作为当前层的最终输出结果,再输入到片段指针网络继续进行计算。
这里的Attention机制针对这里的长文本场景进行了如下设计:
对于输入文本序列S中的任何一个中文字符t,对于文本片段[t-S,t]中的一个中文字符r,其中的相似度计算方式为:
其中,Wk,Wq是K和Q的线性变换的矩阵,pt-r为相对位置编码,公式如下:
针对每个head,本发明增加了一个mask函数来形成一个[0,1]区间内的距离:
其中R是一个控制函数平滑度的超参数,z是[0,S]之间的一个值,z是需要学习的参数,对每个head,z都是不同的,公式6的目的是将每个head的关注点进行不同的度量,从而进行针对性的学习的同时减小计算量,最终attention权重的计算方式如下:
其中按照如下方式计算当前head输出:
其中,Wv被称作V的矩阵,其中通过公式2输出当前层的最终输出。
同时,本发明还通过如下手段减小attention的计算量的同时提升模型的性能:
在对每一个中文字符进行编码时,区别于原始Transfomer对长文档进行全局建模,复杂度过高从而造成模型难以训练,所以这里利用滑窗的方法进行局部建模,对于每一个中文字符,只对其附近的m个中文字符计算Attention,计算复杂度与文本序列长度n成线性关系,同时为了拓宽模型的视野,这里借鉴空洞卷积的思想,在滑动窗口中,两个相邻中文字符之间会存在一定宽度w(超参数)的间隙。当Adaptive-Transformer的层数为L时,则视野范围可达到L*m*w。
在实际训练中,Adaptive-Transformer的层数为6,前3层使用较小的滑窗,以建模局部信息;在后3层使用较大的滑窗,以扩大感受野。
上面是应对数据的问题一的模型设计方案,为了应对数据的问题二中的实体存在稀疏性和问题三中实体存在重叠性的情况,我们针对性的提出了片段指针网络的解码方案,在接到上面的Adaptive-Transformer层后面的网络层,区别于传统的CRF解码方案,这里我们提出的解码方案在长文本上的稀疏和嵌入实体上,比CRF的解码方案来说具有更好的效率和更强的针对性,具体方法如下:
一、输入文本的长度为n,假设当前实体的标签数量为1,输入文本中的连续片段,并且可以存在嵌入实体,也就是实体的片段可以重复,那么候选实体的数量为如果实体标签的数量为k个,那么就是从k个多标签分类:个实体中选若干个实体的的问题;
二、分别用两个全连接层分别编码得到实体的开始(Hs)和结束(He)位置的表示,其他位置i,j的编码表示为Hi,Hj;
三、对上述两个向量进行级联,两个向量的差,两个向量的点积,最后进行级联;
si,j=Hi+Hj+(Hi-Hj)+(Hi⊙Hj)
四、最后进行一次softmax操作:
最终定义损失函数如下:
其中,pa是该样本的所有类型为a的实体的首尾集合,Qa是该样本的所有非实体或者类型非a的实体的首尾集合,从而缓解人工标注标准不一致和缺失的情况。
在本发明所提供的实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。
另对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。
Claims (8)
1.一种电力标准知识抽取系统,其特征在于,包括特征标注模块以及模型训练模块;所述特征标注模块用于接收单位文本数据,并通过显隐识别单元识别单位文本数据的显隐性,根据显隐性进行不同方式的标注得到知识元组;
所述模型训练模块用于从电力标准领域数据库内获取电力标准领域数据,并经过预训练得到BERT预训练模型,进而获取知识元组的文本嵌入式表示;
利用改进的Transformer对单位文本数据的文本嵌入式表示进行编码,并通过Attention机制计算结果,将结果输入到片段指针网络继续进行计算;
在对每一个中文字符进行编码时,利用滑窗的方法进行局部建模,对于每一个中文字符,对相邻的m个中文字符计算Attention,计算复杂度与文本序列长度n成线性关系,获取相邻中文字符之间存在的宽度w,当片段指针网络的层数为L时,则视野范围为L*m*w。
2.根据权利要求1所述的一种电力标准知识抽取系统,其特征在于,所述单位文本数据为规则分割模块对处理文本文件进行规则分割的结果。
3.根据权利要求2所述的一种电力标准知识抽取系统,其特征在于,还包括文本格式识别模块以及文本转化模块,所述文本格式识别模块用于识别电力标准文本,当文本格式识别模块识别出电力标准文本的格式为PDF数据格式时,文本格式识别模块连接文本转化模块,所述文本转化模块采取文本转化的方式将PDF数据格式转化为文本格式,并将转化后的文本格式文件标记为处理文本文件。
4.根据权利要求1所述的一种电力标准知识抽取系统,其特征在于,所述特征标注模块包括显式标注单元、隐式标注单元以及显隐识别单元。
5.根据权利要求1所述的一种电力标准知识抽取系统,其特征在于,利用改进的Transformer对单位文本数据的文本嵌入式表示进行编码的过程包括以下步骤:
对原始的文本通过不同的线性变换对原文的文本进行编码,然后通过Attention机制计算结果:
headi=Attetion(QWi Q,KWi K,VWi V)
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
其中,headi表示模型包含的一个头实体的计算方法,i代表头实体的索引编号,i为正整数,且i=1,2……h;其中Wi Q、Wi K、Wi V表示原始序列特征维度为dmodel的序列Q、K、V映射为head的三个输入;MultiHead表示将所有头实体的计算结果进行拼接操作,再乘以一个WO的矩阵,最终作为当前层的最终输出结果,再输入到片段指针网络继续进行计算。
6.根据权利要求2所述的一种电力标准知识抽取系统,其特征在于,当文本格式识别模块识别出电力标准文本为非PDF的文本格式时,文本格式识别模块会连接能对该数据格式的电力标准文本进行转化的转化工具,将非PDF的文本格式的电力标准文本转化为文本格式;文本转化模块将转化后的文本格式进行专家审核,将转化后的文本进行整理,最终输出整洁文本,将整洁文本标记为处理文本文件。
7.根据权利要求1所述的一种电力标准知识抽取系统,其特征在于,所述知识元组为单位文本数据通过特征标注模块进行标注后的数据组。
8.根据权利要求1所述的一种电力标准知识抽取系统,其特征在于,还包括参数修改模块,所述参数修改模块用于修改BERT预训练模型中的下一个句子预测任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111116935.2A CN113836315A (zh) | 2021-09-23 | 2021-09-23 | 一种电力标准知识抽取系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111116935.2A CN113836315A (zh) | 2021-09-23 | 2021-09-23 | 一种电力标准知识抽取系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113836315A true CN113836315A (zh) | 2021-12-24 |
Family
ID=78969604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111116935.2A Pending CN113836315A (zh) | 2021-09-23 | 2021-09-23 | 一种电力标准知识抽取系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113836315A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115357719A (zh) * | 2022-10-20 | 2022-11-18 | 国网天津市电力公司培训中心 | 基于改进bert模型的电力审计文本分类方法及装置 |
CN115936014A (zh) * | 2022-11-08 | 2023-04-07 | 上海栈略数据技术有限公司 | 一种医学实体对码方法、系统、计算机设备、存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270193A (zh) * | 2020-11-02 | 2021-01-26 | 重庆邮电大学 | 基于bert-flat的中文命名实体识别方法 |
CN112989834A (zh) * | 2021-04-15 | 2021-06-18 | 杭州一知智能科技有限公司 | 一种基于平格增强线性转换器的命名实体识别方法和系统 |
CN113010693A (zh) * | 2021-04-09 | 2021-06-22 | 大连民族大学 | 融合指针生成网络的知识图谱智能问答方法 |
CN113158653A (zh) * | 2021-04-25 | 2021-07-23 | 北京智源人工智能研究院 | 预训练语言模型的训练方法、应用方法、装置及设备 |
US20210240776A1 (en) * | 2020-02-04 | 2021-08-05 | Accenture Global Solutions Limited | Responding to user queries by context-based intelligent agents |
-
2021
- 2021-09-23 CN CN202111116935.2A patent/CN113836315A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210240776A1 (en) * | 2020-02-04 | 2021-08-05 | Accenture Global Solutions Limited | Responding to user queries by context-based intelligent agents |
CN112270193A (zh) * | 2020-11-02 | 2021-01-26 | 重庆邮电大学 | 基于bert-flat的中文命名实体识别方法 |
CN113010693A (zh) * | 2021-04-09 | 2021-06-22 | 大连民族大学 | 融合指针生成网络的知识图谱智能问答方法 |
CN112989834A (zh) * | 2021-04-15 | 2021-06-18 | 杭州一知智能科技有限公司 | 一种基于平格增强线性转换器的命名实体识别方法和系统 |
CN113158653A (zh) * | 2021-04-25 | 2021-07-23 | 北京智源人工智能研究院 | 预训练语言模型的训练方法、应用方法、装置及设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115357719A (zh) * | 2022-10-20 | 2022-11-18 | 国网天津市电力公司培训中心 | 基于改进bert模型的电力审计文本分类方法及装置 |
CN115936014A (zh) * | 2022-11-08 | 2023-04-07 | 上海栈略数据技术有限公司 | 一种医学实体对码方法、系统、计算机设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111694924B (zh) | 一种事件抽取方法和系统 | |
CN112801010A (zh) | 一种针对实际ocr场景下的视觉富文档信息抽取方法 | |
CN111160343B (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
CN108664474B (zh) | 一种基于深度学习的简历解析方法 | |
CN113836315A (zh) | 一种电力标准知识抽取系统 | |
CN115471851A (zh) | 融合双重注意力机制的缅甸语图像文本识别方法及装置 | |
CN112612871A (zh) | 一种基于序列生成模型的多事件检测方法 | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN112883693B (zh) | 一种自动生成电力工作票的方法及终端 | |
CN115310448A (zh) | 一种基于bert和字词向量结合的中文命名实体识别方法 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN112287093A (zh) | 基于半监督学习和Text-to-SQL模型的自动问答系统 | |
Shan et al. | Robust encoder-decoder learning framework towards offline handwritten mathematical expression recognition based on multi-scale deep neural network | |
CN114912453A (zh) | 基于增强序列特征的中文法律文书命名实体识别方法 | |
CN113065349A (zh) | 基于条件随机场的命名实体识别方法 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN116484848B (zh) | 一种基于nlp的文本实体识别方法 | |
CN114970537B (zh) | 基于多层标注策略的跨境民族文化实体关系抽取方法及装置 | |
CN112818117A (zh) | 标签映射方法、系统、计算机可读存储介质 | |
CN115906845B (zh) | 一种电商商品标题命名实体识别方法 | |
CN113590765B (zh) | 多模态信息融合广播电视新闻关键词与摘要联合抽取方法 | |
CN113139050B (zh) | 基于命名实体识别附加标签和先验知识的文本摘要生成方法 | |
CN114757191A (zh) | 基于深度学习的电力舆情领域命名实体识别方法系统 | |
CN114611489A (zh) | 文本逻辑条件抽取ai模型构建方法、抽取方法及系统 | |
CN112651241A (zh) | 一种基于半监督学习的汉语并列结构自动识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |