CN113139069A - 面向知识图谱构建的电力故障中文文本实体识别方法及系统 - Google Patents
面向知识图谱构建的电力故障中文文本实体识别方法及系统 Download PDFInfo
- Publication number
- CN113139069A CN113139069A CN202110526606.9A CN202110526606A CN113139069A CN 113139069 A CN113139069 A CN 113139069A CN 202110526606 A CN202110526606 A CN 202110526606A CN 113139069 A CN113139069 A CN 113139069A
- Authority
- CN
- China
- Prior art keywords
- model
- power failure
- entity
- chinese text
- weight parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 66
- 239000013598 vector Substances 0.000 claims abstract description 33
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 14
- 230000007547 defect Effects 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000000873 masking effect Effects 0.000 claims description 4
- 238000012423 maintenance Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Strategic Management (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种面向知识图谱构建的电力故障中文文本实体识别方法,其包括步骤:(1)标注作为训练样本的电力故障中文文本;(2)构建自注意网络双向编译表示模型,输入训练样本进行预训练,得第一模型权重参数;构建预训练用单一实体识别器,输入训练样本进行预训练,得第二模型权重参数;(3)构建识别模型,其包括:具有第一模型权重参数的自注意网络双向编译表示模型,若干个具有第二模型权重参数的识别用单一实体识别器,多类型实体识别器;(4)向识别模型输入待识别电力故障中文文本,由自注意网络双向编译表示模型转换为连续向量序列,各识别用单一实体识别器分别输出结果向量,拼接结果向量并输入多类型实体识别器,输出识别结果。
Description
技术领域
本发明涉及一种文本实体知识抽取方法,尤其涉及一种电力故障中文文本实体识别方法。
背景技术
近年来,随着市场和用户对于电网供电可靠性的需求日益增加,诸如变压器、气体绝缘开关柜(GIS)与电缆等电力设备的智能化运维越来越受到重视。然而,在现阶段中,电力设备运行维护的决策与执行大都依赖运维人员的经验积累和应变能力,各类操作规程、事故案例等大量文本形式的知识均需由运维人员进行反复记忆和查询,其过程繁琐且效率较低。因此,可以考虑引入一种知识图谱技术来弥补电力设备人工运维的不足。
知识图谱是一种基于人工智能技术的知识组织和构建方法,其能够有效解决电力设备运行维护中人工经验无法共享、执行效率低下、操作规范性难以确保的问题。
电力设备故障文本实体识别是构建电力设备案例知识图谱最重要、基础的步骤之一。因此,为了加强电力设备运行维护的智能化程度,必须首先对电力设备故障文本的实体识别。
电力设备故障文本实体识别任务致力于识别出电力设备案例文本中的各类实体,例如设备、故障类型、故障位置等,能够对案例文本进行有效的数据挖掘,快速找到案例文本中的重要信息并加以分析、辅助运维人员进行设备维护决策。这类任务具有样本格式不一致、文本篇幅长短不一、设备类型繁多、实体类别多等特点,另外中文文本中词语之间没有空格隔开加以区分,因此导致了中文电力设备案例实体识别具有准确度较低,训练效率低下等问题。另一方面,由于电力设备的种类有很多,不同的设备故障文本的实体类别也不尽相同,因此针对不同的电力设备实体识别任务,不得不对模型与样本的结构进行相应的改动,给这类任务的解决带来了诸多不便。
当前,实体识别技术在医疗、生物、金融等领域发展迅猛,实体识别技术在医疗等领域的应用,但是在电力工业领域尚处于起步阶段。虽然医疗等领域的实体识别技术在一定程度上可以为解决中文电力设备故障文本实体识别任务指明方向,但是由于电力设备故障文本自身前述的特殊性,其他领域的实体识别模型仍然难以直接应用在电力设备实体识别任务上。
基于此,本发明期望获得一种面向知识图谱构建的电力故障中文文本实体识别方法,该电力故障中文文本实体识别方法能够采用自注意网络双向编译表示模型(Bidirectional Encoder Representation from Transformers,BERT)将电力设备故障中文文本中的各个中文字符转化为计算机能够理解的低维连续向量序列,通过多个单一类型实体识别器分别识别出文本中各种类型的实体,最后利用多类型实体识别器整合各个单一实体识别器的结果,获得设备案例文本中各类实体的最终结果。
发明内容
本发明的目的之一在于提供一种面向知识图谱构建的电力故障中文文本实体识别方法,在本发明所述的电力故障中文文本实体识别方法中,本发明将自注意网络双向编译表示模型与单一实体识别器应用在电力故障文本的实体识别中,继而得到了一种准确率较高、训练效率更高、使用更加灵活的电力故障中文文本实体识别模型,通过该识别模型能够有效快速地识别出电力故障文本中各类实体,其可以有效辅助电力设备运维人员的运维决策。
根据上述发明目的,本发明提出了一种面向知识图谱构建的电力故障中文文本实体识别方法,其包括步骤:
(1)对作为训练样本的电力故障中文文本进行标注;
(2)构建自注意网络双向编译表示模型,输入所述训练样本对其进行预训练,以获得第一模型权重参数;构建预训练用单一实体识别器,输入所述训练样本对其进行预训练,以获得第二模型权重参数;
(3)构建识别模型,所述识别模型包括:具有第一模型权重参数的自注意网络双向编译表示模型,若干个具有第二模型权重参数的识别用单一实体识别器,以及多类型实体识别器;
(4)将经过标注的待识别电力故障中文文本输入所述识别模型,其中具有第一模型权重参数的自注意网络双向编译表示模型将待识别电力故障中文文本转换为连续向量序列,各所述识别用单一实体识别器基于输入其中的连续向量序列分别输出结果向量,该若干个结果向量被拼接后输入多类型实体识别器,所述多类型实体识别器输出识别结果。
进一步地,在本发明所述的电力故障中文文本实体识别方法中,在步骤(2)中,采用遮盖语言模型与预测后续序列分别对自注意网络双向编译表示模型进行预训练,以获得所述第一模型权重参数。
进一步地,在本发明所述的电力故障中文文本实体识别方法中,所述若干个识别用单一实体识别器至少包括缺陷类型识别器和缺陷位置识别器。
进一步地,在本发明所述的电力故障中文文本实体识别方法中,所述识别用单一实体识别器包括:双向长短时记忆网络、前馈神经网络以及条件随机场。
进一步地,在本发明所述的电力故障中文文本实体识别方法中,所述预训练用单一实体识别器包括:嵌入层、双向长短时记忆网络、前馈神经网络以及条件随机场。
进一步地,在本发明所述的电力故障中文文本实体识别方法中,所述多类型实体识别器包括:卷积神经网络、双向长短时记忆网络、前馈神经网络以及条件随机场。
相应地,本发明的另一目的在于获得一种面向知识图谱构建的电力故障中文文本实体识别系统,该电力故障中文文本实体识别系统可以用于实施本发明所述的电力故障中文文本实体识别方法。
为了实现上述发明目的,本发明提出了一种面向知识图谱构建的电力故障中文文本实体识别系统,其包括:
预训练用单一实体识别器;
识别模型,其包括:具有第一模型权重参数的自注意网络双向编译表示模型,若干个具有第二模型权重参数的识别用单一实体识别器,以及多类型实体识别器;
其中,第一模型权重参数基于下述步骤获得:对作为训练样本的电力故障中文文本进行标注;采用训练样本对自注意网络双向编译表示模型进行预训练,以获得第一模型权重参数;
其中,第二模型权重参数基于下述步骤获得:对作为训练样本的电力故障中文文本进行标注;采用训练样本对预训练用单一实体识别器进行预训练,以获得第二模型权重参数;
其中,将经过标注的待识别电力故障中文文本输入所述识别模型,其中具有第一模型权重参数的自注意网络双向编译表示模型将待识别电力故障中文文本转换为连续向量序列,各所述识别用单一实体识别器基于输入其中的连续向量序列分别输出结果向量,该若干个结果向量被拼接后输入多类型实体识别器,所述多类型实体识别器输出识别结果。
进一步地,在本发明所述的电力故障中文文本实体识别系统中,采用遮盖语言模型与预测后续序列分别对自注意网络双向编译表示模型进行预训练,以获得所述第一模型权重参数。
进一步地,在本发明所述的电力故障中文文本实体识别系统中,所述识别用单一实体识别器包括:双向长短时记忆网络、前馈神经网络以及条件随机场;并且/或者所述预训练用单一实体识别器包括:嵌入层、双向长短时记忆网络、前馈神经网络以及条件随机场。
进一步地,在本发明所述的电力故障中文文本实体识别系统中,所述多类型实体识别器包括:卷积神经网络、双向长短时记忆网络、前馈神经网络以及条件随机场。
本发明所述的面向知识图谱构建的电力故障中文文本实体识别方法及系统相较于现有技术具有如下所述的优点以及有益效果:
在本发明所述的面向知识图谱构建的电力故障中文文本实体识别方法中,该电力故障中文文本实体识别方法能够采用自注意网络双向编译表示模型将电力故障中文文本中的各个中文字符转化为计算机能够理解的低维连续向量序列,并通过多个识别用单一实体识别器分别识别出文本中各种类型的实体,最后利用多类型实体识别器整合各个识别用单一实体识别器的结果,最终获得设备案例文本中各类实体的最终结果。
由此可见,在本发明所述的电力故障中文文本实体识别方法中,本发明通过将自注意网络双向编译表示模型与单一实体识别器应用在电力故障中文文本的实体识别中,可以得到一种准确率较高、训练效率更高、使用更加灵活的电力故障中文文本实体识别模型,通过该识别模型能够有效快速地识别出电力故障文本中各类实体,其可以有效辅助电力设备运维人员的运维决策。
相应地,本发明所述的电力故障中文文本实体识别系统可以用于实施本发明上述的电力故障中文文本实体识别方法,其同样具有上述的优点以及有益效果。
附图说明
图1显示了本发明所述的电力故障中文文本实体识别方法在一种实施方式下对作为训练样本的电力故障中文文本进行实体识别的步骤流程示意图。
具体实施方式
下面将结合说明书附图和具体的实施例对本发明所述的面向知识图谱构建的电力故障中文文本实体识别方法及系统做进一步的解释和说明,然而该解释和说明并不对本发明的技术方案构成不当限定。
图1显示了本发明所述的电力故障中文文本实体识别方法在一种实施方式下对作为训练样本的电力故障中文文本进行实体识别的步骤流程示意图。
如图1所示,在本实施方式中,本发明所述的电力故障中文文本实体识别方法,可以包括如下步骤:
步骤(1):对作为训练样本的电力故障中文文本进行标注。
在本实施方式中,可以将电力故障中文文本中的每一个汉字都进行标注,将实体词语中的汉字标签由两部分组成由横杠分开,横杠前面的内容可以表示实体的类别,横杠后面的内容表示该汉字在实体中的位置。其中,B可以代表在实体的起始位置,I可以代表在实体的内部,E可以代表在实体的最后,O可以表示不属于任意实体的汉字字符,其标注方法可以如下述表1所示,其中TY代表电力设备缺陷类型、P代表电力设备缺陷位置。
表1示意性地显示了针对一种电力故障中文文本的标注方法。
表1.
步骤(2):构建自注意网络双向编译表示模型,输入所述训练样本对其进行预训练,以获得第一模型权重参数;构建预训练用单一实体识别器,输入训练样本对其进行预训练,以获得第二模型权重参数。
需要说明的是,在本实施方式中的步骤(2)中,可以先构建自注意网络双向编译表示模型(BERT),而后采用遮盖语言模型与预测后续序列分别对自注意网络双向编译表示模型进行预训练,以获得第一模型权重参数W1。
图1左下角处示意性地显示了本发明所述的自注意网络双向编译表示模型(BERT),为了进一步地说明本发明所述的BERT模型进行预训练获得第一模型权重参数的过程,可以进一步地参阅图1进行说明。
如图1所示,在本实施方式中,可以将训练样本的文本输入到BERT模型中(如图1所示),其中Ei(1≤i≤n)表示文本中第i个汉字,n表示文本字符长度;Ti(1≤i≤n)表示Ei相对应的字向量。通过此步骤,BERT能够将电力故障中文文本汉字序列转化为计算机能够理解的连续向量序列。在进行预训练前先在文本的最前方添加符号‘[CLS]’作为起始符(对应图1中的E[CLS]),将样本中两个句子之间用符号‘[SEP]’隔开作为分隔符(对应图1的E[SEP])。
相应地,在本实施方式中,可以优先对BERT模型进行MLM预训练,将训练样本中随机的15%的字(如Ej)(j=1,2,……N)用遮符号‘[MASK]’来代替,然后利用BERT模型去预测这个词是什么,其预测信息可从对应的输出端口获得(如Tj)(j=1,2,……N)。其次,对BERT模型进行NSP预训练,以此判断出输入训练样本中第二个句子从语法、语义上来是否是第一个句子的下半句,该预测信息可从图1中的“C”获得。由此,BERT模型进行预训练可以最终获得第一模型权重参数W1。
此外,本发明所述的电力故障中文文本实体识别方法的步骤(2)中,还需要构建预训练用单一实体识别器,并输入训练样本对其进行预训练,以获得第二模型权重参数W2。
需要说明的是,在本发明中,单一实体识别器只需识别出文本中的某一类型的实体即可,例如缺陷类型实体单一实体识别器只需识别出文本中的缺陷类型实体。因此,在对某一个预训练用单一实体识别器进行预训练时,需要将其他类型实体的标签用符号‘O’遮盖,随后利用处理好的训练样本对预训练用单一实体识别器进行预训练。例如:训练缺陷类型实体识别器时,仅需保留表1中以‘TY’开头的字符标签,其余标签全部用‘O’来代替。
如图1左上处所示,图1所示N表示为单一实体识别器的个数,其实际所需要的个数由实际工程问题所决定。
在本实施方式中,本发明所述的预训练用单一实体识别器可以包括:嵌入层、双向长短时记忆网络(BLSTM)、前馈神经网络(FNN)以及条件随机场(CRF)。其中,嵌入层为一个线性变换矩阵,其可以将训练样本中的中文文本汉字转化为连续向量序列;BLSTM可以对嵌入层输出的向量序列进行特征抽取,提取高质量的语义信息;FNN能够将向量序列维度进行变换使向量的维度与分类个数的维度相同;CRF则可以通过最大化输出序列的条件概率给出最终的预测结果。由此,预训练用单一实体识别器经预训练后,可以得到第二模型权重参数W2。
步骤(3):构建识别模型,所述识别模型包括:具有第一模型权重参数的自注意网络双向编译表示模型,若干个具有第二模型权重参数的识别用单一实体识别器,以及多类型实体识别器。
在本发明所述的步骤(3)中,可以将上述将步骤(2)中预训练得到的第一模型权重参数W1与第二模型权重参数W2导入到识别模型的相应位置,如图1所示,图1右侧示意性地显示了本发明的识别模型的结构。其中,识别模型的结构由下至上可以分为具有第一模型权重参数W1的自注意网络双向编译表示模型,若干个具有第二模型权重参数W2的识别用单一实体识别器,以及多类型实体识别器。其中,若干个识别用单一实体识别器的输出结果被拼接在一起,输入到多类型实体识别器中,输出得到识别结果。
需要说明的是,在本发明中,识别用单一实体识别器至少包括缺陷类型识别器和缺陷位置识别器,以用于针对缺陷类型和缺陷位置的识别。此外,不同于预训练用单一实体识别器的结构,本发明所述的识别用单一实体识别器并不包括嵌入层,其仅包括:双向长短时记忆网络(BLSTM)、前馈神经网络(FNN)以及条件随机场(CRF)。
相应地,在本发明中,多类型实体识别器的结构与识别用单一实体识别器的结构相似,多类型实体识别器的结构可以包括:卷积神经网络、双向长短时记忆网络、前馈神经网络以及条件随机场。其中,最下层的卷积神经网络(CNN)能够用来分析不同识别用单一实体识别器预测结果之间的关系。
步骤(4):将经过标注的待识别电力故障中文文本输入识别模型,其中具有第一模型权重参数的自注意网络双向编译表示模型将待识别电力故障中文文本转换为连续向量序列,各识别用单一实体识别器基于输入其中的连续向量序列分别输出结果向量,该若干个结果向量被拼接后输入多类型实体识别器,所述多类型实体识别器输出识别结果。
由此可见,结合上述步骤(1)-步骤(4)可以看出,本发明所述的电力故障中文文本实体识别方法已经具备实体抽取的能力,只需将电力故障中文文本直接输入到所述识别模型中即可得到最终的识别结果。
相应地,为了实施本发明上述电力故障中文文本实体识别方法的步骤(1)-步骤(4)流程,在本发明中,发明人还设计了一种电力故障中文文本实体识别系统,其可以用于实施上述步骤(1)-步骤(4)的流程。在本发明中,该电力故障中文文本实体识别系统可以包括:预训练用单一实体识别器和识别模型。其中识别模型可以包括:具有第一模型权重参数的自注意网络双向编译表示模型,若干个具有第二模型权重参数的识别用单一实体识别器,以及多类型实体识别器。
综上所述可以看出,在本发明所述的电力故障中文文本实体识别方法中,本发明将自注意网络双向编译表示模型与单一实体识别器应用在电力故障文本的实体识别中,得到了一种准确率较高、训练效率更高、使用更加灵活的电力故障中文文本实体识别模型,通过该识别模型能够有效快速地识别出电力故障文本中各类实体,其可以有效辅助电力设备运维人员的运维决策。
采用本发明所述的面向知识图谱构建的电力故障中文文本实体识别方法,可以挖掘出电力企业内部海量电力设备案例文本中的重要数据与知识,能够有效地辅助运维人员进行设备维护决策,提升电力设备运维智能化水平,其具有十分重要和有益的影响。
相应地,本发明所述的电力故障中文文本实体识别系统可以用于实施本发明上述的电力故障中文文本实体识别方法,其同样具有上述的优点以及有益效果。
需要说明的是,本发明的保护范围中现有技术部分并不局限于本申请文件所给出的实施例,所有不与本发明的方案相矛盾的现有技术,包括但不局限于在先专利文献、在先公开出版物,在先公开使用等等,都可纳入本发明的保护范围。
此外,本案中各技术特征的组合方式并不限本案权利要求中所记载的组合方式或是具体实施例所记载的组合方式,本案记载的所有技术特征可以以任何方式进行自由组合或结合,除非相互之间产生矛盾。
还需要注意的是,以上所列举的实施例仅为本发明的具体实施例。显然本发明不局限于以上实施例,随之做出的类似变化或变形是本领域技术人员能从本发明公开的内容直接得出或者很容易便联想到的,均应属于本发明的保护范围。
Claims (10)
1.一种面向知识图谱构建的电力故障中文文本实体识别方法,其特征在于,包括步骤:
(1)对作为训练样本的电力故障中文文本进行标注;
(2)构建自注意网络双向编译表示模型,输入所述训练样本对其进行预训练,以获得第一模型权重参数;构建预训练用单一实体识别器,输入所述训练样本对其进行预训练,以获得第二模型权重参数;
(3)构建识别模型,所述识别模型包括:具有第一模型权重参数的自注意网络双向编译表示模型,若干个具有第二模型权重参数的识别用单一实体识别器,以及多类型实体识别器;
(4)将经过标注的待识别电力故障中文文本输入所述识别模型,其中具有第一模型权重参数的自注意网络双向编译表示模型将待识别电力故障中文文本转换为连续向量序列,各所述识别用单一实体识别器基于输入其中的连续向量序列分别输出结果向量,该若干个结果向量被拼接后输入多类型实体识别器,所述多类型实体识别器输出识别结果。
2.如权利要求1所述的电力故障中文文本实体识别方法,其特征在于,在步骤(2)中,采用遮盖语言模型与预测后续序列分别对自注意网络双向编译表示模型进行预训练,以获得所述第一模型权重参数。
3.如权利要求1所述的电力故障中文文本实体识别方法,其特征在于,所述若干个识别用单一实体识别器至少包括缺陷类型识别器和缺陷位置识别器。
4.如权利要求1所述的电力故障中文文本实体识别方法,其特征在于,所述识别用单一实体识别器包括:双向长短时记忆网络、前馈神经网络以及条件随机场。
5.如权利要求1所述的电力故障中文文本实体识别方法,其特征在于,所述预训练用单一实体识别器包括:嵌入层、双向长短时记忆网络、前馈神经网络以及条件随机场。
6.如权利要求1所述的电力故障中文文本实体识别方法,其特征在于,所述多类型实体识别器包括:卷积神经网络、双向长短时记忆网络、前馈神经网络以及条件随机场。
7.一种面向知识图谱构建的电力故障中文文本实体识别系统,其特征在于,包括:
预训练用单一实体识别器;
识别模型,其包括:具有第一模型权重参数的自注意网络双向编译表示模型,若干个具有第二模型权重参数的识别用单一实体识别器,以及多类型实体识别器;
其中,第一模型权重参数基于下述步骤获得:对作为训练样本的电力故障中文文本进行标注;采用训练样本对自注意网络双向编译表示模型进行预训练,以获得第一模型权重参数;
其中,第二模型权重参数基于下述步骤获得:对作为训练样本的电力故障中文文本进行标注;采用训练样本对预训练用单一实体识别器进行预训练,以获得第二模型权重参数;
其中,将经过标注的待识别电力故障中文文本输入所述识别模型,其中具有第一模型权重参数的自注意网络双向编译表示模型将待识别电力故障中文文本转换为连续向量序列,各所述识别用单一实体识别器基于输入其中的连续向量序列分别输出结果向量,该若干个结果向量被拼接后输入多类型实体识别器,所述多类型实体识别器输出识别结果。
8.如权利要求7所述的电力故障中文文本实体识别系统,其特征在于,采用遮盖语言模型与预测后续序列分别对自注意网络双向编译表示模型进行预训练,以获得所述第一模型权重参数。
9.如权利要求7所述的电力故障中文文本实体识别系统,其特征在于,所述识别用单一实体识别器包括:双向长短时记忆网络、前馈神经网络以及条件随机场;并且/或者所述预训练用单一实体识别器包括:嵌入层、双向长短时记忆网络、前馈神经网络以及条件随机场。
10.如权利要求7所述的电力故障中文文本实体识别系统,其特征在于,所述多类型实体识别器包括:卷积神经网络、双向长短时记忆网络、前馈神经网络以及条件随机场。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110526606.9A CN113139069B (zh) | 2021-05-14 | 2021-05-14 | 一种文本实体识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110526606.9A CN113139069B (zh) | 2021-05-14 | 2021-05-14 | 一种文本实体识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113139069A true CN113139069A (zh) | 2021-07-20 |
CN113139069B CN113139069B (zh) | 2022-10-18 |
Family
ID=76817060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110526606.9A Active CN113139069B (zh) | 2021-05-14 | 2021-05-14 | 一种文本实体识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113139069B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761891A (zh) * | 2021-08-31 | 2021-12-07 | 国网冀北电力有限公司 | 电网文本数据实体识别方法、系统、设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147551A (zh) * | 2019-05-14 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 多类别实体识别模型训练、实体识别方法、服务器及终端 |
CN110232192A (zh) * | 2019-06-19 | 2019-09-13 | 中国电力科学研究院有限公司 | 电力术语命名实体识别方法及装置 |
CN111126068A (zh) * | 2019-12-25 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 一种中文命名实体识别方法和装置及电子设备 |
CN111291569A (zh) * | 2020-04-15 | 2020-06-16 | 智者四海(北京)技术有限公司 | 多类别实体识别模型的训练方法及装置 |
CN111382572A (zh) * | 2020-03-03 | 2020-07-07 | 北京香侬慧语科技有限责任公司 | 一种命名实体识别方法、装置、设备以及介质 |
CN112380866A (zh) * | 2020-11-25 | 2021-02-19 | 厦门市美亚柏科信息股份有限公司 | 一种文本话题标签生成方法、终端设备及存储介质 |
CN112613314A (zh) * | 2020-12-29 | 2021-04-06 | 国网江苏省电力有限公司信息通信分公司 | 基于bert模型的电力通信网络知识图谱构建方法 |
CN112632972A (zh) * | 2020-12-25 | 2021-04-09 | 浙江国际海运职业技术学院 | 一种电网设备故障报告内故障信息的快速提取方法 |
CN112733541A (zh) * | 2021-01-06 | 2021-04-30 | 重庆邮电大学 | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 |
-
2021
- 2021-05-14 CN CN202110526606.9A patent/CN113139069B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147551A (zh) * | 2019-05-14 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 多类别实体识别模型训练、实体识别方法、服务器及终端 |
CN110232192A (zh) * | 2019-06-19 | 2019-09-13 | 中国电力科学研究院有限公司 | 电力术语命名实体识别方法及装置 |
CN111126068A (zh) * | 2019-12-25 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 一种中文命名实体识别方法和装置及电子设备 |
CN111382572A (zh) * | 2020-03-03 | 2020-07-07 | 北京香侬慧语科技有限责任公司 | 一种命名实体识别方法、装置、设备以及介质 |
CN111291569A (zh) * | 2020-04-15 | 2020-06-16 | 智者四海(北京)技术有限公司 | 多类别实体识别模型的训练方法及装置 |
CN112380866A (zh) * | 2020-11-25 | 2021-02-19 | 厦门市美亚柏科信息股份有限公司 | 一种文本话题标签生成方法、终端设备及存储介质 |
CN112632972A (zh) * | 2020-12-25 | 2021-04-09 | 浙江国际海运职业技术学院 | 一种电网设备故障报告内故障信息的快速提取方法 |
CN112613314A (zh) * | 2020-12-29 | 2021-04-06 | 国网江苏省电力有限公司信息通信分公司 | 基于bert模型的电力通信网络知识图谱构建方法 |
CN112733541A (zh) * | 2021-01-06 | 2021-04-30 | 重庆邮电大学 | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761891A (zh) * | 2021-08-31 | 2021-12-07 | 国网冀北电力有限公司 | 电网文本数据实体识别方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113139069B (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489555B (zh) | 一种结合类词信息的语言模型预训练方法 | |
CN107273358B (zh) | 一种基于管道模式的端到端英文篇章结构自动分析方法 | |
CN111708882B (zh) | 基于Transformer的中文文本信息缺失的补全方法 | |
CN112101041B (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN111324744A (zh) | 一种基于目标情感分析数据集的数据增强方法 | |
CN110532558B (zh) | 一种基于句子结构深层解析的多意图识别方法及系统 | |
CN111753545A (zh) | 嵌套实体识别方法、装置、电子设备和存储介质 | |
CN112183064B (zh) | 基于多任务联合学习的文本情绪原因识别系统 | |
KR102043353B1 (ko) | 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN115599901B (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
CN111783461A (zh) | 一种基于句法依存关系的命名实体识别方法 | |
CN113723105A (zh) | 语义特征提取模型的训练方法、装置、设备及存储介质 | |
CN108536781B (zh) | 一种社交网络情绪焦点的挖掘方法及系统 | |
CN115168541A (zh) | 基于框架语义映射和类型感知的篇章事件抽取方法及系统 | |
CN115292463A (zh) | 一种基于信息抽取的联合多意图检测和重叠槽填充的方法 | |
CN112287093A (zh) | 基于半监督学习和Text-to-SQL模型的自动问答系统 | |
CN112364166A (zh) | 关系抽取模型的建立方法以及关系抽取方法 | |
CN115859164A (zh) | 一种基于prompt的建筑实体识别并分类方法及系统 | |
CN113139069B (zh) | 一种文本实体识别方法及系统 | |
CN114492460A (zh) | 基于衍生提示学习的事件因果关系抽取方法 | |
CN114595700A (zh) | 融合零代词与篇章信息的汉越神经机器翻译方法 | |
CN112633007B (zh) | 一种语义理解模型构建方法及装置、语义理解方法及装置 | |
CN113553853A (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN113065352B (zh) | 一种电网调度工作文本的操作内容识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |