CN117151117B - 电网轻量级非结构化文档内容自动识别方法、装置及介质 - Google Patents
电网轻量级非结构化文档内容自动识别方法、装置及介质 Download PDFInfo
- Publication number
- CN117151117B CN117151117B CN202311419469.4A CN202311419469A CN117151117B CN 117151117 B CN117151117 B CN 117151117B CN 202311419469 A CN202311419469 A CN 202311419469A CN 117151117 B CN117151117 B CN 117151117B
- Authority
- CN
- China
- Prior art keywords
- model
- power grid
- unstructured document
- content
- morphological
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 239000013598 vector Substances 0.000 claims abstract description 57
- 230000014509 gene expression Effects 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 230000000877 morphologic effect Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 27
- 238000012360 testing method Methods 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 20
- 239000003550 marker Substances 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 4
- 230000005465 channeling Effects 0.000 claims description 3
- 239000010410 layer Substances 0.000 description 16
- 239000011159 matrix material Substances 0.000 description 7
- 238000002372 labelling Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 101100533306 Mus musculus Setx gene Proteins 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明为电网轻量级非结构化文档内容自动识别方法、装置及介质,属于电网文档识别和处理的领域,针对现有模型无法对电网数据内容进行精准识别与提取的问题,采用技术方案如下:一种电网轻量级非结构化文档内容自动识别方法,包括如下步骤:建立PLM获得向量表达式;通过盒子事件提取关系构建BERE模型对向量表达式进行关系提取,获得实体之间的关系标签;建立few‑shot命名实体识别模型对向量表达式进行实体识别处理,获得实体标签;将实体标签和关系标签作为特征或上下文信息均添加到BERE模型和few‑shot命名实体识别模型的输入中。本申请能够实现文字形态组合性明确表示,内容精准识别,保证事件关系的一致性。
Description
技术领域
本发明属于电网文档识别和处理的领域,特别涉及一种电网轻量级非结构化文档内容自动识别方法、装置及介质。
背景技术
电网数据在电力行业中具有重要的地位和作用,作为电力系统的核心组成部分,电网数据可以用于实时监测、运行调度、故障诊断和优化决策等方面。轻量级非结构化文档内容自动识别是指通过自然语言处理技术,在样本数据有限的情况下,对非结构化文档进行自动化的内容识别和分类。在电网数据中,非结构化文档数据占据了一定量的比重,这些数据包含丰富的信息,但由于电网非结构化文档的信息复杂且资源受限,现有的模型无法对其内容进行精准的识别与提取,具体表现为:(1)现有的自然语言处理模型在捕捉形态组合性和表达词相关句法规律方面较为低效,且难以处理受中文多音字的影响导致的语义曲解问题;(2)作为一项序列标注任务,要求根据上下文和标签之间的依赖关系进行标签分配,现有处理模型不能有效处理与真实目标实体对应的O标记,导致在少样本学习中丢失许多有用特征;在少样本设置中,没有足够的样本组成验证集,降低了超参数调优的能力;(3)现有的事件关系抽取(ERE)框架将多个事件之间的关系提取视为多类分类任务,无法保证不同关系类型之间的一致性。
发明内容
针对现有模型无法对电网数据内容进行精准的识别与提取的问题,本发明提供一种电网轻量级非结构化文档内容自动识别方法、装置及介质,该方法能够实现明确表示文字形态组合性、精准识别电网轻量级非结构化文档中的内容、保证事件之间关系的一致性。
本发明采用技术方案如下:一种电网轻量级非结构化文档内容自动识别方法,包括如下步骤:
步骤1,通过建立PLM,获得包含语义信息的向量表达式;该PLM能够提取语句间的顺序关系,且能够对多音字进行消歧;
步骤2,通过盒子事件提取关系构建BERE模型,以便对步骤1获得包含语义信息的向量表达式进行关系提取,获得实体之间的关系标签;
步骤3,建立few-shot命名实体识别模型,对步骤1获得的包含语义信息的向量表达式进行实体识别处理,获得实体标签;
步骤4,通过整合实体和关系信息,将实体标签和关系标签作为特征或上下文信息均添加到BERE模型和few-shot命名实体识别模型的输入中,实现自动识别。
进一步地,步骤1的具体过程为:
步骤1.1,采用形态分析器对输入句子进行处理,获得带有标记的形态信息;
步骤1.2,通过两层transformer编码器处理获取到的形态信息,获得包含语义信息的向量表达式;其中,第一层transformer编码器为标记级的形态学编码器,第二层transformer编码器为句子/文档级别的编码器。
进一步地,步骤1.1中,利用形态分析器将句子中每组词素产生一个声韵、零或多个词缀,同时使得每个词素分配一个词性(POS)标签来提高消歧质量,以便考虑句法上下文。
进一步地,步骤1.2具体过程为:
步骤1.2.1,利用形态学编码器处理形态信息,以提取形态信息的形态学特征形成嵌入向量;
步骤1.2.2,利用句子/文档编码器处理嵌入向量,形成包含语义信息的向量表达式。
进一步地,步骤2具体步骤为:
步骤2.1,构建BOX,将一个句子中的两个事件进行关联,形成具有父子关系的盒子事件;
步骤2.2,定义条件概率推理,获得对称性约束。
例如给定事件e 2发生在事件e 1之后,表明e 2是e 1的子事件。盒子可以将这两个事件表示为独立的盒子,并通过使b 1包含盒子b 2来保留它们的语义,还可以推断它们反对称关系,即事件e 1是事件e 2的父事件。
步骤2.3,构建BCE损失函数以训练模型;
步骤2.4,通过输入步骤1获得包含语义信息的向量表达式,获得实体之间的关系标签。
进一步地,步骤3具体过程为:
步骤3.1,域源中构建模型:
步骤3.1.1,构建CONTAINER:
(a)构建标记嵌入表达式;
CONTAINER集成了双层BERT的PLM,使用PLM使CONTAINER能够利用大规模数据的预训练知识,并将其应用于特定的下游任务;这提供了更好的数据表示,有助于改进few-shot命名实体识别的性能;通过减小相似实体之间的嵌入距离,增加不相似实体之间的距离,CONTAINER能够更好地捕捉不同实体类别之间的差异,提高分类性能;
(b)通过投影网络将中间表示通道化,以生成标记嵌入;
步骤3.1.2,校准模型:
(a)定义有效标记对;
(b)根据KL散度计算对比损失;
此步骤利用对比学习来优化标记的嵌入,能够提高表示学习的质量,使得标记(token)的嵌入能够更好地捕捉数据中的关键信息和语义。
步骤3.2,训练模型:通过在源域中使用训练数据集来训练的模型;
步骤3.3,优化模型:手动标注的少量电网非结构化文档数据样本形成少样本支持集,使用少样本支持集微调模型,使其适应于目标域,所述目标域为电网非结构化文档;由于微调时只有少量样本,因此将它们放入单个批次中;若目标类别有多个少样本时,模型可以通过优化高斯嵌入的KL散度来有效适应新的领域;
步骤3.4,测试模型:采用现有的电网语料库或网上公开的数据集形成测试集,通过最近邻分类器在测试集中进行推理,以建立few-shot命名实体识别模型;
步骤3.5,输入需要识别的文档导入建好的few-shot模型中进行识别。
进一步地,步骤3.2具体过程为:
步骤3.2.1,源域中使用训练数据集来训练模型;
步骤3.2.2,为标记找到序列批次X内的正样本,并随后计算标记相对于批次中所有其他有效标记对的高斯嵌入损失,以计算批次中所有标记对的分布差异。
进一步地,步骤3.4中,对于测试数据集,得到PLM中间表示;将测试数据集中任一元素分配给在PLM表示空间中最接近的支持标记。
一种电网轻量级非结构化文档内容自动识别的装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述的电网轻量级非结构化文档内容自动识别方法。
一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现上述的电网轻量级非结构化文档内容自动识别方法。
本发明具有的有益效果:本申请为电网轻量级非结构化文档内容自动识别方法、装置及介质,通过建立PLM获得包含语义信息的向量表达式,通过盒子事件提取关系构建BERE模型,获得实体之间的关系标签,建立few-shot命名实体识别模型,进行实体识别处理,将实体标签和关系标签作为特征或上下文信息均添加到BERE模型和few-shot命名实体识别模型的输入中,实现自动识别。本申请能够实现文字形态组合性明确表示、电网轻量级非结构化文档中的内容精准识别,保证事件之间关系的一致性。
附图说明
图1为实施例1的流程图;
图2为双层BERT模型架构示意图;
图3为BOX模型的架构示意图;
图4为CONTAINER框架示意图;
图5为优化模型过程示意图;
图6为测试模型过程示意图。
具体实施方式
下面结合本发明的附图,对本发明实施例的技术方案进行解释和说明,但下述实施例仅为本发明的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其他实施例,都属于本发明的保护范围。
实施例1
本实施例的电网轻量级非结构化文档内容自动识别方法,流程图如图1所示,包括如下步骤:
步骤1,通过建立PLM,以上述文档数据作为输入,获得包含语义信息的向量表达式;
步骤1.1,采用形态分析器对输入句子进行处理,获得带有标记的形态信息:利用形态分析器将句子中每组词素产生一个声韵、零或多个词缀,同时使得每个词素分配一个词性标签来提高消歧质量,以便考虑句法上下文。
步骤1.2,如图2所示,通过两层transformer编码器处理获取到的形态信息,获得包含语义信息的向量表达式;其中,第一层transformer编码器为标记级的形态学编码器,利用形态学编码器处理形态信息,以提取形态信息的形态学特征形成嵌入向量;第二层transformer编码器为句子/文档级别的编码器,利用句子/文档编码器处理嵌入向量,形成包含语义向量表达式。
句子/文档编码器是一个标准的Transformer编码器,与其他BERT模型中使用的相同。构建PLM过程中使用双层transformer编码器,与传统的编码器相比,双层编码器能够提取语句间的顺序关系,并且能够对多音字进行消歧。
步骤2,通过盒子事件提取关系构建BERE模型,以便对步骤1获得包含语义信息的向量表达式进行关系提取,获得实体之间的关系标签;具体步骤为:
步骤2.1,构建BOX,将一个句子中的两个事件进行关联,形成具有父子关系的盒子事件;
步骤2.1.1,设任意两个盒子b i和盒子b j均为Gumbel盒子,定义盒子表达式为:
(1);
其中,盒子的总维度为d,b m,k<b M,k对于所有维度k都成立,k取值范围为1至d,,含义为b i 、b j是位于R d空间中的盒子,b m,k和b M,k分别为维度k下的最小端点和最大端点;
概率古贝尔盒(Gumbel盒子)中,这些最小和最大点分别取为独立的Gumbel-min和Gumbel-max的随机变量,最小和最大端点条件:盒子b i和bj都由一个d维向量表示,其中d是盒子的维度,盒子的每个维度都有最小端点和最大端点,并且对于每个维度k,都满足b m,k<b M,k。古贝尔分布条件:在概率古贝尔盒中,最小端点和最大端点被视为独立的随机变量,分别服从古贝尔最小值(gumbel-min)和古贝尔最大值(gumbel-max)分布。这意味着它们的值不是确定的,而是在一定的概率分布下随机生成。
步骤2.1.2,盒子b i和盒子b j的体积和交集可以表示为:
(2);
(3);
其中,函数,β是温度参数,是一个超参数,γ是欧拉常数;表示盒子b i维度k下的最小端点,/>表示盒子b j维度k下的最小端点,/>表示盒子b i维度k下的最大端点,/>盒子b j维度k下的最大端点;Vol(box)为盒子体积公式;/>为盒子b i和盒子b j的交集公式;
步骤2.2,定义条件概率推理:
用r(e i,e j)表示事件e i、e j之间的关系,设定阈值δ,根据条件概率定义P(b i|b j)和P(b j|b i)的表达式:
(4);
(5);
式中,为盒子b i和盒子b j交集的体积,Vol(b j)为盒子b j的体积,Vol(b i)为盒子b j的体积;
通过将和/>的值分别与阈值δ进行比较,获得如下关系:
(a)包含关系:若,则盒子b j包含在b i中;若,则盒子b i包含在b j中;
b i和b j是将事件e i和e j编码为R d中的盒子;
(b)不包含关系:若、/>均大于等于δ,则盒子b i和b j重叠但互不包含;若/>、/>均小于δ,则盒子b i和b j不重叠;
通过这个公式,满足了所需的对称性约束,即r(e i,e j)=父子关系r(e j,e i)=子父关系。例如给定事件e 2发生在事件e 1之后,表明e 2是e 1的子事件。盒子可以将这两个事件表示为独立的盒子,并通过使b 1包含盒子b 2来保留它们的语义,还可以推断它们反对称关系,即事件e 1是事件e 2的父事件。
步骤2.3,构建BCE损失函数以训练模型:
BCE损失函数如下:
(6);
(7);
(8);
批次B是一组数据样本的集合,是BERE模型训练或评估的一部分;这组数据样本包括一对事件(e i,e j)以及与该对事件相关的标签和概率值,其作用是定义在批次B数据样本上计算损失函数的范围;在这批数据样本上,将使用所描述的损失函数进行计算,该损失函数用于衡量BERE模型的性能和训练模型;
式中,L 1为BCE损失函数,y 0 (i,j)、y 1 (i,j)分别为两个标签空间;ln(·)表示以e为底的自然对数函数;I(·)表示指示函数,盒子b i、b j是将事件e i和e j编码为R d中的盒子,δ为阈值;若大于等于阈值δ,那么y 0 (i,j)被设置为1,否则为0;若/>大于等于阈值δ,那么y 1 (i,j)被设置为1,否则为0;为了方便表示,使用二维二元变量作为标签空间,在两个标量维度下使用/>和/>对r(e i,e j)进行评估;
步骤2.4,通过输入步骤1获得包含语义信息的向量表达式,获得实体之间的关系标签。
构建盒子过程如图3所示,图3中的(A)可以看出构建盒子将三个事件进行关联,事件e1为发生了暴风雨、事件e2为电力停电、事件e3为机器不能运转,经关联后可知事件e1在事件e2、事件e3之前,事件e2在事件e3之前;图3中的(B)可以看出盒子具有四种关系:父子关系、子父关系、同指关系和模糊关系;图3中的(C)可以看出BERE模型和传统VECTOR模型之间的根本区别:BERE模型将把事件映射到一致的盒子表示中,无论顺序如何;VECTOR模型分别处理两种情况,无法保持逻辑一致性。
步骤3,建立few-shot命名实体识别模型,对步骤1获得的包含语义信息的向量表达式进行实体识别处理,获得实体标签:
步骤3.1,域源中构建模型:
步骤3.1.1,构建CONTAINER:
(a)构建标记嵌入表达式:
给定包含n个标记的序列[x 1,x 2,...,x n],并将步骤1构建PLM的输出作为中间表示h t:
(9)
其中,t取值范围为1至n,,l ’表示中间表示的纬度;h t是PLM模型对输入标记x t的编码,即标记嵌入,其中文本被切分成的基本单元叫做标记;在给定的文本序列中,PLM(Pretrained Language Model)输出的结构通常是一个张量,其中包含了与输入文本序列中的每个标记相关的表示。这个张量的结构通常是一个形状为[v,d]的矩阵,其中:v是文本序列中标记的数量,也就是序列长度;d是每个标记的隐藏层表示的维度,通常是一个固定的数字,取决于具体的语言模型,例如BERT的隐藏层表示通常是768维。
CONTAINER集成了双层BERT的PLM,使用PLM使CONTAINER能够利用大规模数据的预训练知识,并将其应用于特定的下游任务;这提供了更好的数据表示,有助于改进few-shot命名实体识别的性能;通过减小相似实体之间的嵌入距离,增加不相似实体之间的距离,CONTAINER能够更好地捕捉不同实体类别之间的差异,提高分类性能。
(b)通过投影网络将中间表示通道化,以生成标记嵌入:
设标记嵌入h t遵循高斯分布,使用投影网络f µ和f Σ生成高斯分布的参数:
(10);
其中,、/>分别表示高斯嵌入的均值和对角协方差;l表示高斯分布的纬度;该投影层网络为f µ和f Σ通过ReLU接一个单层网络来实现;ELU代表指数线性单元;ϵ≈e-14用于数值稳定性;
步骤3.1.2,校准模型:
(a)定义有效标记对:
命名实体识别旨在将每个标记x t分配给其对应的标签y t;任意两个标记x p和x q的标签分别为y p和y q,若标签值相同,即y p=y q,则将两个标记x p和x q视为正样本,并将两个标记x p和x q及其对应的标签y p和y q称为有效标记对;其中p和q取值范围为1至n,表示两个标记x p和x q为序列[x 1,x 2,...,x n]中任意两个标记;
(b)根据KL散度计算对比损失:
给定高斯嵌入N(µ p,Σp)和N(µ q,Σq),计算两个标记x p和x q的KL散度如下:
(11);
其中,Tr(.)表示矩阵的迹,N(µ p,Σp)表示标记x p的高斯嵌入公式,µ p表示x p高斯嵌入的均值矩阵,Σp表示x p高斯嵌入的对角协方差矩阵,表示Σp的可逆矩阵,N(µ q,Σq)表示标记x q的高斯嵌入公式,µ q表示x q高斯嵌入的均值矩阵,Σq表示x q高斯嵌入的对角协方差矩阵;l表示高斯分布的纬度;
由于KL散度不是对称的,所以需要计算KL散度的两个方向,通过以下公式校准:
(12);
式中,d(p,q)表示校准结果;
此步骤利用对比学习来优化标记的嵌入,能够提高表示学习的质量,使得标记(token)的嵌入能够更好地捕捉数据中的关键信息和语义。
步骤3.2,训练模型:通过在源域中使用训练数据集X tr来训练的模型;具体过程为:
步骤3.2.1,源域中使用训练数据集X tr来训练模型:
将现有的电网语料库或网上公开的数据集形成训练集X tr,在每个训练步骤中,从训练数据集X tr中随机不重复抽取一个批次大小为S的序列批次X,即,对于每个样本,通过将相应的标记序列传递给CONTAINER模型来获得其高斯嵌入N(µ s,Σs);
步骤3.2.2,为标记u找到序列批次X内的正样本X u,并随后计算标记x u相对于批次中所有其他有效标记对的高斯嵌入损失,以计算批次X中所有标记对的分布差异。高斯嵌入对比学习的CONTAINER框架如图4所示,例如输入句子“Tom Johnson was born in 1961”,使用训练标签PER和DATE在源域中进行训练:将Tom和Johnson打上标签PER,通过PLM生成中间表示;将1961打上标签DATE,通过PLM生成中间表示;was、born和in打上O标签,通过PLM生成中间表示;CONTAINER使相同标签的中间表示聚集,非相同标签的中间表示分散,使得实体识别的结果更加准确。
步骤3.3,优化模型:
手动标注的少量电网非结构化文档数据样本形成少样本支持集X sup,该支持集中具有K个标记,使用少样本支持集微调模型,使其适应于目标域,所述目标域为电网非结构化文档;对于每个支持标记及其标签的PLM中间表示为h a sup;x a sup为支持标记,y a sup为x a sup的标签,a取值为1至K;
由于微调时只有少量样本,因此将它们放入单个批次中;若目标类别有多个少样本时,模型可以通过优化高斯嵌入的KL散度来有效适应新的领域;
如图5所示,通过最近邻支持集标签为测试样本分配标签,例如输入句子“Byd wasfounded in China”使用目标标签ORG和LOCATION进行优化,将Byd打上标签ORG,通过PLM生成中间表示;将China打上标签LOCATION,通过PLM生成中间表示;将was、founded和in打上O标签,通过PLM生成中间表示;CONTAINER使相同标签的中间表示聚集,非相同标签的中间表示分散。
步骤3.4,测试模型:采用现有的电网语料库或网上公开的数据集形成测试集X test,该测试集中具有M个标记,通过最近邻分类器在测试集X test中进行推理,以建立few-shot命名实体识别模型:对于测试数据集X test,得到PLM中间表示h b test,其中;将x b test分配给在PLM表示空间中最接近的支持标记,即:
(15);
式中,表示在支持数据集/>中遍历每一个数据实例和它对应的标签,/>表示两个中间表示之间的欧几里得距离的平方值。
投影网络的投影层之前的表示实际上包含了比最终输出的表示更多的信息,因此在测试模型时不使用投影层,这有助于性能的提升。模型通过PLM计算测试数据的表示,并在推断过程中找到最近邻的支持集;根据PLM表示空间中最接近的支持标记来为测试数据分配标签,这样可以利用支持数据的标签信息来进行推断。
图6所示,通过最近邻支持集标签为测试样本分配标签,例如输入句子“Nvidialaunches RTX series GPUs”使用目标标签ORG和LOCATION进行测试,将Nvidia打上标签ORG,通过PLM生成中间表示;将GPUs打上标签LOCATION,通过PLM生成中间表示;将launches、RTX和series打上O标签,通过PLM生成中间表示;通过最近邻分类器对中间表示执行Few-Shot命名实体识别。
步骤3.5,输入需要识别的文档导入建好的few-shot模型中进行识别。
步骤4,通过整合实体和关系信息,将实体标签和关系标签作为特征或上下文信息均添加到BERE模型和few-shot命名实体识别模型的输入中,实现自动识别。
实施例2
一种电网轻量级非结构化文档内容自动识别的装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现实施例1所述的电网轻量级非结构化文档内容自动识别方法。
实施例3
一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现实施例1所述的电网轻量级非结构化文档内容自动识别方法。
应用例
本实施例采用软件Python来处理。电网数据文档包含以下信息:变电站名称、位置、运行状态、供电范围、异常事件报告、线路故障、保护设备状态等。且文档的结构并不固定,有些是日常巡检报告,有些则是事故分析报告,还有些是设备维护记录等。例如:
文档1,“2023年某月某日,A变电站,运行正常,供电范围覆盖全区,无异常事件。”
文档2,“2023年某月某日,B变电站,线路故障报告,影响西部供电,故障已定位于10号线路,预计3小时内修复完成。”
文档3,“保护设备:断路器A1,位置:C变电站,状态:待维护。”
本实施例的电网轻量级非结构化文档内容自动识别方法,包括如下步骤:
步骤1,通过建立PLM,以上述文档数据作为输入,获得包含语义信息的向量表达式;
处理文档1时,对于“2023年某月某日”,输出一个768维的向量,其包括表达式为[0.85, -0.23, 0.47,……]的向量;
对于“A变电站,运行正常”,为“A变电站”和“运行正常”各输出一个768维的向量,其包括表达式为[0.12, -0.87, 0.48,……]的向量,这些向量通过数字或数字的顺序关系反映每个分词的固有意义,能够识别出“A变电站”与“运行正常”之间正常的顺序关系。
对于“供电范围覆盖全区” ,为“供电范围”、“覆盖”和“全区”各输出一个768维的向量,其包括表达式为[-0.56, 0.92, -0.33,……]的向量;
对于“无异常事件”,模型输出一个768维的向量。
处理文档2时,对于“2023年某月某日”,输出一个768维的向量,其包括表达式为[0.77, 0.23, -0.62,……]的向量;
对于“B变电站,线路故障报告”,并为“B变电站”、“线路故障”和“报告”各输出一个768维的向量,其包括表达式为[0.91, -0.14, 0.38,……]的向量,这些向量通过数字或数字的顺序关系反映每个分词的固有意义;
对于“影响西部供电”,并为“影响”、“西部”和“供电”各输出一个768维的向量;
对于“故障已定位于10号线路”,并为“故障”,“已”,“定位于”和“十号线路”各输出一个768维的向量;
对于“预计3小时内修复完成” 并为“预计”,“3小时内”和“修复完成”各输出一个768维的向量。
处理文档3时,对于“保护设备:断路器A1”, 并为“保护设备”和“断路器A1” 各输出一个768维的向量,其包括表达式为[-0.44, -0.89, 0.11……]的向量;
对于“位置:C变电站” ,并为“位置”和“C变电站”各输出一个768维的向量;
对于“状态:待维护” 并为“状态”和“待维护”各输出一个768维的向量。
步骤2,通过盒子事件提取关系构建BERE模型,以便对步骤1获得包含语义信息的向量表达式进行关系提取,获得实体之间的关系标签;
处理文档1时,根据前述过程获得的向量表达式,获得“A变电站”和 "运行正常”的关系标签“设备状态” ;
处理文档2时,根据前述过程获得的向量表达式,获得“B变电站"和 “10号线路"的关系标签是“故障位置”;
处理文档3时,根据前述过程获得的向量表达式,获得“断路器A1”和“C变电站”的关系标签是“设备位置”,获得“断路器A1”和“待维护”的关系标签是“设备状态”。
步骤3,使用few-shot命名实体识别模型,对步骤1中的向量表达式进行处理;
处理文档1时,识别出实体1:“A变电站”,标签为“地点”,实体2:“运行正常”,标签为“状态”;
处理文档2时,识别出实体1:“B变电站”,标签为“地点”,实体2:“10号线路”,标签为“设备”。
处理文档3时,识别出实体1:“断路器A1”,标签为“设备”,实体2:“C变电站”,标签为“地点”,实体3:“待维护”,标签为“状态”。
步骤4,通过整合实体和关系信息,将实体标签和关系标签作为特征或上下文信息均添加到BERE模型和few-shot命名实体识别模型的输入中,实现自动识别。
处理文档1时,获得实体 “A变电站”,标签为“地点”,实体“运行正常”,标签为“状态”;“A变电站"和 “运行正常"的关系:“设备状态”。
处理文档2时,获得实体“B变电站”,标签为“地点”,实体“10号线路”,标签为“设备”;“B变电站”和 “10号线路”的关系: “故障位置”。
处理文档3时,获得实体 “断路器A1”,标签为“设备”,实体 “C变电站”,标签为“地点”,实体3:“待维护”,标签为“状态”;“断路器A1”和 “C变电站”的关系:“设备位置”,“断路器A1”和“待维护”的关系:“设备状态”。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,熟悉该领域的技术人员应该明白本发明包括但不限于附图和上面具体实施方式中描述的内容。任何不偏离本发明的功能和结构原理的修改都将包括在权利要求的范围中。
Claims (7)
1.一种电网轻量级非结构化文档内容自动识别方法,其特征在于,包括如下步骤:
步骤1,通过建立PLM,获得包含语义信息的向量表达式;具体过程为:
步骤1.1,采用形态分析器对输入句子进行处理,获得带有标记的形态信息;
步骤1.2,通过两层transformer编码器处理获取到的形态信息,获得包含语义信息的向量表达式;其中,第一层transformer编码器为标记级的形态学编码器,第二层transformer编码器为句子/文档级别的编码器;
步骤2,通过盒子事件提取关系构建BERE模型,以便对步骤1获得包含语义信息的向量表达式进行关系提取,获得实体之间的关系标签;具体步骤为:
步骤2.1,构建BOX,将一个句子中的两个事件进行关联,形成具有父子关系的盒子事件;
步骤2.2,定义条件概率推理,获得对称性约束;
步骤2.3,构建BCE损失函数以训练模型;
步骤2.4,通过输入步骤1获得包含语义信息的向量表达式,获得实体之间的关系标签;
步骤3,建立few-shot命名实体识别模型,对步骤1获得的包含语义信息的向量表达式进行实体识别处理,获得实体标签;具体过程为:
步骤3.1,域源中构建模型:
步骤3.1.1,构建CONTAINER:
(a)构建标记嵌入表达式;
(b)通过投影网络将中间表示通道化,以生成标记嵌入,用于将文本数据转化为计算机可以理解和处理的形式,以便进行之后的few-shot命名实体识别;
步骤3.1.2,校准模型:
(a)定义有效标记对;
(b)根据KL散度计算对比损失,以校准模型;
步骤3.2,训练模型:通过在源域中使用训练数据集来训练模型;
步骤3.3,优化模型:手动标注的少量电网非结构化文档数据样本形成少样本支持集,使用少样本支持集微调模型,使其适应于目标域,所述目标域为电网非结构化文档;
步骤3.4,测试模型:采用现有的电网语料库或网上公开的数据集形成测试集,通过最近邻分类器在测试集中进行推理,以建立few-shot命名实体识别模型;
步骤3.5,输入需要识别的文档导入建好的few-shot模型中进行识别;
步骤4,通过整合实体和关系信息,将实体标签和关系标签作为特征或上下文信息均添加到BERE模型和few-shot命名实体识别模型的输入中,实现自动识别。
2.根据权利要求1所述的电网轻量级非结构化文档内容自动识别方法,其特征在于,步骤1.1中,利用形态分析器将句子中每组词素产生一个声韵、零或多个词缀,同时使得每个词素分配一个词性标签。
3.根据权利要求1所述的电网轻量级非结构化文档内容自动识别方法,其特征在于,步骤1.2具体过程为:
步骤1.2.1,利用形态学编码器处理形态信息,以提取形态信息的形态学特征形成嵌入向量;
步骤1.2.2,利用句子/文档编码器处理嵌入向量,形成包含语义信息的向量表达式。
4.根据权利要求1所述的电网轻量级非结构化文档内容自动识别方法,其特征在于,步骤3.2具体过程为:
步骤3.2.1,源域中使用训练数据集来训练模型;
步骤3.2.2,为标记找到序列批次内的正样本,并随后计算标记相对于批次中所有其他有效标记对的高斯嵌入损失,以计算批次中所有标记对的分布差异。
5.根据权利要求1所述的电网轻量级非结构化文档内容自动识别方法,其特征在于,步骤3.4中,对于测试数据集,得到PLM中间表示,将测试数据集中任一元素分配给在PLM表示空间中最接近的支持标记。
6.一种电网轻量级非结构化文档内容自动识别的装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-5中任一项所述的电网轻量级非结构化文档内容自动识别方法。
7.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1-5中任一项所述的电网轻量级非结构化文档内容自动识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311419469.4A CN117151117B (zh) | 2023-10-30 | 2023-10-30 | 电网轻量级非结构化文档内容自动识别方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311419469.4A CN117151117B (zh) | 2023-10-30 | 2023-10-30 | 电网轻量级非结构化文档内容自动识别方法、装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117151117A CN117151117A (zh) | 2023-12-01 |
CN117151117B true CN117151117B (zh) | 2024-03-01 |
Family
ID=88884809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311419469.4A Active CN117151117B (zh) | 2023-10-30 | 2023-10-30 | 电网轻量级非结构化文档内容自动识别方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117151117B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613314A (zh) * | 2020-12-29 | 2021-04-06 | 国网江苏省电力有限公司信息通信分公司 | 基于bert模型的电力通信网络知识图谱构建方法 |
CN112765985A (zh) * | 2021-01-13 | 2021-05-07 | 中国科学技术信息研究所 | 一种面向特定领域专利实施例的命名实体识别方法 |
CN113869055A (zh) * | 2021-10-13 | 2021-12-31 | 天津大学 | 基于深度学习的电网项目特征属性识别方法 |
CN115269857A (zh) * | 2022-04-28 | 2022-11-01 | 东北林业大学 | 一种基于文档关系抽取的知识图谱构建方法和装置 |
CN115577678A (zh) * | 2022-09-21 | 2023-01-06 | 中国人民解放军海军工程大学 | 文档级事件因果关系识别方法、系统、介质、设备及终端 |
CN115730602A (zh) * | 2022-11-23 | 2023-03-03 | 中国人民解放军国防科技大学 | 文本关键要素抽取方法、系统、存储介质和电子设备 |
US11615247B1 (en) * | 2022-04-24 | 2023-03-28 | Zhejiang Lab | Labeling method and apparatus for named entity recognition of legal instrument |
CN115906846A (zh) * | 2022-11-10 | 2023-04-04 | 山西大学 | 一种基于双图的层次特征融合的文档级命名实体识别方法 |
CN115934948A (zh) * | 2022-12-28 | 2023-04-07 | 湖南大学 | 一种基于知识增强的药物实体关系联合抽取方法及系统 |
CN116028595A (zh) * | 2023-01-17 | 2023-04-28 | 国网甘肃省电力公司信息通信公司 | 一种基于非结构化文档内容的自动识别方法 |
WO2023092960A1 (zh) * | 2022-04-24 | 2023-06-01 | 之江实验室 | 一种用于法律文书的命名实体识别的标注方法和装置 |
CN116610818A (zh) * | 2023-06-05 | 2023-08-18 | 南京南瑞信息通信科技有限公司 | 一种输变电工程项目知识库的构建方法及系统 |
CN116629266A (zh) * | 2023-05-24 | 2023-08-22 | 南京理工大学 | 面向小样本的文本命名实体识别方法 |
CN116720497A (zh) * | 2023-06-09 | 2023-09-08 | 国网吉林省电力有限公司信息通信公司 | 一种基于语义分析的电网文档关联性层级分析方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7672833B2 (en) * | 2005-09-22 | 2010-03-02 | Fair Isaac Corporation | Method and apparatus for automatic entity disambiguation |
US10303999B2 (en) * | 2011-02-22 | 2019-05-28 | Refinitiv Us Organization Llc | Machine learning-based relationship association and related discovery and search engines |
US20220164683A1 (en) * | 2020-11-25 | 2022-05-26 | Fmr Llc | Generating a domain-specific knowledge graph from unstructured computer text |
US12086172B2 (en) * | 2021-10-13 | 2024-09-10 | Dell Products L.P. | Determining named entities associated with aspect terms extracted from documents having unstructured text data |
-
2023
- 2023-10-30 CN CN202311419469.4A patent/CN117151117B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613314A (zh) * | 2020-12-29 | 2021-04-06 | 国网江苏省电力有限公司信息通信分公司 | 基于bert模型的电力通信网络知识图谱构建方法 |
CN112765985A (zh) * | 2021-01-13 | 2021-05-07 | 中国科学技术信息研究所 | 一种面向特定领域专利实施例的命名实体识别方法 |
CN113869055A (zh) * | 2021-10-13 | 2021-12-31 | 天津大学 | 基于深度学习的电网项目特征属性识别方法 |
US11615247B1 (en) * | 2022-04-24 | 2023-03-28 | Zhejiang Lab | Labeling method and apparatus for named entity recognition of legal instrument |
WO2023092960A1 (zh) * | 2022-04-24 | 2023-06-01 | 之江实验室 | 一种用于法律文书的命名实体识别的标注方法和装置 |
CN115269857A (zh) * | 2022-04-28 | 2022-11-01 | 东北林业大学 | 一种基于文档关系抽取的知识图谱构建方法和装置 |
CN115577678A (zh) * | 2022-09-21 | 2023-01-06 | 中国人民解放军海军工程大学 | 文档级事件因果关系识别方法、系统、介质、设备及终端 |
CN115906846A (zh) * | 2022-11-10 | 2023-04-04 | 山西大学 | 一种基于双图的层次特征融合的文档级命名实体识别方法 |
CN115730602A (zh) * | 2022-11-23 | 2023-03-03 | 中国人民解放军国防科技大学 | 文本关键要素抽取方法、系统、存储介质和电子设备 |
CN115934948A (zh) * | 2022-12-28 | 2023-04-07 | 湖南大学 | 一种基于知识增强的药物实体关系联合抽取方法及系统 |
CN116028595A (zh) * | 2023-01-17 | 2023-04-28 | 国网甘肃省电力公司信息通信公司 | 一种基于非结构化文档内容的自动识别方法 |
CN116629266A (zh) * | 2023-05-24 | 2023-08-22 | 南京理工大学 | 面向小样本的文本命名实体识别方法 |
CN116610818A (zh) * | 2023-06-05 | 2023-08-18 | 南京南瑞信息通信科技有限公司 | 一种输变电工程项目知识库的构建方法及系统 |
CN116720497A (zh) * | 2023-06-09 | 2023-09-08 | 国网吉林省电力有限公司信息通信公司 | 一种基于语义分析的电网文档关联性层级分析方法及系统 |
Non-Patent Citations (4)
Title |
---|
"基于层次化表示的电力文本命名实体识别和匹配算法";杨政等;《计算机与现代化》(第05期);全文 * |
"注入图情领域知识的命名实体识别模型";王娟等;《图书馆论坛》;第43卷(第07期);全文 * |
Gargouri, F (Gargouri, Faiez) ."Detecting Hidden Structures from Arabic Electronic Documents: Application to the Legal Field".《2016 IEEE/ACIS 14th International Conference on Software Engineering Research, Management and Application (SERA)》.2016,全文. * |
Mezghanni, IB (Mezghanni, Imen Bouaziz) * |
Also Published As
Publication number | Publication date |
---|---|
CN117151117A (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111881983B (zh) | 基于分类模型的数据处理方法、装置、电子设备及介质 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN106611375A (zh) | 一种基于文本分析的信用风险评估方法及装置 | |
CN114297394B (zh) | 对文本中的事件论元进行抽取的方法和电子设备 | |
CN110162478B (zh) | 一种基于缺陷报告的缺陷代码路径定位方法 | |
CN111091004B (zh) | 一种语句实体标注模型的训练方法、训练装置及电子设备 | |
WO2023000725A1 (zh) | 电力计量的命名实体识别方法、装置和计算机设备 | |
CN112632993A (zh) | 一种基于卷积注意力网络的电力计量实体识别模型的分类方法 | |
CN112883714A (zh) | 基于依赖图卷积和迁移学习的absc任务句法约束方法 | |
CN114969334B (zh) | 异常日志检测方法、装置、电子设备及可读存储介质 | |
CN117112782A (zh) | 一种招标公告信息提取方法 | |
Li et al. | Do pre-trained language models indeed understand software engineering tasks? | |
CN117707922A (zh) | 测试用例的生成方法、装置、终端设备和可读存储介质 | |
CN117727043A (zh) | 信息重构模型的训练、图像检索方法、装置及设备 | |
CN117151117B (zh) | 电网轻量级非结构化文档内容自动识别方法、装置及介质 | |
CN114330350B (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
CN116341533A (zh) | 基于因果干涉的提示去偏事件论元抽取方法 | |
Jubair et al. | A multi‐agent K‐means with case‐based reasoning for an automated quality assessment of software requirement specification | |
CN113779256A (zh) | 一种文件审核方法及系统 | |
Chao et al. | Research on Test Case Generation Method of Airborne Software Based on NLP. | |
CN118246032B (zh) | 云erp系统安全评价方法、系统、计算机设备及存储介质 | |
Xing et al. | Tracing influence at scale: A contrastive learning approach to linking public comments and regulator responses | |
Cao et al. | Power entity identification method in cloud environment | |
CN116739602A (zh) | 一种基于多模型融合的可疑电子票据预测方法 | |
Jakob et al. | Classifying Sustainability Reports Using Companies Self-Assessments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |