CN117520802B - 一种电力工程现场轻量级审计事件识别方法、系统及设备 - Google Patents
一种电力工程现场轻量级审计事件识别方法、系统及设备 Download PDFInfo
- Publication number
- CN117520802B CN117520802B CN202410021076.6A CN202410021076A CN117520802B CN 117520802 B CN117520802 B CN 117520802B CN 202410021076 A CN202410021076 A CN 202410021076A CN 117520802 B CN117520802 B CN 117520802B
- Authority
- CN
- China
- Prior art keywords
- power engineering
- electric power
- audit
- text
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012550 audit Methods 0.000 title claims abstract description 209
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000007246 mechanism Effects 0.000 claims abstract description 36
- 238000013528 artificial neural network Methods 0.000 claims abstract description 31
- 230000004044 response Effects 0.000 claims abstract description 20
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 85
- 239000011159 matrix material Substances 0.000 claims description 63
- 238000000354 decomposition reaction Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 18
- 238000009966 trimming Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 abstract description 29
- 230000006835 compression Effects 0.000 abstract description 29
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000001502 supplementing effect Effects 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 23
- 238000012360 testing method Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0495—Quantised networks; Sparse networks; Compressed networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Public Health (AREA)
- Probability & Statistics with Applications (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明属于智能电力信息处理领域,提供了一种电力工程现场轻量级审计事件识别方法、系统及设备,利用BERT模型解决电力审计场景下的特定文本识别任务,引入稀疏注意力机制和低秩前馈神经网络对BERT模型进行压缩,从而提升BERT模型对电力工程审计文本事件识别的响应速度;采用LoRA微调方式学习面向不同电力审计事件的增量识别信息,将LoRA微调后获取的各个模块作为压缩模型补充模块,从而提升压缩模型在电力工程审计任务中的识别精准度,并且仍然保持了模型的高效性和响应速度。
Description
技术领域
本发明属于智能电力信息处理领域,尤其涉及一种电力工程现场轻量级审计事件识别方法、系统及设备。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
由于电网工程项目业务范畴广、审计环节多、事件关联复杂,尤其在结算阶段需要现场核实工程量、检查设备型号,并与竣工图纸中的各要素进行比对分析,故需要对各种工程事件进行准确、高效的识别和判断。然而,当前的现场审计方式存在以下困难,首先,由于现场环境的复杂性和多样性,审计人员往往无法准确快速地识别各种工程事件。其次,由于移动端硬件资源的限制,无法部署高精度、大规模算法模型,导致审计事件识别准确度低、响应慢。上述问题严重影响了电力工程审计的效率和效果。
现有的大多数研究集中在如何提高算法模型的准确性上,在电力工程审计文本专业性强的领域中,需要实现细粒度分类识别。当前主流的动态的词嵌入模型如ELMo、BERT以及BERT的变体等,这类模型具有出色的文本表示能力。然而,这些模型通常对硬件资源的需求较高,需要大量的计算和存储资源,现场审计移动端难以满足该需求。
发明内容
为了解决上述背景技术中存在的至少一项技术问题,本发明提供一种电力工程现场轻量级审计事件识别方法、系统、介质及设备,其通过采用与训练模型,基于低秩分解矩阵、稀疏注意力机制对预训练模型开展微调训练,并结合LoRA(Low-Rank Adaption)构建面向分类类别的电力工程审计文本增量识别模块,获取轻量级电力工程审计事件识别模型,从而在移动端资源条件下,提升对电力工程现场审计事件的快速响应识别性能。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种电力工程现场轻量级审计事件识别方法,包括如下步骤:
根据审计业务需求,调取对应的电力工程审计文本数据;
基于电力工程审计文本数据和训练好的电力工程审计事件识别模型,得到电力工程现场审计事件识别结果;其中,所述电力工程审计事件识别模型的构建过程包括:
将电力工程审计文本数据输入至BERT模型中,引入稀疏注意力机制和低秩前馈神经网络对BERT模型进行压缩,得到压缩后的电力工程审计文本向量;
固定压缩后的BERT模型参数,将不同类别的电力工程审计文本数据输入至压缩后的BERT模型中,对待审计事件进行微调,得到电力工程审计文本相应类别的增量向量;
结合压缩后的电力工程审计文本向量和电力工程审计文本相应类别的增量向量,对不同审计事件进行识别得到电力工程审计文本对应的类别标签概率值。
进一步地,所述将电力工程审计文本数据输入至BERT模型中,引入稀疏注意力机制和低秩前馈神经网络对BERT模型进行压缩,得到压缩后的电力工程审计文本向量,具体包括:
将电力工程审计文本数据输入至BERT模型的嵌入层,得到词嵌入向量;
将词嵌入向量输入稀疏多头注意力机制层,计算审计文本句子中每个词与句中其他字词的关系,以此记录审计事件的上下文相关信息,提取得到电力工程审计文本的全局交互特性;
将电力工程审计文本的全局交互特性经过残差链接和归一化处理后输入低秩前馈神经网络层,得到压缩后的电力工程审计文本向量。
进一步地,BERT模型的嵌入层包括Token Embedding、Segment Embedding、Position Embedding三部分,将经过三部分得到的表示按位相加得到词嵌入向量;其中,通过Token Embedding将输入序列进行分词,将各个词转换成固定维度的向量,得到第一文本词向量;通过Segment Embedding表示输入语句是否具有前后衔接关系,得到第一文本词向量,通过Position Embedding用正弦和余弦函数记录输入序列中每个词语的位置信息,得到第三文本词向量。
进一步地,所述低秩前馈神经网络层为在原有Transformer-Encoder模块引入低秩矩阵分解算法,将最初的线性层替换为低秩矩阵单元,根据任务识别场景的需求调整秩的大小,以此降低前馈神经网络参数量。
进一步地,所述对待审计事件进行微调时,采用LoRA微调方法对微调权重矩阵低秩分解,并根据损失函数反馈调整参数;所述LoRA微调时对微调权重矩阵低秩分解如下:,微调时对权重矩阵/>进行低秩分解,即/>=BA,采用W0+/>=W0+BA表示参数的更新,其中W0,/>∈Rd×k,B∈Rd×r,A∈Rr×k,X为输入向量,d为输入向量矩阵中词向量的维度,k为输入向量矩阵中词向量的数目。
进一步地,微调过程中,W0矩阵参数被冻结,不进行梯度更新,矩阵A使用随机高斯分布初始化参数,即矩阵A中的参数分布满足均值为零,方差为固定值的高斯分布,矩阵B使用零矩阵初始化参数。
进一步地,得到电力工程审计文本对应的类别标签概率值后,将其与该电力工程审计文本对应的类别真实标签做交叉熵损失,获取交叉熵损失值,直至交叉熵损失值低于设定的全部阈值,固定参数,得到训练后的电力工程审计事件识别模型。
进一步地,根据审计业务需求,调取对应的电力工程审计文本数据后,基于预设的电力系统数据库调取电力工程审计样本数据,根据审计业务需求,分类梳理电力工程项目的审计要求和业务流程;将电力工程项目分解为多个环节,并进一步确定分类类别,基于分类类别收集整理典型电力工程项目审计样本数据,形成了电力工程审计文本样本集。
本发明的第二个方面提供一种电力工程审计事件响应识别系统,包括:
数据调取模块,配置为:根据审计业务需求,调取对应的电力工程审计文本数据;
事件识别模块,配置为:基于电力工程审计文本数据和训练好的电力工程审计事件识别模型,得到电力工程现场审计事件识别结果;其中,所述电力工程审计事件识别模型的构建过程包括:
将电力工程审计文本数据输入至BERT模型中,引入稀疏注意力机制和低秩前馈神经网络对BERT模型进行压缩,得到压缩后的电力工程审计文本向量;
固定压缩后的BERT模型参数,将不同类别的电力工程审计文本数据输入至压缩后的BERT模型中,对待审计事件进行微调,得到电力工程审计文本相应类别的增量向量;
结合压缩后的电力工程审计文本向量和电力工程审计文本相应类别的增量向量,对不同审计事件进行识别得到电力工程审计文本对应的类别标签概率值。
本发明的第三个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的一种电力工程现场轻量级审计事件识别方法中的步骤。
与现有技术相比,本发明的有益效果是:
1、本发明利用BERT模型解决电力审计场景下的特定文本识别任务,为便于模型在手机等移动端上的可应用性,引入稀疏注意力机制和低秩前馈神经网络对BERT模型进行压缩,从而提升BERT模型对电力工程审计文本事件识别的响应速度;
2、为提升压缩模型在电力工程审计任务中的识别精准度,本发明采用LoRA微调方式学习面向不同电力审计事件的增量识别信息,将LoRA微调后获取的各个模块作为压缩模型补充模块,从而提升压缩模型在电力工程审计任务中的识别精准度,并且仍然保持了模型的高效性和响应速度。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例提供的电力工程现场审计事件快速响应识别方法的整体流程图;
图2为本发明实施例提供的模型全参数压缩的流程图;
图3为本发明实施例提供的LoRA微调方式的流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
参照图1,本实施例提供一种电力工程现场轻量级审计事件识别方法,包括如下步骤:
S101:根据审计业务需求,分类梳理电力工程项目业务数据,并基于分类类别收集整理典型电力工程项目审计样本数据,形成电力工程审计文本样本集;
基于预设的电力系统数据库调取电力工程审计样本数据,根据审计业务需求,分类梳理电力工程项目的审计要求和业务流程;
本实施例中,将电力工程项目分解为13个环节,并进一步确定91类需要收集和整理业务数据,基于分类类别收集整理典型电力工程项目审计样本数据,形成了电力工程审计文本样本集。
S102:将电力工程审计文本样本集的样本数据输入到BERT模型中,采用低秩分解技术压缩BERT模型参数量,同时采用稀疏注意力机制提升BERT模型响应速度,输出经BERT优化后的电力工程审计文本向量,输入步骤S105,得到审计文本对应的类别标签概率值,基于全参数压缩微调部分的交叉熵损失对模型的全部参数进行微调,直至损失函数值低于设定阈值,获取基于电力工程审计文本样本集数据压缩微调后的全参数压缩微调BERT模型,从而降低了电力工程审计事件识别模型BERT-FTL对支撑其运行资源的需求;
本实施例中,BERT模型采用开源预训练语言模型Bert base,Chinese,输入为文本样本集的样本数据,数据处理层包含词嵌入层、注意力机制层、前馈神经网络层、残差链接&归一化层和分类层,得到审计文本对应的类别标签概率值;
如图2所示,具体包括:
S201:电力工程审计样本集的全部样本数据输入BERT模型的嵌入层,被表示为Token Embedding、Segment Embedding、Position Embedding三部分,将三部分按位相加输出词嵌入向量;
其中,Token Embedding表示文本词向量嵌入,即将输入序列进行分词,将各个词转换成固定维度的向量,BERT中为768维的向量表示;Segment Embedding表示输入语句是否具有前后衔接关系,这种关系保存在输入序列的[SEP]符号中;Position Embedding表示位置编码,用正弦和余弦函数记录输入序列中每个词语的位置信息,最终输出上述三部分相加的词嵌入向量。
S202:将词嵌入向量输入稀疏多头注意力机制层,计算审计文本句子中每个词与句中其他字词的关系,以此记录审计事件的上下文相关信息,稀疏电力工程审计文本数据可减少模型对不相关特征的计算,从而降低模型参数量;
将加入位置信息的词嵌入向量送进多头注意力机制层进行计算。多头注意力机制可以计算审计文本句子中每个词与句中其他字词的关系,以此记录审计事件的上下文相关信息,头部数量可以控制该机制从不同的角度计算这种上下文相关性,从而提取审计文本的全局交互特性,这对于识别专业性较强且事件粒度精细的电力工程项目审计文本极为有效,多头注意力机制相关公式如式(1)~式(5)所示:
(1),/>(2),/>(3),/>(4),(5)。
首先初始化多组的Q、K、V矩阵,分别代表查询、键、值,有多少头部数量便初始化多少组矩阵,式(4)中除以是为了防止分子内积过大,dk为向量的维度,Z向量为包含整句话信息的特征向量,当初始化多组矩阵时,采用公式(5)将多个角度下Z向量融合,得到具有全局交互信息的特征向量,式中WQ,WK,WV,W0均为参数矩阵。
原有Transformer-Encoder中的注意力机制采用softmax函数计算值的权重,如式(4),这种计算方法会使模型产生密集分布,即对不相关的特征给予关注,导致模型中的信息流分析增加,故本实施例采用一种基于缩放因子的稀疏多头注意力机制,通过减少模型中的数据冗余,以此加快模型对审计事件识别的响应速度。
将原有注意力机制中的softmax函数替换为GeLU激活函数,如式(6)所示:
(6),GeLU激活函数存在稀疏特性,与softmax函数不同的是,该函数可以输出任何负值,更具有灵活性,式中F(·)为缩放点积函数,式中RATT表示采用稀疏注意力机制作用后提取的电力工程审计文本向量,为稳定网络结构中的各项参数,平滑梯度,在RATT的计算过程中使用了均方根层归一化,即函数RMSNorm(·),对稀疏注意力机制的输出ZG做归一化处理,如式(7)所示:(7),式中,RMS(·)表示对数据的均方根进行计算,g为增益参数。
为探究稀疏注意力机制对模型性能的影响,进行了相关消融实验。在仅改变注意力机制为稀疏注意力机制的情况下进行了模型性能测试,实验结果如表1所示,原始注意力机制用ATT表示,引入稀疏注意力机制的消融实验结果用RATT1表示。
表1注意力机制对比试验
从ATT和RATT1对比实验结果可以看到,稀疏注意力机制在训练时间和测试时间上比Transformer原始的注意力机制速度快,提升了效率,以此提升模型的性能。
S203:将稀疏多头注意力机制层的输出向量,输入残差链接&归一化层,优化训练过程可能出现的梯度消失或梯度爆炸问题;
模型中的残差连接可将误差从不同路径传递到初始网络层,归一化层则是将数据规范在方差为1均值为0的范围之内,两者皆是为了优化训练过程中可能出现的梯度消失和梯度爆炸问题。
S204:将经过残差链接&归一化层处理后的向量输入低秩前馈神经网络层,低秩前馈神经网络层将数据向量输出,输入S105,得到审计文本对应的类别标签概率值,基于全参数压缩微调部分的交叉熵损失对模型的全部参数进行微调,直至损失函数低于设定阈值,获取基于电力工程审计文本样本集数据压缩微调后的全参数压缩微调模型;
其中,低秩前馈神经网络层为BERT模型中的采用低秩分解矩阵的前馈神经网络层;
前馈神经网络层的表示如式(8)所示,该网络层可以增加模型的非线性能力,规范网络,由两层线性层和一个激活函数组成;
(8),其中,W1和W2为权重参数,b1和b2为偏置参数。
在原有Transformer-Encoder模块引入低秩矩阵分解算法,凭借该算法优化前馈神经网络,这里将该结构命名为LRMN结构(Low-Rank Macaron-Net),该结构将最初的线性层替换为低秩矩阵单元,以此降低前馈神经网络参数量,实现模型压缩以提升响应速度;
LRMN结构将前馈神经网络中全连接层的参数矩阵分解为两个矩阵M和N,其中矩阵M∈Rm×r,矩阵N∈Rr×n,可理解为W=MN;其中m和n为分解后矩阵的行数与列数,其数值取决于输入向量的维度数值;优化前的网络所需的参数、训练时间及响应时间根据矩阵W(m×n)计算得到,优化后则通过计算矩阵M和矩阵N(r×(m+n))得出。
当秩r远小于m和n时,模型参数量、训练时间均显著减少,对应的审计事件识别响应速率提升;在之后的实验中,本实施例测试了不同的r对模型大小、训练时间和识别精度的影响,结合电力工程审计文本识别任务场景的需要选择合适的r,低秩前馈神经网络如式(9)所示:
(9),式中,M1,M2,N1,N2为低秩分解矩阵,/>来自上层网络的输出向量,/>和/>为偏置参数。
引入低秩分解矩阵对电力工程审计文本识别模型的前馈神经网络进行压缩,表2为模型压缩大小与识别准确率的关系,BERT+FNN-LRMN1代表引入低秩前馈神经网络和稀疏多头注意力机制的电力工程审计文本识别模型,LRMN1表示采用低秩分解技术压缩模型,r表示矩阵的秩,实验选取秩的大小分别为256、128、64和32,从表2中实验结果可以看出,当r=256时,模型大小从193.6MB压缩为75.8MB,模型大小减小了117.8MB,准确率和压缩之前相比下降了0.05;当r=128、64和32时,模型的大小均大幅度减小,但此时模型的识别准确率也开始下降,其中当r=128时,模型准确率比压缩前下降了0.06,r=64时,准确率下降了0.17,r=32时,准确率下降了0.25。
表2压缩部分模型大小与识别准确率
从表3可以看出模型的训练时间以及测试时间随模型压缩的变化,从整体上看,在模型存储空间占用量减小时,训练时间以及测试时间都相应减少,这对模型部署后响应速度指标的提升极为有利,增加了模型的可使用性。
表3压缩模型大小与训练时间/测试时间
从训练时间和测试时间的实验结果上看,当r=128时,模型的训练时间与原始模型相比减少145.232秒,测试时间减少0.051秒;与r=256的模型相比训练时间减少83.492秒,测试时间减少0.039秒;与r=64和r=32的模型相比,训练时间分别比它们多出63.669秒和84.788秒,测试时间分别多出0.095秒和0.136秒。结合表3中压缩模型大小与识别准确率的变化,r=128时,模型的准确率为0.91,模型大小为64.6MB,模型大小减小了129MB,此时模型在容量大幅度减小的同时,对电力工程审计文本仍具有0.91识别准确率,因此,采用该模型引入LoRA微调模型的参数与之叠加,从而提升该模型的识别精度。
S103:针对基于电力工程审计文本样本集整体压缩后的全参数压缩微调BERT模型,在面对不同电力审计事件时的识别精度降低的问题,固定该模型参数,并将不同分类类别的电力工程审计文本样本数据输入全参数压缩微调BERT模型,采用LoRA微调构建面向分类类别的电力工程审计文本增量识别模块,输出面向分类类别的电力审计事件LoRA增量参数,根据LoRA增量模块的交叉熵损失函数对面向分类类别的电力工程审计文本增量识别模块的参数进行更新,直至损失函数低于设定阈值,从而引入少量参数提升面向不同审计任务识别精确度。
如图3所示,具体包括:
S301:将全参数压缩微调BERT模型的权重参数进行冻结;
在模型微调的过程中,LoRA将预训练模型的权重参数冻结,即该部分权重参数在模型训练过程中不参与更新,以此减少特定于电力审计任务的权重参数数量,并且没有增加额外的推理延迟;
S302:采用LoRA构建面向分类类别的电力工程审计文本增量识别模块;
其中,LoRA表示采用低秩分解矩阵构建电力工程审计文本增量识别模块,并根据损失函数反馈调整参数;
LoRA微调时对微调权重矩阵低秩分解如式(10)所示:
(10),微调时对权重矩阵∆W进行低秩分解,即/>=BA,采用W0+/>=W0+BA表示参数的更新,其中W0,/>∈Rd×k,B∈Rd×r,A∈Rr×k,r为秩;X为输入向量,d为输入向量矩阵中词向量的维度,k为输入向量矩阵中词向量的数目。
S303:将低秩分解矩阵的参数初始化;
微调过程中,W0矩阵参数被冻结,不进行梯度更新,矩阵A使用随机高斯分布初始化参数,即矩阵A中的参数分布满足均值为零,方差为固定值(人为设定值)的高斯分布;矩阵B使用零矩阵初始化参数,即将矩阵B中的参数初始值全部设置为0;
S304:将不同分类类别的电力工程审计文本样本数据输入全参数压缩微调BERT模型和电力工程审计文本增量识别模块,分别输出电力工程审计文本向量和电力工程审计文本相应类别的增量向量;
全参数微调的过程中,模型会初始化为预训练的权值Ф0,通过反向梯度更新为Ф0+Ф,最大化模型的目标函数,公式如(11)所示:(11),其中,D表示电力工程审计文本数据集,x表示审计样本的文本内容,y代表审计事件标签,共有多个类别,t为文本内容对应的标签的数量,Ф表示模型的各项参数,Ф=Ф0+/>Ф;LoRA微调方法的参数量少,效率高,其中相应的电力审计任务的参数增量/>由一个更小的参数集/>,| |符号表示参数量,因此,目标函数转化为对ϴ的优化如式(12)所示:(12),其中,DL表示特定电力工程审计文本数据集,DL∈D,xL表示特定审计样本的文本内容,yL表示特定审计事件标签。
S104:将LoRA微调后的获取的面向分类类别的电力工程审计文本增量识别模块参数与全参数压缩微调BERT模型参数叠加,在面向不同审计事件提取任务时,切换面向分类类别的电力工程审计文本增量识别模块,从而形成面向不同审计事件类别的轻量级电力工程审计事件识别模型;
在模型微调的过程中,LoRA将预训练模型的权重参数冻结,并将可训练的低秩分解矩阵注入到Transformer架构的每一层;在LoRA微调过程中,通过使用随机架构来训练模型,得到了针对特定电力审计事件的增量识别信息,这些微调参数捕捉了特定事件的细微差异和模式,接下来,将这些LoRA微调参数与全参数压缩模型的参数进行叠加;在叠加的过程中,保持全参数压缩模型的参数不变,而将LoRA微调参数逐层与之相加,通过这种方式,将微调参数的信息注入到压缩模型中,使得模型能够更好地适应特定电力审计事件的识别任务,这种叠加的方式保持了全参数压缩模型的结构和性能,并且利用LoRA微调参数的丰富信息增强了模型的表征能力;
BERT-FT为引入稀疏注意力机制和低秩前馈神经网络的模型,r选取128。在压缩模型中引入LoRA微调参数,实验结果如表4所示;可以看到,由于引入了额外的参数,模型存储空间占用量增加了5.2MB,准确率提升了0.05,训练时间和测试时间分别增加了70.225s和0.024s,从实验结果可以看出,模型压缩方法有效的降低了模型的存储空间占用量,提升了模型的训练速度和响应时间,最终采用BERT-FTL作为电力工程审计文本识别模型。
表4LoRA微调实验结果
S105:将电力工程审计文本样本数据输入轻量级电力工程审计事件识别模型,获取优化表示后的词向量,输入分类层经softmax层对电力工程审计文本进行分类,输出审计文本对应的类别标签概率值;
将微调模型的输出向量送入分类层,分类层由上述的低秩前馈神经网络层和一个Softmax层构成,其中低秩前馈神经网络用于对微调模型输出向量进行空间映射和特征降维,Softmax层用于电力审计事件分类,从而提取不同审计事件,该过程的实现如式(13)所示:
(13),其中,FFNr代表低秩前馈神经网络,OF代表微调模型输出向量。
基于国网某市18家公司近3年内的典型电力工程项目审计样本数据共计16732例91类业务数据,训练并测试轻量级电力工程审计事件识别模型;采用当前相对经典的深度学习模型:Word2Vec+CNN、Word2Vec+BiLSTM、BERT+CNN、BERT+BiLSTM、BERT+FFN以及BERT-FT作为对比模型说明所述方法在面向不同审计事件的有效性。
表5电力工程审计文本识别准确率和F1值
其中,采用准确率和F1值作为电力审计事件识别精度评价指标,如下式所示:
(14),(15),/>(16),(17),式中,TP表示正样本识别为正样本的数量,FN表示正样本识别为负样本的数量,FP表示负样本识别为正样本的数量,TN表示负样本识别为负样本的数量,N表示数据的类别数量。
由表5可知,与具有最高实验结果的模型BERT-FFN相比,模型BERT-FT在识别准确率和F1值上分别下降了0.06和0.07,BERT-FT引入了低秩分解矩阵和稀疏注意力机制,虽然损失了一定的模型精度,但是模型的存储空间占用量降低,同时模型的响应速度加快;为了使模型在降低存储空间占用量和提升响应速度的同时,减少模型精度的损失,BERT-FTL引入了LoRA微调方法,在微调模型中叠加进LoRA微调后的参数,分类性能得到了提升,其准确率和F1值分别为0.96和0.95,相较于BERT-FT分别提升0.02和0.01,最终,本发明所述方法BERT-FTL准确率在0.96以上,且具有较少的模型参数,实现了对电力工程审计文本的高效识别;
S106:基于输出的电力工程审计文本对应的类别标签概率值,与该电力工程审计文本对应的类别真实标签做交叉熵损失,基于交叉熵损失值返回至步骤B,直至交叉熵损失值低于设定的全部阈值,固定参数,获取面向不同审计事件类别的轻量级电力工程审计事件识别模型。
实施例二
本实施例提供一种电力工程审计事件响应识别系统,包括:
数据调取模块,配置为:根据审计业务需求,调取对应的电力工程审计文本数据;
事件识别模块,配置为:基于电力工程审计文本数据和训练好的电力工程审计事件识别模型,得到电力工程现场审计事件识别结果;其中,所述电力工程审计事件识别模型的构建过程包括:
将电力工程审计文本数据输入至BERT模型中,引入稀疏注意力机制和低秩前馈神经网络对BERT模型进行压缩,得到压缩后的电力工程审计文本向量;
固定压缩后的BERT模型参数,将不同类别的电力工程审计文本数据输入至压缩后的BERT模型中,对待审计事件进行微调,得到电力工程审计文本相应类别的增量向量;
结合压缩后的电力工程审计文本向量和电力工程审计文本相应类别的增量向量,对不同审计事件进行识别得到电力工程审计文本对应的类别标签概率值。
实施例三
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的一种电力工程现场轻量级审计事件识别方法中的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种电力工程现场轻量级审计事件识别方法,其特征在于,包括如下步骤:
根据审计业务需求,调取对应的电力工程审计文本数据;
基于电力工程审计文本数据和训练好的电力工程审计事件识别模型,得到电力工程现场审计事件识别结果;其中,所述电力工程审计事件识别模型的构建过程包括:
将电力工程审计文本数据输入至BERT模型中,引入稀疏注意力机制和低秩前馈神经网络对BERT模型进行压缩,得到压缩后的电力工程审计文本向量;
固定压缩后的BERT模型参数,将不同类别的电力工程审计文本数据输入至压缩后的BERT模型中,对待审计事件进行微调,得到电力工程审计文本相应类别的增量向量;
结合压缩后的电力工程审计文本向量和电力工程审计文本相应类别的增量向量,对不同审计事件进行识别得到电力工程审计文本对应的类别标签概率值;
所述对待审计事件进行微调时,采用LoRA微调方法对微调权重矩阵低秩分解,并根据损失函数反馈调整参数;所述LoRA微调时对微调权重矩阵低秩分解如下:
,
微调时对权重矩阵进行低秩分解,即/>=BA,采用W0+/>=W0+BA表示参数的更新,其中W0,/>∈Rd×k,B∈Rd×r,A∈Rr×k,X为输入向量,d为输入向量矩阵中词向量的维度,k为输入向量矩阵中词向量的数目;
微调过程中,W0矩阵参数被冻结,不进行梯度更新,矩阵A使用随机高斯分布初始化参数,即矩阵A中的参数分布满足均值为零,方差为固定值的高斯分布,矩阵B使用零矩阵初始化参数。
2.如权利要求1所述的一种电力工程现场轻量级审计事件识别方法,其特征在于,所述将电力工程审计文本数据输入至BERT模型中,引入稀疏注意力机制和低秩前馈神经网络对BERT模型进行压缩,得到压缩后的电力工程审计文本向量,具体包括:
将电力工程审计文本数据输入至BERT模型的嵌入层,得到词嵌入向量;
将词嵌入向量输入稀疏多头注意力机制层,计算审计文本句子中每个词与句中其他字词的关系,以此记录审计事件的上下文相关信息,提取得到电力工程审计文本的全局交互特性;
将电力工程审计文本的全局交互特性经过残差链接和归一化处理后输入低秩前馈神经网络层,得到压缩后的电力工程审计文本向量。
3.如权利要求2所述的一种电力工程现场轻量级审计事件识别方法,其特征在于,BERT模型的嵌入层包括Token Embedding、Segment Embedding、Position Embedding三部分,将经过三部分得到的表示按位相加得到词嵌入向量;其中,通过Token Embedding将输入序列进行分词,将各个词转换成固定维度的向量,得到第一文本词向量;通过SegmentEmbedding表示输入语句是否具有前后衔接关系,得到第一文本词向量,通过PositionEmbedding用正弦和余弦函数记录输入序列中每个词语的位置信息,得到第三文本词向量。
4.如权利要求2所述的一种电力工程现场轻量级审计事件识别方法,其特征在于,所述低秩前馈神经网络层为在原有Transformer-Encoder模块引入低秩矩阵分解算法,将最初的线性层替换为低秩矩阵单元,根据任务识别场景的需求调整秩的大小,以此降低前馈神经网络参数量。
5.如权利要求1所述的一种电力工程现场轻量级审计事件识别方法,其特征在于,得到电力工程审计文本对应的类别标签概率值后,将其与该电力工程审计文本对应的类别真实标签做交叉熵损失,获取交叉熵损失值,直至交叉熵损失值低于设定的全部阈值,固定参数,得到训练后的电力工程审计事件识别模型。
6.如权利要求1所述的一种电力工程现场轻量级审计事件识别方法,其特征在于,根据审计业务需求,调取对应的电力工程审计文本数据后,基于预设的电力系统数据库调取电力审计样本数据,根据审计业务需求,分类梳理电力工程项目的审计要求和业务流程;将电力工程项目分解为多个环节,并进一步确定分类类别,基于分类类别收集整理典型电力工程项目审计样本数据,形成了电力工程审计文本样本集。
7.一种电力工程审计事件响应识别系统,其特征在于,包括:
数据调取模块,配置为:根据审计业务需求,调取对应的电力工程审计文本数据;
事件识别模块,配置为:基于电力工程审计文本数据和训练好的电力工程审计事件识别模型,得到电力工程现场审计事件识别结果;其中,所述电力工程审计事件识别模型的构建过程包括:
将电力工程审计文本数据输入至BERT模型中,引入稀疏注意力机制和低秩前馈神经网络对BERT模型进行压缩,得到压缩后的电力工程审计文本向量;
固定压缩后的BERT模型参数,将不同类别的电力工程审计文本数据输入至压缩后的BERT模型中,对待审计事件进行微调,得到电力工程审计文本相应类别的增量向量;
结合压缩后的电力工程审计文本向量和电力工程审计文本相应类别的增量向量,对不同审计事件进行识别得到电力工程审计文本对应的类别标签概率值;
所述对待审计事件进行微调时,采用LoRA微调方法对微调权重矩阵低秩分解,并根据损失函数反馈调整参数;所述LoRA微调时对微调权重矩阵低秩分解如下:
,
微调时对权重矩阵进行低秩分解,即/>=BA,采用W0+/>=W0+BA表示参数的更新,其中W0,/>∈Rd×k,B∈Rd×r,A∈Rr×k,X为输入向量,d为输入向量矩阵中词向量的维度,k为输入向量矩阵中词向量的数目;
微调过程中,W0矩阵参数被冻结,不进行梯度更新,矩阵A使用随机高斯分布初始化参数,即矩阵A中的参数分布满足均值为零,方差为固定值的高斯分布,矩阵B使用零矩阵初始化参数。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的一种电力工程现场轻量级审计事件识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410021076.6A CN117520802B (zh) | 2024-01-08 | 2024-01-08 | 一种电力工程现场轻量级审计事件识别方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410021076.6A CN117520802B (zh) | 2024-01-08 | 2024-01-08 | 一种电力工程现场轻量级审计事件识别方法、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117520802A CN117520802A (zh) | 2024-02-06 |
CN117520802B true CN117520802B (zh) | 2024-05-24 |
Family
ID=89755429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410021076.6A Active CN117520802B (zh) | 2024-01-08 | 2024-01-08 | 一种电力工程现场轻量级审计事件识别方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117520802B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852331A (zh) * | 2019-10-25 | 2020-02-28 | 中电科大数据研究院有限公司 | 一种结合bert模型的图像描述生成方法 |
CN113919927A (zh) * | 2021-10-13 | 2022-01-11 | 集美大学 | 一种基于数据处理的审计平台 |
CN114492759A (zh) * | 2021-02-05 | 2022-05-13 | 谷歌有限责任公司 | 稀疏注意力神经网络 |
WO2022170092A1 (en) * | 2021-02-05 | 2022-08-11 | Interdigital Patent Holdings, Inc. | Method and apparatus for comparing and ranking long documents |
CN115600675A (zh) * | 2022-09-26 | 2023-01-13 | 国网江苏省电力有限公司镇江供电分公司(Cn) | 一种基于轻量多出口网络的模型压缩与推断加速方法 |
CN116245107A (zh) * | 2023-05-12 | 2023-06-09 | 国网天津市电力公司培训中心 | 电力审计文本实体识别方法、装置、设备及存储介质 |
-
2024
- 2024-01-08 CN CN202410021076.6A patent/CN117520802B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852331A (zh) * | 2019-10-25 | 2020-02-28 | 中电科大数据研究院有限公司 | 一种结合bert模型的图像描述生成方法 |
CN114492759A (zh) * | 2021-02-05 | 2022-05-13 | 谷歌有限责任公司 | 稀疏注意力神经网络 |
WO2022170092A1 (en) * | 2021-02-05 | 2022-08-11 | Interdigital Patent Holdings, Inc. | Method and apparatus for comparing and ranking long documents |
CN113919927A (zh) * | 2021-10-13 | 2022-01-11 | 集美大学 | 一种基于数据处理的审计平台 |
CN115600675A (zh) * | 2022-09-26 | 2023-01-13 | 国网江苏省电力有限公司镇江供电分公司(Cn) | 一种基于轻量多出口网络的模型压缩与推断加速方法 |
CN116245107A (zh) * | 2023-05-12 | 2023-06-09 | 国网天津市电力公司培训中心 | 电力审计文本实体识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117520802A (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Bidet: An efficient binarized object detector | |
Oh et al. | Hybrid genetic algorithms for feature selection | |
Xu et al. | A survey on model compression and acceleration for pretrained language models | |
CN113593611B (zh) | 语音分类网络训练方法、装置、计算设备及存储介质 | |
Yuan et al. | Evoq: Mixed precision quantization of dnns via sensitivity guided evolutionary search | |
Xu et al. | A general framework for feature selection under orthogonal regression with global redundancy minimization | |
CN111027629A (zh) | 基于改进随机森林的配电网故障停电率预测方法及系统 | |
CN112994701A (zh) | 数据压缩方法、装置、电子设备及计算机可读介质 | |
Zhou et al. | Binary Linear Compression for Multi-label Classification. | |
Chen et al. | DST: Deformable speech transformer for emotion recognition | |
Andreev et al. | Quantization of generative adversarial networks for efficient inference: A methodological study | |
CN108268950A (zh) | 基于矢量量化的迭代式神经网络量化方法及系统 | |
CN114021425A (zh) | 电力系统运行数据建模与特征选择方法、装置、电子设备和存储介质 | |
CN117520802B (zh) | 一种电力工程现场轻量级审计事件识别方法、系统及设备 | |
Ma et al. | Partial hash update via hamming subspace learning | |
CN113240098B (zh) | 基于混合门控神经网络的故障预测方法、装置和存储介质 | |
CN115545164A (zh) | 光伏发电功率预测方法、系统、设备及介质 | |
CN114064898A (zh) | 一种基于文本分类和匹配融合模型的意图识别方法及装置 | |
Li et al. | Adaptive multi-prototype relation network | |
CN114418111A (zh) | 标签预测模型训练及样本筛选方法、装置、存储介质 | |
Zhang et al. | Compressing knowledge graph embedding with relational graph auto-encoder | |
Yu et al. | ICD-Face: Intra-class Compactness Distillation for Face Recognition | |
Silvescu et al. | Combining super-structuring and abstraction on sequence classification | |
CN113627514A (zh) | 知识图谱的数据处理方法、装置、电子设备和存储介质 | |
Liu et al. | A selective quantization approach for optimizing quantized inference engine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |