CN114926150B - 一种变压器技术符合性评估数字化智能审核方法与装置 - Google Patents

一种变压器技术符合性评估数字化智能审核方法与装置 Download PDF

Info

Publication number
CN114926150B
CN114926150B CN202210693673.4A CN202210693673A CN114926150B CN 114926150 B CN114926150 B CN 114926150B CN 202210693673 A CN202210693673 A CN 202210693673A CN 114926150 B CN114926150 B CN 114926150B
Authority
CN
China
Prior art keywords
text
entity
model
word
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210693673.4A
Other languages
English (en)
Other versions
CN114926150A (zh
Inventor
周榆晓
王汀
于在明
张敏杰
鲁旭臣
郭铁
刘璐
刘佳鑫
李佳奇
王帅
刘畅
李诗宇
郑维刚
赵君娇
唐红
韩经纬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Pengpai Digital Technology Co ltd
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Original Assignee
Wuxi Pengpai Digital Technology Co ltd
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Pengpai Digital Technology Co ltd, State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd filed Critical Wuxi Pengpai Digital Technology Co ltd
Priority to CN202210693673.4A priority Critical patent/CN114926150B/zh
Publication of CN114926150A publication Critical patent/CN114926150A/zh
Application granted granted Critical
Publication of CN114926150B publication Critical patent/CN114926150B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Operations Research (AREA)
  • Primary Health Care (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于输变电设备质量监督技术领域,尤其涉及一种变压器技术符合性评估数字化智能审核方法与装置。本发明包括:构建电力设备语料库;构建本体知识库;针对构建的电力设备语料库和待审核的资料文件构建预处理模块;针对待审核的资料文件构建要素识别模型;对构建的要素识别模型通过合规判别模块进行变压器技术符合性评估场景的智能审核;对审核的结果通过复核模块进行确认和修正。本发明能够提升变压器技术参数符合性评估工作的智能化程度,提高评估工作的效率,缓解人工审核准确率不足的问题,使审核效率和精度得到显著的提高,还能够给供电公司和电力用户带来更大的直接和间接社会经济效益。

Description

一种变压器技术符合性评估数字化智能审核方法与装置
技术领域
本发明属于输变电设备质量监督技术领域,尤其涉及一种变压器技术符合性评估数字化智能审核方法与装置。
背景技术
目前,电力公司在完成变压器设备的物资招标后,会要求中标供应商提交变压器相关的技术资料,包括基本电气参数表、套管尺寸表、原材料参数设计值等相关文档资料,这些材料数据形态上表现为Excel、word、PDF等形式。电力公司会组织技术专家和相关管理人员组成技术符合性评估专家组,专家组的工作是对资料进行人工审核,审核的形式是专家们对照细则标准对资料的符合性程度一一进行判断,判断供应商设计的变压器设备是否达到验收标准。然而,这种人工审核的方式极易受到个体主观因素的影响,存在着审核效率低、准确率不足的问题。
针对上述现有技术中存在的问题,提出了信息抽取技术。在专家构建的高质量领域知识库的基础上,运用信息抽取技术更高效的提取目标领域信息(属性及属性值)。
然而,现有的信息抽取技术大多面向单文本模态的数据,这样就忽略了图片信息的作用。当面向具备大量图例信息的领域时,模型存在很大的局限性,尤其在审核领域,人工审核领域存在着效率低、信息遗漏、图文不一致的审核错误问题时有发生,这样就会造成对被审核物资审核不精准,由此也为电力公司经后的生产和工作带来一定的不安全因素。
发明内容
针对上述现有技术中存在的不足之处,本发明提供了一种变压器技术符合性评估数字化智能审核方法与装置。其目的是为了综合应用人工智能技术手段,实现提升变压器技术参数符合性评估工作的智能化程度,使评估工作的效率和精准度得到显著提高的的发明目的。
本发明为实现上述目的所采用的技术方案是:
一种变压器技术符合性评估数字化智能审核方法,包括以下步骤:
构建电力设备语料库;
构建本体知识库;
针对构建的电力设备语料库和待审核的资料文件构建预处理模块;
针对待审核的资料文件构建要素识别模型;
对构建的要素识别模型通过合规判别模块进行变压器技术符合性评估场景的智能审核;
对审核的结果通过复核模块进行确认和修正。
更进一步的,所述构建电力设备语料库,包括但不限于:公开电力标准、电力培训手册、各类电力电子书籍、电力百科、设备故障报告及设备缺陷;
所述构建本体知识库,是针对变压器技术符合性评估场景极具专业性的特点,将非结构化的文本数据转换为结构化的知识进行存储,并以审查项目为本体类,以指标参数为属性,以指标值为属性值构建审查类本体知识库;
所述针对构建的电力设备语料库和待审核的资料文件构建预处理模块,包含:针对构建的电力设备语料和针对待审核的资料文件;针对构建的电力设备语料是通过在本体知识库模块中构建的领域专业词汇表对文本进行分词,依据标签类别对分词后的文本进行命名实体识别的类别标注,并对资料中的图片所涵盖的审查类别、属性、属性值进行标注,得到的标注结果作为后续模型的训练样本对模型进行有监督的训练;针对待审核的资料文件,是对资料文件中的文本模态数据进行清洗,通过文本中指向图片的符号标识将文本段落与图片进行一一对应,为后续文本与图片模态之间的信息交互执行特征编码操作奠定数据基础;
所述针对待审核的资料文件构建要素识别模型,目标是抽取审核资料中的指标参数以及指标值,通过引入多模态技术,充分抓取审核资料中的文本、图片模态信息;通过多模态特征融合机制,增强模态间的信息交互,最终抽取出相应的文本、图片所包含的指标参数类别与指标值;表格类型的数据通过表格规则模板直接抽取,最终将抽取出的信息通过本体知识库中构建的本体层进行规范统一化;
所述对构建的要素识别模型通过合规判别模块进行变压器技术符合性评估场景的智能审核,是通过实体链接技术将要素识别模型抽取出的指标参数与指标值数据对,以指标参数为依据在本体知识库中的进行指标参数实体链接,再将抽取出的指标值与相应的本体知识库中的指标值进行对比,通过预先设计的打分规则函数进行打分,从而实现变压器技术符合性评估场景的智能审核;
所述对审核的结果通过复核模块进行确认和修正,是为评审审核算法的打分结果进行确认,为各审核项目的分数详情提供可视化的窗口,当待审核方对结果存在异议时可进行申诉和校正。
更进一步的,所述预处理模块,包括进行数据清洗、图文匹配及分词;
所述数据清洗:是指在数据清洗阶段去掉变压器技术相关的标准类资料格式不可见符号;
所述图文匹配:采用多模态的信息抽取算法,在数据处理阶段将待审核的资料进行图文匹配;
所述分词:采用“jieba分词+自定义词典”的分词方式。
更进一步的,所述要素识别模型,包括:文本编码层,上下文编码层,图像编码层,多模态特征融合机制,输出层;
所述文本编码层包括:①MLM任务优化;②单词随机替换机制优化;③NSP任务调整;
所述上下文编码层:长短时记忆网络Long Short-Term Memory,LSTM在自然语言处理中发挥了重要的作用;LSTM记忆单元包括输入门,遗忘门及输出门;记忆单元通过三个门控制信息的记忆与遗忘,使其能够比循环神经网络Recurrent Neural Networks,RNN利用更长距离的信息;记忆单元中的计算方式如下:
it=σ(Wxixt+Whiht-1+Wcict-1+bi) (输入门)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf) (遗忘门)
ct=ftct-1+it tanh(Wxcxt+Whcht-1+bc) (网络单元状态)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo) (输出门)
ht=ot tanh(ct) (输出)
其中:σ是sigmoid函数,W是每个链接的权重,b是偏置量,tanh()为激活函数,x为每个时刻的输入特征,i为每个时刻输入门的状态,f为每个时刻遗忘门的状态,c为每个时刻网络单元的状态,o为每个时刻输出门的状态,h为每个时刻网络的隐层状态表示;
长短时记忆网络能够沿着序列建模长期的上下文信息,双向长短时记忆网络Bi-LSTM从过去和未来两个方向的时间序列中联合捕获上下文信息;采用Bi-LSTM连接在文本编码层之后来建模文本的词向量表示,并发挥一种统一化词向量维度的功能,与图像编码层输出的图像编码维度统一;经过Bi-LSTM层后的文本向量表示为
其中:为前向时间序列上下文信息隐层状态表示,/>为反向时间序列上下文信息隐层状态表示,w为权重矩阵,BiLSTM()为双向长短时记忆网络层;
所述图像编码层:深度残差网络Deep residual network,ResNet解决了深度网络由于层数的叠加而导致的退化问题;采用在ImageNet数据集上预训练的ResNet-101作为图像编码模型,并抽取其在图像数据集上fine-turn的conv5层的7*7*2048的特征图作为最终的图像特征向量V={v1,v2,…,vk},其中k=49;
所述多模态特征融合机制:是通过计算分别计算每个token-token对和token-region图像区域之间的注意力权重,模型直接关联句子不同位置与图像不同位置之间的特征信息,使模型建模模态间的交互;通过多模态的特征融合机制,借助图像特征有选择的丰富文本的语义表征,避免图像特征中与文本特征毫不相关的噪声语义;多模态特征融合机制将文本和图像特征向量表示hi和vk输入到跨模态的注意力层,获得增强的多模态表示h′i
其中:是权重参数矩阵,是自注意力机制self-attention特有的Q询问、K键、V值,权重矩阵的应用形式,前三者是文本特征的self-attention参数,后三者是图像特征的self-attention参数,d是/>的维度,/>是文本特征的self-attention权重,/>是图像特征的self-attention权重,/>是文本特征在最终融合特征中权重分数,/>是图像特征在最终融合特征中权重分数,h′i是增强的多模态表示;
所述输出层:模型的输出层分为两部分:属性预测和属性值预测,其中属性预测是指标参数,属性值预测是指标值;
所述属性预测:为自然语言处理中的分类任务,对于数据集中给定的一个样本数据预测变压器设备的属性,其中/>表示实例的第l层的属性标签为1;首先通过文本编码层以及上下文编码层获取输入文本的表示hi,再通过图像编码层与多模态特征融合机制获取多模态表示h′i;其中h0表示输入token序列中的特殊元素[CLS],将上述三者输入到前向网络层输出预测的属性标签/>
其中,W1、W2、W3分别表示输入文本的表示hi、多模态表示h′i、输入token序列中[CLS]的表示h0的权重参数矩阵,σ为sigmoid函数,是预测的属性标签;
通过在所有L个标签上的交叉熵来计算属性预测任务的损失:
其中,CrossEntropy()为交叉熵损失函数,ya为真实的属性标签,是预测的属性标签,LOSSa为二者之间的交叉熵损失值;
所述属性值预测:为自然语言处理中的命名实体识别任务,对于给定的输入token序列S={w1,w2,…,wn},相对应的标签序列为标签序列的标注格式采用BIO标注格式;
对于某些特定的属性,图像信息包含了比文本信息更多的语义,该部分模型将文本的向量表示hi、多模态向量表示h′i以及图像向量表示vk输入到跨模态的注意力层,获得输出的标签序列为
其中,W4、W5、W6分别为文本的向量表示hi、多模态向量表示hi、预测的属性标签以及图像向量表示vk的权重参数矩阵,/>为图像特征在最终融合特征中权重分数,softmax()是激活函数,/>是输出的标签序列;
通过交叉熵来计算属性值抽取任务的损失:
其中,CrossEntropy()为交叉熵损失函数,yv为真实的标签序列,是预测的标签序列,LOSSv为二者之间的交叉熵损失值。
更进一步的,所述MLM任务优化;MLM指选择一定比例句子,将其中的词汇标记为[MASK];
所述单词随机替换机制优化:去除原生模型中针对中文随机替换时出现的将词汇替换为一些无用词的机制;
所述NSP任务调整:NSP任务即后续语句预测,给定两个句子,要预测后一句子是否是前一句子的后续语句,经过验证,增加NSP任务对于提升后续机器阅读理解模型准确度效果不大,训练时移除了NSP任务;
所述BERT_EP模型训练过程如下:
训练序列长度为128的模型;
在128序列模型基础上依次训练序列长度为256或者512的模型,经过多轮验证,可知256序列的模型的指标与512序列模型指标差异较小,选择512序列模型,形成BERT_EP;
该模型网络层级为12层,神经网络参数数量为110M;
BERT模型的输入是词向量嵌入+句子区分嵌入表示+词位置嵌入叠加构成,其中:
词向量嵌入:是将单词划分成一组有限的公共子词单元,在单词的有效性和字符的灵活性之间取得一个折中的平衡;
词位置嵌入:将单词的位置信息编码成特征向量,此位置嵌入初始化时是初始化一个,通过训练将其学习出来;
句子区分嵌入表示:用于区分两个句子的向量表示;
采用上述训练得到的BERT_EP模型对文本数据进行编码,获取文本特征向量,采用WordPiece编码,以字为单位的token、位置编码以及分词编码结合作为输入;在每句文本的句首加入特殊字符[CLS],在句尾加入特殊字符[SEP],对于每个输入序列S={[CLS],w1,w2,…,wn,[SEP]},通过BERT模型得到编码序列h={h1,h2,…,hn}。
更进一步的,所述合规判别模块包括:指标参数的实体链接、指标值的属性抽取及允许偏差的分数计算;采用BERT模型进行词向量编码,BERT采用字级的语义向量编码;
所述实体链接是将指标参数实体识别出来与知识库中的实体相关联,进行指标参数匹配;采用字级编码进行实体链接,识别出的实体的字级编码集合为W′(w′1,w′2,...,w′n),候选实体集中实体的字级编码集合为W(w1,w2,...,wn),通过计算两个集合中的重复元素个数所占比例得到字级语义得分;
其中,W′是识别出的实体的字级编码集合,W是候选实体集中实体的字级编码集合,n(*)为数量计算公式,∩为交集的计算符号,cos(*)计算二者之间的余弦相似度,α与(1-α)分别表示前后两者的置信分数,p为字级语义得分;
对识别出的实体采用严格的实体链接策略,即:要求识别出的实体名称与候选实体完全一致;若匹配成功,则表示问句中的实体与知识库中匹配的实体一致的概率很大,将满足条件的实体加入到实体候选集中;若匹配不成功,则通过计算知识库中的实体与问句中识别到的实体的词向量余弦相似度z,来获取候选实体集,计算为:
其中,W′是识别出的实体的字级编码集合,W是候选实体集中实体的字级编码集合,cos(*)计算二者之间的余弦相似度,(·)是矩阵相乘计算公式,|*|是模的计算公式,z词向量余弦相似值;
若仍然没有匹配到实体,则判断待审核资料中该审核项目欠缺或有误,得分为0;
属性抽取是在实体链接完成后,对输入文本的属性进行抽取,属性匹配;通过实体链接操作后,根据本体知识库中的相对应的目标子类,其属性固定且数量较少,通过基于BERT+Bi-LSTM网络的多关系抽取模型,获取极高性能的输入文本所包含的属性;
通过上述的类别与属性的匹配之后,在本体知识库中获取与该指标参数唯一对应的指标值y;模型将输入文本中获取到的指标值y’按照顺序与抽取出的类别-指标参数进行对应;计算得出偏差:
上式中:d为偏差,y为真实的指标值,y′为预测的指标值;
与对应的“允许偏差”进行比较,根据预设的打分规则获取最终的得分。
一种变压器技术符合性评估数字化智能审核装置,所述智能审核装置实现所述的智能审核方法,该装置包括以下模块构成:电力设备语料库构建模块、本体知识库构建模块、预处理模块、要素识别模型、合规判别模块及复核模块;其中,所述电力设备语料库构建模块和本体知识库构建模块的输出端分别与预处理模块的输入端相连接,预处理模块的输出端与要素识别模型的输入端相连接,要素识别模型的输出端与合规判别模块的输入端相连接,合规判别模块的输出端与复核模块的输入端相连接;
更进一步的,所述电力设备语料库构建模块,包括但不限于公开电力标准、电力培训手册、各类电力电子书籍、电力百科、设备故障报告及设备缺陷;
所述本体知识库构建模块,是针对变压器技术符合性评估场景极具专业性的特点,将非结构化的文本数据转换为结构化的知识进行存储,并以审查项目为本体类,以指标参数为属性,以指标值为属性值构建审查类本体知识库;
所述预处理模块,包含:
一部分是针对构建的电力设备语料,该部分的资料文件能够确保准确性;通过在本体知识库模块中构建的领域专业词汇表对文本进行分词,依据标签类别对分词后的文本进行命名实体识别的类别标注,对资料中的图片所涵盖的审查类别、属性、属性值进行标注;得到的标注结果作为后续模型的训练样本对模型进行有监督的训练;
另一部分是针对待审核的资料文件;对资料文件中的文本模态数据进行清洗,通过文本中指向图片的符号标识将文本段落与图片进行一一对应,为后续文本与图片模态之间的信息交互执行特征编码操作奠定数据基础;
所述要素识别模型,用于抽取审核资料中的指标参数以及指标值,通过引入多模态技术,充分抓取审核资料中的文本、图片模态信息;通过多模态特征融合机制,增强模态间的信息交互,抽取出相应的文本、图片所包含的指标参数类别与指标值;对于表格类型的数据,通过表格规则模板直接抽取;最终将抽取出的信息通过本体知识库中构建的本体层进行规范统一化;
所述合规判别模块,用于通过实体链接技术将要素识别模型抽取出的指标参数与指标值数据对,以指标参数为依据在本体知识库中的进行指标参数实体链接,将抽取出的指标值与相应的本体知识库中的指标值进行对比,通过预先设计的打分规则函数进行打分,实现变压器技术符合性评估场景的智能审核;
所述复核模块,用于为审核算法的打分结果进行确认,为各审核项目的分数详情提供可视化的窗口;当待审核方对结果存在异议时进行申诉和对分数校正。
一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的一种变压器技术符合性评估数字化智能审核方法的步骤。
一种计算机存储介质,所述计算机存储介质上存有计算机程序,所述计算机程序被处理器执行时实现所述的一种变压器技术符合性评估数字化智能审核方法的步骤。
本发明具有以下有益效果及优点:
本发明是在现有的信息抽取技术的基础上,引入多模态的技术,并提出了一种新颖的多模态特征融合机制,增强各模态间的信息交互,从而增强各模态间指标参数遗漏的互补能力,确保指标值的一致性,并使模型具备一定程度的查错能力。此外,本发明将多模态信息抽取与实体链接相结合,将信息抽取出的属性、属性值与专家构建的领域知识库直接映射,避免了传统的规则匹配方法的绝对性,使模型在处理同义词、近义词、缩写、错别字时更加灵活、更加智能,同时也显著的提升了模型的性能。
本发明的主要研究成果是多模态信息抽取,提出的变压器技术要素识别方法能够智能识别审核资料中的关键指标参数,提取指标值;然后将其与细则标准进行链接映射,通过专家组预先设定的打分标准进行评估,从而实现文档的智能化审核。在此基础上,集成了该方法的智能化审核装置有效的缓解了人工审核准确率不足的问题,并显著的提高了审核效率。
本发明的应用推广,能够提升变压器技术参数符合性评估工作的智能化程度,提高评估工作的效率,降低评估专家认为判别失误,为电力公司减负增效提供支撑工具,可提高电网公司的安全生产水平、企业形象及社会形象,给供电公司和电力用户带来大量的直接和间接社会经济效益。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明审核方法步骤流程图;
图2是本发明的要素识别模型的多模态信息抽取算法图;
图3是本发明的合规判别模块的界面图;
图4是本发明的人工复核界面;
图5是本发明的基本电气参数表项目审核性规则图;
图6是本发明的《某厂基本电气参数表》中关于短路阻抗和偏差参数说明图;
图7是本发明一种变压器技术符合性评估数字化智能审核装置的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面将结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面参照图1-图7描述本发明一些实施例的技术方案。
实施例1
本发明提供了一个实施例,是一种变压器技术符合性评估数字化智能审核方法,如图1所示,是本发明审核方法步骤流程图,具体包括以下步骤:
步骤1.构建电力设备语料库;
步骤2.构建本体知识库;
步骤3.针对构建的电力设备语料库和待审核的资料文件构建预处理模块;
步骤4.针对待审核的资料文件构建要素识别模型;
步骤5.对构建的要素识别模型通过合规判别模块进行变压器技术符合性评估场景的智能审核;
步骤6.对审核的结果通过复核模块进行确认和修正。
进一步的,步骤1所述的构建电力设备语料库,具体包括但不限于:公开电力标准、电力培训手册、各类电力电子书籍、电力百科、设备故障报告、设备缺陷等,共收集整理了1213份word、4656份PDF,50万份HTML,经过处理后,语料数据量为146万条。
进一步的,步骤2所述的构建本体知识库,是针对变压器技术符合性评估场景极具专业性的特点,首先通过领域专家对《国家电网有限公司220KV变压器技术符合性评估实施细则》的充分解读,将非结构化的文本数据转换为结构化的知识进行存储,并以审查项目为本体类,以指标参数为属性,以指标值为属性值构建审查类本体知识库。最大程度上保证了本体知识库的质量与准确性,为后续的要素识别模型、合规判别模块奠定基础。在此基础上,本发明通过本体知识库构建领域专业词汇表,并以本体为依托,对审查项目以及指标参数划分类别,为后续的多模态命名实体识别模型设立类别标签。
进一步的,步骤3所述针对构建的电力设备语料库和待审核的资料文件构建预处理模块,主要包含两部分。
一部分是针对构建的电力设备语料。该部分的资料文件能够确保准确性。首先通过在本体知识库模块中构建的领域专业词汇表对文本进行分词,然后依据标签类别对分词后的文本进行命名实体识别的类别标注,并对资料中的图片所涵盖的审查类别、属性、属性值进行标注。得到的标注结果作为后续模型的训练样本对模型进行有监督的训练。
另一部分是针对待审核的资料文件。首先对资料文件中的文本模态数据进行清洗,并通过文本中指向图片的符号标识将文本段落与图片进行一一对应,为后续文本与图片模态之间的信息交互执行特征编码操作奠定数据基础。
进一步的,步骤4所述的针对待审核的资料文件构建要素识别模型,主要目标是抽取审核资料中的指标参数以及指标值。并通过本发明提出的多模态特征融合机制,增强模态间的信息交互。最终抽取出相应的文本、图片所包含的指标参数类别与指标值。此外,对于表格类型的数据,由于其本身属于结构化数据,指标参数与指标值一一对应,通过表格规则模板即可直接抽取。最终将抽取出的信息通过本体知识库中构建的本体层进行规范统一化,便于后续的合规判别。
进一步的,步骤5所述的对构建的要素识别模型通过合规判别模块进行变压器技术符合性评估场景的智能审核,是通过实体链接技术将要素识别模型抽取出的指标参数与指标值数据对,以指标参数为依据在本体知识库中的进行指标参数实体链接,然后将抽取出的指标值与相应的本体知识库中的指标值进行对比,通过预先设计的打分规则函数进行打分,从而实现变压器技术符合性评估场景的智能审核。
进一步的,步骤6所述的对审核的结果通过复核模块进行确认和修正,主要的目的在于为评审审核算法的打分结果进行确认,同时也为各审核项目的分数详情提供可视化的窗口,使结果更加公开、透明。当待审核方对结果存在异议时可进行申诉,必要时便于评审专家对分数进行校正。该模块也为算法的策略提供一种负反馈机制,便于算法对不合理的部分进行修正、调整,提高算法的鲁棒性。
实施例2
本发明又提供了一个实施例,是一种变压器技术符合性评估数字化智能审核方法。本实施例以对套管选型报告的审核为例,根据《国家电网有限公司220KV变压器技术符合性评估实施细则》的要求,依据产品设计资料审查专项要求及评分细则,对“基本电气参数表”项目的审核要求按照图5规则进行审核。
以某制造厂提交的220KV变压器技术材料为例,对技术要素的识别过程进行说明。具体包括以下步骤:
步骤1.对待审核的目标资料通过文本与图标题的标识符号进行一一对应,并对文本模态的数据进行数据清洗。其次,对于表格类型的结构化数据,通过规则式信息抽取直接获取目标要素。
步骤2.对预处理之后得到的文本+图片对应的多模态数据,首先对文本模态采用BERT模型中的WordPiece操作,形成token序列。通过要素识别模型抽取输入数据中包含的指标参数及其对应的指标值。
步骤3.将获取的指标参数、指标值对通过构建的本体知识库以本体层为依据,规范化到对应的审核项目。然后通过合规判别模块对结果进行打分汇总得出最终的资料得分。
步骤4.通过复核模块对最终的得分结果进行确认。
实施例3
本发明又提供了一个实施例,是一种变压器技术符合性评估数字化智能审核方法,包括:
1.电力设备语料库。
本发明构建了电力设备语料,包括但不限于公开电力标准、电力培训手册、各类电力电子书籍、电力百科、设备故障报告、设备缺陷等,共收集整理了1213份word、4656份PDF,50万份HTML,经过处理后,语料数据量为146万条。
2.本体知识库。
本实施例中所用到的本体是使用OWL(Ontology Web Language)语言来表示的。OWL的优点是以Web资源为描述对象,被W3C作为推荐标准,具备良好的应用前景。此外,OWL基于描述逻辑(Description Logic,DL),描述逻辑是一阶谓词逻辑的可判定子集,能够提供可判定的推理服务,并且具有语义特征。意味着基于描述逻辑的0WL的类构造算子和公理都有相应的逻辑描述表示,令基于OWL构建的本体库在具备良好表现能力的基础上具备高性能的推理能力。
本发明主要通过对《国家电网有限公司220KV变压器技术符合性评估实施细则》的解读,以下简称为审核,将其中的“审核项目”、“审核指标”、“指标值”构建为审核本体。
主要目标为:
(1)利用本体的思想组织和描述“审核”领域知识;
(2)建立具备逻辑性以及可扩展性的本体库,为后续的合规判别提供依据;并为后续《实施细则》的修改和扩充提供可能。
概念结构:由于本发明所面向的“审核”领域层次结构十分明确,“审核项目”为领域的最高层次概念,因此,本发明采用“自顶向下”的概念结构方法。本发明构建了“基本电气参数”、“套管型式试验报告”、“有载分接开关进厂试验报告”等N个大类。子类则可根据不同的大类下的详细指标分类进行构建。具体的类别实例如图5所示,图5是本发明的基本电气参数表项目审核性规则图。
定义属性:属性描述的是概念之间的内在结构。在本体构建工作中,首先会根据构建好的概念结构来选择类,任意一个类的所有子类都会继承父类的属性。通过面向对象的特点,定义好父类的属性,然后再定义其子类特有的属性。然而,本发明所面向的审核领域并不具备这样的多样性,对于每个“审核项目”所包含的“审核指标”可通过具体大类对应的《实施细则》直接获取。具体的对应实例如图6所示,图6是本发明的《某厂基本电气参数表》中关于短路阻抗和偏差参数说明图。
领域词库,主要是审核领域的专业词库,包含了审核项目、审核指标参数、指标参数分类、参数描述、实体等。
实体标签,主要是根据领域词库以及审核本体所对应的审核信息抽取的实体标签,用于对训练数据集进行实体自动化标注,同时对测试集的预测结果进行标签映射。
打分规则:在本体知识库的构建工作中,对于每一个指标参数在所在类别下都存在具体的“允许偏差项”,本发明将其作为大类的属性被所有子类所继承,该属性作为打分规则的核心要素,由专家组按照《实施细则》的要求对指标参数项进行分数设置。
3.预处理模块。
预处理模块主要进行数据清洗、图文匹配、分词三部分操作。
数据清洗:由于本发明面向变压器技术相关的标准类资料,资料格式相对标准,在数据清洗阶段仅需要去掉格式等不可见符号。
图文匹配:本发明采用多模态的信息抽取算法,因此在数据处理阶段,需要将待审核的资料进行图文匹配。原始数据是由文本和图片组成的,当原始数据中的某一段落出现“如图N所示”的字样,则将该段落与原始数据中的“图N”的图片进行匹配,形成多模态的输入数据。
分词:本发明采用“jieba分词+自定义词典”的分词方式,自定义词典即为上述本体知识库构建模块提到的领域词库。分词的具体实例如下:“变压器的最大分接的高压-中压的短路阻抗为16.56%”,分词结果为:“变压器的最大分接的高压-中压的短路阻抗为16.56%”。
4.要素识别模型。
本发明所述的要素识别模型的多模态信息抽取算法如图2所示,其中BERT、Bi-LSTM、ResNet网络的详细介绍分别如下:
(1)文本编码层:
BERT模型(Bidirectional Encoder Representation from Transformers)是由Google公司提出的基于Transformer网络编码部分的自然语言处理模型,在多项自然语言处理任务中都具备强大的性能,是当前的主流模型。
本发明在原生的BERT-base基础上,针对电力设备语料,在MLM任务优化、单词随机替换机制优化、NSP任务调整三方面进行了增强,最终形成了针对电力设备的预训练模型BERT_EP。具体包括:
①MLM任务优化。
MLM指的是选择一定比例句子,将其中的词汇标记为[MASK]。本文选择语料库中25%的词汇,其中80%被[MASK]标记替换,10%被随机替换,10%保持不变,随后将替换后的句子输入到BERT中用于预测那些被替换的词汇。此外,本文将原生的以字为单位进行MASK的策略修改为以词语为单位进行MASK。通过专家整理,形成了电力设备专用词库,数量为42312个。
②单词随机替换机制优化。
去除了原生模型中针对中文随机替换时出现的将词汇替换为一些无用词的机制,例如将中文字随机替换到##ing、id、windows这种英文词上,保证随机替换到的词是数字、字母、中文词汇。
③NSP任务调整。NSP任务即后续语句预测,即给定两个句子S1和S2,要预测句子S2是否是句子S1的后续语句。经过多次验证,发现增加NSP任务对于提升后续机器阅读理解模型准确度效果不大,为了降低训练成本,训练时移除了NSP任务。
BERT_EP模型训练过程可以分为三步进行,首先训练序列长度为128的模型,再在128序列模型基础上依次训练序列长度为256或者512的模型,这三次训练的超参数如表1所示。
表1 BERT各阶段模型训练超参数
参数 128序列 256序列 512序列
样本数量 859046 571426 338622
拷贝份数 9 4 1
epoch 8 8 8
Loss 0.7941 0.6327 0.5974
batch_size 64 32 16
learning_rate 3e-5 3e-5 3e-5
do_lower_case False False False
max_predictions_per_seq 20 40 80
文本行数 1461250 1461250 1461250
训练步数 120900 71500 21170
表1中:
epoch:训练批次数量;loss:训练损失值;batch_size:每次输入的样本数量;learning_rate:学习率;do_lower_case:是否进行大小写转换;max_predictions_per_seq:每一条训练数据mask的最大数量;False:假。
经过多轮验证,发现256序列的模型的指标与512序列模型指标差异不大,最终选择512序列模型,最终形成BERT_EP。该模型网络层级为12层,神经网络参数数量为110M。
BERT模型的输入就是词向量嵌入+句子区分嵌入表示+词位置嵌入叠加构成,其中:
词向量嵌入:指将单词划分成一组有限的公共子词单元,能在单词的有效性和字符的灵活性之间取得一个折中的平衡。
词位置嵌入:将单词的位置信息编码成特征向量。此位置嵌入初始化时是初始化一个,然后通过训练将其学习出来。
句子区分嵌入表示:用于区分两个句子的向量表示。
本发明采用上述训练得到的BERT_EP模型对文本数据进行编码,获取文本特征向量,该模型采用WordPiece编码(以字为单位的token)、位置编码以及分词编码结合作为输入。此外,为满足BERT模型的特有输入格式,在每句文本的句首加入特殊字符[CLS],在句尾加入特殊字符[SEP],因此对于每个输入序列S={[CLS],w1,w2,…,wn,[SEP]},通过BERT模型得到编码序列h={h1,h2,…,hn}。
(2)上下文编码层:
长短时记忆网络(Long Short-Term Memory,LSTM)在自然语言处理中发挥了重要的作用。LSTM记忆单元由三个门构成,分别是输入门,遗忘门,输出门。记忆单元通过三个门控制信息的记忆与遗忘,使其能够比循环神经网络(Recurrent Neural Networks,RNN)利用更长距离的信息。具体记忆单元中的计算方式如下:
it=σ(Wxixt+Whiht-1+Wcict-1+bi) (输入门)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf) (遗忘门)
ct=ftct-1+it tanh(Wxcxt+Whcht-1+bc) (网络单元状态)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo) (输出门)
ht=ot tanh(ct) (输出)
其中:σ是sigmoid函数,W是每个链接的权重,b是偏置量,tanh()为激活函数,x为每个时刻的输入特征,i为每个时刻输入门的状态,f为每个时刻遗忘门的状态,c为每个时刻网络单元的状态,o为每个时刻输出门的状态,h为每个时刻网络的隐层状态表示。
长短时记忆网络解决了梯度消失以及梯度爆炸的问题,并能够沿着序列建模长期的上下文信息。而双向长短时记忆网络Bi-LSTM可以从过去和未来两个方向的时间序列中联合捕获上下文信息。本发明采用Bi-LSTM连接在文本编码层之后来建模文本的词向量表示,并发挥一种统一化词向量维度的功能。目的是与图像编码层输出的图像编码维度统一。经过Bi-LSTM层后的文本向量表示为
其中:为前向时间序列上下文信息隐层状态表示,/>为反向时间序列上下文信息隐层状态表示,w为权重矩阵,BiLSTM()为双向长短时记忆网络层。
(3)图像编码层:
深度残差网络(Deep residual network,ResNet)解决了深度网络由于层数的叠加而导致的退化问题。随着大规模预训练网络的兴起,预训练的ResNet网络已经成为图像编码操作的主流。本发明采用在ImageNet数据集上预训练的ResNet-101作为图像编码模型,并抽取其在本发明的图像数据集上fine-turn的conv5层的7*7*2048的特征图作为最终的图像特征向量V={v1,v2,…,vk},其中k=49。
(4)多模态特征融合机制:
对于一个特定的变压器设备,由于在不同的模态上存在语义关联性,如何将其文本与视觉语义通过跨模态的注意力机制整合到多模态的隐层表示中,成为解决多模态信息抽取的关键。因此,本发明提出了一种多模态特征融合机制,通过计算分别计算每个token-token对和token-region(图像区域)之间的注意力权重,模型能够直接关联句子不同位置与图像不同位置之间的特征信息。从而能够使模型建模模态间的交互,即,通过多模态的特征融合机制,可以借助图像特征有选择的丰富文本的语义表征,同时也能够避免图像特征中与文本特征毫不相关的噪声语义。
进一步,多模态特征融合机制将文本和图像特征向量表示hi和vk输入到跨模态的注意力层,然
后获得增强的多模态表示h′i
其中:是权重参数矩阵,是自注意力机制(self-attention)特有的Q(询问)、K(键)、V(值)权重矩阵在本发明中的应用形式,前三者是文本特征的self-attention参数,后三者是图像特征的self-attention参数,d是/>的维度,是文本特征的self-attention权重,/>是图像特征的self-attention权重,/>是文本特征在最终融合特征中权重分数,/>是图像特征在最终融合特征中权重分数,h′i是增强的多模态表示。
(5)输出层:
模型的输出层分为两部分:属性预测和属性值预测,其中属性预测是指标参数,属性值预测是指标值。
所述属性预测:为自然语言处理中的分类任务。对于数据集中给定的一个样本数据预测变压器设备的属性,其中/>表示实例的第l层的属性标签为1。首先通过文本编码层以及上下文编码层获取输入文本的表示hi,然后通过图像编码层与多模态特征融合机制获取多模态表示h′i。其中h0表示输入token序列中的特殊元素[CLS],由于BERT模型中特殊的self-attention机制,该元素的隐层向量表示可以关注整个序列的语义。将上述三者输入到前向网络层输出预测的属性标签/>
其中,W1、W2、W3分别表示输入文本的表示hi、多模态表示h′i、输入token序列中[CLS]的表示h0的权重参数矩阵,σ为sigmoid函数,是预测的属性标签。
然后,通过在所有L个标签上的交叉熵来计算属性预测任务的损失:
其中,CrossEntropy()为交叉熵损失函数,ya为真实的属性标签,是预测的属性标签,LOSSa为二者之间的交叉熵损失值。
所述属性值预测:为自然语言处理中的命名实体识别任务。对于给定的输入token序列S={w1,w2,…,wn},相对应的标签序列为标签序列的标注格式采用BIO标注格式。例如,变压器的属性标签“材料”对应标签为“B-MAT”和“I-MAT”。属性可以为属性值的预测提供关键性指标,例如,对于输入文本“变压器的颜色为黑色”,可以很容易的预测出对应属性的“颜色”为“黑色”,而不是属性“材料”为“黑色”。因此,模型在预测属性值时,将属性的预测结果纳入先验知识特征当中,从而提高模型对属性值预测的性能。
此外,对于某些特定的属性,图像信息可能包含了比文本信息更多的语义。例如“颜色”,由于图片的直观性,在本发明中可能就会忽略对该属性的介绍。因此,在训练过程中,模型设置特别的门机制来增强该类型属性的视觉语义表示,目的在于更有效的利用图像信息特征。该部分模型将文本的向量表示hi、多模态向量表示h′i以及图像向量表示vk输入到跨模态的注意力层,然后获得输出的标签序列为
其中,W4、W5、W6分别为文本的向量表示hi、多模态向量表示h′i、预测的属性标签/>以及图像向量表示vk的权重参数矩阵,/>为图像特征在最终融合特征中权重分数,softmax()是激活函数,/>是输出的标签序列。
然后,通过交叉熵来计算属性值抽取任务的损失:
其中,CrossEntropy()为交叉熵损失函数,yv为真实的标签序列,是预测的标签序列,LOSSv为二者之间的交叉熵损失值。
5.合规判别模块。
合规判别模块主要包括三个阶段,分别是:指标参数的实体链接、指标值的属性抽取、允许偏差的分数计算。本发明采用BERT模型进行词向量编码,BERT采用的是字级的语义向量编码,字级的编码能够不受错别字的影响,从而正确标注出实体在文中的位置。
实体链接是将指标参数实体识别出来与知识库中的实体相关联,即:指标参数匹配。具体步骤为:例如:“变压器的最大分接的高压-中压的短路阻抗为16.56%”,首先识别出实体“最大分接”及其子类“高压-中压”,接下来需要从知识库中寻找到与其最相关的实体。
本发明采用字级编码进行实体链接。识别出的实体的字级编码集合为W′(w′1,w′2,...,w′n),候选实体集中实体的字级编码集合为W(w1,w2,...,wn)。通过计算两个集合中的重复元素个数所占比例得到字级语义得分。
其中,W′是识别出的实体的字级编码集合,W是候选实体集中实体的字级编码集合,n(*)为数量计算公式。∩为交集的计算符号,cos(*)计算二者之间的余弦相似度,α与(1-α)分别表示前后两者的置信分数,p为字级语义得分。
对识别出的实体首先采用严格的实体链接策略,即:要求识别出的实体名称与候选实体完全一致。若匹配成功,则表示问句中的实体与知识库中匹配的实体一致的概率很大。将满足条件的实体加入到实体候选集中。该策略能够充分利用中文汉字的特点,有效降低词向量训练所带来的误差,从而提高实体链接的精度。若匹配不成功,则通过计算知识库中的实体与问句中识别到的实体的词向量余弦相似度z,来获取候选实体集,具体的计算为:
其中,W′是识别出的实体的字级编码集合,W是候选实体集中实体的字级编码集合,cos(*)计算二者之间的余弦相似度,(·)是矩阵相乘计算公式,|*|是模的计算公式,z词向量余弦相似值。
若仍然没有匹配到实体,则判断待审核资料中该审核项目欠缺或有误,得分为0。
属性抽取的作用是在实体链接完成后,对输入文本的属性进行抽取,即属性匹配。通过实体链接操作后,根据本体知识库中的相对应的目标子类,其属性固定且数量较少,通过基于BERT+Bi-LSTM网络的多关系抽取模型,即可以极高的性能获取输入文本所包含的属性。
通过上述的类别与属性的匹配之后,在本体知识库中即可获取与该指标参数唯一对应的指标值y。模型将输入文本中获取到的指标值y’按照顺序与抽取出的类别-指标参数进行对应。计算得出偏差:
上式中:d为偏差。y为真实的指标值,y′为预测的指标值。
与对应的“允许偏差”进行比较,根据预设的打分规则获取最终的得分。最终装置中合规判别模块的界面如图3所示。
6.复核模块。
对模型自动计算得出的分值进行审核,依据相关的准则进行校正,最终形成对项目的评分。
实施例4
本发明提供了一个实施例,是一种变压器技术符合性评估数字化智能审核装置,如图7所示,是本发明一种变压器技术符合性评估数字化智能审核装置的结构示意图。该装置包括以下六个模块构成,分别为:电力设备语料库构建模块、本体知识库构建模块、预处理模块、要素识别模型、合规判别模块、复核模块。其中,所述电力设备语料库构建模块和本体知识库构建模块的输出端分别与预处理模块的输入端相连接,预处理模块的输出端与要素识别模型的输入端相连接,要素识别模型的输出端与合规判别模块的输入端相连接,合规判别模块的输出端与复核模块的输入端相连接。
基于电力设备语料知识库构建模块处理电力设备原始文档,构建形成电力设备语料数据,并与本体知识库构建模块形成的本体知识一起作为后续模块输入,输入到预处理模块中,预处理模块参照本体知识对语料数据进行标注,形成标注结果,基于标注结果,要素识别模型采用多模态识别的方法识别文档中的指标、参数与表格信息,并将这些信息传递给合规判别模块,合规判别模块将要素识别模型识别出的指标与对应的规则进行计算,形成评分分数及问题清单,通过复核模块实现对合规判别模块的自动计算结果进行判断,判断正确的则接收该结果,判断错误的将判断结果拒绝并删除。
本发明装置中涉及到的各模块说明如下:
1.电力设备语料库构建模块。
电力设备语料库构建模块包括但不限于公开电力标准、电力培训手册、各类电力电子书籍、电力百科、设备故障报告、设备缺陷等,共收集整理了1213份word、4656份PDF,50万份HTML,经过处理后,语料数据量为146万条。
2.本体知识库构建模块。
本体知识库构建模块是针对变压器技术符合性评估场景极具专业性的特点,首先通过领域专家对《国家电网有限公司220KV变压器技术符合性评估实施细则》的充分解读,将非结构化的文本数据转换为结构化的知识进行存储,并以审查项目为本体类,以指标参数为属性,以指标值为属性值构建审查类本体知识库。最大程度上保证了本体知识库的质量与准确性,为后续的要素识别模型、合规判别模块奠定基础。在此基础上,本发明通过本体知识库构建领域专业词汇表,并以本体为依托,对审查项目以及指标参数划分类别,为后续的多模态命名实体识别模型设立类别标签。
3.预处理模块。
预处理模块主要包含以下两部分:
一部分是针对构建的电力设备语料。该部分的资料文件能够确保准确性,首先通过在本体知识库模块中构建的领域专业词汇表对文本进行分词,然后依据标签类别对分词后的文本进行命名实体识别的类别标注,并对资料中的图片所涵盖的审查类别、属性、属性值进行标注;得到的标注结果作为后续模型的训练样本对模型进行有监督的训练。
另一部分是针对待审核的资料文件。首先对资料文件中的文本模态数据进行清洗,并通过文本中指向图片的符号标识将文本段落与图片进行一一对应,为后续文本与图片模态之间的信息交互执行特征编码操作奠定数据基础。
4.要素识别模型。
要素识别模型用于抽取审核资料中的指标参数以及指标值。本发明提出了一种基于多模态信息抽取的变压器技术要素识别模型。该模型通过引入多模态技术,充分抓取审核资料中的文本、图片模态信息;并通过本发明提出的多模态特征融合机制,增强模态间的信息交互。最终抽取出相应的文本、图片所包含的指标参数类别与指标值。此外,对于表格类型的数据,由于其本身属于结构化数据,指标参数与指标值一一对应,通过表格规则模板即可直接抽取。最终将抽取出的信息通过本体知识库中构建的本体层进行规范统一化,便于后续的合规判别。
5.合规判别模块。
合规判别模块用于通过实体链接技术将要素识别模型抽取出的指标参数与指标值数据对,以指标参数为依据在本体知识库中的进行指标参数实体链接,然后将抽取出的指标值与相应的本体知识库中的指标值进行对比,通过预先设计的打分规则函数进行打分,从而实现变压器技术符合性评估场景的智能审核。
6.复核模块。
复核模块用于为评审专家审核算法的打分结果进行确认,同时也为各审核项目的分数详情提供可视化的窗口,使结果更加公开、透明。当待审核方对结果存在异议时可进行申诉,必要时便于评审专家对分数进行校正。该模块也为算法的策略提供一种负反馈机制,便于算法对不合理的部分进行修正、调整,提高算法的鲁棒性。
实施例5
基于同一发明构思,本发明实施例还提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现实施例1或2或3所述的任意一种变压器技术符合性评估数字化智能审核方法的步骤。
实施例6
基于同一发明构思,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质上存有计算机程序,所述计算机程序被处理器执行时实现实施例11或2或3所述的任意一种变压器技术符合性评估数字化智能审核方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (6)

1.一种变压器技术符合性评估数字化智能审核方法,其特征是:包括以下步骤:构建电力设备语料库;构建本体知识库;针对构建的电力设备语料库和待审核的资料文件构建预处理模块;针对待审核的资料文件构建要素识别模型;对构建的要素识别模型通过合规判别模块进行变压器技术符合性评估场景的智能审核;对审核的结果通过复核模块进行确认和修正;
所述构建电力设备语料库,包括:公开电力标准、电力培训手册、各类电力电子书籍、电力百科、设备故障报告及设备缺陷;所述构建本体知识库,是针对变压器技术符合性评估场景极具专业性的特点,将非结构化的文本数据转换为结构化的知识进行存储,并以审查项目为本体类,以指标参数为属性,以指标值为属性值构建审查类本体知识库;所述针对构建的电力设备语料库和待审核的资料文件构建预处理模块,包含:针对构建的电力设备语料和针对待审核的资料文件;针对构建的电力设备语料是通过在本体知识库模块中构建的领域专业词汇表对文本进行分词,依据标签类别对分词后的文本进行命名实体识别的类别标注,并对资料中的图片所涵盖的审查类别、属性、属性值进行标注,得到的标注结果作为后续模型的训练样本对模型进行有监督的训练;针对待审核的资料文件,是对资料文件中的文本模态数据进行清洗,通过文本中指向图片的符号标识将文本段落与图片进行一一对应,为后续文本与图片模态之间的信息交互执行特征编码操作奠定数据基础;所述针对待审核的资料文件构建要素识别模型,目标是抽取审核资料中的指标参数以及指标值,通过引入多模态技术,充分抓取审核资料中的文本、图片模态信息;通过多模态特征融合机制,增强模态间的信息交互,最终抽取出相应的文本、图片所包含的指标参数类别与指标值;表格类型的数据通过表格规则模板直接抽取,最终将抽取出的信息通过本体知识库中构建的本体层进行规范统一化;所述对构建的要素识别模型通过合规判别模块进行变压器技术符合性评估场景的智能审核,是通过实体链接技术将要素识别模型抽取出的指标参数与指标值数据对,以指标参数为依据在本体知识库中的进行指标参数实体链接,再将抽取出的指标值与相应的本体知识库中的指标值进行对比,通过预先设计的打分规则函数进行打分,从而实现变压器技术符合性评估场景的智能审核;所述对审核的结果通过复核模块进行确认和修正,是为评审审核算法的打分结果进行确认,为各审核项目的分数详情提供可视化的窗口,当待审核方对结果存在异议时可进行申诉和校正;
所述要素识别模型,包括:文本编码层,上下文编码层,图像编码层,多模态特征融合机制,输出层;所述文本编码层包括:①MLM任务优化;②单词随机替换机制优化;③NSP任务调整;所述上下文编码层:长短时记忆网络Long Short-Term Memory,LSTM在自然语言处理中发挥了重要的作用;LSTM记忆单元包括输入门,遗忘门及输出门;记忆单元通过三个门控制信息的记忆与遗忘,使其能够比循环神经网络Recurrent Neural Networks,RNN利用更长距离的信息;记忆单元中的计算方式如下:
it=σ(Wxixt+Whiht-1+Wcict-1+bi) (输入门)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf) (遗忘门)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc) (网络单元状态)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo) (输出门)
ht=ottanh(ct) (输出)
其中:σ是sigmoid函数,W是每个链接的权重,b是偏置量,tanh()为激活函数,x为每个时刻的输入特征,i为每个时刻输入门的状态,f为每个时刻遗忘门的状态,c为每个时刻网络单元的状态,o为每个时刻输出门的状态,h为每个时刻网络的隐层状态表示;
长短时记忆网络能够沿着序列建模长期的上下文信息,双向长短时记忆网络Bi-LSTM从过去和未来两个方向的时间序列中联合捕获上下文信息;采用Bi-LSTM连接在文本编码层之后来建模文本的词向量表示,并发挥一种统一化词向量维度的功能,与图像编码层输出的图像编码维度统一;经过Bi-LSTM层后的文本向量表示为
其中:为前向时间序列上下文信息隐层状态表示,/>为反向时间序列上下文信息隐层状态表示,w为权重矩阵,BiLSTM()为双向长短时记忆网络层;
所述图像编码层:深度残差网络Deep residual network,ResNet解决了深度网络由于层数的叠加而导致的退化问题;采用在ImageNet数据集上预训练的ResNet-101作为图像编码模型,并抽取其在图像数据集上fine-turn的conv5层的7*7*2048的特征图作为最终的图像特征向量V={v1,v2,…,vk},其中k=49;
所述多模态特征融合机制:是通过计算分别计算每个token-token对和token-region图像区域之间的注意力权重,模型直接关联句子不同位置与图像不同位置之间的特征信息,使模型建模模态间的交互;通过多模态的特征融合机制,借助图像特征有选择的丰富文本的语义表征,避免图像特征中与文本特征毫不相关的噪声语义;多模态特征融合机制将文本和图像特征向量表示hi和vk输入到跨模态的注意力层,获得增强的多模态表示h'i
其中:是权重参数矩阵,是自注意力机制self-attention特有的Q询问、K键、V值,权重矩阵的应用形式,前三者是文本特征的self-attention参数,后三者是图像特征的self-attention参数,d是/>的维度,/>是文本特征的self-attention权重,/>是图像特征的self-attention权重,/>是文本特征在最终融合特征中权重分数,是图像特征在最终融合特征中权重分数,h'i是增强的多模态表示;
所述输出层:模型的输出层分为两部分:属性预测和属性值预测,其中属性预测是指标参数,属性值预测是指标值;
所述属性预测:为自然语言处理中的分类任务,对于数据集中给定的一个样本数据预测变压器设备的属性,其中/>表示实例的第l层的属性标签为1;首先通过文本编码层以及上下文编码层获取输入文本的表示hi,再通过图像编码层与多模态特征融合机制获取多模态表示h'i;其中h0表示输入token序列中的特殊元素[CLS],将上述三者输入到前向网络层输出预测的属性标签/>
其中,W1、W2、W3分别表示输入文本的表示hi、多模态表示h'i、输入token序列中[CLS]的表示h0的权重参数矩阵,σ为sigmoid函数,是预测的属性标签;
通过在所有L个标签上的交叉熵来计算属性预测任务的损失:
其中,CrossEntropy()为交叉熵损失函数,ya为真实的属性标签,是预测的属性标签,LOSSa为二者之间的交叉熵损失值;
所述属性值预测:为自然语言处理中的命名实体识别任务,对于给定的输入token序列S={w1,w2,…,wn},相对应的标签序列为标签序列的标注格式采用BIO标注格式;
对于某些特定的属性,图像信息包含了比文本信息更多的语义,该部分模型将文本的向量表示hi、多模态向量表示h'i以及图像向量表示vk输入到跨模态的注意力层,获得输出的标签序列为
其中,W4、W5、W6分别为文本的向量表示hi、多模态向量表示h'i、预测的属性标签/>以及图像向量表示vk的权重参数矩阵,/>为图像特征在最终融合特征中权重分数,softmax()是激活函数,/>是输出的标签序列;
通过交叉熵来计算属性值抽取任务的损失:
其中,CrossEntropy()为交叉熵损失函数,yv为真实的标签序列,是预测的标签序列,LOSSv为二者之间的交叉熵损失值;
所述合规判别模块包括:指标参数的实体链接、指标值的属性抽取及允许偏差的分数计算;采用BERT模型进行词向量编码,BERT采用字级的语义向量编码;
所述实体链接是将指标参数实体识别出来与知识库中的实体相关联,进行指标参数匹配;采用字级编码进行实体链接,识别出的实体的字级编码集合为W′(w′1,w′2,...,w′n),候选实体集中实体的字级编码集合为W(w1,w2,...,wn),通过计算两个集合中的重复元素个数所占比例得到字级语义得分;
其中,W'是识别出的实体的字级编码集合,W是候选实体集中实体的字级编码集合,n(*)为数量计算公式,∩为交集的计算符号,cos(*)计算二者之间的余弦相似度,α与(1-α)分别表示前后两者的置信分数,p为字级语义得分;
对识别出的实体采用严格的实体链接策略,即:要求识别出的实体名称与候选实体完全一致;若匹配成功,则表示问句中的实体与知识库中匹配的实体一致的概率很大,将满足条件的实体加入到实体候选集中;若匹配不成功,则通过计算知识库中的实体与问句中识别到的实体的词向量余弦相似度z,来获取候选实体集,计算为:
其中,W'是识别出的实体的字级编码集合,W是候选实体集中实体的字级编码集合,cos(*)计算二者之间的余弦相似度,(·)是矩阵相乘计算公式,|*|是模的计算公式,z词向量余弦相似值;
若仍然没有匹配到实体,则判断待审核资料中该审核项目欠缺或有误,得分为0;
属性抽取是在实体链接完成后,对输入文本的属性进行抽取,属性匹配;通过实体链接操作后,根据本体知识库中的相对应的目标子类,其属性固定且数量较少,通过基于BERT+Bi-LSTM网络的多关系抽取模型,获取极高性能的输入文本所包含的属性;
通过上述的类别与属性的匹配之后,在本体知识库中获取与该指标参数唯一对应的指标值y;模型将输入文本中获取到的指标值y’按照顺序与抽取出的类别-指标参数进行对应;计算得出偏差:
上式中:d为偏差,y为真实的指标值,y'为预测的指标值;
与对应的“允许偏差”进行比较,根据预设的打分规则获取最终的得分。
2.根据权利要求1所述的一种变压器技术符合性评估数字化智能审核方法,其特征是:所述预处理模块,包括进行数据清洗、图文匹配及分词;
所述数据清洗:是指在数据清洗阶段去掉变压器技术相关的标准类资料格式不可见符号;
所述图文匹配:采用多模态的信息抽取算法,在数据处理阶段将待审核的资料进行图文匹配;
所述分词:采用“jieba分词+自定义词典”的分词方式。
3.根据权利要求1所述的一种变压器技术符合性评估数字化智能审核方法,其特征是:所述MLM任务优化;MLM指选择一定比例句子,将其中的词汇标记为[MASK];
所述单词随机替换机制优化:去除原生模型中针对中文随机替换时出现的将词汇替换为一些无用词的机制;
所述NSP任务调整:NSP任务即后续语句预测,给定两个句子,要预测后一句子是否是前一句子的后续语句,经过验证,增加NSP任务对于提升后续机器阅读理解模型准确度效果不大,训练时移除了NSP任务;
所述BERT_EP模型训练过程如下:
训练序列长度为128的模型;
在128序列模型基础上依次训练序列长度为256或者512的模型,经过多轮验证,可知256序列的模型的指标与512序列模型指标差异较小,选择512序列模型,形成BERT_EP;
该模型网络层级为12层,神经网络参数数量为110M;
BERT模型的输入是词向量嵌入+句子区分嵌入表示+词位置嵌入叠加构成,其中:
词向量嵌入:是将单词划分成一组有限的公共子词单元,在单词的有效性和字符的灵活性之间取得一个折中的平衡;
词位置嵌入:将单词的位置信息编码成特征向量,此位置嵌入初始化时是初始化一个,通过训练将其学习出来;
句子区分嵌入表示:用于区分两个句子的向量表示;
采用上述训练得到的BERT_EP模型对文本数据进行编码,获取文本特征向量,采用WordPiece编码,以字为单位的token、位置编码以及分词编码结合作为输入;在每句文本的句首加入特殊字符[CLS],在句尾加入特殊字符[SEP],对于每个输入序列S={[CLS],w1,w2,…,wn,[SEP]},通过BERT模型得到编码序列h={h1,h2,…,hn}。
4.一种变压器技术符合性评估数字化智能审核装置,其特征是:所述智能审核装置实现如权利要求1-3任一项所述的智能审核方法,该装置包括以下模块构成:电力设备语料库构建模块、本体知识库构建模块、预处理模块、要素识别模型、合规判别模块及复核模块;其中,所述电力设备语料库构建模块和本体知识库构建模块的输出端分别与预处理模块的输入端相连接,预处理模块的输出端与要素识别模型的输入端相连接,要素识别模型的输出端与合规判别模块的输入端相连接,合规判别模块的输出端与复核模块的输入端相连接。
5.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-3中任一权利要求所述的一种变压器技术符合性评估数字化智能审核方法的步骤。
6.一种计算机存储介质,其特征是:所述计算机存储介质上存有计算机程序,所述计算机程序被处理器执行时实现权利要求1-3中任一权利要求所述的一种变压器技术符合性评估数字化智能审核方法的步骤。
CN202210693673.4A 2022-06-18 2022-06-18 一种变压器技术符合性评估数字化智能审核方法与装置 Active CN114926150B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210693673.4A CN114926150B (zh) 2022-06-18 2022-06-18 一种变压器技术符合性评估数字化智能审核方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210693673.4A CN114926150B (zh) 2022-06-18 2022-06-18 一种变压器技术符合性评估数字化智能审核方法与装置

Publications (2)

Publication Number Publication Date
CN114926150A CN114926150A (zh) 2022-08-19
CN114926150B true CN114926150B (zh) 2024-05-14

Family

ID=82813627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210693673.4A Active CN114926150B (zh) 2022-06-18 2022-06-18 一种变压器技术符合性评估数字化智能审核方法与装置

Country Status (1)

Country Link
CN (1) CN114926150B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115271686B (zh) * 2022-09-28 2023-04-07 北京长河数智科技有限责任公司 政务数据智能审核方法及装置
CN115658853B (zh) * 2022-12-28 2023-04-11 中国气象局公共气象服务中心(国家预警信息发布中心) 一种基于自然语言处理的气象预警信息审核方法及系统
CN116108143B (zh) * 2023-04-10 2023-07-04 长春财经学院 基于区块链技术的数字经济监测方法及其系统
CN117610561B (zh) * 2024-01-23 2024-04-16 国网山东省电力公司东营供电公司 一种远程监督学习的电力文本审计异常识别方法及系统
CN117744787B (zh) * 2024-02-20 2024-05-07 中国电子科技集团公司第十研究所 一阶研判规则知识合理性的智能度量方法
CN117952563A (zh) * 2024-03-21 2024-04-30 武汉市特种设备监督检验所 一种电梯信息系统中快速注册及审查方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989041A (zh) * 2021-03-10 2021-06-18 中国建设银行股份有限公司 基于bert的文本数据处理方法及装置
CN113850570A (zh) * 2021-09-30 2021-12-28 中国建筑第七工程局有限公司 基于ai的专业方案辅助决策专家系统构建方法
CN113869054A (zh) * 2021-10-13 2021-12-31 天津大学 一种基于深度学习的电力领域项目特征识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989041A (zh) * 2021-03-10 2021-06-18 中国建设银行股份有限公司 基于bert的文本数据处理方法及装置
CN113850570A (zh) * 2021-09-30 2021-12-28 中国建筑第七工程局有限公司 基于ai的专业方案辅助决策专家系统构建方法
CN113869054A (zh) * 2021-10-13 2021-12-31 天津大学 一种基于深度学习的电力领域项目特征识别方法

Also Published As

Publication number Publication date
CN114926150A (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
CN114926150B (zh) 一种变压器技术符合性评估数字化智能审核方法与装置
CN111738004B (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN111651974B (zh) 一种隐式篇章关系分析方法和系统
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN108052504A (zh) 数学主观题解答结果的结构分析方法及系统
CN116662552A (zh) 金融文本数据分类方法、装置、终端设备及介质
CN113378024B (zh) 一种基于深度学习面向公检法领域的相关事件识别方法
CN114492460A (zh) 基于衍生提示学习的事件因果关系抽取方法
CN113722494A (zh) 一种基于自然语言理解的设备故障定位方法
CN117592563A (zh) 一种领域知识增强的电力大模型训调方法
CN117333146A (zh) 基于人工智能的人力资源管理系统及方法
CN117113937A (zh) 一种基于大规模语言模型的电力领域阅读理解方法和系统
CN117151222A (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN114943216B (zh) 基于图注意力网络的案件微博属性级观点挖掘方法
CN116882402A (zh) 基于多任务的电力营销小样本命名实体识别方法
CN114579706B (zh) 一种基于bert神经网络和多任务学习的主观题自动评阅方法
CN114781356B (zh) 一种基于输入共享的文本摘要生成方法
CN115840815A (zh) 基于指针关键信息的自动摘要生成方法
CN113590745B (zh) 一种可解释的文本推断方法
CN114238649A (zh) 一种常识概念增强的语言模型预训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant