CN117610561B - 一种远程监督学习的电力文本审计异常识别方法及系统 - Google Patents

一种远程监督学习的电力文本审计异常识别方法及系统 Download PDF

Info

Publication number
CN117610561B
CN117610561B CN202410088984.7A CN202410088984A CN117610561B CN 117610561 B CN117610561 B CN 117610561B CN 202410088984 A CN202410088984 A CN 202410088984A CN 117610561 B CN117610561 B CN 117610561B
Authority
CN
China
Prior art keywords
audit
event
audit event
text data
formatted text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410088984.7A
Other languages
English (en)
Other versions
CN117610561A (zh
Inventor
隋爱芳
许玮
丁鹏程
仲崇山
刘明智
卢宝田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongying Power Industry Bureau Of State Grid Shandong Electric Power Co
Original Assignee
Dongying Power Industry Bureau Of State Grid Shandong Electric Power Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongying Power Industry Bureau Of State Grid Shandong Electric Power Co filed Critical Dongying Power Industry Bureau Of State Grid Shandong Electric Power Co
Priority to CN202410088984.7A priority Critical patent/CN117610561B/zh
Publication of CN117610561A publication Critical patent/CN117610561A/zh
Application granted granted Critical
Publication of CN117610561B publication Critical patent/CN117610561B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Water Supply & Treatment (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及电力信息处理技术领域,特别是涉及一种远程监督学习的电力文本审计异常识别方法及系统,方法包括:获取电力工程项目待审计材料的文本数据;获取基于事件框架的审计业务过程树结构;得到格式化文本数据的审计事件;基于格式化文本数据的审计事件,得到非格式化文本数据的审计事件;将格式化和非格式化文本数据的审计事件进行合并,得到审计事件集合;将审计事件集合中的所有审计事件,逐一对应存储到树结构的审计事件节点中,遍历树结构的每个审计事件节点,对每个审计事件节点中存储的审计事件进行分类,对异常审计事件进行识别。对审计业务过程各环节进行自动比对、分析及异常识别,从而辅助审计人员精准发现可疑数据及问题隐患。

Description

一种远程监督学习的电力文本审计异常识别方法及系统
技术领域
本发明涉及电力信息处理技术领域,特别是涉及一种远程监督学习的电力文本审计异常识别方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
电力工程项目包含前期规划、招投标、施工过程、竣工结算等不同阶段,项目整体周期长、设备占比高、工序繁杂,各阶段均包含大量的工程资料,如设备说明、测试报告、出库单、入库单、出厂检验报告、合格证等。尤其结算阶段需要现场核实工程量、设备型号,并与竣工图纸中各要素进行对比。故电力工程审计需查阅大量资料,寻找审计线索。传统核查审计模式,依赖手工翻查纸质工程档案资料及人工现场核对,存在工作业务量大、效率低、时效差等问题,严重影响了审计效率和质量。尤其当前随着电力企业变革转型,业务范畴与经营领域均将发生前所未有的变革,传统的审计方法无法适应新环境下的内部审计需要。故为提高电力工程项目审计质效,亟需开展基于电子文本资料提取审计事件且易于扩展的数据化审计方法研究。
近年来,部分机构及学者已开展数字化审计研究,然而针对电力工程项目文本材料开展审计事件提取研究有限,且未建立审计事件与项目进度时效密切相关的数字化审计方法。当前传统文本事件抽取是基于人工确定事件候选触发词,该方法虽可高效提取格式化文本事件,但由于其扩展性和移植性差,难以适用于非格式化文本的事件提取;深度学习方法虽可提取非格式化文本的事件,但需依赖大量文本标记信息,否则效果不佳,然而人工标注成本高且效率低导致标记样本有限。
发明内容
为了解决现有技术的不足,本发明提供了一种远程监督学习的电力文本审计异常识别方法及系统;获取全场景、全类别电力工程项目审计样本材料,采用审计事件提取方法实现对电力工程项目审计事件的快速提取及自动嵌入,并对审计业务过程各环节进行自动比对、分析及异常识别,从而辅助审计人员精准发现可疑数据及问题隐患。
一方面,提供了一种远程监督学习的电力文本审计异常识别方法,包括:获取电力工程项目待审计材料的文本数据;所述文本数据,包括:格式化文本数据和非格式化文本数据;获取预先构建的基于事件框架的审计业务过程树结构; 采用设定的审计事件抽取模型,对格式化文本数据进行审计事件抽取,得到格式化文本数据的审计事件;基于格式化文本数据的审计事件,生成具有明确提示知识的触发词模版;将具有明确提示知识的触发词模版和非格式化文本数据,进行编码处理,得到非格式化文本数据的审计事件;将格式化文本数据的审计事件和非格式化文本数据的审计事件,进行合并,得到审计事件集合;将审计事件集合中的所有审计事件,逐一对应存储到树结构的审计事件节点中,遍历树结构的每个审计事件节点,对每个审计事件节点中存储的审计事件进行分类,对异常审计事件进行识别。
另一方面,提供了一种远程监督学习的电力文本审计异常识别系统,包括:第一获取模块,其被配置为:获取电力工程项目待审计材料的文本数据;所述文本数据,包括:格式化文本数据和非格式化文本数据;第二获取模块,其被配置为:获取预先构建的基于事件框架的审计业务过程树结构; 抽取模块,其被配置为:采用设定的审计事件抽取模型,对格式化文本数据进行审计事件抽取,得到格式化文本数据的审计事件;生成模块,其被配置为:基于格式化文本数据的审计事件,生成具有明确提示知识的触发词模版;将具有明确提示知识的触发词模版和非格式化文本数据,进行编码处理,得到非格式化文本数据的审计事件;合并模块,其被配置为:将格式化文本数据的审计事件和非格式化文本数据的审计事件,进行合并,得到审计事件集合;识别模块,其被配置为:将审计事件集合中的所有审计事件,逐一对应存储到树结构的审计事件节点中,遍历树结构的每个审计事件节点,对每个审计事件节点中存储的审计事件进行分类,对异常审计事件进行识别。
上述技术方案具有如下优点或有益效果:本发明针对准确的事件提取往往依赖于大量人工标记的问题,结合双层双向Transformer编码器,将固定文档提取的审计事件作为远程监督学习知识,以此生成具有明确提示知识的审计提示模版,从而提升非固定文本的审计事件提取的准确度,并可根据不同项目主题随需补充模版知识库内的提示知识。
本发明针对事后审计纠错力度小、异常溯源难、整改效果差等问题,将识别出的各类审计事件匹配到不同审计阶段及事件框架中,并根据项目进度设定固定时间点的审计风险识别规则,故可随项目工程进度对相关联审计事件进行核对,从而及时识别及推送异常审计事件,该方法可避免审计人员大量重复操作及反复资料核查工作,实现审计事中异常识别与管控。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为实施例一的方法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
实施例一
如图1所示,一种远程监督学习的电力文本审计异常识别方法,包括:S101:获取电力工程项目待审计材料的文本数据;所述文本数据,包括:格式化文本数据和非格式化文本数据;S102:获取预先构建的基于事件框架的审计业务过程树结构; S103:采用设定的审计事件抽取模型,对格式化文本数据进行审计事件抽取,得到格式化文本数据的审计事件;S104:基于格式化文本数据的审计事件,生成具有明确提示知识的触发词模版;将具有明确提示知识的触发词模版和非格式化文本数据,进行编码处理,得到非格式化文本数据的审计事件;S105:将格式化文本数据的审计事件和非格式化文本数据的审计事件,进行合并,得到审计事件集合;S106:将审计事件集合中的所有审计事件,逐一对应存储到树结构的审计事件节点中,遍历树结构的每个审计事件节点,对每个审计事件节点中存储的审计事件进行分类,对异常审计事件进行识别。
示例性地,所述待审计资料,包括:待审计的纸质档案和图片资料。
示例性地,所述获取电力工程项目待审计材料的文本数据,是通过光学字符识别工具,对待审计资料进行识别得到的。
应理解地,所述格式化文本数据,是指文本中固定区域具有固定的文本模式及内容;所述非格式化文本数据,是指文本中各个区域的文本模式及内容不固定。
示例性地,S101:获取电力工程项目待审计材料的文本数据,具体包括:基于ERP系统、财务管控系统、基建管控系统、生产管理 PMS 信息系统获取电力工程项目审计样本电子文本材料,根据项目类型及规模进行分类,形成审计样本集,将审计样本集按照格式分为格式化审计样本集和非格式化审计样本集。
分别从ERP 系统、财务管控系统、基建管控系统、生产管理 PMS等信息系统获取的各类电力工程审计数据。以输变电工程项目审计为说明实施例,采用工程项目200余项,合同1600余份等全量业务数据,现场采集设备标识牌1.2万余张,变压器、钢管杆、角钢塔、水泥杆等现场设备拍摄图片2000余张,开展本发明所述数字化审计方式构建及试点应用,如表1所示,为样本的待提取审计事件示例。
表1 待提取审计事件示例
其中,电力工程项目审计样本电子文本材料为借助于光学字符识别工具,将电力工程项目审计涉及的纸质文档、图片资料识别成电子文本材料。其中,格式化审计样本发明本是指文本中固定区域具有固定的文本模式及内容;非格式化文本是指文本中各个区域的文本模式及内容不固定。
进一步地,所述S102:获取预先构建的基于事件框架的审计业务过程树结构,所述树结构,包括:根节点,所述根节点与若干个审计阶段节点连接,每个审计阶段节点与若干个审计事件框架节点连接,每个审计事件框架节点与若干个审计事件类节点连接,每个审计事件类节点与若干个审计事件节点连接。
进一步地,所述审计阶段节点,是指审计事件所处的电力工程项目的一个阶段,电力工程项目,包括:前期规划阶段、招投标阶段、施工阶段、竣工结算阶段。
进一步地,所述审计事件框架节点,是指指在同一审计过程中,审计事件实例根据统计获取的设定批量的具有时序标签的审计事件集合。批量规模由专家定义。
事件框架的定义具体遵循时间段一致性、事件相似性和框架完整性,站用电系统安装费审核事件框架,内部均为安全费类的审核事件,满足事件相似性;事件框架的时间一致性是指定义的某一段时间,事件框架内的所有审计事件都在这段时间内发生;事件框架完整性是指框架可以覆盖某一环节审计过程中的所有审计事件。
进一步地,所述审计事件框架节点,包括:材料购置审核事件框架、安装费审核事件框架、建筑施工审核事件框架。其中,审计事件框架(Event Framework,EF)是基于同一类电力工程项目同一审计阶段中的部分审计事件集合,设定EF包含 N个审计事件,即,/>表示排序为n的审计事件。
进一步地,所述审计事件类节点,是指采用聚类的方式对审计事件节点进行聚类所得到的聚类簇。采用k-means聚类算法对审计事件节点进行聚类,设定聚类样本数量阈值,形成事件框架内的审计事件类。
审计事件类节点定义:指在同一审计框架中,统计最大数量的审计事件实例类,作为审计事件类节点。审计事件类节点包含:站用配电装置安装节点和站用电系统安装费节点。
进一步地,所述采用k-means聚类算法对审计事件节点进行聚类,设定聚类样本数量阈值,形成事件框架内的审计事件类,具体包括:(1):基于审计事件框架内的审计事件集合,任意选择k个不同的审计事件作为初始聚类中心;(2):计算其他审计事件与聚类中心是否为同一事件,若为同一事件,则归为该类,所有审计事件计算一遍后,未归类的审计事件样本作为一类;(3):将聚类后样本数量高于聚类样本数量阈值的聚类簇作为审计事件类,并选择未归类集合中的未作为聚类中心的随机一样本作为新的聚类中心,迭代重复,直至无新聚类中心产生,则输出满足高于聚类样本数量阈值的审计事件类。
本公开针对电力项目工程审计阶段多、流程梳理繁杂的问题,构建基于事件框架的审计业务过程,领域专家仅需对大粒度审计阶段和事件框架进行梳理,框架内小粒度审计事件采用聚类及小类别完善补全方法,进行审计事件细粒度流程梳理,该方法可有效减轻建模人员的工作量,仅需审核及调整具体审计业务过程的合理性。
本公开针对准确的事件提取往往依赖于大量人工标记的问题,故采用远程监督学习知识生成审计提示模板,结合双层双向Transformer编码器,共同构建基于远程监督知识生成提示模板的事件提取模型,即将固定文档提取的审计事件作为远程监督学习知识,补充于模板知识库中,以此生成具有明确提示知识的审计提示模板,从而提升非固定文本的审计事件提取的准确度,并可根据不同项目主题随需补充模板知识库内的提示知识。
本公开针对事后审计纠错力度小、异常溯源难、整改效果差等问题,将识别出的各类审计事件匹配到不同审计阶段及事件框架中,并根据项目进度设定固定时间点的审计风险识别规则,故可随项目工程进度对相关联审计事件进行核对,从而及时识别并推送异常审计事件,该方法可避免审计人员大量重复操作及反复资料核查工作,实现审计事中异常识别与管控。
进一步地,所述审计事件节点,定义:指审计事件实例。
应理解地,所述方法还包括:在同一个审计事件框架节点下,对不同审计事件节点,根据审计事件的被审核顺序进行排序。
将审计事件类中最多的审计事件排序号作为该审计事件类的序号,从而在审计事件框架内形成并联或者串联的审计事件,形成具有审计事件排序的事件框架。
示例性地,站用配电装置安装在站用电系统安装之前,故二者具有前后时序,以串联表示;而站区照明安装与站用配电装置安装在实际施工时,前后时序统计比例相近,故以时序并联表示。
进一步地,所述方法,还包括:对于没有被分到聚类簇中的审计事件节点,视为小类别审计事件节点;计算小类别审计事件节点的审计适用度评价指标(evaluationindicators, EI),如果评价指标高于设定阈值,则对审计事件的排序进行重新调整;如果评价指标低于设定阈值,则删除当前小类别审计事件节点。
进一步地,所述审计适用度评价指标EI:
其中,表示构建并完善后的事件框架内具有排序的审计事件集合,/>表示实际审计过程中的依据完成审计后排序的审计事件集合,对构建的审计业务过程事件排序号与实际样本事件排序号求异或,序号相同则为0,序号不同则为1,审计事件框架内的审计事件异或操作累计值作为适用度评估值,指标值越小表示构建的审计业务过程与实际审计过程相符,反之,值越大说明构建的审计业务过程越不适用于实际审计流程。
进一步地,所述S103:采用设定的审计事件抽取模型,对格式化文本数据进行审计事件抽取,得到格式化文本数据的审计事件,具体包括:S103-1:从格式化文本数据中提取事件触发词;S103-2:基于事件触发词,从审计提示模版知识库中提取若干个审计提示模版;所述审计提示模版是预先设定的,所述审计提示模版设有若干个字符槽位;S103-3:将格式化文本数据与若干个审计提示模版进行匹配,以实现对字符槽位的填充,得到若干个填充后的模版;S103-4:计算每个填充后的模版,已填充字符槽位数量与总字符槽位数量的比值,选择比值最大的填充后模版作为格式化文本数据的审计事件。
进一步地,所述S103-1:从格式化文本数据中提取事件触发词,具体包括:计算格式化文本数据中,每个词汇的出现频率,选择出现频率最高的词汇作为事件触发词。
进一步地,所述S103-2:基于事件触发词,从审计提示模版知识库中提取若干个审计提示模版;所述审计提示模版是预先设定的,所述审计提示模版设有若干个字符槽位,其中,每个审计提示模版设有索引词,计算事件触发词与索引词的相似度,选择相似度最高的N个索引词所对应的审计提示模版输出。
本发明以输变电工程项目为实施例,其审计合同文本的触发词为输变电工程项目合同。
进一步地,所述审计提示模版如下式所示:
其中,表示提取某类格式化文本审计事件集的某一审计提示模版,存储于模版知识库;/>代表提示模版中格式化文本审计事件前置自然语言描述文本(如成果交付的时间及地点);/>代表提示模版中格式化文本审计事件后置自然语言描述文本(如研发成果的验收);/>表示在提示模版中第i个槽位的审计事件角色;I代表审计提示模版知识库中用于该类格式化文本的审计事件个数。
进一步地,所述字符槽位,是指:电子文本是以字符构成的,文本分词后,每个字符具有一个槽位标识号。
进一步地,所述S103-3:将格式化文本数据与若干个审计提示模版进行匹配,以实现对字符槽位的填充,得到若干个填充后的模版,具体包括:以格式化文本中的字符对审计提示模版中槽位arg进行填充,输出格式化文本填充后的生成模版/>
其中,,/>代表格式化文本数据与提示模版匹配后,对槽位/>所填充的提取到的审计事件;/>代表格式化文本数据审计事件前置自然语言描述文本,/>代表格式化文本数据审计事件后置自然语言描述文本,若/>对应文本字符位求同运算的真值累计值,大于设定累计真值阈值时,则表示格式化文本数据与提示模版相匹配,从而对槽位进行审计事件填充;若不匹配,则对槽位不进行填充,输出为空。字符求同运算,相同字符则记为1,不同字符则记为0。
进一步地,所述103-4:计算每个填充后的模版,已填充字符槽位数量与总字符槽位数量的比值,选择比值最大的填充后模版作为格式化文本数据的审计事件,具体包括:基于获取的合同文本填充后的生成模版,计算同一审计事件/>的生成模版/>的各个填充字符位与模板字符位进行同或数学运算后的累计真值占提示模版总字符位字符数的比值,将最大比值的生成模版/>中填充的审计事件/>作为提取审计事件,即以最大匹配概率筛选出文本D的审计事件集合Q:
其中,p表示匹配概率;w表示合同文本审计事件的前后置自然语言描述文本;Q表示审计事件集合,为生成模版。
进一步地,所述S104:基于格式化文本数据的审计事件,生成具有明确提示知识的触发词模版,具体包括:审计提示模版知识库内的构造提示模版及基于远程监督知识生成的具有明确提示知识的触发词模版/>如下式所示:
其中,表示格式化文本数据的审计事件的前置自然语言描述(如交付、安装等);/>表示定义的事件角色集/>(如时间角色、地点角色、设备名称角色、出厂单位角色等)中,第j个审计事件在提示模版中定义的槽位文本信息;M代表定义的构造提示模版最大个数;
其中,代表根据远程监督知识约束对槽位/>所匹配填充的提取事件触发词(如杆塔),其中,事件触发词存在于待提取事件中,但内容不超出待提取事件;若存在远程知识监督约束,且/>,即提取事件触发词存在于非格式化文本D中,则/>;若不存在知识监督约束或提取事件触发词不存在于非格式化文本,则不对槽位进行填充。
进一步地,所述S104:将具有明确提示知识的触发词模版和非格式化文本数据,进行编码处理,得到非格式化文本数据的审计事件,具体包括:将具有明确提示知识的触发词模版和非格式化文本数据,输入到训练后的Transformer编码器,进行编码处理,得到非格式化文本数据的审计事件。
进一步地,所述训练后的Transformer编码器,其训练过程包括:构建训练集,所述训练集为已知非格式化文本数据的审计事件所对应的格式化文本数据的审计事件和非格式化文本数据;将训练集,输入到Transformer编码器中,将实际审计事件与Transformer编码器提取审计事件的字符取异或累计值作为损失函数,对Transformer编码器进行反馈训练调参,在损失函数低于设定阈值时,固定Transformer编码器参数,得到训练后的Transformer编码器。非格式化文本数据,是指文本区域不固定,或者审计事件不固定的数据。
示例性地,所述S104:将具有明确提示知识的触发词模版和非格式化文本数据,进行编码处理,得到非格式化文本数据的审计事件,具体包括:基于给定的非格式化文本D及对应提示模版,将D与/>取交集,锁定某一审计事件的包含该审计事件前后置自然语言描述的文本段,以该文本段与提示模版/>共同作为输入向量,该文本段表示为,/>前置[SEP]将提示模版文本与非格式化文本段分隔,T表示待提取事件所在文本段的最大词向量个数,提示模版/>文本表示为/>,/>前置[CLS]开始标志字符,后接[SEP],从而将/>与/>衔接作为Transformer的输入,并采用参数初始化的linear层对/>进行提示模版数据抽取,具体过程为,采用词嵌入层对输入向量进行特征空间变换:
;/>;/>
其中,W表示待微调参权重参数矩阵,从当前谷歌官方发布的已预训练完成BERT(Bidirectional Encoder Representations from Transformers)获取Transformer编码器的参数,其维度为T;和/>为linear层的初始化权重参数矩阵,其维度均为/>,为待反馈学习参数;前后置是指,在文本中具有前后相邻关系的位置。
接着,A输入编码层,采用双层双向Transformer编码器作为编码层,单层双向Transformer编码器包含多个自注意力层,构成多头(Multi-Head)注意力机制,具体表示为:
其中,、/>、/>分别是E、K、V的权重矩阵,均为待微调权重参数矩阵;
d分别遍历从1到T方向和从T到1方向,获取、/>、/>和/>、/>、/>,具体表示为:
通过自注意力实现文本词序列的线性映射,得到多头自注意力的输出和/>,其计算式如下所示:
其中,表示每个词的查询和键向量的维度。
和/>分别输入下一层单层双向Transformer编码器,重复上述单层双向Transformer编码器数据处理过程,输出词编码向量/>,作为编码层输出编码向量Z。
编码层输出词编码向量Z输入全连接层,输出预测文本在输入非格式化文本段中的字符位:
其中,和/>分别代表输入非格式化文本段中的起始字符位和结束字符位,起始字符位和结束字符位中间的文本字符作为提取审计事件q。
本实施例以电力工程项目合同文本抽取后的审计事件作为远程监督知识输入审计提示模版知识库B后,生成提示模版,随后基于多层双向Transformer编码器进行变压器标识牌文本的审计事件提取,具体选取3类对比方法进行效果对比,分别为:(1)Bert +CRF:基于 Bert 和条件随机场方法,对变压器标识牌文本进行审计事件抽取;(2)Bert +Gan:基于人工标准提示学习模版的生成式方式,对变压器标识牌文本进行审计事件抽取;(3)Doc2EDAG:基于人工提示标注的 Transformer +图路径拓展的方法,对变压器标识牌文本进行审计事件抽取。
共计获取变压器标识牌文本865份,训练样本集与测试样本集分别为605张份和260份,变压器标识牌累计审计事件共计38项,采用准确率、精确率和召回率三个指标来衡量,本发明所提方法与其他三种方法的事件抽取对比效果,如表2所示。
表2事件抽取对比效果
测试集共计包含9800个审计事件(测试样本集260例,每例约包含38项待识别审计事件),如表2 所示,3类对比方法对人工提示标注样本量依赖度大,由50标注量提升至300标注量时,准确率分别提高34.4、43.33与26.32个百分点,覆盖率分别提高21.68、29.46和13.73个百分点,而本发明所述方法,可基于已提取的格式化文本审计事件进行远程监督学习,故对人工标注样本量依赖度较低,识别准确率均高于93%,且准确率和覆盖率均高于对比的3类方法,说明本发明方法可在低资源人工标注场景下,有效提取非格式化文本的审计事件。
其中,指标定义分别如下,准确率计算公式为:
覆盖率计算公式为:
其中,表示提取事件为正,/>表示提取事件为负,N表示测试样本集中的总审计事件数量,n表示提取出的审计事件数量。
示例性地,S105:将格式化文本数据的审计事件和非格式化文本数据的审计事件,进行合并,得到审计事件集合,具体包括:将由格式化文本提取的审计事件和由非格式化文本提取的审计事件,汇总形成项目审计事件集合Q,表示为
进一步地,所述S106:将审计事件集合中的所有审计事件,逐一对应存储到树结构的审计事件节点中,具体包括:对审计事件集合中的审计事件与树结构/>中的审计事件q的文本均进行二进制编码,生成/>和/>,计算提取的审计事件/>和树结构/>中的审计事件q的匹配特征值/>
其中,表示sigmoid激活函数;/>表示/>的二进制编码位数,/>表示对两个行向量相同位置进行逐元素同或操作,/>输出值范围为/>,值越大则表明/>q的匹配度越高;设定匹配阈值为0.9,如果/>高于匹配阈值,则提取审计事件/>,将审计事件/>嵌入树结构/>中的审计事件q
进一步地,所述S106:遍历树结构的每个审计事件节点,对每个审计事件节点中存储的审计事件进行分类,对异常审计事件进行识别,具体包括:初始化树结构中的各个审计事件初始化异常值得分为1,基于项目进度设定固定时间点的审计风险识别规则,对树结构/>中的各个审计事件进行异常识别,具体根据审计事件类型设定审计规则。
其中,审计规则包含两种:第一类是随项目进度时间点获取的审计事件存在与否,若存在则输出为1,若不存在则输出为0,项目实施阶段,合同是否已签订;第二类是随项目进度时间点获取的审计数据偏差的度量,若审计数据偏差的度量合理,则输出为1,若不合理则输出为0,项目实施阶段,合同签订日期是否不早于开工日期。
根据项目进度时间点获取各个审计事件的对比异常值得分,若存在对比异常值得分为0的审计事件,则及时发送异常通知及对应审计事件,从而帮助审计人员精准发现可疑数据及问题隐患。
针对电力项目工程审计阶段多、流程梳理繁杂的问题,构建基于事件框架的审计业务过程,领域专家仅需对大粒度审计阶段和事件框架进行梳理,框架内小粒度审计事件采用聚类及小类别完善补全方法,进行审计事件细粒度流程梳理,该方法可有效减轻建模人员的工作量,仅需审核及调整具体审计业务过程的合理性。
实施例以输变电工程项目的现场审计阶段为例,选取其柱上变压器检查、架空线路杆塔检查、杆塔设备检查三个审计事件框架,通过现场拍摄图片进行识别并作为现场核查存证,本发明前期对文本材料进行审计事件提取,并将其嵌入对应审计业务过程中。在现场审计阶段,基于现场拍摄图片进行设备数量、型号及铭牌信息识别,并与前期嵌入各个审计事件框架的信息进行对比,若信息量不匹配则发送异常识别信息,现场人员进行识别信息核查后,向项目管理(实施)单位、施工单位交代现场勘察审计情况,并三方签名确认。选取某地区输变电工程项目为例进行试点应用,包含线路工程和变电站工程,共计涉及变压器4站、架空线路杆塔32座/根(包含钢管杆、角钢塔和水泥杆等)、杆塔上设备368个(包含避雷器、隔离开关、柱上断路器、跌落式熔断器等)。其中涉及变压器标识牌4个,杆塔标识牌12个。在前期各个审计阶段中,对涉及变压器、架空线路杆塔、杆塔设备的数量、型号等进行审计事件提取后,分别嵌入审计业务过程的各个事件框架中,为阐明本发明所提审计事件嵌入及对比异常识别效果对比,表3对现场审计核查效果进行说明。
表3审计事件嵌入及异常识别
由表3可见,基于本发明方法,对审计现场拍摄图片进行识别后,与审计业务过程内的各个审计事件进行对比,在变压器、架空线路杆塔数量核查准确率均为100%,杆塔上设备由于图像拍摄距离原因,在识别阶段导致识别数量不准确,故核查准确率低于100%,同样原因导致杆塔上设备型号核查准确率。在核查信息与审计事件信息不匹配时,APP进行异常事件推送,需由现场人员进一步人工确认,可有效提高现场人员核查效率及取证有效性。
实施例二
本实施例提供了一种远程监督学习的电力文本审计异常识别系统,包括:第一获取模块,其被配置为:获取电力工程项目待审计材料的文本数据;所述文本数据,包括:格式化文本数据和非格式化文本数据;第二获取模块,其被配置为:获取预先构建的基于事件框架的审计业务过程树结构; 抽取模块,其被配置为:采用设定的审计事件抽取模型,对格式化文本数据进行审计事件抽取,得到格式化文本数据的审计事件;生成模块,其被配置为:基于格式化文本数据的审计事件,生成具有明确提示知识的触发词模版;将具有明确提示知识的触发词模版和非格式化文本数据,进行编码处理,得到非格式化文本数据的审计事件;合并模块,其被配置为:将格式化文本数据的审计事件和非格式化文本数据的审计事件,进行合并,得到审计事件集合;识别模块,其被配置为:将审计事件集合中的所有审计事件,逐一对应存储到树结构的审计事件节点中,遍历树结构的每个审计事件节点,对每个审计事件节点中存储的审计事件进行分类,对异常审计事件进行识别。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种远程监督学习的电力文本审计异常识别方法,其特征是,包括:
获取电力工程项目待审计材料的文本数据;所述文本数据,包括:格式化文本数据和非格式化文本数据;
获取预先构建的基于事件框架的审计业务过程树结构;
采用设定的审计事件抽取模型,对格式化文本数据进行审计事件抽取,得到格式化文本数据的审计事件;具体包括:
从格式化文本数据中提取事件触发词;基于事件触发词,从审计提示模版知识库中提取若干个审计提示模版;所述审计提示模版是预先设定的,所述审计提示模版设有若干个字符槽位;将格式化文本数据与若干个审计提示模版进行匹配,实现对字符槽位的填充,得到若干个填充后的模版;计算每个填充后的模版,已填充字符槽位数量与总字符槽位数量的比值,选择比值最大的填充后模版作为格式化文本数据的审计事件;
所述从格式化文本数据中提取事件触发词,具体包括:计算格式化文本数据中,每个词汇的出现频率,选择出现频率最高的词汇作为事件触发词;
所述基于事件触发词,从审计提示模版知识库中提取若干个审计提示模版;所述审计提示模版是预先设定的,所述审计提示模版设有若干个字符槽位,其中,每个审计提示模版设有索引词,计算事件触发词与索引词的相似度,选择相似度最高的N个索引词所对应的审计提示模版输出;
所述审计提示模版如下式所示:
其中,表示提取某类格式化文本审计事件集的某一审计提示模版,存储于模版知识库;/>代表提示模版中格式化文本审计事件前置自然语言描述文本;/>代表提示模版中格式化文本审计事件后置自然语言描述文本;/>表示在提示模版中第i个槽位的审计事件角色;I代表审计提示模版知识库中用于该类格式化文本的审计事件个数;
所述字符槽位,是指:电子文本是以字符构成的,文本分词后,每个字符具有一个槽位标识号;
所述将格式化文本数据与若干个审计提示模版进行匹配,以实现对字符槽位的填充,得到若干个填充后的模版,具体包括:以格式化文本中的字符对审计提示模版中槽位arg进行填充,输出格式化文本填充后的生成模版/>
其中,,/>代表格式化文本数据与提示模版匹配后,对槽位/>所填充的提取到的审计事件;/>代表格式化文本数据审计事件前置自然语言描述文本,/>代表格式化文本数据审计事件后置自然语言描述文本,/>和/>对应文本字符位求同运算的真值累计值,大于设定累计真值阈值时,则表示格式化文本数据与提示模版相匹配,从而对槽位进行审计事件填充;不匹配,则对槽位不进行填充,输出为空;字符求同运算,相同字符则记为1,不同字符则记为0;
所述计算每个填充后的模版,已填充字符槽位数量与总字符槽位数量的比值,选择比值最大的填充后模版作为格式化文本数据的审计事件,具体包括:基于获取的合同文本填充后的生成模版,计算同一审计事件/>的生成模版/>的各个填充字符位与模板字符位进行同或数学运算后的累计真值占提示模版总字符位字符数的比值,将最大比值的生成模版/>中填充的审计事件/>作为提取审计事件,即以最大匹配概率筛选出文本D的审计事件集合Q:
其中,p表示匹配概率;w表示合同文本审计事件的前后置自然语言描述文本;Q表示审计事件集合,为生成模版;
基于格式化文本数据的审计事件,生成具有明确提示知识的触发词模版;将具有明确提示知识的触发词模版和非格式化文本数据,进行编码处理,得到非格式化文本数据的审计事件;
所述基于格式化文本数据的审计事件,生成具有明确提示知识的触发词模版,具体包括:审计提示模版知识库内的构造提示模版及基于远程监督知识生成的具有明确提示知识的触发词模版/>如下式所示:
其中,表示格式化文本数据的审计事件的前置自然语言描述;/>表示定义的事件角色集/>中,第j个审计事件在提示模版中定义的槽位文本信息;M代表定义的构造提示模版最大个数;
其中,代表根据远程监督知识约束对槽位/>所匹配填充的提取事件触发词,其中,事件触发词存在于待提取事件中,内容不超出待提取事件;若存在远程知识监督约束,且/>,即提取事件触发词存在于非格式化文本D中,则/>;若不存在知识监督约束或提取事件触发词不存在于非格式化文本,则不对槽位进行填充;
所述将具有明确提示知识的触发词模版和非格式化文本数据,进行编码处理,得到非格式化文本数据的审计事件,具体包括:将具有明确提示知识的触发词模版和非格式化文本数据,输入到训练后的Transformer编码器,进行编码处理,得到非格式化文本数据的审计事件;
所述训练后的Transformer编码器,其训练过程包括:构建训练集,所述训练集为已知非格式化文本数据的审计事件所对应的格式化文本数据的审计事件和非格式化文本数据;将训练集,输入到Transformer编码器中,将实际审计事件与Transformer编码器提取审计事件的字符取异或累计值作为损失函数,对Transformer编码器进行反馈训练调参,在损失函数低于设定阈值时,固定Transformer编码器参数,得到训练后的Transformer编码器;非格式化文本数据,是指文本区域不固定,或者审计事件不固定的数据;
将格式化文本数据的审计事件和非格式化文本数据的审计事件,进行合并,得到审计事件集合;
将审计事件集合中的所有审计事件,逐一对应存储到树结构的审计事件节点中,遍历树结构的每个审计事件节点,对每个审计事件节点中存储的审计事件进行分类,对异常审计事件进行识别。
2.如权利要求1所述的一种远程监督学习的电力文本审计异常识别方法,其特征是,获取预先构建的基于事件框架的审计业务过程树结构,所述树结构,包括:根节点,所述根节点与若干个审计阶段节点连接,每个审计阶段节点与若干个审计事件框架节点连接,每个审计事件框架节点与若干个审计事件类节点连接,每个审计事件类节点与若干个审计事件节点连接。
3.如权利要求2所述的一种远程监督学习的电力文本审计异常识别方法,其特征是,所述审计事件类节点,是指采用聚类的方式对审计事件节点进行聚类所得到的聚类簇;采用聚类算法对审计事件节点进行聚类,设定聚类样本数量阈值,形成事件框架内的审计事件类;
所述采用聚类算法对审计事件节点进行聚类,设定聚类样本数量阈值,形成事件框架内的审计事件类,具体包括:
基于审计事件框架内的审计事件集合,任意选择k个不同的审计事件作为初始聚类中心;
计算其他审计事件与聚类中心是否为同一事件,若为同一事件,则归为该类,所有审计事件计算一遍后,未归类的审计事件样本作为一类;
将聚类后样本数量高于聚类样本数量阈值的聚类簇作为审计事件类,并选择未归类集合中的未作为聚类中心的随机一样本作为新的聚类中心,迭代重复,直至无新聚类中心产生,则输出满足高于聚类样本数量阈值的审计事件类。
4.如权利要求3所述的一种远程监督学习的电力文本审计异常识别方法,其特征是,所述方法,还包括:
对于没有被分到聚类簇中的审计事件节点,视为小类别审计事件节点;
计算小类别审计事件节点的审计适用度评价指标,如果评价指标高于设定阈值,则对审计事件的排序进行重新调整;
如果评价指标低于设定阈值,则删除当前小类别审计事件节点;
其中,审计适用度评价指标EI:
其中,表示构建并完善后的事件框架内具有排序的审计事件集合,/>表示实际审计过程中的依据完成审计后排序的审计事件集合。
5.如权利要求1所述的一种远程监督学习的电力文本审计异常识别方法,其特征是,将审计事件集合中的所有审计事件,逐一对应存储到树结构的审计事件节点中,具体包括:
对审计事件集合中的审计事件与树结构/>中的审计事件q的文本均进行二进制编码,生成/>和/>,计算提取的审计事件/>和树结构/>中的审计事件q的匹配特征值
其中,表示sigmoid激活函数;/>表示/>的二进制编码位数,/>表示对两个行向量相同位置进行逐元素同或操作,/>输出值范围为/>,值越大则表明/>q的匹配度越高;设定匹配阈值,如果/>高于匹配阈值,则提取审计事件/>,将审计事件/>嵌入树结构/>中的审计事件q。
6.如权利要求1所述的一种远程监督学习的电力文本审计异常识别方法,其特征是,遍历树结构的每个审计事件节点,对每个审计事件节点中存储的审计事件进行分类,对异常审计事件进行识别,具体包括:
初始化树结构中的各个审计事件初始化异常值得分为1,基于项目进度设定固定时间点的审计风险识别规则,对树结构/>中的各个审计事件进行异常识别,具体根据审计事件类型设定审计规则;
其中,审计规则包含两种:第一类是随项目进度时间点获取的审计事件存在与否,若存在则输出为1,若不存在则输出为0,项目实施阶段,合同是否已签订;第二类是随项目进度时间点获取的审计数据偏差的度量,若审计数据偏差的度量合理,则输出为1,若不合理则输出为0,项目实施阶段,合同签订日期是否不早于开工日期。
7.一种远程监督学习的电力文本审计异常识别系统,采用如权利要求1所述的一种远程监督学习的电力文本审计异常识别方法,其特征是,包括:
第一获取模块,其被配置为:获取电力工程项目待审计材料的文本数据;所述文本数据,包括:格式化文本数据和非格式化文本数据;
第二获取模块,其被配置为:获取预先构建的基于事件框架的审计业务过程树结构;
抽取模块,其被配置为:采用设定的审计事件抽取模型,对格式化文本数据进行审计事件抽取,得到格式化文本数据的审计事件;
生成模块,其被配置为:基于格式化文本数据的审计事件,生成具有明确提示知识的触发词模版;将具有明确提示知识的触发词模版和非格式化文本数据,进行编码处理,得到非格式化文本数据的审计事件;
合并模块,其被配置为:将格式化文本数据的审计事件和非格式化文本数据的审计事件,进行合并,得到审计事件集合;
识别模块,其被配置为:将审计事件集合中的所有审计事件,逐一对应存储到树结构的审计事件节点中,遍历树结构的每个审计事件节点,对每个审计事件节点中存储的审计事件进行分类,对异常审计事件进行识别。
8.如权利要求7所述的一种远程监督学习的电力文本审计异常识别系统,其特征是,所述树结构,包括:根节点,所述根节点与若干个审计阶段节点连接,每个审计阶段节点与若干个审计事件框架节点连接,每个审计事件框架节点与若干个审计事件类节点连接,每个审计事件类节点与若干个审计事件节点连接。
9.如权利要求8所述的一种远程监督学习的电力文本审计异常识别系统,其特征是,所述审计事件类节点,是指采用聚类的方式对审计事件节点进行聚类所得到的聚类簇;采用聚类算法对审计事件节点进行聚类,设定聚类样本数量阈值,形成事件框架内的审计事件类;
所述采用聚类算法对审计事件节点进行聚类,设定聚类样本数量阈值,形成事件框架内的审计事件类,具体包括:
基于审计事件框架内的审计事件集合,任意选择k个不同的审计事件作为初始聚类中心;
计算其他审计事件与聚类中心是否为同一事件,若为同一事件,则归为该类,所有审计事件计算一遍后,未归类的审计事件样本作为一类;
将聚类后样本数量高于聚类样本数量阈值的聚类簇作为审计事件类,并选择未归类集合中的未作为聚类中心的随机一样本作为新的聚类中心,迭代重复,直至无新聚类中心产生,则输出满足高于聚类样本数量阈值的审计事件类。
10.如权利要求9所述的一种远程监督学习的电力文本审计异常识别系统,其特征是,还包括:
对于没有被分到聚类簇中的审计事件节点,视为小类别审计事件节点;
计算小类别审计事件节点的审计适用度评价指标,如果评价指标高于设定阈值,则对审计事件的排序进行重新调整;
如果评价指标低于设定阈值,则删除当前小类别审计事件节点;
其中,审计适用度评价指标EI:
其中,表示构建并完善后的事件框架内具有排序的审计事件集合,/>表示实际审计过程中的依据完成审计后排序的审计事件集合。
CN202410088984.7A 2024-01-23 2024-01-23 一种远程监督学习的电力文本审计异常识别方法及系统 Active CN117610561B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410088984.7A CN117610561B (zh) 2024-01-23 2024-01-23 一种远程监督学习的电力文本审计异常识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410088984.7A CN117610561B (zh) 2024-01-23 2024-01-23 一种远程监督学习的电力文本审计异常识别方法及系统

Publications (2)

Publication Number Publication Date
CN117610561A CN117610561A (zh) 2024-02-27
CN117610561B true CN117610561B (zh) 2024-04-16

Family

ID=89950261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410088984.7A Active CN117610561B (zh) 2024-01-23 2024-01-23 一种远程监督学习的电力文本审计异常识别方法及系统

Country Status (1)

Country Link
CN (1) CN117610561B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108701122A (zh) * 2016-01-25 2018-10-23 沃拉斯堤技术解决方案公司 用于企业资源计划系统中的事件管理的系统和方法
CN110024422A (zh) * 2016-12-30 2019-07-16 英特尔公司 物联网的命名和区块链记录
CN114547376A (zh) * 2022-02-18 2022-05-27 广州白云国际机场股份有限公司 基于大数据的机场报文数据智能处理方法、装置及介质
CN114926150A (zh) * 2022-06-18 2022-08-19 国网辽宁省电力有限公司电力科学研究院 一种变压器技术符合性评估数字化智能审核方法与装置
CN115098706A (zh) * 2022-08-25 2022-09-23 中电太极(集团)有限公司 一种网络信息提取方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124464A1 (en) * 2015-10-28 2017-05-04 Fractal Industries, Inc. Rapid predictive analysis of very large data sets using the distributed computational graph

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108701122A (zh) * 2016-01-25 2018-10-23 沃拉斯堤技术解决方案公司 用于企业资源计划系统中的事件管理的系统和方法
CN110024422A (zh) * 2016-12-30 2019-07-16 英特尔公司 物联网的命名和区块链记录
CN114547376A (zh) * 2022-02-18 2022-05-27 广州白云国际机场股份有限公司 基于大数据的机场报文数据智能处理方法、装置及介质
CN114926150A (zh) * 2022-06-18 2022-08-19 国网辽宁省电力有限公司电力科学研究院 一种变压器技术符合性评估数字化智能审核方法与装置
CN115098706A (zh) * 2022-08-25 2022-09-23 中电太极(集团)有限公司 一种网络信息提取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于文本挖掘技术的电力企业招投标智能审计探索与实践;王淼;朱宇龙;马博;刘森;黎晚晴;;中国管理信息化;20200715(14);全文 *

Also Published As

Publication number Publication date
CN117610561A (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN104200288B (zh) 一种基于因素与事件间相关关系识别的设备故障预测方法
CN110162478B (zh) 一种基于缺陷报告的缺陷代码路径定位方法
CN107561997A (zh) 一种基于大数据决策树的电力设备状态监测方法
CN107729576A (zh) 档案的管理方法和系统
US20230267273A1 (en) Machine learning methods and systems for extracting entities from semi-structured enterprise documents
CN110689371B (zh) 一种基于ai和大数据的智能营销云服务平台
CN108960321A (zh) 一种大型锂电池储能电站电池故障预测方法
CN111178680A (zh) 风电场工程质量全过程管理系统、方法及设备
CN115809833A (zh) 基于画像技术的基建项目智能监督方法、装置
CN114860882A (zh) 一种基于文本分类模型的公平竞争审查辅助方法
CN104021180A (zh) 一种组合式软件缺陷报告分类方法
CN116976318A (zh) 基于深度学习和模型推理的电网倒闸操作票智能审核系统
CN115983571A (zh) 一种基于人工智能的建筑业施工方案审核方法及其系统
CN114491081A (zh) 基于数据血缘关系图谱的电力数据溯源方法及系统
CN117610561B (zh) 一种远程监督学习的电力文本审计异常识别方法及系统
CN114118245A (zh) 一种电网设备资产台账异常数据自动修复系统及方法
CN116627913B (zh) 一种数据多通道快速存储管理方法及系统
CN116757498A (zh) 一种惠企政策推送方法、设备及介质
CN115563968A (zh) 水电运检知识自然语言人工智能系统及方法
CN116340534A (zh) 一种识别新能源异常数据的知识图谱构建方法和系统
CN116308679A (zh) 供应链异常订单处理方法、装置、设备及存储介质
CN110069838A (zh) 一种电子产品可靠性水平预计方法
CN113779892B (zh) 一种风速和风向的预测方法
CN115544235A (zh) 一种基于文本解析的电网规划智能问答系统
CN114610882A (zh) 一种基于电力短文本分类的异常设备编码检测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant