CN113792548A - 基于文本分词和统计校验的封面自动生成系统及方法 - Google Patents

基于文本分词和统计校验的封面自动生成系统及方法 Download PDF

Info

Publication number
CN113792548A
CN113792548A CN202111009009.5A CN202111009009A CN113792548A CN 113792548 A CN113792548 A CN 113792548A CN 202111009009 A CN202111009009 A CN 202111009009A CN 113792548 A CN113792548 A CN 113792548A
Authority
CN
China
Prior art keywords
word segmentation
text
overhaul
segmentation
application ticket
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111009009.5A
Other languages
English (en)
Inventor
李海科
梁刚
梁程
杨要中
王钰
白天予
徐坤
尚梦楠
张威
王群
虎挺昊
党旭鑫
张少伟
匙博恒
孙华凯
马浩然
何志轩
张发
马占军
田圳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202111009009.5A priority Critical patent/CN113792548A/zh
Publication of CN113792548A publication Critical patent/CN113792548A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于文本分词和统计校验的封面自动生成系统及方法,属于电力系统调度自动化技术领域,其特征在于,包括如下步骤:S1:获取检修申请票文本文件;S2:对检修申请票文本进行分词,保存检修内容和停电范围分词结果;S3:对分词结果进行解析和模型关联,获得结构化对象;当解析不成功时,返回S2调整分词算法;S4:调用封面专家库将解析结果自动汇总生成检修申请票封面。本发明应用计算机技术,采用最大匹配的文本分词方法,对检修内容和停电范围进行提取和模型关联,通过统计规则进行校验,确保分词结果符合调度规范,然后申请票系统调用专家库根据模型化的检修设备信息自动生成检修申请票封面。

Description

基于文本分词和统计校验的封面自动生成系统及方法
技术领域
本发明属于电力系统调度自动化技术领域,特别是涉及一种基于文本分词和统计校验的封面自动生成系统及方法。
背景技术
对于同时有多个现场的检修工作,使用检修申请票封面是调度生产管理中一种防止误操作的有效安全措施,随着电网规模的增大和综合检修程度的提高,检修申请票封面使用频次日益增加。一般地,同时有多个现场的检修工作较为复杂,检修申请票封面通常由有经验的调度人员和运行方式人员编制和层层校核。这种依靠人工编制的方法工作量较大,且易出现漏票现象,存在一定安全隐患。
发明内容
技术方案,为了解决上述背景技术中的技术问题:提供一种基于文本分词和统计校验的封面自动生成系统及方法,应用计算机技术,采用最大匹配的文本分词方法,对检修内容和停电范围进行提取和模型关联,同时,通过统计规则进行校验,确保分词结果符合调度规范,然后申请票系统调用专家库根据模型化的检修设备信息自动生成检修申请票封面。
本发明的第一目的是提供一种基于文本分词和统计校验的封面自动生成方法,包括:
S1:获取检修申请票文本文件;
S2:对检修申请票文本进行分词,保存检修内容和停电范围分词结果;
S3:对分词结果进行解析和模型关联,获得结构化对象;当解析不成功时,返回S2调整分词算法;
S4:调用封面专家库将解析结果自动汇总生成检修申请票封面。
优选地,所述S2具体为:
S201、根据检修申请票工作内容、停电设备的业务逻辑和调度综合命令术语,进行检修票文本的词典定义,形成厂站、电压、设备、操作字典;
S202、对检修申请票文本进行数据清洗;
S203、采用最大匹配算法结合字典进行文本切分,并存储分词结果;
S204、基于统计规则对分词结果进行统计校验:首先设分词字段为M1,M2,…,Mm,通过s种切分方法将字段切分为词S1,1,S1,2,Sl,k1,…,Ss,1,Ss,2,Ss,ks,定义每种分词概率
Figure BDA0003237937310000021
式中p(Si,j)为Si,j在申请票文本中出现的概率,从s种切分方法中返回切分频率最大的切分结果,其中m,s,ks,i,j均为自然数。
优选地,所述S3包括四个步骤:
S301、操作字提取;
S302、厂站标识;
S303、电压等级判断;
S304、设备类型判断。
本专利的第二发明目的是提供一种基于文本分词和统计校验的封面自动生成系统,包括:
数据获取模块:获取检修申请票文本文件;
分词保存模块:对检修申请票文本进行分词,保存检修内容和停电范围分词结果;
解析模块:对分词结果进行解析和模型关联,获得结构化对象;当解析不成功时,返回S2调整分词算法;
生成模块:调用封面专家库将解析结果自动汇总生成检修申请票封面。
优选地,所述分词保存模块包括:
词典定义模块:根据检修申请票工作内容、停电设备的业务逻辑和调度综合命令术语,进行检修票文本的词典定义,形成厂站、电压、设备、操作字典;
数据清洗模块:对检修申请票文本进行数据清洗;
切分模块:采用最大匹配算法结合字典进行文本切分,并存储分词结果;
校验模块:基于统计规则对分词结果进行统计校验:首先设分词字段为M1,M2,…,Mm,通过s种切分方法将字段切分为词S1,1,S1,2,Sl,k1,…,Ss,1,Ss,2,Ss,ks,定义每种分词概率
Figure BDA0003237937310000031
式中p(Si,j)为Si,j在申请票文本中出现的概率,从s种切分方法中返回切分频率最大的切分结果,其中m,s,ks,i,j均为自然数。
优选地,所述解析模块包括:
提取模块:操作字提取;
标识模块:厂站标识;
电压判断模块:电压等级判断;
设备判断模块:设备类型判断。
本专利的第三发明目的是提供一种实现上述基于文本分词和统计校验的封面自动生成方法的计算机程序。
本专利的第四发明目的是提供一种实现上述基于文本分词和统计校验的封面自动生成方法的信息数据处理终端。
本专利的第五发明目的是提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的基于文本分词和统计校验的封面自动生成方法。
本发明的优点及积极效果为:
采用本发明的技术方案,能够对检修申请票的工作内容和停电范围进行提取和模型关联后自动生成检修申请票封面,省去了人工手动编制,提高了效率;同时能够减少人工编制过程中的漏票现象,确保了调度生产安全。
附图说明
图1为本发明优选实例的流程图;
图2为本发明优选实例的生成结果;
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下。
请参阅图1至图2,具体方案为:
一种基于文本分词和统计校验的封面自动生成方法,包含下列步骤:
步骤1:获取检修申请票文本文件;
步骤2:对检修申请票文本进行分词,保存检修内容和停电范围分词结果;具体包括如下四个环节:
(1)根据检修申请票工作内容和停电设备的业务逻辑和调度综合命令术语,进行检修票文本的词典定义,形成厂站、电压、设备、操作字典;(2)对检修申请票文本进行数据清洗;(3)采用最大匹配算法结合词典进行文本切分并存储分词结果;(4)基于统计规则对分词结果进行统计校验:首先设分词字段为M1,M2,…,Mm,通过s种切分方法将字段切分为词S1,1,S1,2,Sl,k1,…,Ss,1,Ss,2,Ss,ks,定义每种分词概率
Figure BDA0003237937310000041
式中p(Si,j)为Si,j在申请票文本中出现的概率,从s种切分方法中返回切分频率最大的切分结果,其中m,s,ks,i,j均为自然数。
步骤3:对分词结果进行解析和模型关联,获得结构化对象;当解析不成功时,返回步骤2调整分词算法;步骤3是将文本分词结果解析为“厂站+电压+设备+操作”结构,包括四个步骤:(1)操作字提取;(2)厂站标识;(3)电压等级判断;(4)设备类型判断。
步骤4:检修申请票系统调用封面专家库将解析结果自动汇总生成检修申请票封面。
下面以“杨北路110kV北袁122开关及线路检修”和“110kV北袁线检修”两张检修申请票作进一步的示例说明。
步骤1:获取检修申请票文本:“杨北路110kV北袁122开关及线路检修”和“110kV北袁线检修”。
步骤2:自定义字典有厂站字典D1{杨北路,袁家河,...,航空};操作字典D2{检修,备用,…,退重合闸};设备字典D3{开关,线路,…,开关及线路};电压等级字典D4{10kV,35kV,…,220kV};
步骤3:采用最大匹配算法结合自定义词典将申请票文本分词为{杨北路、北袁122,、开关及线路、检修}和{110kV、北袁线、检修};
步骤4:对分词结果解析结构化为“杨北路/110kV/北袁122开关及线路/检修”和“110kV/北袁线/检修”。
步骤5:检修申请票系统调用封面专家库将解析结果判定为同一停电范围多个检修现场类型,自动汇总生成检修申请票封面。
一种基于用采数据的配电网故障处理系统,包括:
数据获取模块:获取检修申请票文本文件;
分词保存模块:对检修申请票文本进行分词,保存检修内容和停电范围分词结果;所述分词保存模块包括:
词典定义模块:根据检修申请票工作内容、停电设备的业务逻辑和调度综合命令术语,进行检修票文本的词典定义,形成厂站、电压、设备、操作字典;
数据清洗模块:对检修申请票文本进行数据清洗;
切分模块:采用最大匹配算法结合字典进行文本切分,并存储分词结果;
校验模块:基于统计规则对分词结果进行统计校验:首先设分词字段为M1,M2,…,Mm,通过s种切分方法将字段切分为词S1,1,S1,2,Sl,k1,…,Ss,1,Ss,2,Ss,ks,定义每种分词概率
Figure BDA0003237937310000051
式中p(Si,j)为Si,j在申请票文本中出现的概率,从s种切分方法中返回切分频率最大的切分结果,其中m,s,ks,i,j均为自然数。
解析模块:对分词结果进行解析和模型关联,获得结构化对象;当解析不成功时,返回S2调整分词算法;所述解析模块包括:提取模块:操作字提取;标识模块:厂站标识;电压判断模块:电压等级判断;设备判断模块:设备类型判断。
生成模块:调用封面专家库将解析结果自动汇总生成检修申请票封面。
一种实现上述基于文本分词和统计校验的封面自动生成方法的信息数据处理终端。
一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的基于文本分词和统计校验的封面自动生成方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

Claims (8)

1.一种基于文本分词和统计校验的封面自动生成方法,其特征在于,包括如下步骤:
S1:获取检修申请票文本文件;
S2:对检修申请票文本进行分词,保存检修内容和停电范围分词结果;
S3:对分词结果进行解析和模型关联,获得结构化对象;当解析不成功时,返回S2调整分词算法;
S4:调用封面专家库将解析结果自动汇总生成检修申请票封面。
2.根据权利要求1所述的基于文本分词和统计校验的封面自动生成方法,其特征在于,所述S2具体为:
S201、根据检修申请票工作内容、停电设备的业务逻辑和调度综合命令术语,进行检修票文本的词典定义,形成厂站、电压、设备、操作字典;
S202、对检修申请票文本进行数据清洗;
S203、采用最大匹配算法结合字典进行文本切分,并存储分词结果;
S204、基于统计规则对分词结果进行统计校验:首先设分词字段为M1,M2,…,Mm,通过s种切分方法将字段切分为词S1,1,S1,2,Sl,k1,…,Ss,1,Ss,2,Ss,ks,定义每种分词概率
Figure FDA0003237937300000011
式中p(Si,j)为Si,j在申请票文本中出现的概率,从s种切分方法中返回切分频率最大的切分结果,其中m,s,ks,i,j均为自然数。
3.根据权利要求1所述的基于文本分词和统计校验的封面自动生成方法,其特征在于,所述S3包括四个步骤:
S301、操作字提取;
S302、厂站标识;
S303、电压等级判断;
S304、设备类型判断。
4.一种基于文本分词和统计校验的封面自动生成系统,其特征在于,包括:
数据获取模块:获取检修申请票文本文件;
分词保存模块:对检修申请票文本进行分词,保存检修内容和停电范围分词结果;
解析模块:对分词结果进行解析和模型关联,获得结构化对象;当解析不成功时,返回S2调整分词算法;
生成模块:调用封面专家库将解析结果自动汇总生成检修申请票封面。
5.根据权利要求4所述的基于文本分词和统计校验的封面自动生成系统,其特征在于,所述分词保存模块包括:
词典定义模块:根据检修申请票工作内容、停电设备的业务逻辑和调度综合命令术语,进行检修票文本的词典定义,形成厂站、电压、设备、操作字典;
数据清洗模块:对检修申请票文本进行数据清洗;
切分模块:采用最大匹配算法结合字典进行文本切分,并存储分词结果;
校验模块:基于统计规则对分词结果进行统计校验:首先设分词字段为M1,M2,…,Mm,通过s种切分方法将字段切分为词S1,1,S1,2,Sl,k1,…,Ss,1,Ss,2,Ss,ks,定义每种分词概率
Figure FDA0003237937300000021
式中p(Si,j)为Si,j在申请票文本中出现的概率,从s种切分方法中返回切分频率最大的切分结果,其中m,s,ks,i,j均为自然数。
6.根据权利要求4所述的基于文本分词和统计校验的封面自动生成系统,其特征在于,所述解析模块包括:
提取模块:操作字提取;
标识模块:厂站标识;
电压判断模块:电压等级判断;
设备判断模块:设备类型判断。
7.一种实现权利要求1-3任一项所述基于文本分词和统计校验的封面自动生成方法的信息数据处理终端。
8.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-3任一项所述的基于文本分词和统计校验的封面自动生成方法。
CN202111009009.5A 2021-08-30 2021-08-30 基于文本分词和统计校验的封面自动生成系统及方法 Pending CN113792548A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111009009.5A CN113792548A (zh) 2021-08-30 2021-08-30 基于文本分词和统计校验的封面自动生成系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111009009.5A CN113792548A (zh) 2021-08-30 2021-08-30 基于文本分词和统计校验的封面自动生成系统及方法

Publications (1)

Publication Number Publication Date
CN113792548A true CN113792548A (zh) 2021-12-14

Family

ID=78876734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111009009.5A Pending CN113792548A (zh) 2021-08-30 2021-08-30 基于文本分词和统计校验的封面自动生成系统及方法

Country Status (1)

Country Link
CN (1) CN113792548A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899230A (zh) * 2014-03-07 2015-09-09 上海市玻森数据科技有限公司 舆情热点自动监测系统
CN105653562A (zh) * 2014-12-02 2016-06-08 阿里巴巴集团控股有限公司 一种文本内容与查询请求之间相关性的计算方法及装置
CN107092590A (zh) * 2017-03-17 2017-08-25 贵州恒昊软件科技有限公司 一种语句分词方法和系统
CN111832977A (zh) * 2020-07-30 2020-10-27 广东电网有限责任公司 一种基于自然语言解析的检修申请自动成票方法
CN112860872A (zh) * 2021-03-17 2021-05-28 广东电网有限责任公司 基于自学习的配电网操作票语义合规性的校验方法及系统
CN113033195A (zh) * 2021-03-15 2021-06-25 国网江苏省电力有限公司南通供电分公司 一种智能解析检修申请票生成调度操作序列的方法
CN113095050A (zh) * 2021-04-19 2021-07-09 广东电网有限责任公司 一种智能成票方法、系统、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899230A (zh) * 2014-03-07 2015-09-09 上海市玻森数据科技有限公司 舆情热点自动监测系统
CN105653562A (zh) * 2014-12-02 2016-06-08 阿里巴巴集团控股有限公司 一种文本内容与查询请求之间相关性的计算方法及装置
CN107092590A (zh) * 2017-03-17 2017-08-25 贵州恒昊软件科技有限公司 一种语句分词方法和系统
CN111832977A (zh) * 2020-07-30 2020-10-27 广东电网有限责任公司 一种基于自然语言解析的检修申请自动成票方法
CN113033195A (zh) * 2021-03-15 2021-06-25 国网江苏省电力有限公司南通供电分公司 一种智能解析检修申请票生成调度操作序列的方法
CN112860872A (zh) * 2021-03-17 2021-05-28 广东电网有限责任公司 基于自学习的配电网操作票语义合规性的校验方法及系统
CN113095050A (zh) * 2021-04-19 2021-07-09 广东电网有限责任公司 一种智能成票方法、系统、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
康伟;高丽媛;蓝海波;张锐;丁华杰;: "基于文本分词的检修申请单智能成票研究", 东北电力技术, no. 02, 20 February 2020 (2020-02-20) *

Similar Documents

Publication Publication Date Title
CN102522819B (zh) 智能变电站故障录波装置的录波模型建模方法
CN106021203B (zh) 一种智能变电站防误闭锁逻辑图形化表达方法
CN108446396B (zh) 一种基于改进型cim模型的电力数据处理方法
CN111832977A (zh) 一种基于自然语言解析的检修申请自动成票方法
CN103730894A (zh) 能量管理系统图形检查方法及装置
CN110704700B (zh) 一种基于专家知识规则库的一键顺控设备态智能拟制方法
CN103488726A (zh) 基于web-service的建设电网统一数据平台的方法
CN113792548A (zh) 基于文本分词和统计校验的封面自动生成系统及方法
CN116992051A (zh) 一种电网调度业务的知识图谱构建方法和装置
CN117691645A (zh) 一种用于智能微电网的储能系统
CN103633736B (zh) 从变电子站至主站的在线监测通信方法
CN104766183A (zh) 电网实时故障事件流程化管理系统及其采用的管理方法
CN106933156A (zh) 一种变电站的运维质量监控方法及装置
CN103001318A (zh) 一种基于61850的智能化变电站拓扑五防实现方法
CN114792200A (zh) 一种基于专家知识库的调度事故预案生成和校核方法
CN110287279B (zh) 一种将非结构化的日志报告转为结构化系统报表的方法
CN107748819A (zh) 一种基于自然语言处理的电气二次设备建模方法及系统
Han et al. An online calculation method of theoretical power losses for high-voltage distribution system based on rapid modeling and data quality analysis
Ruiz Flores ADMS Technology: the Challenges of Modeling to Operating Electrical Systems With Digital Twins
CN115952796A (zh) 电力设备故障分析方法和装置
CN113672647B (zh) 一种计划停电规范校验方法及装置
CN112383146B (zh) 变电站二次设备遥信监视操作任务的生成方法
CN115392614A (zh) 一种基于调控云平台的操作票安全防护校验方法
Sheng et al. Intelligent distribution network operation ticket system utilizing a network ordering approach based on mobile operations
CN113010694A (zh) 一种基于正则表达式的继电保护缺陷文本专属名词词典构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination